欧美一级爽aaaaa大片,国产精品成人自拍,国产999精品久久久,国产精品av一区二区三区

首頁 優秀范文 語音識別系統

語音識別系統賞析八篇

發布時間:2023-03-02 15:05:52

序言:寫作是分享個人見解和探索未知領域的橋梁,我們為您精選了8篇的語音識別系統樣本,期待這些樣本能夠為您提供豐富的參考和啟發,請盡情閱讀。

語音識別系統

第1篇

自上世紀中期以來,語音教學在語言教學中逐步受到重視,教育部《高等學校英語專業英語教學大綱》對學生的語音能力提出明確的要求,即要求發音正確,語調比較自然,以此目標指導語音教學。語音教學隨同外語教學理論、模式的演變也在經歷著一系列的變革,教學重點從初期的音素和單詞發音,發展到目前著重超切分音,如中信、節奏和語調等(羅立勝,2002)。而語言教學方式也由機械的模仿、重復、跟讀、單音糾正發展到今天交際性的練習和自主練習。但是在對新生的語音情況調查中發現,往往這種交際性練習和自主練習存在以下幾方面問題:學生水平參差不齊,受母語影響程度不一,大部分中學學習過英語語音但不系統,也不夠重視。中學教師因受應試教育的影響,少有時間教授語音發音,經調查,80%的學生稱中學學習過程中惟一的語音輸入來自英語教師。僅有30%的學生稱聽過磁帶、看過英文電影。語音學習雙層面的脫節性和去語境化學習97%學生因高考需要背記過國際音標及其在英語單詞中的讀音,但80%的學生表示沒有進行過系統的語音訓練,缺乏語境化教學。自主語音學習效果欠佳,孤立的語音練習很難在實際語言交流中應用。目前,語音課上教師主要幫助學生一對一,對比模仿練習發音,縮小學生在語音認知上母語和目標語之間的差異。課后學生僅能通過模仿有聲資料提高語音。標準程度往往由學生自行判斷,由于學生聽說能力的差異,自行判斷發音是否準確是不確定的。本文試圖以現代的語音教學技術Reading Assistant語音識別系統的引入探討語音教學模式的改革。

二、對Reading Assistant語音識別系統有效手段的分析

Reading Assistant語言學習系統由美國科學學習公司研發的,以語言學習理論和過程為基礎,旨在通過朗讀提高語音、詞匯、語法等語言綜合技能即“以讀促學”,筆者所在西安外國語大學英文學院于2008年9月開始使用該系統,擁有600個賬號,僅供一年級新生使用。目前主要用于配合語音課程,輔助完善語音自主學習。根據上述語音教學中存在的問題和應該堅持的教學原則,和以下Reading Assistant的教學特點作一對照,就不難理解該語音識別系統對英語語音學習及語言學習的可行性了。

1.根據Reading Assistant(語音識別)系統的(以下簡稱語音識別)的設計。實行學生每人擁有一個使用賬號,便于展開個性化的、有針對性的指導。滿足不同層次學生的要求,在語音教學中眾多語言教師發現模仿是提高語音的最有效方法之一,但是模仿什么語音材料,模仿哪種語音,怎樣模仿和自主學習能否模仿后是否準確仍有很大的困難,在使用語音識別系統時,學生首先要根據其設定的不同級別,和原有的測試級別自行測試,從精選的不同層次的150篇文章中選擇適合自己水平和類別的進行朗讀。

每次朗讀后根據語音發音有成績記錄,每篇文章可以朗讀10次。語音識別系統是建立在建構主意語音教學模式的理論智商,學生是學習的主體,不是被動地接受知識,而是主動地在原有的知識體系中,通過不斷地積極實踐,構建自己的新的知識和經驗。因此在這種長期的語音練習過程中,學生可以根據自己的學習需要“建構”語音學習材料,提高自主學習能力。

2.導入語音練習的語境化,模仿對象的本土化。在實際交往活動中,聽、說、讀、寫不是以孤立的因素和單詞為單位進行思想交流的,取而代之的是以綜合的句子和更高層次的話語單位進行的,孤立的因素和單詞的發音在綜合運用中會產生很大的變異,如連讀、失去爆破、弱讀等影響,因此,語音識別系統通過不同類別的文章(包括科技、生活、文藝、人物傳記)等等構建不同的語境,除了傳統意義對話中包含的語境外,文章中還涉及各個年齡段,男聲、女聲等讀音。錄音及文章內容的選擇全部出自母語國家。確保模仿對象發音的準確性。

3.判讀過程的準確性和可調節性。根據語音識別系統讀音匹配程度的設計,學生在閱讀過程中分別會出現完全正確發音、誤讀、不會讀、不準確等情況,并以不同顏色標注。每次閱讀完成后,學生可以查看有哪些單詞不準確。開始閱讀后,每讀一個單詞就會有不同顏色顯示。而在本身閱讀中如果出現嚴重的錯讀,該識別系統會停止前進,并隨機開始正確讀音,要求練習者跟讀。教師也可以根據自己的界面監控學生朗讀過程,隨時抽聽不同學生的朗讀情況。過度的糾錯會挫傷部分水平較低學生的學習積極性,因此在開始學習階段教師可以根據學生各個層次的學習調整不同的匹配度以提高學生學習興趣。

三、學生對語音識別使用情況及存在的問題

經過對英文學院2008級540名學生一學年使用情況的調查,86%的學生表示自己經常去RA實驗室,80%的學生認為RA有助于閱讀水平的提高,95%的學生認為RA對語音語調有幫助,90%的學生認為RA對聽力有幫助,85%的學生認為RA對整體學習有提高。對于語音識別系統進一步的學習和開發,學生表示除英語專業學生初期應用在語音教學以外,還應考慮繼續輔助閱讀、寫作等課程。而語音識別系統中文章內容選擇可以適當考慮本土化,多針對中國學生發音中存在的問題進一步涉及文章和練習。

綜上所述,外語語音教學目標不再是僵硬的單音、音素教學,而是融合更多語言交際任務的綜合教學,而隨著計算機、數字化和語音識別技術的發展,充分利用現代教育技術不僅可以豐富教學內容,更重要的是注意到學生的情感因素,培養學生自主學習能力,讓語音教學改變以往依賴性、單一性、枯燥性,使其更具創造性,讓以讀促學全方位體現在英語學習中。

參考文獻

[1]羅立勝等.英語語音教學的回顧及對目前英語語音教學的幾點意見.外語與外語教學,2002(10).

[2]顧佩婭等.基于構建主義的計算機輔助項目教學實踐.外語與外語教學,2003(7).

[3]陳愛勤,石春熙.英語專業新生語音教學的語境論研究.長春師范學院學報(人文社會科學版),2008(1).

第2篇

論文關鍵詞:VC,Matlab,實時語音識別,MFCC,DTW,非特定人,MEX

 

1引言

VC和Matlab的混合編程共同運用于語音識別,可以借助VC實現對語音信號的采集,同時通過Matlab強

大的矩陣計算功能,簡便化的編程方法,實現對語音

信號的識別處理。

其中,VC主要做語音信號的采集,通過借助于微

軟提供的WindowsMultimedia API 開發了在線實時語

音采集程序,實現了人機在線實時交互。

2 語音識別系統概述

語音信號的一般處理過程如圖 1所示,其中首先對語音信號進行預處理DTW,其中預處理包括預濾波、采樣和量化、加窗、端點檢測、預加重等。然后是信號特征量的提取,本文對信號的特征量進行Mel 頻率倒譜系數(Mel-Frequency Cepstrum Coefficients)處理。最后通過對已經建立好的參數模板進行對比,測試的依據是失真度最小準測,如本文用到的動態時間規整: DTW(DynamicTime Warping)。

圖 1 語音識別過程基本流程圖

3 語音信號的采集

語音信號的兩個過程為:對語音信號進行實時

的采集,對采集的語音信號做出識別。本文對語音信號的采集是通過VC調用Microsoft的Windows系統中提供了多媒體應用程序接口(Multimedia API)實現。

3.1 用VC生成動態鏈接庫供Matlab調用

通過mex文件來實現VC與Matlab的混合編程。mex

代表 MatlabExecutable。Matlab中可以調用的C或

Fortran語言程序稱為mex文件。mex文件是一種特殊的動態連接庫函數,它能夠在MATLAB里像一般的M函數那樣來執行。

VC編譯的時候應該包含頭文件mex.h。與C中的主函數main()函數一樣,mex程序中的開始函數為:

void mexFunction(int nlhs,mxArray *plhs[], int nrhs, const mxArray *prhs[])其中

nlhs指的是在調用函數時返回值的個數;

plhs[]是每個返回值(在MATLAB中都是矩陣)的指針;

nrhs指的是調用函數時的參數個數;

prhs[]是每個參數的指針。

對mexFunction的參數是進行指針操作的,不能用單純的return返回值。mex程序傳送回來的整數數據要變為雙精度型數據,才能為其它函數所處理。

3.2 Multimedia API函數介紹

API(ApplicationProgramming Interface,應用程序編程接口)是一些預先定義的函數,目的是提供應用程序與開發人員基于某軟件或硬件的以訪問一組例程的能力,而又無需訪問源碼,或理解內部工作機制的細節。

MultimediaAPI 函數主要有以下幾個:獲取音頻設備信的函數waveInGetNumDevs(),該函數用于獲取當前系統中所安裝的音頻輸入設備的數目。

查詢音頻設備的能力函數waveInOpen(),該函數的作用是打開波形輸入輸入設備。

通過CALLBACK_FUNCTION命令來打開設備。錄音緩沖區的組織WAVEHDR結構, 一般都是設置雙緩存區對語音信號進行平穩緩沖站。開始和停止錄音時用到waveInStart()和waveInStop()兩個函數。

4 用Matlab實現語音識別過程

4.1 端點檢測

從背景噪聲中找出語音的開始和終止點這是在很多語音處理應用中的基本問題。端點檢測對于語音識別有著重要的意義。本文主要采用短時能量與短時平均過零率雙門限結合的方式,來對漢語語音的起止點進行檢測。短時能量和過零率分別確定兩個門限, 信號必須達到比較高的強度, 該門限才可能被超過。且低門限被超過未必就是語音的開始, 有可能是由短時間的噪聲引起; 高門限被超過則可以基本確定是由于語音信號引起的。

%每幀過零率

4.2 特征函數的提取

語音信號完成分幀處理和端點檢測后,下一步就是特征參數的提取。目前在語音識別中較為常用的特征參數是線性預測倒譜系數(LPCC,LinearPredictive Cepstrum Coefficients)和Mel頻率倒譜系數(MFCCDTW,Mel-FrequencyCepstrum Coefficients),這兩種特征參數都是將語音信號從時域變換到倒頻域上。LPCC從人的發聲模型角度出發,利用線性預測編碼(LPC,LinearPredictive Coding)技術求出倒譜系數,而MFCC則是構造人的聽覺模型,把通過該模型(濾波器組)的語音輸出為聲學特征,直接通過離散傅立葉變換(DFT,DiscreteFourier Transform)進行變換。本文采用MFCC方法。Mel頻率倒譜系數,即MFCC為:

其中,S(m)為語音信號通過預加重、離散傅里葉變換、通過MEL濾波器、并通過對數能量處理等得到的對數頻譜。

4.3 非特定人孤立詞語音識別算法

通常,語音識別的方法可以大致分為三類,即模板匹配法、隨機模型法、和概率語法分析法。這三類方法都屬于統計模式識別方法。其中模板匹配法是將測試語音與參考模板的參數逐一進行比較和匹配,判決的依據是失真測度最小準測,隨機模型法是使用隱馬爾可夫模型(HMM,HiddenMarkov Model)來對似然函數進行估計與判決,從而得到相應的識別結果。而概率語法分析法利用連續語音中的語法約束知識來對似然函數進行估計和判決,更適用于大規模連續語音識別。本文用小詞匯量的DTW方法。動態時間規整(DTW)是采用動態規劃(DP,DynamicProgramming)技術,將一個復雜的全局最優化問題轉化為許多局部最優化問題DTW,一步一步地進行決策。假設時間規整函數為:其中,表示時間規整函數中的第個匹配點對

這個匹配點對是由待測語音的第個特征矢量和參考模板第個特征矢量構成的,其中兩者之間的距離(或失真值)稱為局部匹配距離,記做,處于最優時間規整情況下兩矢量的距離稱為全局匹配距離,記做,表達式如下所示:

由于DTW不斷地計算兩矢量的距離以尋找最優的匹配路徑,所以得到的兩矢量的匹配距離是累計距離最小的規整函數,這就保證了它們之間存在最大的聲學相似特性。

5 結束語

在本語音識別系統中, 設定采樣率為11025Hz,幀數為300幀,幀長為240點,則最長的語音段長度不會超過300*240/11025=6.5秒。采樣樣本為男女各5個人的數碼語音資料, 實驗表明, 系統達到了較好的實時性和較高的識別率。由于Matlab功能強大, 在處理中可直接利用許多現成的函數, 編程方便, 結果可視化也容易實現。

參考文獻

[1]楊熙,蘇娟,趙鵬.MATLAB環境下的語音識別系統[J].電聲技術,2007,31(2): 51-53.

[2]龍銀東,劉宇紅,敬嵐,等.在MATLAB環境下實現的語音識別[J]

第3篇

關鍵詞:語音識別;文本識別;多線程瀏覽器

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2013)21-4949-02

語音識別,也被稱為自動語音識別Automatic Speech Recognition(ASR),是一門跨越多門學科的技術。早在計算機的發明之前,語音識別就被人們所提出,早期的聲碼器可以認為是語音識別及合成的雛形。最早的語音識別器是產生于20世紀20年代生產的“Radio Rex”玩具狗,當人們呼喚該產品的名字的時候,它能夠從底座上自動彈出來。而最早的基于計算機的語音識別系統是由AT&T 貝爾實驗室開發的Audrey語音識別系統,該系統的正確率達到98%。

1 C#語言的語音識別及合成的接口

C#是一種安全的、穩定的、簡單的、優雅的,由C和C++衍生出來的面向對象的編程語言。C#實現語音識別功能的主要接口有:IsRecoContext接口、IspRecognizer接口、IsRecoGrammar接口、IspVoice接口。

1)IsRecoContext接口:是主要的用于語音識別的接口,能關注不同的語音識別事件,安裝或者卸載識別時使用的語法文件。

2)IspRecognizer接口:一個程序擁有兩種不同的語音識別引擎(ISpRecognizer)類型。一個是共享的語音識別引擎,需要建立一個采用共享語音識別引擎的識別環境(IspRecoContext),應用程序需要調用COM接口位于CoCreateInstance結構上的CLSID_SpSharedRecoContext。然后SAPI會設立一個音頻輸入流,并把這個音頻輸入流定義為默認的SAPI音頻輸入流。由于它可以與其他語音識別應用程序共享其程序資源,所以在大多數場合中被推薦使用。另一個是非共享的語音識別引擎的語音識別環境,應用程序首先需要調用COM接口位于CoCreateInstance結構上的CLSID_SpInprocRecoIns-

tance。然后,應用程序必須調用IspRecognizer的SetInput方法來設立一個音頻輸入流。最后,應用程序通過調用IspRecognizer的CreateRecoContext方法來建立它自己的識別環境。

C#語言的語音合成的主要接口有:Voice Commands 接口,Voice Dictation接口,Voice Text,Voice Telephone接口,Audio Objects接口。

1)Voice Commands API。對應用程序進行控制,一般用于語音識別系統中。識別某個命令后,會調用相關接口是應用程序完成對應的功能。如果程序想實現語音控制,必須使用此組對象。

2)Voice Dictation API。聽寫輸入,即語音識別接口。

3)Voice Text API。完成從文字到語音的轉換,即語音合成。

4)Voice Telephone API。語音識別和語音合成綜合運用到電話系統之上,利用此接口可以建立一個電話應答系統,甚至可以通過電話控制計算機。

5)Audio Objects API。封裝了計算機發音系統。

其中Voice Text API,就是微軟TTS引擎的接口,通過它我們可以很容易地建立功能強大的文本語音程序。

2 系統設計與實現

2.1 系統功能概述

根據對系統需求進行分析,本系統需要完成操作、工具、用戶管理、皮膚管理和幫助功能。這些功能將分成五個功能模塊。操作功能:朗讀、命令識別、文本識別、生成語音文件、添加操作命令、網頁瀏覽;工具功能:訓練、開機自動運行、取消開機自動運行;用戶管理:添加用戶、刪除用戶、修改用戶;皮膚管理功能:皮膚的修改功能;幫助功能:幫助文檔、關于作者

2.2 語音識別功能的實現

語音識別的原理就是將人發出的語音通過麥克風傳到電腦的聲卡,然后語音引擎對對語音信息進行采取,最后和語音庫里面的信息匹配從而識別出相應的語音信息輸出到電腦屏幕進行各種各樣的操作。

語音識別的一個最大的難點就在于不能正確地對語音信息進行正確的識別,這里在系統開發的時候需要做兩個處理工作。

第一是對語音庫進行大量的語音訓練,可以通過windows內置的語音識別訓練系統進行訓練,該功能集成與微軟的XP系統的控制面板的語音選項里面。鑒于每個人的發音都是有所差異的,使用人必須先對語音引擎進行大量持久的語音訓練,這樣才能不斷地提高語音識別的正確率,以方便計算機正確地識別出來需要操作的動作和需要對電腦輸入的文字。在進行對語音庫訓練的前提是要安裝微軟提供的語音引擎Speech SDK 5.1,在安裝了該引擎之后方能對語音進行訓練,可以支持中英日三種語言的使用。

第二是對語音識別的結果進行模糊處理,也就是說,在不可能實現100%的識別率的情況下,要盡可能地考慮到語音識別出來的錯誤信息,比如本來要識別的信息是:open,但是電腦識別出來的是opened,這時候就要“將錯就錯”,通過數據庫將識別出來的opened告訴電腦這是一個open。如此進行常用字的多次測試,并通過微軟的sql server2000進行海量的數據識別模糊處理,最大化地考慮到所出現的錯誤來更正。

2.3文本識別功能的實現

文本識別功能的實現是要借助于微軟的TTS(Test To Speech)引擎進行來實現。TTS是“文本到語音(Text To Sound)”的簡稱,TTS語音引擎為我們提供清晰和標準的發音,所用的關鍵技術就是語音合成(SpeechSynthesis)。

該文本識別引擎可以支持中英日三種語言。要使用該功能是只需要進入文本識別界面并啟動文本識別按鈕,然后將要識別的文字通過鍵盤輸入到編輯框里面,再單擊朗讀按鈕,這就可以將文本信息轉化為語音信息通過音響發出。

2.4多標簽的語音識別瀏覽器功能的實現

首先是多標簽瀏覽器功能的實現。由于C#有自帶的WebBrowser瀏覽器控件,使用其自帶的方法。而對于多標簽功能的實現則要使用C#的多線程的技術,也就是說支持多個線程同時不互相干擾的工作。

其次是具有語音識別功能瀏覽器的實現。這個過程可以參照之前所制作的語音識別制作的過程,只需要的瀏覽器里面添加一個開啟語音識別和關閉語音識別功能的按鈕即可。當單擊開啟語音識別功能時,系統將會提示已經開啟語音識別功能,這個時候就可以使用語音識別功能進行網上沖浪;當單擊關閉語音識別功能是,系統將會提示已經關閉語音識別功能,這個時候系統會系統語音識別功能已經關閉,此時的瀏覽器就和傳統的多標簽瀏覽器如360安全瀏覽器一樣。

3 結論

本系統主要研究了用語音控制電腦的技術,成功地利用微軟新一代開發平臺.NET Framework開發了語音識別系統的新產品。本系統打破了傳統的人機交互方式,實現的使用語音對計算機進行操作。使用微軟的TTS語音引擎可以使系統具備識別中英日三種語言,并且添加了國內的捷通語音公司的語音引擎,可以識別粵語,閩南語等方言,對于文本識別的功能的實現,提高了語言學習者的學習效率,這給廣大的語言學習者帶來了福音。設計實現具有語音識別功能的多標簽瀏覽器技術。主要是方便一些不會使用鍵盤打字的人群,使得這類人群可以通過語音控制就可以上網沖浪。

參考文獻:

[1] ZHANG Jinsong, Takatoshi Jitsuhir.An Introduction to the Chinese Speech Recognition Front—End of the NICT/ATR Multi-·Lingual Speech Translation System [J].O'Reilly. 2008.

[2] Arun Krishnaraj, Joseph K. T. Lee. Voice Recognition Software: Effect on Radiology Report Turnaround Time at an Academic Medical Center [J]. 2010.

[3] wu Zhiyong. CAO Guangqi. Voice Recognition Software: Effect on Radiology Report Turnaround Time at an Academic Medical Center [J]. 2008.

[4] Jing Li. Thomas Fang Zhen91. A Dialectal Chinese Speech Recognition Framework [J]. 2006.

[5] 國玉晶,劉剛,劉健,郭軍.基于環境特征的語音識別置信度研究[J].清華大學學報,2009,49(S1).

[6] 林琳,王樹勛,郭綱. 短語音說話人識別新方法的研究[J].系統仿真學報,2007(10).

[7] 姚琳,梁春霞,張德干.基于實例推理的人機對話系統的設計與實現[J].計算機應用,2007(03)

[8] 林茜,歐建林,蔡駿.基于Microsoft Speech SDK的語音關鍵詞檢出系統的設計和實現[J].心智與計算,2007,12-30:433.

[9] 韓紀慶,張磊,鄭鐵然.網絡環境下的語音識別方法[J]. 計算機科學,2005(01).

第4篇

 

1 項目建設目標

 

1.1 項目背景

 

目前,固網用戶撥打電話,必須先查出被叫的號碼,并按鍵進行撥叫。而隨著通信業的發展,要記的電話號碼越來越多,而目前大部分的固定電話都沒有號碼存儲的功能,所以很多時候使用固話打電話時,要么從手機上查找被叫的電話,或者是從紙制電話簿去查找,既不方便,又浪費時間。

 

“語音電話本”完全可以幫助用戶解決以上問題,用戶只需撥打一個號碼接入系統平臺,說出聯系人的姓名,系統就可以自動將話路轉到該人的電話上。整個過程通過自然的語音方式交互,即感到親切自然方便快捷,又節省時間,提高工作效率。

 

從服務管理的角度來看,隨著信息通信客服業務受理的不斷發展,座席客服話務量越來越多,用戶對服務的質量要求也越來越高,傳統客服系統在傳統語音信息處理上的局限性制約了系統服務和管理能力的提升。

 

服務方面,由于業務的多樣性和復雜性帶來的海量數據信息不能得到快速、有效的關聯處理而產生的問題,影響了客戶服務體驗。

 

運營管理方面,雇傭人工座席每天接聽大量的信息查詢電話,座席業務人員的更替帶來的培訓,消耗了部分運維成本,影響了服務質量。

 

1.2 建設目標

 

本項目通過研究智能語音技術在國網遼寧公司信息通信客服系統中的應用,將語音識別及客服查號業務相結合,使用先進的語音識別技術來代替繁重的人工勞動,提高省公司內部溝通的效率。目前,語音電話本技術實現主要包含:ASR 、TTS 、IVR 三項技術,其中TTS和IVR技術對于語音電話本業務來說已經非常成熟。

 

ASR語音識別技術近年來發展十分迅速,其應用也逐步得到推廣,佳都新太也一直開發、調試、應用這項重要的語音技術,自2001年以來佳都新太先后在廣西、天津、廣東、河北、湖北、江蘇、遼寧等省的多個項目中使用了ASR 自動語音識別系統,佳都新太通過對ASR測試、改進,自動語音識別率達到95%以上。

 

語音電話本業務可以說是CTI平臺上的典型應用,佳都新太把ASR語音自動識別技術、TTS語音合成技術與CTI 的IVR技術三者融合為一體,為語音電話本業務的技術實現提供了可靠的保障。

 

本項目可以達到目標:

 

1.2.1 對語音信息的自動化處理

 

通過建立具備智能語音分析能力的語音識別平臺,實現對用戶查號業務的語音實時識別及關聯處理,同時實現對語音文件的統一分析,提供支撐客服業務受理的有效工具。

 

1.2.2 文件分析處理

 

通過語音分析引擎對送入的語音進行文字轉寫、維度結合后生成索引文件,這些結構化的索引文件中包含了語音中的所有信息。索引文件存儲到數據倉庫中,通過對有效的海量錄音文件、音頻文件進行分析處理。

 

1.2.3 實現自助查號功能

 

通過實現語音中的知識挖掘和語音文件的快速檢索,實現自動語音查號功能。

 

2 項目技術方案

 

2.1 項目設計原則

 

本次項目是對省公司固定電話語音自動查號系統的功能完善,使用先進的語音識別技術來代替繁重的人工勞動,提高省公司內部溝通的效率。

 

本次項目的關鍵點和技術難點在于語音識別,因此在方案設計過程中我們著重考慮了這個問題,選用了國內領先的智能語音技術來作為語音識別引擎,結合座席客服系統的需求提供定制化專業服務。

 

2.2 整體架構設計

 

如圖1,用戶通過撥打查號服務電話,系統為用戶播放自動語音并引導用戶按鍵選擇功能和需要查號的人名,系統根據語音分析出內容,并在數據庫中查詢對應的號碼,系統將查到的號碼以自動語音方式播報給用戶。

 

系統部署需新增接入網關1臺,用于與電力內部電話程控交換機對接,實現平臺電話呼入呼出。采用電信級語音接入網關Dialogic DMG2030,接入規模1E1(即30路通話),PRI信令,通過電路中繼上聯到遼寧電力內部程控交換機。遼寧電力內部程控交換系統為語音電話本系統分配一個內部接入服務號碼和一個外部接入服務號碼。同時網關接入虛擬資源池虛機網絡。

 

新增虛擬資源池虛機1臺,用于部署媒體處理軟件、CTI平臺、語音電話本業務應用軟件、科大訊飛ASR軟件和TTS軟件、Oracle數據庫。

 

新增核心網絡交換機1臺,用于系統組網。

 

2.3 系統邏輯結構

 

IVR與TTS、ASR通過語音引擎實現整個語音交互過程的自動識別、自動播放功能。系統采用B/S結構,方便用戶對電話本的修改,也便于各營業網點的開戶、受理以及對用戶的電話本進行維護等。整個系統采用模塊化結構,具有很高的可靠性和可擴充性。

 

邏輯結構見圖2。

 

2.4 系統建設方案

 

新建“語音電話本”業務平臺,其網絡拓撲結構如圖3所示。

 

設備組成說明:

 

系統平臺需要以下設備:

 

(1)IPS數字排隊機;

 

(2)信令網關節點;

 

(3)數據庫服務器: 實現用戶數據的存儲和系統認證等功能;

 

(4)TTS服務器: 通過IPS平臺的MS模塊來實現資源調用;

 

(5)ASR服務器:通過IPS平臺的MS模塊來實現資源調用;

 

(6)WEB服務器:實現用戶通過互聯網對電話簿的維護管理功能;

 

(7)業務處理服務器:用于處理個人語音電話本業務流程;

 

(8)管理維護節點;

 

(9)路由器和防火墻等網絡設備;

 

2.5 配置計算依據

 

2.5.1 中繼和語音的配置比例

 

語音電話本業務,用戶報出要找的人的姓名后,ASR進行識別,系統根據ASR識別出的名字,找出對應的電話號碼并進行外呼,被叫接通后,主被叫進行通話的過程中,語音資源即可釋放。整個業務實現和呼叫卡類業務的資源配置非常相似,根據200業務的實際運行經驗數據,建議中繼和語音的比例為4:1。

 

2.5.2 中繼和ASR的配置比例

 

在一個呼叫的過程中,用戶說出要找人的姓名,ASR資源進行識別,在識別完成系統呼通被叫后,ASR資源釋放,主被叫雙方進行通話,按平均呼叫時長為150秒,其中ASR識別的時間大概為30秒,而在一次通話中占用一入一出兩個通道,按上面的估算數據,中繼和ASR的配比大約為 2×150/30=10:1。

 

2.5.3 中繼容量和所能支持的用戶數的比例

 

假設一些呼叫參數如下:

 

系統中繼容量A

 

用戶數 B

 

每用戶每天使用次數C:8次

 

每次呼叫時長D:150秒

 

忙時集中系統E:10%

 

忙時中繼Erl數F:0.8

 

根據公式:A=B*C*D*E/F/3600

 

則 A:B=8×150×10%/0.8/3600=1:24

 

因為語音電話本業務每次呼叫要占用一入一出兩個端口,所以中繼容量和所支持的用戶數的比例約為1:10。

 

2.5.4 數據庫處理能力計算

 

忙時TPMC=(忙時呼叫次數×(平均每次呼叫數據庫訪問次數+其他應用模塊平均每次呼叫事務訪問處理次數))/60

 

按4.3.3假設的數據,當使用語音電話本的用戶數為10,000用戶時,系統的忙時呼叫次數為 10000×8×10%=8000次/小時

 

按每次呼叫對數據庫的訪問操作次數為10次來計算,則10,000用戶時,對數據庫的TPMC值的要求為:

 

TPMC=8000×10/60=1333

 

2.6 業務系統功能

 

2.6.1 業務流程(如圖4)

 

2.6.2 聲控撥號

 

用戶使用綁定電話撥打接入號碼“***”進入系統后,系統直接會提示用戶報出用戶想找的人的姓名,并進行呼叫。

 

(1)“聯系人名字” 選中默認呼叫號碼:

 

(2)用戶撥打“語音電話本”服務號碼;

 

(3)說出對方姓名,如:張三;

 

(4)系統識別語音,查詢對應的默認電話號碼;

 

(5)系統通過語音播報查詢到的電話號碼。

 

(6)“聯系人名字+電話類型” 精確查詢:

 

(7)用戶撥打“語音電話本”服務號碼;

 

(8)說出對方姓名+電話類型,如:張三 手機;

 

(9)系統識別語音,查詢對應的電話類型的號碼;

 

系統通過語音播報查詢到的電話號碼。用戶通過綁定電話使用語音電話本業務流程如圖5所示。

 

用戶使用非綁定電話使用語音電話本業務時,必須先通過輸入帳號和密碼,經過系統鑒權后才能使用。

 

2.6.3 原始通訊錄的錄入

 

語音電話業務開展的一個關鍵問題,就是用戶申請該業務后首批通訊錄的錄入問題,首批通訊錄相對來說量比較大,錄入的方式建議采用營業廳前臺填表錄入、通過WEB錄入的方式,也可以采用電話、傳真、信函的方式進行錄入。在首批通訊錄錄入后,用戶在使用過程中做一些號碼本的修改和維護,維護量都比較小,可以通過WEB方式、電話、短消息、傳真等多種方式進行修改。

 

批量導入電話本:

 

通過Excel文件導入企業通訊錄,可以參考如表1格式。

 

可以根據實際需求增加其他列。

 

2.6.4 電話本維護(Web)

 

系統提供后臺管理界面,管理員登錄后臺對電話本進行管理,如圖6。

 

個人電話本資料可通過Web、人工坐席、電話、傳真、短消息等多種方式進行電話本資料的維護管理,包括修改用戶密碼等。

 

業務流程如圖7所示。

 

“增加、刪除、修改”用戶記錄:

 

系統提供對單個記錄的“增加”、“刪除”、“修改”功能,方便對電話本進行靈活管理。

 

2.6.5 多個號碼優先呼功能

 

當用戶錄入的某個聯系人有多個通訊號碼時,如有手機、小靈通、固定電話,可以把這些號碼都錄入在系統中,在呼叫時,用戶可以自行設置優先呼叫的號碼,在號碼不通時再按設置的優先策略逐一呼叫被叫其他的聯系方式。

 

2.6.6 信息查詢(Web)

 

系統提供電話本查詢界面給座席和管理員使用。

 

座席和管理員可根據聯系人姓名,查詢聯系人對應的所有電話信息。

 

該功能主要在座席提供人工服務時使用。

 

3 技術創新點

 

本次項目采用國內領先的智能語音識別技術(ASR)結合客服后臺定制化查詢需求,在滿足用戶傳統的查詢基礎上,語音定制化為用戶報出相關信息,由用戶按鍵選擇即可,大大方便了用戶的操作和客服的工作時間。

 

4 總體性能指標

 

通過研究智能語音技術在信息通信客服系統中的應用,實現客服查號業務的自能化,實現語音的自動識別及數據分析,減少人工運維成本,提高客服服務質量及服務效率。

 

5 技術展望

 

隨著科學技術的飛速發展。信息技術領域未來必然是智能化,自動化的主流方向。在語音識別領域將大有可為,傳統的人工繁瑣的操作將被解放。系統語音智能識別,自動處理將是主流趨勢。該項目正是在這樣主流的發展趨勢下不斷完善提升,用專業的技術實現客戶的需求,達到節省人力物力目的。

第5篇

論文關鍵詞:CIS;高職學生;自我識別;探索

CIS,全稱“Corporate Identity System”,即“企業識別系統”,分為理念識別MI(Mind Identity)、行為識別BI(Behavior Identity)和視覺識別VI(Visual Identity)。MI是核心和原動力,BI是動態識別形式,VI是靜態識別系統。CIS源起于西方,由IBM公司首次導入企業并加以全面推廣。20世紀70年代,日本開始引進CIS并大量融入東方文化內涵,使其得到深化和豐富。20世紀80年代末,太陽神、健力寶等企業CIS系統的成功建立和推廣引發了中國企業界導入CIS的熱潮。

經濟領域中任何事物的出現,都有其客觀必然性,CIS的產生及運用是由其自身的文化性(Culture)、活動性(Activity)和可識別性(Distinction),即其CAD特征所決定的。通過CIS的運作,可以強化企業文化建設、提升企業凝聚力、擴大企業知名度,獲取消費者的認同。

培養目標為高素質技能型人才的高等職業教育與企業的發展息息相關。1996年9月,《職業教育法》確立了高等職業教育在中國的合法地位;2005年國務院頒布了《關于大力發展職業教育的決定》,提出“到2010年高等職業教育招生規模占高等教育招生規模的一半以上”,進一步推進了我國高等職業院校在數量和招生規模上的突飛猛進。

作為未來的企業職工,高職大學生的素質直接影響著企業的發展,目前很多企業反映新進員工普遍存在著缺乏實際工作能力、難以融入團隊、工作熱情不能持久等問題,究其原因主要有三點:一是從“學生”到“職工”的身份轉變未做好;二是從“學校”到“企業”的環境轉變未做好;三是從“學習”到“社會”的責任轉變未做好。究其深層次原因,很關鍵的一點來自于高職學生自我識別的普遍弱化上。

PIS,“Personal Identity System”,是CIS主要理念在個體上的運用和體現,通過價值觀建設、知識性構建、自我意識能力、自覺行為導向等方面的努力,塑造個體的特定形象,以期得到社會的廣泛了解、認同和接納。強化高職學生的自我識別,塑造高職學生的全新形象,才能提升高職信息的傳遞能力和形象訴求,從而大幅提升高職學生的就業率和就業質量。據此,四川電力職業技術學院在以下領域做了一些積極的探索。

一、在理念上強化高職學生的自我識別

1.在學生思想政治教育中融入企業元素

學院堅持“以人為本,德育為先”,將學生的思想政治教育與職業教育緊密結合,在人才培養過程中始終以“責任”、“誠信”、“創新”、“感恩”等為主題。在全校學生中評選“十佳愛崗敬業明星”、“自強之星”、“感恩之星”,樹立意志堅定、積極向上、心態陽光的健康形象;組織學生參加國網系統的“青春光明行”志愿服務,先后參與“電力天路”圖書館捐書、“電力三下鄉”等活動;組織學生學習愛崗敬業模范呂清森、職業道德標兵江小金等先進人物及行業中涌現出的“抗冰保電”、“抗震救災”等先進事跡,讓學生在感動之余深刻領悟優秀的電力企業文化和企業精神。

2.企業優秀員工到校兼職教育

為了讓學生對企業文化和企業精神有更直接的感悟,學院聘請電力企業優秀員工到校參與學生的教育。這些來自一線工作崗位的優秀職工,不僅將豐富的實踐經驗和行業發展的最新成果帶進課堂,提升了學生的專業技能;同時也以自身吃苦耐勞、愛崗敬業、誠實守信等優秀品質潛移默化的影響學生,讓學生形成企業所需的優秀職業道德。

二、在行為上強化高職學生的自我識別

1.教學班引進企業班組建制

高職教學班身著統一的工作裝,借鑒企業的班組建制,采取學生自愿、教師指導的方式將全班分成若干個班組,各班組民主選舉班組長、制定班組制度和共同愿景;班組將學院、班級事務下放、劃撥到每個班組成員,成員間既有共同目標,又有各自不同的任務。利用看板定時呈現各班組的學習和生活情況,為每位成員建立個人成長記錄,根據目標實現程度及任務推進情況定期評選優秀班組和班組之星,為學生樹立勤學守紀的典型,引導正確的發展方向。該項舉措既強化了班組成員間的團結協作,又加強了班組間的良性競爭意識。

2.教室、寢室、實訓場地的5S企業現場管理

借助于5S企業現場管理的方法,要求學生對教室、寢室、實訓場地進行整理,區分要與不要的物品,把不需要的雜物清除掉;教室里的桌椅、清潔工具,寑室里的洗漱用品、生活用具,實訓場地里的設備、工具、圖紙、資料等全部按規定合理、規范放置;各種標示一目了然、物品放置易于取用、區域劃線清晰分明,定期進行清掃,制定相應的規章制度,通過不間斷的檢查來確保改善的持續深入推進。企業優秀管理方法的實施,不僅能夠使校園保持清潔,更能使高職學生養成良好的生活和工作習慣,提高個人素養,從而更好地適應現代企業精益化、標準化的管理要求。

3.校園內的企業文化活動

在學院“素質拓展訓練基地”對學生開展攀巖、跨越、求生等訓練,強化學生的良好心理素質,增強學生的競爭意識和團隊精神;舉辦“電力安全知識競賽”、“水利工程中的CAD應用”、“電能計量裝置誤接線判斷”、“登桿作業”、“全站儀控制測量及放樣”、“觸電救護”等各類技能訓練和技能比賽,在校園中創設企業的仿真環境,進行崗位適應性訓練,讓學生把所學理論轉化為實際的動手能力。

4.校外社會實踐活動

在學生中大力開展黨團建設,端正學生的人生觀、價值觀、世界觀;對學生干部實行素質拓展認證制度;組織青年志愿者參與社區服務;組織學生到偏遠地區調研水利、電力、教育等情況,開展電力科技、農村安全用電等科普宣傳,建立“社會實踐服務基地”,完成調研論文上報省電機工程學會。

5.校外企業頂崗實習

學院與四川省電力公司、國電集團川渝公司、中國水電五局、中國水電七局等多家企業建立了長期的合作關系,為學生提供用電檢查、電力營銷、架控線路施工、電能計量等專業對口的企業崗位實踐,讓學生進入企業、下到車間,以企業職工的身份代班代崗。通過頂崗實習,學生們熟悉了企業環境、工作流程、生產要求,也清晰了自身與工作崗位間的差距,既促進學生對自身高職角色的認知,更有利于學生向企業職工的角色轉換。

三、在視覺上強化高職學生的自我識別

視覺識別獨具直觀性和形象性,對人有最直接的沖擊力和感染力,最容易被感知、記憶和認同,學院特別注意強化學生對自己高職身份的識別。

1.基礎視覺識別

作為國家電網下屬的高職院校,學院在基礎視覺方面呈現出與企業相同的風格:使用國家電網徽記,標準色統一為深綠色,在標志外環的企業名稱下加注學院名稱。這種集標志、標準字、標準色于一體的徽記,在向學生傳達國家電網為社會提供潔凈能源,與客戶建立互惠和諧關系的企業服務理念的同時,也體現了學院植根電力,與光明同行的辦學方針。

2.應用視覺識別

第6篇

【關鍵詞】語音識別 音頻文字自動提取

一、引言

由于計算機技術近年來發展非常迅速,使人們用語言與計算機進行通信與交流已成為可能,而起草文稿、撰寫文章、準備教案、會議記錄等都需要文字整理,對比傳統的鍵盤和鼠標輸入方式,語音識別技術在速度上要提高2~4倍。

從音頻中自動提取文字是以語音識別系統為核心,對參考文本和對應語音進行強制對準的過程,其目的在于將音頻信息轉換為文本文字。作為語音識別領域中一種常見的預處理技術,音頻文字自動提取廣泛應用在政府機關、企事業單位的會議記錄;網絡文字直播;媒體采訪速記;錄像文字整理;廣播電視媒體;錄音文字整理;大量文字的錄入排版、打印輸出,計算機輔助語言教學等方面,此外,還可為現場直播的新聞、演講、會議等生成字幕;為語言教學、游戲娛樂、電影制作等生成多媒體庫;為歌曲制作同步的歌詞顯示等。

由此可見,音頻中提取文字這項技術的用處很大,而目前能實現自動翻譯的語音識別同生速記系統還正在研究之中。市場上要將錄音轉換成文字的方法就是找專業的速記公司,進行人工翻譯,工作量大,效率慢,而且收費很高,一般每小時錄音收費為200元左右。

二、背景及發展現狀

語音識別技術的研究工作起始于20世紀50年代,貝爾實驗室通過提取語音特征參數,第一個實現了可以識別10個英文數字的語音識別系統。20世紀80年代,人工神經網絡技術引入語音識別,HMM模型和人工神經元網絡ANN被成功應用,進入90年代后語音識別系統從實驗室逐步走向實用。我國語音識別研究工作起步于20世紀80年代,從1987年開始執行國家863計劃后,以清華大學電子工程系與中科院自動化研究所為代表的研究機構,得到了國家自然科學基金重大和重點項目等基金的支持,取得了豐碩的研究成果。目前市場上主要產品有北京陽宸電子技術公司的 VS-99 語音自動識別系統、科大訊飛的 InterVeri 系列等開發的語音自動識別系統等。

三、語音識別原理

自動語音識別技術(Auto Speech Recognize,簡稱ASR),在整個構建過程中包括兩個階段:訓練階段和識別階段。在訓練階段,ASR系統進行語音收集,然后對收集的語音進行降噪處理,消除部分噪音和發音者的個性特點,為了使處理后的信號更清晰,可以將發音者語音中的詞匯內容轉換為數字格式,即計算機可讀的輸入,例如二進制編碼,然后ASR系統將提取的每個語音單位的特征矢量進行一定的處理,然后存入到模板庫中。

在模式匹配(即識別)過程中,ASR系統通過學習算法產生特征矢量,在識別時將輸入語音的特征矢量與模板庫征矢量相比較,找到最匹配的單詞序列。目前最具有代表性的ASR技術有動態時間環繞技術、隱馬爾科夫(markov)模型(HMM)和人工神經網(ANN)模型。其中基于HMM的技術最為流行且語音識別性能最好。

四、 音頻文字自動提取的設計與實現

通常音頻素材所占的容量都比較大,為了節省工作量,在使用素材之前,一般使用goldwave將音頻素材分割成所需要的長度。再配合使用Windows 7系統中的語音識別功能,通過該功能,可以讓我們徹底拋開鼠標和鍵盤,只用語音控制電腦,特別是配合word軟件,還能實現文本的語音輸入,識別的準確性也較高。為了使win7語音識別系統獲得更清晰的語音素材,需要在播放音頻素材的同時使用內錄功能,文本軟件會記錄下提取到的音頻文字內容,創建文本文檔,也可在文檔中進行修改或更正錯誤。

盡管win7系統可以實現音頻文字的自動提取,由于環境噪聲、使用者的語音差別等等因素,所以其最終識別率并不高。所以,我們還需要對win7語音識別系統進行模型訓練。通過不斷糾正其錯誤識別文字,在數據庫中加入生僻名詞,反復使用音頻素材對模型進行訓練,使語音識別系統最終能完全識別音頻素材,以此來優化模型,提高語音系統的識別率。

五、總結和展望

如今計算機語音識別技術作為一股潛在的發展技術極大提高人們的現實生活需要,不僅轉變了人們的生活方式,提高了工作效率,更加推動了社會的進步和文明的發展,所以從音頻中自動提取文字具有廣闊的應用前景,由于語音自動識別的局限性,使得這項技術任重而道遠,。

在今后的科研中,音頻中自動提取文字將被更加廣泛的應用,各種具有音頻自動提取文字的產品也將漸漸在市場上出現,隨著計算機信息技術的不斷發展創新,語音識別系統將會引領我們的信息技術革命到一個新的臺階。

第7篇

關鍵詞:語音識別;動態時間規整算法;人工神經元網絡

中圖分類號:H017文獻標識碼:A文章編號:1672-3198(2008)02-0199-02

1 背景介紹

語言是人類特有的功能,是人們思維最重要的寄托體,是人類交流最主要的途徑。語音是語言的聲學表現,是人類交流信息最自然、最有效、最方便的手段。語言和語音與人類社會科學文化發展緊密相連。

語音識別技術是讓機器接收,識別和理解語音信號,并將其轉換成相應的數字信號的技術。它是一門交叉學科,涉及到語音語言學、數理統計、計算機、信號處理等一系列學科。

2 發展歷史

1952年貝爾實驗室的Davis等人研制成功了能識別十個英文數字發音的Audry系統,標志著語音識別技術研究工作開始。20世紀60年代計提出了動態規劃(Dynamic programming)和線性預測分析技術(Liner Predictive)等重要成果。20世紀70年代,語音識別領域取得了突破。實現了基于線性預測倒譜和DTW技術的特定人孤立語音識別系統。20世紀80年代語音識別研究進一步走向深入, 基于特定人孤立語音技術的系統研制成功, 隱馬爾可夫模型和人工神經元網絡(Artificial Neural Network)在語音識別中的成功應用。進入20世紀90年代后語音識別系統開始從實驗室走向實用。我國對語音識別的研究開始于20世紀80年代,近年來發展迅速,并取得了一系列的成果。

3 具體應用

隨著計算機技術、模式識別等技術的發展,適應不同場合的語音識別系統相繼被開發出來,語音識別及處理技術已經越來越突現出其強大的技術優勢。近三十年來,語音識別在計算機、信息處理、通信與電子系統、自動控制等領域的應用越來越廣泛。

在許多政府部門、商業機構,語音識別技術的應用,可免除大量操作人員的重復勞動,既經濟又方便。如:語音郵件、IP電話和IP傳真、電子商務、自動語音應答系統、自動語音信箱、基于IP的語音、數據、視頻的CTI系統、綜合語音、數據服務系統、自然語音識別系統、專家咨詢信息服務系統、尋呼服務、故障服務、秘書服務、多媒體綜合信息服務、專業特別服務號(168自動信息服務系統,112、114、119等信息查詢系統)等。許多特定環境下,如工業控制方面,在一些工作環境惡劣、對人身有傷害的地方(如地下、深水及輻射、高溫等)或手工難以操作的地方,均可通過語音發出相應的控制命令,讓設備完成各種工作。

當今,語音識別產品不僅在人機交互中,占到的市場比例越來越大,而且在許多領域都有了廣闊的應用前景,在人們的社會生活中起著舉足輕重的作用。

4 語音識別系統原理

語音識別一般分為兩個步驟:學習階段和識別階段。學習階段的任務是建立識別基本單元的聲學模型以及語言模型。識別階段是將輸入的目標語音的特征參數和模型進行比較,得到識別結果。

語音識別過程如圖所示。下面對該流程作簡單介紹:

(1)語音采集設備如話筒、電話等將語音轉換成模擬信號。

(2)數字化一般包括預濾波、采樣和A/D變換。該過程將模擬信號轉變成計算機能處理的數字信號。

(3)預處理一般包括預加重、加窗分幀。經預處理后的信號被轉換成了幀序列的加窗的短時信號。

(4)參數分析是對短時信號進行分析,提取語音特征參數的過程,如時域、頻域分析,矢量量化等。

(5)語音識別是目標語音根據特征參數與模型庫中的參數進行匹配,產生識別結果的過程。一般有模板匹配法、隨機模型法和神經網絡等。

(6)應用程序根據識別結果產程預定動作。

(7)該過程是語音模型的學習過程。

5 現有算法介紹

語音識別常用的方法有:模板匹配法、人工神經網絡法。

(1)模板匹配法是語音識別中常用的一種相似度計算方法。模板匹配法一般將語音或單詞作為識別單元,一般適用于詞匯表較小的場合。在訓練階段,對用戶語音進行特征提取和特征維數的壓縮,這個過程常用的方法是采用矢量量化(VQ)技術。然后采用聚類方法或其他方法,針對每個模式類各產生一個或幾個模板。識別階段將待識別的語音模式的特征參數與各模板進行相似度的計算,將最高相似者作為識別結果。但由于用戶在不同時刻發同一個音的時間長度有較大隨意性,所以識別時必須對語音時間進行伸縮處理。研究表明,簡單的線性伸縮是不能滿足要求的。由日本學者板倉在70年代提出的動態時間伸縮算法(DTW)很好的解決了這一問題。DTW算法能夠較好地解決小詞匯量、孤立詞識別時說話速度不均勻的難題。DTW算法示意圖如圖所示。

設測試的語音參數共有M幀矢量,而參考模板有N幀矢量,且M≠N,則DTW 就是尋找一個時間歸整函數tn=f(tm),它將測試矢量的時間軸tm非線性地映射到模板的時間軸tn上,并使該函數滿足第k幀(k=1,2,…M)測試矢量I和第f(k)幀(f(k)=1,2…N)模板矢量J之間的距離測度之和最小:

Distance=min∑Mk=1d[I(k)-J(f(k))]

另外,在實際識別系統中,語音的起點或終點由摩擦音構成,環境噪聲也比較大,語音的端點檢測會存在較大的誤差。DTW 算法起點點可以固定在(tm,tn)=(1,1),稱為固定起點;也可以選擇在(1,2)、(2,1)等點,稱為松馳起點。同樣,中止點可以選擇在(M,N)點,稱為固定終點;也可以選擇在(N一1,M)、(N,M一1)等點,稱為松弛終點。松弛的DTW 算法的起始點從(1,1)、(1,2)、(2,1)等點中選擇一最小值,終止點從(M,N)、(M,N-1)、(M-1,N)等點中選擇一最小值,兩語音樣本之間的相互距離在相應的點放松后選擇一最小距離。松弛DTW可以克服由于端點檢測不精確引起的誤差,但運算量加大。

(2)人工神經網絡法。現實世界的語音信號會隨著許多特征如:說話人語速、語調以及環境的變化而動態變化的,想要用傳統的基于模板的方法建立一個適應動態變化的語音識別系統是非常困難的。因此需要設計一個帶有自學習能力的自適應識別系統,以便可以適應語音的動態變化。

人工神經網絡由神經元、網絡拓樸和學習方法構成。人工神經網絡拓樸結構可分為反饋型和非反饋型(前饋型)。學習方法可分為監督型和非監督型。各種人工神經網絡模型中應用得最典型的是采用反向傳播(Back Propagation)學習算法的多層前饋網絡。多層前饋型網絡如圖所示。

除上述介紹的幾種常用的方法外,還有許多其它的識別方法以及改進算法。

6 尚未解決的問題及值得研究的方向

(1)就算法模型方面而言,需要有進一步的突破。聲學模型和語言模型是聽寫識別的基礎。目前使用的語言模型只是一種概率模型,還沒有用到以語言學為基礎的文法模型,而要使計算機確實理解人類的語言,就必須在這一點上取得進展。

(2)語音識別的自適應性也有待進一步改進。同一個音節或單詞的語音不僅對隨著的講話者的不同而變化,而且對同一個講話者在不同場合,不同上下文環境中也會發生變化。這意味著對語言模型的進一步改進。

(3)語音識別技術還需要能排除各種環境因素的影響。目前,對語音識別效果影響最大的就是環境雜音或噪音。要在嘈雜環境中使用語音識別技術必須有特殊的抗噪麥克風才能進行,這對多數用戶來說是不現實的。在公共場合中,如何讓語音識別技術能有摒棄環境嗓音并從中獲取所需要的特定聲音是一個艱巨的任務。

雖然在短期內還不可能造出具有和人相比擬的語音識別系統,但在未來幾年內,語音識別系統的應用將更加廣泛,各種語音識別系統產品將陸續進入我們的生活。語音識別各個方面的技術正在不斷地進步,一步步朝著更加智能化的方向發展。

參考文獻

[1]楊尚國,楊金龍.語音識別技術概述[J].福建電腦,2006,(8).

[2]孫寧,孫勁光,孫宇. 基于神經網絡的語音識別技術研究[J]. 計算機與數字工程,2006.

[3]Phil Woodland. Speech Recognition. Speech and Language Engineering-State of the Art (Ref. No. 1998/499).

第8篇

兩種識別技術的應用模式

匯豐銀行的系統兼容兩種安全模式。首先,匯豐銀行面向 iPhone 5S、iPhone 6以及 iPhone 6S 的應用將會利用手機的內置指紋識別器以確認用戶的身份,這一點和手機進行解鎖及支付等操作中的指紋驗證并無二致。而在語音方面,語音識別系統將會用超過 100 個識別碼對用戶的語音進行比對,包括節奏、口音、發音等等。除此以外,語音識別系統還可以辨別由不同的喉嚨結構、鼻道以及聲道所發出的語音。

這兩種技術是否會讓生活更為便利?匯豐銀行希望通過語音識別技術為用戶免除需要記憶密碼之苦,現階段,電話銀行系統所使用的密碼、密令等驗證信息給用戶造成了較大的不便。此外,Touch ID的整合無疑也會加快手機銀行應用的登錄速度,用戶賬戶的安全性也有了保證。

聲音識別系統的工作原理

由聲音識別企業“Nuance”公司所提供的技術內置有所謂的“Voice ID”(即聲音密匙)功能,它可以記錄并分析用戶的說話方式,進而辨別用戶口部、舌頭、喉部和呼吸的特有發音方式,用戶僅需經過快捷的訓練環節即可正常使用。在后續登錄時,用戶將會被要求讀出特定單詞的發音,系統會對發音進行比對。

有一個問題,模仿者有可能騙過系統嗎?

計算機接受聲音的方式和人耳接受聲音的方式非常不一樣。模仿他人的聲音也許是可能的,但想要在超過 100 個識別碼上騙過計算機幾乎是不可能的,況且計算機還會辨識用戶的體征和行為模式。

如果那天我碰巧因為感冒而聲線有所不同會怎么樣?

即便是在因感冒而出現聲線不同的情況下,Voice ID 系統還是能夠識別出用戶的聲音,因為它所分析的聲音構成因素有許多。即便是在感冒的情況下,你的口音、節奏、發音以及其他體征狀況還是不會發生變化。

另外,在信號不好的情況下也會是一樣,除非你的通話出現了中斷等情況。

如果我身處大街等較為嘈雜的地方又如何?

絕大多數智能手機都內置有噪音消除技術,這項技術可以阻隔絕大多數的外界噪音。而 Nuance 公司和 Voice ID 系統則會對剩余的噪音進行處理。除非你在登錄的時候碰巧遇上防空警報等顯著的噪音,日常生活的正常噪音不會影響你的登錄操作。

其他銀行有沒有使用語音識別技術?事實上,以巴克萊銀行(Barclays)為首的其他銀行在數年前已經開始面向少量用戶使用語音識別技術,其中巴克萊銀行的語音識別技術僅對少量優質的富裕客戶開放。截至目前,我們尚未獲悉這些銀行有被非法入侵的紀錄。

指紋識別是否足夠安全

iPhone 在主頁按鈕上整合了 Touch ID 傳感器,而你的指紋則被蘋果公司保存在一個加密的模塊當中。每當用戶用手指接觸主頁按鈕的時候,iPhone 會將 Touch ID 所讀取的指紋和儲存在加密模塊當中的指紋進行比對,進而給出允許或拒絕接入的判斷。用戶的指紋數據不會被外泄給任何公司,包括蘋果公司在內。

有可能用斷指進行解鎖嗎?

回答是不可能的,只要罪犯了解Touch ID的工作原理,你的手指都會非常安全。

Touch ID 傳感器會通過兩種方式讀取指紋。首先它會通過電容傳感器檢測由人體皮膚所釋放出來的電荷,這一點和觸摸屏檢測觸屏動作時的工作原理一樣。此外,它還會使用無線電頻率掃描儀來讀取活體皮下組織的指紋。由于第二種方式只對活體皮下組織有效,因此斷指并不能通過掃描,除非罪犯能以某種方式讓其保持鮮活狀態。

Touch ID

有沒有被入侵的可能

如果非要說Touch ID 有沒有被入侵的可能,確實有。

但盡管如此,想要入侵 Touch ID 也絕非易事,首先你需要一套價值超過 1000 英鎊的設備和材料,你還需要掌握犯罪現場偵察人員的技能,并收集到需要原用戶完整、清晰的指紋。入侵條件非常苛刻,一般的犯罪組織難以滿足。

尚未使用其他生物體征識別技術

語音和指紋僅僅是生物識別種類的其中兩項,其他目前正在使用或開發的技術包括:

1.心率識別技術,這項技術所使用的是每個人獨特的心率模式;

2.血管分布模式識別技術,這項技術會檢測每個人特有的皮下血管分布情況,最常用的是手掌、手腕以及手臂等部位;

3.虹膜識別技術,這項技術會通過設備的攝像頭辨認用戶的虹膜;

4.視網膜識別技術,和虹膜識別技術相似,這項技術會通過設備的攝像頭辨認用戶的視網膜。

我們曾經在電影中看到過有人通過取出他人眼球的方式來解鎖保險庫,這個怎么解釋?

除了語音和指紋識別技術外,其他生物體征識別技術皆尚未得到廣泛應用,因為這些技術在易用性、速度以及可靠性等維度上仍然有所欠缺。

有些識別系統甚至能夠辨別用戶使用鍵盤、鼠標、觸摸屏等輸入設備的模式,每個用戶在使用這些設備時的速度、模式、壓力以及習慣都有所不同,因此也可被用于用戶登錄的辨別工作上。但目前這類識別系統尚不會被銀行等嚴肅的機構采納。

這種情況也不會發生。首先,想要在保存眼球完整度的情況下取出眼球非常困難,而且想要通過視網膜掃描儀的驗證,被掃描的視網膜需要保存在有血液流動的鮮活狀態。虹膜掃描儀通常也會檢測用戶的虹膜是否發生運動,失活的眼球顯然不符合這個條件。

相關鏈接

主站蜘蛛池模板: 武山县| 青龙| 乌审旗| 呼图壁县| 双鸭山市| 武城县| 黎平县| 福安市| 泉州市| 凌海市| 肃北| 琼结县| 大足县| 甘洛县| 樟树市| 宝丰县| 镇赉县| 色达县| 郓城县| 铜川市| 湛江市| 东城区| 上蔡县| 安泽县| 郧西县| 云浮市| 屯留县| 平潭县| 宁乡县| 哈密市| 无极县| 汝阳县| 微山县| 朔州市| 芒康县| 达日县| 合阳县| 改则县| 东安县| 老河口市| 丹阳市|