范永超,韓佳南
(1.武漢烽火信息集成技術有限公司,湖北 武漢 430000;2.烽火通信科技股份有限公司,湖北 武漢 430073)
本文所涉及的語音識別技術是一種對聲音信息進行匹配和辨別的技術,同時也是利用生物識別技術對聲音信號進行分析的技術。從個體器官的角度進行分析,發生控制器在聲帶、口腔、舌頭、嘴唇、軟腭、咽腔、肺容、鼻腔、牙齒等影響下,其發音頻率以及音色、音高等也有所不同,以此來實現一種具有獨特形式的個體語音特色。一般均是由90多種不同特征組成了這些要素,使其對頻率、節奏、波長、強度等都有著充分的表現。在世界上沒有完全相同的兩種聲音,仔細觀察可以發現,每種聲紋都有其不同的特點,因此,在語音識別技術中,最為重要的就是需要對這些微小的差異進行識別和辨析。
語音識別技術已經廣泛地應用在我國各項生產生活之中,它是繼指紋識別和DNA識別技術之后應用最為廣泛的生物識別技術之一。針對目前的實際應用情況進行分析,我國科研機構在進行語音檢索中,已經在十億級庫容中實現了對“1:N”級別的檢索,一些關鍵性的詞語識別準確率已經達到了95%以上。從應用的角度來看,語音是人體的一項基本生理功能,而且具有鮮明的特異性,在語音識別技術中,需要對不同生物體的語音進行采集與識別,同時開展數據庫的建模工作,在獲取較大的樣本之后,才能把全樣本的語音集合與個體的語音進行比對和分析,實現快速確定身份的效果。
從唯一以及不可復制性方面進行分析,與人體的其他生物特征相比,語音具有十分相似的特征,但世界上的任何兩個個體之間,不可能出現相同語音。如圖1所示,從個體中提取相關的語音信號,采用建模和數字化的方式對其進行分析,應用自動化方式對全樣本語音集合以及個體語音機械能對比,并以此實現對身份信息的識別,這一過程就是語音識別。

圖1 語音識別系統的四個模塊
(1)預處理模塊。對語音進行識別的第一步就是針對所采集到的語音信號進行轉變,使其由模擬語音信號變為數字語音信號。同時在預處理模塊中,最為重要的一項功能就是對語音信號進行采集和A/D(模/數)轉換,可以看出,波形編輯處理功能以及(D/A轉換)回放功能等都屬于語音識別系統處理模塊的功能。
(2)參數分析模塊。為了對個體的發音特征進行準確反應,語音參數的提取是最為重要的一個方面。在對個體語音辨識率的有效性進行辨識的基礎上,需要對不同的語音參數進行對比和分析,并將音調曲線、偏相關以及音長參數應用在參數分析模塊的TDSI系統中,將其看作個體語音參數,從個體語音的角度進行分析,將正交線性預測參數以及長時間平均頻譜應用到參數分析模塊的TISI系統中所形成的特征就是特征參數。
(3)訓練模塊。為了有效建立相關的訓練模塊,應對語音參數進行提取,并將其作為一個單獨的個體進行建立。受到測試語音以及訓練語音時間長度差異的影響,在訓練模塊的TDSI系統中,本文將線性壓括技術應用到其中,并對訓練語音進行相應的調整,使其可以達到15幀(0.02秒/幀);并將長時間平均技術應用到TISI訓練模塊系統中,確保其訓練語音可以達到1幀(0.02秒/幀)。
(4)識別模塊。對比模板庫中語音模板和被測試語音的區別,并將模板匹配技術應用其中,在與測試語音相同的個體進行鎖定的過程中,應依據“最佳鄰近準則”[1]。在本文中主要是將參數加權歐氏距離聚類法應用在語音識別系統模塊中,并對被測語音和模板語音中的距離進行計算,將多階段識別策略應用在TISI識別模塊系統中,并在庫中進行優先識別,對相似度較高的個體語音進行選擇,并對這些個體進行細致的識別,將相似度最高的語音篩選出來。
在目前對人工智能進行研究的過程中,最為重要且最為先進的一項技術就是人工神經網絡技術,但在目前的實際應用中,為了真正實現人工智能,神經網絡以及深度學習還需要進一步優化。在對人工智能的真實語音進行識別的過程中,還有許多的問題需要解決。比如,在對神經網絡進行構建的過程中,所需備份的數據不僅較大,而且在機器人學習中的學習方式也有一定的區別;在對特定的事物進行學習的過程中,對人類來說僅僅需要幾個簡單的例子就可以很好地掌握,但對于機器人來說,為了可以充分掌握相關知識,需要運用大量的例子;在對信息進行語音識別的過程中,受到大數據和云計算中局限性的影響,往往由于語音識別算法能力較低,進一步影響到智能機器人的正常運行。現如今,華為移動機器人、百度助手、阿里智能機器人等在各大企業中實現了廣泛的應用,所有的一切智能操作都與人工智能密切相關,同時在人工智能機器人中應用語音識別技術也最為重要的一個方面,因此,要更好地達到人機交互的效果,就必須克服技術的局限性。
針對人類語言進行識別,并在實際執行的過程中創造出一定的交互量,這一目的就是所謂的人工智能,在此基礎上,必須要按照相關的原則和要求對語音識別系統進行整體設計[2]。針對人工智能技術進行分析,人工智能在語音識別方面還存在一些問題,在對人工智能機器人進行音頻信號的處理過程產生影響的同時,還會在很大程度上影響到人機交互體驗,并出現算法混亂的情況。一方面,要將語音指令檢測以及預處理運用在語音控制終端中,并具備相應的轉換工具,以便可以更好分析所輸入的語音算法,并對其語言進行轉化,使得機器人也可以很好地理解;另一方面,必須將一個主要的語音控制系統運用到機器人控制中,對輸入聲音的交互性能有充足的了解,主要是分析和設計其中較為高效的算法。因此,算法分析和設計是語音識別的首要任務,需要選擇編譯語言,設計適合機器人實際性能的算法。
(1)采用語音頻譜技術進行提取。語音頻譜技術主要是以生物體的基礎性發聲器官如氣管、聲道以及鼻腔等為主,利用人體的基礎發聲器來提取相關的參數,然后將提取到的參數進行分類,在語音比對的過程中,可以通過這些參數來找到發聲人體的特殊生理結構,從而快速定位發聲人。
(2)線性預測提取。在語音識別系統中,提取到的語音樣本是屬于“過去”的聲音,而需要匹配的是“當前”的語音內容。
(3)小波特征提取分析[3]。該提取方式主要是利用小波技術來完成的,小波技術的優勢就是能夠接受分辨率的改變,但是該技術在應用的過程中要求語音參數實現穩定性的交叉,同時還具有能夠和時頻域兼容的表征,在當前的應用過程中,小波技術已經相當成熟,而且與人工智能技術的結合也日益緊密。
完成特征提取后,需要進行下一步的深度分析,完成精確的匹配過程。模式匹配識別從本質上來說是一種比對化的操作過程,對比分析沒有識別的語音特征參數以及數據庫中的語音特征參數,并從其相似度方面按照由高到低的方法將最終的對比結果呈現出來,并用表格或是樹狀圖將相似度的距離顯現出來,在識別的過程中需要限定一個相似度距離的值。在目前的具體應用中,模式匹配識別有兩種模型。
(1)矢量化模型。在實際應用該模型的過程中,第一步是要實現對語音參數的矢量化,并將矢量化處理的方式應用在個體語音的檢測過程中[4]。在實際應用中,為了有效地表示出個人信息的語音矢量,應對被檢測人的個體語音特征進行收集,并對其特征參數進行處理,然后提出與之相對應的語音規范標準。
(2)構建隨機化模型。在日常生活中,雖然語音特征是每一個個體獨特的生理特征,但是一個人的語音在不同環境、不同狀態下的表現也不一樣,而且人體的語音在變化范圍以及變化的概率方面不確定性非常大[5],在該模型的構建中,尤其需要考慮到轉移的概率、傳輸的效率與概率等方面的因素。為了使得隨機化模型在應用過程中更加可靠與精確,需要在訓練過程中獲取狀態轉移概率的矩陣以及符號輸出概率矩陣等方面的內容。在外界環境發生變化的同時,被測個體的語音信息也在隨之發生一定的變化,在對語音信息進行識別的過程中,該系統可以進行快速有效的識別,同時針對語音信息在狀態轉移時的概率可以在最大程度上對語音進行識別,然后利用數據庫的相關樣本內容來對被檢測人的語音模型做出更深層次的分析與判斷。
在“互聯網+”環境下,人工智能技術得到了飛速的發展,為了對語音信號進行高效的識別與處理,加強和創新人工智能和語音識別系統的結合已成為時代發展的趨勢。在利用計算機進行演算的過程中,對識別度高的聲學特征數據進行提取和分析,有效提高語音識別的準確度及精確度。在未來發展中,應進一步實現語音系統和人工智能系統的有效結合,并對語音識別系統的功能以及兼容性進行有效的擴展。■