張國鋒
(東莞市經濟貿易學校 廣東省東莞市 523000)
通過深入的探討和研究,我們發現指令是人們在日常的語言交往過程中的一種重要因素,我們可以通過指令讓某人完成任務,因此人們開始思考用語言命令人工智能。在學術界的出現了“語音識別技術”這個新鮮名詞。正是由于語音識別技術的出現,把人類語言和人工智能完美的融合在一起,透過計算機來接收人類語言信息,通過指令來理解人類語言,智能地實現人與電腦的交流,達到向計算機傳遞命令的目的。
語音情感識別方面存在兩個基本問題:
(1)如何行之有效地界定與分類情緒。
(2)如何建立情感模型。
關于建立情感模型的問題,其主流上有兩種情緒描述的模型:離散情緒模型和連續情緒模型,其在二維空間的分布情況圖如圖1所示。
離散情緒模型將情緒分為快樂、憤怒等多種類別,由于人類情緒狀態的復雜性,對基本類型的情緒狀態的研究已逐漸成為離散情緒模型的第一問題。根據這一原則,情感可以分為主情感和次情感,其中主情感是所有生物共同擁有的。人類的情感可以分為基本情感和次要情感。其中基本情感又細分分為痛苦、驚訝、憤怒、厭惡、恐懼、內疚以及輕蔑等。次要情緒是基本情緒的組合。由此可見,情感分類方法有一些共同特性,其中悲傷、憤怒和幸福被視為人類的主要情感的觀點被廣泛接受。
隨著目前科技的快速發展,傳統的語音識別模式很難滿足現代人的需求,過去很多智能機器雖然都設置了語音識別軟件,實現了初步的人類和計算機的對話功能,但是在算法等領域,語音識別技術的發展開始進入了寒冬期,難以突破。在今后的研究過程中,要加強對語音信號發生、傳輸等領域的綜合分析,全面發展這項技術[1]。
近幾年,互聯網有了更加顯著的發展和擴大,讓我國的社會人民從信息時代進入到了智能時代,語言識別技術的研究將完全符合時代發展趨勢,使人們能夠從多渠道、多角度獲得最原始語音信息,以前對該領域的研究停留在算法上,很難充分發揮數據信息的作用。
語音識別功能是指依靠有效手段將語音中所包含的語音類數據轉換成計算機系統可識別的信息,從而為人或機器等提供服務功能。語音識別系統一般由聲學的特性采集提取后處理、聲學類相關模型、語言類相關模型以及解碼器等相關模塊所構成。其大致的工作原理是:從所采集的語音數據模型中提取所需特性信息,通過訓練等方法建立一定的聲學模型,與語音模型相互匹配,最終通過科學算法對此類信息進行解碼處理,從而得到與原始數據的內容相一致的文本類數據信息。語音識別系統的機構簡圖如圖2 所示。

圖1:情感二維空間分布圖
為了更準確地表示語音內部的時間序列與隱藏狀態之間的關系,超過半數的語音識別系統都會選用隱馬爾可夫模型(簡稱HMM),然后完成聲學類模型的建立,其模型結構簡圖如圖3 所示。HMM 對動態時間的序列擁有建模能力強的特點。它的本質是概率類數學模型,用參數表示隨機的統計學特性及狀態。隱馬爾可夫模型由兩大部分組成:固定狀態數HMM 和顯式隨機函數HMM。這兩部分之間有對應關系。這樣,我們可以通過觀察序列的相關信息來獲得隱式過程的信息。
在語音生成和HMM 過程中有許多共同的特點:根據場景的需要和預定的語法相關規則,大腦不斷地向語音器官輸出一系列指令。這一過程是不可被觀測的,它與狀態的轉移有著相應的關系。語音指令發出后,器官所形成的聲音信號直接關系到人們的心理以及生理狀況,但總體上仍表現出較為規律的統計學特性[2]。因為HMM能夠分析語音的全局非平穩特性和局部區域的平滑特性,可以根據語音的時間序列信號來建立相應的聲音模型,因此其在聲學建模中得到了廣泛的應用。
語音信號的特征提取與使用是語音識別系統的第一項重要步驟,其主要的目的是量化語音信號所攜帶的眾多相關信息,得到在一定程度上可以代表語音信號區域的特征點,并對聲學類模型進行進一步的分析以及處理。深度學習的良好效果在圖像識別方面得到了很好的體現,而其在語音識別方面的特點也顯示出了其比傳統方法具有更大的優勢。其特殊的訓練策略可以為神經網絡提供良好的初始權值和偏差,使神經網絡模型在實際訓練時不會走進局部最優性解的誤區,而是將結果收斂到較為合理與可行的極值點。深層神經網絡模型能夠學習描述原始音素及其相關數據的最本質的特點,從而增強數據的可分辨性和語音識別系統的工作性能。與此同時,利用深度神經網絡的方法學習深度特征信息,可以保證原始信息在進行降維操作后不被破壞,而是仍然維持較為高水準的識別成功率。利用深層的神經網絡對原始數據進行逐層映射,能夠提取出能較好地代表原始數據的深層次的本質特點,從而提高了傳統的語音識別系統的工作性能。

圖2:語音識別系統結構簡圖

圖3:隱馬爾科夫聲學類模型結構簡圖
伴隨著新興的人工智能技術的飛速發展,人們內心對人機交互方面相關技術也有了更高的期望值,希望其在交流過程中具有一定的感情,因此基于人工智能下的語音識別系統正逐漸的將語音情感識別等相關功能加入其中。識別與分析一段語音中的情感類信息并在其中提取所需的情感特征是一個非常繁冗且復雜的過程。單單是通過言語識別聲音發出者的情感本就有其自身的局限性。因此,將面部的表情、語音器官運動的數據、運動學特性和聲學特性等眾多相關信息集成到語音情感識別功能中具有里程碑式的意義。需要注意的是,由于語音器官運動的數據采集的難度系數較高,具體執行難度較大,而較為傳統的語音識別中對于情感識別的部分僅限于聲學以及統計學的識別。然而,隨著科技水平的飛速發展,越來越多的特征如面部表情的運動相關數據、器官的運動相關數據、聲學系統相關數據正被采集并逐漸將其融入到人工智能下的情感語音識別系統的行列中。深度學習模型中需要大量的數據支持,加入語音器官的運動特性和聲學系統特性可以較大的擴展樣本數據,從而進一步地優化情感語音識別的模型。我們在情感特征的提取、采集和分析工作進行了大量的研究,可以幫助人工智能下的智能產品更好地采集與識別人類的情感狀態,從而促進人機交互技術的進一步的發展。未來,語音識別系統將會通過深入學習,使人機交流過程真正具有情感性。不僅要識別情感,還要更好、更快、更準確地識別以及分析不同年齡、性別或者發音習慣的情感類相關聲音。
深層次神經網絡系統可以利用語音預處理后的數據完成語音識別功能的模型訓練。由于網絡模型的層次深,網絡的結構復雜,在訓練過程中需要調整大量的參數信息[3]。利用自編碼的模型可以減少模型陷入局部最優解以及過擬合等問題。語音識別的仿真訓練主要是為了使語音識別系統更好地掌握其所需的語音特性相關值。向語音識別系統中導入大量的數據進行多周期訓練能夠更有效的提高語音識別系統的識別效果。除了在語音識別的系統中添加模擬的訓練模板之外,還應該對模板數據庫中的字符進行識別。加入更多的相似詞能夠更好地提高語音識別系統的識別準確率,從而避免較低層次的錯誤。擴展和添加語音識別的模式能夠從根本上加強語音識別系統識別語言信息匹配程度,從而加強語音識別系統的工作性能。另外,語音識別系統本身需要采集分析以及掌握各種語言,因此添加語音模板是訓練語音識別系統的較為行之有效的方法。
基于人工智能深度學習的語音識別方法的研究具有以下優勢:主要內容如下:
(1)逐步提高語音識別系統的準確性和準確率,從而能夠為用戶提供良好的經驗。
(2)提高智能語音系統的硬件的逐步發展,提高穩定性和可靠性,從而擴大產品的使用范圍。
(3)從產品到產業體系,實現語音服務模式,發展成為一條成熟的產業鏈。
(4)在把智能語音發展成人工智能的過程中,要逐步提高工作人員的認知和技術能力。
建立一個智能引擎,這是把認知和感性互相結合起來的一種綜合行為[4]。智能引擎,從感覺角度擴大知覺、視覺、聽覺的范圍,整合了閱讀等感知信息;在認知的方面,我們可以很好地理解語言、自發性的學習、邏輯方面的推理以及表達知識等方面,并且還能夠向外表達一些相關決策的信息,從而組建一個跟人類的普通思維方式和表達等交互作用模式。
在目前社會的發展之下,經濟和現代科學技術也在不斷地發展,人工智能和深度學習的如何發展已經成為研究工作的熱點。在未來社會經濟的發展過程中,該行業的專家學者應該加強對人工智能技術這一方面的研究,從而將語音識別系統的作用進一步地挖掘出來,不斷地更新和優化語音識別系統,讓其給人類的日常生活和生產過程提供更優質的服務。