楊京寶 高恩錄 劉 揚 陳 庚 王慶越 夏玉琦 趙 振
(1.青島淄柴博洋柴油機股份有限公司 青島 266701)(2.青島科技大學信息科學技術學院 青島 266061)
語音信號是人類生活中認知溝通的重要信息載體,它不僅包含語義信息,還攜帶著說話者的情感狀態。隨著計算機處理能力的進一步提高和對智能生活需求的增長,語音情感識別(Speech Emotion Recognition,SER)已成為人們生活中不可或缺的一部分[1],具有廣泛的應用場景,包括人工服務[2]、遠程教育[3]和醫療援助[4]等。然而,由于語音的多樣性和情感表達的復雜性,提高情感識別準確度仍是一個亟待解決的難題。
基于傳統機器學習方法的語音情感識別模型,如隱馬爾可夫模型[5]、高斯混合模型[6]和決策樹[7]等,在以往的研究中被廣泛用于情感識別的特征提取。然而,傳統的情感識別方法面對規模龐大的訓練據集時難以實施,且由于語音中包含多種情感狀態,從而導致模型訓練計算量大,情感狀態分類困難,最終導致整體識別率較低。
近年來,深度神經網絡在SER的特征提取方面表現出了突出的性能。與傳統的語音情感識別方法相比,深度神經網絡能夠通過監督學習從大量的訓練樣本中提取語音情感的高級特征表示,例如Tursunov[8]等采用卷積神經網絡(Convolutional Neural Network,CNN)從語譜圖中學習的語音情感特征,并在基準測試數據集上取得了優異的語音情感識別效果;盧艷[9]等采用遞歸神經網絡(Long Short-Term Memory Network,LSTM)提取了語音情感特征的隨機時間關系和情感特征的不確定性,從而顯著提高了SER的準確性;……