左夢婷 溫朝暉





摘要:針對嬰幼兒語音分析的問題,運用了快速傅里葉變換、多元統計分析、平均十二音律法、短時平均能量、馬氏距離等方法,構建了男女聲鑒別模型、聲音譜曲模型、嬰幼兒聲音語義分析等模型,綜合運用了MATLAB、EXCEL等軟件編程求解.結果表明,基因頻率可以準確判別男女聲,通過短時平均能量可以識別嬰幼兒所要表達的情感.
關鍵詞:嬰幼兒;語音分析;傅里葉變換;平均十二音律法;短時平均能量
中圖分類號:TP391.42? 文獻標識碼:A? 文章編號:1673-260X(2019)07-0058-05
嬰幼兒的大腦發育與語音之間存在一定的關聯,嬰兒出生時,便會伴隨“哇哇”的哭聲降臨這個世界,他會自發的掃視周圍環境,對自身的需求產生不同的情緒信息[1].而由于語言功能尚未完全發育,剛出生的嬰兒不能通過清晰的文字語言表達自己的情緒,只能通過簡單的哭、笑等本能反應來體現自己的需求,因此對嬰幼兒語義分析的研究就顯得尤為重要.
就目前而言,國內許多專家學者對語音信息識別進行了諸多研究,并取得了一定的成果.麻旻等[2]將基因頻率作為鑒別男女聲音的標準,分別采取傅里葉變換和自相關的方法進行了語音的基因提取,通過分析比較得出基因頻率可以有效進行男女聲的識別.趙清陽[3]通過將KNN算法與情感特征參數相結合的方法,對嬰兒的情感模式進行識別,通過識別率的高低判斷嬰兒的需求.顧國良等[4]運用動態時間規整算法,建立了一套實時嬰兒哭聲識別系統,提高了嬰兒監護的質量.
1 模型假設
為了便于解決問題,本文提出以下假設:(1)假設所采集的音頻無雜音及其他干擾.(2)假設音的頻率只與弦長有關,其他變量固定.(3)假設曲譜不存在無效的音符,即所有的樂譜均能唱出.(4)假設對音頻的處理在允許的誤差范圍.(5)一切數據來源真實、準確.
2 基于傅里葉變換對男女聲音的分析
2.1 研究思路
首先,運用GOLDWAVE軟件,采集多名男女聲演唱同一首歌的音頻,通過MATLAB軟件繪制出時域圖;其次,通過傅里葉變換,得到聲音信號的頻譜圖,找出男女聲音的區別;最終,選取合適的聲音信號指標建立判別模型,得到鑒別男女聲音的判別函數.
2.2 研究方法
2.2.1 傅里葉變換
指將時間域上的信號轉化為頻率域上的信號,使數據得以簡單的處理[5].它認為一個周期函數包含多個頻率分量,任意函數f(t)可通過多個周期函數相加而合成.
2.2.2 判別分析
又稱“分辨法”,是一種判斷個體所屬類別的統計方法.其原理是按照一定的判別準則,建立一個或多個判別函數,根據某一研究對象的各種特征值確定判別函數中的待定系數,并計算判別指標,據此確定某一樣本屬于何類.
2.3 模型的準備
2.3.1 聲音信號的采集與預處理
選擇一間空曠安靜的教室,將男女生分隔開,通過GOLDWAVE軟件進行現場錄音.保存類型為mp3,屬性顯示Layer,44100Hz,128kbps,立體聲.將采集成功的音頻文件按照要求進行重命名,并將其格式修改為WAV,以便MATLAB軟件的讀取.
2.3.2 繪制時域圖與頻譜圖
在MATLAB軟件中,通過Audioread函數從對應的音頻文件中讀取所需要的聲音信息,繪制出時域圖.并通過FFT函數對時域信號數據進行傅里葉變換,得到頻譜圖.男女聲結果分別如下圖1、2所示:
通過上圖可以看出,女生的聲音頻率主要分布在200Hz-2000Hz,男生的聲音頻率主要分布在200Hz-900Hz.由此可以得出初步結論:女聲的聲音高頻成分較多,男生的聲音低頻成分較多.
2.4 模型的建立與結果分析
聲音是由物體的機械振動產生,以波的形式在介質中傳播[6].因此,聲音具有頻率、波長等共同特性.生活中人們常通過每個人的音色不同來區分聲音.基于此,我們選擇時域和頻域作為指標來建立判別函數.對于時域,選擇波的半寬度作為指標;對于頻率,選擇頻率集中區域的中位數來反映頻率的差異,結果如下表1所示:
通過判別函數W(X),可以將待判樣本的時域和頻域信息帶入此函數,若函數值大于0,則屬于男生;若函數值小于0,則屬于女生.
3 基于十二音律法對嬰兒聲音制譜的研究
3.1 研究思路
首先,用MATLAB軟件將音頻轉化為數字串,選取500個樣本值,并補零至1000個,進行快速傅里葉變化,結合坑函數進行峰值判斷;其次,對音樂要素進行量化,由主音頻率存在的關系確定主音為A,由平均十二音律法確定一節基本為3拍,整個音頻為3/4拍,進而對距離比值進行轉化,得出頻率范圍在10-4000Hz的結論;最后,進行樂譜合成.
3.2 模型的準備
數字變化引起聲音變化,數字變化的頻率與整個樂譜的頻率緊密相連[7],因此需要估計出每一時刻的振動頻率,利用MATLAB軟件將音頻轉化為數字串,得到此段音頻的頻率為44100Hz.通過查閱相關資料知,“坑函數”匹配技術在各種基音估計技術中誤差較小,效果較好.而任何樂聲的圖像都是有規則的周期性圖像,根據傅里葉定理知,任何一個周期函數都可以表示成三角級數的形式,即
由公式知,所有泛音的頻率都是基本音頻率的整數倍,稱為基本音的諧波,所以傅里葉研究說明任何樂聲都是一些簡單聲音的復合.
3.3 模型的建立
由MATLAB軟件知附件中音頻的頻率為44100Hz.為了獲取這一時刻的基頻,現需要在該時刻的附近截取一小段樣本.因為需要求出瞬時頻率且需要保證最低的基頻也有可能進行幾周震蕩,所以這一小段樣本的長度不能太長,也不能太短.根據MATLAB軟件的運行結果,取500個樣本值,總樣本數目為5000,周期為0.1秒.這樣,低至100Hz的周期信號,也有可能振蕩10周.
因為頻點越密,精度越高,所以在這500個采樣值后補零至1000個點的長度,做1000個點的快速傅里葉變換,得到這1000個點的復數值.而前面500個點就代表了全部的頻率信息,第500個點對應頻率22050Hz.因為前100個點覆蓋了從0Hz到2691Hz的語音信號,對識別音頻來說是足夠的.變化后頻率點的間隔變為2.7Hz,為此模型的量化誤差.
3.4.2 音符的確定
首先,對10000個的穩定性進行單位根的檢驗,判斷出穩定.
其次,在穩定的基礎上,得到的平均值為9.49.
接著,在的平均值接近10的情況下,定比值10的音為B,頻率為982Hz.
最后,其他音根據與B音頻的倍數,確定頻率,由頻率轉化成對應音符.其中,轉化后頻率范圍在10至4000Hz.
3.4.3 樂譜的生成
綜上,可以得到:主音節拍為A調;節拍為3/4拍,以1/4分音符為一拍,一節三拍.根據樂理知識,可繪制樂譜如下圖5所示:
4 基于短時平均能量對嬰兒聲音語義的分析
4.1 研究思路
首先,運用MATLAB軟件計算出嬰兒聲音的短時平均能量;其次,與情緒參照表的中的指標值進行對比,觀察與哪一數值更為接近;最終,通過對比分析得到該嬰兒聲音的語義.
4.2 模型的準備
語音信號是一個非平穩態過程,不能用處理平穩信號的數字信號處理技術對其進行分析處理[8].但是,由于不同語音在短時間范圍內(一般認為在10~30ms),其特性基本保持不變,即相對穩定[9].因而可以將其看作是一個準穩態過程,對語音信號進行分幀技術處理,如下圖6所示.
接著,對這段嬰兒語音進行加漢明窗處理,如下圖7所示:
4.3 模型的建立與結果分析
語音的能量振幅會隨著時間的變化而變化,語音信號的振幅特征和情感信息有著較強的相關性.對于嬰兒來說,當他們高興、憤怒、饑餓時,他們的音量會伴隨著這些情緒而變大,而類似依戀、困倦這些情緒發生時,往往音量會低于前者[10].一般這些情感的平均振幅越大或者越小,它們的情感表現特性就越強[11].所以,在嬰兒的語音情感信息研究中,這個振幅的構造特性會作為重要的特征來研究.短時能量為一傾采樣點值的加權平方和,定義短時能量公式如下:
式中w(n)為漢明窗函數,n為窗長,在計算能量參數之前,先將輸入的語音信號進行預處理、分幀,然后對每一幀運用上述公式計算能量值,即可得到短時能量構成的時間序列.
通過MATLAB軟件,成功得到了該嬰幼兒音頻的短時能量圖.進一步地,需要求出平均短時能量,這里,采用求定積分的方法來大致求出平均短時能量.
即最終得到的平均短時能量為0.145.由情感特征參數貢獻度表可知,嬰幼兒在不同平均短時能量對應的不同情感,可以發現該數值最接近0.1401,即為高興狀態下的平均短時能量,故依據此判別方法,判定該嬰兒在此語義下的情感為高興.
5 結語
本文基于傅里葉變換,對嬰幼兒語音分析問題進行了探究,運用了MATLAB、EXCEL等軟件編程,繪制出相關圖表,簡潔直觀.巧妙地利用了聲音頻率與弦長之間的關系,充分應用了統計分析技術,得到了可以反映音樂要素的規律和統計量,通過仿真驗證能夠以較高的準確率進行男女聲音識別,較為清晰地知道嬰兒所要表達的含義,對日后嬰兒護理等方面有一定的參考價值.
參考文獻:
〔1〕魏麗娜.嬰兒情緒信息的模式識別技術研究與實現[D].復旦大學,2012.
〔2〕麻旻,李祥.一種基于MATLAB實現的男女聲識別算法[J].儀表技術,2018(07):21-23.
〔3〕趙清揚.嬰兒需求表達語音信息的智能識別技術研究[D].復旦大學,2014.
〔4〕顧國良,許鵬,沈曉燕.基于數字信號處理器的嬰兒聲音識別系統的設計與實現[J].生物醫學工程研究,2018,37(03):276-280.
〔5〕李嘉亮.基于matlab的聲音信號簡單分析與處理[J].中國科技信息,2013(08):49-50.
〔6〕陳家焱,陳冬嬌,張達響.基于Matlab的聲音信號采集與分析處理[J].計算機與現代化,2005(06):91-92+96.
〔7〕袁鳳玲.嬰兒啼哭聲的特征分析與識別[D].西華大學,2011.
〔8〕宮瑾,沈小鍵,賈磊,李鴻鑫,楊子康,金建設,趙帥.嬰兒欲望與狀態識別系統[J].物聯網技術,2018,8(02):7-12.
〔9〕陶冶,徐琴美.12個月中國嬰兒熟悉詞表征中聲調的語義特性[J].心理學報,2013,45(10):1111-1118.
〔10〕張榮剛.嬰兒智能看護系統的語音識別模塊設計[J].太原師范學院學報(自然科學版),2012,11(02):64-67.