鄧 鑫,王巖松,楊 超,郭 輝
(上海工程技術大學 機械與汽車工程學院,上海 201620)
語音特征提取方法被廣泛應用于各類信號的特征提取。傳統的語音特征提取方法包括:梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)、線性預測倒譜系數(Linear Prediction Cepstral Coefficients,LPCC)等。文獻[1-3]中采用MFCC 特征提取,在相應病理異常分類識別中取得了良好效果。文獻[4]通過替換離散余弦變換,提高了對家庭中危險聲學事件的檢測效果。在MFCC的改進方面,文獻[5]將SLCF 和SSF 分別與MFCC融合成新特征,降低了孤立字識別系統中的總錯誤率。文獻[6]將譜熵梅爾積與MFCC 結合,提高了信噪比環境下,語音端點檢測的準確率。文獻[7]采用逆MFCC 變換,在DCASE 給定聲學場景分類中取得較好的準確率;文獻[8]將Teager 能量算子引入MFCC,在文本獨立揚聲器驗證任務中,識別效果明顯優于MFCC 方法;文獻[9]將線性預測-希爾伯特變換與MFCC 結合,有效識別不良語音和正常語音。對于非語音信號和非平穩信號,MFCC 的特征提取能力不足。LPCC在口譯準確度[10]、情感分類[11]和文本語音識別[12]方面都有不同程度的研究及應用,但是LPCC 對含噪信號特征提取效果不佳。
綜上所述,現實環境中背景噪聲大,汽車鳴笛聲信號瞬時性強,因此基于單一特征的汽車鳴笛聲識別方法效果有待提升。
本文提出的基于融合特征的汽車鳴笛聲識別方法,具有識別率高、魯棒性強、計算快速等特點。該方法首先對鳴笛聲信號進行變分模態分解(Variational Modal Decomposition,VMD),獲得多個本征模態分量,基于峭度準則篩選出主模態函數(Intrinsic Mode Function,IMF),并重構信號;隨后,提取重構信號的MFCC 和LPCC 特征,并利用ReliefF算法實現特征降維和特征融合;最后將融合特征輸入BP 神經網絡,實現汽車鳴笛聲的準確識別。
MFCC 特征參數是基于人耳對不同頻率聲音信號的感知能力不同所提出[13]。標準由MFCC 參數及其一階差分和二階共同組成MFCC 特征參數。一般取前12 維MFCC 特征作為特征參數。
Mel 頻率與Hz 頻率的非線性關系近似表示為:

線性預測模型是基于最小均方差準則,對聲音信號實際值進行預測。當實際值與預測值誤差最小時,利用Durbin 算法求解得線性預測系數LPC。一般將線性預測系數通過倒譜域轉化為等效參數,即LPCC 系數。

式中,(n) 表示預測值;ak表示線性預測系數;s(n- i) 表示n- i時刻信號采樣值。
1.2.1 Fisher 融合算法
Fisher 算法通過尋找最佳投影方向,使得不同類樣本間的離散程度最大,同時使得同類樣本間的離散程度最?。?4]。聲音特征參數有效性Fisher 定義為:

其中,σbetween表示同類樣本內的離散程度,σwithin表示不同類樣本間的離散程度。
1.2.2 ReliefF 融合算法
Relief 算法[15]由Kira 等提出。算法根據樣本類別和各個特征的相關性,賦予特征不同權重,僅應用于兩類問題的分類。Konoenko 等[16]在此基礎上,提出了ReliefF 算法,應用于多類問題的分類。本文采用ReliefF 算法作為融合特征算法。
某一特征i的權重更新公式為:

式中,H代表與樣本R在特征i上最近鄰的同類樣本;M代表與樣本R在特征i上最近鄰的不同類樣本;m代表算法迭代次數。
不同樣本在某一特征i上的距離計算公式為:

其中,R1(i) 和R2(i) 表示兩個樣本在特征i上的數值。
ReliefF 融合特征算法的具體實現過程如圖1所示。

圖1 基于ReliefF 特征參數融合流程圖Fig.1 Flow chart of feature parameter fusion based on ReliefF
變分模態分解是由Konstantin Dragomiretskiy等[17]提出的一種非遞歸自適應的模態變分方法,能將復雜信號分解為中心頻率Uk固定、頻率帶寬有限的多個模態分量(IMF)。本文利用VMD 分解汽車鳴笛聲信號,取最大分解層數k=8,同時計算各分量峭度值,見表1?;谇投葴蕜t,當峭度最大時,確定VMD最佳分解層數k=4。

表1 各IMF 分量峭度值Tab.1 Kurtosis value of each IMF component
由圖2、圖3 可知,VMD 分解原始聲音信號獲得4 個模態分量。當分解層數k=4 時,原始信號重構效果較好。

圖2 VMD 處理的汽車鳴笛聲時域及頻域圖Fig.2 An example of time-frequency domain diagram of car whistle processed by VMD

圖3 各IMF 分量時域及頻域圖Fig.3 Time-frequency domain diagram of each IMF component
2.2.1 MFCC 及LPCC 特征參數
圖4 中,3 種聲音在第4、6 維MFCC 特征參數的取值不同,表明其標準MFCC 靜態特征和一階MFCC動態特征具有顯著差異性。圖5 中,3 種聲音在第9~12 維LPCC 特征參數的取值不同,表明3 種聲音的波形及共振峰特征差異明顯。因此,可以利用不同類型聲音在某些特征系數上的差異性進行識別。

圖4 3 種聲音信號中提取的某幀12 維MFCC 特征系數Fig.4 The 12 dimensional MFCC feature coefficient extracted from three kinds of sound signals in some frame

圖5 3 種聲音信號中提取的某幀12 維LPCC 特征系數Fig.5 The 12 dimension LPCC feature coefficient extracted from three kinds of sound signals in some frame
2.2.2 融合特征
ReliefF 算法中,權重值越大,表明該特征參數對區分不同類樣本的能力越強;權重值越小,表明該特征參數對區分不同類樣本的能力越弱。
基于Fisher 準則和ReliefF 算法,圖6、圖7 反映了不同維數特征在MFCC 和LPCC 特征中的權重值不同。

圖6 MFCC、LPCC 特征的Fisher 比Fig.6 Fisher ratio of MFCC and LPCC features

圖7 MFCC、LPCC 特征的ReliefF 權重Fig.7 ReliefF weight of MFCC and LPCC features
由圖6 可見,基于Fisher 準則的第3 維MFCC 特征權重值為0.293 6,表明在Fisher 準則下,標準MFCC靜態特征比一階、二階MFCC 動態特征更能反映3 種聲音之間的差異性。基于Fisher 準則的第2 維LPCC特征權重值為0.368 2,表明3 種聲音的波形及共振峰特征差異在第2 維LPCC 特征參數差異顯著。
由圖7 可見,基于ReliefF 算法的第1 維MFCC特征權重值為0.280 5,并且反映動態特征的一階、二階參數的權重值顯著高于Fisher 準則下對應參數的Fisher 比值。由此表明ReliefF 算法能更加充分利用聲音信號的動態特征,從而提高對聲音信號幀與幀之間相關度的利用率?;赗eliefF 算法的第2 維LPCC 特征權重值為0.240 4,高維LPCC 特征參數的權重值顯著高于Fisher 準則下同類特征,表明ReliefF算法對反映通道特性的特征利用更充分、更全面地反映3 種聲音波形及共振峰特征的差異性。
文中采用AudioSet 數據庫的聲音樣本,樣本總計300 例聲音信號。其中,100 例汽車鳴笛聲、100例鳥叫聲、100 例雷雨聲。聲音樣本預處理包括:預加重、分幀、加窗等。采樣頻率為44.1 KHz,數字量化為16 bit,幀長為25ms,幀移為10 ms,文件采用Wav 格式保存。BP 神經網絡模型網絡設置:中間層10 層,70%為訓練樣本、15%為驗證樣本、15%為測試樣本。經過VMD 處理的聲音信號識別結果見表2。

表2 經過VMD 的聲音信號識別結果Tab.2 Recognition results of sound signals processed by VMD
由表2 可知,經過VMD 處理的聲音信號,MFCC和LPCC 特征參數在BP 中的識別率分別為94.7%和72.5%。MFCC 特征的識別率顯著高于LPCC 特征的識別率,說明MFCC 對汽車鳴笛聲的表征能力更強。不同特征提取方法在PB 神經網絡中識別結果見表3。

表3 不同特征提取方法在BP 神經網絡中的識別結果Tab.3 Recognition results of different feature extraction methods in BP
由表3 可知,通過對單一特征和融合特征在BP神經網絡中識別準確率進行對比,本文提出的基于ReliefF 融合特征算法識別率最高,達到95.9%,優于其余3 種特征的識別率。
實驗采用真實車輛鳴笛聲,音響播放鳥叫聲和雷雨聲。實驗在半消聲室(9.8 m×8.6 m×3.5 m,長×寬×高)內進行,采用PCB 麥克風及LMS SCADAS Mobile 數據采集儀測量聲壓信號。
縱向分析表4 可知,在BP模型中,LPCC 特征參數的識別率最低,僅為80.3%,而其余3 種特征提取方法的識別率均在95%以上?;赗eliefF 融合特征方法識別率優于單一特征MFCC 和基于Fisher融合特征方法,達到98.9%,比LPCC 提高23.2%以上,表明本文所提融合特征方法優于單一特征方法。

表4 4 種特征提取方法在BP 神經網絡中的識別率Tab.4 The recognition rate of four feature extraction methods in BP
本文在聲音信號輸入后利用VMD 算法進行信號分解和重構,提出基于ReliefF 算法的特征融合,將MFCC 特征參數和LPCC 特征參數進行融合,相較于其他特征,在汽車鳴笛聲識別的準確率上有所提升。在未來的工作中,可以考慮對VMD 特征分解層數或者懲罰因子進行尋優。實際環境中,汽車鳴笛聲還受到許多因素的影響,例如警笛聲信號的干擾等。因此,汽車鳴笛聲的識別還可以利用支持向量機或卷積神經網絡等技術,提取更多深層次特征,以提高預測的準確度和實效性。