王紅濱, 王永樂, 何鳴, 薛垚
(1.哈爾濱工程大學 計算機科學與技術學院, 黑龍江 哈爾濱 150001; 2.電子政務建模仿真國家工程實驗室, 黑龍江 哈爾濱 150001)
水下聲音信號預處理技術隸屬于水聲學領域,隨著我國軍事需求的不斷攀升,其重要性也隨之提高。然而,水下檢測設備接收到的原始信號混入了環境噪聲、機械噪聲、螺旋槳噪聲、水動力噪聲等,再加上目前水下生態環境的復雜性,這些都給聲音預處理工作帶來了很大的困難。聽覺感知機制和聽覺模型對水下輻射噪聲處理工作有著較多貢獻。在聽覺機制下,聲信號的主觀描述特征很容易區分,但這與艦船目標類型和聲源特征之間的關系還有待研究,所采用的算法也需要大量試驗的支持。對于水下目標的輻射噪聲特性有許多研究。KIM等[1]運用短時傅里葉變換表示低頻音調向量,結合壓縮感知技術檢測水下目標輻射噪聲,達到了良好的試驗效果。董博文等[2]以復雜海洋環境中的艦船與水下航行器結構的聲輻射、聲傳播研究作為基本出發點,通過數值仿真方法,分析水下噪聲特性。對于水下試驗環境反演方法的研究也有許多,Munk等[3]對射線模型在海水中聲傳播的時間展開研究,將該時間作為傳播準確參量。Voronovich等[4-5]將海洋聲層析與絕熱簡正波理論緊密結合,并據此形成簡正波的傳播時間與相位和水平折射等多種方法。Skarsouli[6]則另辟蹊徑,利用接收信號到達的峰值抵達時間和聲速二者之間形成的擾動實現反演。劉福臣等[7]為了解決未知環境下聲速剖面表示的局限性,通過利用不同參數的多項式擬合計算和模信號反演相結合的方式,來對聲速剖面進行反演。Bonnel 等[8]為了處理分解在淺水傳播的頻率低于500 Hz的低頻瞬態信號,提出了一種非線性的,基于物理的信號處理方法。竇雨芮等[9]通過運用簡正波方法,研究不同聲速剖面對聲傳播最佳深度的影響。
目前,隨著深度學習的發展,各種對深度學習在音頻領域的相關研究也在不斷開展。Latif等[10]使用深度學習進行心音異常心跳檢測。Mohammed 等[11]用卷積神經網絡模型實現語音病理學的檢測和分類。Hemavathy等[12]提出了一種基于深度學習的DL-HDBT(deep learning-based hybrid dynamic biased track)方法,用來在水聲傳感器網絡中識別網絡的最佳中繼節點及跟蹤擁堵的節點。Shiliang等[13]總結了水聲信號的特征分析和提取方法、常用的水聲目標分類方法以及識別方法。羅夏云等[14]使用MFCC處理船舶水下噪聲信號,將水聲信號轉換為MFCC特征向量。Tran等[15]提出了一種通過梅爾頻譜圖和尺度圖提取豐富的聲信號特征方法,并結合機器學習分類器對鉆孔機的鉆孔故障聲音進行分類。陳文青[16]通過試驗發現線性預測倒譜系數(linear predictive cepstral coefficient, LPCC)也是一種很好的研究信號時域特征的方法。曾賽等[17]利用水下目標多模態深度學習分類識別法來完成水聲探測的分類任務。
目前,水下目標聲信號的研究需要借助水下探測設備。設備接收到的原始信號是低信噪比信號,這些信號混入了環境噪聲,需要對這些信號進行特征提取工作,使提取出的特征更加準確的反映出信號的特點。本文提出了基于梅爾頻譜倒譜系數(mel-frequency cepstral coefficient,MFCC)及線性預測編碼(linear predictive coding, LPC)的特征加權組合的特征提取方法,在保留水下聲信號特性的同時極大地發揮了不同特征處理方法的優勢。
LPC特征表示方法和MFCC特征表示方法可以進行水下聲信號的特征提取。LPC特征表示方法具有計算量小、易于實現的優點,但其缺點是抗噪聲性能差。MFCC特征表示方法則能夠較好地反映出人耳的聽覺特性,在抗噪性方面要優于LPC特征表示方法,但是其計算精度的要求要高于LPC特征表示方法。另外,在MFCC處理高頻聲音的時候,其精度會比沒有處理低頻聲音精準。
基于以上2種方法的優缺點,本文提出了特征加權組合表示方法,水下聲信號同時用2個方法進行處理,其中一個信號經過預加重、分幀、加窗、快速傅里葉變換(fast fourier transform, FFT)、梅爾濾波器組的處理后得到MFCC特征表示,同樣的信號再經過預加重、功率譜、臨界帶分析、自回歸模型處理后得到LPC特征表示。對2種矩陣使用特征加權組合方法進行處理得到新的特征矩陣。然后把提取出的特征矩陣使用映射插值算法映射為行列大小相同的矩陣。特征加權組合方法的總體處理過程如圖1所示。

圖1 特征加權組合方法Fig.1 Combination of weighted feature method
LPC是基于線性預測理論的聲音識別特征參數之一。計算音頻信號的LPC的過程可以理解為求音頻信號的P階線性預測的過程,ai為預測系數,s(n)為s(n-i)的估算值。其中心思想是對過去P個時刻音頻信號的采樣值進行線性組合去逼近下一時刻的采樣值。評判的標準就是預測誤差,即下一時刻的具體采樣值取決于當前的預測誤差是否已經達到了極小值,如果達到了極小值,則下一刻的采樣值就可以用此時的預測值來代替,具體計算公式為:
(1)
線性頻率f與M頻率之間的轉換公式為:
M(f)=2 595lg(1+f/700)
(2)
式中:M代表梅爾(Mel)頻率;頻率f的單位是1 Hz,代表M頻率與以Hz為單位的實際物理頻率之間的參考點。將頻率轉換到Mel域后,可以根據特定頻帶中的臨界帶寬設計一個中心頻率在Mel頻域上同樣呈線性分布、通帶之間具有重疊部分的三角形帶通濾波器。由于這個帶通濾波器的中心頻率在物理頻域中是非線性的,因此它可以用來模擬人類耳蝸基底膜對實際物理頻率的非線性感知。假如將帶通濾波器組的中心頻率按Mel頻率刻度均勻分布,音頻信號的特征就可以被理解為帶通濾波器組中各個濾波器所釋放的信號能量,使用該特征再經過進一步計算,就可以將其轉化為后續聲音特征提取的輸入特征。對于其中的每個濾波器,在Mel頻率范圍內,具有相同的帶寬。三角濾波器組的作用是讓通過它們的聲音信號能夠去除掉關于諧波的干擾,變得更加平滑,同時,還對水下聲音信號中的共振峰有著突出顯示的作用。
本文對聲壓數據特征提取后,根據MFCC及LPC的不同權重,設計了若干試驗,利用各個特征處理方法的優缺點,探索出最適合目標環境的權重值,將權重值與經歸一化處理后的特征矩陣相乘,以達到對特征加權的目的。并將最終確定的MFCC及LPC所占的比例用于接下來的試驗中。本文還發現,不同階數的取值對特征提取也具有一定的影響,當取較小的階數值時,兩者的融合效果較好。本文的試驗中MFCC及LPC的階數選取為1,通常聲音數據的階數默認選取為13,但由于處理聲音的特殊性,本文對階數進行了調整,也可以根據不同的環境采取不同的階數值。同時,采樣率選取為1 MHz。該值與錄制水聲信號時的值一致。
現有的卷積神經網絡結構對輸入為固定大小的圖像向量有著非常好的處理效果。受此啟發,假設把音頻特征向量映射成最適合該網絡輸入的大小,那么在進行模型訓練的時候也會得到更高的準確率。MFCC表示的特征矩陣為A,LPC表示的特征矩陣為B,由于它們的計算方式不同,所以A和B的2個維度并不相同。經過維度統一后,A和B連接成了一個維度不均勻的特征矩陣。為了解決維度均勻的問題,本文使用了映射插值算法,該算法的目的是把A和B組成的特征矩陣統一映射為行數和列數都相同且矩陣中的元素均為0~255。
具體映射的方法如下:分別對MFCC方法表示的特征矩陣和LPC方法表示的特征矩陣進行放縮,設放縮前的MFCC方法表示的特征矩陣為M,M經坐標映射后變為M′,放縮前的LPC方法表示的特征矩陣為L,L經坐標映射后變為L′。m為映射后矩陣的長度,n為其寬度,具體為:
(3)
(4)

本文中使用的是對河口水庫數據集,該數據集是2021年5月27日實驗室在浙江省德清縣對河口水庫錄制的音頻數據。本文用到的樣本數約56 643條,按照0.15的劃分比例,其中訓練集樣本數約48 146條,測試集樣本數約8 496條數據,每條數據時長約為100 ms。
脈沖信號不僅是主動式水聲跟蹤及水聲通信系統的常用信號形式,也是魚雷聲自導信號的基本形式[18]。本文選取2種常用的脈沖信號類型,分別是單頻矩形脈沖信號(continuous wave, CW)及線性調頻信號(linear frequency modulation, LFM)。CW信號有CW90K、CW100K、CW110K 3種。LFM信號有LFM 80-90k、LFM 90-100k、LFM100-110k 3種。所有信號的脈沖寬度均為10 ms,脈沖周期為100 ms。
圖2為數據集中選取的1條CW及1條LFM信號的時域圖、頻譜圖及時頻譜圖,可以從頻譜圖中直觀地看到較亮的部分為水聲換能器發射的信號。

圖2 LFM90-100k的圖形Fig.2 LFM90-100k′s waveform
錄制水下聲信號的具體試驗步驟如下:
1)母船在發射端深度x(取值1、3、5、7、9 m)處布放CTD(conductivity temperature depth)測量儀及水聲換能器,CTD儀會記錄深度及時間信息等。水聲換能器發射CW及LFM作為信號源。
2)目標船開出距母船150 m處,并在水深y處布放水聽器,水聽器是將接收到的聲信號轉換成電信號的換能器。
3)母船發射3種LFM及3種CW信號。
4)目標船接收聲信號,并將數據存儲到計算機中。
5)循環以上步驟直到遍歷完所有的發射端深度及發射信號類型。
試驗具體態勢圖如圖3所示。

圖3 試驗數據采集態勢Fig.3 Experimental data collection scheme
本文試驗所采用的模型為ResNet18,該模型由8個殘差塊組成,每個殘差塊有2個卷積層,加上1個開始的卷積層共有17個卷積層。網絡末尾處有一個全連接層,組成了18層網絡,也是模型名稱的由來。本文使用了ResNet18模型預訓練參數,對網絡的輸入及輸出等全連接層進行了調整,以滿足本文的樣本輸入要求。
本文對聲壓數據進行特征提取后,根據MFCC及LPC的不同權重比例,設計了若干試驗。MFCC占比分別為0.9、0.8、0.7、0.6、0.5、0.4、0.3、0.2、0.1,與其對應的LPC占比分別為0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9,共9組配比方案。
本文按照權重方案對CW110k在不同深度下錄制的信號進行分類,9組試驗的10輪模型擬合情況如圖4所示。其中,圖例中的m1l9代表MFCC占比0.1,LPC占比0.9,其他的標識以此類推。折線圖中橫坐標為10輪訓練的索引,縱坐標為測試集準確率。

圖4 不同特征加權組合方法的試驗比較Fig.4 Comparation of different combination method of weighted features
從圖4可以看出權重組合m1l9訓練準確率在第6輪次達到了最大值,且10輪次大多數的準確率都高于其他折線。本文接下來的試驗選取的也是該組權重組合。從權重的選擇來看,LPC方法更加適合處理本文試驗環境下的水聲數據,LPC在語音領域中能高效地提取聲道特性,語音參數的估計較為準確,當應用到水聲數據時也展現了它的優勢。權重值的選取是動態的,可根據不同的環境特性進行選擇。但如果單獨使用LPC而不使用MFCC效果反而不好,試驗結果說明兩者結合才能達到更好的特征提取能力。
特征加權組合方法主要試驗流程如下:
1)將水下聲音信號使用MFCC方法進預處理后輸入ResNet網絡進行分類試驗。
2)將水下聲音信號使用LPC方法進預處理后輸入ResNet網絡進行分類試驗。
3)對水下聲音信號采用端到端的方式輸入ResNet網絡進行分類試驗。
4)使用特征加權組合方法對聲音信號預處理,然后輸入到ResNet網絡中進行分類試驗,
5)比較1)~4)分類的準確率。
試驗結果如下,其中環境1為14∶45—16∶28錄制的數據,環境2為19∶03—18∶16錄制的數據,基線(Base)代表聲音信號未做任何特征提取操作。
從表1可以看出MFCC+LPC特征權重組合方法對由CW組成的水下聲信號特征的提取質量有提升。對于CW90k環境分類準確率最低提升1.85%,最高提升2.13%。對于CW100k環境分類準確率最低提升1.42%,最高提升2.76%。對于CW110k環境分類準確率最低提升0.42%,最高提升3.42%。綜合來看,CW平均提升2%。

表1 不同深度的CW信號的試驗比較Table 1 comparison of CW signals at different depths %
從表2可以看出MFCC+LPC特征權重組合方法對由CW組成的水下聲信號特征的提取質量有提升。對于信號LFM80~90 kHz,環境分類準確率最低提升2.82%,最高提升2.95%。對于信號LFM90~100 kHz,環境分類準確率最低提升1.95%,最高提升2.66%。對于信號LFM100~110 kHz,環境分類準確率最低提升0.14%,最高提升1.68%。綜合來看,LFM信號平均提升2.03%。

表2 不同深度的LFM信號的試驗比較Table 2 comparison of LFM signals at different depths %
綜合表1及表2,本文提取的方法可以更好地描述水下聲信號的特征。兩者的特征加權組合方法是有效的。本文還發現LFM信號環境分類準確率要高于CW信號環境分類準確率,具體如圖5所示,橫坐標為10輪訓練的索引,縱坐標為測試集準確率。圖5中擬合程度最好的3條曲線均為LFM信號。說明LFM信號提取的特征更適合處理深度分類任務,這也與LFM的特性有關。CW為測距脈沖,LFM為測深脈沖,更加適合反映目標的深度信息。

圖5 LFM及CW特征提取試驗比較Fig.5 Comparation of LFM and CW′s feature detection
1) 為了解決維度均勻的問題,本文使用了映射插值算法,該算法的目的是把MFCC及LPC組成統一的特征矩陣。
2)本文選取了比較典型的單頻及調頻信號對特征提取方法進行驗證,特征提取的是否精準無法進行客觀評判,所以借助深度及環境分類試驗進行驗證。本文利用ResNet18微調模型對水下聲信號進行分析時,發現特征加權組合方法的操作是有必要的。它可以更好地對時頻譜中的有效特征進行描述,而過濾掉噪聲信號。
3)本文還進行了消融試驗,提出的特征提取方法普遍好于僅使用MFCC或LPC的特征處理方法。CW做深度分類任務時的準確率平均提升2%,LFM做深度分類任務時的準確率平均提升2.03%。試驗結果表明方法是可做進一步推廣的。
4)本文提出的特征提取方法對LFM信號在深度分類任務下處理的結果要好于CW信號處理的結果。再次說明了LFM要比CW更適合做深度分類任務。還可以在此基礎上做進一步研究,提升CW的特征提取能力。