張 奇 笪良龍 王 超 張延厚 禚江浩
①(海軍潛艇學院 青島 266199)
②(嶗山實驗室 青島 266237)
③(青島協同創新研究院 青島 266071)
聲吶設備利用水下聲波確定目標的存在,通過信號處理完成對水聲目標的探測、定位、跟蹤與識別等任務[1]。近年來隨著計算機硬件的更新迭代與深度學習理論的不斷創新[2,3],深度學習在計算機視覺[4]、自然語言處理[5]、數據增強[6]、數據降噪[7]等領域取得了令人滿意的效果,這為水聲工程領域中的目標定位、目標檢測、目標識別、噪聲抑制等方向提供了新的解決思路。深度學習作為一種數據驅動方法,在水聲目標識別領域中的基本思路是將水聲信號與目標類別映射成一種高度非線性的擬合關系。在工程技術領域,水下無人平臺與現代水聲對抗裝備正蓬勃發展,人們對多平臺協同探測目標技術與智能化戰爭中OODA環加速的需求明顯增加。同時,船舶降噪工藝水平的提高使得目標輻射噪聲降低,水聲數據受到“污染”,這對分類器性能的提升以及對數據增強、數據降噪、特征提取等信號處理算法提出了新的挑戰。因此,水聲目標智能識別技術成為必然發展趨勢。所謂“智能”,即基于人工智能算法,減少人在回路中的作用。水聲目標識別的本質是模式識別在水聲工程領域中的應用,其流程如圖1所示。水聲目標識別系統包含數據獲取、數據預處理、特征提取、分類器設計、類別決策等步驟。

圖1 水聲目標識別流程框架
目前國內外學者針對深度學習在水聲目標識別中研究的主要內容集中在基于艦船輻射噪聲、海洋環境噪聲、海洋生物回聲等。據公開論文顯示,國內的研究機構集中在部分高校與科研院所,主要包括哈爾濱工程大學[8-13],西北工業大學[14-18],西北理工大學[19-21],海軍潛艇學院[22-25],海軍工程大學[26,27],東南大學[28,29],中國科學院聲學所[30,31]等。國外的研究機構有巴西海軍研究所[32,33],伊朗科技大學等高校[34-37],巴基斯坦國立科技大學[38],墨西哥國立大學[39],美國華盛頓大學的應用物理實驗室(UWAPL)[40]、海洋學院,美國伍茲霍爾海洋研究所(WHOI)[41],美國加利福尼亞大學(UCSD)斯克利普斯海洋研究所[42]。國內外研究機構大多處于理論研究階段,實際工程應用較少。
本文結合目前深度學習中具有代表性的模型框架,以深度學習分別作為分類器和信號處理工具兩個應用為例,對近幾年深度學習在水聲目標識別中的應用及研究情況進行了具體介紹,并提供了后續研究中的解決思路。本文框架如圖2所示。
2006年,多倫多大學Hinton等人[2]提出了針對梯度消失問題的解決方案:“無監督預訓練+有監督微調”,首次提出了無監督學習和有監督學習相結合的訓練網絡思想,“深度學習”術語被正式提出。本節將介紹兩種在水聲目標識別中常用的典型深度神經網絡模型。
卷積神經網絡(Convolutional Neural Network,CNN)是一類特殊前饋神經網絡。自2012年Alex Krizhevsky等人[3]提出的AlexNet在ImageNet上取得了最佳分類效果后,CNN被廣泛地應用于計算機視覺領域的各項任務。目前在目標識別領域,CNN的識別正確率和泛化性能均優于深度學習的其他參數量相當的標準網絡模型[43]。CNN的網絡模型如圖3所示。CNN包含輸入層、卷積層、池化層、全連接層和輸出層。網絡通過卷積操作獲取不同卷積層的特征圖(feature map),通過反向傳播算法訓練卷積核與偏置。特征圖的計算表達式如式(1)

圖3 CNN結構示意圖
hi代表第i層 特征圖,wi代表第i層 卷積核,?符號代表卷積運算,bi是偏置向量,f是激活函數。
CNN適用于處理圖像數據,因此常用來對水聲信號的LOFAR譜、Mel功率譜、小波譜等2維特征圖進行分類。
循環神經網絡(Recurrent Neural Networks,RNN)相對于傳統神經網絡增加了記憶功能,在時序問題和自然語言處理等領域取得了巨大的成功。目前RNN中常用的變式是長短時記憶網絡(Long Short-Term Memory, LSTM)[44],相對于常規RNN在一定程度上解決了RNN的長時依賴問題。LSTM由3個門來控制,分別是輸入門、遺忘門和輸出門,其內部結構如圖4所示。

圖4 LSTM內部結構
對于t時刻,LSTM的輸入有:前一個時刻的細胞狀態Ct-1,前一個時刻的網絡輸出ht-1和當前時刻的輸入向量xt;輸出有:當前時刻細胞狀態Ct,當前時刻網絡輸出ht。
首先計算遺忘門:
其中, [] 代 表連接ht-1和xt兩個向量,σ是sigmoid激活函數,上式表示遺忘門的衰減系數。
然后計算輸入門:
其中,it是t時刻輸入門的衰減系數,C?t是輸入門的輸入,tanh是激活函數。
最后計算輸出門:
其中,ot是t時刻輸出門的衰減系數,ht是輸出門的輸出。式(2)、式(3)、式(4)、式(6)中Wf,Wi,Wc,Wo和bf,bi,bc,bo分別代表網絡訓練過程中的權重矩陣和偏置向量。
需要指出的是,遺忘門、輸入門、輸出門是一種網絡結構,并不單指某一函數或衰減系數。另外,遞歸神經網絡(Recursive Neural Network)作為深度學習算法中的另一種網絡,不建議簡寫為RNN[10],以免混淆,在深度學習領域中,不作特殊說明的情況下RNN一般默認為循環神經網絡[45]。LSTM常用于處理序列數據,因此常用來對水聲信號的MFCC、DEMON譜、小波系數、包絡系數等1維特征序列進行分類。
通常而言,水聲信號的聲壓通道為20 Hz~20 kHz的1維時域數據。不同于一般的模式識別,如基于深度學習的圖像識別可直接將圖像數據作為網絡的輸入,對于時間長、采樣率高的水聲信號若在不做分幀處理的條件下直接將原始數據作為輸入可能會使網絡負擔過重。另外,原始數據中往往包含著噪聲與干擾,更多的是海洋噪聲與干擾信息,對目標的表達能力較弱,而變換域特征能夠更好地表達目標,“拉開”不同類別的類間距。因此,由于水聲信號的特異性,目前大部分學者對于水聲目標識別的研究仍是以先提取特征,然后將人工提取的特征作為深度學習的輸入進行分類為主。本節以水聲信號的常用特征為切入,調研了目前常用水聲特征作為網絡輸入的研究進展。同時評價了不同特征在參與網絡訓練時的優劣,并總結了特征融合這一概念在水聲目標智能識別中的應用。
短時傅里葉變換(Short Time Fourier Transform, STFT)在雷達、通信、水聲領域應用廣泛,具有多種優點。STFT擴展了特征維度,將原來對整段信號求頻譜的方式變為了加窗求傅里葉變換,增加了時間維度。同時,STFT也是無源聲吶信號分類過程中最基本、最流行的信號處理方法[35]。
文獻[14]提出了一種水聲目標輻射噪聲音色感知的深度卷積神經網絡模型ASTEM_DCNN。該模型由頻率感知模塊、音色感知模塊和決策模塊組成。頻率感知模塊通過1維CNN提取不同頻率的線譜分量,音色感知模塊通過卷積層合成不同頻率分量的信號并對信號作時頻變換提取信號時頻譜,決策模塊是2維CNN用于分類。通過原始時域數據、時頻譜兩種網絡輸入和不同網絡模型的對比,文章所提方法的識別準確率達78.2%,比其他深度學習模型高出2.1%~13.5%。值得一提的是,該模型是一種端到端的網絡模型,即輸入是原始時域數據,時頻特征是在網絡結構中自動提取的。文獻[14]從某種程度上說明了原始數據包含著樣本最多的信息,深度學習具有分類原始數據的能力。文獻[46]提取了水聲信號的MFCC、LOFAR譜圖特征作為網絡輸入,比較了CNN, LSTM和機器學習中的SVM 3種方法在不同信噪比下的識別結果,表明CNN的識別效果最優,達到了95.22%的識別率,3種分類器的AUC值分別為0.991 4, 0.989 2, 0.953 6,對于艦船輻射噪聲仿真信號,在–10 dB條件下CNN和LSTM可達到近80%的識別率。文獻[38]利用在印度洋海域采集的4種不同類型的船舶樣本數據進行分類,使用了“LOFAR譜圖輸入+CNN網絡分類”的方法,最終準確率達99.4%。
單一特征所包含的信息有限,多特征融合往往包含著目標更多的信息,相比于單一特征更有利于對數據的表達。信息融合的3個層級包括:數據級、特征級和決策級,特征級融合是信息融合的第2層級。通常而言,頻譜圖是STFT的幅度譜,舍棄了相位信息,文獻[22]利用了水聲數據的STFT幅度譜、相位譜和雙譜3種特征進行融合,包含了更加豐富的信息,且首次將雙譜特征用于基于深度學習的水聲目標識別。雙譜特征具有抑制高斯白噪聲的特點,可以有效避免加性高斯白噪聲。該文獻利用3個CNN網絡進行集成,在Softmax層使用了蛙跳算法進行決策級融合,相較于單一特征,在4類實測水聲數據集取得了更高的識別率,達90.66%。值得注意的是,在該文獻中STFT相位譜的識別率為69.19%,超過25%,說明STFT相位譜包含了目標的可分信息。艦船輻射噪聲在頻譜上的信息分布并不均勻,大部分信息都集中在低頻段,而目前大部分所提取的頻譜圖特征其坐標軸刻度都是線性的,基于此,文獻[26]提出了基于雙對數譜的識別方法,即將LOFAR譜圖的頻率軸從線性刻度映射到對數刻度,提取對數LOFAR譜作為CNN的輸入,相比于線性譜識別率提高了2.87%。文獻[33]使用了CNN中的MobileNetV2網絡進行分類,將網絡的輸入從224×224×3的大小改成了513×513×1,以適應輸入的LOFAR譜圖,與線性核SVM、高斯核SVM進行了對比,在測試集上的識別率達到99.4%,線性核SVM與高斯核SVM的識別率分別為61.6%, 98.6%,由此說明了深度學習分類器對比一般機器學習分類器的優越性。文獻[35]將STFT做了改進,提出了短時分數階傅里葉變換(Short Time Fractional Fourier Transform, STFrFT)的特征提取方法,利用徑向基神經網絡(Radial Basis Function, RBF)對比了分數參數α在不同取值下的識別率,發現α=0.96是最優分數階。
MFCC反映了人對語音的感知特性,是在Mel標度頻率提取出來的倒譜系數。MFCC更符合人耳的聽覺特性,因此廣泛應用于語音識別領域,在水聲目標識別領域同樣流行。
由于MFCC特征是一組向量,因此“MFCC+LSTM”的水聲目標識別方法較為常見。文獻[23]將實測水聲數據分為了水面和水下兩類,提取了頻譜、時域波形、MFCC3種特征作為LSTM網絡的輸入,結果發現MFCC作為特征向量時識別率最高,水面與水下的識別率分別為84%和74%。文獻[24]是基于文獻[23]方法的進一步研究,在MFCC單一特征的基礎上,提出了將目標噪聲時域包絡、DEMON譜和MFCC3種特征進行融合的方式進行識別,首先利用LSTM網絡對3種特征進行訓練得到分類模型并保存參數,其次將測試數據的3種特征分別用3種訓練好的模型進行預測,得到3個目標所屬類別的概率,最后通過D-S證據理論進行決策級融合判別目標類型。文章利用了信息融合中特征級融合與決策級融合相結合的方式對水聲目標進行分類,較單一特征的識別方法有更高的識別率和更低的虛警率。然而,時域包絡和DEMON譜這兩種特征分別是同一種信息在不同域上的表達,對于能夠自動提取目標信息的深度學習而言含有冗余信息,可能會加深網絡負擔,識別效果提升不高,但文章中信息融合與深度學習相結合的思想值得借鑒。文獻[30]采用了將實測水聲數據的頻譜、MFCC、功率譜3種特征進行融合,與文獻[24]融合方式不同的是,該文獻將網絡訓練后的不同抽象特征通過連接層進行融合后,再通過多層神經網絡對連接特征進行學習分類,即只在特征級融合。同樣地,文獻[30]中的頻譜和功率譜對于深度學習存在著信息冗余。
將不同網絡進行組合的網絡模型也常被用作分類器[47-50],往往較單一網絡具有更高的識別效果。文獻[47]將1D_CNN(1維卷積神經網絡)與LSTM級聯成聯合網絡,提取MFCC、Mel頻率、色譜圖、光譜對比度、調性網格5種水聲信號的音頻特征作為網絡輸入的聯合特征向量,首先將聯合特征輸入1D_CNN,然后將1維卷積后的數據輸入LSTM網絡進行識別,這里前端的1D_CNN起到了特征提取和降維的作用,1D_CNN、LSTM和聯合網絡在測試集的識別率分別為84.18%, 76.10%, 92.14%,驗證了聯合網絡具有更高的識別性能。文獻[49]將LSTM和CNN作為并行網絡,將“1維時域+LSTM”和“2維頻譜+CNN”的輸出結果聯合Softmax進行識別。“1維時域+LSTM”、“2維頻譜+CNN”和聯合網絡的識別結果分別為87.2%,85.4%, 96.4%。需要注意的是,雖然上述兩篇文章都是CNN和LSTM兩種網絡的組合,但組合方式完全不同,可以將文獻[47]的組合方式理解為CNN和LSTM“串聯”,文獻[49]的組合方式理解為“并聯”。文獻[50]采用了類似文獻[49]的“并聯”網絡結構,將水聲信號的MFCC特征分別作為CNN和LSTM網絡的輸入,將兩種網絡所提取的特征進行組合分類,對比單一網絡提高了識別率。
此外,有學者[34,36,37]將智能優化算法用于訓練網絡以提升分類性能。例如,文獻[36,37]使用了黑猩猩優化算法(ChOA)來訓練神經網絡。ChOA通過模擬攻擊者、驅趕者、攔截者和追逐者4類黑猩猩協同狩獵行為來達到求解問題的目的。文獻[36]提出了基于ChOA訓練多層感知機(MLP)的方法,即MLP-ChOA。利用ChOA訓練一個具有單隱層的MLP神經網絡。所提出的訓練方法存在兩個關鍵問題:第一,MLP神經網絡的權重參數在ChOA中的表示,即將每只黑猩猩被編碼為一個1維向量,該1維向量由MLP的權重和偏置向量組成;其次用均方差來表示損失函數。該文獻提取了被動聲吶信號的MFCC特征作為網絡輸入,對比了離子運動算法(IIMO)、灰狼優化算法(GWO)、粒子群優化-引力搜索混合算法(PSO-GSA)3種方法,比較了分類準確率和損失函數值,結果顯示所提出的MLP-ChOA算法具有更好的分類效果,識別率達到97.95%。文獻[37]在文獻[36]的基礎上進行了改進,提出了基于模糊黑猩猩算法(Fuzzy-ChOA)和MLP的海洋生物分類模型FChOA-MLPNN,FChOA-MLPNN利用模糊邏輯來調整ChOA的控制參數,該文獻提取海洋生物聲音的Mel頻率作為輸入特征,比較算法包括ChOA、冠狀病毒優化算法[51](CHIO,靈感來源于應對2019冠狀病毒大流行的群體免疫概念)、哈里斯鷹優化算法(HHO)、黑寡婦優化算法(BWO)、卡爾曼濾波算法,比較基準包括收斂速度、損失函數、分類率、ROC,結果表明所設計FChOA-MLPNN分類模型的各種性能均優于其他智能優化算法。文獻[34]還提出了自適應最佳GSA優化算法訓練MLP,對被動聲吶信號的MFCC特征進行分類,分類準確率達95.20%。
DEMON譜包含了船舶的軸頻、葉頻以及槳葉數特征。槳葉數作為穩健特征,是水聲目標識別的重要判別依據。DEMON譜的提取方法如圖5所示。結合目前對DEMON譜的研究現狀,本文總結了兩大類基于DEMON譜的槳葉數判別方法:一是基于專家系統的槳葉數提取方法,二是基于軸頻諧波線譜的槳葉數提取方法。基于專家系統的槳葉數提取方法直接通過觀察DEMON譜信息人工判別槳葉數,如通過構建諧波簇理論模型建立槳葉數識別專家系統[52];通過DEMON譜相位耦合特性提取雙譜切片譜來識別槳葉數[53];通過自適應濾波等理論算法來增強DEMON諧波線譜[54]等,該方法完全依賴于專家經驗,受船舶工況、海洋環境等因素影響較大,只能描述某些典型情況,穩健性較低。基于軸頻諧波線譜的槳葉數提取方法通過建立軸頻諧波線譜等特征模板庫,利用模式識別方法對槳葉數進行識別,結合了專家經驗與機器識別,穩健性較高。目前常用的方法有模板匹配、SVM、深度學習等。

圖5 DEMON譜提取流程
文獻[55]構建了一個DEMON譜的6級10階模板庫,即將每階軸頻諧波的幅度分為6級,共提取前10階諧波。該模板是一個封閉集,即使如此,狀態總數共有 610≈6×107個。利用深度神經網絡對已知樣本進行訓練,較模板匹配法得到了更高的識別率。文獻[11]提取了300組海試數據信號的DEMON譜、1.5維譜和MFCC特征,利用CNN和SVM兩種分類器作對比,6種識別方法中,MFCC+CNN的識別率最高,為96.0%,并且CNN在不同特征下的分類性能都優于SVM。文獻[28]利用CNN和決策樹兩種分類器分別對DEMON譜和連續譜進行識別,結果發現決策樹的識別準確率遠低于CNN。與文獻[55]不同的是,文獻[11,28]直接將DEMON譜的1維向量作為網絡的輸入,并沒有提取軸頻諧波簇建立模板。
文獻[56]首先利用梳狀濾波器(comb filter)增強DEMON譜,然后用CNN進行目標分類。梳狀濾波器[57]被廣泛應用于語音識別領域的基音檢測中,DEMON譜中的軸頻檢測也屬于基音檢測的一種。結果發現基于CNN和梳狀濾波器的DEMON譜識別率為92%。同樣地,作者于文獻[58]中對文獻[56]作了改進,在梳狀濾波器增強DEMON譜的基礎上,使用的分類網絡為CNN+LSTM結構,先利用CNN的卷積操作提取特征,再用LSTM進行分類,即前文提到的聯合網絡中“串聯”的方法。實驗通過與改進的最大公約數[59]和序列匹配法[60]作對比,發現CNN+LSTM網絡的識別率最高,海試數據和湖試數據的準確率分別為90.6%和98.3%。此外,還有前文[24]提到的將DEMON譜作為融合特征中的一種特征訓練網絡。
時域波形通常也是原始時域數據,即水下目標輻射噪聲的原始信號。原始數據包含著目標最原始、最多的信息,在深度學習算法流行后,也有學者嘗試直接將原始數據作為深度網絡的輸入,如前文提到的文獻[14,23]。直接利用時域波形進行目標識別的優勢在于實現了端對端的識別方式,并且減少了人工特征提取這一環節,實現了算法輕量化的目的。
文獻[8]提出了深度可分離卷積神經網絡模型自動提取目標特征,將1維原始數據、小波特征、MFCC、Mel頻率、HHT、非線性聽覺特征、頻譜、倒譜特征與所提模型自動提取的特征進行了比較,結果發現文章所提出的模型識別率最高,達90.1%,高于其他特征與分類器相組合的識別率。文獻[61]則完全使用了水聲信號的時域數據進行目標識別,并在網絡端進行了改進。該文獻使用了1維CNN,引入卷積核為1的卷積層,針對CNN在全連接層會丟失特征位置信息的問題,使用了全局平均池化層(Global Average Pooling, GAP)代替全連接層,GAP[62]是目前深度學習領域較為流行的手段,即直接將來自上一層的特征圖取全局平均后映射到下一層,該方法既保留了上一層特征的位置信息,又大大減少了網絡的參數。通過與高階統計特征(HOS)、傳統CNN對比,總識別率達到了91.7%,超過了HOS和傳統CNN的85.0%和69.8%。文獻[18]提出了多尺度稀疏簡單循環單元(SRU)對3類實測水聲目標輻射噪聲原始數據進行分類,對比CNN具有更高的識別率。
除上述提到的在水聲目標智能識別中常用的特征之外,文獻[16]將小波分析與CNN相結合,提出了WAVEDEC_CNN的水聲目標識別方法。特征方面,該文獻直接將分解后的小波系數作為網絡輸入;網絡方面,在卷積層和池化層之間添加了目前深度學習領域中流行的批量歸一化層(Batch Normalization, BN)[63]。與MFCC+CNN、無預處理的小波系數結合傳統CNN、經過預處理后的小波系數結合CNN、經驗模態分解(EMD)結合CNN 4種方法進行了對比,識別率分別提高了15.38%, 4.41%,3.23%, 12.81%。文獻[31]提取了湖試數據的FBANK特征,使用時延神經網絡(Time Delay Neural Network, TDNN)進行分類,對比SVM分類器,取得了更高的分類準確率。
除此之外,還有基于頻譜[32]、六分之一倍頻程譜[39]、水聲干涉條紋圖像[19]等特征的水聲目標識別方法,識別流程都是基于“特征+深度學習模型”的方式,文章在此不再贅述。
深度學習作為一種強大的分類器,其識別性能和前端輸入數據的質量息息相關。基于目前水聲數據稀缺、信噪比低、特征提取會造成信息損失的現狀,本節總結了深度學習在水聲數據增強、降噪、特征提取中的應用。深度學習作為信號處理工具,其最終目的仍是提升識別性能。
數據增強(Data Augmentation)具有擴充訓練數據集、提高模型泛化能力的作用。生成對抗網絡(GAN)[6]是2014年Ian Goodfellow等人提出的一種生成模型,核心思想是從訓練樣本中學習所對應的概率分布,以期望通過概率分布函數獲取更多的“生成”樣本來實現數據擴充。GAN具有生成不存在于真實世界的數據的能力,可以從一定程度上解決水聲數據稀缺的問題,實現數據增強,滿足深度學習對于大數據的需求。
文獻[12]從時域和頻域特征出發,用GAN實現數據增強。基于時域的數據增強中,該文獻在生成器的結構上引入了時序卷積(TCN)、轉置卷積和Embedding結構,實驗中利用生成模型對12類船舶目標的每種類型生成500個樣本,在原始數據集中的每一類隨機抽取300個樣本組成新的訓練集,對比了TCN, Conv1d, LSTM3種模型在測試集的識別率,分別為87.23%, 80.23%, 83.13%。基于頻域的數據增強中,頻域特征選擇LOFAR譜,采用深度卷積生成對抗網絡(DCGAN)和條件生成對抗網絡(CGAN)相結合的網絡結構,DCGAN和GAN原理相同,在生成器和判別器上采用了卷積模塊,用網絡所生成的樣本對識別網絡進行微調。使用數據增強后,DCGAN+GAN模型在測試集上的識別率影響不大,而ACGAN和SA兩種模型在測試集上識別率提升了約5%,證明了利用GAN作數據增強的有效性。文獻[9]改進了條件DCGAN模型,將網絡的全連接層用K-鄰近算法(K-Nearest Neighbor,KNN)、隨機森林(Random Forest, RF)、SVM等集成分類器代替,生成偽DEMON譜數據來緩解數據不足與樣本不均衡的問題,用查準率、查全率、F1分數作為評價指標,通過與原始樣本數據集、用傳統的SMOTE算法進行數據增強后的數據集的分類結果進行對比,證明了所提出的改進DCGAN模型在數據量較少時能夠擴充數據集、有效提高分類器的識別率。文獻[17]通過GAN對實測水聲數據進行增強,并將GAN模型本身當作分類器,該文獻基于3類實測水聲數據,每一類水聲樣本時長在150 s左右,屬于小樣本數據集,在小樣本數據集下對比了GAN、DBN、自編碼網絡3種深度學習分類器的識別率,其性能均優于MFCC+Softmax方法,3種方法的識別率分別為96.31%, 93.54%,90.72%,并通過在測試集添加噪聲的方式驗證了該模型具有更強的魯棒性能。
目前,基于深度學習的水聲數據降噪研究較少,且都是基于CNN對信號STFT特征進行重構的方式展開研究。文獻[64]針對海洋環境存在大量非高斯噪聲的特性研究了基于CNN的水聲信號降噪重構方法,該方法首先提取傳感器接收帶噪信號的STFT,然后通過去噪CNN模型學習帶噪信號STFT和殘差譜之間的映射關系在時頻譜上去除環境噪聲,最后將去噪信號的STFT通過短時傅里葉逆變換(ISTFT)得到純凈信號。該文獻對比了傳統的LMS濾波去除噪聲的方法,通過仿真數據與實測數據的對比,發現深度學習方法在數據降噪任務中表現出了良好的泛化能力。文獻[29]應用了與文獻[64]同樣的降噪方法,采用去噪CNN模型對水聲信號LOFAR譜圖進行降噪,從而達到線譜增強的目的,該文獻與傳統的維納濾波算法作對比,使用去噪后的信噪比作為評價指標,所采用的深度學習去噪方法能夠保持在18 dB以上的增益,對比維納濾波算法具有較大的優勢。
上述兩篇文獻研究的深度學習降噪方法都來自Park等人[7]于2016年提出的基于全卷積神經網絡的語音數據降噪方法,該方法屬于信號映射域的降噪(相對于時域端對端降噪),即通過深度網絡學習信號變換域中的特征進行降噪,文獻[7,29,64]都是針對信號的STFT特征進行研究的。然而,該方法需要純凈信號與噪聲干擾信號的先驗知識,目前海洋環境復雜,不同時空下的海洋噪聲分布難以預測,只能通過仿真或在純凈信號的基礎上添加噪聲的方式進行研究。
前文中所提到的特征都是物理意義明確或是不同域中可解釋的特征,而人工特征提取都會不可避免地造成信息損失。深度學習具有自動提取數據特征的能力,在網絡訓練過程中的每一層都是樣本數據的特征,該特征具有“不可解釋性”,因此也可稱為抽象特征,在CNN中稱為特征圖,在自編碼等全連接神經網絡中稱為特征向量,網絡的層次越深所提取的特征層級也越深。基于深度學習所提取的抽象特征信息損失較小,因此在特征提取階段也經常使用深度學習算法。
文獻[25]在利用棧式自編碼(SA)對水聲目標進行識別的過程中將SA逐層所提取的特征向量進行了展現,該文獻設計了5層AE,每一層的神經元數量遞減,在最后一層用Softmax分類器進行分類。文獻[15]提出了一種門控循環單元和卷積自編碼(GRU-CAE)協同深度學習網絡模型,GRU-CAE結合了CAE和GRU的優點,CAE可以提取船舶輻射噪聲頻譜圖的空間信息,GRU可以提取船舶輻射噪聲頻譜圖的時間信息。該文獻首先構建GRUCAE模型,利用該模型提取深度協同特征;其次構建特征模板;最后利用模板匹配分類器進行目標分類。與LSTM網絡相比,GRU對時間結構更敏感,結構更簡單,訓練速度也更快,實驗結果證明GRU-CAE在實測水聲數據集上有更好的識別性能。文獻[65]采用了特征融合策略提取了艦船輻射噪聲經不同子帶中小波分解的時間特征、統計特征、頻譜特征、倒譜特征、希爾伯特譜特征、小波特征、特定特征(歸一化線譜特征、線譜密度、頻帶功率、LPC系數)和DBN所提取的抽象特征,采用2維特征融合策略構成特征矩陣,該文獻將DBN提取的特征與其他可解釋性特征一起融合,采用KNN作為分類器,實驗結果表明所提出的特征融合方案可以顯著提高船舶輻射噪聲的識別性能。由于域的變化會造成信息的損失,文獻[13]使用了1維CNN對原始時域數據進行特征提取,并將所提取的特征用ELM進行分類,在實際民船水聲數據集上對比了不同特征與不同分類器的分類效果,特征包括HOS、小波特征、MFCC、HHT、Mel頻率、非線性聽覺感知特征、倒譜特征、CNN對原始數據自動提取的特征,分類器包括SVM,DNN, CNN和ELM,結果發現CNN提取特征+ELM識別率最高,達90.9%。
從識別步驟而言,基于深度學習的水聲目標識別所面臨的挑戰包括3個方面,分別是水聲數據、特征提取和網絡模型構建。以大數據為主來提升識別性能的方式為數據驅動;以多特征融合為主來提升識別性能的方式為特征驅動;以網絡模型為主來提升識別性能的方式為模型驅動。水聲目標識別的未來發展趨勢將是圍繞數據驅動、特征驅動、模型驅動這3個方面來展開的。
數據是海洋的生命線,由于水下環境復雜多變、水聲數據獲取難度較大、密級較高、各國研究機構不公開等,水聲目標輻射噪聲樣本稀缺,目前大部分水聲目標識別的研究都是基于各自研究機構所獲得的數據進行展開的。而深度學習作為一種數據驅動算法需要大量數據,數據樣本稀缺與不均衡是目前水聲目標識別的一個關鍵問題。
目前大多學者都采用對水聲信號分幀的方式進行識別,將每一幀作為一個訓練或者測試樣本。由于采樣率的不同,幀長的選取會有所差異,其原則應是樣本中盡量包含水聲數據的全部信息,如軸頻為4 Hz的艦船噪聲信號,幀長大于0.25 s時才會包含目標的螺旋槳信息。幀長過短則會丟失部分水聲目標信息,幀長過長則會使網絡負擔加重。基于目前的水聲數據現狀,小樣本、類別不均衡的水聲目標識別技術將是該領域的未來發展趨勢,其中,GAN仍是效果較好且值得借鑒的數據增強方法。
前文提到對水聲數據進行人工特征提取后再進行訓練主要有以下兩點考慮:一是原始數據維數較高使得網絡負擔較重;二是原始數據中往往摻雜著各種背景噪聲與干擾使得網絡學習到大量與水聲目標無關的噪聲數據,造成Garbage in, garbage out。因此針對不同類型分布的數據進行預處理與特征提取是必要的。在特征提取的過程中,應盡量提取類內間距小、類間間距大,包含目標足夠信息的特征,且特征之間應包含較少的信息冗余。值得一提的是,在特征提取過程中會使研究人員對水聲信號的理解逐漸深刻。
目前,水聲目標智能識別處于起步階段,工程應用較少,人在回路中的作用仍然明顯,專家經驗較為重要。圖6為本團隊于2022年5月份在中國東海某海域利用水下無人平臺采集到的一段水聲樣本數據。結合聽音判情與頻譜圖分析,除了海洋噪聲外,該段音頻中還包含了:(1)某遠程低頻探測聲吶;(2)商船磨軸聲音;(3)主動聲吶。在同一時間段內出現了3種類型的信號,且各種信號頻段與帶寬各不相同。以上3種不同類型的水聲信號都是通過專家經驗分析得出的,但基于目前的深度學習算法進行識別仍較為困難。

圖6 中國東海海域某實測水聲樣本
因此,人在回路的人機交互模型仍是目前水聲目標識別的主流,通過人工提取特征仍是目前水聲目標識別的關鍵。單一特征所包含的目標信息有限,目前水聲信號的特征融合大多選取2~3個特征,基于多特征融合的特征驅動方法或將在工程實踐中成為水聲目標識別領域的主流。例如,通過仿照水聲數據庫構建水聲特征庫,提取水聲樣本的音頻特征(包括時頻譜、MFCC、DEMON譜等)、聲矢量特征、能量特征、運動特征等多特征數據構建水聲樣本特征庫,將所有或部分穩健特征通過深度學習進行特征融合,這對提升目標識別率、加深學者對水聲數據樣本的理解都是值得探索和研究的。
深度網絡設計對識別效果起著至關重要的作用,隨著計算機算力的提升與網絡模型的不斷擴大,深度學習算法的學習能力越來越強,由此逐漸弱化了人工特征提取的步驟。近年來,用圖來表示數據的圖神經網絡(GNN)[66]、引入注意力機制的Transformer[4,5,67]等新興網絡模型在深度學習領域逐漸成為主流。谷歌于2021年推出了Switch Transformer[67]架構,其參數量達到1.6×1012次,由此帶動了深度網絡步入大模型時代。由于水聲樣本量和計算資源的限制,目前還尚未有研究人員將GNN或Transformer應用于水聲目標識別。
大模型網絡需考慮算力成本、時間成本以及高能耗等問題,因此目前在硬件條件受限的條件下,輕量化網絡的設計與構建符合實際工程應用與智能化戰爭中對OODA環加速的需求。隨著未來硬件(顯卡、CPU等)的發展與算力成本的下降,在水聲數據集充足的條件下,基于模型驅動的水聲目標識別方法或將逐步取代以特征提取、小規模網絡訓練等為代表的算法驅動。
本文主要將深度學習在水聲目標識別中的應用進行了總結,包括深度學習作為分類器和信號處理工具這兩大內涵。與傳統方法相比,深度學習取得了較好的識別效果。其次從數據驅動、特征驅動、模型驅動3個方面進行了展望,提出了下一步的研究方向,以供學者在后續研究中作參考借鑒。另外,深度學習作為黑盒模型的不可解釋性也為水聲目標識別帶來了阻礙,網絡所提取的各層特征的可解釋性探索仍是目前以至將來水聲目標識別所面臨的挑戰。