基于深度學(xué)習(xí)的直升機旋翼聲信號檢測與識別一體化算法

2023-12-06 07:50:38林嘯宇陳正武

電子科技大學(xué)學(xué)報 2023年6期

郭磊，林嘯宇，王勇，陳正武，常偉*

(1.電子科技大學(xué)計算機科學(xué)與工程學(xué)院成都 611731；2.電子科技大學(xué)信息與軟件工程學(xué)院成都 610054；3.中國空氣動力研究與發(fā)展中心四川綿陽 621010)

直升機在軍事突防中發(fā)揮著重要作用，因此關(guān)于直升機的探測和識別也成了一個重要的研究問題[1]。目前該領(lǐng)域已成功發(fā)展了紅外、雷達等多種先進防空探測手段，但受地形、地面附近雜波等環(huán)境影響，雷達探測在低空仍存在盲區(qū)，無法有效探測到低空目標(biāo)[2]；紅外等光學(xué)探測設(shè)備受大氣環(huán)境和自然環(huán)境影響較大，無法針對低空目標(biāo)進行全天候監(jiān)測[3]。因此，低空飛行目標(biāo)的檢測和識別成為目前探測技術(shù)發(fā)展的重點和難點。直升機飛行時輻射的旋翼聲信號作為飛行過程中的重要物理特征，具有傳播距離遠(yuǎn)、衰減速度慢等特性，基于旋翼噪聲信號進行直升機檢測與識別的方法可行性高，具有重要研究價值。

目前，針對直升機聲目標(biāo)開展的研究主要劃分為檢測、識別兩個相對獨立的研究模塊。在音頻檢測方面的研究大多集中于傳統(tǒng)信號處理領(lǐng)域，如基于聲類比理論的FW-H 方法[4]、基于Kirchhoff 和CFD的混合法[5]等，這些方法需要對完整的音頻信號進行時頻特性分析，在實際外場探測時的實時性難以保證；在直升機聲目標(biāo)識別方面，主要基于諧波特征提取、小波特征提取、人耳聽覺感知特征提取[6]等方法提取直升機聲信號的特征并利用KNN、SVM[7]等傳統(tǒng)分類器進行聲目標(biāo)識別。隨著深度學(xué)習(xí)在聲音領(lǐng)域的發(fā)展，也有相關(guān)研究采用CNN、LSTM 等網(wǎng)絡(luò)模型以實現(xiàn)直升機聲目標(biāo)的深度特征提取和識別[7]。直升機聲目標(biāo)識別方法研究的數(shù)據(jù)是基于仿真或特定的實驗環(huán)境，難以排除實際外場的噪聲干擾，導(dǎo)致了連續(xù)識別正確率低、魯棒性差的問題。并且在實際外場直升機目標(biāo)監(jiān)測時，需要將檢測和識別方法結(jié)合。

由此，本文提出一種在實際環(huán)境中對直升機旋翼聲信號進行一體化檢測與識別的算法。該算法將聲目標(biāo)檢測與聲目標(biāo)識別兩個獨立的研究方向進行一體化，檢測結(jié)果能夠為聲目標(biāo)識別剔除噪聲段，以增加聲目標(biāo)識別的精度和效率，而聲目標(biāo)識別的結(jié)果又可以作為聲探測結(jié)果的驗證，進一步提高檢測精度。通過外場實驗采集的兩類直升機信號和開源的noise92 噪聲數(shù)據(jù)集構(gòu)建了實驗數(shù)據(jù)，設(shè)計實驗并驗證了該算法的可行性。

1 理論研究

1.1 復(fù)雜環(huán)境中的直升機信號分析

實際的外場環(huán)境中，通常混疊各種聲源產(chǎn)生的聲音信號，這些不同的聲源都會影響其檢測識別的效果。圖1 和圖2 分別是一段純凈直升機聲音信號的頻譜圖像和實際外場聲信號的頻譜圖像。對比兩圖可知：純凈的直升機具有較為明顯的諧波特性，在其頻譜圖像中很容易找到直升機的基頻和它的倍頻譜線。而復(fù)雜的外場環(huán)境中，受各個聲源信號的混疊、抵消等影響，外場信號的頻譜圖雜亂無章，難以直接對直升機信號進行檢測和識別。因此需要考慮抑制這些雜音的干擾，進而提升檢測和識別效果。

圖1 純凈直升機的頻譜圖像

圖2 復(fù)雜外場噪聲的頻譜圖像

1.2 聲目標(biāo)特征提取

外場采集的音頻信號中混雜著直升機旋翼聲信號及各種環(huán)境噪聲，通過聲目標(biāo)特征提取方法可有效放大直升機旋翼聲信號的某些特征，進而達到雜音抑制和信號增強的效果。本文采用基于譜質(zhì)心、譜對比度及MFCC（mel frequency cepstrum coefficient）特征提取融合的特征提取方法。

譜質(zhì)心是在一定頻率范圍內(nèi)通過能量與頻率乘積的加權(quán)平均，它包含了聲音信號的頻率分布和能量分布的重要信息[8]。譜質(zhì)心的計算公式為：

式中，f為信號頻率；E(n)是連續(xù)的時域信號x(t)經(jīng)短時傅里葉變化后對應(yīng)頻率的譜能量。

譜對比度是音頻經(jīng)時頻變換形成的頻譜圖的像素對比度[9]。譜對比度的計算公式為：

式中，r(i,j)=|i-j|即相鄰像素間的灰度；p(i,j)為相鄰像素灰度差為r的像素分布概率。高對比度值通常對應(yīng)清晰的窄帶信號，而低對比度值則對應(yīng)寬帶噪聲。

MFCC 是語音識別領(lǐng)域最常用的語音特征[10]。MFCC 特征提取的流程如圖3 所示。輸入的原始數(shù)字信號經(jīng)預(yù)加重、分幀、加窗、FFT、Mel 濾波、DFT 等操作后，最終變?yōu)槟軌虮碚黝l域特征的特征向量，該向量作為分類器的輸入，進行分類識別處理。

圖3 MFCC 特征提取流程

1.3 深度神經(jīng)網(wǎng)絡(luò)設(shè)計

在完成了直升機的聲目標(biāo)特征提取后，需要將提取的特征系數(shù)作為輸入，由分類模型進行檢測和分類處理。考慮到實際外場信號的復(fù)雜性，使用淺層分類器直接進行分類識別的正確率較低，故本文使用基于深度學(xué)習(xí)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進行深層特征提取和分類識別。搭建的深度神經(jīng)網(wǎng)絡(luò)模型如圖4 所示。網(wǎng)絡(luò)模型架構(gòu)由2 層卷積層、2 層池化層、2 層全連接層和1 個Softmax 分類器拼接組成。前4 層用于深度特征提取，最后2 層全連接層用于聚合特征，最后由Softmax 分類器進行分類識別和輸出結(jié)果。

2 直升機聲目標(biāo)檢測與識別

2.1 算法流程

本文研究中，待測信號是一段長時間的音頻信號，且大部分時間段是環(huán)境噪聲，少部分時間段是直升機聲信號與環(huán)境噪聲的混疊。為了模擬實時采集的外場音頻，將待測信號進行切片，獲得短時的音頻段，并判斷每個短時的音頻段中是否潛在直升機的音頻信號，如果含有直升機音頻信號，那么需要將該音頻段進行后續(xù)識別處理。基于上述流程，提出如下檢測識別算法，如圖5 所示。

圖5 直升機聲目標(biāo)檢測識別整體流程

由圖5 所示，該算法流程在總體上可分為基于融合特征的直升機聲目標(biāo)檢測和基于深度學(xué)習(xí)的潛在聲目標(biāo)識別兩個流程。目標(biāo)檢測部分通過切片、帶通濾波、特征提取和目標(biāo)檢測4 個階段，將原始的待測信號劃分為純噪聲段和直升機目標(biāo)段。進一步對直升機目標(biāo)進行分類識別處理，通過維納濾波、特征提取和分類識別3 個階段，再進行具體型號分類，從而實現(xiàn)完整的聲目標(biāo)檢測識別流程。目標(biāo)檢測部分能夠作為識別部分的前處理，初步剔除純噪聲段以減少識別部分的噪聲干擾，提高識別效率和正確率；而識別部分對潛在目標(biāo)段進行細(xì)分類，又能識別出檢測時誤判的音頻段，進而提升檢測的正確率，實現(xiàn)聲目標(biāo)檢測和識別的一體化處理。

2.2 基于融合特征的直升機聲目標(biāo)檢測

基于融合特征的直升機聲目標(biāo)檢測流程如下。首先，將待測信號進行切片，劃分為短時的音頻段。然后，鑒于直升機旋翼聲信號集中于0～500 Hz頻段[11]，將音頻段通過帶通濾波器進行濾波處理，初步濾除目標(biāo)頻段以外的其他信號，達到抑制雜音的目的。再使用時頻變換方法，獲得該音頻段的梅爾頻譜圖，提取頻譜圖中的色度特征以及譜質(zhì)心特征[12]。由于檢測部分需要較高的實時性要求，因此本文采用了輕量化的分類器模型——SVM。首先通過純噪聲段和包含直升機的環(huán)境噪聲兩類信號對SVM 進行訓(xùn)練，一次完成檢測部分的二分類處理，用于作為檢測部分的分類器模型。最后，將提取的融合特征通過SVM 分類器進行潛在目標(biāo)段和噪聲段的二分類，從而實現(xiàn)直升機聲目標(biāo)檢測。

檢測部分流程總結(jié)如下：

1）將原始信號進行切片處理，劃分為1 s 時長的音頻段共n段；

2）對每一個切片的樣本做帶通濾波，得到0～500 Hz 的帶通濾波音頻；

3）將音頻樣本做MFCC 特征提取得到MFCC特征系數(shù)；

4）計算音頻樣本中每幀的頻譜質(zhì)心和譜對比度，并將二者與MFCC 特征系數(shù)疊加作為融合特征向量；

5）選取k個樣本的特征向量組成特征向量矩陣Mk作為訓(xùn)練支撐向量機的輸入矩陣；

6）使用另外n-k個樣本的特征向量組成的特征向量矩陣Mn-k對支撐向量機進行測試；

7）將訓(xùn)練、測試后的SVM 應(yīng)用于實際信號檢測，并評估該方法的檢測率。

2.3 基于深度學(xué)習(xí)的潛在音頻段分類識別

對于直升機目標(biāo)段，需要通過相應(yīng)方法對其進行識別，判斷其直升機型號。

由于檢測信號段中除了目標(biāo)直升機外，還存在其他噪聲的干擾（環(huán)境噪聲及其他聲源發(fā)出的雜音等），為了提高識別的正確率，首先采用維納濾波進行信號增強。然后，通過MFCC 特征提取淺層特征，提取的特征系數(shù)作為分類器的輸入由網(wǎng)絡(luò)模型進行深層特征提取和分類識別，最終得到直升機的具體型號。

本文使用深度學(xué)習(xí)的方法構(gòu)建網(wǎng)絡(luò)模型并進行網(wǎng)絡(luò)訓(xùn)練和測試。在訓(xùn)練完成后將網(wǎng)絡(luò)模型凍結(jié)，用于后續(xù)實際分類識別使用。分類識別流程總結(jié)如下：

1）通過訓(xùn)練集對構(gòu)建的識別網(wǎng)絡(luò)進行訓(xùn)練，獲得訓(xùn)練后的網(wǎng)絡(luò)參數(shù)模型；

2）對于直升機目標(biāo)段，首先通過維納濾波進行信號增強；

3）再將信號增強后的音頻段提取MFCC 特征系數(shù)，作為識別的特征向量；

4）將該特征向量輸入訓(xùn)練好的網(wǎng)絡(luò)，由其進行深層特征提取和分類識別，最終得到識別結(jié)果。

3 實驗及結(jié)果分析

3.1 模擬信號實驗與分析

由于缺少開源的實驗數(shù)據(jù)，本文利用開源的noise92 噪聲數(shù)據(jù)集和實際外場實驗采集的R22 和R44 兩類民用直升機的聲信號數(shù)據(jù)進行人工合成，構(gòu)建實驗數(shù)據(jù)集進行實驗和算法效果分析。

3.1.1 數(shù)據(jù)集介紹

Noise-92 噪聲數(shù)據(jù)集是由英國荷蘭感知-TNO研究所語音研究單位（SRU）在項目編號2589-SAM 下在現(xiàn)場測量的不同噪聲數(shù)據(jù)。所有文件的持續(xù)時間均為235 s，由采樣率為18.98 kHz，具有16 位的模數(shù)轉(zhuǎn)換器、抗混疊濾波器和不帶預(yù)加重級的采集設(shè)備來獲取的[13]。選用其中的8 類噪聲作為噪聲數(shù)據(jù)，分別是白噪聲、粉紅噪聲、室內(nèi)人聲、電焊設(shè)備工作聲、汽車生產(chǎn)車間噪聲、車輛行駛噪聲、沖擊噪聲及無線電波噪聲。由于用于測試的目標(biāo)信號為5 kHz，所以又對noise92 數(shù)據(jù)集進行了5 kHz 的重采樣。

而目標(biāo)直升機數(shù)據(jù)，通過外場飛行實驗，以5 kHz 的采樣率采集了R22 和R44 兩類直升機在直飛狀態(tài)下的數(shù)據(jù)。選取了其中信噪比較高的，距采集設(shè)備2 km 以內(nèi)的音頻段，切分作為兩類直升機目標(biāo)數(shù)據(jù)，圖6 和圖7 分別展示了一段噪聲信號和直升機聲信號的波形示例。

圖7 R22 直升機波形

3.1.2 模擬信號檢測與識別實驗

將兩類直升機信號分割為1 s 長的音頻段，分別按照不同的時間戳隨機插入到8 類噪聲信號中并記錄各個目標(biāo)段的開始時間和結(jié)束時間，共兩類聲目標(biāo)信號，分別隨機插入各類環(huán)境噪聲中100 次，構(gòu)成1 600（2×8×100）段待測數(shù)據(jù)，每段數(shù)據(jù)中含有1 s 長的直升機聲目標(biāo)。為了模擬更為復(fù)雜的噪聲環(huán)境，在上述8 種噪聲中的兩種以上進行隨機疊加，構(gòu)成復(fù)合的噪聲環(huán)境；再將兩類聲目標(biāo)信號插入復(fù)合噪聲并記錄起止時間，構(gòu)成200（2×100）段復(fù)合信號；單一噪聲和復(fù)合噪聲信號共計1 800 段。

然后使用訓(xùn)練好的SVM 模型，按照2.1 節(jié)中的檢測流程分別對1 800 段數(shù)據(jù)集進行切片、濾波、特征提取和檢測，并將檢測到目標(biāo)的音頻時間戳與記錄的時間戳進行對比，計算各種聲目標(biāo)環(huán)境下的檢測率（檢測率=檢測正確段數(shù)/總段數(shù)×100%），結(jié)果見表1。

表1 算法對9 類噪聲環(huán)境下的潛在目標(biāo)段檢測正確率統(tǒng)計表 %

由表1 可見，基于SVM 的待測目標(biāo)的平均檢測率為93.6%，其中該方法對白噪聲、粉紅噪聲、室內(nèi)人聲、電焊設(shè)備工作聲、沖擊噪聲及無線電波噪聲這6 類的檢測效果較好。而對于生產(chǎn)車間噪聲和車輛行駛噪聲這兩類的檢測效果相對較差，但仍在90%以上。對于由多種噪聲環(huán)境構(gòu)成的復(fù)合噪聲環(huán)境的檢測率為86%，相比單一的噪聲環(huán)境有了一定程度的下降，在后續(xù)的識別實驗中可以重點考慮識別算法對復(fù)合噪聲環(huán)境誤判的目標(biāo)信號是否存在抑制作用。

對于用于分類識別的神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練，將R22 和R44 兩類直升機信號各提取100 段1 s 長的音頻段作為訓(xùn)練集，訓(xùn)練本文的神經(jīng)網(wǎng)絡(luò)模型。并且以同樣的方法訓(xùn)練SVM 和RNN 兩種分類器，從而對比本文算法的識別效果。

分類識別算法效果實驗的數(shù)據(jù)集，按照上述記錄的時間戳將直升機目標(biāo)段分割出來，構(gòu)成1 800段，R22 和R44 在9 類環(huán)境中各100 段的分類識別測試集。使用3 種分類模型進行分類，得到的識別效果如表2 所示。

表2 3 種算法對9 類噪聲環(huán)境中潛在目標(biāo)段的識別率統(tǒng)計表 %

由表2 可以得出，與其他兩種分類器模型對比，本文使用的神經(jīng)網(wǎng)絡(luò)模型在9 種不同的噪聲環(huán)境中都具有更高的識別率。為了驗證該算法在其他數(shù)據(jù)集中是否具有較好的魯棒性，使用了英國BBC 提供的直升機數(shù)據(jù)與noise92 數(shù)據(jù)集進行混合。原始數(shù)據(jù)是由BBC 提供的brant、bristo、fairey、sikors 和wessex 這5 種懸停的直升機演示視頻[14]，從中截取了音頻文件并劃分為一秒長的音頻段，按照上述的噪聲疊加方法疊加形成了9 種環(huán)境下的5 類直升機信號。然后，分別訓(xùn)練了SVM、LSTM和本文使用的CNN 網(wǎng)絡(luò)，并分別進行測試，3 種算法對該數(shù)據(jù)集的識別率如表3 所示。

表3 3 種分類器對9 類噪聲環(huán)境中直升機目標(biāo)的識別率統(tǒng)計表 %

由表可見，3 類網(wǎng)絡(luò)模型對5 類直升機的識別率都有所下降，不過本文算法仍舊保持最高的識別率，在一定程度上驗證了本文算法的魯棒性。由于本次實驗提供的直升機數(shù)據(jù)中沒有包含詳細(xì)的參數(shù)說明，因此無法準(zhǔn)確地獲取它的時頻特征信息，從而使信號增強和特征提取方法受到了影響，同時由于原始音頻數(shù)據(jù)是由視頻數(shù)據(jù)截取而來，造成了一定程度的失真，這兩個因素都對識別效果產(chǎn)生了較大的影響。

3.2 實際信號實驗與分析

為了驗證在實時系統(tǒng)中該算法的可行性，同樣對外場實驗中采集的真實數(shù)據(jù)進行了算法測試和分析。在某民用機場進行了直升機外場飛行實驗，得到了羅賓遜R44 和R22 兩類直升機的飛行音頻數(shù)據(jù)[15]。直升機聲目標(biāo)測量設(shè)備包括陣列架、傳聲器和采集器等。實驗現(xiàn)場如圖8 所示。

圖8 直升機聲目標(biāo)探測實驗現(xiàn)場

當(dāng)直升機離傳聲器較近時，信噪較高，而隨著直升機與傳聲器距離的變大，由于直升機聲信號在空氣中傳播時的衰減，信噪比逐漸降低。進行外場飛行試驗時，直升機先是從近距離出發(fā)，逐漸飛遠(yuǎn)，然后飛回。由于兩次飛行試驗的飛行距離和飛行軌跡的區(qū)別，選取了兩次實驗中直升機由6 km左右的距離飛向采集點、再飛離采集點直至6 km左右的兩條實驗音頻數(shù)據(jù)。按照3.1 節(jié)中的算法步驟對完整的飛行事件進行了檢測和識別處理。檢測和識別結(jié)果見圖9 與圖10。

圖9 R22 型直升機飛行試驗檢測與識別率

圖10 R44 型直升機飛行試驗檢測與識別率

由實驗結(jié)果可見，總體上，直升機在測點附近時，由于信噪比較高，平均識別正確率總體相對較高。隨著目標(biāo)與測點的距離增大，信噪比變低，平均識別正確率隨之下降，直到無法有效識別。對于本文提出的算法而言，在5 km 左右的距離，檢測算法對兩次飛行試驗的檢測率都基本能檢測出潛在目標(biāo)，而識別算法對于4 km 以內(nèi)的數(shù)據(jù)也具有較好的識別效果。

4 結(jié) 束語

本文提出了一種實際環(huán)境中的直升機聲目標(biāo)的檢測與識別一體化算法。該算法首先通過SVM 對外場聲信號提取的融合特征進行潛在聲目標(biāo)的檢測，再利用基于深度學(xué)習(xí)的分類模型對直升機聲目標(biāo)段進行深層特征提取和分類識別。通過模擬生成的復(fù)雜環(huán)境數(shù)據(jù)集與真實外場飛行實驗對算法效果進行了實驗分析，實驗證明了算法檢測率達93.6%，識別率達93.9%。與現(xiàn)有方法相比，該方法明顯提升了對直升機完整飛行事件連續(xù)識別的魯棒性，同時提高了整體識別的正確率。