孫藝聰,田潤瀾,王曉峰,田維群
(空軍航空大學 航空作戰勤務學院,長春 130022)
雷達信號分類識別[1-2]是電子戰領域一個重要的研究方向,在完成信號截獲和脈沖參數分析后,需要對信號進行進一步分析,以得到輻射源類型甚至是個體信息,最終獲得情報產品。近年來采用深度學習分析脈內調制特性的研究有很多[3-7]。這些方法主要基于兩個基本的假設:一是訓練集中每種類型樣本數量分布大致相同;二是分類錯誤造成的后果是相同的。然而在現實情況下,由于數據收集方法限制、樣本的稀缺性以及噪聲干擾等原因,會導致不同類型信號樣本數量有很大的差異,而且往往分類錯誤后所造成的代價通常也不同。尤其是在電子偵察領域,常見的雷達信號類型偵收到的數據有很多,但是對于一些特殊的、威脅程度相對較高的信號類型卻很少能被偵察到,得到的數據集不均衡。傳統的基于分類準確率指標的方法訓練得到的模型分類效果不佳,甚至毫無用處。保證能夠準確地識別這些出現概率低且威脅程度高的信號類型,具有十分重要的意義。
針對這個問題,本文提出了一種基于棧式自編碼器結合過采樣技術支持向量機[8]的分類方法。
本文所提方法的具體流程如圖1所示。首先,通過棧式自編碼器對中頻信號樣本集進行特征提取和降維處理,對降維后的數據中的少數類樣本采用過采樣的方法生成更多數量的少數類樣本,使多數類和少數類樣本數量達到平衡;然后,利用支持向量機(Support Vector Machine,SVM)對再平衡后的數據集進行分類,尋找最大間距超平面[9];最后,采用F分數和受試者工作特征(Receiver Operating Characteristic,ROC)曲線來評價網絡的性能。

圖1 雷達信號識別流程圖
當數據集S中的不同類之間樣本數相差很大(通常在兩個數量級以上),那么S被稱為不平衡數據集[10]。常規方法對于不平衡數據集處理得到的模型一般效果不好,對于樣本數量少的類別準確度會很低。目前關于類別不平衡問題的研究,主要集中在信用評估[11]、醫療診斷[12]等領域。這些領域對于每一類分錯的代價是不一樣的,如將患者診斷為健康的代價就可能高于健康人被診斷為患者的代價。雷達信號識別問題也有相似的情況:常見的容易偵收到的雷達信號類型,往往是那些運用在目標探測、遠程預警雷達等平臺上的,偵察設備可以很容易地偵收到大量的這類信號。而對于一些運用在制導雷達、火控雷達上的信號類型卻很難能偵收到,然而這些信號類型威脅程度更高,判錯帶來的影響也更大。
傳統分類模型評價方法一般采用準確率(accuracy)作為評價標準。準確率越高的網絡往往性能也越好,然而在數據不平衡的情況下,預測多數類能力的占比可能大于一半,從而掩蓋了預測少數類能力比較弱的事實,無法體現模型的真實水平。網絡模型偏向于樣本數多的類型,造成樣本數少的類被大量錯分[13],這樣的網絡不能應用到實際問題中。為了能夠恰當地評價網絡模型,除了準確率標準外,學者們還提出了一些其他指標,主要有查準率(precision)、查全率(recall)和F分數(F-score),其中F分數是查準率和查全率的調和平均。這三種指標的計算方法如式(1)所示:
(1)
式中:P、R、F分別代表查準率、查全率和F分數;TP、TN、FP、FN分別為真正例、真反例、假正例和假反例的數量;β為調和參數,度量了查全率對查準率的相對重要性,β>1查全率影響更大,β<1查準率影響更大,常用的有F0.5score、F1score和F2score。上述指標主要用于二分類問題,對于多分類任務,在綜合考評時就需要引入新的指標,其中最常用的一個指標是宏平均(Macro-averaging)[14],它首先對每一個類統計指標值,然后再對所有類求算數平均值,具體如式(2)所示:
(2)
除了上述指標外,常見的性能評估方法還有受試者工作特征(Receiver Operating Characteristic,ROC)和ROC曲線下面積(Area Under ROC Curve,AUC)[15],圖2是其示意圖。ROC曲線是一種通過圖形展示分類器性能的工具[16],它以真正例率(True Positive Rate ,TPR)和假正例率(False Positive Rate,FPR)為軸,兩者的定義分別為
(3)
圖2中對角線對應的是“隨機猜測”模型的ROC曲線,實線為一個典型的ROC曲線。通過ROC曲線可以較為直觀地比較分類器的性能好壞,一般情況下曲線越靠近左上角,網絡的性能就越好。然而實際中多個ROC曲線往往會有交叉,無法直接從圖像對分類器性能進行比較,這時就可以采用AUC值比較。AUC值越大,性能相對就會越好,可以定量比較分類器性能,一般情況下AUC的值大于0.5,且小于1。

圖2 ROC曲線和AUC
AUC的一種計算公式為[17]
(4)
式中:f為模型函數,分母代表正負樣本總的組合數,分子代表正樣本大于負樣本的個數。通過AUC值的大小,可以對比出不同分類模型的性能。
F分數可以對于分類過程中的多數類和少數類合理地進行評價,利用宏平均可以計算得到一個宏F分數,用于對多分類任務進行評價;ROC曲線在樣本集分布變化時能夠保持不變,能夠保證在不平衡數據評價時指標依舊有效;AUC能夠量化模型的性能,可以用于在ROC曲線不能直接比較的情況。綜上,本文采用F分數、ROC曲線和AUC作為模型的評價指標。
自編碼器(Autoencoder,AE)是一種無監督的學習模型[18]。常規的自編碼器一般由三層組成:輸入層、隱藏層和輸出層。從輸入層到隱藏層為編碼過程,輸出維度一般低于輸入維度,可以用作對輸入數據的降維,同時還可以作為特征提取器來作為深度學習輸入數據的預處理;從隱藏層到輸出層為解碼過程,主要是通過編碼層的輸出重建編碼器的輸出。編碼過程可表示為
y=σe(w1x+b1) 。
(5)
解碼的過程可以表示為
x′=σd(w2y+b2) 。
(6)
式中:w1、b1為編碼器的權重和偏置,w2、b2為解碼器的權重和偏置。通過解碼器得到的輸出與原始輸入作為對比,使用均方誤差構造損失函數,設置損失函數為
(7)
網絡訓練采用傳統的基于梯度的訓練方式,目標是最小化損失函數。當網絡訓練完成后,網絡中的編碼結構就是我們需要的網絡模型。
為了學到更加復雜的編碼特征,一般采用多個自編碼器堆疊的結構,這樣的自編碼器就是棧式自編碼器(Stacked Autoencoder,SAE)[19],又叫做堆棧自編碼器。它是由多個自編碼器得到的。一般采用逐層訓練的方式,通過將前一個自編碼器的輸出作為下一個自編碼器的輸入,依次訓練每一個自編碼器,通過分層預訓練找到較好的參數,在最后一層訓練完成后對整個網絡采用方向傳播進行訓練,對網絡參數進行微調。棧式自編碼器通過增加隱層可以學到更加復雜的編碼方式,每一個隱層可以學習到不同維度的信息,通過增加網絡深度并減少每層神經單元數不僅可以學習到輸入數據更深層次的特征,還能夠有效降低數據的維度,減少計算量。每層網絡的神經元個數通常取上一層的神經元個數的一半。本文采用SAE來對原始數據進行特征提取和數據降維。
研究表明,通過改變訓練集之間的比例,使其重新達到平衡,可以有效改善傳統分類方法在這類問題上退化的現象[20]。數據再平衡的方法有很多,如重采樣法、集成分類器法和劃分訓練集法[21],其中最常用的方法就是重采樣法。重采樣法主要分為欠采樣和過采樣。欠采樣通過刪除多數類樣本的方法減少多數類的樣本數量,但是會導致多數類重要信息的缺失;過采樣通過補充小樣本來達到增加樣本的目的,但是可能會導致過擬合。近年來,通過對過采樣方法的改進,學者們提出了幾種補充少數類樣本的過采樣方法,得到了很廣泛的應用,主要有以下幾種:
(1)隨機過采樣法(Random Oversampling,ROS)
隨機過采樣法通過隨機復制少數類樣本實現樣本的平衡,但是由于其引入了重復的樣本,有可能導致過擬合現象,這種方法如今使用很少。
(2)合成少數類過采樣技術[22](Synthetic Minority Oversampling Technique,SMOTE)
SMOTE通過對少數樣本進行分析并人工合成新的樣本,本質上是基于“插值”來產生新的樣本。
為了達到較好的預測效果,較高級的方法采用有選擇的復制少數類樣本。一些方法試圖尋找每種類別的邊界,主要思路是邊界和邊界附近的樣本更容易被分類錯誤,也意味著對于分類更加重要,而遠離邊界的樣本就顯得不那么重要。根據這一思想,提出了Borderline-SMOTE[23]和SVM-SMOTE[24]方法,它們是在原始的SMOTE方法上進行改進,通過一定的規則來選擇樣本。Borderline-SMOTE方法首先將少數類樣本分為三類:安全樣本、危險樣本和噪聲樣本。安全樣本是指所有的k近鄰樣本均來自于同一個類;危險樣本則是至少有一半的k近鄰樣本來自于同一類;噪聲樣本則是指樣本的所有k近鄰樣本都是其他類樣本。Borderline-SMOTE更關注那些處在邊界的危險樣本,只為那些周圍大部分是多數類樣本的少數類樣本生成新樣本,生成樣本的方法同SMOTE。SVM-SMOTE方法則是利用支持向量機分類器產生支持向量然后再生成新的樣本。
(3)自適應綜合過采樣[25](Adaptive Synthetic Sampling,ADASYN)
ADASYN關注的是在那些基于K最近鄰分類器被錯誤分類的原始樣本附近生成新的少數類樣本,最大的特點是能夠自動決定每個少數類樣本需要產生多少合成樣本。
少數類樣本由于樣本數量少,SVM不能夠找到足夠數量的支持向量,導致少數類邊界不明顯,所以在對少數類樣本進行再平衡時需要重點增加邊界和邊界附近的樣本數量,以此增加少數類的支持向量數量,有助于支持向量機找到更加合理的邊界。本文主要采用改進SMOTE方法中的Borderline方法。
本文選擇8種雷達信號類型,分別是多相碼(Frank、P1、P2、P3、P4)、BPSK、Costas和LFM。除Costas外載頻取值范圍為1~1.2 kHz。表1是這8類信號仿真模型的主要參數。

表1 8種信號參數設置
根據實際信號特征,采用Matlab仿真生成實驗數據,信噪比為-10~10 dB,采樣點個數為200個。將P2、P4、BPSK、Costas和LFM設為多數類,各產生20 000條數據;Frank、P1和P3設為少數類,各產生200條數據,構成不平衡數據集,少數類和多數類的不平衡度為1∶100,過采樣每類少數類信號合成數量為19 800。
實驗1 為了說明SAE降維和提取特征的有效性,首先構建含有3層隱藏層的SAE模型(200-100-50-25-3),將本文得到的數據集輸入到SAE模型中進行處理,損失函數采用均方差。通過對SAE網絡進行訓練得到適合的編碼器,將數據集利用訓練好的編碼器進行編碼,數據從原始的200維降到了三維,將降維后得到的數據在三維特征空間上的分布進行可視化處理,如圖3所示。

圖3 三維特征空間數據分布
從圖3可以看出,多數類信號在三維特征空間上的分布比較清晰,同一類信號之間能夠較好地匯聚到一起,不同類信號之間的界限也相對明顯,可以進行有效的分類。另外,由于少數類樣本數量較少,相對于多數類匯聚效果不明顯,在分類過程中很有可能會被誤分為其他類型,導致分類效果不好,這也說明了提高少數類數量的重要性。
為了進一步探索降維維度對分類精度的影響,以編碼器最后一層神經單元個數為變量,以網絡的macro_F為指標。網絡前幾層編碼單元數按順序減半,最后一層神經單元數從2個到15個,每種網絡結構做5次實驗,對5次實驗的macro_F取平均值作為最終的結果,實驗結果見圖4。

圖4 不同網絡結構的識別能力
從圖4中可以看出,隨著編碼器最后一層神經元個數的不斷增加,網絡整體的識別能力是先上升然后下降的,在神經元個數為11個時達到最大,隨著神經元個數的增加,網絡的性能緩慢下降,網絡的識別能力不再隨著神經元的增加而提升,網絡結構為200-100-50-25-11時識別能力較優。
實驗2 過采樣方法可以有效提高少數類樣本的數量。為了比較各種過采樣方法的優劣,本文選用5種常見的過采樣方法:ROS、SMOTE、Borderline-SMOTE、SVM-SMOTE和ADASYN。分別繪制5種過采樣方法的ROC曲線,計算對應的AUC值,然后與不采用任何處理方式的訓練結果進行對比,結果如圖5和表2所示。從圖5結合表2可以明顯看出,采用原始數據訓練得到的SVM網絡性能一般,AUC值只有0.827 07,分類器整體的效果并不好,而通過5種過采樣方法處理后的數據集訓練得到的SVM網絡性能均有所提升,AUC值均在0.9以上,分類性能有了明顯改善。其中經過Borderline-SMOTE處理后的數據集訓練得到的分類器的性能更好,原因是當處理不平衡數據時,由于少數類的支持向量更少,支持向量機就會忽略少數類支持向量導致決策面出現偏移,學習時決策面易于偏向少數類,從而增加了少數類別的錯誤分類率,而Borderline-SMOTE方法更注重于對少數類邊界樣本的生成,從一方面增加了少數類的支持向量數量,SVM的超平面位置選擇會更加合理。

圖5 ROC曲線對比圖

表2 各類處理方法的AUC值
實驗3 對于雷達偵察領域來說,尤其是在少數類錯分代價更大的情況下,往往需要少漏掉少數類樣本,這時候就需要盡可能地提高查全率以減少少數類樣本被錯分的概率。可以用F2score來作為評價的標準。為了驗證過采樣方法的效果,分別計算Borderline-SMOTE過采樣方法訓練得到的分類器和原始數據訓練得到的分類器在不同信噪比下的F2score,結果如圖6所示。圖6(a)是通過不平衡數據集訓練得到的SVM分類器的識別結果,從圖中可以看出,三類少數類信號類型的F分數值相較于其他類型信號較低,尤其是Frank和P1兩類信號的識別精度最大也不超過40%,這樣的網絡在實際應用中效果不好。多數類信號識別結果也不是很好。這是由于少數類數量較少,少數類邊界不明顯,分類器在分類過程中將少數類誤分為多數類,導致各類信號F分數普遍不高。圖6(b)是利用經過Borderline-SMOTE方法處理后的數據集訓練得到的分類器在各信噪比下的F分數,從圖中可以看出,少數類和多數類的F分數均有所提高,且各類信號整體趨勢接近,識別能力相差不大,證明了過采樣方法處理的有效性。

(a)基于原始數據的識別結果
另外,圖6中兩種識別結果均出現了高信噪比情況下F分數比低信噪比F分數低的現象,分析原因在于本文采用的評價標準F2score是由查準率和查全率共同作用的,查全率所占的比重更大,而查準率和查全率是一對矛盾的指標,查準率高的情況下往往查全率較低,所以會導致出現信噪比高的情況下F分數低于信噪比低的情況,但是從整體上看F分數是上升的。
本文提出了一種利用SAE和SVM結合過采樣方法對不平衡雷達信號分類的方法,運用在信號調制方式識別上,并通過實驗進行了驗證。實驗結果表明,通過過采樣方法可以有效提高不平衡分類問題中少數類分類效果,在保證了較高準確率的同時也提高了少數類準確率,改善了傳統方法中少數類準確度不高的問題。但是還是存在低信噪比條件下識別準確率不高的問題,在選取更合適的樣本均衡方法和進一步優化網絡結構等方面還有進一步提升的空間。