時艷玲 劉子鵬 賈邦玲
(南京郵電大學通信與信息工程學院, 江蘇南京 210003)
海雜波中小目標分類問題一直以來都是國內外研究的熱點與難點。海雜波具有的非高斯、非線性和非平穩特性,使得實際海雜波偏離假設的統計模型分布,從而造成了恒虛警檢測器性能嚴重下降[1-4]。隨著機器學習技術的發展,越來越多的學者結合改進的機器學習算法對海雜波和目標進行智能化處理和研究。其中,機器學習方法在雜波分類以及海雜波抑制[5-10]方面得到了較為成功的應用。行鴻彥等人通過遺傳算法優化支持向量機中的懲罰系數和核函數參數,并結合支持向量機建立混沌序列的單步預測模型,提高了目標的分類識別性能[11]。徐雅楠等人利用CNN在一維雷達回波信號中進行海雜波與噪聲分類的可行性,并同步分析了數據預處理、單個樣本序列長度、網絡結構參數等影響因素對分類準確率的影響,其所提出的LeNet卷積神經網絡在海面小目標分類方面,具有很高的分類準確率[12]。然而在海雜波和目標的分類研究中,通常情況下,海雜波樣本數目遠大于目標樣本的數目,一般的分類方法難以處理這種樣本不平衡的情況。提取合適的特征以及采取行之有效的分類方法依舊是現今分類研究中的難題。
由此,本文提出了一種新的海面小目標分類方法。首先,本文從極化域提取特征,由對目標散射特性的研究表明,小目標的主要散射成分是球面散射和雙平面散射以及螺旋散射,而雜波的散射機理是多種多樣的,并受海況的影響[13-14]。因此,本文借鑒了文獻[15]所提取的Krogager極化分解提取球體、雙平面散射和螺旋散射分量的歸一化相對功率[15]。然后從時域提取相對平均幅度特征[16],從頻域提取非廣延熵特征[17]。為了解決雜波和目標樣本不平衡以及特征混疊的問題,本文提出了一種K-means和SVM相結合的方法來進行雜波特征和目標特征的分類。首先將大量的海雜波樣本細分為小規模的不同種類的海雜波樣本,弱化雜波樣本和目標樣本之間的數量不平衡問題,有效減少目標和雜波的混疊造成的影響,然后再使用支持向量機來進行多分類,從而達到精確分類的效果。最后,將本文提出的方法與常規的分類方法作對比,發現本文的方法有較為明顯的優勢。
論文的創新為:第一,從多域提取特征,克服單特征提取時海雜波和目標特征區分性差的難題。第二,設計了一種K均值和SVM結合的分類器,通過將海雜波樣本進行K均值動態聚類,將原本屬于一類的海雜波樣本分成多類,然后再將多類海雜波樣本與目標樣本進行SVM分類,解決因海雜波特征的樣本數目遠大于目標樣本數目以及海雜波特征的局部聚集性而造成的樣本不平衡和特征混疊的問題。
論文的結構安排如下:第2節,簡單介紹多域特征的提取方法;第3節,設計一種K均值和支持向量機(SVM)結合的分類算法;第4節,根據實測數據對算法進行驗證并與其他算法對比,第5節,總結了全文。
假設雷達天線的接收回波經混頻、中頻采樣、脈壓后獲得N維脈沖信號為xc=[xc(1),…,xc(n),…,xc(N)],其中,下標c={HH,VV,HV,VH},c{1}={HH},c{2}={VV},c{3}={HV},c{4}={VH},表示四種極化方式。在特征提取的過程中需要利用待檢測單元樣本和參考單元樣本,我們把待檢測單元樣本記為:xc,?=[xc,?(1),…,xc,?(n),…,xc,?(N)],將參考單元樣本記為:xc,i=[xc,i(1),…,xc,i(n),…,xc,i(N)],?表示待檢測單元,i=1,2,...,I表示參考單元。雷達回波示意圖如圖1所示。

圖1 雷達回波數據示意圖Fig.1 Schematic of radar echo data
為了便于后文對海雜波和目標進行分類研究,我們首先提取海雜波與目標在多域的差異性特征,包括相對散射功率特征、相對平均幅度特征和非廣延熵特征,下面將具體說明。
Krogager分解是一種典型的基于復雜辛克萊矩陣的相干分解方法。Krogager分解的核心是三個相干分量分別對應于球體(相當于平板和三面體)、雙平面和螺旋在旋轉角度變化下的散射。設xc,?=[xc,?(1),…,xc,?(n),…,xc,?(N)]為待檢測單元的N維時間序列,可得待檢測單元的極化分解公式如下:
(1)
其中,j是虛單位,根據上式,可以得到如下三個系數:
(2)
ks,?、kd,?和kh,?反映了待檢測單元回波的極化散射矩陣中球體、雙平面和螺旋散射的比例。依據公式(1)和(2),我們也可以得到參考單元回波的極化散射矩陣中球體、雙平面和螺旋散射的比例,即ks,i、kd,i和kh,i。基于這六個實系數,可以得到這三種散射體在回波中的歸一化散射功率如下:
(3)
其中,i=1,…,I,I是參考距離單元的總數。在此三種歸一化散射功率的基礎上,由于對小目標散射特性的未知性,無法確定哪種散射功率占優,故本文將這三種歸一化散射功率取平均,提出一個均值歸一化散射功率(Average Power, AP),計算方式如下:
(4)
相對平均幅度(Relative Average Amplitude, RAA)特征是從時域提取的區分回波強度大小的特征。脈沖長度為N的待檢測單元回波xc,?(n),其平均幅度的定義如下:
(5)

(6)
其中,I是參考距離單元的總數。
對于全極化信道回波數據,為了匹配多極化分解特征,本文將四種極化方式下相對平均幅度取平均運算,于是將平均RAA(Average Relative Average Amplitude, ARAA)定義為提取的特征:
(7)
其中,c表示雷達回波的極化方式。
非廣延熵(Tsallis Entropy, TE)是香農熵的變形,通過設定非廣延參數q來調整系統的非線性動力學特征的反映情況。脈沖長度為N的待檢測單元回波xc,?(n),其多普勒譜概率密度函數可以表示為pγ,c,?
(8)
其中,X(γ)是x(n)的快速傅里葉變換,
(9)
則TE的Sc,?的定義如下:
(10)
其中,非廣延參數q是基于多普勒譜的Tsallis熵的階數。
對于全極化信道回波數據,同樣我們將四種極化方式下非廣延熵取平均運算,本文將平均TE(Average Tsallis Entropy,ATE)定義為提取的特征:
(11)
故本文提出的特征向量為:
g=[θAP,θARAA,θATE]T
(12)
構成了三維特征空間,其中,上標T表示轉置。
針對本文所提出的特征及其分布情況,體現出如下兩個問題:第一,海雜波和目標在此三個維度的分布并不是非常聚集的,尤其是目標特征的分布。雜波特征在三維空間的分布較聚集,目標特征在三維空間的分布較為分散,于是,目標和雜波在三維空間的區分度較差。第二,本文得到的海雜波樣本數目要遠大于目標樣本(10倍以上),且僅針對雜波特征樣本,又存在著比較顯著的特征值和聚集度的差異,有些特征值較大,有些特征值較小,有些特征樣本比較集中,有些特征樣本較為分散。這些雜波特征樣本之間的差異性,則造成了分類結果的偏差性。
針對上述兩個主要的問題,又結合海雜波具有遍歷性、目標具有非遍歷性這一特征,本文將大量的海雜波樣本細分為小規模的不同種類的海雜波樣本,從而使得雜波與目標之間的樣本不平衡得到弱化,然后本文使用支持向量機來進行多分類,這樣又可以使目標和雜波樣本在局部分類上得到改善。
針對海雜波特征樣本的分布情況,本文采用K-means聚類算法將海雜波樣本分成多個不同簇的雜波樣本。采用K-means聚類算法可以使得簇內的雜波樣本的相似度極高,而不同簇間的雜波樣本相似度低,這樣相似度高的樣本聚為一類,提升了類與類之間的差異性,便于進行后續的分類。同時,K-means算法簡單快速,可收縮性好,具有高效性。
三維特征空間中的m個樣本gm,m=1,2,…,M構成了特征矩陣G,其維數為3×M,記為,
G=[g1,g2,…,gm,…,gM]
(13)
K-means算法是三維特征的聚類,采取歐式距離計算樣本之間的距離,距離公式如下:
d(gm1,gm2)=||gm1-gm2||2
(14)
其中,m1=1,2,…,M,m2=1,2,…,M。距離越小,兩樣本屬于同一類的可能性就越高。根據此公式,計算出每一個樣本與各個簇中心的距離。
SVM是一種基于統計學理論的分類方法,隨著理論基礎的完善,它在小樣本、非線性高維度等數據處理方面應用廣泛。它的主要思想是通過類別的最大間隔化,使得分隔具有最大的可信度,并且對未知樣本具有較強的泛化能力,算法可以轉化為一個求解凸二次規劃問題,通過求解局部最優點,得到最佳的支持向量,核函數的使用巧妙避免了數據非線性的問題。對于線性不可分的情況,SVM的主要思想是將輸入向量映射到一個高維的特征向量空間,并在該特征空間中構造最優分類面。將g作非線性映射φ:Rn→H,H為高維特征空間,則有:
g→φ(g)=(φ(g1),φ(g2),…,φ(gM))T
(15)
則可以得到最優分類函數為:
(16)
其中,gm,m=1,2,…,M為輸入樣本,ym∈{+1,-1}為兩類數據的類別值,αm>0為 Lagrange系數,b為超平面截距。
根據上一節,分析了海雜波特征樣本的可分性,下面本文結合K-means算法與支持向量機對本文所提出的目標和雜波的特征進行分類。具體步驟如下:
第1步設定訓練集和測試集。從雜波樣本和目標樣本中各隨機選取一半作為訓練集,剩下的一半作為測試集。
第2步將訓練集中的雜波樣本進行K-means聚類,聚類的簇數為K(實驗中本文設K=3),獲得各個樣本簇{Ck},k=1,…,K,簇的中心tk,k=1,…,K。將聚類后的雜波樣本集與目標樣本{T}進行一一組合得到多個訓練集Train1={C1,T},Train2={C2,T},…, TrainK={CK,T},并設置訓練集的標簽。
第3步對訓練集采用SVM進行訓練,獲得訓練模型{Model1},{Model2},…, {ModelK}。

第5步利用訓練所得的模型進行測試,并統計分類的各項指標。
具體流程圖如圖2所示。

圖2 K-means聚類結合SVM分類流程圖Fig.2 The flow chart of K-means cluster combined with SVM classifier
本文采用IPIX雷達數據庫駐留模式下的4組實測雷達數據[18],其數據說明見表1。其中,該4組數據每組由14個相鄰距離單元組成,距離分辨率為15 m,每個距離單元采樣點數為131 072(即131.072 s),目標是用金屬絲網包裹、直徑約1 m的聚苯乙烯泡沫塑料球。目標所在的距離單元稱為目標單元,目標單元周圍的兩個或三個單元受漂浮目標的影響,稱為受影響單元,其他距離單元稱為雜波單元或者參考單元。

表1 IPIX雷達數據
圖3所示為1號數據的HH極化下的幅度圖,第9個距離單元為目標所在單元,第8、10、11單元為受影響單元,其余單元為雜波單元。每個距離單元的長度為131.072 s。

圖3 1號數據HH極化幅度圖Fig.3 The HH polarization amplitude diagram of No.1 data
本文首先給出1號(#17)數據提取的三種特征分布結果,以驗證純雜波和目標的AP、ARAA和ATE三個特征的可分離性。觀測時間設置為0.128 s,即N=128,每個數據集分為1024段。實驗在有目標單元(第9個距離單元)和無目標單元(第1個距離單元)分別運行了1000次,特征分布圖如圖4所示。

圖4 特征歸一化后的箱線圖Fig.4 The boxplot of the normalized features
圖4是目標和雜波三種特征分布的箱線圖,其中斜線框表示25%~75%的特征聚集區,1.5IQR表示四分位差的1.5倍,水平直線表示特征分布的水平線,黑點表示特征分布的均值。由圖4可知,目標單元的AP和ARAA平均值都大于雜波單元的平均值。而目標的ATE的平均值小于雜波單元的平均值。在這三種特征中,雜波特征偏離平均值的程度要遠小于目標偏離平均值的程度,說明雜波特征的聚集性更好,目標特征的聚集性較分散。圖4中,目標和雜波特征的中位數也存在著較大的差異。所以,可以借助特征均值、特征聚集性和特征的中位數來區分目標與雜波。
圖5給出了純海雜波和目標之間的三個特征的歸一化三維分布圖。從圖中可以看出,雜波特征主要分布在三維空間的上方,而目標特征松散地分布在三維空間中間和下方,這說明本文所提出的特征能夠比較顯著地描繪純海雜波和目標之間的差異。

圖5 雜波和目標的歸一化特征三維分布圖Fig.5 Three-dimensional distribution of normalized features of clutter and target
基于K-means算法,針對圖5所示的海雜波在三維空間的分布,本文對所提取的雜波特征樣本集進行聚類,聚類的雜波簇個數K并不是越小越好,需要兼顧雜波簇自身的聚集性。若K值過大則使得某些雜波簇的樣本數目過少甚至僅有數十個,不利于后續分類,而K過小又會使某些雜波簇的樣本數目過大,達不到弱化雜波樣本和目標樣本之間的數量不平衡問題的效果,從而導致分類偏差。所以在綜合考慮和大量實驗下,本文將簇個數K設置為3。1號數據的雜波聚類結果如下圖6所示。

圖6 雜波簇的分布情況Fig.6 The distribution of each cluster of clutter
由圖6可知,雜波樣本集共分為3個簇,簇間的差異比較明顯,雜波簇1非常集中,其整體特征值集中在特征空間左上角附近,大量的樣本都被聚類到雜波簇1中,雜波簇2相對均勻的分布在空間內,雜波簇3則非常松散的分布在較大的空間上,少量的樣本被聚類到雜波簇3中。由此可以看出,本文所采用的K-means算法能卓有成效對海雜波進行聚類。
本文通過在IPIX的4組數據集上展示數值結果來演示本文的檢測方法的性能。每個特征單元的觀測時間設置為0.128 s,即每個特征單元內的脈沖數為128個,每個距離單元采樣量為1024,每組數據的雜波樣本總數為10240,目標樣本總數為1024。實驗參數設置聚類簇數K=3,利用MATLAB工具箱libsvm[19]進行訓練和分類。
利用本文提取的特征,本文又進行了幾種分類算法的對比實驗。為了衡量分類效果,本文設置了幾個評價標準:正確率、虛警率、精確率、召回率以及F1測度,其定義為
(17)
F1測度主要從精確率和召回率上衡量分類效果,當精確率與召回率都為1時,F1測度為1。F1測度的值越近1,分類效果越好。
本文采用邏輯回歸[20](Logistic Regression, LR)、CART(Classification and Regression Trees, CART)和SVM作為對比算法,其中:
CART中采用GINI系數作為節點的分裂屬性[21],其公式如下:
(18)
其中,pk是某一樣本集中樣本屬于類Ck的概率。

表2 1號數據4種分類算法的對比

表3 2號數據4種分類算法的對比

表4 3號數據4種分類算法的對比
由表2~表5可以看出,本文所提出的算法有明顯優勢。雖然在K-means聚類之后,海雜波簇內的樣本數目仍然多于目標的樣本數目,但是這種削弱樣本不平衡的方法一定程度上保留了某些海雜波之間的聚集共性,從實際數據上來看也達到了預期的效果。從召回率和漏警率上來看,本文所提出的方法有明顯的優勢,這說明相比于其他分類算法,本文所提出的算法中有更少的目標被錯判成雜波;結合精確率和召回率的F1測度比其他分類方法存在顯著優勢,這更說明了本文的方法在預測為目標的類中存在非常少的誤判。

表5 4號數據4種分類算法的對比
通常海雜波特征樣本數要遠大于目標特征樣本數,本文所采用的K-means-SVM將大量的海雜波樣本細分為小規模的不同種類的海雜波樣本,從而使得雜波與目標之間的樣本不平衡得到弱化,可以有效使用SVM分類,同時使用多分類可以獲得雜波與目標樣本之間的多個分類平面,弱化混疊帶來的影響。相對于邏輯回歸來說,K-means-SVM的分類精度要好,主要原因是邏輯回歸主要解決線性可分的問題,難以處理特征之間相關情況,這使得應用到本文所提出的特征空間上分類效果和精度一般。CART中的分類樹選取GINI指數作為分裂屬性,它可以更好的度量非均勻的分布,由圖5可以看出,目標的分布相對于雜波特征的分布而言要更加地松散、不均勻,因此在對比算法中,CART分類得到的召回率要高于其他幾種方法,然而在分類的精確率效果要差很多,導致在F1測度上表現很差。SVM在二分類的處理上有著明顯的優勢,在準確率、精確率以及虛警率上性能很好,但在樣本不平衡的情況下,很難處理樣本數較少的目標樣本,這使得目標樣本中存在更多的誤判。綜上所述,本文所采用的方法在處理海雜波特征空間的分類時具有比較明顯的優勢。
本文針對海雜波和目標的樣本非平衡下問題,提出了一種的K-means聚類和SVM分類相結合的海雜波弱目標分類算法。首先通過Krogager分解提取了球體散射、雙平面散射和螺旋散射的歸一化功率特征,然后從時域提取了相對平均幅度特征,從頻域提取了非廣延熵特征。接著,將提取的三個特征構造特征矩陣。針對目標特征在三維空間的分散性和目標特征與雜波特征的樣本不平衡性,我們提出一種先聚類再分類的方法,實現目標和雜波特征的精確分類。即,先對樣本數量多的雜波特征采用K-means進行聚類,將其分成多個不同簇,然后再將已分好的簇與目標特征結合作為訓練集來訓練模型;針對測試集,我們采用了同樣的操作,即將測試集里的雜波特征采用K-means進行聚類,借助訓練集的聚類中心作為測試集的初始聚類中心將其分成多個不同簇,所得各簇與目標樣本組成多個測試集,最后進入訓練好模型的分類檢測器。通過實驗驗證,本文提出的方法有較好的精確率和召回率,在F1測度的表現上好于其他分類算法。最后,提取目標和雜波之間差異明顯的特征和改進分類方法以及采取更加優秀的機器學習算法也是本文以后學習和研究的目標。