王美玲,張復春,楊承志
(空軍航空大學,長春 130022)
雷達輻射源識別是雷達偵察設備的一項基本功能,無論是對戰時的敵我識別還是和平時期的電子偵察都起著重要作用,也是實施雷達干擾的基礎和前提。隨著雷達技術的迅猛發展以及新體制雷達的應用,雷達信號的密度、復雜程度都大幅度提高,傳統的識別方法如模式匹配法等對先驗知識未知的雷達輻射源無法進行識別,不能適應日益復雜的電磁信號。雷達輻射源信號通常是未知的,而無監督聚類是解決這類問題的有效方法。DBSCAN聚類算法[1]是目前機器學習領域的熱點。但是,DBSCAN在處理分布復雜、樣本不均勻分布時的識別率較低。其主要原因是該算法在聚類時采用了全局變量,影響了聚類質量。針對DBSCAN算法在處理不均勻樣本時識別率較低的缺陷,本文引入親和傳遞(AP)算法[2-4],并將該算法與 DBSCAN 算法結合,以期達到提高識別率的目的。實驗表明,新的算法能有效處理不均勻樣本,獲得較高的正確識別率。
DBSCAN算法是由Ester Martin等人提出的一種基于密度的空間聚類算法。該算法利用基于密度的聚類概念,即要求聚類空間中一定區域內包含對象(點或其他空間對象)的數目不小于某一給定的閾值。DBSCAN算法具有聚類速度快、有效處理噪聲點和發現任意形狀空間聚類的優點。
DBSCAN算法的中心思想是:對于某一聚類中的每個對象,在給定半徑(文中用Eps表示)的鄰域內數據對象個數必須大于某個給定值,也就是說,鄰域密度必須超過某一閾值(文中用Minpts表示)。DBSCAN算法的聚類過程基于如下事實:任意兩核心點,如它們之間的距離在Eps內,則將它們放入一類中;類似地,與核心點的距離足夠近的邊界點也放入核心點相同的類中,丟棄噪音點。
DBSCAN相關的一些定義:
定義1:x是給定數據集D中的一個對象,x的Eps鄰域定義為:NEps= {y∈D|d(x,y)≤Eps}。
定義2:如果一個對象的鄰域中至少包含Minpts個對象,就稱這個對象為核心對象。
定義3:對于一個給定對象,如果它屬于某個核心點的近鄰而自己本身不是核心點,那么稱它為邊界點,如圖1所示。

圖1 核心點和邊界點
定義4:如果p是一個核心對象,p在q的鄰域Eps中,稱p是從直接密度可達的。
定義5:如果存在一個對象鏈p1,p2,…,p n,其中p1=p,p n=q,且滿足p i從p i+1直接密度可達,則稱對象p是從對象q關于Eps和Minpts密度可達。
定義6:如果對象集合D中存在一個對象o,使得對象p和q是從關于Eps和Minpts密度可達的,那么對象p和q是關于Eps和Minpts密度相連的。
DBSCAN算法的詳細步驟:
(1)將所有點分類,分別標記為核心點、邊界點或噪音點;
(2)刪除噪音點;
(3)連接距離在Eps內的所有核心點;
(4)將之間存在的連接的核心點放入同一類中;
(5)將邊界點分入與之相應的核心點所在類中。
雖然DBSCAN算法有聚類速度快、能夠有效處理噪聲點和發現任意形狀的空間聚類的優點,但是該算法無法同時聚類不同密度的簇,這是因為它對于一個數據集只選取統一的Eps和Minpts。在實際情況下,簇的密度雖然不同,但具有一定的相同意義,這種情況在輻射源識別問題中很容易造成增批現象。
親和傳遞(AP)聚類是由Frey等人于2007年在Science上提出的一種新的無監督聚類算法。親和傳遞聚類算法的快速、有效性體現在處理大數據集的聚類問題上,例如對數千個手寫郵政編碼的圖片,該算法只花費了5 min就可以找出能準確解釋各種筆跡類型的少量圖片,而K均值算法在同樣的時間內達到的精度卻很低。
AP算法將所有的數據點看成潛在的聚類中心點,這樣就避免了聚類結果受限于初始類代表點的選擇。在AP聚類中,假設把每個數據點都看作是有向圖中的一個節點,任意節點之間傳遞責任度和可用度2種信息,在該圖的有向途徑上不斷遞歸地傳送這2種信息并修改它們的值,直到一個適合的類代表點和相應的聚類出現,如圖2所示。
AP算法首先建立一個N×N相似度關系矩陣S作為工作基礎,此相似度矩陣是由N個數據點之間的相似度組成的。本文使用負的歐氏距離平方來計算任意兩點之間的相似度,如S(i,j)=-||x iy j||2,其范圍在(-∞,0]。相似度矩陣S就是由這些相似度組成的N×N階矩陣。在循環迭代過程中,各樣本點競爭最終的聚類中心。

圖2 AP算法主要思想
在循環迭代中,若一個數據點x k處于其相鄰數據點的中心位置上,則該點與其它數據點的相似度之和較大,即s(i,k)之和較大,將它作為類代表點的可能性也就較大。反之,處于聚類邊緣的數據點與其它數據點的相似度之和)較小,成為聚類中心的可能性也越小。聚類之前,AP算法中需預先設定的偏向參數p(k)作為樣本點k被選作聚類中心的傾向性。
通常在沒有先驗知識的情況下,筆者認為每個數據點的偏向參數都應取相同的值,一般取相似度矩陣S的中值作為偏向參數p的初始值,即設定所有偏向參數p(k)為相同值p。同樣,p值的大小也影響到最終得到聚類的類的個數。AP算法可以通過改變p值來尋找合適的類的數目,一般情況下,減小p值可以減少類的個數,增大p值可以增加類的個數,p是AP算法的一個重要參數。
AP算法任意2個數據點之間傳遞著2種類型的消息,分別為責任度矩陣R=[r(i,k)]n×n和可用度矩陣A=[a(i,k)]n×n。這2個信息量代表了不同的競爭目的,r(i,k)是從點x i指向點x k,它代表點x k積累的能量,用來表示數據點x k適合作為數據點x i的類代表點的代表程度。
a(i,k)是從點x k指向點x i,它代表點x i積累的能量,用來表示數據點x i選擇數據點x k作為類代表點的合適程度。對于任何數據點x i,計算所有數據點的代表程度r(i,k)和a(i,k)之和。r(i,k)與a(i,k)的和越大,則k點作為聚類中心的可能性就越大。AP算法的核心步驟為2個信息量的迭代更新過程。下面是責任度R與可用度A的計算公式[6]:

AP算法在信息更新這一步驟引入了另外一個重要的參數λ,即阻尼因子。它作為平衡因子,對上一次迭代和本次迭代的責任度和可用度進行加權計算,得到本次迭代最終的相似度和可用度。平衡因子主要有2個作用:影響AP聚類迭代的平穩性;當迭代的次數一定時,迭代循環發生振蕩不能收斂,可以增大阻尼因子使算法收斂。另外,當算法產生的類數過多時,也可以增大阻尼因子。設當前迭代次數為i,加權公式為:

其中λ∈[0,1)阻尼因子的作用是避免AP算法發生振蕩,增大阻尼因子可以消除振蕩。在本文的實驗中,為了避免振蕩的發生,設置阻尼因子為0.9。
AP聚類相對K-Means聚類的改進之處在于:AP聚類克服了K-Means聚類方法的一些缺點:對初始聚類中心的選擇極為敏感且容易陷入局部極值。在其迭代過程中不斷地搜索適合的聚類中心,使得聚類目標函數最大化。
經過聚類后的數據變成了小樣本,減少了計算量,保證了系統實驗具有可行性。所以該算法可以不必事先指定聚類的數據,有助于解決未知雷達輻射源信號的識別處理問題。
但是由于AP算法也是基于中心的聚類算法,因此它也像其它中心算法一樣,不適應非凸形分布的數據聚類,且由于它的聚類中心是實際數據,并非可移動的虛擬中心,因此只能實現小范圍聚類。實驗證明,將AP聚類算法用于信號識別會產生較嚴重的增批現象,因此需要對AP算法聚類結果再進行聚類處理,以達到更理想的效果。
本文將AP聚類與改進后的DBSCAN算法結合,設計了適合未知雷達輻射源信號的識別算法,即基于AP密度算法。具體實現流程如圖3所示。

圖3 基于AP密度算法流程圖
基于AP密度聚類分選的輸入是歸一化之后的脈沖描述字(PDW)特征參數,對PDW的信號分選處理過程如下:
(1)設置初始聚類參數。初始聚類參數有迭代數目、代表矩陣、適應矩陣、阻尼因子和噪聲閾值。
(2)設輸入的歸一化[7]PDW 特征參數矩陣含有n條待聚類的PDW特征參數(稱為樣本),即:

式中:P為待分選的雷達信號特征參數矩陣;p i為一條PDW數據;θAOAi為第i個脈沖的到達角;τPWi為第i個脈沖的脈寬;fRFi為第i個脈沖的載頻。
(3)求解距離矩陣,得出相似矩陣,設置相似度矩陣對角線元素s(k,k)為矩陣的中值。
(4)進行信息更新,找到每個數據點的類中心點,若滿足以下迭代條件中任意一個,迭代過程則結束:
(a)滿足迭代次數;
(b)信息改變量低于閾值;
(c)選擇的類中心值在連續幾次迭代中保持穩定。
(5)生成局部聚類結果,獲得聚類與類代表點。(6)設置局部密度聚類閾值、鄰域半徑。
(7)運用DBSCAN算法對AP聚類結果進行再次聚類。
(8)輸出最終聚類結果。
為了驗證基于AP密度聚類算法對未知雷達輻射源信號識別的有效性,本節利用生成的PDW信號進行基于AP密度聚類算法的仿真實驗。
為了驗證本文算法的準確性,對算法進行了仿真試驗,并將本算法與文獻[8]中提出的基于KMeans的改進算法及DBSCAN算法進行了比較。
為了體現雷達信號環境的復雜性、交錯性與數據真實性,本實驗查閱了機載和艦船雷達手冊,并結合前線真實數據,模擬了6部雷達信號數據,并設置了貼近實際的信號參數。雷達信號的頻域、時域、空域參數的變化形式是影響信號分選算法的主要因素,依據雷達手冊對相應雷達輻射源的PDW參數變化形式進行典型設置,如表1所示。

表1 仿真雷達輻射源參數信息表
從圖4~圖6和表2中可以看出,本文提出的基于AP密度算法成功將所有雷達信號識別出來,體現了較高的準確性。
改進的K-Means方法對第1部雷達進行識別時產生了增批現象,這說明雖然對原算法進行了改進,但是由于算法本身的限制,對于非凸形的信號分布仍然不能很好地進行正確分選;基于密度的聚類算法由于采用全局性參數,對第2部雷達進行識別時出現了漏選情況。

圖4 改進K-Means聚類結果

圖5 DBSCAN聚類結果

圖6 基于AP密度聚類結果

表2 算法結果比較
本文在分析了AP聚類及DBSCAN聚類的基礎上,提出了一種基于基于AP密度聚類的未知雷達輻射源信號識別算法。該方法在一定程度上克服了AP聚類及DBSCAN聚類的局限,提高了算法的識別率,具有一定的推廣價值。
[1]陳峰.基于聚類的增量數據挖掘研究[D].大連:大連海事大學,2007:27-34.
[2]Frey B J,Delbert Dueck.Clustering by passing messages between data points[J].Science,2007(315):972-976.
[3]Givoni I E,Frey B J.A binary variable model for affinity propagation[J].Neural Computation,2009,21(6):1589-1600.
[4]Dueck D,Frey B J,Jojic N.Constructing treatment portfolios using affinity propagation[A].Proceeding of 12th Annual International Conference,RECOMB 2008[C].Singapore,2008:360-371.
[5]肖宇,于劍.基于近鄰傳播算法的半監督聚類[J].軟件學報,2007,19(11):197-199.
[6]王慧,申石磊.一種改進的特征加權K-means聚類算法[J].微電子學與計算機,2010,27(7):161-163.
[7]孫鑫,侯慧群,楊承志.基于改進K-均值分類的未知信號分選方法[J].現代電子技術,2010,17(2):91-93.