向奕雪 陳 斌 羅 勇
(海軍工程大學 武漢 430033)
在智能化技術高速發展的今天,越來越多的行業和領域都在向著這一方向快速推進。在無線通信領域也不例外,許多復雜的電子設備和系統的運行、維護和監測管理方式都在進行著信息化與智能化的改進,不僅有效地提高了設備的工作效率,也給系統的維護和監測管理帶來了極大的便利。但在某些通信領域,還存在智能化發展不均衡的問題。特別在短波收信方面,由于系統涵蓋了收信設備、天線與饋電系統等部分,設備種類較多且分布范圍廣,日常檢測和維護的任務重、難度較大,尤其對天饋線在使用中出現的情況和問題無法及時發現和處理,缺少智能化的自動監測技術與手段。在野外環境下對收信天饋系統進行檢測時,主要采用的儀器設備是便攜式檢測儀器,通過人工的方式將天饋線從通信線路中斷開后手動進行測試。這種方式不僅檢測效率低,對檢修維護人員來說會造成時間和精力的浪費,而且對短波通信的日常業務也有一定的影響。針對現有技術的以上缺陷或改進需求,采用基于模式識別的方法來構建收信天線系統的智能診斷模型。
短波收信天線的智能診斷實質上屬于模式識別的范疇。目前,模式識別的主流方法有貝葉斯決策(Bayesian Decision Theory)[1]、人工神經網絡(Artificial Neural Network,ANN)[2]、模糊聚類(Fuzzy Clustering)[3]和 支 持 向 量 機(Support Vector Machine,SVM)[4]等。支持向量機具有完整的理論框架,利用有限的樣本就能夠平衡模型的復雜性和學習能力,可以有效解決ANN 傳統方法的局部最優和過擬合問題[5]。最小二乘支持向量機(Least Square Support Vector Machine,LSSVM)[6~8]是一種支持向量機的改良算法,將SVM 實質所要求解的凸二次規劃問題轉化為簡單的線性方程組,降低了模型的復雜度,加快了算法的收斂速度。然而,LSSVM 方法的改進也帶來了一個顯著的弱點——解的稀疏性的喪失,這就制約了它對大規模數據的應用。
為了彌補LSSVM 這一缺陷,本文提出一種在模型訓練之前,采用KFCM 聚類算法精簡訓練樣本建立LSSVM 稀疏化模型的方法。本文提出的樣本預選取算法分為兩個環節,代表性樣本選取和邊界樣本選取。這兩類樣本都含有豐富的啟發信息,代表性樣本是可以表征全體樣本集的關鍵性樣本,邊界樣本是遠離決策面或者在決策面附近的對模型貢獻度最大的支持向量。在它們的并集上訓練LSSVM模型,可以構建更高性能的分類器。
LSSVM 將最小二乘的思想體現在目標函數中,對SVM 做出兩個方面的改變,一是將損失函數表示為誤差平方和的形式,而是將SVM 的約束條件由不等式改為等式,則最終只需求解一組簡單的線性方程組,從而有效地降低了計算的復雜性,同時還繼承了SVM 算法學習推廣能力較強、全局最優等優勢。
LSSVM基本原理簡述如下:
設l個樣本的訓練集n為樣本特征維數。φ(x)為非線性映射函數,核函數LSSVM的分類目標可以表示如下:

其中,w是分類超平面的法向量,C是懲罰因子,ei是誤差損失,b是分類閾值,采用高斯徑向基核函數。構造Lagrange 函數求解該問題:

其中αi是為拉格朗日乘子,αi∈R。根據KKT 條件,對式(2)求偏微分,可得:

消去式(3)中的變量w和ei,得到如式(4)所示的矩陣方程:


通過求解式(4)的線性方程組,可得決策函數:

在上述LSSVM 模型的推導過程中,式(3)計算得到αi=Cei,可以看出αi幾乎都不為0,因此相比SVM 的分類超平面僅由訓練樣本集中的少量樣本(支持向量)決定,LSSVM 的分類超平面由所有的訓練樣本決定,這就意味著LSSVM 失去了稀疏性,這個缺陷對于模型的泛化能力和計算性能都有很大的影響。尤其在面對大規模的訓練樣本集時,整個算法的時間復雜度和空間復雜度會顯著上升。
由LSSVM 支持向量的幾何分布先驗知識可知:在訓練集合中,位于類中心區域的非邊界樣本和靠近類邊緣的邊界樣本對于構建分類器有不同程度的作用。其中,使用類中心區域的非邊界樣本訓練模型,能夠得到一個初步的分類器模型,但是在分類邊界附近的樣本誤分率較大;邊界樣本對決策面的貢獻度較大,是決定模型分類精度的關鍵因素,但若只用邊界樣本訓練模型,可能會丟失一部分有益的信息,導致訓練出的模型分類精度不理想。所以只有同時包含足夠多的能精準反映全部樣本信息的邊界樣本和非邊界樣本的,才能訓練出理想的分類超平面[9~10]。因此,本文也從這兩個方面著手,提出了一種在模型訓練之前預選取邊界樣本和非邊界樣本以實現LSSVM 稀疏化的改進算法。應用KFCM 聚類綜合選擇了代表性樣本和邊界樣本,最大限度地清除冗余信息和精簡訓練集以實現LSSVM 模型的稀疏化,從而進一步提高模型的分類精度和訓練速度。
核模糊C 均值(Kernel Fuzzy C-means,KFCM)算法以FCM(Fuzzy C-means)算法為基礎,利用核函數將原始輸入空間中的樣本數據映射到高維特征 空 間 中 再 進 行FCM 聚 類[11~13]。 設 樣 本 集X={x1,x2,…,xn},xi∈ ?d,KFCM 聚類的目標函數表示如下:


其中:Jm是隸屬度函數,U是隸屬度矩陣,V是c個聚類中心組成的集合,我們的目的就是選擇合適的U、V,使Jm達到最小。uij為樣本xj關于聚類中心ci的隸屬度;n為樣本的個數;m為模糊控制參數,即聚類的模糊程度。φ是到高維特征空間的非線性映射,滿足:


結合式(9)和式(10),式(7)可表示為

根據式(8)給出的約束條件,采用拉格朗日乘數法求解隸屬度函數和類心計算公式:

KFCM聚類的基本步驟如下:
1)給定聚類中心數目c(1 <c<n),選定核函數K(x,y),設定最大迭代次數T,收斂精度ε和和模糊參數m(m>1) 。
2)初始化聚類中心ci,i=1,2,…,c。
3)重復下面的運算,t為當前迭代次數:
(1)根據式(12),用當前的聚類中心更新隸屬度函數;
(2)根據式(13),用當前的聚類中心和隸屬度函數更新聚類中心,若隸屬度函數保持穩定,滿足或t>T,算法停止。
本文使用KFCM 聚類提取K類數據的每個子區域的代表樣本組成并集來代替原始數據,具體實現步驟如下:
設li、μi分別為第i(1 ≤i≤K)類樣本的數目和聚類劃分數量,K為樣本實際的類別數。令,β為典型樣本的篩選比例。
1)依次對K類樣本實施KFCM 聚類,隨機產生初始的KFCM 聚類中心,迭代計算得到第i類樣本 的 聚 類 劃 分 和 相 應 的 聚 類 中 心
2)選擇最接近對應聚類中心的樣本,即相應隸屬度值最大的樣本其類別標簽
3)對所有的ui和yi取并集,即,則樣本集(U,Y)就是提取出的典型樣本集。
利用KFCM 聚類算法選擇的代表性樣本,還不能構建高精度的分類器,還需要提取一定數量的邊界樣本完善樣本的分類信息。
由式(7)可以看出對于KFCM 聚類中的每一個樣本,它與所有類都有一個對應的隸屬度值,所對應隸屬度值最大的類就判定為此樣本所屬的類。直觀上uij越小,樣本xj距離第i類的聚類中心ci的距離越遠。參考這一性質,利用隸屬度矩陣可以得到聚類結果。對于聚類中心ci,將所有劃分為第i類的樣本對應ci的隸屬度值組成的向量按照升序排列,排在最前面部分的隸屬度值最小,表示其所對應樣本離本類中心ci最遠,即我們要尋找的位于第i類邊緣的邊界樣本集。
使用KFCM 聚類算法選取邊界樣本的基本步驟如下:
1)給定訓練集的類別數K,使用KFCM 對整個訓練集進行聚類;
2)根據KFCM聚類算法的隸屬度矩陣U,判定聚類劃分的結果,并獲得每一類別的樣本隸屬度值向量Uci,i=1,…,K;
3)將K個Uci進行升序排類,按照設定的邊界樣本規模系數ρ(一般不超過0.3)從K類樣本中選取排序靠前的樣本作為邊界樣本。
為了驗證所提樣本選擇方法的有效性,本文分別設定邊界樣本的規模系數ρ=0.1、0.2,典型樣本篩選比例β=0.1、0.2、0.3、0.4、0.5,并采用果蠅優化算法(fruit fly optimization algorithm,FOA)[15~16]結合5 折交叉驗證對LSSVM 懲罰因子C和高斯核函數的寬度參數σ2進行優化計算,建立基于KFCM 預選樣本的FOA-LSSVM 模型。比較原始數據集和在不同樣本壓縮比例(ρ,β)下的約減數據集的FOA-LSSVM模型的分類準確率與模型訓練時間。
采用4 組UCI 數據集進行仿真實驗,表1 為UCI 數據集的相關信息。從選定的實驗數據中隨機選擇80%的樣本作為訓練集,余下的20%的樣本作為測試集。本實驗的運行環境為2.5GHz Intel(R)Core(TM)i7-4710MQ CPU 處理器,10G 內存,Windows 7 64 位操作系統,Matlab 2014a 開發平臺,LSSVM 使用LSSVMlab1.8 工具箱,并設計和編寫了FOA結合K-折交叉驗證算法。

表1 實驗所用UCI數據集
在實驗中,LSSVM 參數設置為:多分類編碼采用一對一的方式,懲罰因子和核參數尋優范圍為C∈[0 .05,1000],σ2∈[0 .01,100] 。FOA 的參數設置為:終止迭代次數設為100,種群規模設為20,搜索步長設為10。KFCM 參數設置:模糊參數m=2,最大迭代次數T=100,收斂精度ε=1e-12,核函數參數為200。
進行20 次獨立重復實驗,每次實驗隨機抽取訓練集和測試集,計算測試集的平均分類準確率作為算法的判定標準。表2 和表3 分別為4 個UCI 數據集在不同樣本壓縮比例(ρ,β)下的FOA-LSSVM模型的分類精度和訓練時間對比。
由表2 可以看出,隨著典型樣本和邊界樣本的數量增大,分類精度呈現較為明顯的上升,當典型樣本篩選比例β≥0.3 時,分類精度上升趨勢減弱,除了Segment 數據集外,其他三個數據集在預選樣本后的模型分類精度超過了原始訓練集上所訓練的模型。這說明,由KFCM 聚類提取的典型樣本和邊界樣本能夠較好地體現樣本的分布規律,通過樣本篩選去除了冗余信息而保留下了啟發信息更為豐富的樣本,從而提升了分類模型的學習推廣能力。

表2 KFCM聚類預選取樣本后模型分類準確率對比

表3 KFCM聚類預選取樣本后模型訓練時間對比
由表3 易知,經過樣本預選取后的模型訓練耗時要遠低于原始數據集,并且隨著輸入樣本特征維數和數目的增大,其對訓練時間壓縮愈發顯著。表4 列出了本文算法在樣本壓縮比例(ρ,β)=(0.2,0.5)時的各模塊時間耗費。本文算法中樣本預選取過程的KFCM 聚類所占用的時間遠遠小于FOA-LSSVM 算法所耗費的時間。綜合表2~表4,從精簡樣本后的LSSVM 模型分類精度和訓練時間兩個評價指標上比較,應用KFCM 聚類預選取的樣本訓練分類模型能顯著降低模型的訓練時間并提高分類精度。

表4 本文算法的各模塊時間耗費(ρ=0.2,β=0.5)
本文利用射頻電壓電流表、高功率射頻采樣器和矢量網絡分析儀等設備采集天線及傳輸線的主要指標數據,作為LSSVM 模型的輸入特征。針對收信天線駐波比、饋線駐波比、監測發射機工作時監測接收機接收信號強度、監測單元內基準信號源輸出信號時監測接收機接收信號強度分別采樣10組數據作為輸入,輸出為短波收信系統6 種工作狀態。LS-SVM 模型樣本輸出與短波收信系統故障狀態的對應關系如表5所示。

表5 樣本輸出與短波收信系統故障狀態關系表
為了提高算法的收斂速度,建模前對輸入樣本統一進行了歸一化預處理(即0~1 之間的數值)。針對短波收信系統的6 種工作狀態,各采集120 組監測數據,共720 組監測數據,從中選出576(80%)組數據作為訓練樣本,剩下的144(20%)組監測數據作為測試樣本。
采用RBF 核函數建立LSSVM 分類器模型,運用FOA 結合5 折交叉驗證對LSSVM 模型的參數(C,)進行優化計算。果蠅算法的最大迭代次數設為300,種群規模設為50,搜索步長設為10,味道濃度判定函數取5 折交叉驗證的平均分類準確率。在原始數據集上訓練得到FOA-LSSVM 分類器的最優參數為C=1.21,σ2=2.7826,訓練集樣本和測試集樣本的分類準確率分別為96.88%和95.8333%。圖1 為原始訓練數據集下的FOA 參數尋優迭代曲線。圖2 為短波收信天線數據集在不同的典型樣本篩選比例和邊界樣本規模系數下的分類精度對比。

圖1 FOA算法迭代尋優曲線

圖2 短波收信天線數據集在不同( ρ,β )下的分類精度對比
為了彌補LSSVM 模型缺乏稀疏性的弱點,提出一種基于KFCM 聚類預選取樣本的LSSVM 稀疏化算法。該算法考慮在模型訓練之前,首先對原始訓練集的每類數據分別進行KFCM 聚類,淘汰掉其中大量相似的冗余樣本而提取出有價值的訓練樣本,提取最靠近聚類中心的樣本來表征本類數據,將這些表征樣本的并集作為代表樣本集;然后采用KFCM 對訓練集整體進行聚類,根據KFCM 的性質提取邊界樣本;最后將代表性樣本和邊界樣本合并為精簡訓練集,訓練FOA-LSSVM 分類器模型。應用該模型分別對UCI 數據集和短波收信天線狀態進行識別分類,結果表明:本文構建的LSSVM 稀疏化模型顯著降低了算法的時間和空間復雜度,有效地提高了分類器的分類精度。