楊宏暉,高潔宇,于傳林
(西北工業大學航海學院,陜西 西安710072)
為了提高水聲目標識別的正確率,研究人員不斷通過多種方法提取水聲目標輻射噪聲的多域特征。然而,水聲目標樣本獲取的代價卻很大。因此,要在水聲目標樣本數目保持不變的前提下達到分類識別正確率損失盡可能小的目的,進行特征選擇以去除冗余的、不相關的和噪聲特征[1],在水聲目標識別任務中具有重要意義。
根據訓練數據集是否含有類標,可將特征選擇算法分為有監督和無監督[2-4]。有監督特征選擇方法通常依據特征與類標的相關性評價特征的重要性[5-6],而無監督特征選擇方法由于缺少類標的指導,則需要依據數據的內在結構信息來對特征進行評價[7-9]。當利用未標記數據進行水聲目標識別時,如深度學習方法,需要用無監督特征選擇算法來選出能夠保留樣本內在類別屬性的特征[3]。本文提出一種基于彈性網回歸的水聲目標無監督特征選擇算法(Unsupervised Feature Selection Algorithm Based on Elastic-Net Regression,UFSER),將嵌入函數的學習問題轉化為一個回歸框架,且在回歸框架中加入彈性網懲罰項,通過彈性網回歸求解一個約束優化問題,最后得到一個稀疏解。在實測水聲數據集和UCI公共數據集的聲吶數據集上驗證了該方法的有效性。
水聲數據集X∈Rn×d構圖G(V,E) 的過程,實質上是用圖的形式對水聲數據點間的幾何結構和相似度進行建模的過程。圖G(V,E)包含2個集合:V為頂點集合,E為邊的集合。根據給定的水聲數據集X,使水聲X數據的樣本點和圖G的頂點之間建立一一對應關系,并定義成對兩兩樣本點之間的相似度為圖G的邊,這樣就使水聲數據集X和圖G有著一一對應的聯系。對于水聲數據集X=(x1,x2,…,xn),xi∈Rn,f1,f2,…,fm是m個特征。圖G的第i個頂點vi代表水聲數據X的第i個樣本xi∈X;找到每個樣本點xi的k個近鄰,記xi的近鄰集為N(xi),在每個樣本點和其近鄰點之間設定一條邊,用高斯核函數計算邊Wij權值,從而得到圖G的相似度矩陣W∈Rn×n,其表達式如下:

式中:σ是高斯核函數的尺度參數;N(xi)是樣本xi的k近鄰集。
通過構圖不僅能有效地保留水聲數據的內在特性和局部結構,同時可以將數據以稀疏矩陣的形式存儲起來,大大減少計算量。
通過公式(1)得到圖的相似度矩陣后,可以構造度量矩陣D和拉普拉斯矩陣L,其中:L=D-W,。本文通過計算拉普拉斯矩陣的特征值和特征向量,然后選擇合適的特征向量,將水聲數據投影到低維,再進行特征選擇。
本文將嵌入函數融入回歸框架中,并在其中加入了彈性網懲罰項構造了一種新的回歸系數矩陣的學習框架。
下面是UFSER算法的目標函數構建方法。
第1步,首先根據1.1節的構圖方法構造出水聲數據圖并計算得到拉普拉斯矩陣,然后通過圖嵌入來尋找高維水聲數據xi的低維表示yi∈Rm,其中,m是嵌入維數。通過這種替換得以保留高位水聲數據中最有價值的信息和特性,為后面做特征選擇打好基礎。所以,第1個目標函數為

第2步,首先通過公式(2)特征分解得到y,然后通過最小二乘法進行線性回歸得到高維水聲數據與其低維表示之間的回歸系數矩陣a,同時加入彈性網懲罰項優化求解回歸系數矩陣。所以,第2個目標函數為

綜上,UFSER算法的目標函數如下所示:

式中:λ1≥0和λ2≥0分別是2個控制收縮量的參數。
令α=λ1/(λ1+λ2),則上式彈性網回歸等價于:

利用最小二乘法求解回歸系數矩陣,令:


同時,Zou和 Hastie(2005),求出了最小二乘參數表示的彈性網回歸解[10-11]如下:

UFSER算法的原理框圖如圖1所示。

圖1 UFSER算法原理框圖Fig.1 Principle block diagram of UFSER algorithm
本文利用實測水聲數據集和加州大學用于機器學習的 UCI(University of California Irvine) 數據庫中的聲吶數據集對所提算法的性能進行驗證實驗,數據說明如表1所示。

表1 數據集說明Table 1 Dataset specification
1)實測水聲數據集。
實測水聲數據提取了海上71維多域特征,分別是小波分析特征(各級小波信號的相似特征、過零點的波長分布密度的信息熵和小波分解低頻包絡特征)、波形結構特征(峰間幅值分布特征,過零點分布特征和波長差分布特征)以及Mel頻率倒譜特征和聽覺譜特征等。數據分為A、B、C、D共4類,每類480個樣本,樣本總數為1 920個。
2)聲吶數據集。
本文實驗中所用的聲吶數據,通過在不同的角度和不同的條件下主動聲吶獲取的金屬圓柱殼和粗糙的圓柱形巖石的回波信號。數據集包含138個樣本,金屬圓柱殼和巖石兩類樣本數目分別為72和66。
本文算法需要選擇的參數有:近鄰數k、控制收縮量的參數α和降維數c。本實驗分別在參數取值范圍內,考慮3種參數的取值對算法性能的影響。采用5次5折交叉驗證,分析3種參數對分類識別正確率的影響,實驗結果如下所示。
1)參數α和c對算法性能的影響。
初始化k=5,對兩種數據集,本文在{0.1,0.2,…,0.8,0.9}上討論參數α對算法性能的影響,并且在{1,2,…,d}上討論降維數c對算法性能的影響,其中d為特征數。聲吶數據的結果如圖2(a)所示,實測水聲數據的結果如圖2(b)所示。
由圖2可以看出,參數α和c的取值對分類結果的影響較大。從圖2(a)中可以看出,當α=0.6,c=25時,聲吶數據集的分類識別正確率最高;而從圖2(b)中可以看出,當α=0.6,c=35時,實測水聲數據集的分類識別正確率最高。
2)近鄰數對算法性能的影響。

圖2 α,c參數對兩種數據集分類識別正確率的影響Fig.2 Influence of parameters a and c on classification identification accuracy of 2 datasets
固定了平衡參數,本文在2~20上討論近鄰數對算法性能的影響。實驗結果如圖3所示。

圖3 近鄰數k對數據分類識別正確率的影響Fig.3 Influence of nearest neighbor number k on classification identification accuracy
由圖3可以看出,近鄰數k的取值對聲吶數據集的分類結果的影響較大,且從圖3(a)中可以看出,當k=16時,聲吶數據集的分類識別正確率最高;而近鄰數k的取值對實測水聲數據集的分類結果的影響不是很大,從圖3(b)中可以看出,當k=4時,實測水聲數據集的分類識別正確率最高。
3)參數選取結果。
聲吶數據和實測水聲數據在UFSER算法上的最優參數如表2所示。

表2 最優參數Table 2 Optimal parameters
根據表2取每個數據集的最優參數,分別用上述兩種數據集對UFSER算法的特征選擇結果進行SVM分類實驗,采用5次5折交叉驗證SVM運行結果的分類識別正確率的平均值作為最終的分類識別正確率,結果得到選擇特征個數與SVM分類識別正確率的關系如圖4所示。
由圖4可以看出,2種數據集的特征選擇個數與SVM分類識別正確率關系曲線的變化趨勢相似:開始時SVM分類識別正確率總體上隨特征選擇個數的增加而增加,當特征達到一定數目后,分類識別正確率趨于相對穩定。由圖4(a)所示,用UFSER算法對聲吶數據進行特征選擇后,使用24個特征,分類識別正確率達到最高86.62%,在特征數目減少60%的情況下,分類識別正確率較特征選擇前提升了6.6%;由圖4(b)所示,用UFSER算法對實測水聲數據進行特征選擇后,使用28個特征,分類識別正確率達到最高92.26%,在特征數目減少60.6%的情況下,分類識別正確率較特征選擇前提升了1.05%。這說明UFSER算法可以有效地消除噪聲,冗余和不相關的特征,選擇最有用的特征子集進行分類識別,提高分類識別的準確率。

圖4 特征選擇后SVM分類識別正確率Fig.4 SVM classification identification accuracy after feature selection
針對水下目標識別過程中,由于數據集中存在冗余、不相關和噪聲特征,導致識別任務效率降低、性能不佳的問題,本文提出的基于彈性網回歸的無監督特征選擇算法(UFSER)在回歸框架中加入彈性網懲罰項優化求解回歸系數矩陣,最后對回歸系數矩陣進行稀疏化來評價特征的分類性能。本文使用UCI聲吶數據集和實測水聲數據集來驗證UFSER算法的性能。UFSER算法在2個數據集上的分類實驗結果表明,這種算法能夠有效地移除冗余、不相關和噪聲特征,選擇出對分類識別任務最優的特征子集,降低了運算量,提高了分類識別系統的運行效率并且提高了分類識別正確率。