摘 要:特征選擇在數據挖掘、圖像識別等諸多方面有著廣泛的應用,其目的是找出那些最有效的特征,即把特征空間從高維壓縮到低維。對于圖像識別系統而言,為了保證識別性能需要從圖像中提取大量的信息,往往使得訓練集數量相對特征向量的維數顯得較少。引入敏感度分析作為標準實現圖像特征值的選取。實驗表明:利用敏感度分析選取的特征值對BP神經網絡進行訓練避免了網絡的過擬合問題,提高了網絡的識別率,同時大大降低了網絡的訓練時間,提高了網絡識別效率。
關鍵詞:特征選擇;敏感度分析;BP神經網絡;圖像識別
Image Feature election Based on ensitivity Analysis
ONG Yaozi,XIA Zhelei,ZAN Guoke
(China Jiliang University,angzhou,310018,China)
Abstract:Feature selection has been applied to several fields like data mining,image recognization and so on,which purpose is selecting these most effective features from feature vector and reducing the dimension of vectorFor image recognization system,in order to make sure the system performance we have to get a lot of information from image,which may make the training samples is not enough in contrast to the dimension of vectorIn this paper,sensitivity analysis is applied to select featuresIt has been proved that using features selected by sensitivity analysis to train BP neural net can avoid net overfitting,improve the performance of the system,greatly reduce the time consuming and make recognization system more effectively
Keywords:features selection;sensitivity analysis;BP neural net;image recognization
1 特征選取的目的和重要性
特征選擇在數據挖掘、圖像識別等諸多方面有著廣泛的應用,其目的是找出那些最有效的特征,即把特征空間從高維壓縮到低維[1]。對于圖像識別系統而言,為了保證識別性能要從圖像中提取大量的信息,往往使得訓練集數量相對特征向量的維數顯得較少。那么就需要在保證識別分類準確率的前提下,去除部分特征值降低特征向量的維數。因此,特征值選取在整個識別系統中有著重要的作用。因為相對較多的特征值對識別分類系統將會產生2方面的問題。
(1) 因為特征向量中的每個分量作為輸入值都會對識別分類系統產生不同的影響。以神經網絡作識別系統為例,在訓練過程中容易在對識別分類系統影響微弱的訓練點上產生過擬合的問題,從而降低了系統的識別性能;(2) 不同特征值對識別分類系統的不同影響反映了特征值對系統的作用不同。因此,經過一定數量特征值訓練的識別分類系統會對特征值對系統的影響起到解釋作用。而如果特征值數量較多會使得識別分類系統的可解釋性減弱。
因此,需要通過有效的方法和完整的體系對每個特征值的評估。通過分析評估可以獲得不同的特征值對識別分類系統貢獻的差異。本文將采用敏感度分析法來對圖像特征值進行選取。
2 特征值敏感度分析
特征值敏感度,是指特征值對識別分類系統的不同作用和影響。如果某個特征值在取值范圍內的微小變化對識別結果有影響,則說明該特征值的敏感度較高;相反,如果特征值的變化對識別結果影響甚微,則說明該特征值的敏感度低。本文的特征值選取通過利用神經網絡對特征值的敏感度分析來實現。
21 基于神經網絡的特征值敏感度分析原理
神經網絡敏感度分析是指在輸入特征值允許取值的范圍內調整輸入特征值使得輸出不同的系統響應[2,3]。給定一組維數較高的特征向量集,結合交叉驗證法,訓練神經網絡使得其識別性能達到一定的程度。然后依據敏感度衡量標準計算每個特征值敏感度。多次計算各個特征值的敏感度,并對其取平均值來降低誤差。敏感度計算分析,對應較大敏感度的特征值意味著對識別結果影響較大。根據敏感度的大小依次去掉那些對識別系統影響小的特征值。保證系統性能在不斷提高的前提下,以選取的特征值作為識別系統的輸入向量。
22 特征值敏感度衡量方法
本文引入3種方法來衡量特征值的敏感度。