何曉桃,鄭文豐,宋 暉
(1.廣東工業大學 計算機學院,廣州510006;2.廣東省科普信息中心,廣州510006;3.華南師范大學物理與電信工程學院,廣州510006)
模式識別(Pattern Recognition)是人類的一項基本智能,是指對表征事物或現象的各種形式的(數值的、文字的和邏輯關系的)信息進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程。
模式分類可以是確定性的分類對象,也可以是基于概率的分類對象。其目的是對不同的研究對象尋找有效的方法來實現分類的最終結果。
主成分分析法(Principal Component Analysis,PCA)是模式識別領域的一類常用的方法,被廣泛地應用于特征提取,構成了子空間法模式識別的基礎。PCA主要是基于K-L變換的思想,保留那些有顯著貢獻的特征向量。計算主成分的目的是將高維數據投影到較低維空間,即主要是通過種類間或個體間有關變量的差異進行計算和分析,確定哪些變量的差異是主要的,哪些是次要的,并找出不同種類或個體在所需維上應有的排序位置,進而探討它們之間的相似(異)性程度。
設 x=(x1,x2,…,xn)T為 n 維隨機矢量,則PCA具體計算步驟如下:
(1)將原始觀察數據組成樣本矩陣X,每一列為一個樣本采樣的屬性數據x,每一行代表一個樣本。
(2)計算樣本的協方差矩陣:

(3)計算協方差矩陣CX的特征值λi及相應特征向量ui(其中i=1,2,…,n)。
(4)將特征值按由大到小順序排列,并按照下式計算前m個主元的累積貢獻率:

累積貢獻率用于衡量新生成分量對原始數據的信息保存程度,通常要求其在85% ~95%即可。……