張文盛, 劉忠寶
(1. 山西大學商務學院 信息中心, 山西 太原 030031;2. 中北大學 計算機與控制工程學院, 山西 太原 030051)
?
基于Matlab仿真的數據降維實驗設計
張文盛1, 劉忠寶2
(1. 山西大學商務學院 信息中心, 山西 太原030031;2. 中北大學 計算機與控制工程學院, 山西 太原030051)
在Matlab的基礎上,以3種經典的數據降維方法——主成分分析(PCA)、線性判別分析(LDA)和保局投影算法(LPP)為例,給出3種降維方法的最優化比較結果,對數據降維實驗方法進行了探討和設計。通過UCI標準數據集和ORL、Yale人臉數據集的比較實驗表明:3種降維方法均能較好地完成降維任務,其中LPP和LDA數據降維方法效率較優,但在不同的實驗條件下,表現略有不同。
數據降維; Matlab仿真; 主成分分析; 線性判別分析; 保局投影算法
隨著互聯網的飛速發展,產生了海量數據,如何從海量數據中挖掘有用知識成為一個熱點問題。數據挖掘是從大量的數據中提取知識的處理過程,研究數據挖掘技術具有重要的現實意義。數據降維是數據挖掘的重點問題之一。數據降維指從高維數據獲取一個能真實反映原始數據固有特性的低維表示[1]。本文以3種經典的數據降維方法——主成分分析(principal component analysis,PCA)[2]、線性判別分析(linear discriminant analysis,LDA)[3]和保局投影算法(locally preserving projections,LPP)[4]為例,對數據降維實驗方法進行深入探討。鑒于Matlab優良的數據處理能力及其在分析統計和圖形繪制方面具的優勢,筆者提出基于Matlab仿真的數據降維實驗設計方法。學生在學習數據降維的基本理論后,利用Matlab實現上述3種降維算法,通過對標準UCI數據集和人臉數據集實驗的深入分析,加深對數據降維知識的理解。
假設x=(x1,x2,…,xN)T為由N個d維樣本xi(i=1,2,…,N)組成的數據集,Ni(i=1,2,…,c)為各類樣本數,其中c為類別數。
1.1主成分分析(PCA)
主成分分析的基本思想是通過對高維數據進行壓縮,從而獲得一組具有代表性的統計特征。主成分分析能夠用較少的特征來描述原始數據,并且保證在降維的同時盡量保持數據的原始特征。本質上,主成分分析可以轉化為計算數據矩陣x協方差的特征值和特征向量問題[5]。對數據矩陣x中的各行向量進行零均值處理后可得x的協方差矩陣:
(1)
對上式中C進行正交分解有
(2)
其中λ=diag(λ1,λ2,…,λN),λi(i=1,2,…,N)為C的特征值且按降序排列;V=[V1,V2,…,VN],Vi(i=1,2,…,N)為與特征值λi對應的特征向量,將其稱為第i個主成分方向。
數據集x在前n個主成分方向上降維后的信息保留率θ為
(3)
在實際應用中,一般取θ>0.85。
1.2線性判別分析(LDA)
線性判別分析保證樣本在其找到的降維方向上具有較好的可分度,即同類樣本盡可能緊密,而異類樣本盡可能遠離[6]。上述思想可由如下優化問題表示:
(4)
其中,WLDA為線性判別分析找到的降維方向,SB是類間離散度,表示異類樣本之間的距離;SW是類內離散度,表示同類樣本之間的距離。SB和SW的定義如下:
(5)
(6)


1.3保局投影算法(LPP)
保局投影算法的基本思想是保持高維數據在降維過程中相對關系不變,該思想可由如下最優化問題表示:
(7)
(8)
其中WLPP為降維方向,Dii=∑jSij,權重函數Sij用來表征樣本之間的相似度,其定義如下:
(9)
其中t為常數。
上述最優化問題經代數變換可得如下形式:
(10)
(11)
其中L=D-S。
保局投影算法的降維方向WLPP可由方程XLXTWLPP=λXDXTWLPP的特征向量得到。
實驗的軟硬件環境是IntelCorei3CPU,4GRAM,Windows7和Matlab7.0。實驗的基本步驟如下:
(1) 將實驗數據集按照一定比例劃分為訓練數據集和測試數據集;
(2) 在訓練數據集上分別運行PCA、LPP、LDA等降維方法,得到相應的降維方向WPCA、WLPP、WLDA;
(3) 將測試數據集中的樣本依次投影到降維方向WPCA、WLPP、WLDA上;
(4) 將降維后的測試樣本通過支持向量機(supportvectormachine,SVM)與訓練樣本進行比較,得到識別結果。

2.1UCI數據集上的實驗
選取UCI標準數據集中的Wine數據集[9],該數據集中樣本數為178,類別數為3,維度為13。在上述數據集上分別運行PCA、LPP、LDA等降維方法,降維數為2,支持向量機算法的參數為
實驗結果如圖1所示,其中class1、class2、class3分別表示3類樣本。
由圖1可以看出:通過PCA降維后的3類樣本重疊率較高,而且數據分布很不規律,降維效率較低;LPP和LDA均能較好地完成降維,但兩者表現略有不同。通過LPP降維后的樣本分布較為松散,并在各類邊界有一定的重疊,但基本上能將3類樣本分開;通過LDA降維后的樣本分布緊湊,特別是3類樣本沒有重疊,與PCA和LPP相比,LDA降維能力較優。這是因為LDA在降維時保證同類樣本距離盡可能近,而異類樣本盡可能遠,因此,通過LDA降維后的樣本具有良好的可分性。

圖1 UCI數據集上的實驗結果
2.2人臉數據集上的實驗
實驗選取ORL人臉數據集和Yale人臉數據集,其中ORL人臉數據集包括40個人、每人10幅圖像、共400幅圖像,Yale人臉數據集包括15個人的165幅圖像。上述人臉數據集的部分人臉圖像如圖2所示。實驗分別選取ORL人臉數據集每人前m(m=4,5,6,7)幅圖像以及Yale人臉數據集每人前n(n=5,6,7,8)幅圖像為訓練數據集,剩余樣本用作測試。支持向量機的實驗參數和在ORL、Yale數據集上分別運行PCA、LPP、LDA等降維方法,得到的實驗結果如表1所示。

圖2 人臉數據集部分人臉圖像

數據集參數kPCALPPLDAORLδ2=x-2,C=0.540.8167(30)0.8458(28)0.8875(30)50.8550(20)0.8950(24)0.9150(28)60.8563(18)0.9563(28)0.9188(28)70.8917(22)0.9167(20)0.9333(28)Yaleδ2=4x-2,C=0.150.6778(12)0.7556(14)0.7889(14)60.6533(14)0.6933(14)0.7467(12)70.7667(12)0.8500(12)0.9000(14)80.8222(10)0.8889(12)0.8667(12)
注:括號外的值表示算法的識別率,括號內的值表示取得相應識別率時的維數。
由表1可以看出:與PCA和LPP相比,LDA在大多數情況下均能得到最優的降維效率。當訓練樣本選取ORL人臉數據集每人前m(m=4,5,7)幅圖像以及Yale人臉數據集每人前n(n=5,6,7)幅圖像為訓練數據集時,LDA具有最優的降維效率;當訓練樣本選取ORL人臉數據集每人前6幅圖像以及Yale人臉數據集每人前8幅圖像為訓練數據集時,LPP的降維效率最優,LDA次之,但兩者相差不大。PCA在上述ORL和Yale人臉數據集上基本能完成降維,但降維效率較LPP和LDA低。
2.3進一步的實驗

另外,LDA和LPP分別基于樣本的全局特征和局部特征進行降維。需要研究一種兼顧樣本的全局特征和局部特征的新的降維方法,以進一步提高降維效率。
本文在Matlab的基礎上,對PCA、LDA、LPP數據降維方法進行了實驗研究。通過UCI標準數據集以及人臉數據集的降維實驗表明,LPP和LDA數據降維方法效率較優,但在不同的實驗條件下表現略有不同。該實驗有助于學生深入理解數據降維的基本理論,為后續分類和聚類方法的學習奠定基礎。
References)
[1] 劉忠寶.基于核的降維和分類方法及其應用研究[D].無錫:江南大學,2012.
[2] Du M J,Ding S F,Jia H J. Study on density peaks clustering based on k-nearest neighbors and principal component analysis[J].Knowledge-Based Systems,2016,99:135-145.
[3] Belhumeur P N, Hespanha J P, Kriegman D J. Eigenfaces vs. Fisherfaces:recognition Using Class Specific Linear Projection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1997,19(7):711-720.
[4] He X F,Niyogi P. Locality Preserving Projections[C]//Advances in Neural Information Processing Systems (NIPS).Vancouver,2003:153-160.
[5] Nobi A,Lee J W. State and group dynamics of world stock market by principal component analysis[J].Physica A:Statistical Mechanics and its Applications,2016,450:85-94.
[6] 王明合,張二華,唐振民,等.基于Fisher線性判別分析的語音信號端點檢測方法[J].電子與信息學報,2015,37(6):1343-1349.
[7] Zhao Y,Wang K. Fast cross validation for regularized extreme learning machine[J].Journal of Systems Engineering and Electronics,2014,25(5):895-900.
[8] 郭美麗,覃錫忠,賈振紅,等.基于改進的網格搜索SVR的話務預測模型[J].計算機工程與科學,2014,36(4):707-712.
[9] University of California Irvine. UCI Machine Learning Repository[EB/OL].http://archive. ics.uci.edu/ml/datasets/Wine.
[10] Alibeigi M,Hashemi S,Hamzeh A. DBFS:an effective density based feature selection scheme for small sample size and high dimensional imbalanced data sets[J].Data & Knowledge Engineering,2012,81/82(4):67-103.
Design of dimension reduction experiments based on Matlab simulation
Zhang Wensheng1, Liu Zhongbao2
(1. Information Center,Business College of Shanxi University,Taiyuan 030031,China;2. School of Computer and Control Engineering,North University of China,Taiyuan 030051,China)
The dimension reduction experiments based on Matlab simulation are designed. The performances of several traditional dimension reduction methods such as the principal component analysis (PCA), the linear discriminant analysis (LDA), the locally preserving projection (LPP) algorithm are compared in the standard datasets,and it can be concluded that the above methods can complete the dimension reduction task while their performances are slightly different from each other in different cases.
dimension reduction; Matlab simulation; principal component analysis (PCA); linear discriminant analysis (LDA); locally preserving projection(LPP)algorithm
10.16791/j.cnki.sjg.2016.09.030
2016-03-31
山西省高等學??萍紕撔马椖?2014142)
張文盛(1974—),男,山西曲沃,碩士,實驗師,主要研究領域為實驗室信息化建設
E-mail:hello811120@sina.com
劉忠寶(1981—),男,山西太谷,博士,副教授,主要研究領域為智能信息處理.
E-mail:liu_zhongbao@hotmail.com
TP391
A
1002-4956(2016)9-0119-03