朱震宇,荊曉遠
(南京郵電大學 自動化學院,江蘇 南京 210003)
基于多視圖核鑒別分析的圖像識別
朱震宇,荊曉遠
(南京郵電大學 自動化學院,江蘇 南京 210003)
近年來多視圖學習引起了研究者的廣泛關注。在多視圖學習中,數據主要來自于多個視圖(或特征集)。多視圖數據的最大優點是可以從不同視圖之間提取互補信息。傳統多視圖學習方法是在不同視圖上單獨地訓練分類器。這些方法利用了視圖之間的互補信息,但是忽略了去除不同視圖之間的冗余信息。為了解決上述問題,提出一種基于多視圖核鑒別分析的識別方法。該方法通過基于核判別分析從各個視圖中提取出相互正交的投影矩陣,從而能夠提取出兼具互補和無冗余的特征。在AR和Oxford Flowers17公共數據庫上的實驗結果驗證了所提算法的有效性。
多視圖學習;互補信息;冗余信息;核鑒別分析
近年來,隨著數據獲取技術的不斷發展,多視圖學習已經在計算機視覺領域得到了廣泛運用。例如,在傳感器網絡中,數據集來源于多個傳感器,當前傳感器缺失的數據可以通過其他不同的傳感器彌補,因此通過多個傳感器計算分類的效果要好于單一傳感器[1-2]。每個網頁可以根據其所含文檔和指向它的超鏈接進行表示;一個人可以根據與其相關的音頻和視頻內容來表示;一幅圖像可由不同的特征來表示(如顏色和形狀等)。這些不同視圖包含著大量的特征數據,如何從各個視圖獲取更多信息,多視圖學習已經成為機器學習的研究熱點之一。
大部分關于多視圖分類方法是基于特征融合(前期融合)的方法,然后找到一個綜合的節點來表示多視圖特征[3-4];另一種是基于最終結果的融合(后期融合),通過結合了各個視圖的結果來提升最終的表現[5]。除非多視圖融合的特征是進行優化過的,否則很難保證特征融合能帶來好的分類結果。
Tang等提出基于多視圖的特征選擇算法—MVFS[6],分別對每個視圖進行獨立的特征選擇,并通過譜分析對每個視圖進行約束,使多視圖學習滿足一致性原則。該算法考慮各個視圖之間的相互關系,但沒有去除不同視圖之間的冗余信息。Jing等提出了基于鑒別變換的整體正交彩色圖像識別方法—HOA[7]。該方法通過線性鑒別分析[8-9](LDA)與整體正交分析相結合,根據Fisher準則從彩色圖像中分別抽取紅、綠、藍三種色彩的判別變換矩陣,并使之相互正交。但該方法在選擇正交時直接按照固定的正交順序,從而忽略了各個視圖對最終識別效果的影響。
文中提出了基于多視圖核鑒別的鑒別分析算法(MVKDA),利用核鑒別分析(KDA)[10-11]得到各個視圖對應的投影矩陣,并使之按最優化的順序進行相互正交。核鑒別分析是目前研究最多的非線性鑒別技術,它將基于核函數的非線性映射方法與線性鑒別分析相結合,將樣本從原始特征空間映射到高維的核空間以提高數據的可分性。文中提出的方法提高了數據的可分性,去除視圖特征之間的冗余信息,從而提高算法分類效果。在AR[12]和Oxford Flowers 17[13]公共數據庫上的實驗結果驗證了所提算法的有效性。
假設樣本矩陣是X=[x1,x2,…,xN],xi表示X的第i個樣本,樣本總數為N,li表示第i類樣本的樣本數。通過函數φ,將樣本投影到新的空間F。假設數據一共有c個類別,多類KDA的作用就是通過使用c-1個判別函數將數據投影到c-1維空間上。
(1)
其中,wi是W的第i列數據。
類間協方差矩陣可以表示為:
(2)

類內協方差矩陣可以表示成:
(3)

基于費歇爾準則的目標函數最大化:
(4)
根據再生核理論,多類KDA的目標結果可以轉化為:
(5)

y(xt)=(A*)TKt
(6)
其中,Kt的第i個值表示成核函數k(xi,xt)。
這樣就完成了樣本的降維,將輸入樣本通過KDA算法維度下降到c-1。
這里在HOA[7]的算法基礎上進行一部分改進,對獲得的投影變換矩陣進行正交變換。假設已經獲取了三種視圖的樣本數據,然后描述對MVKDA的具體實現過程。
2.1 獲得所有視圖核判別的變換W1,W2,W3
基于上述推導的費歇爾判別準則,得到目標函數:
(7)
因此通過解決下面的特征方程可以得到變換矩陣:
PW=λW
(8)

根據式(8),分別獨立對每個視圖求出相應的投影矩陣,然后根據式(6)求出每個視圖的特征,再根據特征余弦最近鄰算法分別求出每個視圖的識別效果,從高到低排序:f(W1)>f(W2)>f(W3)。
2.2 更新W2
基于上述推導的核判別準則,得到目標函數:
(9)
因此通過解決下面的特征方程對W2進行更新。
P2W2=λW2
(10)

因此投影矩陣W2是由P2的c-1個最大非零特征對應的特征向量組成。
2.3 更新W3
基于上述推導的核判別準則,得到目標函數:
(11)

P3W3=λW3
(12)

因此投影矩陣W3是由P3的c-1個最大非零特征對應的特征向量組成。
MVKDA算法描述:
步驟1:根據式(6)和式(8)計算出所有視圖訓練樣本的投影矩陣和特征向量,根據識別效果,得到W1,W2,W3;
步驟2:根據式(10)更新投影矩陣W2;
步驟3:根據式(12)更新投影矩陣W3;
步驟4:分別對W1,W2,W3進行標準化;
步驟5:利用投影矩陣W1,W2,W3將各個視圖的所有樣本通過式(6)進行相應的投影,并將得到的每個樣本的多視圖特征融合在一起;
步驟6:用余弦最近鄰距離分類器[14]對所有樣本進行分類。
為了驗證文中算法的有效性,選擇常用的公開人臉數據庫AR[12]和OxfordFlowers17[13]作為實驗數據庫,以算法HOA[7]、KDA[10]、MVFS[5]為對比方法,比較分類識別準確率。
3.1 數據庫介紹
AR公共彩色人臉數據庫包含102類,每一類有26張圖片,將圖片處理成60*60的尺寸。考慮到表情、光照、位置、姿勢等多種情況,為了有效地評價不同的變化對識別結果的影響,從每類樣本中選擇8個具有代表性的作為訓練樣本,剩余作為測試樣本。圖1為包含某類的部分圖片。

圖1 AR數據庫的樣本圖像
Oxford Flowers17數據庫包含17種花,每種80張圖片。圖2為部分圖片。選用40個訓練樣本,20個測試樣本,并從中提取出顏色、形狀、紋理、HOG、HSV、SIFT等特征作為多個視圖特征。

圖2 Oxford Flowers17數據庫的樣本圖像
對MVKDA和相關算法進行實驗對比。主要包括HOA、KDA和MVFS。MVKDA和三個比較方法在兩個數據庫上均做20次實驗。
3.2 實驗結果與分析
圖3和圖4分別給出了在AR和Oxford Flowers17兩個數據庫上所有對比方法隨機20次的識別率波動圖。表1給出所有方法在兩個庫上的平均識別率和方差。
從表1可以看出,MVKDA有很好的分類性能。在AR公共彩色人臉數據庫上,MVKDA方法比KDA、HOA以及MVFS三種方法的平均識別率提高了至少5.25%(93.90%-88.65%);在Oxford Flowers17數據庫上,MVKDA方法比三種對比方法的平均識別率提高了至少5.35%(88.90%-83.55%)。文中將原始樣本通過高斯核函數投影映射到高維空間,從而解決低維非線性不可分問題;同時考慮到去除多視圖之間的冗余信息,增加整體變換正交,從而提取出更加具有鑒別性的特征。實驗結果充分證明MVKDA算法能夠有效地提高識別率。

圖3 AR數據庫上的識別率

圖4 Oxford Flowers17數據庫上的識別率

方法識別率(均值和方差)/%AR庫OxfordFlowers17KDA88.65W8.2583.55±7.47MVFS90.04±6.4885.40±5.50HOA92.14±5.0387.85±4.84MVKDA93.90±4.4488.90±3.88
結合核理論,并使各個視圖的投影矩陣正交,文中提出一種基于多視圖核鑒別分析的圖像識別方法。該方法通過基于核的線性判別分析從各個視圖中提取出相互正交的投影矩陣,從而能夠提取出相應特征。在AR和Oxford Flowers17人臉數據庫上的實驗結果表明,MVKDA與MVFS、HOA以及KDA相比,有效地提高了識別率。
[1] 朱長仁,王潤生.基于單視圖的多姿態人臉識別算法[J].計算機學報,2003,26(1):104-109.
[2] Xiong N,Svensson P,Svensson P.Multi-sensor management for information fusion:issues and approaches[J].Information Fusion,2002,3(2):163-186.
[3] Lai P L,Fyfe C.Kernel and nonlinear canonical correlation analysis[J].International Journal of Neural Systems,2012,10(5):365-377.
[4] Shon A,Grochow K,Hertzmann A,et al.Learning shared latent structure for image synthesis and robotic imitation[C]//Advances in neural information processing systems.[s.l.]:[s.n.],2005:1233-1240.
[5] Li S Z,Zhu L,Zhang Z Q,et al.Statistical learning of multi-view face detection[C]//European conference on computer vision-part IV.[s.l.]:[s.n.],2002:67-81.
[6] Tang J,Hu X,Gao H,et al.Unsupervised feature selection for multi-view data in social media[C]//SDM.[s.l.]:[s.n.],2013:270-278.
[7] Jing X,Liu Q,Lan C,et al.Holistic orthogonal analysis of discriminant transforms for color face recognition[C]//17th IEEE international conference on image processing.[s.l.]:IEEE,2010:3841-3844.
[8] 趙振勇,王保華,王 力,等.人臉圖像的特征提取[J].計算機技術與發展,2007,17(5):221-224.
[9] Belhumeur P N,Hespanha J P,Kriegman D J.Eigenfaces vs. fisherfaces:recognition using class specific linear projection[J].Pattern Analysis and Machine Intelligence,1997,19(7):711-720.
[10] Yang M H.Kernel eigenfaces vs. kernel fisherfaces:face recognition using kernel methods[C]//Proceeding of international conference on automatic face and gesture recognition.[s.l.]:[s.n.],2002:215.
[11] Mika S,Ratsch G,Weston J,et al.Fisher discriminant analysis with kernels[C]//Proceeding of IEEE international workshop on neural networks for signal processing IX.[s.l.]:IEEE,1999:41-48.
[12] Martinez A M,Benavente R.The AR face database[EB/OL].2009.http://cobweb.ecn.Purdue.edu/~aleix/aleix_face_DB.html.
[13] Nilsback M E,Zisserman A.A visual vocabulary for flower classification[C]//IEEE computer society conference on computer vision and pattern recognition.[s.l.]:IEEE,2006:1447-1454.
[14] Qian G.Similarity between Euclidean and cosine angle distance for nearest neighbor queries[C]//ACM symposium on applied computing.[s.l.]:ACM,2004:1232-1237.
Image Recognition Based on Multi-view Kernel Discriminant Analysis
ZHU Zhen-yu,JING Xiao-yuan
(College of Automation,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
Multi-view learning has caused wide public concern of researchers in recent years.In multi-view learning,data is mainly from many views (or feature set).The biggest advantage of multi-view data is that it can extract complementary information from different views.The traditional multi-view learning method learns classifiers in different views independently.These methods utilize the complementary information between views,but ignore the redundant information between different views.In order to solve the above problem,a recognition method based on multi view kernel discriminant analysis is proposed.It uses kernel discriminant analysis to extract projection matrix from each view and makes the transformations orthogonal,so that it can extract both complementary and non-redundant features.Experimental results on public database like AR and Oxford Flowers17 verify the effectiveness of the algorithm proposed.
multi-view learning;complementary information;redundant features;kernel discriminant analysis
2016-02-01
2016-06-09
時間:2016-11-21
國家自然科學基金資助項目(61272273)
朱震宇(1989-),男,研究生,研究方向為生物特征識別;荊曉遠,教授,博士生導師,研究方向為模式識別、圖像與信號處理、信息安全、機器學習與數據挖掘。
http://www.cnki.net/kcms/detail/61.1450.TP.20161121.1641.028.html
TP181
A
1673-629X(2016)12-0092-04
10.3969/j.issn.1673-629X.2016.12.020