蔡雨虹,吳小俊
江南大學 物聯網工程學院,江蘇 無錫 214122
面對圖像特征中普遍存在的維數爆炸和信息冗余問題,學習一個判別緊湊的數據表示在模式識別中是一個非常關鍵的問題。已經得到廣泛應用的稀疏表示(sparse representation-based classification,SRC)[1],其核心思想是樣本能夠被同類樣本線性表示。通過應用l1范數約束,將訓練數據視為過完備字典,能夠有效地得到數據的稀疏系數來作為數據表示。除了基于表示學習的諸多方法[1-2],各種基于投影的特征提取方法也能得到良好的數據表示。其中最知名的方法之一就是主成分分析(principal component analysis,PCA),該方法尋找一個能保持最主要特征的投影。另外局部保持投影(locality preserving projection,LPP)[3]和鄰域保留投影(neighborhood preserving embedding,NPE)[4]也是非常常用的方法。
上述提到的方法都屬于無監督學習,而絕大多數情況下標簽信息可以讓得到的數據表示更適合進行分類。在監督學習中,最小二乘回歸(least square regression,LSR)是一個簡單且有效的方法,其核心思想在于學習從原始數據到標簽空間的線性投影,最終得到原始數據的回歸向量作為其在標簽空間的數據表示。在模式識別領域出于LSR在計算量和解釋性上的優勢,已經提出許多基于LSR的方法。
原始的LSR 直接學習從數據到嚴格的0-1 標簽矩陣的線性投影。Xiang等提出了以ε-拖動為基礎的判別最小乘回歸(discriminative least squares regression,DLSR)[5]。其后,提出了很多基于DLSR的算法。分組重定向最小二乘回歸(groupwise retargeted least-squares regression,GReLSR)[6]約束同類樣本回歸目標在被拖動的同時擁有類似的偏移量。通過引入流形學習,正則化標簽松弛(regularized label relaxation,RLR)[7]模型構建基于流形的近鄰圖,與由ε-拖動得到的松弛標簽共同約束線性投影的學習,從而使得到的投影結果可以保持數據的局部幾何關系。雙重松弛回歸(double relaxed regression,DRR)[8]中指出了單個回歸矩陣可能無法提供靈活的投影,提出使用兩個投影矩陣來完成圖正則項。
上述方法的共同點在于都是基于ε-拖動技術,實際上ε-拖動技術雖然可以增大不同類別間的差異,但是也會對同類別間的相似性造成破壞[9]。通過引入約束項,這種情況可能得到緩解。比如GReLSR中約束同類擁有相同的偏移量,RLR 中引入流形約束使同類樣本回歸目標盡可能相似。但是GReLSR并未實質上解決同類邊距增大的問題,而基于圖的方法則普遍使用固定的輸入圖,比如0-1加權以及熱核方法[7-8],這導致此類方法非常依賴于初始輸入圖的質量。
對于這個問題,實際上有許多基于子空間學習和字典學習的方法直接使用二元標簽矩陣來學習分類投影[10-11]。而這些方法實質上是在進行標簽空間投影之前,對原始數據進行初步編碼從而避免從高維數據到標簽空間的直接投影,以達到增強整體的分類效果的目的。Zhang 等人提出的局部約束的投影字典對學習(locality-constrained projective dictionary learning,LCPDL)[12],學習塊對角表示的同時學習溝通表示系數與標簽的魯棒判別分類器。為了將投影學習與探索標簽信息的任務結合,Meng 等人提出聯合優化子空間學習和分類問題的約束判別投影學習(constrained discriminative projection learning,CDPL)[13],其使用低秩約束學習魯棒的子空間以連接原始視覺特征和目標輸出。
結合這一觀察,本文提出了類內低秩的子空間學習方法(intra-class low-rank subspace learning,ICLRSL)。ICLRSL 在原始數據空間和標簽空間之間學習一個低秩的中間子空間,從而產生一個擁有高類內相關性的中間特征。因為最終的回歸目標是原始的二元標簽矩陣,其同類別間天然擁有高度的相關性,所以類內低秩的中間特征能夠作為數據與二元標簽之間的聯系,使分類效果得到改善。在數個公開人臉數據集上的實驗結果驗證了該算法的有效性。
作為一種被廣泛使用的數學工具,最小二乘回歸從給定的一組來自c類的訓練樣本X∈Rm×n及其對應的標簽,學習從原始數據空間到標簽空間的線性投影W∈Rc×m,其目標函數被定義為:

其中,H∈Rc×n是從樣本標簽得到的0-1 二元標簽矩陣,其中1 的位置標示了對應樣本的類別。為了避免直接擬合嚴格的0-1 標簽矩陣并使其更符合分類任務的要求,DLSR[5]引入ε-拖動技術來完成對標簽矩陣的松弛,其模型如下:

其中,⊙是哈達馬積運算符,而M是一個非負的拖動量矩陣。B是由1 和-1 構成的常量矩陣,標明了標簽矩陣的拖動方向,其被定義為:

從該定義可以看出,DLSR將不同類別的回歸目標沿著相反的方向移動,從而使不同類別回歸目標邊距大于1。但是,這種對標簽矩陣的拖動也增大了同類樣本回歸目標之間的距離,即無法保證同類回歸目標的相似性。
基于LSR的子空間學習方法往往不考慮對標簽的松弛,而是對原始樣本數據進行進一步的編碼。在對原始樣本數據編碼的過程中,將冗余或者噪聲剔除從而得到判別的子空間特征。與此同時此類方法學習分類器,來獲得從特征空間到標簽空間的投影。
魯棒潛在子空間學習(robust latent subspace learning,RLSL)[11]從原始樣本中學習一個潛在子空間投影并且在此過程中分離出稀疏噪聲。在進行潛在子空間學習的同時,學習從特征空間到標簽空間的分類器,其目標函數被定義為:

其中,Q∈Rm×d為潛在子空間的投影矩陣,其將原始數據投影到潛在子空間,從而得到干凈的數據表示QTX。W∈Rc×d為分類器,其將干凈特征QTX投影到標簽空間。其潛在子空間可視為連接原始數據空間和標簽空間的橋梁,因此在一定程度上提高對樣本的分類能力。
類似的,CDPL[13]中也嘗試學習子空間來溝通原始數據與標簽信息,與RLSL相比,CDPL引入了額外的子空間約束來增強子空間的魯棒性:

其中,施加在Z∈Rn×n上的低秩約束使學習到的子空間同時關注全局結構,而稀疏約束和局部性約束則將局部結構也納入其中。但是,這些子空間學習方法都沒有關注作為回歸目標的標簽矩陣天然所擁有的結構,從獲取判別子空間特征的角度,這種天然結構性可能對整體的分類效果有利。
鑒于標簽拖動技術在增大異類差異的同時也會增大同類回歸目標的差異,因此本文使用子空間學習的形式并進一步提出類內低秩子空間學習算法?;谧涌臻g學習的LSR可以視為在原始樣本空間和標簽空間之間引入了一個中間子空間,這在一定程度上降低了單個轉換矩陣在投影上的壓力,其一般模型為:

值得注意的是,對于每一類樣本都擁有相同的回歸目標,比如對于第i類都有回歸目標[0,…,1,…,0],其中第i個位置為1其余為0。這意味著在同一類別當中,由標簽矩陣H給出的樣本回歸目標之間具有很高的相關性,換句話說,對應的標簽矩陣是低秩的。這是作為回歸目標的標簽矩陣自身所具備的一個很重要的屬性?;谶@一觀察,本文所提出的類內低秩子空間學習ICLRSL算法模型如下:

其中,Q和W分別是原始數據空間到中間特征子空間、特征子空間到標簽子空間的變換矩陣,λ1、λ2和λ3為正則化參數。
模型(7)中加在子空間投影矩陣Q的約束||Q||2,1,有利于模型關注更重要的特征。在實際應用中,由于原始樣本數據中往往包含大量冗余和噪聲信息,許多特征對于分類是無益的,因此稀疏性能給特征提取帶來不錯的收益。根據已有的工作[5,15],l2,1范數良好的行稀疏特性能夠為特征選擇提供更好的可解釋性。通過l2,1范數約束,模型(7)可以自適應地將大投影權重分配給更重要的特征,即具備類內低秩性質的特征。
本文使用增廣拉格朗日乘子法(alternating direction multipliers method,ADMM)[16]來解決式(7)的優化問題。為便于求解,定義R=WQT和A=QTX,則式(7)被改寫為:

根據ADMM 算法,式(10)中變量可以被交替更新,即更新一個變量的時候固定其他變量。直到回歸條件滿足時迭代停止。每次更新變量時迭代過程如下:
更新變量R,此時固定其他變量,將其視為常量,則式(10)中與變量R相關的優化問題為:


更新變量W,其他變量可視為常量,則式(10)中與變量W相關的優化問題為:

同樣設置上式對W的偏導為0,可得到變量W的解析解為:

更新變量Q,其他變量可視為常量,因此式(10)與變量Q相關的優化問題為:

關于Q的優化問題是一個標準的l2,1范數最小化問題[17],通過設置式(15)目標函數對Q的偏導為0,可以得到:

上式可通過奇異值軟閾值算子[18]對變量Ai進行更新。
更新拉格朗日乘子T1、T2和參數μ如下:

優化算法的詳細流程如下:
算法1用ADMM求解ICLRSL算法優化問題

通過優化算法得到轉換矩陣R后,可直接利用R來分別得到訓練樣本和測試樣本在標簽空間的投影。給定測試樣本y,可得到對應的回歸向量為Ry。隨后,結合訓練樣本的投影RX,本文應用最近鄰(nearest neighbor,NN)分類器來完成對測試樣本標簽的預測:

為了驗證所提出算法的有效性,本文分別在AR[19]、Extended Yale B[20-21]、CMU PIE[22]、FRGC[23]四個公開人臉數據集上進行了對比實驗。實驗中本文將所提出的算法與DLSR[5]、ReLSR(retargeted least-squares regression)[24]、GReLSR[6]、RLR[7]、DRR[8]、RLSL[11]、標簽一致KSVD(label consistent KSVD,LC-KSVD)[25]、LCPDL[12]和CDPL[13]進行對比,其中DLSR、ReLSR、GReLSR、RLR 和DRR 是基于標簽松弛技術的方法,RLR和DRR采用了熱核方法的加權圖進行約束。而在RLSL、LC-KSVD 和LCPDL 三個方法中使用的是原始二元標簽矩陣。
實驗中所有樣本數據均被歸一化到[0,1]。對于實驗中涉及參數選擇問題,所有方法均使用交叉驗證確定最佳數值組合。實驗中訓練樣本和測試樣本的劃分,除了FRGC 數據集,均采用隨機從每類選取數個樣本作為訓練樣本其余作為測試樣本的方式。對于FRGC數據集,直接使用劃定的訓練集和測試集來進行實驗。每個參與比較的方法都重復10次取平均值作為最終結果。本文所提出方法的MATLAB代碼可以從https://github.com/cymir/ICLRSL下載。
本文實驗均在CPU為Intel core i5-4460@3.20 GHz,內存為12.0 GB,操作系統為Windows 7 64 bit,Matlab版本為Matlab R2015a環境下進行。
(1)AR 數據集[19]。原始的AR 數據集包含4 000多張彩色圖像,分別對應126 個人的面部(70 位男性和56 位女性),并且包含不同的表情、光照條件和遮擋物(墨鏡和圍巾)。在本文實驗中,選取了由50 位女性和50 位男性受試者的2 600 張圖像組成的子集。AR 數據集部分示例圖像如圖1(a)所示。對于每個圖像,使用隨機投影方法進行降維,最后得到的特征維數為540維。對于這個數據集,每類隨機選取了4、6、8、10 個樣本作為訓練樣本,剩余樣本則作為測試樣本。本文比較了所提出的方法以及上述提到的算法在此數據集上的識別率,最后得到的實驗結果如表1所示。

表1 各算法在AR數據集上的識別率Table 1 Classification accuracy of different algorithms on AR dataset 單位:%

圖1 4個數據集部分樣本示例Fig.1 Some samples in 4 datasets
(2)Extended Yale B 數據集[20-21]。Extended Yale B數據集采集了38 名人員的2 414 張正面彩色圖像。每一個實驗對象最多有64 張圖像,最少有59 張圖像。所有圖像大小都被調整為32×32。實驗環境嚴格控制不同的光照條件,部分示例圖像如圖1(b)所示。每類隨機選取了15、20、25、30 個樣本作為訓練樣本,其余樣本則作為測試樣本。在此數據集上的實驗結果如表2所示。

表2 各算法在Extended Yale B數據集上的識別率Table 2 Classification accuracy of different algorithms on Extended Yale B dataset 單位:%
(3)CMU PIE 數據集[22]。CMU PIE 數據集包含68 個人的41 368 張圖像,包含13 種不同姿態、43 種不同光照條件和4種不同表情。實驗中選取了CMU PIE在模式識別當中被廣泛使用的一個子集,其中包含5 個近似正面的姿勢,以及全部的光照情況和表情。這個子集包含11 554個圖像,對于每個人有170張圖像,所有圖像都大小被規格化為32×32。CMU PIE 部分示例圖像如圖1(c)所示。對每個人隨機選擇10、15、20、25個圖像作為訓練樣本,而剩余的其他圖像作為測試集。在這個數據集上的分類結果見表3。

表3 各算法在CMU PIE數據集上的識別率Table 3 Classification accuracy of different algorithms on CMU PIE dataset 單位:%
(4)FRGC 數據集[23]。實驗中使用的子集包含220 個人的4 400 張圖像,對于每個人各有10 張圖像被分別劃分為訓練集和測試集。該子集包括一些分辨率較低、模糊和嚴重照明變化的圖像,這些圖像是在不同的極端條件下收集的,部分示例圖像如圖1(d)所示。實驗中將每個圖像大小從原始高維圖像調整為32×32,并直接使用數據集預先劃分的訓練集和測試集進行實驗。最后的識別率結果如表4所示。

表4 各算法在FRGC數據集上的識別率Table 4 Classification accuracy of different algorithms on FRGC dataset 單位:%
從上述表格列出的實驗結果可以看出,在不同的人臉數據集上,本文所提出的ICLRSL方法都能得到最佳的識別效果。并且可以觀察到,相比使用松弛標簽的DLSR 方法,以其為基礎提出的GReLSR、RLR 和DRR 在AR 和FRGC 數據集上帶來了比較明顯的識別率提升,這說明在其基礎上做出的類內相似性約束在某些情況下能夠抑制ε-拖動技術帶來的同類回歸目標的差異。但是也可以觀察到在CMU PIE 上,部分情況下,識別率的提升很小甚至沒有提升。而本文方法在所有數據集上都比采用ε-拖動技術的DLSR有更高的效果。
除了上述可以觀察到的情況以外,還可以從實驗結果中注意到,基于原始二元標簽矩陣的方法RLSL 和LCPDL 在部分情況下擁有超越標簽松弛方法的分類效果。這說明對數據進行初步編碼確實能夠在一定程度上提高整體性能。另外,也可以注意到在部分數據集上,LC-KSVD、LCDPL 和CDPL擁有相比之下較差的分類結果,這可能是由于對于初步編碼施加的約束在此數據集上并不合適而導致編碼丟失了判別性?;谝陨嫌懻?,本文所提出的ICLRSL能夠在數據集上取得最佳的效果,這也說明子空間的類內低秩約束能夠取得判別的對數據的初步表示。
另外,實驗中對不同訓練集大小的情況也進行了對比實驗,從實驗結果可以很直觀地看出,隨著訓練集的增大,所有方法的識別率都有所上升。而在不同的訓練集大小下,ICLRSL算法始終可以得到不錯的結果。
除了模型中λ1、λ2和λ3這3個參數以外,子空間維數d同樣也會對實驗結果產生影響。從文獻[11]中可知,一般情況下,最優子空間維數通常位于類別數c附近。為了研究維數所帶來的影響,圍繞d的取值進行了實驗。圖2給出了在涉及的不同數據集上,在不同子空間維數取值的情況下,識別率的變化情況。
從圖2 可以觀察到,在子空間維數d>c之后,識別率基本上達到了一個穩定值。此時再增大子空間維數,識別率不再發生大幅變動,而是在穩定值附近輕微地浮動。因此在本文的實驗中,為了實驗結果的穩定將子空間維數d設置為類別數2c。

圖2 不同子空間維數下的識別率Fig.2 Classification accuracies versus dimensionality of subspace
為了研究所提出的ICLRSL 算法中采用的約束項對模型的影響,本節對其進行了消融實驗。算法涉及的約束項主要包括類內低秩約束項自適應特征選擇約束項||Q||2,1。
對于類內低秩約束項,其目的是使模型在進行標簽空間投影前學習一個類內低秩的中間特征。為了驗證其效果,在ICLRSL 模型的基礎上移除該項,得到以下模型:

對于自適應特征選擇項,其目的是希望利用稀疏約束以應對冗余信息。結合之前的低秩約束,達到從復雜數據中選擇類內低秩的特征。為了驗證其效果,在模型中移除該項,則有如下模型:

同時,為了研究原始線性回歸和引入子空間學習的作用,模型(1)和模型(5)也被用于實驗對比。
消融實驗在本文涉及的4個人臉數據集上進行,對于AR、Extended Yale B 和CMU PIE 數據集分別選取訓練集大小為10、30、25 個樣本,對于FRGC 數據集則與之前相同,最后的實驗結果如表5所示。

表5 消融實驗結果Table 5 Experimental results of ablation study 單位:%
從表5 可以看出,在所有數據集上,本文所提出的方法都能取得最好的結果。同時可以注意到模型(21)和模型(22)所代表的是所提出方法的兩個不同的約束項,其得到的實驗結果表示這兩個約束項單獨使用時在不同數據集上各有優劣,并且都要略差于所提出的同時使用兩種約束項的ICLRSL 算法。這是因為類內低秩約束項在一定程度上指明了特征提取的目標,也就是自適應特征選擇項需要分配更大的重要特征。而自適應特征選擇項則從冗余信息中提取出相對數據全體相對稀疏的重要特征。這兩個約束項可以說是缺一不可的。
模型(5)代表的是兩種約束項都不使用的情況,與只使用一種約束項的情況在不同數據集上相比也是各有勝負,這從另外一個角度說明了兩個約束項共同存在的必要性。因為類內低秩的特征相對于全體特征而言是稀疏的,只使用任何一項約束都可能使模型提取到不夠判別的特征。
另外,對于原始線性回歸和引入子空間學習的模型(5),從實驗結果可以看到,在AR、Extended Yale B和FRGC數據集上,后者都擁有更高的識別效果,這在一定程度上說明使用兩個投影矩陣相比一個的情況可能得到更靈活的投影和更判別的數據表示。而在Extended Yale B數據集上,原始線性回歸的識別效果要比模型(5)稍好,考慮到此數據集相較而言更為簡單,這意味著直接使用單個投影矩陣也能獲得很好的數據表示。在另外3 個更復雜數據集上的結果也從側面說明了這一點。
本文提出了一種類內低秩的子空間學習方法ICLRSL。不同于LSR 直接學習從原始數據空間到標簽空間的線性投影,ICLRSL學習一個類內低秩的子空間作為原始數據空間到標簽之間的變換從而提升整體的分類效果。中間子空間的引入,使得整個投影過程中會首先得到一個類內低秩的中間特征,這與最終標簽的類內高度相關性是一致的。并且,l2,1自適應特征選擇約束的引入使得模型能從冗余信息中分配給重要特征更大的權重。因此,本文提出的ICLRSL 通過子空間學習和特征選擇可以最后得到判別的回歸向量作為新的數據表示。本文在四個公開數據集上驗證了所提出方法的有效性。