王麗娟,李可愛,郝志峰,蔡瑞初,尹 明
(廣東工業大學 a.計算機學院; b.自動化學院,廣州 510006)
線性回歸模型通過擬合一個線性映射模擬自變量和因變量之間的關系,是機器學習中的重要技術之一[1],然而其對噪聲數據缺乏魯棒性并且在處理高維數據時存在維度災難問題。為此,研究者通常假設數據中的噪聲是高斯分布的,以提升模型的魯棒性,通過維度約減方法如PCA算法,選擇最相關的特征,刪除冗余特征,以解決維度災難問題。但是,現實中的訓練數據經常會遭到一些任意、無限制甚至來自非特定分布的噪聲破壞,從而使這些模型的評估結果嚴重偏離期望值,導致模型不能正確地反映數據與目標之間的映射關系[2]。
為了解決噪聲或異常值的影響,研究者提出魯棒回歸模型,例如基于最小平方和魯棒性模型[3-4]以及統計領域中使用最小平方中值[5]模型。但在處理高維數據(如人臉圖像)時,上述模型的計算復雜度高,導致實際應用非常耗時。此外,基于特征之間相關性的線性回歸,等價于學習LDA投影子空間中的正則化回歸,可以減少正態分布噪聲和異常值[6]。然而,這些模型不能有效處理主子空間之外的大量噪聲或異常值。研究者發現基于低秩正則化的優化算法對數據的噪聲或異常值具有較好的魯棒性,這些算法通常假設高維數據位于多個低維子空間的并集中[7-9],通過求解整個數據矩陣的最小秩問題,可以有效地恢復位于幾個低維子空間的干凈數據[10-12]。這些子空間學習的方法被成功地應用在人臉圖像數據集上[13-14],然而其通常以無監督的方式去除變量中的噪聲和異常值,缺乏與標簽信息的相關性。
本文構建一個基于低秩表示的魯棒回歸模型(Low Rank Representation-based Robust Regression Model,LR-RRM),通過求解原始數據的自表達系數矩陣的秩最小化問題和干凈數據回歸模型的學習問題,去除噪聲或異常值,獲得魯棒的回歸性能。LR-RRM模型以監督學習的方式從高維數據中恢復潛在的子空間結構,同時在重構的干凈數據中學習有效的回歸模型參數。


s.t.X=XZ+E
(1)

由于低秩約束和l0范數都是非凸的,因此直接求解式(1)最優解比較困難[16]。根據凸優化理論,將低秩約束和l0范數分別凸松弛為核范數和l1范數,則式(1)可改寫為:
s.t.X=XZ+E
(2)
其中,‖·‖1是l1范數,表示非零元素之和,‖·‖*是核范數,矩陣的核范數表示該矩陣的奇異值之和。
值得注意的是,LR-RRM模型不是通過LRR得到干凈數據,然后再將該干凈數據應用于線性回歸分類,而是以有監督的方式進行干凈數據與噪聲數據分離,使得重構的干凈數據XZ可以保留與標簽Y有最大相關性的X的子空間。因此,噪聲或異常值部分E能夠有效地對數據X內的誤差建模,與標簽Y沒有直接的相關性。而且,恢復的訓練數據和測試數據都對噪聲或異常值具有魯棒性,有利于區分不同類別的數據點。

s.t.X=XZ+E,Z=W,Z=R
(3)
則增廣拉格朗日函數定義如式(4)所示。
β‖E‖1+
(4)

(5)
對于矩陣Z、T、E、W、R的求解,通過固定4個變量,更新另一個,以保證子問題的求解是凸函數。即式(5)通過下面的子問題進行迭代求解:
1)固定Z、E、W、R,更新T的子問題如式(6)所示。
(6)
可以得到封閉解為:
T*=(YWΤXΤ)(XWWΤXΤ)-1
(7)
2)固定Z、T、E、R,更新W的子問題如式(8)所示。
(8)
可以得到封閉解為:
W*=[(TX)ΤTX+μI]-1((TX)ΤY+μZ+J2)
(9)
3)固定Z、T、E、W,更新R的子問題如式(10)所示。
(10)
可以通過奇異值分解[18]得到封閉解如式(11)所示。
(11)
其中,奇異值閾值D定義為:
4)固定Z、T、W、R,更新E的子問題如式(12)所示。
(12)
使用軟閾值進行求解,得到封閉解為:
(13)
5)固定T、E、W、R,更新Z的子問題如式(14)所示。
(14)
可以得到封閉解為:
Z*=(XΤX+2I)-1·
(15)
6)更新拉格朗日乘子J1、J2、J3和懲罰因子μ如式(16)所示。
(16)

輸入數據矩陣X,one-hot標簽矩陣Y,參數α、β
輸出Z,T
初始化Z,W,R,T,t=0,ε=10-8
while not converged or t t=t+1 固定其他變量,使用式(7)更新T 固定其他變量,使用式(9)更新W 固定其他變量,使用式(11)更新R 固定其他變量,使用式(13)更新E 固定其他變量,使用式(15)更新Z 固定其他變量,使用式(16)更新J1,J2,J3和μ 收斂條件: ‖X-XZ-E‖<ε ‖Z-W‖<ε ‖Z-R‖<ε end while return Z,T s.t.Xte=Xclean-trZte+Ete (17) 輸入Xte,干凈的訓練數據Xclean-tr和參數γ 輸出Zte 初始化Zte,Ete,P,t=0,ε=10-8 while not converged or t t = t + 1 固定Zte,Ete,更新P: 固定Ete,P,更新Zte: 固定Zte,P,更新Ete: 更新拉格朗日乘子J4,J5和懲罰因子μ: 收斂條件: ‖Xte-Xclean-trZte-Ete‖<ε ‖Zte-P‖<ε end while return Zte 求解式(17)后,使用Yte=TXclean-trZte計算測試數據Xte的分類輸出。 為了驗證LR-RRM模型的有效性和準確性,本文在4個公開的高維人臉數據集上進行了3組對比實驗,對比模型分別為標準線性回歸(LR)、魯棒主成分分析+線性回歸(RPCA-LR)以及低秩表示+線性回歸(LRR-LR)。使用分類準確率衡量所有模型的泛化能力,其中:標準LR模型直接從原始含有噪聲的數據X中學習回歸矩陣T;RPCA-LR和LRR-LR模型分別對原始數據進行RPCA和LRR處理,分離出原始數據的干凈部分和噪聲部分,然后使用標準LR學習干凈數據的回歸模型。為保證實驗結果的公平性,本文使用五折交叉驗證,將每個數據集平均分成5份,依次選取其中一份數據樣本作為測試集,剩余部分作為訓練集,最后取5次實驗結果的平均值作為最終結果。 為了比較LR-RRM模型和其他對比模型的魯棒性,分別在Extend YaleB、AR、ORL和PIE數據集的每個樣本上人工添加隨機的椒鹽噪聲,其概率密度分別設定為5%、10%、15%和20%。 Extend YaleB數據集包含38個人不同程度陰影破壞的正面對齊人臉圖像,每個人有64張圖像,且都被裁剪為192像素×168像素[19]。本文實驗使用了前10個人的人臉圖像,并將圖像下采樣為48像素×42像素。該數據集部分的原始人臉圖像、隨機添加噪聲的人臉圖像以及LR-RRM模型恢復的結果如圖1所示。可以看出,隨著噪聲密度的增大,恢復干凈數據更加困難。但當人臉圖像含有20%的噪聲時,LR-RRM算法依然可以恢復出人臉圖像。 圖1 LR-RRM模型在Extend YaleB數據集上恢復的人臉圖像 Fig.1 Face image restored by LR-RRM model on Extend YaleB dataset AR人臉數據集包含超過4 000張彩色的人臉圖像,包括70名男性和56名女性[20]。這些圖像由不同光照變化、表情和面部偽裝的正面圖像組成。本文實驗從50名男性和50名女性中隨機選擇每個人具有光照變化和表情變化的14張圖像,并轉換為灰度圖像下采樣到55像素×40像素。與Extend YaleB數據集相比,AR數據集有更豐富的面部表情變化,如圖2所示,面部表情笑或者不笑、閉眼或者睜眼等。ORL數據集由劍橋大學AT&T實驗室收集,包括40個人的400張正面和側面的人臉圖像[14]。如圖3所示,不同的人臉圖像之間存在姿勢、光照和面部表情的差異,本文實驗將每個圖像下采樣到32像素×32像素。PIE數據集由美國卡內基梅隆大學創建,包括41 368張圖像,其中有不同姿勢、光照和表情變化的差異,部分人臉圖像如圖4所示。本文實驗選用每人30張圖像,并將其下采樣到64像素×64像素。 圖2 AR數據集人臉圖像 圖3 ORL數據集人臉圖像 圖4 PIE數據集人臉圖像 在參數選擇過程中,對原始的4個公開數據集,測試不同參數對模型的影響。本文LR-RRM模型含有α和β2個參數,其在4個標準數據集上對LR-RRM分類準確率的影響如圖5所示。當保持β值不變時,α在一定的范圍內變化,LR-RRM模型具有一定的穩定性。表1給出使用五折交叉驗證得到實驗中4個數據集的LR-RRM最佳參數。 圖5 不同數據集中的參數選擇 表1 4個公開數據集中參數的取值 Table 1 Values of parameters in 4 public datasets 數據集αβExtended YaleB0.102.5AR0.044.0ORL3.000.3PIE0.104.2 表2~表5給出了在4個數據集中對比實驗結果。 表2 在Extend YaleB數據集上的分類準確率 Table 2Classification accuracy on the Extend YaleB dataset% 圖片LRRPCA-LRLRR-LRLR-RRM原始圖片96.1297.4382.5498.95圖片+5%隨機噪聲92.4393.6778.7395.83圖片+10%隨機噪聲86.5587.7162.3689.56圖片+15%隨機噪聲80.3082.4252.2583.87圖片+20%隨機噪聲73.1074.1326.8476.31 表3 在AR數據集上的分類準確率 Table 3 Classification accuracy on the AR dataset% 圖片LRRPCA-LRLRR-LRLR-RRM原始圖片93.3797.1795.4898.72圖片+5%隨機噪聲82.6487.7491.2392.56圖片+10%隨機噪聲62.4565.3677.8278.33圖片+15%隨機噪聲45.3247.1053.9361.20圖片+20%隨機噪聲36.2535.5133.8156.11 表4 在ORL數據集上的分類準確率 Table 4 Classification accuracy on the ORL dataset% 算法LRRPCA-LRLRR-LRLR-RRM原始圖片90.7485.4692.7294.51圖片+5%隨機噪聲81.3578.3584.1386.72圖片+10%隨機噪聲63.5369.1662.9770.43圖片+15%隨機噪聲50.7448.5238.6459.34圖片+20%隨機噪聲36.3833.7122.3341.36 表5 在PIE數據集上的分類準確率Table 5 Classification accuracy on the PIE dataset % 當在原始數據集上存在較少的噪聲時,4種模型均可獲得相對較好的性能。隨著在原始數據集上添加不同密度的隨機噪聲,對比模型在不同的數據集上的分類準確率下降較快,而LR-RRM模型仍然可以保持相對較好的分類準確率。因此,LR-RRM模型對噪聲的魯棒性更好。AR數據集中的圖片擁有更豐富的面部表情變化,在該數據集上進行測試時,LR-RRM分類準確率優于其他對比模型。在表3中,特別是對于含有20%噪聲的AR圖片,其他3種模型分類準確率只有35%左右,而LR-RRM模型的分類準確率為56.11%,顯示其對噪聲和異常值的高維數據更魯棒。從表2~表5可以得出以下結論: 1)與LR、RPCA-LR和LRR-LR模型相比,LR-RRM在4種原始數據集以及添加隨機噪聲后的數據集上更具有魯棒性。這主要是由于LR-RRM模型以監督學習的方式從高維數據中恢復潛在的子空間結構,同時在重構的干凈數據中學習有效的回歸模型參數,獲得魯棒的回歸性能。 2)LR-RRM對于高維噪聲和異常數據集更魯棒。這是由于LR-RRM模型是以有監督的方式進行干凈數據與噪聲數據的分離,使得重構的干凈數據可以保留與標簽信息有最大相關性的低維子空間,去除無關的噪聲和異常值。 從大量實驗結果可以得出,LR-RRM模型可以更好地處理含有隨機光照變化和像素損壞的高維人臉圖像。 本文構建一個LR-RRM模型,以監督學習的方式解決高維數據的低秩子空間表示問題。LR-RRM通過求解秩最小化問題和學習回歸模型,去除噪聲或異常值。在低秩的約束下,該模型能夠從含有噪聲或異常值的高維數據中恢復干凈的數據,并能有效地學習回歸模型參數。實驗結果表明,LR-RRM模型可以較好地處理含有隨機光照變化和像素損壞的高維人臉圖像。但是,該模型的算法時間復雜度較高,下一步將重點研究如何快速優化模型性能。2 分類器



3 實驗與結果分析
3.1 實驗數據




3.2 參數選擇



3.3 算法復雜度分析

3.4 實驗結果與分析




4 結束語