李靜,陳秀宏
(江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無(wú)錫 214000)
特征提取(或降維)[1-3]在計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域起著非常重要的作用,它通過(guò)把原始數(shù)據(jù)投影到低維空間而得到最具代表性的特征,其中主成分分析(PCA)[4]和線性判別分析(LDA)[5]是兩個(gè)最著名的算法,但是它們很難確定數(shù)據(jù)的流形結(jié)構(gòu)。
為獲得數(shù)據(jù)的局部結(jié)構(gòu),出現(xiàn)了許多基于圖的降維算法[6-12],包括局部保持投影(LPP)[6]、邊緣判別分析(MFA)[7]和局部判別嵌入(LDE)[8]等。LPP是一種無(wú)監(jiān)督學(xué)習(xí)算法,它忽視了數(shù)據(jù)的判別結(jié)構(gòu);而MFA和LDE則是有監(jiān)督學(xué)習(xí),它們?cè)噲D找到一個(gè)投影子空間,在該子空間中同類樣本點(diǎn)相互靠近,而不同類樣本點(diǎn)相互分離,因此它們不僅考慮了數(shù)據(jù)的鄰域結(jié)構(gòu)同時(shí)也考慮了數(shù)據(jù)的判別結(jié)構(gòu)。在基于圖的流形學(xué)習(xí)中,關(guān)鍵是如何通過(guò)構(gòu)造圖來(lái)獲得數(shù)據(jù)的本質(zhì)結(jié)構(gòu)。圖的構(gòu)造通常包括兩步:第一步是決定樣本間的近鄰關(guān)系,第二步是為每對(duì)樣本設(shè)置權(quán)重。通常,可通過(guò)近鄰和-球鄰域確定樣本的近鄰,但此類算法均依賴于參數(shù)或的選擇。
基于協(xié)同表示的分類(CRC)[13]近年來(lái)得到了廣泛而深入的研究,它使用所有的訓(xùn)練樣本來(lái)協(xié)同表示測(cè)試樣本,其表示系數(shù)描述了相應(yīng)訓(xùn)練樣本對(duì)測(cè)試樣本的貢獻(xiàn),再依據(jù)殘差對(duì)樣本進(jìn)行分類。Yuan等[14]提出了基于分類的協(xié)同競(jìng)爭(zhēng)表示(CCRC),在計(jì)算各訓(xùn)練樣本表示系數(shù)的同時(shí)確定每類訓(xùn)練樣本的競(jìng)爭(zhēng)能力,從而實(shí)現(xiàn)對(duì)樣本的分類,該算法能很好地權(quán)衡訓(xùn)練樣本的協(xié)同表示和競(jìng)爭(zhēng)表示之間的關(guān)系。Huang等[15]提出了基于協(xié)同表示的局部判別投影(CRLDP),它利用協(xié)同表示獲得表示系數(shù)構(gòu)造樣本的關(guān)系圖,克服了近鄰參數(shù)設(shè)置難的問(wèn)題。Yang等[16]給出的基于協(xié)同表示的投影(CRP)是通過(guò)L2范數(shù)最小化問(wèn)題求表示系數(shù),但是CRP是無(wú)監(jiān)督的。為了充分地利用標(biāo)簽信息來(lái)提高分類性能,Hua等[17]又提出了基于協(xié)同表示重構(gòu)的投影(CRRP),雖然該算法是有監(jiān)督的,但是它僅使用了全局信息而忽略了各類別之間的競(jìng)爭(zhēng)性。
在以上基于CRC的學(xué)習(xí)算法中,表示系數(shù)有正有負(fù),其中正表示系數(shù)描述了訓(xùn)練樣本對(duì)測(cè)試樣本的正面作用,對(duì)重構(gòu)樣本呈正相關(guān)性,而負(fù)系數(shù)則起著負(fù)面作用,對(duì)重構(gòu)樣本呈負(fù)相關(guān)性。由于正表示系數(shù)可以提取樣本的主要特征,且具有一定的判別能力,故本文利用正表示系數(shù)來(lái)構(gòu)造類間圖和類內(nèi)圖,然后在考慮每類樣本的競(jìng)爭(zhēng)性以及樣本標(biāo)簽信息的基礎(chǔ)上,給出一種基于競(jìng)爭(zhēng)性協(xié)同表示的局部判別投影特征提取(CCRLDP)。該算法不僅考慮了樣本間的協(xié)同能力和每類樣本的競(jìng)爭(zhēng)性,還利用了樣本的類別信息,因此可在一定程度上提高識(shí)別效率。
CRC(collaborative representation based classification)的目標(biāo)是使用所有的訓(xùn)練樣本來(lái)協(xié)同地表示測(cè)試樣本,其表示系數(shù)可通過(guò)以下優(yōu)化問(wèn)題求得:

在LDE(local discriminant embedding)中,分別表示同類樣本與異類樣本的鄰接圖,其中頂點(diǎn)集對(duì)應(yīng)訓(xùn)練樣本集,和分別表示同類樣本之間和異類樣本之間相似性的權(quán)矩陣,其定義分別為

為了能充分反映樣本重構(gòu)時(shí)不同類樣本的差異性,對(duì)每個(gè)訓(xùn)練樣本建立具有競(jìng)爭(zhēng)性的協(xié)同表示學(xué)習(xí)模型,即



式(10)和式(11)表示保留樣本間具有正相關(guān)性的系數(shù),以此來(lái)得到兩個(gè)稀疏矩陣和,這在一定程度上提高了算法的判別能力。由于樣本對(duì)重構(gòu)樣本所做的貢獻(xiàn)不同于樣本對(duì)重構(gòu)樣本所做的貢獻(xiàn),所以權(quán)矩陣和一般情況下是不對(duì)稱的。
根據(jù)類內(nèi)緊致圖和類間分離圖的權(quán)矩陣,定義類內(nèi)緊致性和類間分離性:

基于競(jìng)爭(zhēng)性協(xié)同表示的局部判別投影法的目標(biāo)就是找到一個(gè)最優(yōu)投影矩陣,使得投影后樣本的類間分離性極大而類內(nèi)緊致性極小,即優(yōu)化模型為

1)使用PCA降維;
2)求解式(7)或由式(8)得第 i 個(gè)訓(xùn)練樣本的表示系數(shù)向量,再進(jìn)行修正得到分量均非負(fù)的向量;
為了驗(yàn)證算法的性能,本節(jié)選擇數(shù)據(jù)集FERET、AR和Binalpha進(jìn)行實(shí)驗(yàn),并將本文CCRLDP算法與LPP、CRP、CRRP、CCRC和CRLDP等算法做對(duì)比,說(shuō)明該算法的有效性和優(yōu)越性。
FERET人臉數(shù)據(jù)集包含200個(gè)人的1 400幅人臉圖像(每人有7幅圖像),分別在不同光照、姿態(tài)和表情變化下采集的,每幅圖像的大小為32×32。實(shí)驗(yàn)中,對(duì)圖像加入密度為0.03的椒鹽噪聲。圖1為樣本集中部分人臉圖像。

圖1 加椒鹽噪聲FERET數(shù)據(jù)集部分樣本Fig. 1 Partial sample of the FERET data set with salt and pepper noise
AR人臉數(shù)據(jù)集包含126人的4 000多幅人臉圖像,它們分別是在不同光照、表情和部分遮擋情況下采集的。實(shí)驗(yàn)時(shí)隨機(jī)選取40人,每人20幅圖像,每幅圖像的大小為32×32,并對(duì)圖像分別加入大小為5×5、10×10和15×15的遮擋。圖2為樣本集中部分人臉圖像。

圖2 有不同大小遮擋的AR數(shù)據(jù)集部分樣本Fig. 2 Partial sample of the AR data set with different size occlusions
Binalpha數(shù)據(jù)集包含10個(gè)手寫(xiě)數(shù)字和26個(gè)手寫(xiě)英文字母,總共1 404個(gè)圖像,每幅圖像的大小為20×16,圖像中的像素值為1或0。圖3為樣本集的部分人臉圖像。

圖3 Binalpha數(shù)據(jù)集部分樣本Fig. 3 Partial sample of the Binalpha data set

表1 FERET數(shù)據(jù)集參數(shù)比較Table 1 Comparison of the FERET data set parameters%

表2 AR數(shù)據(jù)集參數(shù)比較Table 2 Comparison of the AR data set parameters%

表3 Binalpha數(shù)據(jù)集參數(shù)比較Table 3 Comparison of the Binalpha data set parameters%
從上述數(shù)據(jù)集中每類隨機(jī)選取L張圖像作為訓(xùn)練樣本,剩下的作為測(cè)試樣本。對(duì)FERET數(shù)據(jù)集,L取5;對(duì) AR數(shù)據(jù)集,L分別取5、8、10及 12;對(duì)Binalpha數(shù)據(jù)集,L分別取20、23及25。在LPP算法中近鄰值取。對(duì)于FERET和AR數(shù)據(jù)集,子空間維數(shù)范圍均設(shè)定為2~50;Binalpha數(shù)據(jù)集子空間維數(shù)范圍設(shè)定為1~20。由前面的參數(shù)分析知,本文算法參數(shù)和在FERET數(shù)據(jù)集上設(shè)置為和;在AR數(shù)據(jù)集上為和;在Binalpha數(shù)據(jù)集上為和。將每個(gè)實(shí)驗(yàn)重復(fù)進(jìn)行10次,并取平均值作為最終的識(shí)別率。為了提高計(jì)算效率,避免產(chǎn)生奇異問(wèn)題,對(duì)原始數(shù)據(jù)利用PCA法做預(yù)處理,PCA的貢獻(xiàn)率設(shè)置為98%,使用最近鄰分類器(NN)進(jìn)行分類。表4給出了本文算法(CCRLDP)與其他算法在有椒鹽噪聲FERET數(shù)據(jù)集上的最優(yōu)識(shí)別率及其標(biāo)準(zhǔn)差,這里括號(hào)中數(shù)字為識(shí)別率最高時(shí)對(duì)應(yīng)的特征維數(shù)。由表4可知,在加入椒鹽噪聲的FERET數(shù)據(jù)集上,CCRLDP的識(shí)別率遠(yuǎn)高于其他5種算法,這是因?yàn)镃CRLDP算法充分利用了樣本的標(biāo)簽信息和局部信息。另外,CCRLDP算法的標(biāo)準(zhǔn)差也較小,這意味著該算法比其他算法更穩(wěn)定。表5為6種算法在Binalpha數(shù)據(jù)集上的識(shí)別率及標(biāo)準(zhǔn)差,這里的數(shù)據(jù)集沒(méi)有任何噪聲和遮擋。由表5可以看出,對(duì)于不同的訓(xùn)練樣本數(shù)L,CCRLDP的識(shí)別率均優(yōu)于其他算法,且識(shí)別率隨著訓(xùn)練樣本數(shù)的增加而增加;另外,有監(jiān)督學(xué)習(xí)算法CRRP、CRLDP和CCRLDP的算法性能高于無(wú)監(jiān)督學(xué)習(xí)算法LPP和CRP,因?yàn)闊o(wú)監(jiān)督學(xué)習(xí)算法沒(méi)有利用樣本的標(biāo)簽信息,而在CRLDP算法中,由于沒(méi)有考慮樣本之間的競(jìng)爭(zhēng)能力和正系數(shù)的作用,其判別信息較少,因此它的識(shí)別率低于本文算法。

表4 加噪FERET數(shù)據(jù)集上6種算法識(shí)別率及標(biāo)準(zhǔn)差Table 4 Recognition rate and standard deviation of six algorithms on the noisy FERET data set

表5 Binalpha數(shù)據(jù)集上不同訓(xùn)練樣本數(shù)時(shí)6種算法識(shí)別率及標(biāo)準(zhǔn)差Table 5 Recognition rate and standard deviation of six algorithms on the Binalpha data set
由表6可見(jiàn),在遮擋和訓(xùn)練樣本數(shù)不同的情況下,CCRLDP算法的識(shí)別率均優(yōu)于所有其他4種算法。在同一種遮擋之下,CRRP、CRLDP和CCRLDP這3種算法的識(shí)別率均隨著訓(xùn)練樣本數(shù)L的增大而增大;而對(duì)不同尺寸的遮擋,隨著遮擋尺寸的增大,各算法的識(shí)別率在一定程度上均有所降低。CCRC是一種分類算法,直接通過(guò)測(cè)試樣本求其系數(shù),但是當(dāng)輸入圖片的尺寸比較大時(shí),算法的復(fù)雜度將會(huì)特別高,而且由表6可知CCRC的魯棒性比較弱。表7給出各算法在不同數(shù)據(jù)集上的計(jì)算時(shí)間,在大多數(shù)情況下,本文算法的計(jì)算速度高于其他算法,個(gè)別算法的計(jì)算時(shí)間雖然少,但是其識(shí)別率遠(yuǎn)低于本文算法。綜上考慮,本文算法優(yōu)于其他對(duì)比算法。

表6 AR數(shù)據(jù)集上不同大小遮擋和不同訓(xùn)練樣本數(shù)時(shí)6種算法識(shí)別率及標(biāo)準(zhǔn)差Table 6 Six algorithms for recognition rate and standard deviation of different size occlusions and training samples on the AR data set %

表7 各算法在不同數(shù)據(jù)集上的計(jì)算時(shí)間Table 7 Calculation time of each algorithm on different data sets s
圖4中描述了除CCRC算法之外其他5種不同算法在各數(shù)據(jù)集上的平均識(shí)別率隨特征子空間維數(shù)變化而變化的曲線(因?yàn)镃CRC直接對(duì)測(cè)試集原數(shù)據(jù)進(jìn)行分類,沒(méi)有涉及特征的提取,即不存在維度變化問(wèn)題)。隨著特征維數(shù)的增加,各算法的識(shí)別率也在逐漸上升,對(duì)于大多數(shù)數(shù)據(jù)集來(lái)說(shuō),在第20維之后,CCRLDP趨于平穩(wěn),性能比較穩(wěn)定;雖然CRLDP和CRRP均使用協(xié)同表示重構(gòu)來(lái)表示類間分離性和類內(nèi)緊致性的有監(jiān)督學(xué)習(xí)算法,但CRLDP考慮了相同標(biāo)簽樣本的局部緊致性和不同標(biāo)簽樣本的局部分離性,具有一定的判別結(jié)構(gòu),因此其性能高于CRRP;CRP和LPP均為無(wú)監(jiān)督學(xué)習(xí)算法,但LPP需要手動(dòng)構(gòu)造圖,不能有效選擇數(shù)據(jù)的本質(zhì)結(jié)構(gòu),所以LPP算法性能次于CRP;另外,CRRP能充分地利用樣本的標(biāo)簽信息,故其性能優(yōu)于LPP。
總之,CCRLDP既考慮了數(shù)據(jù)的局部結(jié)構(gòu),又充分地利用了樣本的標(biāo)簽信息,因此在構(gòu)造局部結(jié)構(gòu)圖時(shí)不需要手動(dòng)選取k值。由于CCRLDP得到的是具有稀疏性的類間圖和類內(nèi)圖,所以對(duì)噪聲具有一定的魯棒性,因此它具有較高的識(shí)別率。以上結(jié)果表明,該算法能提取更多具有區(qū)分能力的特征,從而能提升其識(shí)別性能。

圖4 不同數(shù)據(jù)集上5種算法的識(shí)別率Fig. 4 Recognition rate of five algorithms on different data sets
本文通過(guò)考慮不同系數(shù)在對(duì)樣本重構(gòu)時(shí)的表現(xiàn),采用競(jìng)爭(zhēng)性協(xié)同表示的思想來(lái)構(gòu)造類間分離圖和類內(nèi)緊致圖,提出一種有監(jiān)督的特征提取算法。該算法通過(guò)計(jì)算類內(nèi)緊致矩陣和類間分離矩陣來(lái)刻畫(huà)圖像的局部結(jié)構(gòu)并得其最優(yōu)投影矩陣。與經(jīng)典的基于流行學(xué)習(xí)的算法相比,以上算法不僅考慮了樣本間的協(xié)同表示能力和每類樣本的競(jìng)爭(zhēng)性,還強(qiáng)調(diào)了正系數(shù)的作用,因此可大大提高其識(shí)別效率。