摘要:研究了基于主成分分析和人工神經(jīng)網(wǎng)絡(luò)技術(shù)的人臉圖像識別系統(tǒng)的基本理論與關(guān)鍵技術(shù),并通過對人臉識別的關(guān)鍵技術(shù)進(jìn)行實(shí)驗(yàn)選擇和優(yōu)化組合,提出一種將小波變換、主分量分析(PCA)和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的人臉識別系統(tǒng)方案,可以提高人臉識別的效率,同時(shí)減少光照、表情等因素對系統(tǒng)識別性能的影響,提高人臉識別系統(tǒng)的魯棒性。實(shí)驗(yàn)結(jié)果表明,此人臉識別系統(tǒng)在識別率和識別速度等方面均獲得了較好的效果。
關(guān)鍵詞:人臉識別;小波變換;特征提取;PCA;RBF神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2009)27-7730-04
Face Recognition Based on Wavelet Transform and PCA-ANN
MA Gui-ying
(Department of Computer Science and Technology, Tangshan College, Tangshan 063000, China)
Abstract: This thesis mainly studies on the basic theory and technology about the identification of people’s faces.After experimenting, we choose the better methods. This thesis proposes a new methods which integrates three elements(Wavelet Transform, Principal Component Analysis, Artificial Neural Networks), which can recognize faces more effectively. Meanwhile, this methods lessens the effect of light on faces and appearance. Experimental result indicates that our new face recognition system is effective at the aspects of both correct ratio and speed of distinguishing.
Key words: face recognition; wavelet transform; feature extraction; principal component analysis; radial basis function neural network
人臉識別技術(shù)發(fā)展很快,并取得了豐碩的研究成果,但是仍然還有許多問題:如圖像背景復(fù)雜,存在很多類似人臉的部分;人臉是非剛性物體,并且隨著年齡的變化而變化,特征難以完全描述;人臉可能有很多遮擋物,如胡須、眼鏡、帽檐等;人臉?biāo)蓤D像受光照、成像角度、成像距離等影響。這些問題都是人臉識別技術(shù)中亟待解決的問題。
人臉識別的步驟主要包括圖像預(yù)處理,特征提取和人臉分類器等,而對于每一關(guān)鍵步驟若采用不同的處理算法,然后再后進(jìn)行組合后,其識別效率和識別速度就會不同,本論文就是基于以上的考慮,將人臉識別的關(guān)鍵技術(shù)進(jìn)行實(shí)驗(yàn)選擇和優(yōu)化組合,提出一種將小波變換、主分量分析(PCA)和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的人臉識別系統(tǒng)方案:首先,為了去除人臉圖像中的干擾信息,我們對人臉圖像進(jìn)行了一系列的預(yù)處理,包括去除噪聲、灰度歸一化、尺度歸一化和小波變換等;其次,使用基于K-L變換的特征臉方法,提取人臉圖像特征,壓縮圖像數(shù)據(jù)維數(shù);最后,使用改進(jìn)學(xué)習(xí)算法的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)作為人臉分類器。通過大量的實(shí)驗(yàn)表明,本系統(tǒng)可以提高識別效率,減少光照、運(yùn)動、表情等條件對識別率的影響,從而達(dá)到較好的識別效果。利用國際上通用的ORL人臉庫進(jìn)行測試,正確識別率達(dá)到了95.8%。
1 基于小波變換的圖像預(yù)處理
在本文中,對于一幅人臉原圖像如圖1(a)所示,其一層小波分解的結(jié)果如圖1(b)所示。原人臉圖像經(jīng)過一層小波變換分解后,獲得四個(gè)子帶圖像。其中子帶圖像LL保持了原圖像的低頻分量,為原圖像的平滑像;子帶圖像HL保持了原圖像的水平邊緣細(xì)節(jié);子帶圖像HL保持了原圖像的垂直邊緣細(xì)節(jié);子帶圖像HH保持了原圖像的斜邊緣細(xì)節(jié)。對于正面人臉識別而言,由于人的表情豐富,并且人臉的表情主要反映在人的眼睛和嘴巴上,而且嘴巴和眼睛的水平特征要比垂直特征明顯,因此水平邊緣子帶圖像HL刻畫了人臉的表情特征;人臉的輪廓和鼻子的垂直特征比水平特征明顯,它們易受發(fā)型和側(cè)臉姿勢的影響;對于剛體模式而言,斜邊緣信息最重要,因?yàn)樗韴D像的整體結(jié)構(gòu)特征。但是人臉是非剛體模式,斜邊緣的信息受噪聲、表情和姿態(tài)的影響較大,其穩(wěn)定性最差。適當(dāng)層次小波變換后的低頻子帶圖像刻畫了人臉的表情和姿態(tài)的不變特征,有較好的穩(wěn)定性。而且,一幅圖像作n次二維小波變換后,低頻子帶圖像的尺寸僅為原圖像的2n分之一,因此能有效地降維。這樣就大大減少了后續(xù)工作的復(fù)雜性。若繼續(xù)對低頻子帶圖像作小波變換,則得到如圖1(c)所示的二層小波變換。
由圖可以看出,兩級小波變換以后的低頻子帶圖像仍然是原圖像的光滑像,而且圖像向量的維數(shù)變得更加低,圖像也變得更加模糊。小波變化后的低頻子帶圖像取得了對人臉的表情和姿勢的不敏感性,即它模糊了人臉的不同表情和不同姿態(tài)等所引起的差異,而且大大降低了圖像向量的維數(shù),但同時(shí)不同人臉之間的差異也被模糊了,而且隨著小波變換的級數(shù)的增加,這種效果造成的影響就越大。也就是說小波分解的層數(shù)越多,圖像向量維數(shù)就越低,后續(xù)算法復(fù)雜度就越小,同時(shí),同一人臉的不同表情和不同姿勢引起的差異和不同人的人臉之間的差異也都將變得模糊。因此選擇合適的小波分解層數(shù)對識別的效果和算法的復(fù)雜度都很重要。
通過實(shí)驗(yàn)發(fā)現(xiàn),人臉部的眉毛、眼睛、鼻子、嘴巴等區(qū)域在人臉識別中所占的比重要高于其它區(qū)域,起關(guān)鍵作用。同時(shí)這些區(qū)域又是細(xì)節(jié)變化豐富的區(qū)域,在小波高頻子圖有較好的反映,人臉部的表情變化多來自于它們。因此,我們可以利用低頻子圖抽取特征、加以識別。
3 基于PCA的人臉識別
人臉的全局表達(dá)己被證明是一種有效的人臉識別方法。主成分分析是圖像壓縮中的一種最優(yōu)正交變換,目的是在數(shù)據(jù)空間中找一組向量以盡可能的解釋數(shù)據(jù)的方差,將數(shù)據(jù)從原來的R維空間降到M維(R>>M),在降維后保存了數(shù)據(jù)中的主要信息,從而使數(shù)據(jù)更易于處理。它是根據(jù)K-L變換從最大信息壓縮方向獲得圖像在低維空間的信息表達(dá),從信息論的觀點(diǎn)來看,就是在所有的正交變換中,K-L變換所對應(yīng)的信息熵最小,所以用PCA方法所獲得的識別空間就是原圖像空間的一個(gè)最優(yōu)低維逼近。PCA用于統(tǒng)計(jì)特征提取構(gòu)成了子空間法模式識別的基礎(chǔ)。它從圖像整體代數(shù)特征出發(fā),基于圖像的總體信息進(jìn)行分類識別。Sirovich和Kirby首先將K-L變換用于人臉圖像的最優(yōu)表示。Turk和Pentland進(jìn)一步提出了“特征臉”(Eigenface)這個(gè)概念。
3.1 離散K-L變換
離散K-L變換是Karhunen和Loeve兩人對連續(xù)隨機(jī)過程作為級數(shù)展開而引出的。隨機(jī)圖像序列是由Hotelling首先研究出的主分量方法,實(shí)際上它是K-L級數(shù)展開的離散等效方法。因此這種方法有多種稱謂,如K-L變換、Hotelling變換、特征向量變換、主分量變換等。這種變換不像傅立葉變換、離散余弦變換等正交變換,那些變換的變換核是固定不變的,而K-L變換則隨各集合圖像的統(tǒng)計(jì)性質(zhì)不同而有不同的變換核矩陣,即變換核矩陣是由某集合圖像的統(tǒng)計(jì)性質(zhì)來確定的,因此離散K-L變換是一種基于圖像統(tǒng)計(jì)特征的變換。一個(gè)非周期性隨機(jī)過程不能用具有互不相關(guān)的隨機(jī)傅立葉系數(shù)的傅立葉級數(shù)表示,但是可以用具有互不相關(guān)系數(shù)的正交函數(shù)?準(zhǔn)n(t)級數(shù)展開,這種展開方法就是K-L展開式。
就幾何觀點(diǎn)來說,PCA的基本思想是尋找一個(gè)最佳子空間,當(dāng)多維數(shù)據(jù)x在該子空間進(jìn)行投影后,所得分量具有最大方差。同時(shí),當(dāng)用新分量對原始數(shù)據(jù)進(jìn)行重構(gòu)時(shí),在最小均方誤差意義下逼近效果最優(yōu),即(1)式取值最小。
設(shè)x=(x1,x2,…,xn)T是n維隨機(jī)向量,其均值為mx=E(x)=0,協(xié)方差矩陣為:
PCA的目的就是尋找一個(gè)正交變換矩陣WT=[w1,…,wm],對n維向量進(jìn)行正交變換,使得新分量Yi(i=1,2,A,m)間彼此互不相關(guān),即滿足:
且y的協(xié)方差矩陣為對角矩陣:
由(4)式可以得到
當(dāng)所有觀測數(shù)據(jù)x沿w1方向投影時(shí),PCA將使得到的分量y1能量最大,即方差E(y12)最大,此時(shí)便把y2稱為第一個(gè)主分量(PC1)。用同樣的方法在與w1正交的所有矢量中尋找第二個(gè)矢量w2,在滿足w1Tw2=0的前提下,使投影后的y2=w2Tx能量最大,這樣成為第二個(gè)主分量(PC2)。在下述限定條件下,該過程不斷重復(fù):
1) 新方向與前面所有方向都正交;
同時(shí),由于各矢量w1投影方向相互正交,所以PCA得到的各個(gè)新分量yi=wiTx(i=1,2,…,m)間彼此互不相關(guān),即
。
2) 投影后的數(shù)據(jù)具有最大方差。
3.2 基于特征臉的人臉特征提取
PCA算法在二維空間范圍內(nèi)實(shí)現(xiàn)圖像特征的主成分提取,由人臉圖像集的一組源圖像(Source Image)產(chǎn)生。這些源圖像構(gòu)成人臉空間的一組基圖像,這些基圖像也可看成是一組相互相關(guān)的人臉圖像特征,而人臉正是由這些得到的特征臉圖像在不同組合系數(shù)下的線性組合而成。
在對圖像做PCA時(shí),我們將每一幅二維圖像采用列堆疊方式變成一維向量,構(gòu)成輸入矩陣X的列向量。則PCA輸出矩陣Y=WX的列向量也為圖像,稱為源圖像的特征臉圖像,即人臉圖像的特征臉空間。
實(shí)驗(yàn)證明,人臉圖像經(jīng)過K-L變換,大大降低了原始空間的維數(shù),提高人臉識別的速度。
4 基于RBF神經(jīng)網(wǎng)絡(luò)的分類器設(shè)計(jì)
4.1 RBF神經(jīng)網(wǎng)絡(luò)的特點(diǎn)
神經(jīng)網(wǎng)絡(luò)作為一種新型的數(shù)學(xué)建模方法,通過對歷史數(shù)據(jù)的學(xué)習(xí),可以找到輸入和輸出之間的映射關(guān)系。映射過程實(shí)質(zhì)就是特征提取,模式識別的過程。模式在學(xué)習(xí)過程中提取并存儲起來,在預(yù)測階段,就可以根據(jù)網(wǎng)絡(luò)的輸入,直接生成下一個(gè)時(shí)段的預(yù)測輸出。預(yù)測的精度如何,不僅取決于訓(xùn)練數(shù)據(jù)是否充分,是否典型,還與網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)和算法有直接的關(guān)系。BP神經(jīng)網(wǎng)絡(luò)用于人臉識別時(shí)雖然也能夠完成識別和分類的任務(wù),但是誤差比較大。這主要是與BP網(wǎng)和BP算法的自身缺陷有關(guān)。
RBF神經(jīng)網(wǎng)絡(luò)可以根據(jù)具體情況改變網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù),具有自學(xué)習(xí)、自組織、自適應(yīng)的功能。同時(shí),它學(xué)習(xí)速度快,不存在局部極小問題。RBF神經(jīng)網(wǎng)絡(luò)的隱含層采用非線性的徑向基函數(shù),對輸入向量產(chǎn)生局部化的響應(yīng),僅當(dāng)輸入落在輸入空間某一指定的小范圍內(nèi)時(shí),隱含層單元才會作出有意義的非零響應(yīng)。
它的輸出層則把各徑向基函數(shù)的輸出值進(jìn)行線性求和,從而得出相應(yīng)的結(jié)果。RBF網(wǎng)絡(luò)對非線性連續(xù)函數(shù)具有一致逼近性,它可以進(jìn)行大范圍的數(shù)據(jù)融合,可以并行高速地處理數(shù)據(jù)。正是由于以上的這些特點(diǎn),可以采用RBF網(wǎng)絡(luò)來進(jìn)行人臉識別,它可以對不同的人臉進(jìn)行分類、關(guān)聯(lián)、融合、協(xié)調(diào),從而達(dá)到學(xué)習(xí)人臉圖像之間的潛在規(guī)律,實(shí)現(xiàn)快捷、方便的識別效果。
4.2 RBF網(wǎng)絡(luò)的權(quán)值的設(shè)定及隱節(jié)點(diǎn)參數(shù)的調(diào)節(jié)
RBF網(wǎng)絡(luò)的學(xué)習(xí)過程與BP網(wǎng)絡(luò)類似,由前向和反向傳播兩部分組成,但是它的結(jié)構(gòu)比較特殊,因此在實(shí)際應(yīng)用中更加方便。它的學(xué)習(xí)過程闡述如下:在前向部分,我們在網(wǎng)絡(luò)輸入端輸入數(shù)據(jù),計(jì)算隱層節(jié)點(diǎn)的輸出數(shù)值Rj(j=1,…u),然后修改權(quán)值W。確定了權(quán)值W,網(wǎng)絡(luò)的數(shù)據(jù)繼續(xù)往前送,我們可以計(jì)算出誤差的大小El。在反向傳播中,將誤差信號沿以前的信號原路返回到輸入端。固定權(quán)值后,再根據(jù)式(7)和式(8)調(diào)節(jié)RBF神經(jīng)網(wǎng)絡(luò)隱節(jié)點(diǎn)的中心數(shù)據(jù)和擴(kuò)展常數(shù)。
對于每個(gè)隱節(jié)點(diǎn),中心距離和擴(kuò)展常數(shù)的調(diào)節(jié)量為:
其中,E為學(xué)習(xí)率,P(i,j)為第l次學(xué)習(xí)中的第i個(gè)輸入矢量。
4.3 RBF網(wǎng)絡(luò)的學(xué)習(xí)過程
在網(wǎng)絡(luò)學(xué)習(xí)過程中學(xué)習(xí)率的選取也非常重要,其大小對網(wǎng)絡(luò)學(xué)習(xí)的過程影響很大。若太小,則網(wǎng)絡(luò)訓(xùn)練收斂緩慢,訓(xùn)練次數(shù)增加;而在誤差變化劇烈的區(qū)域,太大會因調(diào)整值太大而跨過較窄的“坑凹”處,使訓(xùn)練出現(xiàn)震蕩,反而增加迭代次數(shù)。為加速收斂過程,一個(gè)較好的思路是自適應(yīng)改變學(xué)習(xí)率,使其隨著誤差和迭代次數(shù)的變化而變化。
4.4 實(shí)驗(yàn)結(jié)果分析
本文中是用ORL人臉圖庫進(jìn)行訓(xùn)練和測試的。ORL人臉圖庫是由40人,每人10張照片組成,取每人的前5張總200張圖片作為訓(xùn)練集對RBF網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再取剩下的200張圖片作為測試集對網(wǎng)絡(luò)進(jìn)行測試。 在特征提取部分,不同的K-L閾值會得到不同維數(shù)的特征向量,使得在人臉識別部分RBF網(wǎng)絡(luò)的輸入維數(shù)不同,從而對網(wǎng)絡(luò)的結(jié)構(gòu)和識別效果都產(chǎn)生了影響。實(shí)驗(yàn)數(shù)據(jù)表明RBF網(wǎng)絡(luò)在K-L閾值為0.99訓(xùn)練批次為40時(shí)有最好的識別率95.8%,驗(yàn)證了這種方法是可以實(shí)施的,有效的。
5 原型系統(tǒng)的設(shè)計(jì)及實(shí)驗(yàn)結(jié)果分析
5.1 系統(tǒng)總體設(shè)計(jì)
本課題主要是開發(fā)一個(gè)基于神經(jīng)網(wǎng)絡(luò)的人臉識別實(shí)驗(yàn)系統(tǒng)。該系統(tǒng)主要由預(yù)處理、特征抽取、基于神經(jīng)網(wǎng)絡(luò)的分類器和數(shù)據(jù)庫四個(gè)部分組成。其中特征抽取與分類器是解決人臉識別問題的關(guān)鍵。
系統(tǒng)總體處理過程是:首先對圖像預(yù)處理,使之變成歸一化的圖像;然后對所得到的圖像進(jìn)一步進(jìn)行小波變換,提取低頻信息;接著用主分量分析的方法進(jìn)行特征提取;最后通過RBF神經(jīng)網(wǎng)絡(luò)構(gòu)建的分類器進(jìn)行分類,人臉圖像分類器輸出的結(jié)果就是人臉識別的結(jié)果。其中人臉分類器的實(shí)現(xiàn)過程是:首先從ORL人臉圖庫中提取人臉圖像,然后經(jīng)過圖像預(yù)處理,再對處理后的圖像進(jìn)行特征提取,最后通過RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練好的人工神經(jīng)網(wǎng)絡(luò)即為人臉分類器。
5.2 實(shí)驗(yàn)結(jié)果分析
我們利用國際上通用的ORL人臉數(shù)據(jù)庫來驗(yàn)證我們所提出的人臉識別框架。實(shí)驗(yàn)證明,本文所提出的方法對ORL人臉數(shù)據(jù)庫可以取得良好的效果,對于在不同情況下的實(shí)驗(yàn)結(jié)果如表1所示。
從表1可以看出,將圖像預(yù)處理、特征提取和分類器的設(shè)計(jì)等關(guān)鍵技術(shù)進(jìn)行不同的組合,其識別效率是不同的。
6 結(jié)論
本文提出的小波變換+PCA+ANN的方法,即將人臉識別的三個(gè)關(guān)鍵技術(shù)進(jìn)行優(yōu)化組合。不但識別速度快、識別效率高,同時(shí)對光照、表情的變化不太敏感,具有較好的魯棒性。本系統(tǒng)可以用來對一個(gè)中小型的人臉數(shù)據(jù)庫中的人臉進(jìn)行識別,但由于本系統(tǒng)特征提取部分是基于K-L變換的,圖像的特征空間是根據(jù)人臉庫中全部的人臉向量提取出的,因此給人臉圖像數(shù)據(jù)庫的擴(kuò)展帶來一定的困難,當(dāng)數(shù)據(jù)庫中加入新的人臉圖像時(shí),就需要重新尋找特征空間并提取特征向量,也就需要重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)。另外,對于大型的數(shù)據(jù)庫,由于圖像之間的相關(guān)性增大,會導(dǎo)致識別率的降低,而且神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間將大大延長。
參考文獻(xiàn):
[1] M Turk,A Pentland.Eigenfaces for Recognition[J].Journal of Cognitive Neurons-cience,1991,3(1):102-111.
[2] Brunelli R,Poggio T.Face Recognition:Features Versus Templates[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1993,15(10):1042-1052.
[3] 章柏幸,蘇光大.人臉成像特性研究及人臉歸一化的目標(biāo)[J].光電子激光,2003,14(4):406-410.
[4] 魏海坤.神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的理論與方法[M].北京:國防工業(yè)出版社,2004:40-42.
[5] Haykin S.神經(jīng)網(wǎng)絡(luò)原理[M].北京:機(jī)械工業(yè)出版社,2004:183-184.
[6] 金忠,胡鐘山,楊靜字.基于BP神經(jīng)網(wǎng)絡(luò)的人臉識別方法[J].計(jì)算機(jī)研究與發(fā)展,1999,36(3):146-165.
[7] Bishop C M.Neuarl Networks for Pattern Recognition[M].NewYork:Oxford Univ,2003:94-95.
[8] 韓力群.人工神經(jīng)網(wǎng)絡(luò)理論、設(shè)計(jì)及應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2001:5-50.