摘要: 利用網(wǎng)絡(luò)新聞圖像以及與圖像相關(guān)的文字說明構(gòu)造一個有人名標注的人臉庫。人臉庫中的人臉通過對新聞圖像進行人臉檢測得到,人名從與圖像相關(guān)的文字說明中提取得到。通過一個聚類過程得到人臉與人名之間的對應(yīng)關(guān)系,并通過一個合并聚類的過程可以識別出同一個人的不同名字。對AP聚類算法進行改進,實驗表明相比于k-means與AP算法,改進的AP聚類算法能充分利用網(wǎng)絡(luò)新聞圖文互補的特性,從而得到更準確的人臉與人名對應(yīng)關(guān)系。
關(guān)鍵詞:
中圖分類號: TP391.4 文獻標識碼:A 文章編號:2095-2163(2011)01-0035-04
0引言
現(xiàn)實世界中存在許多圖像與文本相關(guān)聯(lián)的數(shù)據(jù),網(wǎng)絡(luò)新聞是一個很典型的例子。在這種圖文并茂的數(shù)據(jù)中,圖像與相關(guān)聯(lián)的文本是相互補充的,利用這種圖文互補特性可以挖掘很多重要信息。如果能將網(wǎng)絡(luò)新聞圖像中出現(xiàn)的人物用其名字進行標注,就可以將圖像檢索[1-2]問題轉(zhuǎn)化為文本檢索[3]問題,從而可以很好地解決人物檢索這一問題。采取手工標注的方法是有效的,但是多媒體和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展使得圖像庫越來越大,完全使用手工標注,工作量太大。網(wǎng)絡(luò)新聞數(shù)據(jù)如圖1所示,圖像右側(cè)是與此圖像關(guān)聯(lián)的文字說明。本文的基本任務(wù)是對新聞圖像中出現(xiàn)的人臉用人名進行標注。
雖然人臉識別[4]的研究已經(jīng)很成熟,但是很難對圖1中的人臉進行識別。因為圖1中的人臉圖像來源于網(wǎng)絡(luò),人臉的姿勢、表情、光照等情況以及圖像采集設(shè)備差別很大,比實驗室條件下采集的圖像數(shù)據(jù)要復(fù)雜很多。而現(xiàn)有的人臉識別系統(tǒng)在實驗室環(huán)境下性能較好,在真實世界環(huán)境中的性能卻較差。此時可以利用與圖像相關(guān)聯(lián)的文字說明中出現(xiàn)的人名對人臉進行標注,但是從圖1可以看出圖像中可能出現(xiàn)多個人臉, 與圖像相關(guān)的文字說明中也可能出現(xiàn)多個人名,并且圖像中出現(xiàn)的人臉有可能沒有人名與其對應(yīng),或者文字說明中出現(xiàn)的人名在圖像中卻沒有人臉與其對應(yīng)。
本文提出了一個可以很好解決此問題的方法。最終得到一個有人名準確標注的人臉圖像數(shù)據(jù)庫,對人臉圖像的標注如圖2所示。
對網(wǎng)絡(luò)新聞數(shù)據(jù)處理的過程如圖3所示。從新聞數(shù)據(jù)中提取出人臉圖像與人名,經(jīng)處理后,通過一個聚類過程,得到人臉與人名之間的對應(yīng)關(guān)系。
Tamara L.Berg等人通過基于k-means聚類的方法[5]得到人臉與人名之間的對應(yīng)關(guān)系。然而基于k-means聚類的方法在計算圖像相似度時,完全根據(jù)圖像內(nèi)容信息提取特征進行相似度計算,忽略了與圖像相關(guān)聯(lián)的文本信息;同時k-means聚類需要事先指定聚類個數(shù)并且聚類結(jié)果受初始聚類中心選擇的影響較大。本文對AP聚類算法進行改進,計算圖像相似度時,不僅考慮到圖像內(nèi)容信息,還考慮到與圖像相關(guān)的文本信息。結(jié)合圖像內(nèi)容信息與文本信息能夠更準確地給出圖像相似度,從而使聚類結(jié)果更準確。同時AP聚類算法將每個樣本點都看作是候選的類代表點,且聚類前不需要指定聚類個數(shù)。實驗證明處理圖文并茂的數(shù)據(jù)時,協(xié)同使用圖像與文本信息是很重要的,改進的AP聚類算法在處理此類問題時具有明顯的優(yōu)越性。
本文第一部分對從網(wǎng)絡(luò)上獲取的新聞數(shù)據(jù)進行預(yù)處理;第二部分通過改進的AP算法對人臉圖像聚類,并且引入k近鄰模型對聚類進行修剪;第三部分將聚類后的人臉圖像用人名標注,并通過合并聚類識別出同一個人的不同名字;第四部分對實驗結(jié)果進行了分析。
1新聞數(shù)據(jù)預(yù)處理
1.1人臉檢測與人名提取
本文采用了Viola提出的積分圖像的概念和基于Adaboost訓(xùn)練人臉檢測分類器[6-8]的方法對網(wǎng)絡(luò)新聞圖像進行人臉檢測。通過命名實體識別從與新聞圖像相關(guān)的文字說明中提取出人名,得到一個人名詞典。從新聞圖像中檢測出的每一個人臉都與若干個從對應(yīng)的文字說明中提取出的人名有關(guān)。本文的任務(wù)是用正確的人名對每個人臉標注。
1.2人臉圖像標準化
由于人臉圖像來源于網(wǎng)絡(luò),其姿勢、表情及光照變化較大。在對人臉圖像進行特征提取之前,需要進行幾何歸一化與灰度歸一化處理。幾何歸一化是指根據(jù)人臉定位結(jié)果,將圖像中人臉變換到同一位置和同樣大小。灰度歸一化是指對圖像進行光照補償?shù)忍幚恚庹昭a償能夠一定程度上克服光照變化的影響。
1.2.1幾何歸一化
人臉部位在圖像中的位置、大小、偏移情況不同,會影響人臉特征的提取以及后續(xù)的聚類工作,因而要對人臉進行校正,以使不同的人臉圖像最后都統(tǒng)一到同樣的大小,并使人臉的關(guān)鍵部位在圖像中的位置也盡量保持一致。幾何校正主要包括:大小校正、平移、旋轉(zhuǎn)和翻轉(zhuǎn)等。在進行人臉校正前,需要進行人臉關(guān)鍵點檢測,尤其是人眼的定位。
根據(jù)垂直灰度投影與水平灰度投影,大體可以確定特征點的位置。確定特征點以后就可以進行幾何校正。假定人臉圖像左、右兩眼中心的位置分別為El和Er。進行圖像旋轉(zhuǎn),以使El和Er的連線ElEr保持水平,保證人臉在圖像平面內(nèi)的旋轉(zhuǎn)不變性。使ElEr的中點固定在圖像中特定位置,保證人臉在圖像平面內(nèi)的平移不變性。對圖像進行縮放變換,使d=ElEr為定長,并使圖像大小統(tǒng)一,既保證了人臉大小的一致性,又保證人臉在圖像平面內(nèi)的尺度不變性。經(jīng)過校準,不僅在一定程度上獲得了人臉表示的幾何不變性,而且基本上還消除了頭發(fā)和背景的干擾。
1.2.2灰度歸一化
由于不同光照條件下獲取的人臉圖像灰度變化較大,因此要通過預(yù)處理進行圖像灰度歸一化處理,去除一定條件下的光照影響。灰度歸一化的方法很多,本文使用的是直方圖均衡化。
1.3人臉特征提取
在人臉檢測與標準化后,得到的人臉圖像大小為86×86,將標準化后的圖像的灰度特征表示為維度86×86的高維向量。利用主元分析(PCA)找到在最小均方差意義下最能代表原始數(shù)據(jù)的基向量,對原始數(shù)據(jù)進行降維。為使圖像數(shù)據(jù)更具可分性,利用線性判別分析(LDA)將圖像數(shù)據(jù)投影到新的子空間中[9-10],在此子空間中有最大類間距離和最小類內(nèi)距離,即在該子空間中有最好的可分性。
2基于改進AP算法的聚類
2.1AP算法
AP算法[11-12],又稱為近鄰傳播聚類(affinity propagation)算法,其目的是找到樣本集中最優(yōu)的類代表點集合,使所有樣本點與其所屬類別的類代表點的相似度最大。AP算法將所有樣本點都當作候選的類代表點,使得聚類結(jié)果不受初始聚類中心選擇的影響。
AP算法在樣本點相似度矩陣的基礎(chǔ)上進行聚類。本文選用歐式距離作為樣本點相似度的度量,任意兩點的相似度為兩點距離平方的相反數(shù)。對點xi和點xk,其相似度為:
s(i,k)=-||xi-xk||2 (1)
式中,s(i,k)表示數(shù)據(jù)點xk與xi的相似程度。
AP算法為每個數(shù)據(jù)點k設(shè)置偏置參數(shù)s(k,k),s(k,k)越大數(shù)據(jù)點k被選作類代表點的可能性就越大。算法中,假設(shè)所有數(shù)據(jù)點成為類代表點的可能性相同,因此將所有s(k,k)均設(shè)置為相同值p。同時p的大小還會影響到最終聚類個數(shù)的多少。實驗表明,p值越大,聚類個數(shù)就越多,通過改變p值可以調(diào)整最終的聚類數(shù)目。
AP算法引入了兩個參數(shù),R=[r(i,k)]n×n和A=[a(i,k)]n×n。算法的迭代過程就是這兩個信息量交替更新的過程,兩個信息量代表了不同的競爭目的。r(i,k)從點xi指向點xk,表示xk適合作為xi的類代表點的程度。a(i,k)從點xk指向點xi,表示xi選擇xk作為類代表點的合適程度。對于數(shù)據(jù)點xi,計算所有數(shù)據(jù)點的r(i,k)與a(i,k)之和,xi的類代表點為xk:arg max(a(i,k)+r(i,k))。
AP算法的核心步驟為兩個信息量的交替更新過程,更新公式如下:
通過反復(fù)迭代,各樣本點進行競爭,最終得到類代表點,即聚類中心。最后可以判斷聚類中心的個數(shù)是否滿足要求,若不滿足,則調(diào)整p的大小,重新聚類,直至聚類個數(shù)滿足要求為止。
2.2改進的AP聚類算法
相似度矩陣S是AP算法中很重要的參數(shù)。如果相似度矩陣能夠準確地描述樣本點之間的相似關(guān)系,那么AP算法的聚類結(jié)果會很精確。相似度矩陣的準確程度會直接影響到基于相似度矩陣的聚類算法的結(jié)果。由于相似度矩陣描述的是任意兩個人臉圖像之間的相似程度,所以可以利用先驗知識調(diào)整相似度矩陣。
本文充分利用圖像與文本互補這一特性,對AP聚類算法進行改進。設(shè)有兩條新聞Nm,Nn,分別包含新聞圖像pm,pn。對pm,pn進行人臉檢測,得到人臉集合FSm,FSn。從與pm,pn相關(guān)的文字說明中提取人名,分別得到人名集合NSm,NSn,集合大小分別為x,y。
首先將兩點距離平方的相反數(shù)作為相似度,計算得到相似度矩陣S。然后利用名字集合之間的關(guān)聯(lián)信息更新相似度矩陣S,算法如下:
設(shè)有兩幅人臉圖像fi,fj分別來自人臉集合FSm,FSn。
(1)若m與n相等,s(i,j) =-∞。認為fi、fj出現(xiàn)在同一幅圖像中,不可能是同一個人。
(2)若m與n不等,則查看NSm,NSn。
①當x==1&&y==1時,若兩標簽集合中無公共標簽,則s(i,j)=-∞,否則s(i,j)=0。
②當(x==1&&y>1)||(x>1&&y==1)時,若兩標簽集合中有公共標簽,則令s(i,j)=(1-1/max(x,y)) s(i,j),否則s(i,j)=-∞。
③當x>1&&y>1時,若兩標簽集合中有公共標簽且公共標簽數(shù)為k,則s(i,j)=(1-k/ (m×n))s(i,j),否則s(i,j)=-∞。
按照上述算法得到新的相似度矩陣后,在新相似度矩陣的基礎(chǔ)上進行AP聚類。得到若干人臉集合。
2.3修剪聚類
經(jīng)過改進的AP聚類算法聚類后,會得到若干個聚類。聚類的純度會影響到后續(xù)對聚類中人臉圖像進行標注的準確率。為了提高聚類的純度,需要將各聚類中被錯誤聚類的圖像去除。為此引入k近鄰模型,計算聚類中每幅人臉圖像屬于當前所在聚類的可信程度。對任意樣本點x,定義其屬于當前聚類的可信度為
likelihood(x) = ki/k (3)
式中,k為所考慮的樣本點x的近鄰個數(shù),ki為k近鄰中與樣本點x屬于同一聚類的樣本數(shù)。
對于可信程度小于特定閾值的樣本,將其從當前聚類中移除。
3人臉圖像標注
3.1標注圖像
經(jīng)聚類與修剪聚類后,人臉圖像集合被劃分為若干個聚類。此時認為每個聚類中的人臉圖像來源于同一個人。需要從與聚類中的人臉圖像相關(guān)的名字集合中找到正確的人名對人臉圖像標注。
標注方法如下:對任意聚類ck,假設(shè)包含n個人臉圖像,第i個人臉圖像fi來源于新聞Nki。與Nki對應(yīng)的人名集合為NSki,包含人名數(shù)為numki。對?坌name∈NSk1∪NSk2∪…∪NSkn,賦予權(quán)值
3.2合并聚類
對各聚類標注后,可能存在標注有不同人名的聚類實際上對應(yīng)同一個人,即存在一人多名問題。例如:President Bush與President George、Defense Donald Rumsfeld 與Do-nald Rumsfeld、Colin Powell與Secretary of State等。通過對各個聚類標注的人名很難識別出同一個人的多個名字,尤其是當對兩個聚類標注的人名中沒有共現(xiàn)詞時,例如Colin Powell與Secretary of State。任意兩聚類ci、cj,聚類中心分別為xi、xi,定義兩聚類的相似度為:
simi(ci,cj)=-||xi-xj||2(5)
對于相似度大于一定閾值的兩個聚類,將其合并。此時對兩聚類的標注的人名被認為是同一個人的不同名字。
4實驗結(jié)果分析
本文處理的數(shù)據(jù)是Tamara L. Berg個人主頁上提供的數(shù)據(jù)集。該數(shù)據(jù)集來源于雅虎新聞網(wǎng)上將近兩年的新聞數(shù)據(jù),包含28 204條新聞。通過人臉檢測,每條新聞的圖像部分可以檢測出若干個人臉,提取出人臉圖像并歸一化到相同大小86×86。通過命名實體識別從每條新聞的文字說明部分可以提取出若干人名。最終得到28 204個人臉圖像集合與對應(yīng)的28 204個人名集合。分別包含30 281幅人臉圖像與14 108個不同的人名。經(jīng)過人臉標準化與特征提取后進行聚類與人臉標注。
經(jīng)過改進的AP算法聚類后,按照2.3節(jié)中所述的k近鄰模型對聚類進行修剪。修剪聚類會減少聚類成員的個數(shù),但是會提高聚類的純度,進而提高后續(xù)人臉標注的正確率。表1為用改進的AP聚類算法對30 281幅人臉圖像進行標注,用k近鄰模型修剪聚類,設(shè)置一系列不同的可信度閾值時的實驗結(jié)果。人臉圖像數(shù)為進行聚類剪枝后剩余的人臉圖像個數(shù),聚類個數(shù)與人臉圖像對應(yīng)的人數(shù)大致相等。表2給出了Tamara L. Berg等人通過基于k-means聚類的方法對人臉圖像標注的結(jié)果。
從表1與表2不難看出,改進的AP聚類算法與k-means聚類算法對相同的數(shù)據(jù)集進行標注,在聚類剪枝后得到的人臉圖像數(shù)大致相等,聚類個數(shù)大致相等的情況下,前者的錯誤率要低于后者。這主要是因為改進的AP聚類算法利用了與圖像相關(guān)的文本信息。與圖像相關(guān)的文本信息在計算圖像相似度時起到了重要的作用。
為了進一步驗證文本信息在聚類與標注過程中的重要性,表3給出了AP聚類算法對含有500幅人臉圖像的小數(shù)據(jù)集進行標注的結(jié)果。可以看出改進的AP聚類算法實驗結(jié)果明顯優(yōu)于AP聚類算法的實驗結(jié)果。對比實驗結(jié)果可以驗證這樣一個事實:來源于網(wǎng)絡(luò)新聞的人臉圖像姿勢、表情與光照情況變化較大,此時單從人臉特征判斷兩圖像的相似度,結(jié)果不可靠。借助于與人臉圖像相關(guān)的人名信息,可以使人臉圖像的相似度判斷結(jié)果更加可靠。
對各聚類標注后,可能存在標注有不同人名的聚類實際上對應(yīng)同一個人。可以通過計算聚類相似度將對應(yīng)著同一個人的不同聚類合并,進而識別出同一個人的不同人名。實驗結(jié)果表明,對于聚類成員個數(shù)大于10的310個聚類進行合并,被正確合并的聚類可達84%。并且對于出現(xiàn)頻率較高的人,聚類合并都是正確的。合并結(jié)果如表4所示。
5結(jié)束語
本文針對網(wǎng)絡(luò)新聞圖文并茂的特性,對AP聚類算法進行了改進。基于這一改進的AP聚類算法,將來源于網(wǎng)絡(luò)的新
聞數(shù)據(jù)進行處理,最終得到一個帶有準確人名標注的人臉圖像數(shù)據(jù)庫,同時支持基于內(nèi)容的人物檢索與基于文本的人物檢索。
參考文獻:
[1] SHRIVASTAVA R,UPADHYAY K,BHATI R,et al. Comparison between K-Mean and C-Mean Clustering for CBIR[C]// Proceed- ings of the 2010 Second International Conference on Computa- tional Intelligence,Modelling and Simulation. CIMSiM,2010:117- 118.
[2] ALEMU Y,JONG B K,IKRAM M. Image Retrieval in Multime- dia Databases: A Survey[C]// Proceedings of the 2009 Fifth In- ternational Conference on Intelligent Information Hiding and M- ultimedia Signal Processing. IIH-MSP,2009:681-689.
[3] MA H,Zhu J K,L Y,et al. Bridging the Semantic Gap Between Image Contents and Tags[J]. IEEE Transactions on Multimedia, 2010,12(5):462-473.
[4] TURK M,PENTLAND A. Face recognition using eigenfaces[C]//Proceedings of the 1991 IEEE Computer Society Conference onComputer Vision and Pattern Recognition. CVPR,1991:586-591.
[5] BERG T L,BERG A C,EDWARDS J,et al. Names and Facesin the News[C]// Proceedings of the 2004 IEEE Computer Soci- ety Conference on Computer Vision and Pattern Recognition. C- VPR, 2004:848-854.
[6] VIOLA P,JONES M. Rapid object detection using a boosted c- ascade of simple features[C]// Proceedings of the 2001 IEEE C- omputer Society Conference on Computer Vision and Pattern R- ecognition. CVPR,2001:511-518.
[7] YANG M H,KRIEGMAN D,AHUJA N. Detecting faces in im- ages: A Survey[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2002,24(1):34-58.
[8] LIENHART R,MAYDT J. An extended set of Haar-like featu- res for rapid object detection[C]// Proceedings of the 2002 Inter- national Conference on Image Processing. ICIP,2002:900-903.
[9] ZHAO W,CHELLAPPA R,KRISHNASWAMY A. Discriminantanalysis of principal components for face recognition[C]// Proce- edings of the third IEEE International Conference on Automatic Face and Gesture Recognition. AFGR,1998:336-341.
[10] BELHUMEUR P,HESPANHA J,KRIEGMAN D. Eigenfaces vs.Fisherfaces:Recognition using class specific linear projection[J].Transactions on Pattern Analysis and Machine Intelligence,19-97,19(7):711-720.
[11] FREY B,DUECK D. Clustering by passing messages between data points[J]. Science,2007:315(5814):972-976.
[12] MEZARD M. Where are the exemplars?[J]. Science,2007,315(5814):949-951.