阿麗亞·巴吐爾,努爾畢亞·亞地卡爾,吾爾尼沙·買買提,阿力木江·艾沙,庫(kù)爾班·吾布力
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊,830046; 2. 新疆大學(xué) 網(wǎng)絡(luò)與信息中心,新疆 烏魯木齊,830046)
在當(dāng)今信息技術(shù)高速發(fā)展的背景下,多媒體技術(shù)的發(fā)展使文檔圖像在信息的交換中運(yùn)用越來越頻繁。日益增長(zhǎng)的需求使文檔圖像的數(shù)量越來越龐大,這就要求文檔圖像存儲(chǔ)系統(tǒng)能夠?yàn)橛脩籼峁┛焖俑咝У臋z索服務(wù),為了達(dá)成這一目標(biāo)許多國(guó)內(nèi)外學(xué)者進(jìn)行了卓有成效的研究[1-2]。王澎等[3]提出提取圖像關(guān)鍵點(diǎn)的64維SURF特征集,計(jì)算每一維上的一階中心矩與加權(quán)絕對(duì)中心矩,形成特征向量,將其作為SVM分類的依據(jù),對(duì)1 000幅圖片進(jìn)行分類,獲得86.8%的正確分類率。趙璐璐等[4-5],對(duì)提取的64維SURF特征點(diǎn),基于FLANN算法進(jìn)行雙向匹配,對(duì)匹配對(duì)進(jìn)行PROSAC分析,剔除誤匹配對(duì),提高圖像匹配精度,有效縮短匹配占用時(shí)間。閆麗等[6],擴(kuò)展Haar響應(yīng),生成包含線特征、中心環(huán)繞特征、角點(diǎn)特征的Haar-Like特征集,提高描述子的區(qū)分率,基于歐氏距離比實(shí)現(xiàn)遙感圖像的快速準(zhǔn)確匹配。陳劍虹等[7]提出改進(jìn)SURF關(guān)鍵點(diǎn)檢測(cè),提取圖像細(xì)節(jié)區(qū)域的特征點(diǎn),不經(jīng)過非極大值抑制有效去除邊緣點(diǎn)與低對(duì)比點(diǎn),將優(yōu)先隊(duì)列(BBF)融入到KD-Tree雙向匹配中,實(shí)現(xiàn)穩(wěn)定、快速魯邦特征的精確匹配。羅楠等[8]對(duì)SURF特征描述進(jìn)行改進(jìn),用改進(jìn)DAISY描述算子為每個(gè)關(guān)鍵點(diǎn)分配主方向,形成維數(shù)為200的特征向量,并通過最近鄰距離比(NNDR)匹配目標(biāo)圖像,其最大匹配率達(dá)到95.78%。王亞文等[9]基于中心-邊緣區(qū)域比較模板匹配算法有效跟蹤目標(biāo)區(qū)域,提取SURF特征,將匹配對(duì)數(shù)目與模板匹配數(shù)目比較自適應(yīng)調(diào)整跟蹤窗口,實(shí)現(xiàn)目標(biāo)檢測(cè)。這些方法分別對(duì)特征提取和匹配方式進(jìn)行不同程度的改進(jìn),但是檢索時(shí)間或檢索準(zhǔn)確率需要進(jìn)一步提高。
本文提取改進(jìn)的N×64維SURF特征,并對(duì)其實(shí)現(xiàn)FLANN雙向匹配,依次統(tǒng)計(jì)匹配性能參數(shù),并將其作為相似性度量依據(jù),從大規(guī)模圖像數(shù)據(jù)庫(kù)中有效檢索輸出目標(biāo)文檔圖像。此外,為降低檢索復(fù)雜度,筆者運(yùn)用基于距離的相似性度量方法,快速查找目標(biāo)文檔圖像。
本文對(duì)細(xì)節(jié)信息豐富的維吾爾文復(fù)雜文檔圖像進(jìn)行研究,不對(duì)其進(jìn)行版面分析,對(duì)改進(jìn)SURF特征實(shí)現(xiàn)脫離于詞袋模型的檢索方法,從大規(guī)模圖像數(shù)據(jù)庫(kù)中實(shí)現(xiàn)有效檢索。本文算法流程如圖1所示。

圖1 基于改進(jìn)SURF特征的維吾爾文印刷體復(fù)雜文檔圖像檢索流程框圖Fig.1 The block diagram of Uyghur printed complex document image retrieval based on modified SURF feature
圖1中的快速魯棒特征(SURF)提取過程與SIFT相似,由關(guān)鍵點(diǎn)檢測(cè)與特征描述兩部分構(gòu)成。但其維持圖像尺寸不變,以倍數(shù)關(guān)系改變盒子濾波器的尺寸、尺度,在積分圖像的基礎(chǔ)上濾波構(gòu)建尺度空間,使得特征檢測(cè)耗用時(shí)間遠(yuǎn)短于SIFT。在特征描述中,統(tǒng)計(jì)扇形區(qū)域內(nèi)的Haar小波響應(yīng)值,確定關(guān)鍵點(diǎn)的主方向,累加統(tǒng)計(jì)劃分區(qū)域內(nèi)X、Y方向的Haar值與Haar絕對(duì)值,降低計(jì)算復(fù)雜度。
計(jì)算灰度圖像在(x, y)處的積分值,并與不同尺度下的高斯函數(shù)二階偏導(dǎo)數(shù)做卷積運(yùn)算。為降低計(jì)算復(fù)雜度,用不同尺寸、尺度的盒子濾波器近似替代卷積結(jié)果,形成不同尺寸條件下的Hessian矩陣行列式。最后,計(jì)算Hessian行列式的跡,并與相鄰尺度下的26個(gè)像素點(diǎn)進(jìn)行非極大值抑制(NMS)運(yùn)算,獲取SURF關(guān)鍵點(diǎn)的精確位置[10-11],其數(shù)學(xué)表達(dá)式如下:

式中: I ∑(X,Y)為積分圖像,H(x, σ)為Hessian矩陣行列式,Lxx(x, σ)、Lyy(x, σ)分別為 X 方向、Y 方向的二階偏導(dǎo)數(shù)卷積,Lxy(x, σ)、Lyx(x, σ)為混合偏導(dǎo)數(shù)卷積。Dxx(x, σ)為盒子濾波近似值。對(duì)應(yīng)SIFT,構(gòu)建4組尺度空間,每組含有不同尺寸、尺度下的盒子濾波。其層次表達(dá)如圖2所示。
當(dāng)盒子濾波器尺寸為N×N時(shí),其對(duì)應(yīng)的高斯尺度為 s=σ0×N/9,其中 σ0=1.2。尺度空間中取每一點(diǎn)的Hessian跡[12],其表達(dá)式為


圖2 SURF尺度空間示意Fig.2 Schematic diagram of SURF scale space
在尺度空間被檢測(cè)出的關(guān)鍵點(diǎn)對(duì)文檔圖像的尺寸、平移和旋轉(zhuǎn)有魯棒性。給SURF局部特征點(diǎn)分配主方向來保證其旋轉(zhuǎn)不變。以5°為量級(jí),在60°滑動(dòng)扇形區(qū)域內(nèi)累加求和每一個(gè)像素點(diǎn)在水平、垂直方向上的Haar小波響應(yīng)分量,求其最大值作為此關(guān)鍵點(diǎn)主方向[13]。以關(guān)鍵點(diǎn)為中心取20×20區(qū)域,將這個(gè)區(qū)域又按4×4的大小劃分成25個(gè)子區(qū)域,然后依次計(jì)算每個(gè)小區(qū)域的像素點(diǎn)的水平方向和垂直方向的Haar值以及絕對(duì)和值,最后將提取64維SURF特征向量。
原始SURF特征相比于SIFT,被檢測(cè)特征點(diǎn)數(shù)目少、特征提取占用時(shí)間短。但是,對(duì)于圖文混排的復(fù)雜文檔圖像,縮短時(shí)間參量不理想。因此,為實(shí)現(xiàn)維文復(fù)雜版面圖像中關(guān)鍵點(diǎn)的快速檢測(cè),本文提取文檔圖像的灰度信息和角點(diǎn)。檢測(cè)角點(diǎn)時(shí)用FAST算法,并用SURF算子描述,構(gòu)成64維FAST+SURF特征,有效縮短特征提取時(shí)間[14]。其特征檢測(cè)算法流程如圖3所示。

圖3 改進(jìn)SURF特征關(guān)鍵點(diǎn)檢測(cè)流程框圖Fig.3 Flow chart of improved SURF feature key point detection.
獲取具有平移、縮放不變性的關(guān)鍵點(diǎn)后,為維持旋轉(zhuǎn)不變性,給被檢測(cè)的FAST關(guān)鍵點(diǎn)進(jìn)行SURF描述,統(tǒng)計(jì)劃分子區(qū)域內(nèi)Haar小波響應(yīng)的水平、垂直分量累加值與絕對(duì)累加值,形成N×64維特征。
如果采用傳統(tǒng)的方法進(jìn)行特征匹配不僅計(jì)算量大,耗時(shí)長(zhǎng),而且系統(tǒng)的內(nèi)存占用率較高。維吾爾文復(fù)雜文檔圖像的文字區(qū)域中存在較多的黑像素信息,被檢測(cè)關(guān)鍵點(diǎn)數(shù)目較多。因此,為有效提高匹配速率,筆者對(duì)不同版面圖像實(shí)現(xiàn)雙向快速近似最近鄰(FLANN)匹配,將其結(jié)果與KDTree+BBF匹配結(jié)果進(jìn)行對(duì)比分析,以系統(tǒng)性能作為基本出發(fā)點(diǎn)來構(gòu)建匹配系統(tǒng),從而使系統(tǒng)能夠?qū)?fù)雜的維吾爾文文檔圖像進(jìn)行高效的檢索。
設(shè)用戶輸入查詢圖像與維吾爾文復(fù)雜文檔圖像庫(kù)中,待匹配圖像的改進(jìn)SURF特征向量集分別為 A =[x1x2···xN]T, B =[y1y2···yN]T。通過計(jì)算xi到特征向量B的最大和最小距離,并設(shè)定閾值為γ=ρ×Mini。如果計(jì)算所得距離小于設(shè)定閾值,則記錄該點(diǎn)并等待進(jìn)一步匹配計(jì)算,如果距離大于設(shè)定閾值,則繼續(xù)進(jìn)行其他點(diǎn)的匹配。由于FLANN算法具有匹配速度快的特點(diǎn),所以本文采用FLANN算法進(jìn)行匹配,并在先后兩個(gè)方向同時(shí)開始匹配,這樣能夠快速獲得所需匹配對(duì)的相似性信息,從而進(jìn)行進(jìn)一步的判斷。具體為:先從A到B的方向開始匹配,然后再?gòu)腂到A的方向進(jìn)行匹配,分別形成位置信息集合。這樣逐次將的大小與進(jìn)行比較,如果大小相同則說明完全匹配。同時(shí)在匹配過程中通過RANSAC算法求出將要進(jìn)行匹配的點(diǎn)與影射矩陣的距離,并用此距離與設(shè)定的距離閾值進(jìn)行比較,這樣做的目的是為了能夠比較有效地去掉誤匹配點(diǎn)對(duì),從而使個(gè)匹配點(diǎn)對(duì)能夠準(zhǔn)確地匹配。原始圖像FALNN雙向匹配結(jié)果如圖4所示。
KD-Tree的匹配主要由樹形結(jié)構(gòu)的建立與最近領(lǐng)查找等兩個(gè)部分組成。KD-Tree搜索能力與特征向量的維數(shù)相關(guān),維數(shù)越大,搜索能力越差。因此,本文從改進(jìn)的KD-Tree出發(fā),將得到的距離結(jié)果與預(yù)設(shè)的閾值相比較,判斷是否為匹配關(guān)鍵點(diǎn)[15]。本文中對(duì)改進(jìn)64維SURF特征實(shí)現(xiàn)改進(jìn)KD-Tree匹配的過程如圖5所示。

圖4 改進(jìn)SURF特征雙向FLANN匹配示意Fig.4 Schematic diagram of improved SURF features bidirectional FLANN matching

圖5 改進(jìn)KD-Tree匹配過程描述Fig.5 The description of improved KD-Tree matching
匹配系統(tǒng)在不同變換條件下的匹配效率一般是由匹配率(MR)、正確匹配率(CMR)與錯(cuò)誤匹配率(IMR)來衡量,它們計(jì)算公式分別為

式中:Nc和 Nd分別為總匹配對(duì)數(shù)目和被檢測(cè)的特征點(diǎn)數(shù);Nac和Nai分別指正確匹配對(duì)總數(shù)和錯(cuò)誤匹配對(duì)總數(shù)。
用戶輸入查詢復(fù)雜文檔圖像,系統(tǒng)自動(dòng)獲取64維改進(jìn)SURF特征向量,與特征向量庫(kù)之間基于多種相似性度量算法,從數(shù)據(jù)庫(kù)中查找目標(biāo)文檔圖像,返回用戶界面。本文運(yùn)用兩種相似性度量算法實(shí)現(xiàn)用戶特定目標(biāo)文檔圖像的檢索,即基于距離的相似性度量與基于匹配數(shù)目的相似性度量。文中用4種特征向量間距離相似性度量算法,其數(shù)學(xué)表達(dá)式為

對(duì)于同一個(gè)查詢文檔圖像的改進(jìn)SURF特征向量,基于上述四種距離分別度量相似性,實(shí)現(xiàn)維吾爾文復(fù)雜文檔圖像的檢索,以檢索率為系統(tǒng)性能指標(biāo),評(píng)估本系統(tǒng)有效性。在以匹配數(shù)目為檢索依據(jù)的檢索系統(tǒng)中,從匹配數(shù)目和正確匹配數(shù)目考慮,統(tǒng)計(jì)查詢圖像與圖像庫(kù)中每幅圖像之間的正確匹配數(shù)目,將其按降序排序,實(shí)現(xiàn)文檔圖像的有效檢索。其中越相似復(fù)雜文檔圖像,則其匹配數(shù)目越大。本文計(jì)算系統(tǒng)檢索率的表達(dá)式為

式中:N是指復(fù)雜文檔圖像數(shù)據(jù)總的樣本數(shù),S是指系統(tǒng)檢索出來的目標(biāo)文檔圖像的位置序號(hào)。
收集維吾爾文復(fù)雜版面書籍、雜志、公文,以不同分辨率 (100 dpi,200 dpi,400 dpi)掃描形成8位的.bmp格式的維文復(fù)雜文檔圖像,構(gòu)造含有1 000幅不同分辨率、不同底色信息、不同版面結(jié)構(gòu)的復(fù)雜文檔圖像的數(shù)據(jù)庫(kù)。本系統(tǒng)是在Windows7環(huán)境下用Visual Studio 2010+openCV-2.4.10編程開發(fā)的。
SURF特征在檢測(cè)的時(shí)候主要是靠尺度空間層數(shù) (Octaves)、組數(shù) (Intervals)、斑點(diǎn) (THRES)閾值的選擇。閾值 (Octaves,Intervals,Init-sample,THRES)選定的不同,提取的特征點(diǎn)數(shù)目也不相同。為驗(yàn)證FAST+SURF特征的效率,在不同的閾值條件下,對(duì)1 606×2 290的同一張圖像進(jìn)行實(shí)驗(yàn),統(tǒng)計(jì)關(guān)鍵點(diǎn)數(shù)和特征提取時(shí)間,實(shí)驗(yàn)結(jié)果如表1給出。
從表1可以得到,尺度空間閾值的變化對(duì)SURF特征點(diǎn)的檢測(cè)尤為重要。層數(shù)與層間組數(shù)的變化由改變盒子濾波器數(shù)目來實(shí)現(xiàn),其影響表現(xiàn)在對(duì)積分圖像的處理上,且特征檢測(cè)耗用時(shí)間上有微小差異。閾值的變化極大影響了最終檢索結(jié)果。對(duì)于每一個(gè)候選點(diǎn),取其上下鄰域空間中的26個(gè)像素點(diǎn),相互比較Hessian矩陣行列式值。若候選點(diǎn)Hessian行列式值比26個(gè)像素點(diǎn)行列式值都大或都小且小于閾值,則此候選點(diǎn)視為關(guān)鍵點(diǎn)。本文考慮多個(gè)閾值參數(shù)對(duì)SURF關(guān)鍵點(diǎn)檢測(cè)的影響,并為減少時(shí)間和計(jì)算復(fù)雜度,提出了FAST+SURF特征提取算法。為驗(yàn)證該方法的優(yōu)越性,在 (4,4,2,0.000 4f)閾值下提取相同版面不同尺寸的維文復(fù)雜文檔的SURF特征,將其與不同灰度閾值下的FAST+SURF特征進(jìn)行性能分析,實(shí)驗(yàn)結(jié)果如表2所示。

表2 在同一個(gè)閾值下同一幅不同尺寸圖像中檢測(cè)的FAST+SURF關(guān)鍵點(diǎn)與時(shí)間對(duì)比表Table2 The comparison table of detecting FAST+SURF key points and time using different image sizes in a same threshold
經(jīng)多次實(shí)驗(yàn)發(fā)現(xiàn)FAST(100)+SURF特征數(shù)目接近在 (4,4,2,0.000 4f)閾值下的原始 SURF 特征數(shù)目。以檢測(cè)FAST關(guān)鍵點(diǎn)來增加被檢測(cè)特征點(diǎn)總量為付出,就可以很大程度上減少在特征點(diǎn)檢測(cè)上耗費(fèi)的時(shí)間復(fù)雜度,這樣不僅能夠明顯優(yōu)化匹配效率,還能夠讓快速檢索維吾爾文復(fù)雜文檔圖像成為可能。從表2中能夠了解到,同一幅不同尺寸圖像的SURF特征點(diǎn)數(shù)目隨圖像尺寸變大而增多。而本文提出的改進(jìn)FAST+SURF特征中,特征點(diǎn)數(shù)目不與圖像尺寸成正比關(guān)系。FAST角點(diǎn)檢測(cè)中,建立高斯卷積或Haar濾波的尺度空間、計(jì)算高斯函數(shù)導(dǎo)數(shù)與積分圖像的卷積是完全沒有必要的,我們只需要檢測(cè)相對(duì)周圍像素點(diǎn),檢測(cè)都亮或都暗區(qū)域,這樣能夠明顯縮短特征檢測(cè)時(shí)間同時(shí)也顯著降低計(jì)算復(fù)雜度。為檢測(cè)本文提取特征對(duì)旋轉(zhuǎn)、尺度、光照變換的魯棒性,進(jìn)行不相同變換的情況,選擇大小為1 606×2 290的維吾爾文復(fù)雜文檔圖像且提取改進(jìn)SURF特征,同時(shí)分別用FLANN雙向匹配、KD-Tree+BBF匹配尋找能夠精確匹配對(duì)總數(shù)。基于FLANN的雙向匹配對(duì)閾值的依賴性較強(qiáng),其定義為γ=max{α×min_dist, β}。為精確定位閾值,分別在γ=β與 γ=α×min_dist下匹配兩幅相同版面文檔圖像,并得知當(dāng) γ=0.1或 γ=50×min_dist時(shí)匹配性能最可靠。分別在兩種閾值下匹配換后的文檔圖像與原始圖像,統(tǒng)計(jì)匹配性能參數(shù)得知當(dāng)閾值為γ=0.1時(shí),系統(tǒng)匹配性能最可靠。在尺寸變換下FLANN雙向匹配在閾值γ=0.1的下匹配與KDTree+BBF匹配的結(jié)果如下表3所示。

表3 維吾爾文檔圖像尺寸變換下FAST(100)+SURF特征點(diǎn)的兩種匹配結(jié)果[16]Table3 Two kinds of FAST (100)+SURF feature points matching results under Uyghur document image scale transform[16]
將原始的文檔圖像劃分為相等的2塊和4塊,隨著圖像尺寸的減小,被檢測(cè)的特征點(diǎn)數(shù)目也隨之減少,在匹配時(shí),匹配到的關(guān)鍵點(diǎn)數(shù)目也減少。在特征提取時(shí)由于每塊剪切圖像中文字所占比例的不同,提取的特征點(diǎn)的位置也不盡相同。圖像中的非文字區(qū)域是由圖片組成,特征點(diǎn)的分布較為密集,干擾點(diǎn)也較多,關(guān)鍵特征點(diǎn)的選擇比較困難,而文字區(qū)域的特征點(diǎn)分布較為均勻,因此被檢測(cè)局部關(guān)鍵點(diǎn)數(shù)目較多。從表3可以得到以下結(jié)論,使用KD-Tree+BBF匹配時(shí),它的總的匹配對(duì)數(shù)、正確的匹配對(duì)數(shù)、錯(cuò)誤的匹配對(duì)數(shù)比使用FLANN雙向匹配的結(jié)果好。實(shí)驗(yàn)中,隨著圖像尺寸的減小,提取到的關(guān)鍵點(diǎn)的總數(shù)目也成倍減小,匹配時(shí)的正確匹配的數(shù)目也成倍減小,相較于FLANN雙向匹配而言,KD-Tree+BBF匹配時(shí)的正確匹配率要高。但在使用這兩種匹配算法時(shí),KD-Tree+BBF的匹配算法在構(gòu)建與匹配上需遍歷父節(jié)點(diǎn)與葉點(diǎn)且回溯,而FLANN雙向匹配不需要回溯,只需要將近似近鄰替代最近鄰,若實(shí)驗(yàn)圖像過大時(shí),每幅圖像提取的關(guān)鍵點(diǎn)會(huì)變多,而數(shù)量龐大的關(guān)鍵點(diǎn)會(huì)增加運(yùn)算的復(fù)雜度和運(yùn)行時(shí)間,這也給運(yùn)行系統(tǒng)的穩(wěn)定性帶來影響,因此當(dāng)關(guān)鍵點(diǎn)數(shù)量龐大時(shí)FLANN雙向匹配的效果較好。為證明SURF特征的旋轉(zhuǎn)不變性,對(duì)原始圖像進(jìn)行不同角度旋轉(zhuǎn),并分別用這兩種匹配算法進(jìn)行匹配,統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果如表4所示。

表4 維吾爾文檔圖像旋轉(zhuǎn)變換條件下FAST(100)+SURF特征點(diǎn)的兩種匹配結(jié)果Table4 Two kinds of FAST (100)+SURF feature points matching results under Uyghur document image rotation transform
逆時(shí)針或順時(shí)針旋轉(zhuǎn)印刷體維文復(fù)雜文檔圖像,使圖像面積擴(kuò)大,圖像的位置也會(huì)發(fā)生變化,因此特征點(diǎn)的位置也會(huì)改變。由表4可以得出,F(xiàn)ALNN雙向匹配中,當(dāng)旋轉(zhuǎn)不同的角度時(shí),圖像的整體面積不同,關(guān)鍵點(diǎn)的數(shù)也不同。因此匹配時(shí)的正確匹配率也在62.60%~70.28%變化。可見,匹配對(duì)總數(shù)變化率與正確/錯(cuò)誤匹配率相關(guān)。在不進(jìn)行任何旋轉(zhuǎn)變換時(shí),內(nèi)點(diǎn)數(shù)目為最大值為768。在KD-Tree+BBF匹配中,匹配對(duì)數(shù)目減少,從9 335~6 005,變化范圍較大;對(duì)于整體結(jié)果,匹配結(jié)果相對(duì)較好的是KD-Tree+BBF的匹配率,F(xiàn)LANN匹配效果較差,但KD-Tree+BBF檢索工作量大,而FALNN檢索工作量小。當(dāng)旋轉(zhuǎn)角度發(fā)生變化時(shí),F(xiàn)LANN雙向匹配的結(jié)果較好,KD-Tree+BBF匹配的結(jié)果較差。為驗(yàn)證在光照變換條件下的檢索效果,對(duì)原始文檔圖像的亮度進(jìn)行改變,統(tǒng)計(jì)不同亮度變換下的兩種匹配性能參數(shù),實(shí)驗(yàn)結(jié)果如表5給出。

表5 維吾爾文文檔圖像光照變換下的FAST(100)+SURF特征點(diǎn)的兩種匹配結(jié)果Table5 Two types of FAST (100)+SURF feature points matching results with Uyghur document image illumination transform
表5中,在FLANN雙向匹配中,亮度變亮的變化對(duì)匹配的正確率影響較小,在705~758波動(dòng);而亮度變暗的變化對(duì)匹配的正確率影響較大,在803~1 018,這是受采集的實(shí)驗(yàn)樣本的影響,亮度過暗時(shí)會(huì)形成干擾點(diǎn),因此亮度的變化范圍不易過大。在KD-Tree+BBF匹配中,當(dāng)亮度變暗到-60時(shí),實(shí)驗(yàn)樣本整體模糊,樣本的背景色也被列入檢測(cè)范圍,對(duì)檢測(cè)到的關(guān)鍵特征點(diǎn)造成干擾,從而對(duì)匹配時(shí)的匹配數(shù)目造成干擾,影響正確匹配率;亮度變暗時(shí)提取的特征點(diǎn)數(shù)目要多于亮度變亮?xí)r的特征點(diǎn)數(shù)目,匹配的精度也較差。可知,在亮度變換條件下性能較穩(wěn)定的是KDTree+BBF匹配。
由于維吾爾文復(fù)雜文檔圖像庫(kù)是由不同版面、不同底色、不同分辨率文檔圖像采集而建立的。在灰度化過程中,不能有效消除文檔圖像底色,因此底色信息影響關(guān)鍵點(diǎn)檢測(cè)。此外,將圖像幾何均勻分割成不同小塊與整幅圖像匹配時(shí),若圖像版面越相似,則匹配率較高;因此從數(shù)據(jù)庫(kù)中取不具有底色,相似版面結(jié)構(gòu)的分辨率為100 dpi,尺寸為1 606×2 290的100幅維吾爾文復(fù)雜文檔圖像構(gòu)建小規(guī)模圖像數(shù)據(jù)庫(kù)。從中任選一幅圖像,將其幾何均勻劃分成2、4、8塊,分別作為查詢圖像,再以基于匹配距離與匹配數(shù)目為依據(jù)進(jìn)行圖像檢索。由于文檔圖像尺寸大,被檢測(cè)特征點(diǎn)數(shù)目較多,因此系統(tǒng)檢索耗用時(shí)間較長(zhǎng),本文不作為系統(tǒng)性能指標(biāo)。用不同匹配方法所進(jìn)行的檢索實(shí)驗(yàn)對(duì)比如圖6所示。

圖6 改進(jìn)SURF特征實(shí)現(xiàn)維吾爾文復(fù)雜文檔圖像檢索的性能指標(biāo)對(duì)比Fig.6 The performance comparison figure of modified SURF feature based Uyghur complex document image retrieval
將復(fù)雜的文檔圖像分別均勻劃分為等面積的2塊、4塊和8塊,由于每幅圖像的文字分布區(qū)域不同,所以分割后的每小塊中包含的關(guān)鍵點(diǎn)數(shù)目也不同。在本實(shí)驗(yàn)中,當(dāng)被選擇查詢圖像分割成4塊時(shí),絕大部分為非文字區(qū)域,因此提取的特征數(shù)目少,并在完整圖像庫(kù)中檢索含有本區(qū)域的圖像時(shí),檢索率明顯下降。從圖6(a)可知,不同距離相似性度量算法對(duì)檢索系統(tǒng)的影響不同。因此在剪切圖像研究中,基于匹配距離的檢索系統(tǒng)相對(duì)性能優(yōu)于基于匹配數(shù)目的檢索。當(dāng)完整文檔圖像為查詢輸入時(shí),與目標(biāo)圖像關(guān)鍵點(diǎn)位置一一對(duì)應(yīng),因此關(guān)鍵點(diǎn)之間距離為最小;當(dāng)復(fù)雜版面圖像均勻分割分別作為查詢圖像時(shí),被檢測(cè)關(guān)鍵點(diǎn)數(shù)目減少,被分割圖文面積不均勻,在諸多相似版面中難以找出含有被分割區(qū)域的復(fù)雜文檔圖像。從圖6(b)可知,基于匹配數(shù)目的檢索性能優(yōu)于基于距離的檢索。由于局部特征的尺寸變換不變性維使得對(duì)于區(qū)域匹配數(shù)目相對(duì)穩(wěn)定,因此不同分割條件下檢索目標(biāo)文檔圖像的檢索率都接近100%。
在實(shí)驗(yàn)中,采集的原始圖像篇幅較大,特征提取到的特征點(diǎn)數(shù)目太多,這對(duì)最終匹配點(diǎn)的數(shù)目造成很大的影響。因此,為更好地評(píng)估系統(tǒng)性能,對(duì)采集到的原始維吾爾文復(fù)雜文檔圖像數(shù)據(jù)庫(kù)進(jìn)行修改:1) 對(duì)圖像進(jìn)行壓縮,將圖像壓縮成256×256尺寸;2) 對(duì)圖像進(jìn)行剪切,將圖像剪切成256×256尺寸。對(duì)同一幅文檔圖像進(jìn)行兩種修改樣本實(shí)例如圖7所示。

圖7 修改數(shù)據(jù)庫(kù)樣本實(shí)例Fig.7 The sample instance of modified database
從圖7中可以得到,對(duì)原始的整幅圖像進(jìn)行壓縮,會(huì)使圖像的清晰度降低。而對(duì)原始的整幅圖像進(jìn)行剪切,只是剪切圖像的一部分,不會(huì)對(duì)清晰度造成影響,但篇幅的減少也會(huì)使提取的特征點(diǎn)減少。因此改造后的數(shù)據(jù)庫(kù)都會(huì)對(duì)檢索精度有或多或少影響。本文分別從匹配數(shù)目、匹配距離這兩個(gè)方面進(jìn)行測(cè)試,其檢索實(shí)驗(yàn)結(jié)果如表8、9所示。

表8 對(duì)剪切文檔圖像庫(kù)進(jìn)行檢索實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果Table8 The statistical results of the sheared Uyghur document image retrieval experiment

表9 對(duì)壓縮文檔圖像庫(kù)進(jìn)行檢索實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果Table9 The statistical results of the compressed Uyghur document image retrieval experiment
由表8可以得出,由于剪切文檔圖像是從原始文檔圖像上分割的一部分,因此檢測(cè)到的特征點(diǎn)數(shù)目也會(huì)減少。當(dāng)輸入裁剪圖像,在剪切構(gòu)造的維文復(fù)雜文檔數(shù)據(jù)庫(kù)中,基于3種方法檢索,其檢索率都達(dá)到100%,但檢索占用時(shí)間不同。匹配數(shù)目檢索時(shí)需要先比較最近鄰的特征點(diǎn)之間距離,看距離比值是否在設(shè)定的閾值范圍內(nèi),若是,則相匹配,反之不匹配,這就導(dǎo)致檢索時(shí)耗時(shí)較長(zhǎng)。
由于壓縮文檔只是對(duì)原始文檔圖像的縮小,因此其內(nèi)容包含整體圖像內(nèi)容。由表9可知,在時(shí)間損耗上,基于匹配數(shù)目的檢索系統(tǒng)較多,而基于距離相似性度量的檢索時(shí)間較少。對(duì)于剪切文檔和壓縮文檔這兩種數(shù)據(jù)庫(kù),基于匹配數(shù)目的檢索中提取的特征點(diǎn)數(shù)目越多,匹配時(shí)的匹配點(diǎn)數(shù)目也會(huì)增多,則匹配時(shí)間也會(huì)隨之變化。基于距離相似性的檢索中,剪切的文檔圖像篇幅較少,比壓縮的文檔圖像檢索用時(shí)更短。由于人工剪切采集圖像,易受人主觀因素的影響;此外原始圖像庫(kù)是由不同分辨率圖像構(gòu)成,采集時(shí)分辨率越大則圖像獲取內(nèi)容越少,使得圖像失去完整性,因此壓縮圖像檢索時(shí)間比剪切圖像檢索時(shí)間短。
本文為彌補(bǔ)維吾爾文復(fù)雜文檔圖像在檢索領(lǐng)域中的空白,在維吾爾文文檔圖像檢索匹配中運(yùn)用SURF與改進(jìn)SURF特征,使得少數(shù)民族文檔圖像檢索研究進(jìn)一步推進(jìn)。文中通過不同閾值條件下檢測(cè)SURF特征,分析多種閾值對(duì)其影響。因此,為提高特征閾值適應(yīng)性及快速檢測(cè)特征點(diǎn),將FAST角點(diǎn)檢測(cè)與SURF描述相結(jié)合,使特征檢測(cè)時(shí)間壓縮到50~1 425倍。文中筆者對(duì)選取的64維特征向量運(yùn)用兩種匹配,并在尺寸、旋轉(zhuǎn)、光照變換條件下實(shí)驗(yàn)統(tǒng)計(jì)匹配率,對(duì)兩種匹配性能進(jìn)行對(duì)比分析。最后,分別對(duì)原始100幅文檔圖像、壓縮1 000幅圖像、剪切1 000幅文檔圖像,基于多種距離度量特征向量間的相似性,檢索目標(biāo)文檔圖像,將其檢索率與基于匹配數(shù)目的檢索率對(duì)比,亮出以匹配數(shù)目為檢索依據(jù)的搜索系統(tǒng)優(yōu)越性。系統(tǒng)最高檢索率都達(dá)到100%。
但是,由于原始文檔圖像篇幅較大,提取的特征點(diǎn)數(shù)目較多,特征點(diǎn)之間的匹配點(diǎn)數(shù)目也會(huì)增大,因此基于匹配數(shù)目的檢索系統(tǒng)耗用時(shí)間比基于距離的檢索系統(tǒng)較長(zhǎng),系統(tǒng)檢索所占用時(shí)間都不太理想。在保證系統(tǒng)較高的檢索率的前提下,怎樣進(jìn)一步降低時(shí)間開銷是下一步研究重點(diǎn)。