肖 哲,秦志光,丁 熠,藍 天,于 躍
(電子科技大學 信息與軟件工程學院,四川 成都 610054)
尺度不變特征變換(scale invariant feature transform,SIFT)是最常見的局部特征描述符之一,研究者們在其基礎上提出了許多改進方法[1-4]。根據采樣方式的不同,基于SIFT的圖像特征提取方法可分為稀疏SIFT特征和稠密SIFT特征兩種類型。
稀疏SIFT特征提取方法通常先利用函數映射構建一個多尺度空間,然后通過極值檢測機制在不同尺度中捕捉特異點作為圖像采樣點。該方法能夠從較小數量的樣本中總結出足夠多的圖像局部特征,同時由于在采樣點選擇階段就相當于進行了一個關鍵點篩選的步驟,能夠較為準確地靶定目標圖像中最具代表性的特征,不容易受到背景信息干擾,無需后期加入人工篩選特征的工序,因此在圖像匹配和圖像檢索的任務中表現出色[5,6]。然而,也正因為稀疏SIFT采樣點主要集中在灰度變化敏感的圖像邊緣區域,許多包含在背景區域中的次要信息被丟棄,并且完全忽略了目標空間位置關系等全局信息,不能夠完整地表示整幅圖像的整體屬性,在大數量的復雜圖像分類任務中往往表現不佳。
稠密SIFT(dense scale invariant feature transform)省去了傳統SIFT特征中尺度變換和采樣點檢測的步驟,直接在指定尺寸的采樣窗口中對圖像進行均勻采樣。與稀疏SIFT特征相比,稠密SIFT特征提取方法不需要進行采樣點篩選和特征歸一化等繁瑣計算,特征提取效率較高,易于實現。此外,通過均勻采樣提取到的稠密特征能夠更為全面地描述圖像不同區域的差異信息,并且一定程度上兼顧到圖像空間位置關系等全局信息,更適合圖像表示和圖像分類任務[7,8]。尤其是在視覺詞袋模型提出后,能夠完整描述圖像語義信息的稠密SIFT很快成為視覺詞袋模型中特征提取環節的標準配置之一[9-11]。然而,從另一個角度來看,盡管稠密SIFT特征有如上所述的許多優勢,卻依然無法完全替代稀疏SIFT特征。其中一個原因是圖像的特征描述很大程度上依賴于圖像的尺度,很多細節結構只存在于一定的尺度范圍內,傳統的稀疏SIFT通過高斯金字塔空間來實現圖像的尺度變換,從而可以捕捉到原始圖像中難以發現的深層次細節信息。相比之下,稠密SIFT缺乏多尺度結構,只能發現圖像在單一尺度下表現出來的表層特征,不利于挖掘圖像隱藏在深層次中的細節信息,而這部分信息的缺失勢必會對于圖像分類的結果造成不利的影響。
有鑒于此,本文結合稀疏SIFT和稠密SIFT各自的優勢理念,提出一種基于多尺度空間變換的稠密SIFT特征提取方法。首先,利用離散二維小波對圖像進行濾波,構建基于小波變換的多尺度空間,然后按照稠密網格均勻采樣原則確定特征采樣區域,再分別提取每個小波子頻圖像的稠密SIFT特征,最后將所有子頻圖像中提取到的稠密SIFT特征進行融合。根據上述方法得到的多尺度稠密SIFT特征既保留了圖像的全局信息和空間位置信息,又能夠很好地描述圖像的深層次細節信息,根據3種基于視覺詞袋模型及其衍生模型的圖像分類算法實驗結果表明,該特征提取方法可以有效提高圖像分類任務的正確率。
傳統SIFT特征通常采用高斯差分函數構建圖像的多尺度空間結構,然后在高斯差分空間中檢測極值點并從中篩選出有效的特征采樣點,相應計算方式非常復雜。本文提出的基于多尺度空間的稠密SIFT特征提取方法不需要額外的特征采樣點檢測及篩選環節,因此可以通過更為簡單易用的小波變換代替高斯變換構建多尺度空間。然后利用指定尺寸、步長的滑動窗口在每一級子頻圖像上進行均勻采樣,最后將所有的子頻圖像特征融合,生成具有多尺度特性的稠密SIFT特征。其過程如圖1所示。

圖1 多尺度空間稠密SIFT特征提取方法
圖中k是小波分解層數,n=(a,b,c,d) 是同一層中不同方向上的小波子頻圖像。經過k次小波分解后,就可以獲得包括原始圖像尺度在內的k+1層多尺度空間。除原始圖像外,每層包含4張子圖像,在每張子圖像上提取單尺度稠密SIFT特征,總共可以獲得(k*4)+1組特征向量,最后通過特征融合方法生成多尺度稠密SIFT特征。
小波變換是一種多尺度分析方法,其原理是利用特定的小波基對圖像進行多次濾波操作,從而獲得不同尺度下不同方向的高頻系數與低頻系數集合,其中高頻系數是圖像中像素灰度或顏色變化迅速的部分,包含了圖像的邊緣等細節信息,低頻系數是圖像中像素灰度或顏色變化平緩的部分,包含了圖像的輪廓等背景信息。圖像經過小波變換進行多尺度分解后能夠得到不同分解層的信息增益,在不同尺度下分解的圖像具有不同的特性。
小波變換的關鍵在于小波基的選擇,本文中為簡化運算,采用二維離散Haar小波對圖像進行分解。在利用小波變換對圖像進行濾波處理時,可以將圖像視作一個二維矩陣,如圖2所示,原始圖像圖2(a)在經過橫向、縱向兩次濾波后最終獲得二維離散Haar小波系數圖2(c)。

圖2 二維離散Haar小波變換
原始圖像經過小波變換后映射到不同尺度空間,每一層小波變換空間包含一個低頻子圖像和3個不同方向的高頻子圖像,其中,低頻子圖像反應了圖像的背景信息,高頻子圖像反映了圖像的細節信息。需要注意的是,隨著圖像分解層數的增加,計算的復雜度會急劇增大,實際應用中一般不會超過三層。
原始圖像在經過小波變換后分解為變換層數k個尺度下的 (k*4)+1幅子頻圖像,為了充分挖掘圖像在不同尺度、不同濾波方向上的細節信息,將對每一幅子頻圖像以及原始圖像分別進行稠密SIFT特征提取,然后對提取出來的子頻圖像特征做歸并處理。
稠密SIFT特征提取方法通常首先將圖像劃分為一定尺寸均勻分布的網格,每個網格中提取一個特征點,然后利用傳統SIFT方法,通過統計特征點領域梯度直方圖作為該點特征描述符。該方法一定程度上繼承了傳統SIFT方法的旋轉不變性,同時具有更好的特征分布,但是由于每個網格之間相對孤立,網格尺寸的設定和劃分很大程度上影響到提取到的特征優劣。本文在此基礎上提出一種改進的滑動窗口模式提取子頻圖像的稠密SIFT特征,具體步驟如下:
首先,如圖3所示,預設一個自定義大小的正方形窗口,然后使這個窗口按照一定步長在圖像上自左向右、自上向下滑動,每次滑動截取的窗口即為采樣區塊。

圖3 基于滑動窗口的特征采樣
其次,如圖4所示,將每個采樣區塊劃分為4*4=16個較小的區塊,每個小塊包含若干像素點,圖中每個小方格即為該采樣區塊中心點領域上的一個像素點,小方格中的箭頭長度和方向分別代表該像素點的梯度模值和方向。
通過式(1)計算每個像素點的梯度模值m(x,y)和梯度方向θ(x,y)。其中(x,y)為該像素點所在的坐標位置,L為該像素點的灰度值

(1)
然后根據高斯環形加權進行統計,生成8個方向上的梯度直方圖,取直方圖的峰值作為該區塊的主方向。圖4中的圓形區域即為高斯加權的范圍,通常來說,越靠近中心的像素點的方向對該采樣區塊主方向影響越大,因此每個像素點的加權隨著距離增加而減小,具體表現為高斯函數遞減。在獲取采樣區塊的主方向后,將每個小塊的主方向以其所在采樣區塊的主方向為基準進行旋轉,歸入統一的坐標系,這樣在統計每個采樣區塊的梯度直方圖時僅需考慮采樣點和特征點的相對方向,生成的描述符具有旋轉不變性。最后,如圖4中右圖所示,將每個采樣區塊中4*4=16個小塊的8位梯度直方圖連接起來,形成128維特征描述符。
在獲得包括原始圖像在內的所有多尺度空間子頻圖像的稠密SIFT描述符之后,可以直接對特征進行融合以獲得圖像的多尺度稠密SIFT特征,也可以對每個子頻圖像的特征單獨進行訓練分類,然后利用多分類器集成方法對結果進行決策融合。在此,為計算簡便,本文采用特征融合方法獲得多尺度稠密SIFT特征。
為驗證本文提出的多尺度稠密SIFT特征的有效性,以及在不同圖像分類算法中的普適性,實驗分別采用3種常見的圖像分類算法進行測試,分別為:視覺詞袋模型(bag of visual word,BOVW)、基于直方圖交叉核的視覺詞袋模型(histogram intersection kernel,HIK)、以及基于空間金字塔匹配的視覺詞袋模型(spatial pyramid matching,SPM)。實驗步驟如下:
(1)通過本文方法提取樣本圖像的多尺度稠密SIFT特征;
(2)利用多尺度稠密SIFT特征構建詞袋算法的特征詞典,按照相應算法生成圖像的視覺特征直方圖;
(3)利用LibSVM提供的rbf-SVM分類器進行分類實驗。
本文實驗數據選用來自加利福尼亞理工學院的Caltech 101數據集,包含101個類別8677張圖像。實驗采用3次交叉驗證,將每組圖像通過隨機抽樣均分為A、B、C這3個子集,每次實驗選取其中一個子集作為訓練集,另外兩個子集作為測試集,3輪實驗后取平均值。
由表1可見,在3種不同的圖像分類算法中,本文提出的多尺度稠密SIFT特征分別與傳統SIFT特征相比,分類正確率分別提升了9.6%、6.1%、8.7%,與稠密SIFT特征相比,分類正確率分別提升6.7%、2.6%、5.9%,實驗結果表明本文提出的方法能夠有效提升圖像分類算法的正確率。

表1 圖像分類實驗結果
注:BOVW:視覺詞袋模型;HIK:基于直方圖交叉核的視覺詞袋模型;SPM:基于空間金字塔匹配的視覺詞袋模型。
本文提出了一種基于小波分析的多尺度稠密SIFT特征提取方法,該方法既保留了SIFT特征的多尺度結構和對圖像細節的逐層分析特性,同時也具有稠密SIFT特征覆蓋面廣、兼具圖像空間位置關系等全局信息的優點。實驗結果表明,該方法提取的多尺度稠密SIFT特征可以有效提升圖像分類的準確率。但是,與稠密SIFT特征一樣,本文方法直接提取的特征也存在特征維數過高的問題,有必要在特征融合環節進行特征選擇和特征池化來降低特征維度以提高分類算法效率;另外,對小波基的選擇與小波分解層數的擬定也有待進一步的探討。在后續的研究中,將對上述兩個問題進行深入研究,進一步完善本文提出的特征提取方法。