儲岳中 李家浩 張學鋒 紀 濱
(安徽工業大學計算機科學與技術學院 安徽 馬鞍山 243002)
圖像分類是當前計算機視覺、深度學習和人工智能等領域的研究熱點。在圖像分類這一研究課題下,文獻[1]對該課題近些年的發展作出總結和展望,表示多特征融合這一策略對圖像分類具有非常關鍵的研究意義,并且在選取特征與分類器這兩個關鍵環節的處理對最終分類效果具有深遠影響,往往多特征伴隨著高維度數據且伴有各類噪聲影響。壓縮感知技術研究的熱潮下,文獻[2]提出稀疏表示下的人臉識別算法,通過訓練樣本來計算稀疏系數與字典,然后計算殘差來獲得最終分類的方法,取得很高的識別率。從字典學習的角度,文獻[3]提出KSVD字典學習算法,通過k次迭代,每步計算SVD分解來更新字典原子與對應系數的方法,從而獲得優化的解。文獻[4]在其基礎上改進并提出LC-KSVD算法,通過整合構建字典與優化線性分類器到重建的目標函數中,聯合獲取更優化的學習字典。近些年各類基于稀疏表示的改進方法被不斷提出[5],但很少有多特征融合結合稀疏表示分類器展開研究的方法,由于單一特征對圖像描述不足以及分類器性能存在的差異性,導致傳統的分類方法在最后的分類效果上性能的局限性較大。多特征融合的分類算法近些年不斷被提出,文獻[6]根據特征不確定性提出一種新度量方式去對各類特征貢獻進行調整,以保證融合算法的魯棒性和穩定性。由于多特征融合所帶來的特征維度過高以及特征表現不明確等問題,文獻[7]提出多內核低秩字典學習方法(MKLDPL),能夠有效通過對多特征進行多核字典學習。圍繞圖像分類這一主題,結合多特征融合思想,稀疏表示分類器可有效減少遮擋、旋轉等因素對圖像識別的影響,為圖像分類提供了新的手段。
針對特征提取與分類器融合等問題,本文通過自適應的融合多特征所生成的稀疏表示分類器結果,并結合整體特征與局部輪廓特征在不同分類情景下的權重比等因素,通過對多特征分類器融合決策的方法充分發揮各特征在不同分類情景下的最大優勢。實驗表明,多特征稀疏表示分類器融合的分類方法,較單一特征分類器的效果有顯著提升,構成了一種容錯性高且魯棒性強的多特征融合圖像分類系統。
Gist最早是由文獻[8]提出,而后在2006年文獻[9]提出對圖像使用多尺度多方向Gabor濾波器組進行處理的Gist特征提取方法,全局Gist特征提取一般采用4個尺度、8個方向的Gabor濾波器組進行全局特征的提取。對圖像進行全局Gist特征提取的具體步驟如下:
(1) 將一張大小為m×n的灰度圖片劃分成ma×nb個分塊圖片,每張分塊圖片的大小為m*×n*,其中m*=m/ma,n*=n/nb。
(2) 使用Jc個通道的Gabor濾波器對每塊局部圖像進行卷積濾波,其中Jc個數等于濾波器尺度與方向數的乘積,濾波產生的各網格各通道后級聯的結果為該圖像塊Gist特征,公式為:
(1)
式中:Gi的維數是Jc×m*×n*,由于默認尺度為4個尺度、8個方向,所以i=[1,2,…,32]。
(3) 將Gi(x,y)經濾波器處理后的特征值取均值,再將均值化以后的特征值組合起來,融合形成最終整張圖片的Gist特征,即:
(2)

本文在提取研究目標圖像的Gist特征時,選擇4×4的網格對整張圖像進行劃分,即最后得到的特征維數為32×16=512維。該特征很好地保留了整張照片的全局特征信息,
由于PCA 降維方法能夠對數據進行壓縮,消除冗余和數據噪聲,盡可能保留原始數據中的重要特征信息,最大限度地減少降維帶來的損失,所以采用PCA方法對Gist特征進行降維,以達到最優化效果,縮短分類時間。
SIFT特征描述子是由Lowe[10]于2004年提出的一種對圖像縮放、旋轉和仿射變換具有不變形的特征描述子,根據Koendetink[11]建立的高斯核為唯一線性核理論,提取該特征首先通過對樣本二維平面空間與DoG(Difference of Gaussian)中同時檢測局部極值點,DoG算子如下:
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))×I(x,y)=
L(x,y,kσ)-L(x,y,σ)
(3)
式中:L代表圖像的尺度空間,I(x,y)代表圖像(x,y)位置的像素值,G(x,y,σ)為二維高斯核函數。Lowe在原論文中建議SIFT描述子使用在特征點尺度空間內4×4的窗口中計算的8個方向的梯度信息,共4×4×8=128維向量表示,最終各訓練樣本生成的特征向量為m×n,其中n為圖像生成的特征向量個數。
Dense SIFT特征提取是由SIFT特征提取演變而來,相較SIFT特征描述子更加均勻平衡地分布在圖像的各區域。由于其特征點檢測這一部分不同于SIFT特征,通過對圖像進行等大小的網格劃分,設定一個固定大小n×n的正方形滑動窗口,如圖1所示。按照Bin size進行左右上下滑動,截取生成采樣空間塊,生成8個方向上的梯度直方圖,然后將每個采樣空間塊n×n的8位維度連接起來,形成Dense-Sift描述符。

圖1 Dense-SIFT滑動窗口的特征采樣
方向梯度直方圖(histofram orented gradient,HOG)是由Dalal[12]在2005年提出,具有很強的圖像特征描述能力,對圖像幾何與光照的形變都具有較強的魯棒性。HOG特征對邊緣尤為敏感,在作為融合決策中能夠充分發揮局部特征對分類所產生的重要影響,所以本文選取該特征作為多特征稀疏表示分類之一。HOG算法首先將像素大小為m×n的測試圖像樣本劃分成大小為mi×ni的細胞,并將2×2個細胞組成一個塊,水平方向和垂直方向分別按照一個細胞大小的步長為滑動窗口,計算各像素點的梯度大小和方向,每個細胞內按照像素的梯度方向形成的方向直方圖,方向直方圖的組數b,最后獲得36×(m/mi-1)×(n/ni-1)個特征向量,圖2中對樣本圖像的邊緣信息進行描述。

圖2 圖像灰度圖的HOG特征對應輪廓圖
由圖2可發現,HOG特征對樣本幾何變化性具有較強的魯棒性,對樣本局部輪廓特征具有良好表現,類似于其他特征提取生成特征向量的高維數問題,本文同樣對生成的HOG特征向量進行降維處理,最大程度保存其特征表達的完整性。
設有M類訓練樣本,Ki=[ki1,ki2,…,kini]∈Rm×ni表示第i類訓練樣本所構成的樣本集合,kij∈Rm表示第i類第j個訓練樣本圖像向量,其中m為訓練樣本圖像向量的維數,ni為第i類訓練樣本的個數。D=[D1,D1,…,DM]∈Rm×n表示整個訓練樣本圖像的訓練樣本矩陣,n為訓練樣本圖像的總數,令矩陣D為字典,給定測試樣本y可由字典D表示,即y=Dx。其中,y可由所在類組成的圖像向量線性表示,即y=ki1xi1+ki2xi2+…+kinxin,x為該測試樣本對應字典D的稀疏表示編碼,若訓練樣本數量足夠多,y對應字典D所生成的稀疏表示編碼x稀疏,由于m< (4) 式(4)為NP問題,由文獻[13]提出的可將l0范數問題轉化為求解l1范數最優化問題,由于數據量過多且存在不同程度噪音等影響,加入誤差約束項: (5) class(y)=argminri(y) (6) 最終基于式(6)的分類規則對測試圖像y進行分類。 通過對不同特征生成的分類器進行準確率驗證,分別構造多個稀疏分類器,根據不同的分類器在所有特征情況下的準確率進行權重分配,通過迭代更新不同特征分類器的權重占比,最后通過最終決策分類器輸出結果。 文獻[14]提出關于多分類器融合判別系統,多分類器融合決策的關鍵問題是特征多樣性以及決策融合方法合理性,不同多分類器融合決策系統對不同的需求模型有不同的性能表現。基于此概念,結合在圖像分類這一多因素影響的復雜課題下,具備單一特征信息的分類模型很難具有很良好表現,例如全局Gist特征雖然能夠在全局上很好把握整體輪廓圖像特征完整性,但對于局部特征具有較高決策權重比的分類任務下,僅單靠全局Gist特征來對圖像進行決策分類,效果并不理想。Hog特征著重提取圖像輪廓與方向梯度特征,對表現圖像局部特征有著顯著的效果,但整體旋轉變化魯棒性并不強,在多分類器融合決策下,能夠很好應對復雜情況下的圖像分類問題。 本文通過引入自適應調節各分類器在最終決策結果的影響因子權重比,通過各特征稀疏表示分類器對不同樣本存在不同程度的準確性;通過獎懲因子?合理地對各分類器進行自適應權重調節,?的參數大小選取對分類準確率也有一定影響;通過不斷迭代與自適應更新參數獲得最優多分類器融合決策模型。整個分類決策建模過程如圖3所示。 圖3 基于多特征稀疏表示分類器的圖像識別算法流程圖 具體過程如下: 步驟1首先根據第2節提出的三種特征提取的方法分別對整個訓練樣本進行特征提取,獲得三組訓練樣本特征矩陣: Dk=[D1,D2,…,DM]∈Rd×n (7) 式中:d為該特征維數,M為樣本總類別數,k為第k類特征,Dik為第i類樣本的第k類特征向量。 (8) 步驟3構造分配各稀疏表示分類器初始權重,按照首次各子分類器輸出的分離程度P,獲得初始化特征權重系數為: (9) Wi代表第i類稀疏表示分類所分配的初始化權重比。 步驟4融合各加權稀疏表示分類器的分類結果,確定圖像所屬類別: (10) (11) 仿真環境為Windows 7操作系統,Intel Core i7 CPU,內存16 GB,編程環境為MATLAB 2016a。 為了驗證本文方法相較單個特征提取之后的分類效果有較高提升,基于cifar-10圖像數據數據集進行驗證實驗,本實驗所有數據來自CIFAR-10數據集。該數據集共有60 000幅樣本圖樣,樣本大小均為32×32,像素分為10類,每類6 000幅圖。這里訓練樣本集分5批,每批樣本集包括帶標簽的樣本10 000幅,另剩下10 000幅作為一批用于測試樣本集。由于該數據集中樣本均為彩色圖片,本文進行所有實驗之前,先進行預處理,均對圖片進行了灰度化與歸一化處理,轉換為灰度圖進行特征提取,如圖4所示。 圖4 Cifar-10數據庫部分預處理后的圖像 驗證根據Gist、Dense-SIFT和HOG三種特征,分別對其結合各自生成的稀疏表示器進行單一決策與聯合決策的圖像分類實驗。通過對比單一特征的稀疏表示分類器在不同圖集的正確率,來顯示不同圖像分類任務下各特征對分類結果有不同的表現。 表1顯示了不同特征生成的稀疏表示分類器在各測試樣本圖集上的識別正確率。由表1可以明顯發現不同特征所生成的稀疏表示分類在不同子集上的識別率有著明顯的差異,由此可看出,僅對圖像進行單一的特征提取并不具備良好的分類能力。其中Gist特征稀疏表示分類相比HOG特征稀疏表示分類,在分類準確率上有3%~5%的提升,而Dense-SIFT特征描述子所生成的稀疏表示分類從識別率上明顯優于其他兩種,Dense-SIFT特征更加注重對全局特征信息的均衡表示。 表1 單特征稀疏表示分類器在不同訓練集識別率 % 由第2.2節提出的融合決策方法,對各特征進行自適應權重融合后,不同特征在不同訓練集合上圖像識別率以及權重比如表2所示。 表2 本文方法在不同訓練集下的各特征權重與識別率 由表2可看出,Gist特征與Dense-SIFT所占比重較大,通過結合三類特征各自的稀疏表示分類器的分類結果聯合決策,圖像識別的準確率在五個不同圖集上有著不同程度的提升,通過調整獎懲因子?的參數權重比,來觀測其對準確率的影響。如圖5所示。 圖5 獎懲因子變化所對應分類準確率 由圖5可以看出,獎懲因子?的數值變化對準確率也有著很大影響,通過實驗可以證明在驗證圖集的分類任務下,以因子?=5可讓整個聯合決策分類器效果達到最佳。 為了驗證本文算法相較單一決策分類器的準確率有明顯差距,選取SVM、GSRC[15]、KNN、與本文方法在不同圖集上進行驗證比較,結果如表3所示。 表3 本文方法與其他分類器方法在不同圖集準確率 % 由表3可看出,僅提取單特征產生的稀疏表示分類器進行分類決策的實驗與基于不同分類器在不同子集的實驗作對比,傳統KNN分類器分類準確率僅為0.23至0.25之間,本文方法相對SVM與GSRC分類器的分類效果與分類精度有著顯著的提升。從以上基于單特征下與不同分類器下的2組對比實驗,可以發現,通過使用多稀疏表示分類的融合決策模型進行圖像分類,相比單一特征的圖像分類方法表現出了更好的識別效果。 本文提出了一種多稀疏表示分類器融合的圖像分類方法,通過構造3種特征所生成的稀疏表示分類器的融合決策模型,并自適應調整每個稀疏表示分類之間的權重,最后通過線性加權的方式對圖像進行分類。實驗數據表明,本文方法較好地克服了單特征存在的特征局限性以及不同特征對不同樣本分類情況下的影響權重比不同的問題。在接下來的研究當中,主要還會對選擇組成多稀疏表示分類器的特征這一方向從深度學習與字典學習等方向尋找圖像分類更佳的解決方案。2.2 多分類器權重融合





3 實驗及結果分析
3.1 實驗環境

3.2 單個特征下的圖像分類對比實驗



3.3 基于不同分類器的分類對比實驗

4 結 語