李陳軍,褚 凱,張伯健
(廣西師范大學計算機科學與信息工程學院,廣西 桂林 541004)
隨著計算機科學與互聯網技術的高速發展,全世界每時每刻都在產生大量數據,例如:文本、音頻、圖片、視頻等。大數據含有大量信息,但是這些信息人工難以辨別和整理,因此如何對信息進行分類與識別一直備受廣大研究者關注和研究。各種信息中圖像信息是一種極重要的信息載體,上世紀研究者針對圖像中紋理信息提出很多優秀的圖像算法,為計算機視覺和模式識別領域奠定了堅實的基礎。21世紀,隨著卷積神經網絡(Convolutional Neural Network,CNN)在圖像分類領域取得了很大的突破,計算機視覺進入一個全新的時代。
卷積神經網絡通過多層非線性變換模擬人大腦的學習能力,利用大量有標記的數據進行訓練,在計算機視覺領域取得了顯著的成績。但是卷積神經網絡對于計算性能有著嚴格要求,它只關注圖像區別性最高的部分[1],忽略了圖像中其它細節特征。通過互補特征融合的方法能有效改善特征忽略問題。目前,基于語義特征的融合方法主要分為:異構特征融合,多神經網絡特征融合以及神經網絡多層特征融合。
異構特征融合:基于傳統特征和深層語義特征的融合方法。Wang等人[2]提出了一種基于多方向梯度HOG特征和深度學習特征進行迭代融合的面部表情識別方法。Li等人[3]提取圖像的傳統特征(LBP,SIFT和Color)和深度置信網絡的語義特征,并使用玻爾茲曼機挖掘傳統特征與深層特征的關聯。異構特征融合證明了傳統特征可以有效改善語義特征空間的多樣性。
多神經網絡特征融合:基于不同卷積網絡特征的融合方法。Liu等人[4]通過監督學習的方法訓練不同神經網絡中層特征,使用后期融合策略處理分類器的預測,有效提高圖像分類性能。Zhang等人[5]構建CFR-DenseNet和ILFR-DenseNet雙重網絡,并使用端對端進行訓練,融合兩種不同網絡的特征。T. Akilan等人[6]使用三個完成預訓練的卷積網絡作為特征提取器,使用單個隱藏層將高級特征轉化到低維空間,融合各個特征的豐富信息。與先進方法相比,多特征融合方法在圖像分類準確性上有著足夠的競爭力。
神經網絡多層特征融合:基于單個網絡多個不同特征的融合方法。Song[7]等人引入殘差學習建立了深層卷積網絡,利用深度特征融合網絡將卷積網絡不同層的特征進行加權融合。Feng等人[8]提出MSLN-CNN,在局部和非局部約束下增強圖像,并將不同層次的特征進行融合,在訓練樣本有限的情況下性能表現得極為出色。Guo等人[9]提出了一種多分類器網絡(MCN)使用同一CNN的不同層的語義特征通過自適應的方法進行融合,在多個數據集上驗證了該融合方法的有效性。神經網絡多層特征融合提取網絡的多層語義特征,將抽象程度較低的特征當成深層特征的互補特征,相互融合可以有效改善分類結果的準確性和可靠性。
本文綜合了異構特征融合和多卷積網絡特征融合的優點,提出了一種自適應加權融合算法,能有效,簡潔地將多個語義特征和傳統特征進行融合,極大的提高了分類的準確性。本文所做的貢獻如下:
1)根據圖像顏色和邊緣信息設計出一種手工特征,可以強化特征空間的多樣性,與語義特征形成有效互補;
2)針對不同卷積神經網絡多種語義特征和多種學習方法進行研究和對比,發現不同網絡的語義特征之間的互補性優于同種網絡不同層的特征,將異構特征和多神經網絡特征進行融合,進一步強化特征空間的多樣性;
3)提出了一種新的融合算法,對不同卷積神經網絡多種語義特征和傳統手工特征進行融合,相對于端對端的訓練和融合算法,有著更好的分類性能,并且極大的降低了算法所需的時間成本。
圖像分類方法包括為三個步驟:
1)圖像預處理(包括圖像去噪,光照歸一化等等);
2)圖像特征提取(包括訓練圖像以及測試圖像);
3)利用分類對提取的特征進行學習。
本文根據不同網絡特征之間的差異與互補性,利用權值對多特征進行動態融合(參見圖1)。

圖1 多特征融合的圖像分類算法流程圖
HSV顏色空間與人眼的視覺感知接近,對于顏色之間的差異十分敏感。HSV顏色空間度量顏色信息的參數分別是:色調(H),飽和度(S),明度(V)。將色調,飽和度和明度分別量化為6,4.3份,顏色體積特征的維數為6×4×3=72。本文參考了Hua[10]提出的顏色體積特征,增加了顏色空間特征標記矩陣,提高了顏色之間區分度。并對顏色空間體積特征的累加計算進行了優化與改良,提高了分類性能,同時使其對于語義特征有著更強的互補性。

圖2 HSV顏色空間
將RGB圖像轉化到HSV顏色空間,計算圖像顏色空間體積特征矩陣cv

(1)
根據圖像H,S,V的分量大小,計算圖片不同空間位置像素點的顏色空間特征標記矩陣K

(2)
式(2)中F函數是向下求整。設一張圖像中有多個3×3像素塊,每個像素塊的中心像素的坐標為(x0,y0),其它八個像素坐標分別命名為(xi,yi),其中i∈[1,8],計算9個像素點顏色空間體積的平均值,將其作為中心的顏色空間特征h(x0,y0)。最終將顏色空間特征標記矩陣中標記k相等的顏色空間體積特征累加并統計,即為當前圖像的顏色體積直方圖特征


(3)
方向梯度直方圖[11](Histogram of Oriented Gradient,HOG),是目前計算機視覺和模式識別領域一種常用的圖像邊緣特征。HOG通過計算和統計圖像局部梯度方向直方圖來構成特征,與其它的特征描述方法相比,HOG特征是在局部方格單元上形成的,所以它對圖像幾何和光學上形變都有著良好的不變性,這兩者的形變只會出現在更大的空間鄰域上。
HOG特征的提取過程如下:將彩色圖像轉化為灰度圖像,并利用Gamma校正法減少光照對于圖像信息的影響
I(x,y)=[I(x,y)]Gamma
(4)
計算圖像A的水平梯度Gx和豎直梯度Gy,根據Gx和Gy大小確定為圖像中每一個像素的梯度幅度值G以及梯度方向θ

(5)

(6)

(7)

(8)
圖像分割成多個4×4單元,[0°,360°]劃分為9個bins,將單元中的梯度方向在同一bins的梯度幅度值累加,形成9×1的HOG特征向量。4個單元組合為更大范圍的正方形區間。在區間上為了進一步減少光照和陰影的影響,將不同的單元的特征向量進行歸一化。統計圖片中所有區間的HOG特征,將其合成為最終的特征向量。
HOGCV=[λ*HOG,(1-λ)*CV]
(9)
通過主成分分析方法(Principal Component Analysis,PCA)將HOG特征維度降低至128,與顏色體積直方圖特征分別進行歸一化,根據式(9)融合得到一種新的特征描述符,命名為方向梯度和顏色體積直方圖(Histogram of Oriented Gradient and Color Volume,HOGCV),式(9)中的參數λ推薦使用0.95。HOGCV特征擁有幾何不變性和旋轉不變性,與卷積神經網絡提取的語義特征形成有效互補。
在計算機視覺分類領域,高性能特征貢獻較大,對于特征融合賦予優勢性能特征更高的權重可以有效地融合多種特征,提高特征空間的多樣性。與此同時,考慮到傳統特征性能在異構特征融合中的缺陷,自適應加權融合算法通過性能指標在特征融合中有效地動態地控制多特征融合權重,強化語義特征在多特征融合中的主導地位。
自適應加權融合算法是利用后期融合的策略對分類器的預測進行融合。首先,將提取的多種特征分別輸入不同分類器訓練,統計每一種組合分類結果,將參與融合的分類準確率進行歸一化

(10)
其中Accuracyk表示參與融合的第k種特征的top1分類準確率。高斯分布是一種鐘形曲線,符合特征融合中權重的變化趨勢。利用高斯分布和不同特征的分類結果控制特征融合的權值,并通過高斯分布均值來調整高斯曲線,動態的調整權重變化的快慢,以及確定不同特征的融合權重

(11)
由于傳統特征和語義特征有著較大的性能差距,將不同分類器精確度累加在調整后的權重上,削弱傳統特征對于融合特征的影響,強化語義特征在融合特征中影響性。

(12)
μ=|1-2.5*σ|
(13)


(14)
自適應加權融合算法通過高斯分布均值調整權重曲線,使其能夠根據融合特征的性能動態地調整不同特征的融合權重。此方法在保證語義特征的優勢下將傳統特征與語義特征融合,強化特征空間的多樣性,且能有效的將多網絡的語義特征進行融合。
本文為了驗證提出的多特征融合和圖像分類方法的有效性,使用了不同網絡的多層特征和多種分類方法進行學習,根據性能標準對融合的特征和方法進行篩選。
實驗的硬件環境:CPU Inter Core i7-7700,GPU NVIDIA GeForce GT 730,軟件環境為MATLAB R2018b。
本文在Cifar-10,STL-10,Cifar-100和Caltech-101數據集上對基于卷積神經網絡的多特征融合和圖像分類算法進行了實驗驗證。
Cifar-10數據集:一個接近普適物體的彩色圖像數據集。該數據集一共包含10個類別,每張圖片的尺寸為32×32。每個類別有6000個圖像,此數據集中一共有50000張訓練圖片和10000張測試圖片。
STL-10數據集:該數據集一共有10個類別,每個類有擁有的測試樣本數都大于訓練樣本。每張圖片的尺寸為96×96。此數據集中一共有5000張訓練圖片和8000張測試圖片。
Cifar-100數據集:該數據集包含100個類別,每個類別擁有500張訓練圖像和100張測試圖像,每張圖片的尺寸為32×32,一共有50000張訓練圖片和10000張測試圖片。
GHIM-10K數據集:該數據集一共有10000張圖像,包含20個類,每個類別擁有500張圖片,每張圖片的大小為 300 ×400或400×300。本文在使用時將每個類別前350張圖片作為訓練數據,后150圖片作為測試數據。

圖3 Cifar-10數據集訓練樣本展示

圖4 STL-10數據集訓練樣本展示

圖5 Cifar-100數據集訓練樣本展示

圖6 GHIM-10K數據集訓練樣本展示
本文采用的準確率作為評價指標,計算公式如下

(15)
本文為了減少算法的時間成本,使用三種規模小的卷積網絡提取深層語義特征,并利用預訓練模型提取所需特征,進一步加快了分類速度。經實驗驗證可改用擁有更深層數的卷積網絡或者使用遷移學習,可進一步提高分類精度,但需要更大的時間成本。
本文主要使用以下三種卷積神經網絡:
VGG-16[12]。VGG-16是一個杰出的視覺模型,網絡結構較為整潔,它通過多個小卷積核模擬實現更大的卷積核,極大地極少了模型中的參數。本文提取了該網絡的全連接層fc6,fc7,卷積層conv5_3和池化層pool5的激活特征。
ResNet[13]:ResNet被用來解決隨著網絡深度的增加,系統性能達到飽和,然后迅速退化的問題。本文中,考慮了加快計算速度的淺層網絡ResNet-18作為模型來提取相應特征。本文提取了該網絡的全連接層fc1000,卷積層res5a_branch2b,res5b_branch2b和池化層pool5的激活特征。
SqueezeNet[14]:輕量級網絡,最大程度提高運算速度。SqueezeNet模型核心是Fire模塊,通過減少參數使得單步計算速度增加。本文提取了該網絡的fire9-relu-expand3×3,卷積層conv10和池化層pool10的激活特征。
本文中使用以下方法訓練分類器:
支持向量機[15](Support Vector Machine,SVM),SVM是一種處理模式識別領域分類問題的監督算法,通過尋找樣本的最大邊距超平面,使得特征空間中距離超平面最近的不同類別的點間隔達到最大,SVM相對于其它的分類方法有著更好地穩定性以及健壯性。
K最鄰近算法[16](K-Nearest Neighbor,KNN),KNN算法的實現原理為將已知的樣本作為參照,計算與未知樣本的距離,選取其中距離最近的K個樣本,根據投票法則確定未知樣本的類別。
決策樹[17](Decision Tree DT)是一種自上而下,對樣本空間進行樹形分類的方法,其原理是由上而下計算信息增益比,根據結點的信息增益比對訓練數據進行分割,并建立子結點,然后對子結點遞歸調用此方法,直到每個子集都分配到結點上,就得到了一個決策樹。決策樹的方法通常有三個步驟特征選擇,決策樹的生成和決策樹的剪枝。
線性判別分析[18](Linear Discrimination Analysis,LDA)。其原理是將所有的樣本投影到一維空間,投影后使兩類之間的間隔盡可能的大,而類別之間的差距盡可能得小。
Cifar-10,STL-10及GHIM-10K數據集上,VGG和ResNet全連接層提取的特征優于其它層的特征,SqueezeNet中conv10層特征更優秀,VGG-16網絡相對于其它兩個深層卷積網絡分類效果更優,在未訓練的情況下,達到83%的精確度。四種學習方法中SVM和LDA在三個數據集中總體表現超過另外兩種方法,詳情參考圖7、圖8和圖10。

圖7 Cifar-10數據集上單個網絡最優層精確度

圖8 STL-10數據集上單個網絡最優層精確度
Cifar-100中,VGG的pool層的特征有著優秀的分類性能,且SVM和DT方法在Cifar-100數據集上分類效果顯著,詳情參考圖9。從四個數據集的單層特征實驗結果分析,VGG網絡和SVM方法有著更好的穩健性,單層特征對比其它特征性能最優。

圖9 Cifar-100數據集上單個網絡最優層精確度

圖10 GHIM-10K數據集上單個網絡最優層精確度
針對卷積神經網絡單層特征的實驗結果,利用卷積神經網絡特征對自適應加權融合算法進行驗證。多個數據集上兩層卷積特征融合結果,表1至表5。表中R為ResNet-18,V為VGG-16,S為SqueezeNet,ResNet-18網絡中fc1000層簡化為fc,p代指pool層,c代指onvc。Accuracy單層特征的分類結果,Accuracy2代指雙特征融合的精確度。

表1 Cifar-10數據集上兩種特征融合的精確度(%)

表2 STL-10數據集上兩種特征融合的精確度(%)
雙特征融合實驗結果表明:同種網絡中語義特征融合的精確度低于不同網絡的語義特征融合的精確度,證明不同網絡特征之間互補性優于同種網絡。Cifar-10,STL-10,Cifar-100和GHIM-10K數據集上雙特征融合準確率相對于單層語義特征提高了5%~8%,參照表1-表4。

表3 Cifar-100數據集上兩種特征融合的精確度(%)

表4 Cifar-10,STL-10,Cifar-100數據集上多方法精確度對比(%)
經過實驗驗證不同網絡的特征在超過三種后或者同網絡多特征通過此融合方法性能提高十分有限。在多CNN特征融合的基礎上,進一步利用HOGCV特征強化特征空間多樣性,參考表5,HOGCV特征對多特征融合的結果有1.5%左右的提高,說明了HOGCV特征能有效強化高級語義特征的多樣性,與高級語義特征有著良好的互補性。Cifar-10,STL-10,Cifar-100和GHIM-10K數據集上經過三個不同CNN特征以及HOGCV特征融合,最終分類精度分別達到了93.39%,93.13%,74.58%和90.34%,相比于單個特征的最優結果對比準確率有著7%到12%提高,對比雙特征融合的結果有著5%左右的提高,證明了自適應加權融合算法的有效性。

表5 Cifar-10,STL-10,Cifar-100以及Caltech-101數據集上多種特征融合的精確(%)
本文利用預訓練模型提取語義特征,通過性能自適應調整融合權重,利用HOGCV特征加強融合特征的多樣性,進一步強化了分類性能,在多種數據集上的實驗結果表明本文提出的算法具有普適性。與多種先進方法的研究結果進行了對比,文中的方法擁有更顯著的性能,并且由于使用的模型都是輕量級且無需進一步訓練,效率較高,對于圖像分類領域現實應用有著極大的意義,參考表6。

表6 Cifar-10,STL-10,Cifar-100數據集上多方法精確度對比(%)
卷積神經網絡的快速發展極大推動了計算機視覺領域的進步,對傳統手工特征帶來了新的機遇和挑戰,本文提出了一種基于圖像顏色和邊緣的手工特征:方向梯度和顏色體積直方圖(HOGCV),用于提高了語義特征空間的多樣性,還提出利用準確率動態控制多種語義特征和傳統特征的自適應加權融合算法,并使用預訓練的網絡模型提取語義特征,在保證分類結果的同時,極大地加快了算法的計算速度。實驗結果證明了不同網絡語義特征的互補性更優,驗證了 SVM對多種卷積神經網絡的健壯性,HOGCV特征對于語義特征強化作用和自適應加權融合算法的有效性。本文通過復雜的融合算法得到了更好地性能,而且在細粒度圖像分類上不出色,今后研究目標是優化融合算法和結構,強化其在細粒度圖像分類中表現。