冀 中,劉 青,聶林紅,龐彥偉
天津大學電子信息工程學院,天津300072
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0389-09
?
基于卷積神經網絡的紋理分類方法研究*
冀中+,劉青,聶林紅,龐彥偉
天津大學電子信息工程學院,天津300072
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0389-09
E-mail: fcst@vip.163.com
http://www.ceaj.org
Tel: +86-10-89056056
* The National Natural Science Foundation of China under Grant Nos. 61271325, 61472273 (國家自然科學基金); the Elite Scholar Program of Tianjin University under Grant No. 2015XRG-0014 (天津大學“北洋學者-青年骨干教師”項目).
Received 2015-05,Accepted 2015-07.
CNKI網絡優先出版: 2015-07-14, http://www.cnki.net/kcms/detail/11.5602.TP.20150714.1558.001.html
摘要:深度卷積神經網絡(convolutional neural network,CNN)在許多計算機視覺應用中都取得了突破性進展,但其在紋理分類應用中的性能還未得到深入研究。為此,就CNN模型在圖像紋理分類中的應用進行了較book=390,ebook=94為系統的研究。具體而言,將CNN用于提取圖像的初步特征,此特征經過PCA(principal component analysis)降維后可得到最終的紋理特征,將其輸入到SVM(support vector machine)分類器中便可獲得分類標簽。在4個常用的紋理數據集上進行了性能測試與分析,結果表明CNN模型在大多紋理數據集上均能取得很好的性能,是一種優秀的紋理特征表示模型,但其對包含旋轉和噪聲的紋理圖像數據集仍不能取得理想結果,需要進一步提升CNN的抗旋轉能力和抗噪聲能力。另外,有必要構建具有足夠多樣性的大規模紋理數據集來保證CNN性能的發揮。
關鍵詞:紋理分類;卷積神經網絡(CNN);計算機視覺
紋理在自然界中廣泛存在,幾乎所有自然界事物的表面都是一種紋理,它包含了圖像的表面信息與其周圍環境的關系,兼顧了圖像的宏觀信息和微觀結構,因此紋理分析在計算機視覺和多媒體分析領域占據重要地位。傳統的紋理分類算法以局部二值模式(local binary pattern,LBP)[1]為代表,并以它為基礎提出了一系列的改進算法,例如ELBP(extended LBP)[2]、CLBP(completed LBP)[3]、LFD(local frequency descriptors)[4]、BRINT(binary rotation invariant and noise tolerant)[5]等。
近年來,深度卷積神經網絡(convolutional neural network,CNN)在圖像分類任務中取得了突破性的進展[6-8],并吸引了許多學者和研究人員投身其中。CNN成功的原因之一是大數據為深度模型的訓練提供了基礎。其中,ILSVRC(ImageNet large-scale visual recognition challenge)[9]作為視覺識別系統性能的測試平臺,在深度架構的發展中起到了至關重要的作用。一些優秀的CNN模型,例如ConvNet[6]、CaffeNet[10]、OverFeat[11]、GoogLeNet[12]等均以此為基礎構建。近期,在研究CNN算法和結構的同時,一些學者還嘗試將ImageNet上訓練的CNN直接應用于場景分類[13]、目標檢測[14]和圖像檢索[15]等其他視覺識別任務中,實驗結果表明預訓練的CNN可以作為通用的特征描述符使用。此外,文獻[16]進一步提出應該將CNN作為計算機視覺領域中的首選模型。
雖然預訓練的CNN在許多計算機視覺任務中都取得了良好的效果,但是其在紋理分類任務中的性能還未得到深入研究。為此,本文較為系統地研究了CNN模型在紋理分類中的性能,通過在4個常用的紋理數據集上的測試與分析,并與傳統的紋理分類算法相比較,表明了其在紋理分類任務中的有效性。由于自然界中采集的紋理圖像大都包含不同程度的旋轉、噪聲等變化,本文還針對CNN在紋理分類中的抗旋轉和噪聲的性能進行討論,指出有必要提升CNN在紋理分類中的抗旋轉能力和抗噪聲能力,以及構建具有足夠多樣性的大規模紋理數據集。此外,本文還將預訓練的CNN與直接訓練的CNN模型進行對比,表明了預訓練CNN模型的有效性。

Fig.1 Process of texture classification with CNN圖1 CNN用于紋理分類的具體流程
本文將在ImageNet數據集上訓練得到的CNN模型應用于紋理分類任務,其具體過程如圖1所示。在訓練階段,首先使用CNN提取預處理后的訓練圖像的特征;其次利用PCA(principal component analysis)技術對所提CNN特征進行維數約簡得到最終的訓練圖像特征;最后結合訓練圖像的特征和標簽,訓練一個SVM(support vector machine)分類器。在測試階段,測試圖像經過與訓練階段相同的預處理、CNN特征提取以及PCA降維等過程得到測試圖像的特征,并將所得特征作為已訓練完成的SVM的輸入,其輸出即為測試圖像的預測標簽。下面介紹所提方法的具體細節。
2.1預處理
CNN作為一種神經網絡結構,其超參數(hyperparameter)在訓練時就已經確定。這些超參數包括神經網絡的層數、每一層網絡中的神經元個數等。因此,為了能夠使用預訓練的CNN提取紋理圖像的特征,需要對紋理圖像進行預處理。
預處理過程主要包括兩個步驟:
(1)將紋理圖像的尺寸統一調整為CNN在預訓練時所設計的輸入大小。針對本文所使用的CNN,紋理圖像在輸入網絡之前均被調整為以下尺寸,即(227×227像素)×3通道。
(2)對調整后的紋理圖像進行均值歸一化操作。本文所使用的CNN是在ImageNet數據集上訓練所得,因此在使用CNN提取特征前,需要將紋理圖像減去ImageNet數據集的平均圖像。
2.2 CNN特征提取
本文所使用的預訓練模型為BVLC Reference CaffeNet(簡稱為CaffeNet),該模型是ConvNet模型的一個變體。CaffeNet包含5個卷積層(convolutional layer),3個最大池化層(max pooling layer)和3個全連接層(fully-connected layer),具體結構描述如表1所示。下面介紹CaffeNet中重要的組成部分。

Table 1 Structure and parameters of CaffeNet表1 CaffeNet網絡結構與參數
2.2.1卷積層
卷積層是CNN的核心結構。卷積層中每個神經元的權值矩陣被稱為卷積核(kernel)或者濾波器(filter),卷積核與輸入之間是局部連接的,因而其網絡參數與全連接方式相比減少很多。每個卷積核通過“滑動窗口”的方式提取出輸入數據不同位置的特征,所得結果為一個二維特征集合,即特征圖(feature map)。本層的特征圖將作為下一層的輸入繼續傳播。
通過訓練,卷積核可以提取出某些有意義的特征,例如第一個卷積層的卷積核類似于Gabor濾波器[17],可以提取邊緣、角等信息。CaffeNet包含5個卷積層(conv1~conv5),其卷積核大小(kernel size)分別為112、52、32、32、32像素,輸出的特征圖數目分別為96、256、384、384、256個,卷積的步長(Stride)分別為4、1、1、1、1像素。多層的結構可以對輸入的圖像進行逐層抽象,獲得更高層次的分布式特征表達。
2.2.2池化層
池化(pooling)是計算機視覺與機器學習領域中的常見操作。所謂池化,就是將不同位置的特征進行聚合。常見的池化方式有平均池化(mean pooling)、最大池化(max pooling)和隨機池化(stochastic pooling)等。CaffNet模型采用最大池化的方式,該模型中的conv1、conv2和conv5層后均連接了一個最大池化層,其池化尺寸均為32像素,池化步長均為2像素。通過池化,不僅可以降低特征的維數,還可以提高特征的魯棒性。
2.2.3全連接層
相比于卷積層的局部連接方式,全連接層的全連接方式將會帶來更多的網絡參數。CaffeNet模型的最后3層為全連接層(full6~full8)。由于之前的卷積層及池化層已經將特征的維數降低至可接受的大小,因而使用全連接層并不會導致特別嚴重的計算負擔。
在CaffeNet的3個全連接層中,full6和full7層均為包含4 096個神經元的隱藏層,而full8層為1 000路的softmax輸出層。雖然這3個全連接層的輸出都可作為通用的特征使用,但文獻[18]中指出,將預訓練的CNN應用于物體識別、圖像檢索等計算機視覺任務時,full6層輸出的特征可以獲得最好的效果,因此本文使用full6層的輸出作為紋理圖像的特征。
2.2.4 Rectified Linear Units
常見的激活函數主要包括sigmoid函數f(x)= (1+e-x)-1和雙曲正切函數f(x)=tanh(x)。然而,就訓練速度而言,使用這些飽和非線性激活函數要慢于使用非飽和非線性激活函數f(x)=max(0,x)[6],該函數被稱為Rectified Linear Units(ReLU)[19]。
文獻[20]指出,除了速度優勢之外,ReLU還具有以下兩個特點:
(1)相比于傳統激活函數,ReLU的單邊抑制更符合生物學觀點;
(2)ReLU可以獲得稀疏表達,其性能比傳統激活函數的性能更好。
因此,CaffeNet模型使用ReLU作為激活函數。具體而言,CaffeNet的conv1~conv5以及full6~full7層后均使用ReLU獲取激活值以繼續前向傳播。
2.2.5 Local Response Normalization
CaffeNet模型在conv1和conv2層后使用Local Response Normalization(LRN)方法來提升網絡的泛化能力,如文獻[6]所述,LRN具體實現如下:

其中,aix,y表示把第i個卷積核作用于位置(x,y)并經過ReLU函數后的激活值;k、n、α和β為LRN的超參數,通常情況下取值為k=2,n=5,α=10-4,β=0.75。
2.3 PCA維數約簡
本文使用CaffeNet中full6層的輸出作為紋理圖像的特征,該層包含4 096個神經元,相應的輸出向量有4 096維,維數相對較高。因此,為降低特征維度,以減小計算負擔,本文使用經典的PCA降維算法對所得特征進行維數約簡,獲得最終的紋理圖像特征,其中所采用的降維原則是保留95%的能量。
2.4 SVM訓練
訓練圖像特征提取完成后,結合訓練圖像的特征和標簽可以訓練得到一個SVM分類器。本文使用LIBLINEAR[21]工具包進行SVM的訓練。LIBLINEAR是一個用于大規模線性分類的開源工具包,其中onevs-the-rest策略被用于多分類SVM的實現。
目前主流的紋理數據集有CUReT[22]、KTH-TIPS[23]、KTH-TIPS_2b[23]和Outex_TC10[24]。本文分別對前3個數據集進行測試,驗證CNN特征的有效性,并在下文討論中,基于Outex_TC10數據集對CNN的抗旋轉性能進行探討。
實驗選取的對比算法主要有:ELBP[2](IVC 2012)、CLBP[3](TIP2010)、VZ_MR8[22](IJCV 2005)、VZ_Joint[25](PAMI 2009)、LFD[4](PR 2013)和BRINT[5](TIP2014),這些對比算法既包括一些經典的算法,也包括目前在各個數據集上取得最好性能的算法,對比算法的實驗性能均為相應文章所提供的數值。由于這些對比算法大多沒有同時對這4個數據集進行實驗驗證,在接下來的實驗對比分析中,這些對比算法并不是在每個數據集都有體現。如未加說明,實驗中CNN即指利用ImageNet預訓練好的CNN模型CaffeNet。下面分別介紹在這4個數據集上的實驗結果及分析。
3.1 CUReT數據集
CUReT數據集包含61類在不同視角、光照和旋轉角度條件下采集的紋理圖像。在每一類圖像中,92張采集角度小于60°的紋理圖被選擇出來用于實驗,每張圖像尺寸為200×200像素。在實驗過程中,本文使用與文獻[22]中相同的劃分方式,即在每類紋理中,隨機抽取N張圖像作為訓練樣本,剩余的92-N張圖像作為測試樣本,數目N依次選取46、23、12和6。在固定數目N的情況下,隨機實驗重復進行10次,使用10次實驗結果的均值作為算法的最終分類結果。
表2給出了CUReT數據集上不同算法性能的比較。由表中數據可以看出,與其他算法相比,在選取訓練樣本不同的情況下,CNN算法均達到了較好的分類性能,例如在N=46的情況下,CNN相比于ELBP、CLBP_S/M/C、VZ_MR8、VZ_Joint和LFD24,3等算法,其分類準確率分別提升了0.87%、1.79%、1.28%、1.46%和0.10%,性能僅次于BRINT。此外,還可以看出,隨著訓練樣本個數的減小,CNN的性能提升明顯增多,這些結果表明了CNN具有較強的表示能力。

Table 2 Performance comparison on CUReT dataset表2 CUReT數據集上性能比較
3.2 KTH-TIPS數據集
KTH-TIPS數據集共包含10類在不同視角、光照和尺度條件下采集的紋理圖像。在每一類圖像中,前5種尺度的45張紋理圖被選擇出來用于實驗,每張圖像尺寸為200×200像素。在實驗過程中,本文使用與文獻[4]中相同的劃分方式,即在每類紋理中,隨機抽取23張圖像作為訓練樣本,剩余的22張圖像作為測試樣本,隨機實驗重復進行50次,使用50次實驗結果的均值作為算法的最終分類結果。各算法在KTH-TIPS數據集上的分類準確率如表3所示。

Table 3 Performance comparison on KTH-TIPS dataset表3 KTH-TIPS數據集上性能比較
C、VZ_MR8、VZ_Joint和LFD24,3等算法,分類準確率有了較大的提高,分別提升了4.77%、3.98%、12.78% 和1.65%。根據公開文獻的調研結果,使用CNN模型的方法在KTH-TIPS數據集上取得了目前最好的性能,進一步表明了CNN在紋理分類任務中的有效性。
3.3 KTH-TIPS_2b數據集
KTH-TIPS_2b數據集是在KTH-TIPS數據集基礎上經過擴展得到的更富挑戰性的彩色紋理圖像數據集。該數據集共包含11類在不同視角、光照和尺度條件下采集的紋理圖像。每類圖像包含4種不同的樣本,分別為a、b、c、d,每種樣本包含108張圖像,每張圖像尺寸為(200×200像素)×3通道。在實驗過程中,隨機選取3種不同樣本進行訓練,剩余的1種樣本用于測試,實驗重復進行4次,使用4次實驗結果的均值作為算法的最終分類結果。
由于KTH-TIPS_2b是彩色數據集,為了檢驗顏色對性能的影響,本文在輸入圖像不同的情況下對CNN的性能進行測試,具體如下:(1)使用彩色原圖作為CNN的輸入;(2)先將彩色圖像轉為灰度圖像,再使用灰度圖像作為CNN的輸入。分類結果如表4所示。

Table 4 Performance comparison between color and gray inputs on KTH-TIPS_2b dataset表4 KTH-TIPS_2b數據集上使用彩色圖像和灰度圖像作為輸入的性能比較
由表4中數據可以看出,盡管在不同的訓練集/測試集樣本劃分情況下,使用彩色圖像和灰度圖像的結果有所差異,但是整體而言,使用灰度圖像的效果要更好。
表5給出了不同算法在KTH-TIPS_2b數據集上的分類性能比較。由于現有算法大多都不考慮顏色的影響,表中只列出了在使用灰度圖像作為輸入的情況下的分類性能比較。由于KTH-TIPS_2b中的圖像相比于上述兩個紋理集(CUReT以及KTHTIPS)中的圖像更加復雜,因而更具挑戰性。從表5中的數據可以看出,所有的算法在KTH-TIP_2b上的分類準確率均低于在CUReT和KTH-TIPS上的準確率。在這種情況下,相比于ELBP、CLBP、VZ_MR8、VZ_Joint和BRINT,CNN的分類準確率分別高出14.64%、15.34%、23.94%、19.94%和10.34%。由此可以說明,CNN具有強大的表示能力和魯棒性,在復雜的紋理分類任務中也能獲得很好的效果。

Table 5 Performance comparison on KTH-TIPS_2b dataset表5 KTH-TIPS_2b數據集上性能比較
下面圍繞預訓練的CNN在紋理分類任務中的應用展開討論,具體包括:
(1)預訓練的CNN與直接使用紋理圖像訓練的CNN的對比;
(2)預訓練的CNN的抗旋轉性能測試;
(3)預訓練的CNN的抗噪聲性能測試。
4.1預訓練的CNN與直接訓練的CNN的對比
為了論述方便,本節使用Direct-CNN表示直接使用紋理圖像訓練的CNN。
本文在CUReT數據集上進行Direct-CNN模型的訓練,具體過程如下:首先,在每類紋理中,隨機選取46張圖像作為訓練樣本,并將剩余46張圖像作為測試樣本。其次,統一將訓練樣本的大小由200×200像素調整為128×128像素。最后,采用Data Augmentation方法增加訓練樣本個數,即選取每張訓練圖像中左上角、左下角、右上角、右下角以及中間的100×100像素圖像塊形成5個新圖像,共14 030(61×46×5)張圖像作為新的訓練樣本。測試時,需將測試圖像的大小調整至與訓練圖像相同,即100×100像素,此時共有2 806(61×46)張測試圖像。
由于數據集訓練數據的限制,較難訓練比較深度的模型,本文僅使用上述訓練數據訓練兩個淺層的Direct-CNN用于測試對比,分別稱為D1-CNN和D2-CNN,其中數字“1”和“2”分別表示CNN模型中卷積層的個數。D1-CNN與D2-CNN的參數如表6所示。

Table 6 Structures and parameters of D1-CNNand D2-CNN表6 D1-CNN與D2-CNN網絡結構與參數
經過50次迭代訓練后,D1-CNN和D2-CNN在測試集上的準確率分別為91.20%和89.27%,低于CNN 的97.64%。原因在于CUReT訓練集中的圖像較少,Direct-CNN難以得到充分的訓練,所以其分類準確率較低;而CaffeNet是在大型數據集ImageNet上進行訓練的,訓練圖像高達上百萬張,可以學習到有效的特征,因此其分類準確率較高。在其他數據集上也取得了類似的結果。這些結果表明了預訓練的CNN的有效性,同時也可知構建大型紋理數據集的必要性。
4.2抗旋轉性能測試
CNN在CUReT、KTH-TIPS、KTH-TIPS_2b等數據集上能夠取得良好的效果,一方面是由于CNN強大的學習能力和表示能力,另一方面也歸功于訓練樣本的多樣性。
為了測試CNN的抗旋轉性能,使用Outex_TC10數據集進行實驗。Outex_TC10數據集共包含24類在“inca”光照下采集的9種不同旋轉角度(0°,5°,10°,15°,30°,45°,60°,75°,90°)的紋理圖像,其中每張圖像尺寸為128×128像素。在實驗過程中,采用標準的訓練方式,即選取旋轉角度為0°的圖像作為訓練樣本,其他旋轉角度的圖像作為測試樣本。在訓練時并未提供其他旋轉角度的圖像,因此可以很好地測試CNN特征自身的抗旋轉能力。實驗結果如表7所示。

Table 7 Performance comparison on Outex_TC10 dataset表7 Outex_TC10數據集上性能比較
表7給出了不同算法在Outex_TC10數據集上的分類準確率的比較。由于傳統的紋理分類方法在設計特征時均針對旋轉變化進行了相應的改進,從而分類準確率較好;而在ImageNet上進行訓練的CNN只具有一定的抗旋轉能力,同時在提取特征時并未提供其他旋轉角度的樣本,因次分類準確率較差。
為了進一步證實上述分析,本文進行了以下補充實驗:與標準方式僅選取旋轉角度為0°的20張圖像作為訓練樣本不同,補充實驗在每類紋理中隨機選取20張作為訓練樣本,剩余的160張作為測試樣本,隨機實驗重復進行50次,使用50次實驗結果的均值作為算法的最終分類結果。表8給出了Outex_ TC10數據集上使用標準和非標準訓練方式的性能比較。由表中數據可以看出,使用隨機方式選取訓練圖像的結果要遠好于使用標準方式選取訓練圖像的結果。這說明雖然CNN自身的抗旋轉能力有限,但是當訓練數據包含足夠的多樣性時,CNN能夠取得良好效果。該結果表明了有必要提升CNN在紋理分類中的抗旋轉能力,以及構建具有足夠多樣性的紋理數據集。

Table 8 Performance comparison between standard and non-standard training on Outex_TC10 dataset表8 Outex_TC10數據集上使用標準和非標準訓練式的性能比較
4.3抗噪聲性能測試
在自然條件下采集的紋理圖像可能包含噪聲,因此特征的抗噪聲能力在紋理分類任務中比較重要。本節在CUReT數據集上添加高斯噪聲以模擬自然條件下采集的帶噪聲的紋理圖像。
在實驗過程中,從每類紋理中隨機抽取46張圖像作為訓練樣本,剩余的46張圖像作為測試樣本,每張圖像上添加高斯噪聲后作為新的訓練/測試樣本。本文使用SNR(signal noise ratio)作為噪聲強度的指標,依次選取SNR=30,15,10,5進行實驗,并與現有文獻中抗噪聲性能最好的算法BRINT進行對比,實驗結果如表9所示。可以看出,在不同的SNR情況下,CNN相比于目前最好的抗噪聲算法BRINT性能降低15%以上,這說明CNN的抗噪聲性能有待提高。

Table 9 Performance comparison with different SNR表9 不同SNR情況下的分類性能比較
本文將ImageNet數據集上預訓練得到的CNN模型應用于紋理分類任務中。實驗表明,預訓練的CNN模型能夠提取出有效的紋理特征,在常用的紋理數據集上均取得良好的效果。尤其在KTH-TIPS 和KTH-TIPS_2b數據集上,本文方法取得了目前為止最高的分類準確率。為了進一步探究預訓練的CNN的性能,本文將預訓練的CNN與直接訓練的CNN進行對比,說明了構建大型紋理數據集的必要性。此外,本文還對CNN的抗旋轉性能與抗噪聲性能進行了測試,說明了提升CNN自身魯棒性和構建多樣性數據集的必要性。
References:
[1] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scaleand rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[2] Liu Li, Zhao Lingjun, Long Yunli, et al. Extended local binary patterns for texture classification[J]. Image and Vision Computing, 2012, 30(2): 86-99.
[3] Guo Zhenhua, Zhang Lei, Zhang D. A completed modeling of local binary pattern operator for texture classification[J]. IEEETransactionson Image Processing,2010,19(6):1657-1663.
[4] Maani R, Kalra S, Yang Y H. Noise robust rotation invariant features for texture classification[J]. Pattern Recognition, 2013, 46(8): 2103-2116.
[5] Liu Li, Long Yunli, Fieguth P W, et al. BRINT: binary rotation invariant and noise tolerant texture classification[J]. IEEETransactionson Image Processing,2014,23(7):3071-3084.
[6] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems 25: Proceedings of the 26th Annual Conference on Neural Information Processing Systems, Lake Tahoe, USA, Dec 3-6, 2012: 1097-1105.
[7] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//LNCS 8689: Proceedings of the 13th European Conference on Computer Vision, Zurich, Switzerland, Sep 6-12, 2014. Berlin, Heidelberg: Springer, 2014: 818-833.
[8] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. arXiv:1409.1556 (2014)[2015-03-30]. http://arxiv.org/pdf/1409.1556.pdf.
[9] Russakovsky O, Deng Jia, Su Hao, et al. ImageNet large scale visual recognition challenge[J/OL]. arXiv:1409.0575 (2014)[2015-03-30]. http://arxiv.org/pdf/1409.0575.pdf.
[10] Jia Yangqing, Shelhamer E, Donahue J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Proceedings of the 2014 ACM Conference on Multimedia, Orlando, USA, Nov 3-7, 2014. New York, USA:ACM, 2014: 675-678.
[11] Sermanet P, Eigen D, Zhang Xiang, et al. OverFeat: integrated recognition, localization and detection using convolutional networks[J/OL]. arXiv:1312.6229 (2013)[2015-03-30]. http:// arxiv.org/abs/1312.6229.
[12] Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[J/OL].arXiv:1409.4842(2014)[2015-03-30].http:// arxiv.org/pdf/1409.4842v1.pdf.
[13] Yoo D, Park S, Lee J Y, et al. Fisher kernel for deep neural activations[J]. arXiv:1412.1628 (2014)[2015-03-30]. http://arxiv. org/pdf/1412.1628.pdf.
[14] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J/OL]. arXiv:1406.4729 (2014)[2015-03-30]. http:// arxiv.org/pdf/1406.4729.pdf.
[15] Babenko A, Slesarev A, Chigorin A, et al. Neural codes for image retrieval[C]//LNCS 8689: Proceedings of the 13th European Conference on Computer Vision, Zurich, Switzerland, Sep 6-12, 2014. Berlin, Heidelberg: Springer, 2014: 584-599.
[16] Razavian A S, Azizpour H, Sullivan J, et al. CNN features off-the-shelf: an astounding baseline for recognition[J/OL]. arXiv:1403.6382 (2014)[2015-03-30]. http://arxiv.org/pdf/ 1403.6382.pdf.
[17] Yosinski J, Clune J, Bengio Y, et al. How transferable are features in deep neural networks?[C]//Advances in Neural Information Processing Systems 27: Proceedings of the 28th Annual Conference on Neural Information Processing Systems, Montreal, Canada, Dec 8-13, 2014: 3320-3328.
[18] Donahue J, Jia Yangqing, Vinyals O, et al. DeCAF: a deep convolutional activation feature for generic visual recognition[J/OL]. arXiv:1310.1531 (2014)[2015-03-30]. http://arxiv. org/abs/1310.1531.
[19] Nair V, Hinton G E. Rectified linear units improve restricted Boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel, Jun 21-25, 2010: 807-814.
[20] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks[C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, USA, Apr 11-13, 2011. Brookline, USA: Microtome Publishing, 2011: 315-323.
[21] Fan Rongen, Chang Kaiwei, Hsieh C J, et al. LIBLINEAR: a library for large linear classification[J]. The Journal of Machine Learning Research, 2008, 9: 1871-1874.
[22] Varma M, Zisserman A. A statistical approach to texture classification from single images[J]. International Journal of Computer Vision, 2005, 62(1/2): 61-81.
[23] Mallikarjuna P, Fritz M, Targhi A T, et al. The kth-tips and kth-tips2 databases[DB/OL]. (2006)[2015-03-30]. http://www.nada.kth.se/cvap/databases/kth-tips/.
[24] Ojala T, Pietikainen M, Viertola J, et al. Outex-new framework for empirical evaluation of texture analysis algorithms[C]// Proceedings of the 16th International Conference on Pattern Recognition,Aug 11-15, 2002. Piscataway, USA: IEEE, 2002: 701-706.
[25] Varma M, Zisserman A. A statistical approach to material classification using image patches[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(11): 2032-2047.

JI Zhong was born in 1979. He received the Ph.D. degree in signal and information processing from Tianjin University in 2008. Now he is an associate professor and M.S. supervisor at Tianjin University. His research interests include multimedia content analysis and ranking, computer vision, feature learning and video summarization, etc. He has published more than 40 scientific papers.冀中(1979—),男,2008年于天津大學獲得博士學位,現為天津大學副教授、碩士生導師,主要研究領域為多媒體內容分析和檢索,計算機視覺,特征學習,視頻摘要等。發表學術論文40多篇。

LIU Qing was born in 1990. He is an M.S. candidate at Tianjin University. His research interests include computer vision and deep learning, etc.劉青(1990—),男,天津大學碩士研究生,主要研究領域為計算機視覺,深度學習等。

NIE Linhong was born in 1991. She is an M.S. candidate at Tianjin University. Her research interests include computer vision and pattern recognition, etc.聶林紅(1991—),女,天津大學碩士研究生,主要研究領域為計算機視覺,模式識別等。
Texture Classification with Convolutional Neural Network?
JI Zhong+, LIU Qing, NIE Linhong, PANG Yanwei
School of Electronic Information Engineering, Tianjin University, Tianjin 300072, China
+ Corresponding author: E-mail: jizhong@tju.edu.cn
JI Zhong, LIU Qing, NIE Linhong, et al. Texture classification with convolutional neural network. Journal of Frontiers of Computer Science and Technology, 2016, 10(3):389-397.
Abstract:Deep convolutional neural network (CNN) has recently achieved great breakthroughs in many computer vision tasks. However, its application in texture classification has not been thoroughly researched. To this end, this paper carries out a systemic research on its application in image texture classification. Specifically, CNN is used to extract preliminary image feature, and subsequent PCA (principal component analysis) operation can reduce its dimensionality to obtain final texture feature which is fed into an SVM (support vector machine) classifier for prediction. This paper does comprehensive experiments and analysis on four benchmark datasets. The results show that CNN is a better texture feature representation and achieves quite good performance in most image texture datasets. However, CNN performs worse in datasets with image noise and rotation. Thus, this paper indicates the necessity to enhance the abilities of noise tolerance and rotation invariance of CNN, and it is necessary to construct a large diverse texture dataset to guarantee its best performance in image texture classification.
Key words:texture classification; convolutional neural network (CNN); computer vision
doi:10.3778/j.issn.1673-9418.1505073
文獻標志碼:A
中圖分類號:TP183