劉自強(qiáng) 周鐵軍 傅冬和
(1.湖南交通工程學(xué)院,湖南 衡陽 421001;2.湖南農(nóng)業(yè)大學(xué)信息與智能科學(xué)技術(shù)學(xué)院,湖南 長沙 410128;3.湖南農(nóng)業(yè)大學(xué)園藝學(xué)院,湖南 長沙 410128)
紋理(texture)是由灰度分布在空間位置上反復(fù)出現(xiàn)而形成的。在圖像空間中,相隔某距離的兩個像素間存在相B關(guān)灰度關(guān)系[1]。常用的紋理特征提取方法有灰度共生矩陣和統(tǒng)B計矩度量方法。
Haralick[2](1973)提出灰度共生矩陣,是一種通過研究灰度的空間相關(guān)特性來描述紋理的常用方法,能定量、準(zhǔn)確地反映圖像的紋理特征。計算圖像中特定方向、距離的兩像素點(diǎn)間灰度值出現(xiàn)的次數(shù),得出目標(biāo)圖像的方向、間隔與幅度大小變化等信息,并將圖像的灰度值轉(zhuǎn)化為紋理特征[3]。
若圖像f(x,y)大小為n×m,灰度級為L,B為f(x,y)圖像的灰度共生矩陣,B(i,j)表示與參考點(diǎn)像素為i、距離為d、方向?yàn)棣壬系南袼鼗叶戎禐閖的像素對出現(xiàn)的次數(shù)。則B(i,j)的計算方法[4]為:

從圖像(x,y)灰度為i的像素出發(fā),與兩像素點(diǎn)角度為θ、距離為d、灰度為j的像素(x+Δx,y+Δy) 對同時出現(xiàn)的概率記為p(i,j,θ,d)。 當(dāng)θ和d確定時,可簡化為p(i,j)。 在Bi實(shí)際應(yīng)用中,θ一般取等方向角度,本文根據(jù)經(jīng)驗(yàn)值參數(shù)設(shè)定,將θ設(shè)為0,步長d設(shè)為1,則:

由灰度共生矩陣可計算出一組用來定量描述紋理特征的特征參數(shù),常用的有熵、對比度、相關(guān)性、能量和同質(zhì)性,分別介紹如下。
(1)熵(ENT),用來度量圖像所具有的信息量。

若圖像沒有任何紋理,熵值ENT很小;若圖像充滿紋理,則p(i,j)值近似相等,圖像的熵值也最大。圖像熵值的大小反映圖像紋理的非均勻程度。
(2)對比度(慣性矩)(CON),描述圖像的清晰程度。

若圖像紋理的溝紋越深,效果越清晰,對比度CON越大。在灰度共生矩陣中,若偏離對角線上的元素值越大,則CON值越大。
(3)相關(guān)性(COR),描述灰度共生矩陣元素在行或列方向上的相似程度。當(dāng)灰度共生矩陣元素值較為均勻時,自相關(guān)值就大,紋理也較為明顯。

(4)能量(角二階矩)(ASM),指圖像灰度分布均勻和紋理粗細(xì)的度量值。

二階矩ASM是灰度共生矩陣各元素的平方和,又稱為能量。若紋理較粗,則元素不均勻,能量值較大;當(dāng)灰度共生矩陣中元素分布較集中于對角線時,表示目標(biāo)圖像灰度分布較均勻。
(5)同質(zhì)性(逆差矩)(HOM),表示灰度共生矩陣中元素的分布到對角線的緊密程度。

若圖像紋理不同區(qū)域間變化不大,則同質(zhì)性HOM值大,表明局部比較均勻。
統(tǒng)計矩度量法[4]是一種基于亮度直方圖的統(tǒng)計屬性的紋理分析方法。統(tǒng)計矩度量法主要有平均亮度、平均對比度、三階矩和一致性這幾個紋理特征,分別介紹如下。
設(shè)p(zi)是灰度值為Zi時,發(fā)生的概率,為i= 0,1,…,L- 1,L圖像的灰度級。
(1)均亮度(平均灰度值)。

(2)平均對比度(方差),表示圖像平均灰度值的波動大小。

相同品種的鮮茶葉葉片紋理特征有一定的相關(guān)性,可將紋理特征作為區(qū)分不同品種的特征因子。依照上述方法提取10類不同品種共100幅鮮茶葉圖像的紋理特征參數(shù),對各品種鮮茶葉圖像的紋理特征參數(shù)求平均值,如表1所示。

表1 茶葉圖像紋理特征平均值
分形理論由Benoit B.Mandelbrot[5-6]提出,是一種能真實(shí) 、準(zhǔn)確地描述不同物體表面紋理特征的有效方法。且分形維數(shù)可作為圖像表面不規(guī)則程度的度量,能體現(xiàn)整體與局部之間的自相似性。袁津生[7]等將一-維 分形維度作為紋理特征,應(yīng)用于葉片識別領(lǐng)域,并用SVM分類器分類,證實(shí)方法的有效性,對鮮茶葉葉片識別有著重要作用。

霍德爾指數(shù)又稱奇異性指數(shù),控制概率密度的奇異性。對于概率密度為μa分形子集的任何可列δ-覆蓋{U}ev定義:分形子集的任何可列δ-覆蓋定義:

目標(biāo)圖像的紋理特征可通過多重分形廣義維數(shù)譜曲線q-D(q)描述[11-13],q階廣義維數(shù)D(q)的多重分形定義為

其中δ為尺度因子,決定網(wǎng)格大小。若M xN目標(biāo)區(qū)域根據(jù)δ分為sxs個網(wǎng)格,則r=s/M,分形體生長界面網(wǎng)格區(qū)域生長概率為
--般用盒子維法求彩色圖片的灰度多重分形維數(shù)及分形譜[14-17]。盒子維法的基本思路步驟:
①將M x N大小的圖像分割成sxs子塊(M/2≥s> 1,s為整數(shù)),令δ=s/m;
②將圖像看作三維空間曲面,x,y表示平面位置,z表示灰度值,xy平面被分割成許多sxs網(wǎng)格,每個網(wǎng)格是一列sxsxs盒子;
③設(shè)圖像灰度在(i,j)第網(wǎng)格中的最大值和最小值分別落在第k和第1個盒子中,則nr(i,j)=l-k+1,表示覆蓋(i,j)網(wǎng)格中的圖像所需的盒子數(shù)目,總盒子數(shù)表示為Nδ=
(④)針對不同計算,應(yīng)用最小二乘法,可得分形維數(shù)D=依照此方法對茶葉圖像多重分形特征平均值進(jìn)行計算見表2.

表2 茶葉圖像多重分形特征平均值
利用單因素多水平方差分析(ANOVA)方法,對10種茶樹品種鮮茶葉圖像的22個特征參數(shù)分別進(jìn)行顯著性水平分析。由于有10個茶樹品種,所以自由度2取值9。當(dāng)顯著水平為0.01時的臨界值:p=F(0.01|1,9)=1.6604x10-4。
利用此方法,對所提取的15個初始特征參數(shù)進(jìn)行單因素10品種方差分析,分別得到的顯著性水平值如表3所示。

表3 方差分析表
對數(shù)據(jù)進(jìn)行特征篩選,去除與目標(biāo)值無關(guān)且?guī)碓肼暩蓴_的特征量。通過多輪末尾淘汰法對特征因子進(jìn)行篩選,對所有特征用libsvm經(jīng)10次交叉驗(yàn)證建立模型可得初始分類精度,依次剔除每一特征。經(jīng)過多輪淘汰后,保留的8個特征參數(shù)如下。
(1)紋理特征:熵、對比度、相關(guān)性、能量。
針對所得到的鮮茶葉圖像樣本數(shù)據(jù)的小樣本、多種類等特點(diǎn)和識別率結(jié)果進(jìn)行分析,通過支持向量機(jī)(SVMKM)、隨機(jī)森林(RF)、貝葉斯(NBC)、Fisher、k近鄰(KNN)、極限學(xué)習(xí)機(jī)(ELM)[18-21]6種分類器從紋理、分形特征識別得出結(jié)果如表4所示。

表4 紋理、分形特征類型識別率
將鮮茶葉的紋理、分形作為識別特征,SVMKM和隨機(jī)森林的識別精度分別達(dá)到89%和88.6%,要高于其他分類器。表明SVMKM和隨機(jī)森林對于小樣本、多種類且特征維數(shù)較高的鮮茶葉樣本數(shù)據(jù)有較高的識別精度。貝葉斯分類精度不高,分類效果明顯較低,這與不同品種鮮茶葉圖像樣本數(shù)據(jù)屬性之間相關(guān)程度較高有關(guān)。通常數(shù)據(jù)在相關(guān)程度高的情況下,屬性選擇結(jié)束后一般會直接進(jìn)行分類,而不考慮先驗(yàn)分布。其余的Fisher、KNN和極限學(xué)習(xí)機(jī)識別精度分別達(dá)到82%、82%和79.9%,表明在品種樣本數(shù)有限的情況下,提取的特征有效且可用于識別不同茶樹品種。
結(jié)合筆者之前對顏色、形狀特征的建模識別研究結(jié)果,再加入紋理、分形特征識別結(jié)果進(jìn)行比較分析,如表5所示。

表5 不同特征類型識別率(%)
由表5可看出,單個類型的特征分類識別時,SVMKM和隨機(jī)森林分類器的識別率都達(dá)85%以上,說明提取的特征效果都較為明顯,能有效區(qū)分不同茶樹品種。其中形狀與紋理特征更為顯著,不僅SVMKM和隨機(jī)森林識別率超過88%,且Fisher、KNN和ELM識別率均接近總體識別率,表明不同茶樹品種的鮮茶葉葉片形狀和紋理有相對明顯的區(qū)別。另外,將多重分形特征應(yīng)用于鮮茶葉圖像識別,通過對比發(fā)現(xiàn),將4個多重分形特征單獨(dú)建模識別,其中SVMKM與隨機(jī)森林能達(dá)到85%的識別精度,但Fisher線性精度只有45%,表明4個多重分形特征信息獨(dú)立性較強(qiáng),線性關(guān)系不明顯。總體來看,多重分形特征有效,能顯著提升總體識別精度。
兩個類型特征兩兩組合識別時,SVMKM和隨機(jī)森林識別率相差不大,均超過88%。但形狀與紋理特征組合時,各種分類器識別率都較為穩(wěn)定,而顏色與分形特征組合時,NBC識別率較差,只有53%,遠(yuǎn)低于其他類型特征組合,表明以顏色和分形為分類特征,通過計算未知樣本后驗(yàn)概率作為該樣本所屬類別的方法效果較差。
3個類型特征組合時,能體現(xiàn)所缺失的那類特征對識別精度的影響程度。SVMKM和隨機(jī)森林識別率受到的影響都不大,但缺少形狀特征時,NBC、Fisher、ELM識別精度與其他類型特征組合差距明顯。
總體來看,每種類型特征都對不同茶樹品種的識別非常重要。只有4個類型特征都組合到一起時,各分類器的識別精度都最高,數(shù)據(jù)集的泛化能力也最強(qiáng)。針對所得到的鮮茶葉圖像樣本數(shù)據(jù)的小樣本、多種類等特點(diǎn)和識別率結(jié)果分析,能達(dá)到91%的識別精度。鮮茶葉葉片與茶樹品種存在對應(yīng)關(guān)系,利用圖像處理方法可分類識別不同品種鮮茶葉,同時也可識別鮮茶葉所屬的茶樹品種。