基于紋理和分形的鮮茶葉圖像特征提取在茶樹品種識別中的應(yīng)用

2021-07-02 16:16:26劉自強(qiáng)周鐵軍傅冬和

中阿科技論壇(中英文) 2021年6期

關(guān)鍵詞：特征

劉自強(qiáng) 周鐵軍傅冬和

（1.湖南交通工程學(xué)院,湖南衡陽 421001；2.湖南農(nóng)業(yè)大學(xué)信息與智能科學(xué)技術(shù)學(xué)院,湖南長沙 410128；3.湖南農(nóng)業(yè)大學(xué)園藝學(xué)院,湖南長沙 410128）

1 茶葉紋理和分形特征的提取

1.1 紋理特征提取

紋理（texture）是由灰度分布在空間位置上反復(fù)出現(xiàn)而形成的。在圖像空間中，相隔某距離的兩個像素間存在相B關(guān)灰度關(guān)系[1]。常用的紋理特征提取方法有灰度共生矩陣和統(tǒng)B計矩度量方法。

1.2 灰度共生矩陣

Haralick[2]（1973）提出灰度共生矩陣，是一種通過研究灰度的空間相關(guān)特性來描述紋理的常用方法，能定量、準(zhǔn)確地反映圖像的紋理特征。計算圖像中特定方向、距離的兩像素點(diǎn)間灰度值出現(xiàn)的次數(shù)，得出目標(biāo)圖像的方向、間隔與幅度大小變化等信息，并將圖像的灰度值轉(zhuǎn)化為紋理特征[3]。

若圖像f(x,y)大小為n×m，灰度級為L，B為f(x,y)圖像的灰度共生矩陣，B(i,j)表示與參考點(diǎn)像素為i、距離為d、方向?yàn)棣壬系南袼鼗叶戎禐閖的像素對出現(xiàn)的次數(shù)。則B(i,j)的計算方法[4]為：

從圖像(x,y)灰度為i的像素出發(fā)，與兩像素點(diǎn)角度為θ、距離為d、灰度為j的像素(x+Δx,y+Δy) 對同時出現(xiàn)的概率記為p(i,j,θ,d)。當(dāng)θ和d確定時，可簡化為p(i,j)。在Bi實(shí)際應(yīng)用中，θ一般取等方向角度，本文根據(jù)經(jīng)驗(yàn)值參數(shù)設(shè)定，將θ設(shè)為0，步長d設(shè)為1，則：

由灰度共生矩陣可計算出一組用來定量描述紋理特征的特征參數(shù)，常用的有熵、對比度、相關(guān)性、能量和同質(zhì)性，分別介紹如下。

（1）熵（ENT），用來度量圖像所具有的信息量。

若圖像沒有任何紋理，熵值ENT很小；若圖像充滿紋理，則p(i,j)值近似相等，圖像的熵值也最大。圖像熵值的大小反映圖像紋理的非均勻程度。

（2）對比度（慣性矩）（CON），描述圖像的清晰程度。

若圖像紋理的溝紋越深，效果越清晰，對比度CON越大。在灰度共生矩陣中，若偏離對角線上的元素值越大，則CON值越大。

（3）相關(guān)性（COR），描述灰度共生矩陣元素在行或列方向上的相似程度。當(dāng)灰度共生矩陣元素值較為均勻時，自相關(guān)值就大，紋理也較為明顯。

（4）能量（角二階矩）（ASM），指圖像灰度分布均勻和紋理粗細(xì)的度量值。

二階矩ASM是灰度共生矩陣各元素的平方和，又稱為能量。若紋理較粗，則元素不均勻，能量值較大；當(dāng)灰度共生矩陣中元素分布較集中于對角線時，表示目標(biāo)圖像灰度分布較均勻。

(5)同質(zhì)性(逆差矩)(HOM)，表示灰度共生矩陣中元素的分布到對角線的緊密程度。

若圖像紋理不同區(qū)域間變化不大，則同質(zhì)性HOM值大,表明局部比較均勻。

1.3 統(tǒng)計矩度量

統(tǒng)計矩度量法[4]是一種基于亮度直方圖的統(tǒng)計屬性的紋理分析方法。統(tǒng)計矩度量法主要有平均亮度、平均對比度、三階矩和一致性這幾個紋理特征，分別介紹如下。

設(shè)p(zi)是灰度值為Zi時，發(fā)生的概率，為i= 0,1,…,L- 1,L圖像的灰度級。

(1)均亮度(平均灰度值)。

(2)平均對比度(方差)，表示圖像平均灰度值的波動大小。

相同品種的鮮茶葉葉片紋理特征有一定的相關(guān)性，可將紋理特征作為區(qū)分不同品種的特征因子。依照上述方法提取10類不同品種共100幅鮮茶葉圖像的紋理特征參數(shù)，對各品種鮮茶葉圖像的紋理特征參數(shù)求平均值，如表1所示。

表1 茶葉圖像紋理特征平均值

2 多重分形特征提取方法

分形理論由Benoit B.Mandelbrot[5-6]提出，是一種能真實(shí) 、準(zhǔn)確地描述不同物體表面紋理特征的有效方法。且分形維數(shù)可作為圖像表面不規(guī)則程度的度量，能體現(xiàn)整體與局部之間的自相似性。袁津生[7]等將一-維分形維度作為紋理特征，應(yīng)用于葉片識別領(lǐng)域，并用SVM分類器分類，證實(shí)方法的有效性，對鮮茶葉葉片識別有著重要作用。

2.1 多重分形算法[8-10]

霍德爾指數(shù)又稱奇異性指數(shù)，控制概率密度的奇異性。對于概率密度為μa分形子集的任何可列δ-覆蓋{U}ev定義:分形子集的任何可列δ-覆蓋定義:

2.2 廣義維數(shù)譜曲線

目標(biāo)圖像的紋理特征可通過多重分形廣義維數(shù)譜曲線q-D(q)描述[11-13],q階廣義維數(shù)D(q)的多重分形定義為

其中δ為尺度因子，決定網(wǎng)格大小。若M xN目標(biāo)區(qū)域根據(jù)δ分為sxs個網(wǎng)格，則r=s/M,分形體生長界面網(wǎng)格區(qū)域生長概率為

2.3 盒子維法

--般用盒子維法求彩色圖片的灰度多重分形維數(shù)及分形譜[14-17]。盒子維法的基本思路步驟:

①將M x N大小的圖像分割成sxs子塊(M/2≥s> 1,s為整數(shù))，令δ=s/m;

②將圖像看作三維空間曲面，x,y表示平面位置，z表示灰度值，xy平面被分割成許多sxs網(wǎng)格,每個網(wǎng)格是一列sxsxs盒子;

③設(shè)圖像灰度在(i,j)第網(wǎng)格中的最大值和最小值分別落在第k和第1個盒子中，則nr(i,j)=l-k+1,表示覆蓋(i,j)網(wǎng)格中的圖像所需的盒子數(shù)目，總盒子數(shù)表示為Nδ=

(④)針對不同計算，應(yīng)用最小二乘法，可得分形維數(shù)D=依照此方法對茶葉圖像多重分形特征平均值進(jìn)行計算見表2.

表2 茶葉圖像多重分形特征平均值

3 特征參數(shù)分析及篩選

3.1 茶樹品種間的特征參數(shù)差異性分析

利用單因素多水平方差分析(ANOVA)方法，對10種茶樹品種鮮茶葉圖像的22個特征參數(shù)分別進(jìn)行顯著性水平分析。由于有10個茶樹品種，所以自由度2取值9。當(dāng)顯著水平為0.01時的臨界值:p=F(0.01|1,9)=1.6604x10-4。

利用此方法，對所提取的15個初始特征參數(shù)進(jìn)行單因素10品種方差分析，分別得到的顯著性水平值如表3所示。

表3 方差分析表

3.2 多輪末尾淘汰法特征篩選

對數(shù)據(jù)進(jìn)行特征篩選，去除與目標(biāo)值無關(guān)且?guī)碓肼暩蓴_的特征量。通過多輪末尾淘汰法對特征因子進(jìn)行篩選，對所有特征用libsvm經(jīng)10次交叉驗(yàn)證建立模型可得初始分類精度，依次剔除每一特征。經(jīng)過多輪淘汰后，保留的8個特征參數(shù)如下。

（1）紋理特征：熵、對比度、相關(guān)性、能量。

4 實(shí)驗(yàn)結(jié)果分析及討論

針對所得到的鮮茶葉圖像樣本數(shù)據(jù)的小樣本、多種類等特點(diǎn)和識別率結(jié)果進(jìn)行分析，通過支持向量機(jī)（SVMKM）、隨機(jī)森林（RF）、貝葉斯（NBC）、Fisher、k近鄰（KNN）、極限學(xué)習(xí)機(jī)（ELM）[18-21]6種分類器從紋理、分形特征識別得出結(jié)果如表4所示。

表4 紋理、分形特征類型識別率

將鮮茶葉的紋理、分形作為識別特征，SVMKM和隨機(jī)森林的識別精度分別達(dá)到89%和88.6%，要高于其他分類器。表明SVMKM和隨機(jī)森林對于小樣本、多種類且特征維數(shù)較高的鮮茶葉樣本數(shù)據(jù)有較高的識別精度。貝葉斯分類精度不高，分類效果明顯較低，這與不同品種鮮茶葉圖像樣本數(shù)據(jù)屬性之間相關(guān)程度較高有關(guān)。通常數(shù)據(jù)在相關(guān)程度高的情況下，屬性選擇結(jié)束后一般會直接進(jìn)行分類，而不考慮先驗(yàn)分布。其余的Fisher、KNN和極限學(xué)習(xí)機(jī)識別精度分別達(dá)到82%、82%和79.9%，表明在品種樣本數(shù)有限的情況下，提取的特征有效且可用于識別不同茶樹品種。

結(jié)合筆者之前對顏色、形狀特征的建模識別研究結(jié)果，再加入紋理、分形特征識別結(jié)果進(jìn)行比較分析，如表5所示。

表5 不同特征類型識別率（%）

由表5可看出，單個類型的特征分類識別時，SVMKM和隨機(jī)森林分類器的識別率都達(dá)85%以上，說明提取的特征效果都較為明顯，能有效區(qū)分不同茶樹品種。其中形狀與紋理特征更為顯著，不僅SVMKM和隨機(jī)森林識別率超過88%，且Fisher、KNN和ELM識別率均接近總體識別率，表明不同茶樹品種的鮮茶葉葉片形狀和紋理有相對明顯的區(qū)別。另外，將多重分形特征應(yīng)用于鮮茶葉圖像識別，通過對比發(fā)現(xiàn)，將4個多重分形特征單獨(dú)建模識別，其中SVMKM與隨機(jī)森林能達(dá)到85%的識別精度，但Fisher線性精度只有45%，表明4個多重分形特征信息獨(dú)立性較強(qiáng)，線性關(guān)系不明顯。總體來看，多重分形特征有效，能顯著提升總體識別精度。

兩個類型特征兩兩組合識別時，SVMKM和隨機(jī)森林識別率相差不大，均超過88%。但形狀與紋理特征組合時，各種分類器識別率都較為穩(wěn)定，而顏色與分形特征組合時，NBC識別率較差，只有53%，遠(yuǎn)低于其他類型特征組合，表明以顏色和分形為分類特征，通過計算未知樣本后驗(yàn)概率作為該樣本所屬類別的方法效果較差。

3個類型特征組合時，能體現(xiàn)所缺失的那類特征對識別精度的影響程度。SVMKM和隨機(jī)森林識別率受到的影響都不大，但缺少形狀特征時，NBC、Fisher、ELM識別精度與其他類型特征組合差距明顯。

總體來看，每種類型特征都對不同茶樹品種的識別非常重要。只有4個類型特征都組合到一起時，各分類器的識別精度都最高，數(shù)據(jù)集的泛化能力也最強(qiáng)。針對所得到的鮮茶葉圖像樣本數(shù)據(jù)的小樣本、多種類等特點(diǎn)和識別率結(jié)果分析，能達(dá)到91%的識別精度。鮮茶葉葉片與茶樹品種存在對應(yīng)關(guān)系，利用圖像處理方法可分類識別不同品種鮮茶葉，同時也可識別鮮茶葉所屬的茶樹品種。