李嘉康,陶智麟 ,徐 波 ,徐大勇 ,堵勁松 ,李華杰
(1.中國煙草總公司鄭州煙草研究院,鄭州 450001;2.鄭州益盛煙草工程設計咨詢有限公司,鄭州 450001;3.福建中煙工業有限責任公司,福建 廈門 361021)
煙葉分級中,煙葉紋理特征是較少被研究和應用的一個關鍵指標。煙葉表面的油分含量、褶皺度、組織緊密程度、含梗率、油分等指標是煙葉分級的重要因素,同時也與煙葉紋理特征相關。因此,研究不同煙葉下的紋理特征提取算法為煙葉智能分級提供依據具有重要意義。
煙葉的紋理特征相關研究較少,但是紋理作為數字圖像的特質屬性,能夠真實反映物體表面的粗糙度、方向等屬性,其作用在紋理描述中體現得尤為明顯。為取得大多數自然景物的更多信息,通過分析其組成結構的細微紋理而獲得[1]。在目標識別與自動檢測領域,Kumar 等[2]、Chan 等[3]采用紋理分析方法檢測原木中不合格的部分;在圖像檢索領域,施智平等[4]提出了一種新的紋理譜描述,并應用于圖像檢索中。基于紋理特征的視覺檢測技術也被應用于煙葉分級中,張帆等[5]研究在標準煙葉數據庫的圖像檢索中使用了紋理計算方法來分析煙葉;杜東亮等[6]使用小波分析煙葉紋理,提出基于灰色系統理論通過煙葉的其他外觀特征來綜合描述煙葉的成熟度和油分。
在煙葉分級研究中,較多通過紋理提取算法得到紋理特征值后直接作為評價指標,而本研究利用兩種紋理提取方法,以不同梯度參數提取煙葉紋理參數進行降維和重要度分析,以得出能夠表征煙葉紋理的參數,作為評價煙葉紋理的特征值。
樣本集:貴州遵義地區種植品種為中煙100 的鮮煙葉,其中有效煙葉數字圖像136 張,無效煙葉數字圖像 116 張。研究平臺:python3.7.0;opencv4.4.0;scikit-learn0.23.2。

圖1 中煙100 樣本
將鮮煙葉置于恒溫恒濕(溫度:21 ℃,相對濕度:70%)環境下平衡1~2 d;以Canon EOS 5D Mark IV 數字相機為主體的圖像采集器,在暗箱內標準光源下,調整圖像采集器的白平衡和18°灰板的測光,確保符合采集過程中的光照環境參數。將平衡后的鮮煙葉放置圖像采集系統黑色背景下依次拍照獲取鮮煙葉數字圖像。
1.3.1 灰度共生矩陣 灰度共生矩陣(GLCM)的統計方法由Haralick 等[7]提出,是基于圖像中像素的空間分布包含圖像紋理信息的假設,提出了一種綜合的紋理分析方法。共生矩陣由兩個像素的聯合概率密度定義,不僅反映了亮度的分布特性,而且還反映了亮度相同或接近亮度的像素之間的分布特性,是圖像亮度變化的二階統計特征,其是定義一組紋理特征的基礎。由于紋理是由灰度在空間位置上的重復出現而形成的,因此圖像空間中一定距離的兩個像素之間會存在一定的灰度關系,即圖像中灰度的空間相關性特征。灰度共生矩陣是通過研究灰度的空間相關性來描述紋理的一種常用方法[7]。
歸一化后的灰度共生矩陣如下:


圖2 灰度共生矩陣紋理特征圖
通過基于灰度共生矩陣的紋理特征提取可知,能量(ASM,energy)是灰度共生矩陣元素值的平方和,也稱能量,反映了圖像灰度分布均勻程度和紋理粗細度。對比度(contrast)反映了某個像素值及其領域像素值的亮度的對比情況。如果偏離對角線的元素有較大值,即圖像亮度值變化很快,會有較大取值,反映了圖像的清晰度和紋理溝紋深淺的程度。紋理溝紋越深,其對比度越大,視覺效果越清晰。熵(entropy)是圖像所具有的信息量的度量,紋理信息也屬于圖像的信息,是一個隨機性的度量,當共生矩陣中所有元素有最大的隨機性、空間共生矩陣中所有值幾乎相等時,共生矩陣中元素分散分布時,熵較大。它表示了圖像中紋理的非均勻程度或復雜程度。自相關(correlation)反映了圖像紋理的一致性,度量空間灰度共生矩陣元素在行或列方向上的相似程度,因此,相關值大小反映了圖像中局部灰度相關性[8]。
1.3.2 Gabor 小波變換 Gabor 小波核類似于哺乳動物視皮層細胞的感受野,具有良好的空間局部性、空間頻率和方向選擇性,能夠提取圖像局部區域的多尺度、多方向的顯著特征[9]。因此,Gabor 小波變換對光照等外部環境的變化具有很強的魯棒性。
二維 Gabor 小波函數定義為[10,11]:

其中,實數部分與虛數部分為:


x,y分別表示像素坐標位置;λ表示濾波的波長;θ表示Gabor核函數圖像的傾斜角度;ψ表示相位偏移量,范圍是-180°~180°;σ表示高斯函數的標準差;γ表示長寬比,決定Gabor核函數圖像的橢圓率。

圖3 波長為8 的八個角度Gabor 濾波器

圖4 由8 個Gabor 濾波器提取的紋理特征圖
采取灰度共生矩陣算法中4 個不同距離梯度,4個不同方向梯度下的6 個紋理值、對比度、相異性、同次性、相關性、能量和ASM 能量共96 個維度特征;采取Gabor 小波算法中8 個不同角度下的兩個紋理值,均值和方差共16 個維度。綜上每張煙葉圖共有112 維度特征,為確定能表征此煙葉的紋理特征,運用主元降維的方式確定區分度最大的主元來確定數據是否可區分,同時通過各個高維向量的主元荷載圖來確定最具貢獻維度。
隨機森林是一種有監督的學習算法,也是一種基于決策樹的集成學習算法。隨機森林簡單,易實現,計算開銷小,它在分類和回歸方面具有良好的性能。由于采用集成算法,其精度優于大多數單一算法,因此具有較高的精度。隨機森林在測試集中表現良好,由于兩種隨機性的引入,隨機森林不易陷入過擬合,可以處理高維數據,無需特征選擇,對數據集的適應性強,具有一定的參考意義。通過隨機森林算法對共252 個樣品112 維度特征進行分類識別。
通過可視化有效鮮煙葉和無效鮮煙葉在主元分析中結果,將兩種煙葉的相同維度的數據貼標簽后融合進行主元分析。在前5 個主元中,主元的分布如圖5 所示,前5 個主元總貢獻率為99.92%,其解釋了大多數維度紋理特征。由于其分布在主元1 和主元2 下具有聚類特征,如圖5 所示,藍點代表無效煙葉的分布,紅點代表有效煙葉的分布,主元分布圖通常能夠展示數據集的內部信息。由圖5a 所示,其具有可區分性。

圖5 2D PCA 點圖主元 1 與主元 2(a)、主元 2 與主元 3(b)
雖然數據集具有聚類特性,但是由于數據維度過高,冗余信息過多,因此通過主元荷載圖可以選擇最有效的特征信息與后續建立分類模型具有對比性。由于其只在PC1 和PC2(圖5a)中具有明顯特征,圖6 僅展示PC1 和PC2 的荷載圖,通過荷載圖可以得知,其在第52 維度至第63 維度下具有顯著的有效性。灰度共生矩陣算法的步長為4、8、16 下的0°、45°、90°和 135°共 12 維度,因此,初步認為此參數下的紋理值能夠表征此數據集煙葉。

圖6 PCA 荷載圖 PC1(a)、PC2(b)
基于全維度的隨機森林判別模型,選擇20%的樣本集作為測試集,80%的樣本集作為訓練集,到88%的分類精度,通過10 次交叉驗證得到其分類精度在86%左右,具有較好的分類表現(圖7)。

圖7 10 次交叉驗證結果
在隨機森林判別模型中,確定最具重要性的紋理特征維度,作為評估煙葉紋理的定量分析指標,圖8 為選擇重要性大于0.03 的維度特征分別為灰度共生矩陣下距離4,角度45°的能量值;距離8,角度45°的能量值;距離8,角度90°的能量值;距離16,角度90°的能量值;距離 16,角度 90°的相關性值;Gabor小波紋理下波長5,角度122.5°的標準差。樣品集中的煙葉擺放方式為煙梗朝上,葉尖朝下。

圖8 紋理維度重要度
選用貴州遵義中煙100 的鮮煙葉,經專家挑選識別后,分為有效煙葉和無效煙葉兩類,其中無效煙葉包含過熟煙葉、帶病煙葉、殘損煙葉等。通過自主搭建的圖像采集系統,在規范的色溫色差曝光等參數設定條件下,通過分析有效煙葉和無效煙葉的數字圖像,經過預處理背景掩膜,提取無背景數值的鮮煙葉圖像,采用灰度共生矩陣法和Gabor 小波下的不同參數提取紋理特征值,通過主元分析得出最具區分度的紋理特征,同時采用隨機森林判別模型對樣本集分類,獲取能夠表征煙葉紋理值的定性指標。
在灰度共生矩陣算法下,步長參數為4、8、16 和提取角度為 0°、45°、90°和 135°共 12 維度的紋理值在第一主成分下有較好的聚類效果,分別對應的方向為以煙梗到煙葉尖為垂直方向,順時針0°、45°、90°和135°下的紋理方向有較好的表征。在隨機森林判別算法下,同時包含以上參數且分類結果交叉驗證為86%,得到較好的驗證。因此,紋理參數下的紋理值能夠表征此數據集煙葉。本研究選用的參數為紋理數值,采用灰度共生矩陣算法和Gabor 小波變換得到的紋理圖,通過卷積網絡進行紋理圖全局特征提取,再連接全連接層進行分類研究。