張富貴 葉 磊 李德倫 吳雪梅
(1.貴州大學機械工程學院 貴陽 550025)(2.貴州省煙草科學研究院 貴陽 550025)
烤煙是貴州省農村地區一項重要的經濟作物,煙葉的等級評定是煙草行業的一項基礎性生產環節。長期以來,傳統的煙葉分級形式都是依靠煙葉分級人員及手摸、眼看、鼻聞的方式來進行,然后通過分級人員的感官評價對煙葉等級(比如葉片結構、身份、油分等)進行分類。由于在收購環節全部采用人工分級,存在分級效率低、受分級人員主觀性影響較大等問題,常常會出現物不符級情況,給煙草分級行業帶來了不良影響[1~3]。
隨著對機器視覺技術研究的不斷深入,利用機器視覺技術創建煙葉分級系統的研究成果豐富,其原理是在數字圖像的基礎上通過圖像處理手段提取用于表征煙葉屬性的特征,利用大量的樣本與特征結合多種分類器進行學習訓練,對煙葉等級進行評判,以獲得較好的分級效果[4~5]。那么對于煙葉特征的選擇將直接影響分類系統的性能,大量冗余的特征會增加分類模型的復雜度。因此選擇有效特征的研究,對于煙葉分級系統具有重要意義。
本文針對煙葉分級模型的特征優選問題,提出了一種利用隨機森林算法(RF)結合支持向量機(SVM)的方法,對煙葉特征按對分類模型的貢獻度排序,篩選出對分類模型準確率影響較大的特征建立最優特征子集,并利用PSO對SVM的C、g參數尋優,建立RF-PSO-SVM 分類模型,對篩選的特征子集進行學習訓練,實現更好的煙葉等級分類效果。
本文利用課題組提供的貴州省安順市平壩煙區烤煙樣本圖像,煙葉品種均為云煙87 型烤煙。所需樣本均由貴州省貴陽市煙草科學研究院專家定級,并在自制的黑色背景采集箱中,通過型號為MV-VD078SM/SC 的面陣CCD 工業相機,在白色光源,光照為90lux,色溫為5000K-8000K的條件下采集煙葉等級為C2F、C3F、C4F、C2L、C3L 與C4L 的正反面圖像共215*2=430 張。每個等級煙葉樣本數量見表1。

表1 煙葉等級與數量
在煙葉圖像采集過程中,受外界光的影響,使得圖像亮暗區域不一致,導致重要的細節信息被覆蓋,嚴重影響煙葉特征參數提取。傳統的直方圖均衡在改善圖像對比度時都采用同一直方圖變換,這種方法對于有明顯亮暗差異的圖像不能起到很好的增強效果。因此本文采用自適應的直方圖(AHE)均衡[6]來改善圖像的對比度,通過計算每一個顯著性區域的直方圖來增強圖像的邊緣信息,有利于后期的圖像背景分割以及特征提取。AHE 算法的缺點是當鄰域過大時會過度增強均勻區域的噪音。由圖1 可知當鄰域尺寸size=6 時,既能起到好的增強效果,且沒有引起均勻區域噪音的增強。

圖1 不同鄰域下均衡化圖像對比
CCD相機采集的圖像帶有大量的顏色信息,直接處理彩色圖像對硬件系統要求較高,因此需要將彩色圖片轉化為灰度圖像,轉換的方法主要有最大值法、分量法、加權平均法和平均值法等[7]。現有的研究中發現利用加權平均法進行灰度化最符合人類的視覺感受,加權公式為

其中式中R(x,y)、G(x,y)、B(x,y) 分別為像素(x,y)點的R、G、B 三個分量的值,G(x,y)為圖像的灰度值。
在提取煙葉特征時需要將煙葉圖像做二值化處理,本文借鑒文獻[8]中的最大類間方差法(Otsu)對濾波后的圖像進行二值化處理,最大類間方差法(Otsu)簡單效果好,使用方便,可以直接在Matlab 軟件中調用graythesh()函數,該函數根據煙葉區域與背景的灰度差異自動確定Otsu法的閾值,然后調用im2bw()函數實現Otsu 法二值化處理,利用imfill()函數進行小范圍的孔洞填充,保證煙葉的完整性,最后將煙葉的原始顏色還原到二值化圖像上。
工業CCD 相機所獲取的煙葉圖像為RGB 圖像,使用RGB 模式來表示不同等級煙葉顏色特征的變化情況常常達不到理想的效果。因此本文采用更接近與人眼視覺感官的HSV 顏色空間模型提取煙葉圖像的顏色特征[9],分別計算H、S、V 三個通道的三個低階顏色矩來表達煙葉圖像的顏色分布情況,共提取三個通道的煙葉正反面顏色特征2*3*3=18個。計算公式如下:

LBP 算子具有灰度不變性和旋轉不變性等優點,常被用來描述灰度圖像的紋理特征[10],LBP 算子的基本原理是在灰度圖像中3*3 個像素的矩形圖像區域內,將像素區域中心點的灰度值視為該矩形區域閾值,并與四周8 個像素點區域的灰度值做差運算,若差值大于零則記為1,反之為0,然后將得到的8 位二進制數值順時針讀取,所得的值作為該局部區域的紋理值,其原理圖如圖2 所示。但使用LBP算子描述的紋理特征維度大、信息冗余度過高,運算難度大,使用降維處理又容易造成紋理特征的損失。20 世紀70 年代初Haralick 等[11]提出一種描述灰度圖像的紋理特征統計方法—灰度共生矩陣(GLCM),灰度共生矩陣(GLCM)的原理就是統計灰度圖像中某個固定像素點的灰度值與相隔距離為d,位置方向為θ的像素點的灰度值在圖像區域內出現的概率Pij,其中θ取值為0°,45°,90°,135°[12]。基于以上研究,本文將二者結合提取圖像能量、熵、對比度、同質性的均值與標準差等8 個參數來表征圖像的紋理特征可以有效的減少LBP 特征的信息冗余度,提高算法的魯棒性。其參數說明及計算公式如下所示。

圖2 LBP算子原理圖

1962 年Hu 提出二維不變矩理論,根據力學中矩的概念,將區域內部的像素作為質點,像素坐標作為力臂,利用不同階的矩來表示圖像區域的形狀特征,利用歸一化中心矩推導出7 個具有平移、旋轉和縮放不變性等優點的不變矩特征[13]。故本文采用不變矩來描述煙葉的形狀特征。不變矩計算表達式如下:

隨機森林算法是一種以決策樹為基礎的集成學習算法,在特征工程中,隨機森林能從大量的樣本特征中識別出重要的特征,其原理是根據每個特征在隨機森林中每個決策樹貢獻度的大小,通常用基尼指數作為評價指標來衡量[14]。本文利用RF-SVM 算法計算烤煙正反兩面9 個顏色矩特征、8 個紋理特征7 個不變矩特征共2*(9+8+7)=48 個煙葉特征對SVM分類模型的貢獻度排序如圖3。
圖中f表示煙葉的反面特征,由圖3 可知,烤煙正面V通道、反面S、V 通道三階顏色矩、同質性與H通道的二階矩特征對模型較重要,不變矩特征貢獻度較少,對模型影響較小。

圖3 特征重要程度
支持向量機算法對于處理高維非線性模式識別問題時,具有一定優勢,算法的核心是利用核函數映射的方法將線性不可分樣本數據轉化到高維空間,并在高維空間建立分類器[15]。在數學模型上SVM映射后的特征向量,在特征空間中劃分超平面的模型為

其最小化函數為

為了便于計算將其轉化為它的對偶問題:

求解可得到:

其中κ(xi,xj)為xi、xj在高維空間中的內積,即核函數。
SVM 常用的核函數有線性核函數、Sigmoid 核函數、多項式核函數與RBF 核函數,因為RBF 核函數應用較為廣泛,且效果較好,在此本文選用RBF核函數。
粒子群算法來源于對鳥群捕食活動的研究,它將每一只捕食的飛鳥看作一個隨機粒子,并用粒子的位置與速度來表示,粒子的初始位置與速度都是隨機的,粒子通過不斷的迭代來更新自身的位置,粒子位置的優劣根據適應度值來調整[16]。每迭代一次,在整個族群中會產生一個最優解即全局極值,每個個體粒子的最優解即個體極值。粒子速度與位置的更新公式如下:


式中:c1、c2為學習因子,r1、r2為隨機函數,用以增加搜索隨機性,k 為迭代次數,ω為慣性權重,調節搜索解的能力。
在RF-SVM 分類模型中將烤煙正反兩面的紋理,顏色與形狀共48 個特征作為輸入,經RF-SVM算法得到影響SVM 模型預測效果貢獻度最高的特征子集,再將得到的特征子集作為PSO-SVM 分類模型的輸入對烤煙等級進行分類。RF-PSO-SVM分類模型對烤煙等級預測流程如圖4所示。

圖4 RF-PSO-SVM烤煙分類流程圖
在RF-SVM 算法中,各個等級70%煙葉樣本被劃分為訓練集,30%煙葉樣本被劃分為測試集,通過RF 算法特征選擇重要性度量,依次選取不同數量的特征組成不同子集來測試SVM 分類性能,圖5為不同特征子集下SVM的分類準確率。

圖5 不同特征子集下SVM的分類準確率
由圖5 可以看出大量的特征并沒有提高模型的分類性能,甚至會降低。當子集數量小于15 時,隨著特征數量的增加,模型的分類性能整體趨勢向上,當子集數量等于15 時,達到最高分類準確率82.8125%,此時最優子集由前15 個特征組成,當子集數量達到21 時,模型最后一次達到最優,因此可以認為前21個均為有效特征。
經過多次實驗最終確定使用PSO 尋優SVM 分類模型的C、g 參數時,學習因子c1=1.5、c2=1.7,迭代次數為200 次,權重因子為2,C、g 優化范圍[0.1,100]、[0.1,1000],得到適應度曲線如圖10 所示,迭代到30 次以后達到最優值,此時C=81.1461、g=0.2329。

圖6 PSO適應度曲線
為了說明RF-PSO-SVM 分類模型的優勢,本文將RF-PSO-SVM 分類模型與SVM、PSO-SVM 三種模型在全部特征子集與最優子集中進行測試,并比較分類結果。
表2 顯示經過RF-SVM 特征篩選后,SVM 分類器的分類準確率提高了9.375%,算法的運行時間減少了13s,分類器的性能得到了提高;經PSO-SVM 優化C、g 參數后SVM 分類器的準確率提高了14.0625%,但運行時間增加了297s;本文提出RF-PSO-SVM 分類器相比SVM 分類器準確率提高了17.1875%,運行時間增加234s;相比PSO-SVM分類器準確率提高了3.125%,運行時間減少63s。

表2 不同特征子集下不同分類器性能對比
本文對烤煙圖像進行處理,提取烤煙的煙葉特征、紋理特征與形狀特征,對RF 算法、PSO 算法與SVM 算法進行理論介紹,提出并建立RF-PSOSVM烤煙分類模型,該模型首先使用RF-SVM對烤煙特征進行篩選,然后將篩選的特征子集輸入到PSO優化后的SVM分類器中,實現對烤煙等級的預測。本研究可得出以下結論:
1)利用自適應直方圖均衡算法對煙葉圖像進行對比度增強過程中,鄰域尺寸size=6 時,既能對圖像起到好的增強效果,并且不會引起均勻區域噪音的增強。
2)利用RF-SVM 對煙葉特征進行貢獻度排序發現,煙葉的反面顏色特征與紋理特征更有利于分類模型對煙葉進行分級,而不變矩特征對分級模型分類準確率影響較小。
3)利用RF-PSO-SVM 算法建立的煙葉分類模型可以在保證分類準確率的情況下,降低分類算法的運行時間,減少了數據集的特征維度,對煙葉的分類識別具有一定的參考價值。