呂晨曦 楊冬風
(黑龍江八一農墾大學電氣與信息工程學院,黑龍江 大慶 163311)
玉米種子是當今我國農業生產中不可或缺的生產資料。不同品種的玉米在抗倒伏、抗病蟲害、產量、營養成分等方面存在明顯差異。傳統的玉米種子識別方法有以識別種子形態、幼苗形態和植株形態為主的形態學方法,以電泳法測定化學成分為主的生理生化鑒定法,依靠種子分子水平DNA和RNA等之間差異實現品種鑒別的分子生物學鑒定法。但隨著市場中玉米品種的不斷增加,為了保證玉米種子的純度,避免種子摻假現象的出現,研究人員正研究一種可以準確無損地識別玉米品種的新方法。相對于傳統人工識別,機器視覺識別具有省時、省力、識別準確率高等優點。利用機器視覺對玉米種子進行識別,可以脫離人工識別的束縛,為不同品種玉米種子的識別提供新的可行方法。
目前,我國對常規種子的品種檢驗方法主要有田間種植鑒定、色譜分析技術、利用卡尺和天平等手動測量。汪勇利用人工神經網絡法對5個玉米品種共250粒種子的品種進行了識別,準確率高達92.4%。馮朝麗等結合偏最小二乘判別分析法對所選玉米種子樣本進行識別分類,樣本的識別精度也達到了94.66%。李奔等對玉米種子圖像的顏色特征進行了研究,提出了新的顏色指標,即RGB和HSV顏色模型中各個分量所占的比例以及單位面積的占比,運用神經網絡進行訓練,得到很好的分類識別效果,3個品種總的識別率為93.3%。上述試驗基本采用特征提取對數據進行處理,忽略了特征值過多帶來的冗余性,由此導致識別的準確率下降。對特征數據進行數據降維可以提高品種識別的準確率,縮短識別處理時間。
為了降低特征數據的冗余性,提高品種識別的效率,筆者在試驗中采用了主成分分析(PCA)對提取后的特征數據進行特征降維。針對玉米種子品種識別效率低的問題,利用支持向量機(SVM)對玉米種子進行分類識別。針對機器視覺技術需要訓練的特征數據不足的問題,對玉米種子進行顏色、幾何及紋理等特征提取,從而達到提高識別準確率的目的。此次試驗將主成分分析(PCA)、線性判別分析(LDA)、等距特征映射(ISOMAP)、T分布隨機近鄰嵌入(T-SNE)、多維尺度變換算法(MDS)5種降維方法與2種分類器貝葉斯(Bayes)與支持向量機(SVM)分別結合,通過對比測試集準確率得知,PCA-SVM模型在對玉米種子品種識別方面有較高的準確率,為玉米種子的品種識別提供了新方法。
試驗材料包括3個玉米品種(甜糯黃玉米、甜妃、昌甜)成熟且飽滿的種子各50粒,手機原相機,黑色桌子1張。
甜糯黃玉米:由北京市農林科學院玉米研究中心選育出的新品種“京科2000”,在北京市及周邊地區春、夏播均可,籽粒白色,硬粒,品質好,穩產性好。
甜妃:穗筒形,長粗,籽粒淡黃色,粒大飽滿,具有良好的抗病蟲害能力。
昌甜:籽粒呈紅色,種子飽滿,具有良好的抗倒伏能力。
為完成對甜糯黃玉米、甜妃、昌甜3種玉米種子的識別,采用手機原相機對玉米種子進行拍照,共拍攝150張圖片。圖像的采集在黑色桌面上進行。為了防止反光現象的發生,在圖片采集過程中盡量保持垂直拍攝,在燈光稍暗的地方進行。
首先,對采集的原始圖像進行裁剪,分辨率為454像素×454像素。為了簡化圖像分割的過程,將多粒玉米種子放在鏡頭中指定位置進行拍攝(一次拍攝放置10~12粒種子),將圖片輸入預先設計好的算法中進行圖像分割,以此完成對單個玉米種子的圖像分割。其次,對圖像分割完成后的單粒玉米種子進行灰度處理,消除在拍攝時曝光過高帶來的影響。最后,使用高斯濾波器對單粒種子圖像進行降噪處理。
為了提高識別的準確度及模型的泛化力,測試在對分類器讀取不同環境背景下拍攝的單粒玉米種子圖片時分類器是否具有更好的學習能力。試驗通過調整玉米種子圖像的對比度、亮度及銳化程度將玉米種子圖像進行數據擴增,圖片數量擴增為原來的2倍,使試驗的圖像樣本數目達到300張。
試驗共提取15種特征,其中包括幾何特征8種(周長、面積、顏色、長度、寬度、圓形度、矩形度和長軸長)、紋理特征7種(二階矩、熵、對比度、逆差矩、差異性、能量和相關性)。
1.5.1 顏色特征。顏色特征是一種全局特征,主要用來表示圖像中物體的表面性質。顏色特征是計算機視覺技術發揮作用的基礎特征。種子顏色的細微變化可在一定程度上反映其新舊程度。
在試驗中分別提取每一張圖像的R、G、B 3個分量,并分別計算三者的平均值作為這張圖像的顏色特征,再計算每一種類種子R、G、B的平均值,用作后期驗證試驗的對比數據。
1.5.2 幾何特征。筆者將經灰度處理且降噪后的圖像進行閾值分割,利用單個玉米種子圖像的區域和邊緣特性提取幾何特征,提取的幾何特征包括以下幾個部分。
正交投影面積:利用Python中的cv2.contourArea函數計算分割后單個玉米種子的面積。
正交投影周長:利用Laparoscopic算子計算圖像梯度,使用Canny算法對玉米種子圖像進行邊緣檢測,得到圖像的邊緣像素,計算邊緣像素點和。
矩形度:用正交投影面積除以最小外接矩形面積,以此來計算該玉米種子的矩形度。
長軸長:通過計算玉米種子外接矩形的對角線長度來定義長軸長。
長度:通過計算玉米種子外接矩形的長度來定義種子長度。
寬度:通過計算玉米種子外接矩形的寬度來定義種子的寬度。
圓形度:通過面積與周長的運算得到單個玉米種子的圓形度。
1.5.3 紋理特征。紋理特征是通過灰度共生矩陣提取出來的一個值,對區域內部灰度級變化的特征進行量化。圖片的紋理特征具有旋轉不變性,并且對于噪聲有較強的抵抗能力,可以很好地詮釋圖像表面性質的全局特征。試驗采用灰度共生矩陣(GLCM)對特征矩陣進行紋理特征分析,提取出熵(ENT)、對比度(CON)、逆差矩(HOMO)、差異性(DISL)、能量(NRG)、相關性(COR)和二階矩(ASM)共計7種特征值。其中,熵是主要的紋理特征。
為了提高數據的泛化性,試驗時將每張圖片分別采用原圖像、原圖像旋轉45°、原圖像旋轉90°、原圖像旋轉135°4種方式進行紋理特征的提取。
熵是用來衡量選取圖像信息量的大小,圖像中的元素越分散,熵越大,選取圖像紋理的均勻程度越高。對比度反映了圖像灰度的變化程度,圖像中灰度值差別越大,表明圖像邊緣越銳利。逆差矩用來測量灰度圖像局部強度的均勻性,局部越均勻,逆差矩越大。差異性對于局部特點衡量性較好,局部對比度越大,差異性越大。能量是對圖像紋理的灰度變化穩定程度的度量,反映圖像灰度分布均勻程度和紋理粗細度。相關性表示目標圖像的灰度像素成線性關系的度量,代表灰度共生矩陣行列灰度關系的相似度。二階矩反映圖像的均勻性,值越大,圖像灰度分布越均勻。
第一步:對玉米種子圖像進行圖像預處理,得到大小統一、清晰度高的圖像。第二步:提取玉米種子圖像的顏色特征、幾何特征、紋理特征共15個特征向量。第三步:采用主成分分析法(PCA)將特征向量從15維降至2維。第四步:采用支持向量機對降維后的數據進行分類,其中70%的數據用于訓練集,30%的數據用于測試集。第五步:將以上的數據模型與其他的組合模型進行模型對比,通過測試集準確率判斷模型的優劣。
分別使用5種降維方法對提取出的15種特征向量進行數據降維,再將降維后的數據分別放入2種分類器中進行模型訓練與結果測試。在對比5種降維方法的散點圖后發現,利用主成分分析法(PCA)進行降維后的散點圖樣本之間分布的距離較大,對于特征數據的分類較為明顯。圖1中不同的幾何形狀分別表示了3種玉米種子特征向量的分布。相同種類之間重疊部分相對較少,可以明顯地區分出不同種類種子之間的差別。

圖1 特征數據降維圖
通過主成分分析法(PCA)將玉米種子的15維特征數據降至2維,經過PCA降維后數據的第1主成分貢獻率為99.12%,第2主成分貢獻率為0.88%,累積貢獻率為100%。而其他4種特征數據降維后的樣本數據分布較為密集,分類效果不明顯,精度不高,樣本之間的間距較小,在結合分類器進行分類時無法明確表現出3種種子之間的特征差別,從而導致模型測試集準確率較低。由此可見,PCA可以最大限度地提取特征數據的相關性,體現出種類之間的差異性,從而把高維數據降維至低維空間內。但這僅能證明主成分分析法(PCA)在一定范圍內具有較高的數據降維能力,并不能適應所有的樣本容量。
將經主成分分析法降維后的數據分別結合支持向量機(SVM)和貝葉斯分類器,構建玉米種子分類模型PCA-SVM和PCA-Bayes。對比兩種分類器對PCA降維后數據的分類準確率。
由試驗可知,PCA-Bayes模型對甜糯黃玉米的種類識別率達到了86.35%,對甜妃的識別率為57.69%,而對昌甜的識別率僅為53.57%,總體來看識別率較低。而PCA-SVM 模型對3類種子的平均識別率達到了95.97%。相對于PCA-Bayes模型,PCA-SVM模型有著較高的識別準確率,可以更準確地區分3類種子之間的差別。
對分類而言,單一的貝葉斯分類器更適合于樣本數據二分類。上述試驗中導致貝葉斯分類模型準確率降低的原因是圖像數據量不足,未能使模型得到充分的多分類訓練,所以僅能保證對單一種類的玉米種子完成識別。
綜上所述,在特征數據的降維階段,主成分分析法可以更好地完成對特征向量的篩選,進而達到降維的目的,而其他4種降維方法在試驗樣本容量范圍內未能清晰地劃分出3個品種之間的差別。在分類器的選擇上,通過試驗得知PCA-SVM模型具有較高的品種識別準確率,可以無損、快速地完成對3個品種玉米種子的識別,準確率可以達到95.97%。
對圖像進行特征提取,并對數據進行特征降維,可以有效提高圖像識別的準確率,并且極大地縮短識別時長。為了提高噪聲干擾圖像的準確識別能力,嚴宇宸提出基于紋理特征提取的圖像識別方法,利用機器學習方法對提取干擾圖像的紋理特征,提高了模型對圖像的識別能力。不同的特征數據需要經過測試去發現適合的降維方法。筆者提取了玉米種子的幾何和紋理特征共15個特征向量,通過測試比對散點圖發現主成分分析法降維對特征數據具有較好的分類效果。過量提取特征數據會增大分類器的識別難度,加大運算負荷,因此,對特征值進行合理的特征降維尤為關鍵。楊博雄等提取VGG-16神經網絡fc3層的4096維特征后,使用PCA法將數據維度降至64維,不僅可以高效地提取特征數據,而且可以充分利用系統資源。曹靖城提出一種基于PCA降維的海量數據特征抽取技術,減少數據處理對系統計算資源的消耗,通過PCA將原始數據映射到若干主成分,以實現數據壓縮。
將主成分分析法(PCA)與支持向量機(SVM)相結合是機器視覺領域常提及的一種模型。令曉明等通過試驗,分析了不同維度的分類識別率和識別時間對模型的影響;選擇一些分類能力強的,基于行人顏色頻率特征和膚色特征檢測的block作為級聯的特征向量,減少了冗余block的干擾影響,突出行人特征,并結合支持向量機進行識別,在行人檢測中的準確率比單一特征提高了將近23%。
大多數的分類器只能進行二分類。對此,可以通過組合多個二分類器來讓分類器多次反復輸出,從而實現品種多分類,如可以采用one-against-one和one-against-all兩種方法來實現。此試驗在訓練時依次把每個類別的樣本分別歸為一類,其他剩余的樣本歸為另一類,這樣3個類別的樣本就構造出了3個SVM分類器。黃興華等提出一種紋理特征融合與支持向量機(SVM)相結合的分類識別方法,完成了對道路垃圾圖像識別及提取,在此試驗中采用了oneagainst-one方法進行分類器的構建。
筆者在試驗中提及的其他4種降維方法在結合支持向量機進行分類模型的構建時,準確率雖然不如PCA-SVM模型,但是在改變樣本容量的大小后,準確率呈增長趨勢。這說明PCA降維只是在這一樣本數量的區間內具有較為明顯的特征降維能力,后期還可以通過增加樣本容量進一步進行降維準確性的驗證。
此試驗結果表明,PCA-Bayes分類模型對玉米種子的品種識別具有較高的準確率,可為后期構建玉米種子品種識別系統提供依據。
此試驗提取了玉米種子圖像的15個特征向量,對其采用包括PCA、LDA等在內的5種降維方法對數據進行特征降維,通過對比試驗結果發現,PCA-SVM模型具有較高的分類準確率,準確率可達95.97%。