苗榮慧 黃鋒華 楊華



摘要:為實現油桃品種的快速且無損鑒別,對油桃高光譜圖像中的光譜和圖像信息進行分析。在光譜信息提取中,采用偏最小二乘回歸(partial least squares regression,簡稱PLSR)從全波段光譜數據提取9個特征波長。在圖像信息獲取中,采用主成分分析(principal component analysis,簡稱PCA)獲得主成分圖像,并提取主成分圖像的Gabor紋理特征。分別建立基于特征波長光譜特征、主成分圖像紋理特征和光譜紋理特征融合的最小二乘支持向量機(least squares support vector machine,簡稱LS-SVM)和極限學習機(extreme learning machine,簡稱ELM)油桃品種判別模型。結果表明,基于融合特征的LS-SVM和ELM模型識別率分別為94.7%、92.1%,較單獨采用光譜信息和紋理信息的識別率都高,說明采用光譜信息和Gabor紋理信息融合的方法可以實現油桃品種判別,為農產品無損檢測提供參考價值。
關鍵詞:油桃品種識別;光譜信息;Gabor紋理信息;主成分分析;最小二乘支持向量機;極限學習機
油桃具有極高的營養價值,它含有人體所必需的多種氨基酸,而且油桃可以補氣養血、提高免疫力、具有較高的藥用價值[1]。因此,開展油桃品種識別對于提高其品質和市場競爭力具有重要的作用。隨著果蔬科技的發展,油桃品種的培育也有了很大的進步,相繼出現了曙光、華光等產品。產品分級在水果的標準化和商品化過程中具有重要意義,傳統的人工分級方法存在檢測效率低、精度低等問題,而高光譜成像技術能夠將光譜和圖像信息相結合,實現無損、快速、精準檢測,近年來,該技術已廣泛應用于水果檢測[2]。
目前,國內外已有一些學者對油桃內外部品質進行無損檢測。谷靜思采用多種降維方法從介電頻譜和近紅外光譜的全譜中提取特征變量,建立多種油桃品質和品種的預測模型,綜合系統地比較了介電頻譜和近紅外光譜在油桃品質檢測方面的優劣,但其僅利用了油桃的光譜信息實現了油桃品質檢測[3]。喻曉強等分別應用光譜圖像技術對油桃糖度和硬度進行無損檢測,為計算機圖像在水果內部品質的無損檢測方面提供了技術依據[4-5]。本研究以不同品種油桃為研究對象,運用高光譜成像系統采集中油4號、中油5號和中油9號等3種類型的油桃近紅外高光譜圖像信息。從光譜和圖像等2個方面對不同油桃類別樣本進行快速、無損檢測。為油桃等水果類農產品的無損檢測在線識別研究提供基礎。
1 材料與方法
1.1 近紅外光譜圖像獲取
試驗油桃材料采購于山西省運城市萬安村果園,采摘的樣本形狀相近、成熟度統一、大小均勻,油桃品種為中油4號、中油5號、中油9號等3種類型。試驗中所用的高光譜圖像采集系統主要由CMOS相機、光譜儀、面陣探測器電控位移臺、計算機和暗箱等組成(圖1)。光譜范圍為874~1 734 nm,光譜分辨率為2.8 nm,光譜采樣間隔為0.59 nm,光源為150 W石英鹵素燈。通過高光譜成像系統采集3種共153幅高光譜樣本圖像,其中47幅中油4號、50幅中油5號、56幅中油9號。樣本大小為320 349,每幅圖有256個波段。獲取的3種類型油桃近紅外樣本圖像如圖2所示。由圖2可知,近紅外光譜圖像無彩色信息,該圖為由多個波段合成的偽彩色圖。圖3為本研究識別方法流程。
1.2 高光譜圖像校正
在高光譜圖像采集過程中,由于光源強度分布不均勻會影響采集的高光譜圖像質量,因此須對每幅圖像進行黑白校正[6]。在采集圖像時,先做白板(99%以上的反射率)校正獲得全白的標定圖像IW,再在完全避光條件下暗校正(0的反射率)獲得全黑的標定圖像ID,按照式(1)對原始絕對圖像進行標定,得到相對圖像R,此時的相對圖像灰度值分布在0~1之間。
2 光譜特征提取
在光譜數據的提取過程中,采用手動選取方式在原始圖像上選取不規則多邊形區域作為感興趣區域(region of interest,簡稱ROI)。本試驗中使用ENVI 4.7軟件實現感興趣區域的提取,求得區域內所有光譜曲線的平均值作為該樣本的光譜特征值。由于獲得的光譜數據包含由試驗環境引起的噪聲[7],須對其進行光譜預處理。本研究采用多元散射校正、變量標準化和導數法多種光譜預處理方法實現油桃光譜數據的預處理。本研究采用Matlab7.5實現光譜數據的處理以及判別模型的建立。
2.1 光譜預處理
由圖4可知,中油4號、中油5號、中油9號3類油桃樣本均具有明顯的波峰和波谷便于建立分類判別模型。但在874~1 069、1 640~1 734 nm 范圍內可以看出,3類油桃的光譜信息有明顯的重疊現象,采用全波段建立分類模型不能夠達到分類精度的要求,因此須對全波段光譜信息進行降維處理,實現特征波長的選取。
2.2 特征波長選取
高光譜數據具有波段多、數據量大、冗余性強等特點,全波段建模會產生Hughes現象,建立的模型性能差、效率低[8]。而降維可以用較少的數據維數代替原始高維信息,在降低數據量的基礎上最大程度表示原始信息。
偏最小二乘回歸(partial least squares regression,簡稱PLSR)基于PLS算法原理,通過選取回歸系數的局部極值實現特征波段的選擇[9-10]。因此,本研究采用偏最小二乘回歸方法獲取特征波段。在尋找回歸系數的局部極值中,設定兩峰值之間的最小間隔數(mpd)是獲得特征波長的關鍵。本研究中光譜數據的回歸系數多峰值現象較明顯,曲線不夠平滑,圖5-a為最小間隔條件為3的局部極值。由圖5-a可知,獲取的特征波長有27個,容易陷入局部極小值。為了過濾掉單周期內的干擾極值,通過多次試驗,最終設置最小間隔條件為6,獲取9個特征波長。圖5-b為獲取的局部極值點,它們分別為918、1 096、1 119、1 160、1 190、1 382、1 531、1 588、1 649 nm。
3 紋理特征提取
3.1 主成分分析
主成分分析(principal component analysis,簡稱PCA)是一種可以去除波段之間多余信息、將原始圖像信息壓縮成少數幾個有效波段的方法,且生成的合成圖像顏色、飽和度更好,各波段間不相關[11]。因此,本研究首先采用主成分分析獲取主成分圖像,提取貢獻率較高的主成分圖像,在主成分圖像的基礎上獲取圖像紋理特征,達到特征提取的目的。
對全波段油桃高光譜圖像進行主成分分析,表1為3種類型油桃前10個主成分圖像的特征值和累計貢獻率。通常情況下,當累計貢獻率高于85%,就認為重新組成的特征子集可以反映樣本的原始光譜特征信息。由表1可知,這3種類型油桃的前5、4、3個主成分圖像的累計貢獻率分別高達99.9%,說明用少數幾個主成分圖像可以最大程度表示原始圖像信息。由圖6可知,3種圖像前2個主成分基本保留了油桃的絕大部分信息,PC3~PC6均有不同程度的條帶噪聲。在圖6-a中,PC1包含原始數據的信息最多,為油桃的外部輪廓信息;由于試驗的高光譜圖像是在暗箱中獲取的反射光譜圖像,圖像中存在反射光區域,PC2則為每個油桃樣本的反射光區域,該部分不適合作為油桃的特征向量。因此,針對中油4號,本研究選擇PC1圖像進行后續紋理特征的提取。在圖6-b、圖6-c中,PC1和PC2均能夠很好地表示油桃的外部輪廓信息,因此針對中油5號和中油9號選擇前2個主成分圖像進行紋理特征提取。
3.2 Gabor紋理特征提取
紋理信息是圖像中非常重要的特征,它為模式識別和理解提供了大量的信息[12]。Gabor小波變換技術具有尺度與方向可調性,對于紋理的能量特性、粗糙特性、結構特性等都產生了很好的應用效果[13]。因此,本研究采用Gabor濾波器提取經過主成分分析得到圖像的紋理特征。將圖像與Gabor濾波器卷積得到一系列的濾波圖像,每幅圖像都描述了一定尺度和一定方向度上面的圖像信息[14]。
因為圖像的最低數字頻率為0,最高數字頻率根據奈奎斯特定理可知為0.5,而且該頻率范圍可以反映人眼視覺對紋理特征的感知[15]。因此,本研究Gabor濾波器組的參數設置:尺度參數p設為4;方向數為4,即每個尺度對應4個不同的方向(即θ為0°、45°、90°、135°);中心頻率的最小值和最大值分別設置為0.125、0.200。最終得到不同方向和不同尺度的16個Gabor濾波器,對圖像進行濾波處理。圖7為中油4號PC1圖像上提取的紋理特征結果。輸出的濾波結果只有圖像的能量信息,沒有位置信息,能夠較好地反映圖像的紋理特征。試驗中,每幅圖像會得到16個紋理特征值,最終作為判別模型的輸入向量。
4 基于光譜信息和紋理特征融合的油桃種類識別
在構建分類判別模型之前,須對樣本集進行分集。本研究采用Kennard-Stone算法實現樣本的分集,Kennard-Stone算法的核心思想是根據樣本間的歐氏距離選擇最具代表性的樣本,該算法可以實現從樣本集中選出預定數目的樣品[16-17]。本研究從153個樣本中選擇115個作為訓練集,剩余38個樣本作為測試集,具體分集結果如表2所示。數據融合方式包括數據層融合、特征層融合和決策層融合。本研究將獲得的9個光譜特征波長數據和16個紋理特征數據在特征級上進行融合。將光譜特征信息、圖像紋理特征信息和兩者融合特征信息分別輸入分類器,比較3種情況分類識別的正確性。
4.1 LS-SVM品種判別模型
最小二乘支持向量機(least squares support vector machine,簡稱LS-SVM)是一種改進的支持向量機(SVM)算法[18-19],它通過求解一組線性方程代替SVM中復雜的二次優化問題來獲得支持向量,與SVM相比,它具有更好的泛化能力,能夠減少訓練時間以及簡化計算的復雜度。LS-SVM將輸入變量映射到高維特征空間,在高維空間中構造最優決策函數,根據結構風險最小化原則優化參數,將優化問題改成等式約束條件,利用拉格朗日乘子方法求解最優化問題,對各個變量求偏微分[20]。其公式如式(2)所示。
4.2 ELM品種判別模型
極限學習機(extreme learning machine,簡稱ELM)是在單隱含層前饋神經網絡的基礎上提出的一種新算法[21-22]。與傳統神經網絡相比,極限學習機訓練過程具有訓練速度快、泛化能力好等優點。使用極限學習機對數據集進行訓練時,僅須確定隱含層神經元的數量。
5 結果與分析
本研究分別建立基于特征波長光譜特征、主成分圖像紋理特征和光譜紋理特征融合的最小二乘支持向量機和極限學習機的油桃品種判別模型。在LS-SVM模型的建立中,采用網格搜索算法和10折交叉驗證實現懲罰參數C和最有參數γ的搜索。通過多次試驗,分別設置log2C取值為1~7的整數,log2γ取值為-16~-4的負整數,結果如圖8所示。圖中色條代表搜索參數對應的識別率,顏色越深,識別率越低,最終確定C取值為32,γ取值為0.005。在ELM建模中,通過試驗確定隱含層神經元個數為50。
由表3可知,在LS-SVM分類模型中,基于光譜信息、紋理信息和光譜紋理融合信息樣本的總體識別正確率分別為86.8%、92.1%、94.7%,其中基于融合信息的識別率最高,為94.7%。在ELM分類模型中,基于光譜信息、紋理信息和光譜紋理融合信息樣本的總體識別正確率分別為84.2%、84.2%、92.1%,其中基于融合信息的識別率最高,為 92.1%。在3種類型的油桃中,中油5號的識別正確率最高,可以達到100%。基于信息融合的識別結果高于單一的光譜信息和紋理信息識別結果。結果表明,采用光譜信息與紋理信息融合的方法可以有效實現油桃品種的識別。
6 結論
試驗探索采用高光譜成像技術對油桃品種進行鑒別的可行性。以油桃為研究對象,采集3種油桃品種的近紅外高光譜圖像,并將光譜信息與紋理信息相結合構建分類判別模型。在光譜特征提取中,運用PLSR提取特征波長。在紋理特征提取中,在運用PCA獲取主成分圖像的基礎上,提取Gabor紋理特征。將提取的光譜特征和紋理特征輸入LS-SVM和ELM分類判別模型。結果表明,在LS-SVM分類模型中,基于光譜信息、紋理信息和融合信息樣本的總體識別正確率分別為86.8%、92.1%、94.7%,其中基于融合信息的識別率最高;在ELM分類模型中,基于光譜信息、紋理信息、光譜紋理融合信息樣本的總體識別正確率分別為84.2%、84.2%、92.1%;針對油桃的分類模型總體識別正確率可以達到84%以上。可見,本研究采取的光譜信息與紋理信息融合的方法可以有效實現油桃品種的識別,為農產品無損識別提供依據。
參考文獻:
[1]黃鋒華. 基于高光譜成像技術的油桃品質檢測及品種判別研究[D]. 太古:山西農業大學,2016:9-18.
[2]薛建新,張淑娟,張晶晶. 壺瓶棗自然損傷的高光譜成像檢測[J]. 農業機械學報,2015,46(7):220-226.
[3]谷靜思. 基于介電頻譜/近紅外光譜技術檢測采后桃和油桃的品質及品種[D]. 楊凌:西北農林科技大學,2014:1-5.
[4]喻曉強,劉木華,程仁發. 油桃糖度的光譜圖像檢測技術研究[J]. 江西農業大學學報,2007,29(6):1035-1038.
[5]劉木華,趙杰文,程仁發. 蘋果硬度品質的光譜圖像檢測技術研究[J]. 食品科學,2008,13(3):418-422.
[6]Baranowski P,Mazurek W,Wozniak J,et al. Detection of early bruises in apples using hyperspectral data and thermal imaging[J]. Journal of Food Engineering,2012,110(3):345-355.
[7]倪茜茜. 基于高光譜成像技術的紅酸枝品種識別[D]. 杭州:浙江農林大學,2015:1-4.
[8]梁 亮,楊敏華,李英芳. 基于ICA與SVM算法的高光譜遙感影像分類[J]. 光譜學與光譜分析,2010,30(10):2724-2728.
[9]Elmasry G,Sun D W,Allen P. Non-destructive determination of water-holding capacity in fresh beef by using NIR hyperspectral imaging[J]. Food Research International,2011,44(9):2624-2633.
[10]Wu D,Sun D W,He Y. Application of long-wave near infrared hyperspectral imaging for measurement of color distribution in salmon fillet[J]. Innovative Food Science and Emerging Technologies,2012,16:361-372.
[11]李勛蘭,易時來,何紹蘭,等. 高光譜成像技術的柚類品種鑒別研究[J]. 光譜學與光譜分析,2015,35(9):2639-2643.
[12]張 艷. 基于Gabor濾波器的紋理特征提取研究及應用[D]. 西安:西安科技大學,2014:1-4.
[13]楊宏雨,余 磊,王 森. 基于Gabor紋理特征的人臉識別方法[J]. 計算機應用研究,2011,28(10):3974-3976.
[14]宋余慶,劉 博,謝 軍. 基于Gabor小波變換的醫學圖像紋理特征分類[J]. 計算機工程,2010,36(11):200-202.
[15]李 鈺,孟祥萍. 基于Gabor濾波器的圖像紋理特征提取[J]. 長春工業大學學報(自然科學版),2008,29(1):78-81.
[16]郭文川,劉大洋. 獼猴桃膨大果的近紅外漫反射光譜無損識別[J]. 農業機械學報,2014,45(9):230-235.
[17]Kennard R W,Stone L A. Computer aided design of experiments[J]. Technometrics,1969,11(1):137-148.
[18]Zhu F,Zhang D,He Y,et al. Application of visible and near infrared hyperspectral imaging to differentiate between fresh and frozen-thawed fish fillets[J]. Food and Bioprocess Technology,2013,6(10):2931-2937.
[19]薛建新,張淑娟,孫海霞,等. 可見/近紅外光譜結合軟化指標快速判定沙果貨架期[J]. 農業機械學報,2013,44(8):169-173.
[20]李勛蘭,易時來,何紹蘭,等. 高光譜成像技術的柚類品種鑒別研究[J]. 光譜學與光譜分析,2015,35(9):2639-2643.
[21]Huang G B,Wang D H,Lan Y. Extreme learning machines:a survey[J]. International Journal of Machine Learning and Cybernetics,2011,2(2):107-122.
[22]Cambria E,Huang G B,Lekamalage C K L,et al.Extreme learning machines[trends & controversies][J]. IEEE Intelligent Systems,2013,28(6):30-59.楊 斯,黃鋁文,張 馨. 機器視覺在設施育苗作物生長監測中的研究與應用[J]. 江蘇農業科學,2019,47(6):179-187.