吉海彥, 任占奇, 饒震紅
(1. 中國農業大學 現代精細農業系統集成研究教育部重點實驗室, 北京 100083; 2. 中國農業大學 農業部農業信息獲取技術重點實驗室, 北京 100083; 3. 中國農業大學 理學院, 北京 100083)
菠菜是我國普遍栽培的品種,為極常見的蔬菜之一,以其鮮、嫩的品質以及較高的營養價值,深受廣大消費者喜愛,市場需求量大且較容易種植,具有很好的經濟價值。在菠菜的生長過程中,有的農戶為保證其免受各種病蟲害影響,會使用多種農藥或殺蟲劑,農藥大部分都殘留在菠菜葉子上,即使采取專業的清洗也難以消除其表面的農藥[1]。更可怕的是有些農戶在剛打完藥后沒多久就采摘進行銷售,這樣就會進一步增加農藥殘留的量,長期食用含有農藥殘留的蔬菜,會誘發各種疾病,甚至可能導致癌癥和基因突變[2]。菠菜中的農藥殘留是否達標是評判菠菜質量的關鍵因素之一,而農藥殘留檢測中鑒別有無農藥殘留及農藥殘留的種類是農藥殘留檢測的前提[3]。果蔬表面的農藥殘留檢測有許多成熟可行的方法,例如:氣相色譜法和高效液相色譜法,但這些方法有檢測時間長、需要依賴化學試劑、對樣品有一定的損壞、操作復雜等缺點[4]。高光譜成像技術具備圖像和光譜的雙重優勢,檢測過程無損、無污染、樣品無需預處理且檢測效率較高,在現代農業檢測分析方面得到了廣泛的應用[5-8]。
李增芳等用高光譜成像技術無損檢測贛南臍橙表面不同稀釋濃度的農藥殘留[9];Shao 等通過使用近紅外高光譜成像技術無損檢測微藻上的農藥種類[10];Sun等運用高光譜圖像技術檢測桑葉表面的農藥殘留[11];劉民法等運用近紅外高光譜技術鑒別長棗表面的農藥種類[12];Qiao等利用短波高光譜圖像技術對真菌污染的花生進行分類鑒別[13];Sun等利用高光譜成像技術結合CARS和RF-RFE等特征波長選擇算法并建立支持向量機回歸模型定量檢測萵苣葉片上的農藥殘留[14];陳欣欣等利用高光譜成像技術對庫爾勒梨的早期損傷進行識別[15];Huang等用高光譜技術對不同年份的玉米種子分類進行了研究[16];Barbin 等運用高光譜圖像技術結合主成分分析技術研究了對豬肉的等級進行分類[17]。國內外的研究表明,高光譜成像技術被廣泛用于農產品品質檢測,但將高光譜成像技術結合特征選擇算法和多種分類建模算法用于菠菜葉片表面多種類農藥鑒別的研究未見報道。
本文以不含農藥的菠菜葉片及分別含有常用4種農藥(菊酯、樂果、滅多威、辛硫磷)殘留的菠菜葉片為研究對象,利用高光譜成像技術、光譜預處理技術、主成分分析技術、卡方檢驗特征提取算法和分類機器學習算法對菠菜葉片農藥殘留種類鑒別進行研究,并結合10折交叉驗證技術選擇出了最佳特征波段和分類模型,減少了模型的運行時間,實現了快捷無損識別出菠菜葉片上的農藥殘留種類。
實驗用的菠菜購于北京某批發市場,實驗農藥為:氯氰菊酯、樂果、滅多威和辛硫磷。對樂果農藥,用蒸餾水將其配置成1∶500的溶液;由于氯氰菊酯、滅多威和辛硫磷這3種農藥難溶于水,所以用甲醇分別將其配置成1∶500的溶液。甲醇作為一種溶解劑被添加進來,它可能會影響到含有農藥葉片的真實光譜信息,但其作為背景因素對農藥殘留種類的判別影響很小。如圖1為只噴灑甲醇的菠菜葉片的平均光譜曲線。把同濃度的農藥和蒸餾水均勻噴灑到125個菠菜葉片表面,每種類噴灑25個葉片,將葉片放置12 h后晾干,采集高光譜圖像。

圖1 噴灑甲醇后菠菜葉片的平均光譜曲線
高光譜成像系統采用北京卓立漢光公司的GaiaSorter“蓋亞”高光譜分選儀,核心部件包括高光譜成像儀、均勻光源、電控移動平臺、計算機及控制軟件等部分,如圖2所示。光譜相機是采用卓立漢光公司Image-λ譜像系列,該相機能獲取900~1 700 nm波長范圍內共256個波長點的灰度圖像,光源由4個200 W的溴鎢燈構成。高光譜成像系統的工作原理是通過光源照射在放置于電控移動平臺上的待測樣品,樣品的反射光通過鏡頭被光譜相機捕獲,得到一維的影像以及光譜信息,隨著電控移動平臺的移動,最終能獲得一個包含了影像信息和光譜信息的三維數據立方體,電控移動平臺的移動速度由軟件控制。

圖2 高光譜成像系統示意圖
采集高光譜數據時,將樣品放置于電動平移臺上,為了得到清晰的圖像需要多次的相機調焦和平臺運動速度的調整,經過多次調試,最終確定平臺的運動速度為0.3 cm/s,曝光時間0.08 s。采集到的高光譜成像數據為樣品的光譜數據和圖像數據組成的三維數據立方體,為了盡可能降低圖像噪聲和暗電流的影響,需要將采集的原始高光譜圖像進行黑白校正[18],在采集高光譜數據時將相機對準白板采集的數據為W,蓋上CCD相機鏡頭采集的數據為D,其校正公式為
(1)
式中:R為校正后的高光譜圖像;I為原始高光譜圖像;D為全黑的標定圖像;W為全白的標定圖像。校正的工具為高光譜系統自帶的軟件SpecVIEW。后續所用到的分析軟件包括:Matlab 2016b、Envi5.1、IBM SPSS Statistics 22.0和python3.6。
首先利用Envi5.1軟件選取菠菜葉片上的感興趣區域(Region of interest,ROI),為了充分利用每個菠菜樣品同時增加模型訓練樣本數,每個菠菜葉片樣品選取4個ROI,ROI的選取避開主莖干,選取ROI的位置如圖3所示。ROI選取的像素點數為50個,計算出ROI內像素點光譜的平均值,以該平均值作為該樣品其中的一條光譜記錄,最后一共搜集到500條光譜曲線,每類樣品100條。為了清晰分辨出不同種類的樣本之間的光譜信息差異,對每類樣品100條光譜曲線求平均,平均光譜曲線如圖4所示。從圖4中可以看出,不同種類農藥殘留的菠菜葉片光譜反射率有一定的差異,與正常葉片不同,滴過農藥的葉片的光譜反射率在某些波段明顯低于正常葉片,而不同種類的農藥殘留葉片光譜反射率也有一定的差異。目前已有相關研究表明:農藥脅迫會導致植物的某些生理生化指標(如植物內部的組織形態、葉綠素、可溶性多糖等)發生改變[19-20],這些改變將會影響近紅外波段的植被反射率[21],所以可以利用光譜信息來判別菠菜是否有農藥殘留及殘留農藥的種類。


圖4 無殘留和不同種類農藥殘留菠菜葉片表面ROI平均光譜曲線
在菠菜葉片高光譜數據的采集過程中,所測樣品的色澤差異、葉片表面的不平整性、葉片的水分含量以及質地不完全相同等因素可能會引起樣品發生散射現象進而掩蓋與農藥相關的光譜信息。農藥殘留分析屬于痕量分析的一種,因此由于散射所引起的光譜差異可能會大于農藥種類不同所引起的光譜差異,所以需要用多元散射校正算法(Multiplicative scatter correction,MSC)對原始光譜曲線進行校正,MSC可以消除漫反射光譜的基線漂移,對樣品不均勻性造成的噪聲也有較好的效果,經過散射校正后能最大程度消除光譜散射的影響[22]。校正前后光譜曲線的對比如圖5所示。

圖5 原始光譜曲線(a)和MSC校正后的光譜曲線(b)
主成分分析(Principal components analysis,PCA)是通過線性數據轉換的方法提取最重要的信息,從而降低數據的維度,被廣泛應用于高光譜數據降維和分析中[23]。在本文中,利用PCA對不同菠菜樣品的光譜數據進行可視化判別,如圖6所示,前兩個主成分的累計貢獻率達到了96.5%,故用前2個主成分能較好地表示出原來的高維光譜數據,從圖中可以看出在經過多元散射校正后不同種類菠菜樣品光譜數據分布差異明顯,因此,PCA可以更直觀地對五類菠菜樣品進行定性識別。但PCA是無監督算法,它分析出來的結果只和樣品的光譜數據有關而和樣品的類別無關,那些貢獻率小的主成分對于葉片殘留農藥種類的鑒別也可能很重要,經過PCA降維后的數據也失去了原數據的意義,不適合用于日后在線分析檢測的研制。綜上,有必要使用有監督的學習算法對其進行研究。

圖6 含有不同種類農藥殘留菠菜樣品的高光譜數據PCA分析
本研究中需要處理的菠菜葉片的高光譜圖像的特征維數高達256維,有必要對其進行特征選擇以剔除冗余的特征,從而減少模型的運行時間,為日后在線檢測設備的研制提供便利。為了選擇出最優的特征波長子集和分類預測模型,本文嘗試了統計學上的卡方檢驗特征選擇方法并結合常用的4種機器學習分類算法,分別為:支持向量機(Support vector machine,SVM)、樸素貝葉斯模型(Naive bayesian model,NBM)、決策樹(Decision tree)和線性判別分析(Linear discriminant analysis,LDA)。卡方檢驗(Chi-squared test)是分類問題常用的特征選擇方法之一,該方法采用了統計學上的卡方檢驗,需要計算并排序各維特征與類別間的相關程度,然后只保留最相關的k維特征,k可由程序設定[24-26]。為了增加模型的穩定性,采用了10折交叉驗證的方法對樣本進行劃分訓練集和測試集,取10次交叉驗證預測準確率的平均值和標準差對模型進行評估。如圖7中實心淺藍線和實心紅線所示,紅線的長度代表標準差的大小,標準差為0時紅線消失,結合模型的預測準確率和選擇的波長個數,藍色虛線畫出了各個模型的最優參與分類的特征個數占總特征個數的百分比,具體的波長選擇結果及模型的預測性能如表1所示。

圖7 卡方檢驗結合不同分類模型預測結果示意圖。(a)卡方檢驗結合支持向量機;(b)卡方檢驗結合樸素貝葉斯;(c)卡方檢驗結合線性判別分析;(d)卡方檢驗結合決策樹。
注:圖中橫坐標為卡方檢驗篩選出的變量個數百分比,縱坐標為該模型預測的準確率。
Note: The abscissa is shown in the percentage of the number of variables selected by chi-squared test, the ordinate is the accuracy of the model prediction.

表1 波長的選擇結果及模型的預測性能
從表1的分析可以得出,Chi-squared test結合LDA的判別模型相比其他模型選出的特征子集的個數最少,選擇波長的范圍為1 439.3~1 462 nm共8個波長,分別為:1 439.3,1 442.5,1 445.8,1 449,1 452.3,1 455.5,1 458.7,1 462 nm, 預測的準確率達到0.993,預測準確率的標準差為0.009,故可認為Chi-squared test結合LDA的判別模型為判別菠菜葉片上的農藥殘留種類的最佳模型。
基于高光譜成像系統利用PCA對菠菜葉片上的農藥殘留種類進行可視化的判別分析,結果表明PCA可以直觀地對菠菜葉片上的農藥殘留種類進行定性識別。PCA雖然有比較直觀的優點,但對本研究也有不利的地方,基于此,采用了Chi-squared test結合常用的4種分類建模算法篩選出了最佳波段和最優的LDA判別模型。篩選出的8個特征波長為:1 439.3,1 442.5,1 445.8,1 449,1 452.3,1 455.5,1 458.7,1 462 nm,縮短了模型的運行時間。將這8個特征波長代入LDA模型結合10折交叉驗證技術,預測準確率達到0.993且10次交叉驗證的標準差為0.009。本研究中,從將準備好的樣品送進實驗室開始到檢測結束,平均每個樣品花費時間2 min左右,未來可考慮將實驗流程實現自動化從而進一步提高檢測效率。
本研究可基于高光譜成像技術、光譜預處理多元散射校正技術、Chi-squared test特征選擇算法和分類建模算法準確鑒別出菠菜葉片表面的農藥殘留種類,為菠菜葉片的農藥殘留種類在線檢測提供了參考。