,*
(1.河北工業大學人工智能與數據科學學院,天津 300130; 2.總裝機械技術研究所,河北石家莊 050003)
中國是梨樹的原產地之一,梨果產業也是中國水果產業中繼蘋果和柑橘之后的第三大果品產業[1]。河北省石家莊市盛產的皇冠梨是一種遠銷海外的品種梨,其產量與需求日益增多。但在運輸過程中,會因為各種外界因素,例如貯藏時間過長、運輸過程中擠壓碰撞等原因,

表1 PEN3傳感器名稱及性能描述Table 1 Ten sensor names and performance descriptions of PEN3
導致其內部發生腐敗變質,而外觀上卻無很大變化的現象[2-3]。專業的梨果專家也無法很好地分辨其內部果實的好壞[4],這些已經變質的皇冠梨運輸到海外市場后,會出現拒收情況,造成巨大的經濟損失。目前的解決方法是在裝箱運輸前進行人工抽樣檢測,該方法一方面抽檢的覆蓋率和效率較低,另一方面會浪費大量的資源。
在過去的幾年里,各種先進的檢測方法已在果蔬檢測中得到應用[5-6]。傳統方法包括紅外光檢測和可見光圖像檢測,但只能檢測水果的外部品質,無法完成對水果內部果實的檢測[7]。目前也有專業果實評級師根據香氣特征來檢測水果品質好壞[8-9]。但檢測的方法主要是依據個人經驗,具有主觀性,并且主要針對單一特定水果,沒有較廣的覆蓋面并且檢測的準確性與高效性是無法保證的[10]。
目前的電子鼻技術還沒有應用在皇冠梨的檢測中。效率低的人工抽檢方法不適用于大規模的出口檢測工作,另外一些紅外光和可見光檢測方法因其檢測設備過于復雜且造價昂貴,并且對檢測環境要求較高等原因,也達不到出口檢測的要求。所以本文提出一種基于電子鼻技術的無損檢測方法,完成對不同腐敗程度皇冠梨的等級分類,為皇冠梨品質檢測提供新思路。
皇冠梨樣本 于2018年10月份在河北省石家莊市農科院采集,樣本擁有大致相同的成熟度與重量。
PEN3便攜式電子鼻 德國Airsense公司,該電子鼻系統由金屬氧化物氣體傳感器陣列、氣體采樣裝置和信號處理單元組成[11]。使用10個不同金屬氧化物傳感器進行采樣,不同的傳感器對不同的揮發性物質有特殊反應[12-13],PEN3十個傳感器陣列的主要性能如表1所示。
1.2.1 樣品的分級 由農科院采集的880個皇冠梨樣本,由經驗豐富的梨果專家根據多年的鑒別經驗分為四類,無黑核梨、黑核梨1級、黑核梨2級和黑核梨3級,每一類共220個,總共880個皇冠梨樣本,采集完畢后使用圖像采集系統對梨樣本拍照留樣記錄,每一個皇冠梨樣本均由專家切開進行驗證。
1.2.2 電子鼻分析 將皇冠梨樣品放入500 mL燒杯內,采用保鮮膜進行密封,密封后靜置于室溫環境,頂空時間為15 min,目的為樣品氣體能充分揮發在密閉燒杯中,待氣體達到飽和平衡狀態后進行正式實驗,每個樣本的密封時間間隔為2.5 min(即檢測一個樣本的時間),目的為保證每個樣本有相同的實驗條件,即每個樣本頂空時間相同。氣體采集前,以500 mL/min的速率吸取潔凈空氣對電子鼻的氣室和氣道進行清洗,清洗時間為60 s;檢測時,將進氣針與補氣針同時插入保鮮膜封閉的燒杯內,電子鼻內置氣泵開始工作,以300 mL/min的速率吸取樣品氣體,采集時間為90 s。即總實驗時間為150 s(60 s氣體清洗時間,90 s氣體收集時間)。
對于實驗過程中可能因人為操作而導致的偶然誤差問題,并且為保證樣本的準確性與可靠性,本實驗采取的措施是對同一個樣本進行三次的重復實驗采集,降低偶然誤差的風險,每次實驗后將采集好的數據保存在計算機內,為之后的數據分析做準備。
使用電子鼻儀器收集相同產地、相似成熟度與質量大致相同的皇冠梨樣本的氣味數據,使用不同的機器學習算法對經過專家鑒定過的四個等級共640個梨樣本數據做模型的訓練,使用分層K折交叉驗證的方法對模型進行評估,選擇最佳的模型,最后使用未經過訓練的四個等級共160個獨立皇冠梨樣本對搭建的模型進行驗證。處理數據軟件為Spyder,處理語言為python3.6版本。
1.3.1 主成分分析 主成分分析(Principal Component Analysis,PCA)是一種無監督的數據分析方法,它可以在保證數據最大差異的同時降低特征維數[14]。PCA通過正交變換將數據變換到新的特征空間中去,原始空間中的最大數據方差的方向是第一主成分(PC1),與PC1正交的第二大數據方差的方向是第二主成分(PC2),依次類推。
1.3.2 線性判別分析 線性判別分析(Linear Discriminant Analysis,LDA)的基本原理是將高維的模式樣本投影到最佳鑒別矢量空間,以達到抽取分類信息和壓縮特征空間維數的效果,它是一種有效的特征抽取方法[15]。它能夠保證投影后的樣本在新的空間中有最小的類內距離和最大的類間距離,使樣本在新空間中達到最佳的可分離性[16]。

表2 皇冠梨樣本驗證結果Table 2 The verfication result of Huangguan pear samples
1.3.3 支持向量機算法 支持向量機(Support Vector Machine,SVM)算法的基本原理是在數據平面上尋找并建立一個最優決策超平面,使平面兩側距離平面最近的兩類樣本之間的距離最大化[17]。對非線性問題,支持向量機引入核函數概念,將低維空間不可分問題轉化為高維空間可分問題,主要的核函數有線性核函數、多項式核函數、高斯徑向基核函數等[18]。
1.3.4 邏輯回歸算法 邏輯回歸(Logistic Regression,LR)算法的原理是使用輸入變量的系數加權線性組合來分類,能給出相應的類分布估計,并且在模型訓練時間上也有很大優勢[19]。邏輯回歸算法不需事先假設數據分布,避免了假設分布不準確所帶來的問題,并且它是對近似概率的預測,對線性問題有很好的效果,但對于一些非線性的分類問題則表現較差[20]。
1.3.5 梯度提升樹 梯度提升樹(Gradient Boosting Decison Tree,GBDT)是一種以CART為基學習器的Boosting集成算法。其算法在每一輪迭代的目的都是使當前學習器的損失函數最小,使損失函數總是沿著其梯度方向下降,通過不斷迭代使最終殘差趨近于0,將所有樹結果累加起來便可得到最終的預測結果[21]。
1.3.6 XGBoost算法 XGBoost算法是基于GBDT的改進版[22-23],對輸入要求不敏感,在工業界應用較為廣泛。與一般的GBDT算法相比,XGBoost利用了損失函數關于待求函數的二階導數,添加了正則項,防止過擬合,構建每棵樹時對屬性進行采樣,有訓練速度快,精確度高,擬合效果好等優點。
采集完畢后使用圖像采集系統對梨樣本拍照留樣記錄,梨果專家對每個樣本切開后進行人工驗證,驗證結果如表2所示。
因部分樣本不符合專家鑒定的等級要求,該部分樣本不參與后續數據分析,在符合要求樣本中共取800個樣本,每一類各200個。其中640個樣本為訓練集,每一類各160個;剩余160個為獨立驗證集不參與模型訓練,每一類各40個,圖1是四個等級梨的完整圖與剖面圖。

圖1 四個等級梨的完整圖與剖面圖Fig.1 Complete image and section image of four grades pears
樣本數據由電子鼻儀器獲得,對已有的電子鼻數據做各傳感器的響應曲線,皇冠梨的典型電子鼻響應曲線如圖2(a)所示,其中響應值用相對電阻率表示,即樣本氣體與純空氣電阻率之比(G/G0)。

圖2 皇冠梨的電子鼻傳感器響應圖Fig.2 Electronic nose sensor response diagram of Huangguan pears
從圖2(a)中可以觀察到電子鼻響應值的變化趨勢表現出一定的規律。隨著時間的增加,各傳感器響應值發生變化,大概在45 s后,各傳感器的響應值達到穩態。其中S2、S4、S6、S7、S8、S9、S10七個傳感器響應值有較大的提升,而其余的傳感器響應值基本沒有變化或變化較小。將四類皇冠梨樣本45 s后穩態響應值做均值處理,繪制雷達圖如圖2(b)所示,四類樣本的電子鼻響應值呈現相似的輪廓,即10個不同傳感器的敏感度表現是相似的。由圖2綜合可知:對皇冠梨氣味響應比較敏感的傳感器有S2、S4、S6、S7、S8、S9和S10;而隨著腐敗等級的增加,S6、S7、S8和S10的信號逐漸增大。該結果表明,皇冠梨腐敗程度的增加會產生更多的烷烴類化合物、萜烯或含硫有機化合物和乙醇類化合物等。
通過觀察響應曲線和雷達圖,可將四類樣本進行簡單區分。因此,皇冠梨腐敗等級可以基于電子鼻設備進行簡單識別與分級,但要得到更準確的分析,需要對數據進行更進一步的處理,因此對十個傳感器的數據做進一步信號處理和分析工作。提取45 s后的相對穩定的響應值作為后續分析處理的特征數據。
使用PCA方法對數據做降維處理。前三個主成分(PC)的累積方差貢獻率達到95.19%,充分保留了樣本的原始數據信息,PC1、PC2和PC3的貢獻率分別占74.30%、18.91%和1.98%。圖3為PC1、PC2和PC3繪制的標準分數圖。

表3 分層5折交叉驗證法對不同模型的測試集準確率(%)Table 3 Stratified 5-fold cross-validation method for accuracy of different models in test set(%)

圖3 四個等級梨的PC分數圖Fig.3 PC scores for four grades pears
從圖3中可以觀察到,無黑核梨與黑核梨可以大致區分開,但部分不同等級的黑核梨不能完全區分,其聚合程度也不夠緊湊,可能有以下兩方面原因:一方面因為樣本數據是不同的黑核梨構成,可能因為其腐敗程度略有不同而導致某一傳感器收集的數據變化差異較大;另一方面PCA在皇冠梨腐敗等級分類中表現不佳也可能是因為尺寸減小后的保留氣味信息不是非常有效,并且在分析中丟棄了包含有用信息的某些信息分布方向。
前三個線性判別函數(LD)的累積貢獻率達到99.73%。LD1、LD2和LD3描繪分數圖如圖4所示,其LD1、LD2和LD3分別為62.12%、34.81%和2.80%。相比較于PCA保留95.19%的數據信息來比,LDA更好地保留了原始信息。從圖4可觀察到,無黑核梨與不同腐敗等級的黑核梨有較大的差異分布,由于差異的高分配率,可以觀察到樣本具有足夠的代表性,也說明該方法對皇冠梨腐敗等級分類是有效的,因此,LDA降維方法也是可用于梨樣本數據的。

圖4 四個等級梨的LD分數圖Fig.4 LD scores for four grades pears
選用的降維方法為主成分分析(PCA)和線性判別分析(LDA),選用的分類方法為邏輯回歸(LR)、支持向量機(SVM)、梯度提升樹(GBDT)、XGBoost方法。在模型評估方面,采用分層5折交叉驗證方法,該方法是將訓練集640個皇冠梨樣本根據4個等級每次分層隨機取樣,分為互斥的5個子集,將5個子集隨機分為兩部分,4個子集作為訓練集,1個子集作為測試集,訓練后對每一次的測試集樣本準確率做均值處理。分層5折交叉驗證法對不同模型的測試集準確率如下表3所示。

表4 不同模型在驗證集準確率Table 4 Accuracy of different models in validation set

表5 其他模型在驗證集準確率Table 5 Accuracy of other models in validation set
從上表中可以看出,作為GBDT方法的改進版XGBoost方法與兩種降維方法的結合后模型的準確率都要明顯高于其他幾種方法,分層5折交叉驗證法相較于傳統的隨機劃分法其優點是避免了偶然性與單一性,提高了模型可靠性與穩定性。
模型訓練好后,另取四個等級梨樣本各40個,總共160個梨樣本用作模型的驗證。驗證結果如下表4所示。
其中PCA-LR、PCA-SVM、PCA-GBDT、PCA-XGBoost、LDA-LR、LDA-SVM、LDA-GBDT、LDA-XGBoost的驗證集準確率分別達到了75.0%、79.4%、84.4%、91.9%、73.1%、82.5%、87.5%、95.6%。對比測試集結果,LDA-XGBoost方法的在驗證集的準確率也是最高的,達到了95.6%。
此外,選取最近兩年文獻中表現較好的分類算法應用于皇冠梨樣本,其中Liu等[24]對葡萄酒產地、年份和種類的分類中,反向傳播神經網絡(BP)達到了最佳性能;高靜等[25]對黃山毛峰與其他綠茶的分類比較中,使用貝葉斯算法(NB),有較好的判別準確率。因此對比以上兩種算法與LDA-XGBoost算法在驗證集準確率,驗證結果如表5所示。
比較兩種分類算法針對皇冠梨樣本的分類效果,發現經典的貝葉斯算法在驗證集的效果并不是很好,大量的1級與2級的樣本被錯誤分類;而反向神經網絡的表現不錯,準確率達到了91.9%,但低于LDA-XGBoost方法的95.6%。說明針對皇冠梨樣本,LDA-XGBoost算法是最合適的,準確率也是最高的。
以上各個實驗結果表明皇冠梨數據使用LDA降維方法較為完整地保留了原始數據信息,而XGBoost方法更好地對降維數據進行分類區分,其LDA-XGBoost方法在測試集與驗證集上都有較好的表現,模型的準確率分別達到96.6%和95.6%,取得最佳的分類效果。
本文提出的基于電子鼻技術的無損檢測方法是一種快速、準確、非破壞性的對不同腐敗等級皇冠梨分類的實用方法,該方法能在保證樣本完整性的情況下克服人工檢測的主觀性和不準確性。根據結果顯示,優質的皇冠梨的氣體數據是較為固定的,LDA-XGBoost方法在測試集與驗證集上都有比較高的準確率。
本文對不同腐敗等級皇冠梨分類問題提出新的檢測手段,解決之前因人工檢測方法主觀性強、準確率低和覆蓋率低而導致的經濟損失問題,為石家莊皇冠梨品質檢測提供新思路新方法。