焦 俊,圣 陽,馬 鑫,李紹辰,滕 燕,李 春,蔣 玲
(南京林業大學信息科學技術學院,江蘇 南京210037)
核桃在我國栽培歷史悠久,分布廣泛,品種眾多,是世界著名的4大堅果之一[1]。由于不同品種的核桃品質存在差異,加工適應性也有所不同,核桃品種鑒別在核桃生產加工中顯得尤為重要,急需一種普遍適用的低成本、環保、快速和準確的核桃品種鑒別方法。
傳統的核桃品種鑒別有基于形態學、細胞學、孢粉學、同工酶和分子標記等鑒定方法,這些方法受環境和實驗條件影響較大,導致識別的準確性也受到限制,且材料收集周期長,操作煩瑣[2-7]。紅外光譜技術因其具有檢測速度快、檢測過程簡單、對樣品破壞性小的特點,已被廣泛地應用于農產品的定性鑒別及定量檢測[8-9]。何勇等[10]選用中紅外光譜進行分析,實現核桃品種及產地的判別,其中品種的識別率為83.3%。ZHU H等[11]將中紅外光譜技術與機器學習算法相結合對核桃進行產地和品種的區分,經特征波段選取后采用反向傳播神經網絡模型將品種識別率提高到87.88%。馬文強等[12]和賈昌路等[13]分別對核桃的仁和殼進行近紅外光譜掃描,通過所得光譜數據分析品種間差異,前者建立的支持向量機模型識別準確率達96%。LUIGI A等[14]采用近紅外光譜技術結合偏最小二乘判別分析準確地鑒別出意大利南部的索倫托地區出產的索倫托核桃,準確率達98.3%。總的來說,采用近紅外光譜數據的建模效果遠遠好于中紅外光譜數據,說明核桃在近紅外波段更能體現品種間差異,這是由于不同核桃品種的蛋白質、糖分和影響口感的酚類物質等含量差異明顯。這些物質分別對應N-H、C-H和O-H官能團,而不同化學鍵在對應的波段會被吸收,如C-H和O-H的合頻吸收分別出現在1 410~1 470和1 920~2 050 nm波段,N-H的合頻吸收出現在2 100 nm附近,均處于近紅外波段范圍內。因此,相比中紅外波段,近紅外波段所含核桃的物質信息更豐富。
處于遠紅外波段的太赫茲波對生物分子間的作用力更敏感,很多生物大分子的振動和轉動能級都位于該波段,物質的太赫茲光譜(發射、反射和透射光譜)包含豐富的物理和化學信息,可實現樣品的無損檢測[15]。前人均只采用單一光譜波段進行研究,并通過對比多種分類模型,往往僅有一種效果較好,即使通過尋優算法調參,識別率也很難達到100%。本研究首次將遠紅外光譜技術應用于核桃品種的識別,通過提取核桃樣品的有效特征光譜信息,并將遠紅外與近紅外光譜數據融合,實現光譜檢測技術與光譜數據的有機結合,期望提高核桃識別模型的準確率及穩健性。
選用7個核桃品種進行光譜采集,分別為清香核桃、溫185核桃、香玲核桃、新新2號核桃、紙皮核桃、漾濞核桃和岱豐核桃。首先將核桃手工去殼取仁后,將其置于60 ℃的恒溫干燥箱中干燥2 h,防止樣本本身水分對試驗結果造成干擾。再通過粉碎機對核桃仁樣品進行粉碎,制成固體粉末。
采用紫外-可見-近紅外分光光度計,型號為美國PE公司生產的Lambda 950,涵蓋波長范圍為175~3 300 nm,光學系統采用涂覆SiO2的全息刻線光柵,其中近紅外為360條/nm,通過控制電腦設置掃描波長為600~2 500 nm范圍。將粉碎樣品裝入直徑約3 cm的樣品池中并壓平,厚度均保證為5 mm,放入近紅外區域的檢測器進行掃描,具體樣品數據及標簽如表1所示。

表1 近紅外光譜采集的核桃樣本數據及標簽
采用傅里葉變換紅外光譜儀(FTIR)測試核桃的遠紅外光譜,通過該儀器獲得樣品在紅外頻段內的光學參數,該儀器型號為德國Bruker公司生產的Vertex80V,系統分辨率優于13.5 GHz,信噪比高達50 000∶1,采用的分束器為25 μm Myalr膜,對應的有效頻段為0.6~3.6 THz。
由于核桃屬于高脂肪類堅果,在壓片過程中容易出油而導致樣本受影響,且純樣本在遠紅外波段的吸收較強,在制備樣本時,需要摻加聚乙烯稀釋。然后將樣本粉末研磨至混合均勻并倒入13 mm直徑的模具中進行壓片,樣品厚度約為1 mm,測試時需要對樣品倉抽真空。為選取最佳濃度樣本,制備了濃度為40%、35%、30%、25%、20%和15%的核桃樣本,分別進行光譜掃描并對比所得光譜,得出20%濃度的圖譜噪聲最小且特性最佳,故試驗選取樣本濃度為20%做標準制樣,樣品數據及標簽如表2所示。

表2 遠紅外光譜采集的核桃樣品數據及標簽
1.4.1降維算法
主成分分析法(principal component analysis,PCA)是一種被廣泛應用到光譜數據的定性分析方法[16]。PCA通過線性變換將原始光譜數據投射到一些新的主成分變量(principal components,PCs),每一個主成分都是由原始數據線性組合而成,只需要幾個方差最大的主成分即可反映數據信息,既能大大降低數據維度,同時也不會造成信息的大量丟失,但其往往適用于樣本數據量大于特征波數的情形。
無信息變量消除法(uninformative variables elimination,UVE)是基于偏最小二乘回歸系數建立的波長選擇算法,用于消除不提供信息的變量[17]。UVE通過將回歸系數的平均值與其標準差的比值h作為衡量指標,并人為添加一個隨機矩陣作為噪聲矩陣,將噪聲矩陣的最大值h0作為閾值,變量的h值小于h0的變量將被剔除。然而,經UVE降維后得到的特征波數依然較多,往往需要采用其他特征選取算法進一步降維。
連續投影法(successive projections algorithm,SPA)是一種前向變量選擇算法[18]。通過在向量空間中使用投影操作,可以尋找到含有最低限度的冗余信息的變量組,進而選擇光譜信息中最重要的波長點,能極大程度降低光譜數據維度。SPA選擇的波長點之間具有最小的線性關系,非常適合具有高共線性的變量。
PCA具有既能保留原始數據的大量信息又能大大降低數據維度的特點,往往是光譜分析中特征波數選取的首選方法,本文中遠紅外光譜數據包含的波長點少于樣本數,而近紅外波段數據維度高達1 201維,遠遠大于樣本數量,故采用PCA對遠紅外數據進行降維,采用UVE和SPA對近紅外光譜數據進行特征波數的選取。
1.4.2機器學習算法
隨機森林(random forests,RF)可以構造不同相互獨立的決策樹,是一種使用多種決策樹的綜合方法[19]。為了構建隨機森林,對每個決策的樣本進行隨機抽樣。決策樹節點的特征也從訓練集的特征中隨機選擇,基于每個決策樹輸出分類結果。
K近鄰(K-nearest neighbor,KNN)分類算法是通過測量不同特征值之間的距離進行分類,多采用歐氏距離來計算。KNN的優點是依據K個對象中占優的類別進行決策,而不是單一的對象類別決策[20]。
支持向量機(support vector machine,SVM)本質上是一個二分類器,面對多分類任務,它也能通過訓練多個二分類器完成任務[21]。SVM是通過在多維空間中尋找一個超平面,使不同類型的樣本在超平面上較好的區分開來。到這個超平面的全部向量被稱為支持向量,而支持向量機就是要找到這些支持向量的算法,需要調優的參數有懲罰因子c和核函數參數g。
RF訓練速度比較快,對高維度數據的判別能力強,還可以判斷出特征的重要程度,且不容易過擬合,適用于小樣本數據集,但其對噪聲較為敏感,往往需要對光譜數據進行去噪。KNN的思想簡單,易于理解和實現,是一種惰性分類方法,計算量比較大,所以適用于降維后數據的建模,較為突出的優點是對于像光譜數據這種交叉或重疊較多的樣本集更合適,且適合處理多分類問題。SVM模型有很高的分辨率和泛化能力,能很好地解決高維問題,并且對小樣本的分類問題效果好,雖然其對非線性問題沒有通用的解決方案,但可通過選擇核函數來處理,本文選用了徑向基和線性兩種核函數分別建立核桃品種鑒別模型。總之,3種方法各有優劣,分別應用于核桃品種的鑒別,可很好地驗證本文光譜融合數據的有效性。
將7種核桃仁壓片制樣后采用FTIR光譜儀進行遠紅外光譜掃描,所得吸收光譜如圖1所示。由于試驗儀器、環境和操作等會引起系統誤差,原始光譜的首尾部分有明顯噪聲,故選取1.0~3.2 THz波段范圍的光譜進行建模分析。

圖1 7種核桃樣品的遠紅外吸收光譜Fig.1 Far-infrared absorption spectra of 7 kinds of walnut samples
7種核桃仁的近紅外反射光譜如圖2所示,由于系統誤差造成在全波段都存在些許噪聲,首尾的噪聲更為明顯,在光譜圖中存在較多毛刺,采用Savizky-Golay平滑法去噪,為清香核桃光譜圖去噪前后的效果對比如圖2a所示。最終選取1 000~2 200 nm波長范圍進行研究,7種核桃近紅外光譜如圖2b所示。


圖2 核桃樣品近紅外反射光譜圖Fig.2 Near-infrared reflectance spectrum of walnut samples
7種核桃仁樣品的遠紅外吸收光譜變化趨勢相似,但吸收峰不明顯,這是因為核桃本身成分復雜且包含多種營養成分,而不同營養物質對遠紅外信號的吸收相互干擾產生了光譜疊加導致無明顯吸收峰。去除首尾噪聲明顯波段后的遠紅外光譜數據維度仍高達153維,由于是同種物質,光譜數據之間有很大的相關性,是典型的多重共線性問題,建模之前采用主成分分析對原始特征矩陣進行降維。由圖3a可知,當主成分數超過10時,其累計貢獻率可達99%以上,說明此時主成分分析降維后的數據能夠較好地解釋原樣本數據的特征。因此,在本研究中選擇的主成分個數為10。
基于前3個主成分的得分如圖3b所示。不同品種間有部分重疊,且出現同一品種較為分散的現象,在此基礎上采用機器學習算法建立核桃品種識別模型。


圖3 遠紅外光譜數據主成分分析結果Fig.3 Principal component analysis results of far infrared spectrum data
同時,近紅外光譜數據維度高達1 201維,遠多于樣本數量,不宜采用PCA方法降維,采用UVE-SPA對近紅外光譜數據進行特征波數選取。先通過UVE算法削減不提供信息的變量后,還剩701個有效波長點(如圖4a),仍然遠多于樣本數量,若將該數據作為模型輸入,將導致模型復雜度較高可能會產生過擬合現象。于此,再應用SPA算法選出光譜信息中最重要的8個特征波長點,如圖4b所示。


圖4 近紅外光譜數據特征波數提取結果Fig.4 Results of feature wavenumber extraction from NIR spectral data
分別利用PCA降維后的遠紅外光譜數據和基于UVE-SPA特征波數提取后的近紅外光譜數據導入隨機森林、K近鄰和支持向量機分類模型,訓練集與預測集比例為7∶3,模型的預測能力和穩定性由訓練集準確率和均方根誤差(RMSEC)、測試集準確率和均方根誤差(RMSEP)進行評價,其判別結果如表3所示。可見,基于近紅外光譜數據所建立的模型好于遠紅外光譜數據,在近紅外波段,基于RBF核函數的SVM分類模型的識別率最高,且訓練集和預測集分別為100%和98.41%,此結果與前人的研究相符,但本文將核桃品種數增加到7種,并采用UVE-SPA選取特征波數,大大降低了模型復雜度。而遠紅外波段KNN模型效果最佳,訓練集和預測集準確率分別達93.88%和84.13%。都表現為個別方法的效果較好,說明不同波段光譜數據對于模型的適應性存在差異,因此模型普適性還需進一步驗證。此外,市面上核桃品種繁雜,數據量龐大,顯然基于單一光譜數據建立的核桃品種鑒別模型還不夠穩健。

表3 遠紅外和近紅外光譜數據降維后模型分類結果
數據融合分3個層次,分別為低級、中級和高級融合。低級融合即將各波段光譜的數據矩陣簡單地按樣本順序拼接為一個矩陣。中級融合是分別從每個數據源中提取特征變量,然后將它們組合成一個矩陣。高級融合也稱為決策級融合,是從每個數據源計算單獨的分類或回歸模型,并將每個單獨模型的結果進行組合以獲得最終決策。
低級融合后變量數將遠大于樣本數量,模型復雜度較高,往往易造成過擬合,高級融合的復雜程度更高,雖模型效率較高,但對算法要求更嚴苛。考慮到中級光譜數據融合可將光譜數據中提取的有效特征信息進行疊加整合,既能實現精簡數據,又能實現多波段光譜統一分析,達到提高分析準確度的目的。故將UVE-SPA特征提取后的近紅外光譜數據和PCA降維后的遠紅外光譜數據進行中級數據融合,得到包含18個特征變量的數據矩陣,作為模型的輸入變量,按照訓練集與測試集為7∶3的比例建立核桃品種鑒別模型,分類結果如表4所示。

表4 數據融合后模型分類結果
顯然,基于融合后的光譜數據,隨機森林分類器的識別準確率仍然較低,但相較于融合前的遠紅外和近紅外波段都有所提高,其預測集RMSEP也減小到0.776 6。而K近鄰模型和基于徑向基與線性核函數的SVM模型判別結果均達到100%,說明遠紅外光譜數據所包含的核桃各品種的差異信息能夠作為近紅外光譜信息的補充,本文所采用的降維算法結合數據融合方法能有效提取出核桃品種間的差異信息,提高了核桃品種鑒別模型的準確率和穩健性。
系統聚類是一種無監督的模式識別方法,常用于光譜的定性分析,依據樣品的光譜數據蘊含的化學信息相似程度,將比較相似的樣品聚為一類。其基本思想:先認為每個樣本自成一類,然后計算類與類之間的距離,選擇距離最小的一對合并成一個新的類,重復計算距離直至所有樣本都聚為一類為止,最后可選取合適的分類閾值確定最終分類結果。本文分別利用近紅外、遠紅外和融合后的光譜進行聚類分析,以驗證融合后數據更能體現核桃品種間差異。從樣本數據中每個品種隨機選取9個樣本進行系統聚類分析,結果如圖5所示,橫坐標為樣品標簽,縱坐標為聚類策略中常用的歐氏距離。



圖5 7種核桃樣品聚類結果Fig.5 Clustering results of seven walnut samples
結果顯示,在近紅外波段,溫185和紙皮核桃被聚為一類;香玲和新新2號核桃聚類結果出現交叉,且被分成3類,無法區分開來,表明兩者化學成分相似。在遠紅外波段,多種品種聚類混亂,如溫185、香玲及部分清香核桃被劃為一類;漾濞和部分岱豐核桃被劃為一類;新新2號核桃被分割成4類;新新2號和紙皮核桃也出現了交叉現象,說明遠紅外光譜數據分類準確度低,無法直接使用。而經中級數據融合后,將近紅外無法區分的溫185和紙皮核桃、香玲和新新2號核桃區分開來,僅部分岱豐和清香核桃出現品種交叉,以及少量香玲核桃聚類錯誤。表明本文提出的光譜融合方法能有效提升核桃品種鑒別模型的準確率和穩健性。
通過將遠紅外和近紅外光譜技術應用于清香、溫185、香玲、新新2號、紙皮、漾濞和岱豐這7種核桃品種的鑒別,發現針對核桃品種鑒別,近紅外波段特征吸收峰較多,能較好地反映核桃蛋白質、糖分和酚類物質的含量差異,而遠紅外波段雖各品種有差異但沒有明顯的吸收峰,因其還包含分子間的振動信息。利用遠紅外光譜和近紅外光譜數據建立分類模型,并分別采用PCA和UVE-SPA進行特征波長選擇,結果表明在遠紅外波段KNN模型效果最好,而在近紅外波段SVM模型最優,識別率分別為84.13%和98.41%。誠然,近紅外光譜用于核桃品種鑒別效果優于遠紅外光譜,然而僅僅采用近紅外光譜數據進行建模的模型普適性還不能達到實際應用的要求,將近紅外和遠紅外數據進行中級數據融合后,提取了更多的特征信息,發現除隨機森林以外其余3種方法的識別準確率均為100%,同時也驗證了中級融合后的聚類結果可以將單一光譜無法區分的品種進行區分,僅出現少量品種交叉現象。
進行中級數據融合后所建立的模型更為穩健,說明融合后的數據更能反映核桃各品種間差異,大大提升了光譜技術應用于核桃品種識別的準確性和可靠性。為實現核桃品種的高效、無損、精確識別提供了新思路,也為其他鑒別體系的建立提供了借鑒和參考。