(1.江蘇大學食品與生物工程學院,鎮江 212013;2. 無錫迅杰光遠科技有限公司,無錫 214028;3.江蘇大學機械工程學院,鎮江 212013)
大豆作為我國主要的經濟農作物,具有分布范圍廣,營養價值高,小規模種植為主的特點。其種植特點對大豆的現場收購造成一定的難度。目前市場上大豆收購價格的定價主要依據是大豆的粗蛋白含量,對于小型的大豆收購商及豆農,傳統的經驗判斷缺乏公信力,很難讓別人信服;而凱氏定氮法等理化方法存在操作復雜,檢測所需時間長,以及存在人為因素干擾等問題[1]。
近紅外光譜法作為一種快速檢測方法,依據信息來自于含氫基團C-H、O-H、N-H基頻振動的倍頻和組合頻,具有采樣速度快、操作簡單的特點,已成為農產品無損檢測的主要手段之一[2]。基于MEMS技術的便攜式近紅外光譜儀,具有體積小,抗震,準確性好的特點,近年來在現場分析檢測領域得到了廣泛的應用[3]。但近紅外光譜譜峰寬且重疊嚴重,光譜的解釋性較差,需要借助化學計量學方法才能進行定量分析。偏最小二乘(Partial least squares, PLS)雖具有良好的抗干擾能力,可全光譜參與校正模型的建立[4],但光譜中的噪聲信號以及沉余信息很容易擴大其估計方差,降低校正模型的精度和穩定性[5]。
特征波長優選可以剔除噪聲過大的譜區,減少波長變量,提高測量速度;通過剔除線性模型下相關性很小的變量,得到穩健性好、預測能力強的校正模型[6]。目前,常用的波長選擇方法主要有相關系數法(Correlation Coefficients, CC)、無信息變量消除(Elimination of Uninformative Variables, UVE)、連續投影算法(Successive Projections Algorithm, SPA)、遺傳算法(Genetic Algorithms, GA)[7]、競爭性自適應權重取樣法(Competitive Adaptive Reweighted Sampling, CARS)[8]和后向間隔偏最小二乘(Backwards interval PLS , BiPLS)方法[9]等。本文介紹了基于IAS-2000便攜式谷物分析儀的大豆籽粒漫反射近紅外光譜,利用競爭性自適應權重取樣法(CARS)優選出與粗蛋白含量相關的特征變量來建立PLS模型,并與其他光譜預處理方法的校正模型進行了比較。
近紅外光譜儀器:試驗采用IAS-2000型便攜式谷物分析儀,如圖1所示,儀器采用上照式漫反射檢測模式。該儀器是基于MEMS技術的可編程固定光柵近紅外光譜儀,核心部件為線性掃描的數字微鏡器件(Digital Micro-mirror Device, DMD),使用銦鎵砷(InGaAs)單點探測器,儀器的工作光譜范圍900 nm ~1700nm,原始采樣點 256個,經插值處理,波長間隔為1nm ,共801個波長點,光譜分辨率 12.87nm,儀器的光路結構如圖1(B)所示。

圖1 IAS-2000便攜式谷物分析儀(A).儀器外形;(B).儀器內部的光路結構
試驗所用的大豆樣品來自黑龍江地區總計239個獨立樣本。樣品的光譜掃描在25°C條件下進行。大豆粗蛋白的測定依據國標GB/T 5511—2018《谷物和豆類氮含量測定和粗蛋白質含量計算凱氏法》,使用K1100Q半自動型凱氏定氮儀進行。
所有大豆樣品的近紅外原始光譜如圖2(A) 所示。
采用CARS、GA、CC、BiPLS作為波長優選算法;數據預處理選用了標準正態變量變換(SNV);PCA結合馬氏距離異常樣本剔除;SPXY(Sample set Partitioning based on joint X-Y distance)及K-S法進行校正樣品劃分;偏最小二乘(PLS)進行定量校正模型的建立等。以上算法均在MATLAB 2016a環境下運行。樣品經SNV處理后的光譜如圖2(B)所示。

圖2 大豆樣品經SNV處理前后光譜(A). 239個大豆樣品近紅外光譜圖 ; (B) .樣品經SNV處理后光譜
由于大豆的粒徑差異以及顆粒物的裝樣很難保證每次完全一致,在上照式漫反射近紅外光譜儀的光譜采樣過程中,光程和漫反射光會產生一定的變化,導致譜圖的重復性較差。為了獲取可靠、穩定的模型,需要對原始光譜進行預處理過濾無用信息,降低模型的復雜度。標準正態變量變換(SNV)是基于統計學方法的用以修正因為散射導致的光譜線性變化,對于消除固體顆粒大小、表面散射以及光程變化對近紅外漫反射光譜的影響很有幫助,采用SNV處理后結果如圖2(B)。由于在預處理之后光譜兩端的噪聲比較大,因此在建模前去掉全光譜801個點兩端各50個光譜點,實際使用光譜范圍950 nm ~1650nm,其中每條光譜包含701個數據點。
在采用SNV方法對大豆近紅外光譜進行處理的基礎上,使用主成分分析(PCA)求得樣本光譜的得分矩陣,并依據得分矩陣來計算因子空間的馬氏距離,選取前面4個主成分的得分進行馬氏距離計算,設馬氏距離權重閾值e為1.5[10]。得到239個樣品的馬氏距離分布(見圖3)。

圖3 239個樣本的馬氏距離分布圖
從圖3可以清晰的看到,通過馬氏距離的計算可以發現存在幾個異常樣本,如29、26、114、219等,剔除異常值樣本可以提高校正模型的穩定性和準確性[10]。
校正集和預測集樣本的選擇對模型的質量有著重要的影響,對于校正集樣本的選擇,通常采用樣本均勻分布的方法,這樣可以保證樣本的代表性,本實驗的樣本選擇方法為SPXY (Sample set Partitioning based on joint X-Y distance)法,該方法是在K-S方法的基礎上提出的,在計算樣本之間的距離時同時兼顧了光譜及濃度為特征參數。
對除去異常值后保留的235個樣本利用SPXY法劃分,校正集與預測集樣品數的劃分比例為 3∶1,其劃分結果如表1所示,從中可以看出校正集樣品蛋白含量范圍33.84 %~46.32 %大于驗證集34.66%~41.26%,這樣的劃分是合理的[11]。

表1 SPXY法選取的大豆校正集與預測集樣品的劃分
競爭性自適應重加權算法[8](CARS) 模仿的是進化論中的“適者生存”法則,通過定義波長貢獻度結合指數衰減函數(EDF)篩選出PLS模型中回歸系數絕對值較大的波長點,再通過N次蒙特卡洛采樣,每次在校正集中隨機挑選80%~90%的樣本建立PLS模型,采用自適應重加權采樣(ARS)技術進一步篩選波長變量,最后通過交互檢驗(CV)選出模型交互驗證均方差(RMSECV)值最低的子集,即為最優變量子集。為提高校正模型的預測精度,在樣品劃分的基礎上對波長采用CARS進行優選。首先采用蒙特卡洛采樣500次,每次抽取80%的樣本作為校正集,建立PLS回歸模型,再利用指數衰減函數(EDF)去除波長權重對模型貢獻度小的波長點,最后以交互驗證均方根誤差(root mean square error of cross-validation, RMSECV)作為評價指標,選擇RMSECV值最小的變量子集,作為最優變量集。基于CARS的校正集175個樣品波長篩選過程如圖4所示,圖4(A)表示光譜數據變量個數與CARS運行次數的變化關系,隨著運行次數的增加變量數的變化由快到慢呈遞減的趨勢[12];圖4(B)為10折交互檢驗得到的RMSECV值隨著運行次數的變化關系,在前47次運行時,RMSECV值呈逐漸減小的過程,無關變量被剔除后模型預測均方根誤差減小,隨著運行次數逐漸增加,核心變量被剔除模型均方根誤差增大。圖4(C)中每條線表示1個變量回歸系數隨著運行次數的變化趨勢,一連串“*”表示的直線與回歸變量組相交的點即為殘差最低點。

圖4 大豆蛋白數據變量篩選圖(A).保留波長數; (B).交互驗證標準差 ;(C).波長變量回歸系數
經過CARS波長優選,最終優選的變量數為46個波長點,采用CARS優選的變量建立的校正模型主成分因子數為9個,相較于全光譜模型的11個主成分,主成分因子數降低,說明CARS波長優選起到了簡化模型的效果。校正模型對樣本預測值與實際理化值之間的散點圖如圖5所示。圖5 (A)為CARS算法優選的波長點建立的校正模型,在校正集中相關系數()及交互驗證均方根誤差(RMSECV)分別為0.9693和0.3898;在預測集中相關系數(Rp)及模型預測均方根誤差(RMSEP)分別為0.9589和0.4015。圖5(B)為全光譜建立的校正模型,在校正集中相關系數(Rc)及交互驗證均方根誤差(RMSECV)分別為0.9543和0.4119;在預測集中相關系數(Rp)及模型預測均方根誤差(RMSEP)分別為0.9534和0.4388。通過與全光譜模型對比可以看出經過CARS波長優選,光譜變量總數由701減少到46個,在簡化了模型的同時提高了模型的精度。

圖5 校正模型預測值和實測值的散點圖(A) .CARS-PLS;(B).PLS
為了檢驗使用CARS-PLS建立的模型與使用全光譜PLS建立的模型穩定性,隨機選擇了預測集樣本中5個蛋白含量分布較寬的大豆樣本,每個樣品1天測定10次,儀器參數不變,共進行3天。通過對比預測結果極差與均方根值,判斷模型的穩定性。圖6(A)表示了使用CARS-PLS建立的模型的穩定性數據,其5個樣本平均極差及均方根值分別為0.86、0.2335;圖6(B)表示了使用全光譜PLS建立的模型的穩定性數據,5個大豆樣本3天測試平均極差及均方根值分別為1.12、0.3335。表明經過CARS波長優選,模型的穩定性也得到了提升。CARS-PLS建立的模型在大豆粗蛋白模型與其他幾種方法(CARS-PLS、GA-PLS、相關系數法建立的模型以及波段優選BiPLS)建立的模型相比較,結果如表2所示。從表中可以看出與GA、相關系數法及BiPLS模型相比,CARS-PLS模型的穩定性及預測準確性最好。

圖6 模型預測結果長期穩定性散點圖(A). CARS-PLS; (B). PLS

表2 不同PLS校正模型下的結果分析
由表2可以看出,全光譜PLS建模過程中由于光譜中包含了大量與蛋白含量無關的數據點,在一定程度上對校正模型的預測能力產生了影響;并且由于數據量非常大,建模及預測過程中耗時且對設備性能要求較高。GA-PLS及BiPLS都剔除了大量與大豆蛋白含量無關的數據點,但在模型準確性上前者要優于后者。但是GA屬于全局尋優,隨機性較強,并且在樣本量過多時必需進行數據壓縮,否則,很容易出現過擬合現象,而變量壓縮的方法選取也會對結果造成較大影響,因此,在建模及預測過程中很難保證結果的一致性;BiPLS屬于波段優選,共有245個波長點參與了校正模型的建立,雖優于全光譜701個波長點,但數據量還是很龐大。
本研究采用競爭性自適應權重取樣法(CARS)作為國產便攜式近紅外光譜儀在大豆粗蛋白含量測定過程中的波長優選算法。在進行波長優選過程中,針對大豆顆粒的裝樣及所采用的便攜式近紅外光譜儀特性,選擇了標準正態變量變換(SNV)作為光譜數據預處理方法,利用SPXY法作為校正集與預測集樣品劃分方法,用競爭性自適應權重取樣法(CARS)對大豆近紅外光譜進行特征波長選取。再通過對比CARS、遺傳算法(GA)、相關系數法(CC)及后向間隔偏最小二乘(BiPLS)優選的特征波長/波段使用PLS算法建立的校正模型。結果表明使用CARS-PLS建立的模型明顯優于其他模型,不僅減少了建模所用的變量數,而且校正模型的預測精度及穩定性也得到了提高。