劉紅蕓,吳雪梅,李德侖,張富貴,張大斌,黃華成
(1. 貴州大學機械工程學院,貴陽市,550025; 2. 貴州省煙草農業科學研究院,貴陽市,550081)
采摘期煙葉含水量是煙草工藝技術指標之一,直接影響烤后煙葉的品質。準確地檢測采摘期煙葉水分含量,對煙草工藝具有重要意義。高光譜技術是一種無損檢測技術,主要是通過對物體樣品光譜信息的測量后,可在一定程度上體現被測物體內部物理結構及化學成分的差別[1-2]。與傳統的化學成分檢測技術相比,高光譜圖像技術是一種物理檢測技術。通過建立高光譜分析模型,可同時預測多個指標,并具有分析快速、操作簡單、無損也無需對檢測樣品預處理等諸多優勢[3-5]。目前,雖然國內外也有相關研究從高光譜圖像技術及反射率的角度成功地估算作物的氮含量、葉綠素含量、水分含量及進行了病害檢測等[6-13],但是目前國內外利用高光譜技術鑒定煙葉含水量的報道較少。因此,高光譜技術可用來對采摘期鮮煙葉葉片水分含量進行檢測。
高光譜技術對煙草葉片水分含量進行預測時,煙葉樣本中存在未知的光譜異常樣本,會直接影響模型精度[14]。在建立煙草葉片水分含量分析模型時,煙葉的光譜值與化學值之間具有一定的相關性。然而,數據集中存在異常光譜樣本時,會導致這種相關性降低,模型預測精度也會隨之降低。因此,有必要對異常樣本進行識別和處理后再進行建模分析。
本研究利用MSC、SNV、歸一化(Normalize)、數據中心化(Mean centering)、標準化(Autoscales)、移動窗口平滑、SG卷積平滑法、Savitzky-Golay一階導數、Savitzky-Golay二階導數、一階導數(FD)、二階導數(SD)多種方法來對樣本的高光譜數據進行預處理,再利用主成分分析結合馬氏距離(PCA-MD)的方法來消除異常樣本,選出最佳預處理方法,然后使用偏最小二乘法建立了煙葉水分含量模型。驗證高光譜技術應用于煙葉水分含量預測的可行性,實現快速、無損和科學的煙葉水分含量檢測。
本研究以貴州省天柱縣(黔東南地區)、息烽縣(黔中地區)、安龍縣(黔西南地區)、道真縣(黔北地區)和威寧縣(黔西北地區)五個地區采摘期云煙87中部煙葉為研究對象,于2019年7月30日—8月20日期間進行,每個地區選擇30個樣本,共采集150個煙葉樣本。
1.2.1 高光譜數據的獲取
首先選擇晴朗、無風的天氣在戶外采用GaiaSky-mini2機載高光譜成像儀(四川雙利合譜)拍攝所采集煙葉樣本的高光譜圖像,并進行光譜圖像的黑白校正。然后使用ENVI5.3軟件對鮮煙葉葉片感興趣區域(Region of Interesting,ROI)進行繪制,但考慮到傳感器鏡頭邊緣存在減光現象,所選區域應盡量避開主莖,遠離圖像邊緣且盡可能大的包絡煙葉葉面部分。最后計算樣本ROI內的平均光譜數據值,將其作為煙葉葉片的原始光譜。本次所拍攝的光譜數據波長范圍為371.08~1 037.89 nm,包含176個波長點。
1.2.2 葉片水分含量的測定
在采集高光譜圖像后,將每一個煙葉樣本的葉片與主莖分開,用0.01 g的電子稱稱重并記錄為煙葉的鮮質量(記為m0),立刻使用寫好標簽的錫紙包裹(錫紙標簽與煙樣標簽一致),放入液態氮中保存(保證鮮煙葉化學性質不受到損失)。將樣本帶回實驗室,取出液態氮所保存的樣品,使用鑷子將錫紙扎破后,然后放入真空冷凍干燥機處理后,進行稱重并記錄為煙葉干質量(記為m1)。通過式(1)計算水分含量。
(1)
式中:f——樣本的水分含量;
m0——樣本的鮮質量;
m1——樣本的干質量。
1.3.1 預處理方法
由于受到外部環境和儀器暗電流的影響,在光譜數據采集過程中會出現散射、高頻隨機噪聲和基線漂移等問題,影響后續建立模型精度和穩定性[15]。為了消除這些不良因素影響,應用多元散射校正、標準正態變量交換、歸一化、數據中心化、標準化、移動窗口平滑、Savitzky-Golay卷積平滑、一階導數、二階導數等方法對光譜進行預處理。
1.3.2 主成分分析結合馬氏距離剔除異常樣本(PCA-MD)
主成分分析(PCA)是采用降維的方式,在損失很少信息的條件下將原本多變量轉化為只有維數較少且互不相關變量來替代,可以計算出每個樣本光譜各個變量的主成分得分,是采用數學方法來降低光譜數據維數的有效方法[16-17]。
馬氏距離是計算空間中兩個不同數據點相似度的方法[18-20]。馬氏距離考慮了不相等的方差以及特征之間的相關性,通過對數據點的特征分配不同的權重來充分評估數據點之間的距離。而且馬氏距離可以調節數據的幾何情況,使得類似數據點之間的間距很小。因此,它可以用來提高聚類或分類算法的性能。
本文利用每個樣品的光譜數據與校正集的平均光譜數據之間的間距作為馬氏距離,結合主成分分析所得煙葉樣本得分,計算各個樣本的馬氏距離,然后將其與閾值作比較,并通過去除異常光譜樣品來提高模型的準確性,計算方法如式(2)~式(3)。
(2)
(3)
式中:M——校正集光譜主成分得分矩陣的協方差陣;
ti——樣本i的主成分得分向量;

Di——校正集樣本i的馬氏距離。
檢驗校正集中的異常樣本存在的閾值計算如式(4)所示。
Dth=Dm+e·σd
(4)
式中:e——給定閾值調整權重系數;
Dm、σd——m個樣本馬氏距離的平均值、標準差;
Dth——校正集閾值范圍。
凡滿足Di≥Dth,認為校正集中第i個樣本是異常樣本,予以剔除;反之Di 1.3.3 PLS預測模型 偏最小二乘法(PLS)是一種高效提取信息的方法,結合了多種統計分析方法的優點,是用于光譜數據分析的重要方法。本研究將全波段波長作為模型的輸入變量,利用交叉驗證的方法(cross validation)來選取主成分數,建立煙葉水分含量的PLS預測模型,通過模型的評價指標來確定模型精度。 利用相關系數R與均方根誤差RMSE對模型的穩定性和估測能力進行檢驗。R越大,即數值越靠近1,說明該模型的擬合精度越高,并且模型越穩定;RMSE越小,則模型估測能力便越好、準確度越高。文中采用RMSEC表示校正集樣本均方根誤差及RMSEP表示預測集樣本均方根誤差,相關計算公式如式(5)~式(6)。 (5) (6) 式中:yi——各煙葉樣本的水分含量真實值; m——校正集樣本量; n——預測集樣本量。 未經預處理的原始光譜曲線圖和經過不同預處理方法處理后煙葉樣本光譜曲線如圖1所示。 煙葉反射率的原始光譜顯示出明顯的散射噪聲和基線漂移,盡管這種分散的光譜曲線呈現出相似的變化趨勢(圖1(a))。經過多元散射校正、移動窗口平滑、SG卷積平滑等預處理后的光譜曲線吸收和反射特征更加明顯,都有不同程度的強化和去噪作用。多元散射校正(圖1(b))、SNV(圖1(c))和標準化(圖1(d))處理后,光譜的重合度明顯提高,減少了散射噪聲的影響,但在400~500 nm波段范圍內造成了光譜分散。 (a) Original spectrum (b) MSC (c) SNV 移動窗口平滑(圖1(f))和SG卷積平滑(圖1(g))處理后,明顯減少了700~1 000 nm范圍內曲線的波動。歸一化(圖1(e))和數據中心化(圖1(h))處理后,光譜都歸入了某個特定的數值區間之內,在一定程度上減小了尺寸差異大和數據信息結構不同的干擾。Savitzky-Golay一階求導(圖1(i))、Savitzky-Golay二階求導(圖1(j))、直接差分一階求導(圖1(k))、直接差分二階求導(圖1(l))與原始光譜曲線相比,吸收峰數量明顯增加。 在冷凍干燥處理過程中,將液態氮所保存的樣品取出及使用鑷子將錫紙扎破時,造成9個試驗樣本損壞,最后測量水分含量的試驗樣本總數為141。先使用Matlab2016a軟件的光譜預處理方法來進行處理141個采摘期鮮煙葉樣本原始光譜,然后將煙葉樣本光譜數據順序隨機打亂,使得劃分樣本時水分數據在預測集和校正集中分散均勻,然后以3∶1的比例把樣本數據集均勻地分成校正集及預測集。統計校正集和預測集樣本水分含量的結果如表1所示。校正集樣品煙葉水分含量變化范圍在66.98%~78.42%之間,標準偏差為2.291 7%;預測集樣品含水量在67.64%~79.22%之間,標準偏差為2.651 3%。 表1 水分含量數據統計Tab. 1 Statistics of moisture contents 取前15個主成分特征值的貢獻率進行比較,如圖2所示。 圖2 不同光譜預處理的前15個主成分累計貢獻率 為了對比各個預處理方法下光譜的主成分分析效果,分別對原始光譜進行多元散射校正(MSC)、歸一化(Normalize)、標準正態變量交換(SNV)、標準化(Autoscales)、數據中心化(Mean centering)、移動窗口平滑、Savitzky-Golay卷積平滑法、Savitzky-Golay一階導數、Savitzky-Golay二階導數、一階導數(FD)、二階導數(SD)的方法對原始光譜數據進行預處理,然后采用主成分分析求得它們的主成分累積貢獻率。 從圖2可以看出,Savitzky-Golay卷積平滑和移動窗口平滑預處理的前4個主成分累積貢獻率大于98%。結合主成分分析聚類效果,采用Savitzky-Golay卷積平滑和移動窗口平滑法效果相對較好,選擇這兩種光譜預處理方法的前4個主成分對馬氏距離進行計算。 采用交叉驗證對移動窗口平滑以及SG卷積平滑法預處理后光譜數據選取的主因子個數皆為5。106個樣本(校正集)經過主成分分析的馬氏距離如圖3所示,使用移動窗口平滑法確定模型的最佳閾值為0.9,馬氏距離為2.574 1,剔除樣本個數為15;Savitzky-Golay卷積平滑法最佳閾值為2.2,馬氏距離為3.700 4,剔除樣本個數為3。 (a) 移動窗口平滑 本試驗應用馬氏距離法鑒別異常光譜樣品并將其去除來增加PLS煙葉水分預測模型的精確度。設置閾值調整權重系數e=0.1∶0.1∶3。使用不同的權重系數e,便會得到不同的閾值,當馬氏距離大于設定閾值時,對應的樣本將被剔除。隨著e的增大,剔除樣品的個數逐漸減少。將異常光譜樣品剔除后,使用交叉驗證(cross validation)法對主成分數進行選取。采取PLS分別建立煙葉水分預估模型時,不同參數e下建立的PLS模型具有不同效果,選擇RMSEC最小時對應的參數e和其剔除異常光譜樣本后的校正集來建立的PLS作為最終確定的煙葉水分含量定量分析模型。 以校正集煙葉樣品水分含量與估測水分含量之間的相關系數Rtrain,預測集樣品水分含量和估測水分含量的之間相關系數Rtest,校正集樣本均方根誤差RMSEC及預測集樣本均方根誤差RMSEP作為評價PLS模型優劣的指標。相關系數的值越高、均方根誤差的值越低,說明PLS模型對于煙葉水分含量的估測效果越好。在最佳建模參數下建立的PLS模型效果如表2、圖4所示。移動窗口平滑法處理的PCA-DA-PLS模型,校正集Rtrain=0.833 1、RMSEC=1.299 9,預測集Rtest=0.848 3、RMSEP=1.459 6;SG平滑處理的PCA-DA-PLS模型,交叉驗證法得到五個最佳主成分數,校正集(Rtrain=0.856 9、RMSEC=1.211 5),預測集(Rtest=0.852 7、RMSEP=1.376 6)。SG平滑法預處理的PCA-DA-PLS模型的效果最佳,建立的PLS模型對煙葉含水量預測能力相對較好,取前五個主成分計算水分含量如式(7)所示。 Y=74.02X1+79.28X2+77.26X3+69.71X4+ 58.77X5+70.897 7 (7) 式中:Y——水分預測值; Xi——第i個主成分對應的光譜數據。 表2 最佳建模參數下建立的PLS模型效果Tab. 2 PLS model effect established under the best modeling parameters (a) 移動窗口平滑校正集 (b) SG平滑校正集 為了檢測采摘期煙葉水分含量,獲取煙葉葉面高光譜數據,本文利用主成分分析結合馬氏距離的方法來剔除異常樣本,建立煙葉含水量的PLS估測模型。 1) 采用MSC、SG卷積平滑、Moving-averag等方法預處理后的鮮煙葉樣本光譜曲線的吸收和反射特征更加明顯。比較了多種預處理方法的主成分分析結果,得出SG卷積平滑法與移動窗口平滑法效果最佳,二者的前4個主成分累計得分達到98%。 2) 在采用PCA-MD剔除異常樣本后,SG平滑法預處理的PCA-DA-PLS模型的效果最佳,剔除3個異常樣本,交叉驗證法得到5個最佳主成分數,建立的PLS模型對煙葉含水量估測能力最好,校正集相關系數Rtrain為0.856 9、均方差RMSEC為1.211 5,預測集相關系數Rtest為0.852 7、均方差RMSEP為1.376 6。 3) 利用高光譜圖像技術預測煙葉的水分含量效果甚佳,實現了煙葉水分含量快速、無損地估測。
2 結果與分析
2.1 預處理

2.2 樣本劃分

2.3 不同光譜預處理的主成分分析

2.4 剔除異常品對預測效果的研究

2.5 建模預測效果比較


3 結論