張辭海,胡 蕓,劉 娜,彭黔榮*,邵學廣
1.貴州中煙工業有限責任公司技術中心,貴陽市小河經濟技術開發區開發大道96號 550009
2.南開大學化學學院,天津市南開區衛津路94號 300071
近年來,隨著近紅外光譜技術及化學計量學方法的不斷發展,近紅外光譜技術已在食品、石油、醫藥、化工和農業等領域得到了廣泛應用[1-6]。通常,近紅外技術的應用是基于樣品光譜的統計分析模型進行的,建模階段的工作量最大,因此研究人員在建立一個良好的模型后,均希望該模型能夠長期使用并能有較寬廣的應用范圍,以便減少模型維護的工作量[7-8]。目前,烤煙的近紅外定量模型主要是根據人為劃分的省際界限收集和篩選樣品后建立的,應用模型時也僅限于收集樣品的行政區劃內[9-10]。煙葉的品質特性與生態環境、氣候因子密切相關[11-14],因此將烤煙模型劃分為不同的省際歸屬缺乏嚴謹的科學依據。云南、貴州的大部地區及四川涼山地區同屬于西南云貴高原生態區,煙葉的生長環境及氣候存在較高的相似性。因此,本研究中以貴州烤煙為代表建立煙堿的近紅外定量模型,通過主成分分析(Principal component analysis,PCA)、馬氏距離(Mahalanobis distance)及模型預測結果的相對誤差來探討貴州模型對同屬西南云貴高原生態區的云南昭通、云南楚雄、云南保山、四川德昌產區的烤煙樣品,以及與上述區域存在較大差異的河南寶豐、湖南郴州、廣東梅州、福建三明產區的烤煙樣品的適用性,并在此基礎上考察西南云貴高原生態地區烤煙樣品合并后建模的效果,旨在為建模所需樣品的代表性及模型預測應用域研究提供參考。
2015—2016年從各地復烤廠收集的代表性復烤片煙樣品566個,包括貴州(全省)樣品325個、云南(昭通、楚雄、保山)樣品49個、四川(德昌)樣品50個、湖南(郴州)樣品70個、福建(三明)樣品18個、廣東(梅州)樣品24個、河南(寶豐)樣品30個。
AntarisⅡ近紅外光譜儀、TQ Analyst軟件(美國Thermo公司);FED-240型干燥箱(德國Binder公司);YC-400B-03型煙草粉碎機(成都英特瑞公司);AE100型電子天平(感量0.000 1 g,瑞士Mettler-Toledo公司);Futura型8通道連續流動化學分析儀(法國 Alliance公司);MATLAB 2012a軟件(美國MathWorks公司)。
1.2.1 樣品處理
對于所有煙樣,均按照煙草行業標準YC/T 31—1996《煙草及煙草制品 試樣的制備和水分測定 烘箱法》方法制成煙末,過425 μm(40目)篩后裝入密封袋備用。
1.2.2 煙堿含量測定
按照煙草行業標準YC/T 468—2013《煙草及煙草制品 總植物堿的測定 連續流動(硫氰酸鉀)法》方法測定樣品中的煙堿含量(質量分數)。
1.2.3 近紅外光譜采集
將煙粉置于樣品杯中,用壓塊自然下落壓實,置于近紅外光譜儀上進行漫反射采集。樣品采集時入射光斑偏心,光譜掃描范圍為4 000~10 000 cm-1,分辨率為8 cm-1,掃描次數為64次。
1.2.4 模型樣品集劃分
貴州模型:隨機挑選305個貴州烤煙樣品作為校正集,其余20個貴州烤煙樣品作為驗證集。
合并模型:從云南和四川烤煙樣品中隨機挑選云南昭通、云南楚雄、云南保山、四川德昌的烤煙樣品各5個(共20個)作為驗證集,其余79個烤煙樣品及貴州模型的305個烤煙樣品作為合并模型的校正集。
1.2.5 近紅外光譜預處理與建模
采用偏小二乘法(PLS)方法,在TQ Analyst軟件中建立定量校正模型。選擇近紅外光譜區間為4 000~8 000 cm-1,對光譜圖進行均值中心化、多元散射校正、一階導數、Savitzky-Golay平滑預處理,通過與煙堿測定值的PLS回歸,并采用交互檢驗法預測殘差平方和(PRESS)確定最佳因子數。
1.2.6 數據處理
用MATLA 2012a軟件對數據進行PCA和馬氏距離分析。
1.2.7 評價參數設定
模型評價參數:相關系數(correlation coefficient,r),包括校正相關系數 rc,預測相關系數rp;校正均方根誤差(root mean square error of calibration,RMSEC)。模型預測性能評價參數:外部驗證集預測均方根誤差(root mean square error of prediction,RMSEP)。較好的模型需要符合以下條件:較低的RMSEC和RMSEP值;RMSEC和RMSEP之間的差值較?。惠^高的r值(接近1)。
采用305個貴州烤煙樣品作為校正集進行建模,并以20個隨機挑選的貴州烤煙樣品作為獨立測試集對建立的模型進行預測驗證,結果如圖1所示。可以看出,煙堿的校正模型的選擇因子數為8,RMSEC為0.079 9,rc為0.993 2。將獨立測試集樣品帶入校正模型后,RMSEP為0.084 6,rp為0.994 1。說明建立的貴州模型對貴州烤煙樣品具有較好的預測效果。
圖2是貴州樣品校正集和獨立測試集的第一與第二主成分分析關系圖??梢钥闯?,獨立測試集的樣品點散布在校正集樣品點之間,說明建立模型所用的樣品具有較強的貴州代表性。
采用不同的分析方法重點考察貴州模型對同屬西南高原生態區的云南(昭通、楚雄、保山)和四川(德昌)的烤煙樣品的適用性。
2.2.1 主成分分析
建立模型的樣品集的主成分空間大小可大體上反映模型預測樣品的適應空間。圖3是不同產區的復烤片煙樣品的三維主成分得分圖(利用前三個主成分),從圖中可以明顯看出云南昭通、云南楚雄、云南保山、四川德昌(圖中所有的藍色樣品點)的樣品聚類在貴州樣品的空間范圍內;福建三明(左下角的橢圓區域)、河南寶豐(右邊的橢圓區域)的樣品聚類在貴州樣品分布的空間之外;湖南郴州的樣品聚類空間和貴州樣品空間有部分重合;廣東梅州的樣品大部分落在了貴州樣品的空間,少數在貴州樣品空間外(圖中右上角兩個黑色的三角Δ)??梢?,貴州模型可用于預測云南昭通、楚雄、保山和四川德昌的烤煙樣品。

圖1 貴州烤煙煙堿含量的模型預測值與測定值的關系圖Fig.1 Relationship between model predicted values and measured values of nicotine content in flue?cured tobacco from Guizhou

圖2 貴州烤煙樣品PC1/PC2得分圖Fig.2 PC1/PC2 scores of flue?cured tobacco samples from Guizhou

圖3 不同產區烤煙樣品的3D主成分得分圖Fig.3 3D principal component scores of flue?cured tobacco samples from different growing areas
2.2.2 馬氏距離分析
主成分分析(PCA)是通過光譜主成分得分構筑的主成分空間進行樣品的簇分布分析,該方法可將復雜的多維空間信息壓縮到低維空間進行分析,但其缺點是在圖形上最多只能畫出三維的得分空間圖。從圖3可以看出,利用前三個主成分得分畫出的3D圖只利用了91.95%的信息,部分有用信息仍未被利用。盡管主成分的空間圖能大致反映模型預測樣品的適應空間,但不易確定具體判別的定量值。徐廣通等[15]提出,可將PCA與馬氏距離相結合解決校正模型的適用性判斷。因此,采用馬氏距離對樣品的適用性進行了進一步分析。首先用PCA對校正集樣品的原始光譜或預處理后的光譜進行處理,然后用各光譜得到的因子得分計算馬氏距離。該方法不僅利用了PCA對光譜降維處理信息丟失少的特點,也發揮了馬氏距離可對離群值有效識別的優點。
利用PCA降維后得到的前8個主成分得分矩陣(此主成分數與2.1節中建立的貴州烤煙煙堿近紅外定量模型的因子數一致)計算不同省份的烤煙樣品與校正集(貴州樣品)之間的馬氏距離,結果如圖4所示??梢钥闯?,貴州樣品(包含校正集和驗證集樣品)的馬氏距離在1.0~4.5之間,云南昭通、云南楚雄、云南保山、四川德昌的馬氏距離在1.5~4.0之間,均處于貴州樣品的馬氏距離范圍內。河南寶豐、廣東梅州樣品的馬氏距離和貴州樣品的馬氏距離相差較大。福建三明多數樣品的馬氏距離超出了貴州樣品的馬氏距離,僅少數樣品在貴州樣品馬氏距離范圍的邊緣處。湖南郴州部分樣品的馬氏距離落在貴州樣品馬氏距離范圍內,但多數超出了貴州樣品馬氏距離的范圍。因此,從馬氏距離來看,云南昭通、云南楚雄、云南保山、四川德昌這4個產區的烤煙樣品可以用貴州模型預測煙堿含量。
2.2.3 預測結果相對誤差分析
將貴州的20個樣品、云南(昭通、楚雄、保山)的49個樣品、四川(德昌)的50個樣品、湖南(郴州)的70個樣品、福建(三明)的18個樣品、河南(寶豐)的30個樣品、廣東(梅州)的24個樣品帶入貴州模型驗證結果。預測結果的相對誤差分布如圖5所示,可以看出,云南和四川樣品的模型預測結果的相對誤差主要集中在-5%~5%之間,與貴州驗證集樣品的預測結果相對誤差分布相似。福建三明、河南寶豐以及廣東梅州樣品的預測結果相對誤差則較大;湖南郴州的部分樣品的預測結果相對誤差能落在-5%~5%之間,部分樣品則超過此范圍。從相對誤差的角度來看,貴州模型可以適用于云南昭通、楚雄、保山及四川德昌的樣品。

圖4 不同產區烤煙樣品的馬氏距離Fig.4 Mahalanobis distances of flue?cured tobacco samples from different growing areas

圖5 不同產區烤煙樣品的相對誤差Fig.5 Relative errors of flue?cured tobacco samples from different growing areas
通過馬氏距離的對比,發現云南昭通、楚雄、保山以及四川德昌的樣品的馬氏距離完全處于貴州樣品的馬氏距離范圍內。因此,認為這些產區的樣品能夠合并建模,以完善預測模型。將云南和四川的99個樣品隨機劃分為兩部分,一部分為79個樣品,將其與貴州模型的305個樣品混合,建立合并模型;另一部分為20個樣品(云南昭通、云南楚雄、云南保山、四川德昌各5個),將其作為驗證集。對比貴州模型和合并模型的參數(表1)可知,合并模型的RMSEC、rc、RMSEP、rp參數均優于貴州模型,該模型對云南和四川以及貴州樣品的預測結果均有改善??梢?,根據馬氏距離將貴州、云南(昭通、楚雄、保山)、四川(德昌)產區的樣品合并進行建模是可行的。
貴州模型和合并模型對云南和四川20個驗證集樣品的預測結果(表2)顯示,從相對誤差絕對值低于5%的比例來看,貴州模型是70%合格,合并模型是90%合格,說明合并模型的預測效果優于貴州模型。本研究結果有助于改變人們長期根據省際行政區劃建模的慣性思維,對模型建立時選取合適樣品和預測范圍等有重要參考意義。

表1 貴州模型和合并模型的參數Tab.1 Parameters of the Guizhou model and the merged model

表2 兩種模型的預測結果Tab.2 Prediction results of two models (%)
建立了以貴州烤煙樣品為代表的煙堿近紅外定量模型,通過主成分分析、馬氏距離的判斷以及模型預測結果的相對誤差分析,發現同屬西南云貴高原生態地區的云南昭通、云南楚雄、云南保山、四川德昌的烤煙樣品適用于貴州模型,相對誤差較小,主要集中在-5%~5%。福建三明、河南寶豐以及廣東梅州的烤煙樣品不適用于貴州模型。湖南郴州部分樣品的相對誤差較小,可以適用于貴州模型。在此基礎上,通過對比貴州模型和合并模型的建模效果發現,合并模型的各項參數RMSEC(0.072 6<0.079 9)、rc(0.994 1>0.993 2)、RMSEP(0.076 0<0.109 0,0.079 9<0.084 6)、rp(0.991 1>0.979 3,0.995 2>0.994 1)均優于貴州模型;從合并模型對20個驗證集樣品預測結果的相對誤差絕對值來看,合并模型的預測效果也優于貴州模型。因此,將西南云貴高原生態地區的樣品合并建模是可行的。本研究結果有助于樹立以煙草生態區劃建模并以應用效果進行研判的思維,可為提高烤煙煙堿近紅外定量模型的適用性提供參考。