熊雅婷,李宗朋,王健,張英,馮斯雯,陳峰,宋全厚
1(中國食品發酵工業研究院,北京,100015)
2(江蘇張家港釀酒有限公司,江蘇 張家港,215600)
黃酒作為世界三大釀造酒之一,因其歷史悠久、品種繁多、營養豐富而被譽為東方釀造界的典型代表和楷模[1]。其中酒精度、非糖固形物、總酸、氨基酸態氮等是黃酒質量控制的關鍵因素,同時也是決定黃酒風味的主要物質[2]。目前常用的理化分析方法普遍存在操作繁瑣、分析周期長、效率低下等不足,無法滿足黃酒品質監控中快速檢測的需求[3]。
近年來,近紅外光譜分析技術作為一種無損、快速檢測手段而在國內黃酒檢測行業快速發展:于海燕等[4]分析了不同光程近紅外透射光譜對黃酒中金屬元素的定量測定,并對1~5年酒齡的黃酒進行了快速鑒別;劉飛等[5]采用可見/近紅外光譜對黃酒中非糖固形物、pH進行了定量分析;胡小邦等[6]利用近紅外透射光譜技術結合連續投影算法(SPA)建立了干型、半干型黃酒中酒精度、酸度的定量檢測模型。以上研究均表明了近紅外光譜技術在黃酒品控中的巨大潛力,但是卻未全面覆蓋黃酒的多種指標,并未選擇出最佳的模型組合來解決黃酒自身吸收光信號強度較低,吸收帶較寬的問題[7]。
本實驗全面考慮了黃酒的酒精度、非糖固形物、總酸、氨基酸態氮等主要指標,采用連續投影算法(SPA)來提取各指標特征波段,并利用特征波長分別建立偏最小二乘(PLS)模型以及多元線性回歸(MLR)模型,同時,添加無信息變量消除法(UVE)與SPA組合建模,通過對比建模結果,選取最佳波段優化方法以及相應的最佳建模組合,以此來降低模型復雜程度,提高模型精度和運算速度,為黃酒品質監控的快速檢測提供一定參考。
本實驗所用黃酒樣品共135個,由某黃酒廠提供,涵蓋了黃酒成品與半成品(黃酒原漿酒)的干型、半干型、甜型、半甜型黃酒類型。為保證實驗可靠性及模型準確性,對黃酒樣品進行2次平行采樣,采用透反射方式掃描采集黃酒的近紅外光譜,并對光譜進行平均。黃酒酒精度、非糖固形物、總酸、氨基酸態氮等指標的化學值根據GB/T 13662-2008測得。
實驗使用QC-leader傅里葉變換近紅外光譜儀(北京中安信達科技有限公司)。光譜儀光源為鹵鎢燈,檢測器為溫控InGaAs,配有固體測量池及透反射蓋。光譜范圍為10 000~4 000 cm-1,分辨率為8 cm-1,掃描次數為32次;利用配套軟件 NIRWare Operator采集樣品的近紅外光譜信息。
1.3.1 校正集與驗證集的劃分
本實驗采用 Kennard-Stone(K-S)法[8]來進行樣本集劃分,原理是基于變量之間的歐氏距離,在特征空間中均勻選取樣本。將光譜進行主成分分析后,選用主成分得分為特征變量選擇樣本,重復循環,依次將距離最遠的樣本選入校正樣本集。
在剔除掉個別異常點的基礎上,利用K-S法以3∶1的比例對保留的131個黃酒樣本進行校正集與驗證集進行樣本集劃分,最終得到校正集樣本100個,驗證集樣本31個。校正集樣本用于黃酒各指標近紅外模型的建立,驗證集樣本用于驗證所建模型的準確度與可靠性。其化學值統計結果如表1所示。

表1 校正集與驗證集統計結果Table 1 Statistical results of calibration set and validation set
1.3.2 連續投影算法 (successive projection algorithm,SPA)
連續投影算法是一種前向循環選擇方法,從一個波長開始,每次循環都計算其在未選入波長上的投影,將投影向量最大的波長引入到波長組合。使得每一個新選入的波長,都與前一個線性關系最小[9]。SPA能從光譜信息中充分尋找含有最低限度的冗余信息的變量組,消除波長變量間的共線性,有效提高光譜信噪比,從而提高模型預測能力和穩健性[10-11]。
1.3.3 無信息變量消除法(elimination of uninformative variables,UVE)
UVE是一種常用的波段優化方法,基本思想是將偏最小二乘回歸系數作為波長重要性的衡量指標,在選取波長時集噪聲和濃度信息于一體,比較直觀實用[12]。
1.3.4 數據處理與分析
SPA、UVE等程序均在MATLAB環境下運行,多元線性回歸模型和偏最小二乘計算應用UnscramblerX10.3光譜分析軟件(挪威CAMO公司)實現,模型的精確度與穩定性通過決定系數R2、預測標準偏差RMSEP來評價,R2越接近1,RMSEP越接近0,表明模型效果越好[13]。
2.1.1 連續投影算法(SPA)

圖1 SPA波段篩選最佳光譜變量總數Fig.1 Choice of the best number of selected wavelength using SPA

圖2 SPA波段篩選結果相應波長點Fig.2 The corresponding wavelength points by SPA band selection of the result
分別對黃酒的非糖固形物、酒精度、總酸、氨基酸態氮4個指標進行SPA波段篩選,由圖1可知,經SPA篩選,黃酒的4個指標從1 501個波長點中分別篩選得20、23、19、13個特征波長點,在圖2中,其波長點位置分布在 4 500、5 000、7 200、9 800 cm-1附近,分別與N—H、C—H、O—H分子結構的倍頻與組合頻所在的吸收峰位置相對應[14],說明SPA的波段篩選算法能合理有效提取有用的光譜信息[15]。
2.1.2 無信息變量消除法(UVE)

圖3 UVE變量穩定性分析結果Fig.3 UVE variable stability analysis results
在全光譜基礎上,對黃酒的非糖固形物、酒精度、總酸、氨基酸態氮4個指標的分別進行UVE篩選,計算結果如圖3所示,豎直實線左邊是波長變量,右邊為引入的系統噪音變量。虛線表示變量穩定性的上下閾值,處于兩閾值之間的變量可認為是無關的信息量,超出閾值的部分為有用信息波長變量[16],因此本實驗選擇超出虛線閾值的光譜波段進行后續建模。
2.2.1 SPA 模型建立
在SPA篩選結果基礎上,分別建立黃酒的非糖固形物、酒精度、總酸和氨基酸態氮4個指標的SPAPLS模型以及SPA-MLR模型,與全光譜-PLS模型進行比較[17],并通過決定系數 R2、預測標準偏差 RMSEP來評價模型效果,模型計算結果如表2所示。

表2 黃酒各指標定量模型計算結果Table 2 quantitative model calculation results of millet wine components
從表2可以看出,經SPA波段優選,黃酒的4個指標的SPA-PLS和SPA-MLR模型效果較全光譜-PLS模型均有提高,決定系數R2相增大,預測標準偏差RMSEP相降低。說明SPA方法確實能有效剔除光譜中的無用信息,提取建模所需關鍵波長,在加快建模速度的同時增強模型的準確度與穩定性。
比較SPA-PLS和SPA-MLR兩種建模方法可知,SPA-MLR模型優化更為顯著,非糖固形物、酒精度、總酸、氨基酸態氮4個指標的R2分別達到0.881、0.998、0.983 和0.924,且RMSEP 分別減少為2.457、0.183、0.430 和0.041,表現出更強的穩定性與準確度。多元線性回歸方法(MLR)作為近紅外光譜分析領域最基本的建模方法,更適用于線性關系好的簡單體系,要求波長數量簡潔[18-19],SPA篩選后的較少的波長點數正好滿足了其建模要求,并且可能選擇的波長與黃酒指標含量之間主要呈線性關系,所以不僅達到了簡化模型的目的,而且提高了模型的準確度。偏最小二乘法是將因子分析和回歸分析結合的方法,通過因子分析將光譜壓縮為較低維空間數據[20],然而,SPA在精簡波段的同時也必然伴隨著部分有用信息的丟失,導致偏最小二乘法(PLS)建模準確度受到影響。
2.2.2 UVE 建模
在全光譜基礎上,對黃酒的非糖固形物、酒精度、總酸、氨基酸態氮4個指標分別進行UVE篩選,由表3可看出,經UVE篩選后仍保留較多變量數,因此,為進一步提高模型準確度,將UVE與SPA組合用于全光譜的波段優選并建立MLR模型。同時,作為對照,另外單獨建立UVE-PLS模型與之對比。

表3 UVE波段篩選建模結果Table 3 The modeling results of selected wavelength by UVE
由表3可看出,UVE可將全光譜波段篩選至1/3,且UVE-PLS模型效果與表2中全光譜-PLS相比,有所改善。雖然經UVE-SPA篩選,非糖固形物、酒精度、總酸以及氨基酸態氮的波長點數分別精簡為12、6、17 和 11 個,但 UVE-SPA-MLR 建模結果顯示,4個指標的R2和RMSEP均顯示模型效果反而較差。說明,進行UVE波段篩選雖然能達到簡化建模波長數的效果,但篩選過程可能造成光譜有用信息的丟失以及混入噪聲,導致光譜信噪比下降,影響了之后SPA的建模,使得模型準確度反而降低。
綜合表2、表3可知,黃酒各成分含量檢測的最佳建模方法是SPA-MLR,增加UVE之后反而影響模型效果,說明,UVE與SPA組合進行波段篩選并不適合黃酒成分檢測。
將30個未參與建模的樣品光譜帶入SPA-MLR模型中進行驗證,由圖4可以看到各個理化指標的實測值與預測值點呈對角線分布,且經成對t檢驗,得到各項指標預測值與實測值無明顯差異(P>0.05)。經驗證,黃酒非糖固形物 R2為 0.875,RMSEP為2.704;酒精度 R2為 0.996,RMSEP 為0.286;總酸 R2為0.981,RMSEP 為 0.467;氨基酸態氮 R2為 0.917,RMSEP 為0.042 1。

圖3 黃酒各指標SPA-MLR模型理化值與預測值分布Fig.3 Predicted vs.reference values of compositions in millet wine by SPA-MLR model
本文以黃酒成品與半成品(黃酒原漿酒)為研究目標,綜合考慮了多種黃酒種類,采用近紅外光譜法對其非糖固形物、酒精度、總酸和氨基酸態氮4個指標進行了定量檢測,利用連續投影算法(SPA)對波長變量進行優選建模,以提高模型運算速度與準確性。
結果表明,經SPA篩選,極大簡化了黃酒的各指標建模變量數,并且篩選所得波長點位置與各指標特征官能團的倍頻與合頻吸收峰位置相對應,說明SPA能合理有效地優選出黃酒各指標的近紅外高信噪比特征波長。
通過建立SPA-PLS和SPA-MLR模型進行對比,發現非糖固形物、酒精度、總酸和氨基酸態氮定量檢測的SPA-MLR模型明顯優于SPA-PLS建模。在簡化模型加快運算速度的同時增強了模型的準確度,說明SPA-MLR建模方法更適用于指導黃酒品質的快速檢測。
此外,對比發現,UVE-SPA-MLR建模效果反而不如SPA-MLR模型,可見UVE與SPA結合導致了特征光譜信息的丟失,進而說明只使用一種波段篩選方法效果更好,多種波段篩選方法結合反而可能會影響特征波段的準確篩選。
[1]賴櫻花,成堅,李勇波,等.黃酒質量指標及其檢測技術的研究進展[J].中國釀造,2011(11):21-25.
[2]朱宏霞,鄧德文,鄭校先.傅立葉變換近紅外透射法測定黃酒酒精度[J].中國釀造,2008(12):80 -82.
[3]陳郁,周小鋒,于文博,等.近紅外光譜法測定黃酒中氨基酸態氮和酒精度的研究[J].計算機與應用化學,2008,25(3):361 -364.
[4]于海燕,應義斌,謝麗娟,等.光程對黃酒金屬元素近紅外透射光譜分析精度的影響[J].光譜學與光譜分析,2007,27(6):1 118 -1 120.
[5]劉飛,王莉,何勇,等.應用可見/近紅外光譜進行黃酒品種的判別[J].光譜學與光譜分析,2008,28(3):586-589.
[6]胡小邦,呂進,劉輝軍,等.基于近紅外透射光譜的黃酒酒精度、酸度檢測模型研究[J].光電工程2010,37(10):122-127.
[7]褚小立,袁洪福,陸婉珍.近紅外分析中光譜預處理及波長選擇方法進展與應用[J].化學進展,2004,14(4):528-542.
[8]陸婉珍.現代近紅外光譜分析技術[M].北京:中國石化出版社,2007:59 -90.
[9]謝廣發,徐榕,樊阿萍,等.近紅外光譜技術在黃酒理化指標快速檢測中的應用[J].中國釀造,2011(11):182-185.
[10]Breitkreitz M,Raimundo I,Rohwedder J,et al.Determination of total sulfur in diesel fuel employing NIR spectroscopy and multivariate calibration[J].The Analyst(S0003 -2654),2003,128(9):1 204 -1 207.
[11]洪涯,洪添勝,代芬,等.連續投影算法在砂糖橘總酸無損檢測中的應用[J].農業工程學報,2010,2(26):380-384.
[12]S F Carreiro Soares,A A Gomes,M C Ugulino Araujo,et al.The successive projections algorithm[J].TrAC Trends in Analytical Chemistry,2013(42):84 -98.
[13]褚小立,許育鵬,田高友.近紅外光譜解析實用指南[M].北京:化學工業出版社,2009.
[14]高洪智,盧啟鵬,丁海泉,等.基于連續投影算法的土壤總氮近紅外特征波長的選取[J].光譜學與光譜分析,2009,29(11):2 951 -2 954.
[15]Gomes A A,Galv?o R K,Araújo M C,et al.The successive projections algorithm for interval selection in PLS[J].Microchemical Journal,2013,110:202 -208.
[16]周林峰.黃酒主要品質的近紅外光譜檢測模型建立與轉移的研究[D].杭州:中國計量學院,2013:1-82.
[17]陳定星.連續投影算法應用于土壤有機質NIR光譜分析的波長選擇[D].廣州:暨南大學,2013:20-58.
[18]王爽,黃敏,朱啟兵.基于無信息變量和偏最小二乘投影分析的高光譜散射圖像最優波段選擇[J].光子學報,2011,40(3):428 -432.
[19]CAI W,LI Y,SHAO X.Avariable selection method based on uninformative varable elimination for multivariate calibration of near-infrared spectra[J].Chemometrics and Intelligent Laboratory Systems,2008,90(2):188 -194.
[20]包春芳.近紅外光譜技術在液態食品非破壞質量分析中的應用研究[D].吉林:吉林大學,2009:28-35.