高紅秀, 金 萍, 楊 亮, 鄒德堂, 寧海龍
(東北農業大學 農學院, 黑龍江 哈爾濱 150030)
近紅外光譜分析技術具有無需預處理、分析速度快、不損壞樣品、能同時測定多個成分、安全無污染等優點[1],在許多領域特別是在農業領域得到了廣泛的應用,已成為糧食品質分析的重要手段。近紅外光譜分析技術中最重要的是定標模型的建立,定標的合理性決定了近紅外分析準確度和穩定性。模型初建時標樣的選擇、數量及其設計也影響到預測的準確度[2]。本文著重討論了近紅外光譜分析中的定標過程及定標的驗證與優化。
近紅外光譜分析技術是一種間接的測量方法[3],首先需要選擇一批具有代表性的樣品,用該批樣品建立樣品近紅外光譜與化學值之間的定標模型,然后采集未知樣品的光譜數據,與校正模型相對應,計算出樣品的組分[4]。定標過程見圖1。

圖1 近紅外定標流程圖
樣品數量對定標模型有明顯的影響,樣品數量不是越多越好,采用合適數量的樣品進行光譜掃描,可以提高模型的預測精度[5-6]。樣品應具有代表性,樣品范圍要廣,要包含不同季節、不同區域、不同品種、不同年份等的樣品[7]。定標集樣品應盡量覆蓋待分析樣品的變化范圍,分布應盡量均勻[8-9],避免定標樣品幾乎一致而造成定標模型不具代表性。
在做濕化學分析前,須先對樣品進行掃描。由于現代近紅外光譜分析是通過化學計量學多元校正方法,依靠樣品間光譜信息的細微差別來對樣品進行定性和定量分析,所以對儀器的性能指標有很高的要求。根據測量對象的不同可選擇透射、漫反射和漫透射方式。對于育種研究而言,希望能夠在不破壞籽粒的情況下就可以得到分析結果,以便繼續種植繁育。
掃描過的樣品(同一份樣)要及時送交實驗室進行濕化學分析。送交實驗室樣品必需放置于密封的容器中(最好用樣品儲藏罐且罐口需用膠帶密封;封口樣品袋也可接受),以防止水分和揮發物的損失。所使用的實驗室分析方法必須是官方認可的標準方法,對于濃度極端的樣品,需采用標準方法進行雙平行或三平行分析。
并不是所有的樣品都能參與定標,定標集樣品的選擇直接影響所建模型的適用性和準確性,所以首先要確定哪些樣品是“好”樣品——參與定標建模的樣品。“好”樣品是光譜具有總體相似性,并能代表光譜間最大差異的樣品(與其他樣品不重復)。定標集樣品的挑選最常用的方法是GN距離法[10]。該方法以全局距離來界定定標集樣品范圍,以鄰域距離來剔除相似樣品,根據不同的全局和鄰域距離組合挑選出定標集樣品建模。多數近紅外的化學計量學軟件在進行主成分分析過程中,都使用馬氏距離計算GH,但只有FOSS的WINISI軟件有計算任意2點間NH的功能。
得到所有的信息(樣品的掃描數據和準確的濕化學數據)后,就可以建立數學模型來預測未知樣品已建立定標成分的值。近紅外光譜定標方法主要有MLR(多元線性回歸);PLS(偏最小二乘法)和ANN(人工神經網絡),3種方法比較見表1。天然樣品近紅外定標最常用的定標技術為PLS。

表1 3種定標模型方法比較
1.5.1 多元線性回歸
此方法主要用于簡單樣品,若光譜沒有疊加,則通常借助所分析成分的純品吸收光譜進行定標波長的選定,所選定的波長具有經驗性和近似性。此法在全譜帶農產品近紅外分析中已不使用,目前主要用于濾光片式近紅外定標。由于不同農產品各成分隨基體組分的變化產生吸收峰漂移,因此濾光片式近紅外在采用MLR對農產品近紅外定標時誤差較大。
1.5.2 偏最小二乘法
采用主成分分析技術將光譜數據轉化為主成分數據,然后和化學分析數據相關聯進行定標建模,是目前近紅外分析較常使用的方法。對農產品分析而言,PLS永遠優于MLR。處理的數據庫大小有一定限度(幾百個為宜),過大的樣品數據庫存在吸收非線性,分析存在誤差。
1.5.3 人工神經網絡
處理大樣品數據庫,模型的適用范圍廣,減少或降低定標模型的調整工作。大數據庫定標可以提高定標測試的適用范圍,原定標基本不需要調整;向原定標中添加新樣品時,不影響原定標的測試準確度。
在定標方程建立后,應采用一組沒有參與定標的獨立樣品組(即驗證樣品集)對方程的預測性能進行驗證。驗證樣品集樣品應具有很好的代表性,成分應覆蓋一定的范圍,傳統實驗室參考數據必須準確可靠,以便給出合理的驗證結果。驗證樣品集的樣品數量應足夠多以便進行統計檢驗[11]。當樣本總數一定時,以70%的樣本建立定標模型,其余30%樣本作為驗證樣本,可以獲得較好的預測效果[4]。
完成定標方程后,剛開始使用定標方程時要同時進行化學分析,當認為定標方程性能已經可以了,便可以進行常規分析。定期收集每類樣品6~8份,對所用定標模型數據庫進行驗證。如果樣品的驗證效果符合要求,則不需要進行定標的調整;如果驗證效果不符合要求,則從手工分析的準確性和定標模型的適用性等方面找出原因并作相應的再驗證,直到符合要求定標才能使用。
由于自然樣品(分析樣品)的成分隨著種植季節、施肥、降雨量和種植條件的不斷變化,可以說定標方程永遠都處在調整狀態。定標方程應定期采用新樣品的掃描光譜和化學分析數據進行調整和升級,對模型進行升級將使模型的預測性能更穩定。利用所得定標進行日常分析過程中,可通過GH和NH繼續選擇新的樣品填補原有數據庫中的空白點,進一步完善定標,此操作的目的是使定標方程不斷適用待測樣品的變化。
定標模型的建立一般采用已有的軟件。在需要測定未知樣品時,必須使用這一模型及測定的未知樣品的光譜計算其組成或性質。因此,近紅外光譜分析技術實際上是一個二級分析方法。它所能得到的準確度不能超過在建立模型時所用測定組成或性質方法的準確度。同時,模型的建立需要投入很多的人力、物力和財力[12]。人們希望能長期使用已有的模型,這樣就要求測定吸收譜圖的檢測手段,即光譜在長時期(幾年)內是不變的,其中包括譜圖的橫軸(波長)及譜圖的縱軸(吸光度)的長期穩定,—般相對誤差應小于1/1000。為了能使同一模型在不同儀器上使用(即模型共享),也就是說,每臺儀器間的重現性也要達到上述要求,當然這對硬件的要求似乎過分苛刻。近年來,人們在力求儀器的穩定性和重現性接近上述要求的同時,也在軟件方面做了大量工作,稱作模型傳遞技術。例如,經典校正模型傳遞、分段直接傳遞、有限脈沖響應(FTR)等,但如何實現更有效的模型傳遞,則仍是大量推廣近紅外光譜技術的研究課題之一。
[1] 吳海云,劉洋,左月明.近紅外光譜數據分析方法的研究進展[J].農產品加工·學刊, 2010(3):76-79.
[2] 汪慶平,董寶生.綠色快速分析技術:近紅外及其應用[J].云南農業科技,2003(6): 11-13.
[3] 李軍會,秦西云,張文娟,等.局部偏最小二乘回歸建模參數對近紅外檢驗結果的影響研究[J].光譜學與光譜分析,2007,27(2):262-264.
[4] 韓春亮,鄭利宇,崔鳳霞.近紅外光譜的原理及應用[J].河南教育學院學報:自然科學版,2009,18(4):19-21.
[5] 黨文新,盧曉宇,龔紅菊.樣本集選擇對稻谷千粒重NIR模型預測精度的影響[J].江西農業學報,2011,23(5):22-24.
[6] 陳斌,葉靜,顏輝,等.定標集樣品數對茶葉近紅外光譜分析精度的影響[J].江蘇大學學報:自然科學版,2009,30(4):330-333.
[7] 李軍會,秦西云,張文娟,等.樣品年份、化學值分布參數對近紅外檢測結果的影響[J].光譜學與光譜分析,2007,27(2):1754-1756.
[8] 蘆永軍,曲艷玲,樸仁官,等.近紅外光譜分析技術定標和預測中的相似樣品剔除算法[J].光譜學與光譜分析,2002,4(2):158-161.
[9] 林家永.近紅外光譜分析技術在玉米品質分析中的研究進展[J].中國糧油學報,2010, 25(4):108-115.
[10] 吳靜珠,王一鳴,張小超,等.近紅外光譜分析中定標集樣品挑選方法研究[J].農業機械學報,2006,37(4):80-82.
[11] 褚小立,王艷斌,陸婉珍.近紅外光譜定量校正模型的建立及應用[J].理化檢驗:化學分冊, 2008,44(8):796-800.
[12] 徐坤,劉鵬起,張玉娜,等.近紅外光譜分析技術及應用[J].萊陽農學院學報,2001,18 (3):237-240.