許建梅,楊 芳,林 卿,王佳慧,艾竹君
(1.海南醫學院現代教育技術中心,海南海口 571199;2.海南醫學院生物醫學信息與工程學院,海南海口 571199;3.海南醫學院熱帶醫學與檢驗學院,海南海口 571199)
注水肉作為食物摻假的一種方式,不僅降低了肉的品質,擾亂了正常的市場秩序,還對消費者的健康產生危害[1?2]。一些不法商人為了牟利,仍然在生產和銷售注水肉。為了解決注水肉禁而不止的問題,針對國內現行畜禽肉水分限量標準和檢測方法不能適應新變化的現實,需要開展對畜禽肉水分限量標準及檢測方法的研究[3]。
近年來,注水肉檢測方法的研究主要集中在基于光譜分析技術和低場核磁共振(LF-NMR)技術這兩個方向上。光譜分析技術作為一種快速、無損的檢測方法不僅被應用于注水肉的檢測研究[4?7],也被用于肉制品的其他摻假識別研究[8]。采用LFNMR技術得到的橫向弛豫譜,能夠反映食品和生物體系中處在不同物理化學環境下水的橫向弛豫特性。理化環境、水含量及水分布的變化都對橫向弛豫譜產生影響[9]。橫向弛豫譜可以對食品和生物體系中的水含量及水分布進行快速、無損、高靈敏度的分析,因此被廣泛應用于食品摻假的識別[10?11]、食品含水率的預測[12?13]、影響食品中水分分布因素的分析等[14]。對正常羊肉和隨機注入不同比例水的羊肉進行LF-NMR檢測,結合主成分分析及逐步線性判別分析能夠在一定程度上對不同的羊肉進行定性區分[15]。在肉糜中注水,根據注水比例0、2%~14%、16%~30%、32%~40%將肉樣品分為原料肉、輕度、中度、重度注水肉糜,在單組分和多組分弛豫特性分析的基礎上結合判別分析可對四種不同程度的注水肉糜進行定性識別[16]。利用LF-NMR技術對注水肉進行檢測的研究主要集中在定性檢測,對低注水比例的注水肉的定量檢測研究鮮有報道。
本研究以新鮮的豬背最長肌作為注水對象,采用CPMG脈沖序列獲得NMR信號,經反演后得到橫向弛豫譜及相對應的16個橫向弛豫譜參數數據。分別用判別分析(DA)和偏最小二乘回歸(PLSR)建立注水肉定性和定量檢測模型,嘗試多種可能性的PLSR建模。評估分析模型檢測注水肉的性能,確定最優的PLSR模型,以PLSR模型預測注水比例的置信區間為依據,分析DA模型在識別注水肉時發生誤判的原因,為基于LF-NMR技術的注水肉的定性定量檢測提供數據支撐。
取自17頭豬的新鮮的背最長肌 分9次購于海口市城西農貿市場。
MesoMR23-060H-I型核磁共振成像分析儀蘇州紐邁分析儀器股份公司;JA1003型電子天平上海良平儀器儀表有限公司;H.SWX-420BS型電熱恒溫水溫箱 上海新苗醫療器械制造股份公司;100 μL微量注射器 上海高鴿工貿有限公司。
1.2.1 樣本制備 采用注射器直接向肌肉注水的方式制備注水肉樣本。將一條豬背最長肌制備成15個肉樣本,每個肉樣本的質量為10±0.1 g,將肉樣本切成方形。三個肉樣本為一組,共五組。其中沒有注入水的一組作為正常肉樣本。另外四組作為注水肉樣本,分別按原始肉樣本質量的2%、6%、10%和14%注射蒸餾水。共制備255個肉樣本。將制備好的每個樣本單獨裝入自封袋中,放置在4 ℃冰箱中冷藏保存6 h。
1.2.2 測量NMR信號 從冰箱中取出冷藏6 h的樣本,將自封袋中的樣本放入32 ℃的恒溫水箱中,放置20 min,使肉樣本溫度達到32 ℃。再將肉樣本置于低場核磁共振成像分析儀的測試床上,選用CPMG脈沖序列測量肉樣本產生的NMR信號,每個樣本重復測量2次。CPMG脈沖序列參數設置如下:前置放大增益PRG=2,重復采樣等待時間TW=6000 ms,回波時間TE=0.22 ms,回波個數NECH=18000,采樣頻率SW=100 kHz,射頻延時時間RFD=0.1 ms,模擬增益RG1=20.0 db,數字增益DRG1=3,重復激勵次數NS=8。
1.2.3 判別分析 判別分析是根據已知類別的樣本所提供的信息,總結分類的規律性,建立判別公式和準則,再根據判別函數判別新樣本所屬類別。判別分析要求預測變量之間相互獨立、無多重共線性[17]。判別分析常被用于將食品按不同品質進行分類[18]。將實驗肉樣本按注水比例分為五個類別,第1類別是正常肉,第2~5個類別分別是注水比例為2%、6%、10%和14%注水肉。從16個橫向弛豫譜參數中選擇預測變量,對橫向弛豫譜參數數據進行訓練,建立對注水肉進行分類的DA模型。
1.2.4 偏最小二乘回歸 PLSR是一種用線性多變量模型將解釋變量和響應變量兩個數據矩陣聯系起來的多元統計方法,能夠在解釋變量存在多重共線性的條件下進行回歸建模,并適用于樣本量較少的情況[19]。PLSR模型的擬合度和預測精度可以用決定系數和標準誤差來評估[20?21]。將實驗樣本分為校準集和預測集,根據校準集建立的校準模型對響應變量進行預測,預測值與測量值的相關程度由決定系數決定。決定系數定義為:

預測精度由標準誤差決定,標準誤差定義為:

上兩式中:n為校準集樣本的個數;PRESS為殘差平方和;yi為第i個樣本的測量值;為第i個樣本的預測值;為響應變量的平均值。用預測集對校準模型作外部數據驗證時,預測的精度由預測標準誤差決定,定義預測標準誤差為

采用MesoMR23-060H-I型核磁共振成像分析儀提供的核磁共振分析軟件Ver4.0對核磁共振測量數據進行多組分反演,得到每個肉樣本的橫向弛豫譜及相對應的16個橫向弛豫譜參數值。反演參數選擇如下:參與反演的信號點數為2000,抽樣方式為隨機抽樣,濾波檔位為3,弛豫時間最小值0.01 ms,弛豫時間最大值為10000 ms,弛豫時間點數為200,反演方法為SIRT,迭代次數為10000。完成反演運算后計算出每組樣本的16個橫向弛豫譜參數的平均值,作為該組樣本的橫向弛豫譜參數值。共得到85組橫向弛豫譜參數數據。
采用IBM SPSS Statistics 24 (International Business Machines Corp., Armonk, New York, U.S.)
軟件進行判別分析建模和相關數據分析,并對DA模型進行回代驗證和留一交叉驗證。
采用MATLAB R2014a(The MathWorks, Inc.,Natick, Massachusetts, United States)軟件編程實現PLSR建模、模型驗證及相關數據處理。
圖1是取自同一頭豬的具有不同注水比例的5個肉樣本的橫向弛豫譜圖。實驗中絕大多數肉樣本的橫向弛豫譜由三個峰組成,少數肉樣本多于三個峰。這與許多學者的研究結果一致[22?23]。在肉中存在三種不同狀態的水,分別是結合水、不易流動水和自由水,對應于橫向弛豫譜的三個峰[24]。在16個橫向弛豫譜參數中,總峰面積用S表示,反映肉樣本中水分的總含量。三個峰的面積分別用S21、S22、S23表示,反映肉樣本中結合水、不易流動水和自由水的含量。結合水、不易流動水和自由水峰面積占總峰面積的比例分別用P21、P22、P23表示。三種狀態的水具有不同的橫向弛豫時間,T21、T22和T23分別表示結合水、不易流動水和自由水的橫向弛豫時間,它們在一定范圍內變化。三個峰在起始點、頂點和結束點的橫向弛豫時間分別用下標b、m及e區分。

圖1 5種不同注水比例的肉樣本的橫向弛豫譜Fig.1 Transverse relaxation spectroscopy of five kinds of meat samples with different percentage of injected water
正常肉樣本和不同注水比例的肉樣本的橫向弛豫譜存在差異,如圖1所示。肉中三種不同狀態的水表現出的差異程度不同,其中自由水表現出的差異最明顯。
2.2.1 選擇預測變量 橫向弛豫譜參數中不同參數區分注水比例的能力不同,表1是類別平均值等同性檢驗的結果。Wilks’Lambda值在0~1之間,數值越小類別之間的差異越大,區分能力越強。S、S23、P23、P22、T23e是區分注水比例能力較強的參數,可以選擇它們作為建立DA模型的預測變量。但考慮到判別分析要求預測變量無多重共線性,而交叉散點圖表明S23、P23、P22之間有很強的線性相關性,只能取其中的一個作為預測變量。綜合考慮后,最終選擇S、P23、及T23e作為建立DA模型的預測變量。
2.2.2 建立DA模型 遵循Bayes準則進行判別分析,根據分類函數系數表,建立五個Bayes函數式:

表1 類別平均值等同性檢驗結果Table 1 Tests of equality of class means

將每個肉樣本的測量值S、P23、T23e分別代入到5個判別函數式中,算出得分值,該肉樣本被歸入到得分值最大的類別中,實現對肉樣本的判別歸類。
2.2.3 DA模型的驗證 用回代驗證和留一交叉驗證對DA模型的判別效果和穩定性進行檢驗。表2給出了用兩種驗證方法分別進行驗正的結果。從表2可以看出,回代驗證發生了9個錯判,總判別正確率為89.4%。其中5個錯判發生在正常肉與2%的注水肉之間,4個錯判發生在10%的注水肉與14%的注水肉之間。留一交叉驗證發生了10個錯判,總判別正確率為88.2%。錯判發生的情況與回代驗證類似。回代驗證和留一交叉驗證的正確率較高且非常接近,說明建立的模型是有效和穩定的。錯判全部發生在相鄰的類別之間,有必要通過定量分析找到判別的誤差范圍。

表2 回代驗證與交叉驗證的結果Table 2 Results of two verification methods
2.3.1 基于全部實驗數據建立的PLSR模型 將85組橫向弛豫譜參數數據全部作為校準集。在16個橫向弛豫譜參數中提取10個成分,圖2顯示對注水比例的解釋方差的百分比與提取的成分數之間的關系曲線。前三個成分可以累計解釋注水比例方差的93.7%。當提取成分數量為4個甚至更多時,對注水比例解釋的累計方差幾乎不變。圖3顯示了交叉驗證的標準誤差(SECV)與成分數的關系,提取3個成分時得到較小的SECV,再增加成分數SECV幾乎不變。因此,提取三個成分就可以解釋注水比例的絕大部分方差,并得到最小的交叉驗證標準誤差。

圖2 對注水比例解釋方差的百分比與提取的成分數之間的關系Fig.2 The relationship between the percentage of explained variance and number of extracted components

圖3 交叉驗證的標準誤差與成分數之間的關系Fig.3 The relationship between SECV and the number of components
在橫向弛豫譜參數中提取3個成分,利用偏最小二乘回歸建立注水比例與橫向弛豫譜參數之間相互關系的PLSR模型。通過校準集數據的驗證與留一交叉驗證,對所建立的PLSR模型的性能進行評估[25]。直接將校準集的橫向弛豫譜參數的測量值輸入PLSR模型,輸出相對應的注水百分比的預測值,利用式(1)和式(2)計算出校準集決定系數Rc2=0.9371,校準標準誤差SEC=1.2922%。將校準集中的第i個樣本取出,用剩余的(n?1)個樣本重新建立模型,代入樣本i的橫向弛豫譜參數的測量值,得到樣本i的注水百分比的預測值。對每個樣本重復上述計算。再根據式(1)和式(2)計算出留一交叉驗證的決定系數Rcv2=0.9226,交叉驗證的標準誤差SECV=1.4333%。PLSR模型對校準集的預測結果如圖4所示。該PLSR模型的Rc2、Rcv2均大于0.9,說明模型在校準集中對注水百分比解釋方差的比率較高。SEC、SECV較小,表明該模型在校準集中具有較好的預測注水比例的能力。通過校準集數據驗證與留一交叉驗證的結果非常接近,所建模型沒有過度擬合,具有較好的穩定性。

圖4 PLSR模型的校準集樣本注水比例的預測值與測量值之間的相關關系Fig.4 The correlation between the predicted value and the measured value of water injection percentage in the calibration set using PLSR model
2.3.2 基于部分實驗數據建立的PLSR模型 為了評價模型的適應性,即評價模型對未來新數據進行預測的能力,需要用外部數據對模型進行驗證。將總實驗樣本分為兩部分,其中50條數據構成校準集,剩余的35條數據構成預測集。用校準集作為訓練樣本建立PLSR模型,預測集作為外部數據對PLSR校準模型進行驗證。
首先對PLSR校準模型進行校準集數據驗證和留一交叉驗證,計算出校準集決定系數、校準標準誤差、交叉驗證的決定系數以及交叉驗證的標準誤差分 別 為:Rc2=0.9353,SEC=1.3162%,Rcv2=0.9086,SECV=1.5646%。再對PLSR校準模型進行外部驗證。將預測集的橫向弛豫譜參數的測量值輸入PLSR校準模型中,輸出測試集樣品的注水百分比的預測值,根據式(1)計算預測集決定系數為Rp2=0.9240。再根據式(3)計算預測標準誤差為,SEP=1.4718%。PLSR模型對校準集和預測集的預測結果如圖5所示。決定系數Rc2、Rcv2、Rp2接近,均大于0.9,標準誤差SEC、SEP、SECV較小且接近。基于部分實驗樣本建立的PLSR模型也具有較好的擬合度、穩定性及預測精度。將基于較少樣本數建立的PLSR模型與基于較多樣本數建立的PLSR模型的統計參數進行比較,發現基于更多樣本建立的模型,其性能優于基于較少樣本建立的模型。SEP較小,說明PLSR校準模型具有較好的適應性和預測精度,能夠比較精確地對未用于建模的樣本進行預測。在95%的置信概率下,PLSR模型對預測集樣本預測注水比例的置信區間約為2×SEP=2.9436%[26]。

圖5 PLSR模型對校準集和預測集注水百分比進行預測的值與實測值的關系Fig.5 The relationship between the predicted value and the measured value of water injection percentage of calibration set and prediction set using PLSR model
2.3.3 優化PLSR模型 在用統計方法建立模型之前,先對實驗數據進行預處理,排除異常值,可提高所建模型的預測精度。對異常數據的檢測可采用將杠桿值和學生化殘差相結合的方式進行。根據因變量的學生化殘差圖可以識別出因變量的離群點。但是,只有那些對所建模型有強影響力的離群點才能被排除。學生化殘差超過+2,低于-2的因變量可認為是離群點[27?29]。

圖6 預測注水百分比的學生化殘差的散點圖Fig.6 Scatter diagram of student residual of predicted percentage of injected water
對基于全部實驗數據建立的PLSR模型,圖6表示85組數據所對應的注水百分比的學生化殘差的散點圖。標號為35、60及20的三組實驗數據預測的注水百分比的學生化殘差超出了± 2的范圍,對應的學生化殘差分別為3.724、2.732和-2.155,可判為離群點。為避免過分修剪離群值的數據集,計算出這三個離群點的中心化杠桿值分別為0.1651、0.08888和0.05529,它們是中心化杠桿值的平均值的14.0、7.6及4.7倍,均對回歸模型產生強影響。在建立模型時應該將這三組數據從數據集中刪除。被剔除的三組異常數據均為14%的注水肉樣本,說明在實驗過程中可能存在制備14%的注水肉樣本時,由于注水百分比較大,發生了少量注入水從肉樣本中滲出的現象,導致DA模型在判別10%和14%肉樣本時出現錯判。
將16個橫向弛豫譜參數全部作為自變量進行PLSR建模時,提取三個成分能夠累積解釋93.71%的因變量的變異信息,但只能累積解釋67.4%的自變量集合中的變異信息。增加成分數量對自變量的解釋百分比增大,但是,對因變量的解釋能力幾乎不再提高。作為自變量的橫向弛豫譜參數中含有一些難以概括的信息,這些信息對預測注水百分比作用很小。應該對橫向弛豫譜參數進行篩選,選出合適的橫向弛豫譜參數作為建立模型的自變量。
篩選的原則是既要盡可能不遺漏能對因變量進行重要解釋的自變量,又要遵循使自變量的個數盡可能少的原則。在PLSR建模過程中,變量投影重要性分析法是常用的對自變量進行篩選的方法,自變量對因變量的解釋能力可以用變量投影重要性指標(VIP)來衡量。自變量對因變量的解釋是通過成分來傳遞的,如果成分對因變量的解釋能力很強,而自變量在構造成分時又起到了重要作用,則自變量對因變量的解釋能力就強。構成某個成分的自變量的VIP值很大(VIP>1)時,它對因變量的解釋能力強。自變量的VIP值很小,則意味著它在解釋因變量時起的作用很小,可以直接刪除[30]。
圖7表示用16個橫向弛豫譜參數作為自變量并從中提取三個成分進行PLSR建模時各自變量的VIP值。其中6個參數(S, S23, P23, P22, S22, T22e)的VIP值在三個成分中都超過1,它們對注水百分比的解釋能力最強。10個參數(P21, T21e, T23e, T22m,T21m)及(S21, T22b, T23m, T23b, T21b)的VIP值在三個成分中均小于1,表示它們在解釋注水百分比時所起的作用較小,可以直接刪除。

圖7 三個成分(1、2和3)中的16個橫向弛豫譜參數的VIP值的條形圖Fig.7 Bar diagram of the VIP values of the 16 transverse relaxation spectrum parameters corresponding to the three components (1, 2, and 3)
剔除三組異常數據后,校準集由48組數據構成,預測集由34組數據構成。以6個橫向弛豫譜參數(S, S23, P23, P22, S22, T22e)作為自變量建立優化的PLSR模型。
圖8表示優化PLSR模型對校準集和預測集的預測結果。對決定系數與標準誤差計算的結果是Rc2=0.9603,SEC=1.0033%,Rcv2=0.9508,SECV=1.1169%、Rp2=0.9518,SEP=1.1280%。優化PLSR模型的Rc2、Rcv2及Rp2均大于0.95,高于未優化的PLSR模型。表示模型經過優化后,注水百分比解釋方差的比率增大,擬合性變得更好。優化的PLSR模型的SEC、SECV以及SEP的值更小,模型的預測精度和穩定性提高。相比末優化的PLSR模型,對預測集樣本的預測精度提高了23.4%。在95%的置信概率下,優化后的PLSR模型對預測集樣本預測注水比例的置信區間約為2×SEP=2.2560%,優化模型的性能顯著提高。該模型不能準確檢測小于2.256%的注水百分比,這也可以解釋DA模型的一部分錯判發生在正常肉和2%的注水肉之間。

圖8 優化的PLSR模型對校準集和預測集的注水百分比預測的值與實測值的關系Fig.8 The relationship between the predicted value and the measured value of water injection percentage of calibration set and prediction set using the optimized PLSR model
采用LF-NMR技術結合判別分析建立注水肉的定性檢測模型,通過選擇3個區分注水比例能力強且線性相關性較弱的橫向弛豫譜參數S、P23、T23e作為預測變量,建立的DA模型是穩定有效的,回代驗證和留一交叉驗證的總判別正確率分別為89.4%和88.2%。采用LF-NMR技術結合偏最小二乘回歸基于全部實驗數據、部分實驗數據和經過預處理后的實驗數據分別建立注水肉的定量檢測模型,3種PLSR模型均具有較好的擬合性和穩定性。選擇16個橫向弛豫譜參數作為自變量進行PLSR建模,基于更多實驗樣本建立的PLSR模型在性能上表現更優。通過判別和刪除3個異常數據,篩選出6個橫向弛豫譜參數作為自變量建立的優化PLSR模型,其決定系數Rc2、Rcv2及Rp2均大于0.95,標準誤差SEV、SECV及SEP≤1.1280%,在95%的置信概率下,對檢測未知樣品中注水百分比的置信區間的最好估計值約為2.256%。優化PLSR模型的性能得到了顯著改善,預測精度更高,能夠對較低注水百分比的注水肉進行快速、無損及有效的定量檢測。