肖仕杰,王巧華, 2*,樊懿楷,劉 銳, 阮 健,溫 萬,李季奇, 邵懷峰, 劉維華,張淑君*
1. 華中農業大學工學院,湖北 武漢 430070 2. 農業部長江中下游農業裝備重點實驗室,湖北 武漢 430070 3. 華中農業大學動物遺傳育種與繁殖教育部實驗室,湖北 武漢 430070 4. 寧夏回族自治區畜牧工作站,寧夏 銀川 750002 5. 寧夏回族自治區獸藥飼料監察所,寧夏 銀川 750011
牛乳中含有豐富的蛋白質,對人體的生長發育起著重要作用,尤其對于嬰幼兒來說是不可或缺的優質蛋白質來源,但同時,牛乳也是一種過敏原。FAO/WHO已經將牛奶和乳制品確定為引發人類食物過敏現象的8種主要食物之一[1],相關數據表明牛乳過敏患病率在嬰兒中高達2%~7.5%[2],隨著乳制品銷量的增加,牛乳過敏率不斷上漲已變為不可忽略的食品安全問題。對牛乳過敏,實際上是對牛乳中的蛋白質敏感,乳蛋白的兩個主要類別分別是乳清蛋白和酪蛋白,其中酪蛋白的含量約占總蛋白質含量的80%,約65%的牛乳過敏人員對酪蛋白過敏。其中,αs1和κ-酪蛋白為主要的過敏原[3]。牛乳過敏目前無法根治,只能避免飲用牛奶或食用乳制品。牛乳蛋白過敏病人通常在消化系統和皮膚兩個方面有明顯的癥狀表現,如嘔吐、腹瀉、腹痛和濕疹、蕁麻疹等[4],因此很多國家都制定了食品過敏原強制標識條例來保障大眾健康[3],我國制定的GB 7718—2011《預包裝食品標簽通則》[5]和GB/T 23779—2009《預包裝食品中的致敏原成分》[6]建議商家標明可能的致敏物。
如果能夠可靠地檢測出牛乳中αs1和κ-酪蛋白的含量,就能為牛乳敏感人員提供飲用參考指示。乳成分的主要檢測方法有氣相色譜法、色譜-質譜聯用法和高效液相色譜法等,這些方法靈敏度高、可靠性好,但成本高、技術難度大、分析時間長,因此找到一種簡單高效的替代方法非常重要。紅外光譜法具有快速無損、簡單易行的優點,相比于近紅外光譜,中紅外光譜的波段范圍更廣、包含的信息量更豐富,在國外被廣泛應用于牛乳中各營養成分如蛋白成分的檢測。Etzion等[7]表明中紅外光譜法可以預測乳蛋白的含量,Bonfatti等[8]基于中紅外光譜對牛乳中的酪蛋白等的含量進行了預測,Niero等[9]表明UVE算法可以提高中紅外光譜對乳蛋白組分含量的預測精度,McDermott等[10]基于中紅外光譜預測了牛乳中的蛋白質和氨基酸含量。但在國內,利用光譜技術檢測牛乳中蛋白成分的研究鮮有報道。
為此,本文利用傅里葉變換中紅外光譜技術對牛乳中αs1和κ-酪蛋白兩種過敏原進行分析,利用競爭性自適應重加權算法(competitive adaptive reweighed sampling, CARS)、無信息變量消除法(uninformative variables elimination, UVE)和連續投影算法(successive projections algorithm, SPA)篩選出能代表酪蛋白含量的特征變量,并利用支持向量機(support vector regression, SVR)模型分別構建了αs1-酪蛋白含量和κ-酪蛋白含量的無損檢測模型, 模型的預測精度優于Bonfatti等[8]、Niero等[9]和McDermott等[10]前人研究結果。
試驗材料來源于河南、湖北、寧夏和內蒙古四省區的211頭中國荷斯坦牛,一頭牛采集一份牛乳,牛乳采集利用自動擠奶裝置完成,先用消過毒的毛巾擦拭牛乳房,然后用碘甘油混合溶液再次消毒,擠出前三把乳汁后進行牛乳采集,每份牛乳采集40 mL,分裝到直徑3.5 cm,高9 cm的圓柱形全新采樣瓶里,依次編號,并向每個采樣瓶里立即加入溴硝丙二醇防腐劑,緩慢搖晃使其充分溶解,運回途中在牛乳樣品周圍放置冰袋防止變質,到達實驗室后立即放入冰箱保存(4 ℃),并于第二天進行光譜采集。
MilkoScanTM FT+[傅里葉變換中紅外光譜儀(FTIR),丹麥FOSS公司]; 電熱恒溫水浴鍋; 十萬分之一電子天平; Waters e2695液相色譜儀。
αs-酪蛋白(lot C-6780,純度≥70%)、κ-酪蛋白(lot C-0406,純度≥80%)標準品(Sigma 公司); 乙腈(色譜級,純度≥99.8%)、鹽酸胍、三氟乙酸(TFA)(上海生工公司); 其他試劑均為國產分析純。
1.3.1 中紅外光譜的采集
利用MilkoScanTMFT+進行光譜采集,具體采集步驟: 將牛乳分批放入45 ℃電熱恒溫水浴鍋內預熱5 min,預熱好的牛乳放在檢測架上上下搖晃數次使牛乳混合均勻,將檢測架放在檢測履帶上,打開瓶蓋,依次進行檢測,采集完光譜后的牛乳置于-20 ℃冷凍保存。
1.3.2 αs1-酪蛋白和κ-酪蛋白的含量測定
(1)標準樣品的處理
先用去離子水將混合標樣溶解,直到濃度約為10 g·L-1左右,然后往1 600 μL處理液(6 mol·L-1鹽酸胍溶液,內含 0.1 mmol·L-1EDTA-Na2,pH 6.0)中滴加400 μL配好的標樣溶液,于室溫下孵育90 min,上機前用0.22 μm尼龍濾膜過濾。
(2)牛乳的處理
取80 μL牛乳于320 μL處理液中,室溫孵育90 min,將離心機轉速調為14 000 r·min-1,5 min后取上清液。上機前用0.22 μm尼龍濾膜過濾。
(3)RP-HPLC的色譜條件
色譜柱: ZORBAX 300SB-C18; 進樣量: 50 μL; 柱溫: 40 ℃; 流速: 1 mL·min-1; 洗脫時間: 42 min; 檢測波長: 214 nm。
流動相A: 10%乙腈+90%去離子水+0.1%TFA; B: 90%乙腈+10%去離子水+0.1% TFA。流動相B梯度(變化率)如下: 從33%到38%洗脫10 min(0.50%B·min-1),從38%到40%洗脫6 min(約0.33%B·min-1),保持40%洗脫6 min(0.00%B·min-1),從40%到40.5%洗脫2 min(0.25%B·min-1),保持40.5%洗脫2 min(0.00%B·min-1),從40.5%到48%洗脫14 min(約0.54%B·min-1),最后立刻以初始梯度平衡色譜柱2 min,準備下一批牛乳的檢測,平均每批次檢測牛乳30份。
同一批次檢測結束后用10%甲醇+90%去離子水與100%甲醇清洗色譜柱,以保證下一批次牛乳的正常檢測。
牛乳膠束的散射以及儀器運行過程中產生的隨機噪聲會對光譜造成干擾,因此光譜中不僅包含許多有用的化學信息,還存在大量的背景噪聲和無用信息。為了最大可能的削弱干擾信息,保留有效信息,提高模型的穩鍵性,正式建模前先對光譜預處理。分別利用標準正態變量變換(standard normal variate transformation, SNV)、多元散射校正(multivariate scatter correction, MSC)、一階導數、一階差分、歸一化(normalize)、二階導數和二階差分7種方法進行預處理。
中紅外光譜的波段范圍廣,冗余信息繁多,通過特征提取算法,能夠大大減少光譜維數,優化算法,提高模型的識別率。本文利用CARS、UVE和SPA算法提取特征變量。
CARS算法[11]基于“優勝劣汰”準則剔除不適應的波長變量,在有效去除無信息變量的同時壓縮共線性變量,最終選擇出針對預測目標最為關鍵的變量。
UVE算法[12]基于PLS回歸系數進行變量選擇,該算法的基本思想是利用回歸系數來衡量變量的權重,消除模型中低貢獻率的特征變量。
SPA算法[13]是一種讓變量間共線性最小化的算法,能夠減少干擾信息。
通過訓練集相關系數(Rc)和訓練集均方根誤差(RMSEC)以及測試集相關系數(Rp)和測試集均方根誤差(RMSEP)對模型的精度和可信度進行評價。Rc(Rp)高,則預測結果好,RMSEC(RMSEP)低,則穩定性好。各評價指標的相關計算公式如式(1)和式(2)
(1)
(2)
其中,ypi為訓練集或測試集中第i份牛乳的預測值,ymi為訓練集或測試集中第i份牛乳的實測值,ymean為訓練集或測試集牛乳實測值的平均值,n為訓練集或測試集的牛乳總數。


圖1 牛乳的原始光譜Fig.1 Original spectra of cow’s milk

圖2 牛乳的平均光譜Fig.2 Average spectra of cow’s milk
考慮到酰胺Ⅰ帶與水的吸收區域1 597~1 712 cm-1基本重合,同時Etzion等[7]的研究表明酰胺Ⅰ帶最有可能不受水的影響,對比了去除1 597~1 712 cm-1前后的效果,發現保留該部分的效果更好。在3 680~4 000 cm-1譜區,沒有觀察到特征峰,對比了去除3 680~4 000 cm-1前后的效果,發現去除該部分的效果更好,于是選擇925.92~3 005.382 cm-1的光譜區域。此外,經探索研究發現先對光譜手動降維,即每隔一個波點(對應波數為3.858 cm-1)取一個透射率,再進行數據處理,可以優化模型的最終效果。因此,先對光譜手動降維,使波數范圍由925.92~3 005.382 cm-1變為925.92~3 001.524 cm-1,波點數由540變為270,最終選擇925.92~3 001.524 cm-1的光譜區域用于后續建模。
由于牛乳膠狀結構不穩定,容易發生沉淀和析出,可能出現奇異樣本,本研究利用蒙特卡洛交叉驗證法(Monte-Carlocross-validation,MCCV)對αs1和κ-酪蛋白分別進行奇異樣本檢測與剔除。MCCV基于 PLS獲取最佳主成分數,利用隨機數按4∶1的原則將光譜數據和酪蛋白測定值劃分為訓練集和測試集,分別建立PLS回歸模型,設定循環次數為2 500,計算出各牛乳的預測殘差后分別求均值與方差[16],結果如圖3所示,αs1-酪蛋白模型的奇異樣本編號為39號、75號和141號,κ-酪蛋白模型的奇異樣本編號為61號、75號、76號、141號和144號。

圖3 (a)αs1和(b)κ-酪蛋白的均值-方差分布圖Fig.3 Mean value and variance distributions of (a)αs1 and (b) κ-casein
SPXY(sample set partitioning based on joint X-Y distances)法在劃分樣本時同時了考慮光譜數據和測定的理化指標,被劃分的樣本集更合理[11],本文利用SPXY將剔除異常后的樣本按7∶3劃分為訓練集和測試集。其中,αs1-酪蛋白的訓練集和測試集樣本數量分別為146和62,κ-酪蛋白的訓練集和測試集樣本數量分別為145和61,各樣本集的數據統計情況如表1所示。

表1 利用SPXY算法劃分樣本集的數據統計Table 1 Data statistics of partitioning sample sets by SPXY algorithm
在導數預處理中,利用Savitzky-Golay求導法進行9點平滑、3點差分寬度的導數預處理。使用CARS,UVE和SPA分別對預處理后的光譜數據進行特征提取,分別找出能夠代表αs1-酪蛋白含量與κ-酪蛋白含量的特征變量。因為αs1和κ-酪蛋白的特征變量選擇過程相同,下文僅以αs1-酪蛋白的特征變量選擇為例分別對CARS、UVE和SPA的變量選擇過程進行闡述。
(1)CARS進行變量選擇的過程如圖4所示,將CARS的采樣次數設為50,采用5折交叉驗證,重采樣率為0.8。圖4(a)表明,隨著取樣運行次數的增加,被選取的特征變量數量在逐步減少。圖4(b)的均方根誤差(RMSECV)值先逐漸減小,表明無用信息被消除,再逐漸增加,表明有效信息被消除。圖4(c)豎線處迭代22次,取得最小RMSECV值。

圖4 CARS變量選擇Fig.4 Variable selection of CARS
(2)UVE進行變量選擇的過程如圖5所示,將UVE的閾值參數設為0.99,結合20個主成分數建立PLS模型進行變量選擇。圖中左側曲線表示實變量,右側曲線表示添加的隨機變量,兩條水平虛線為隨機變量的最大閾值線,兩條水平線之間為被剔除的非有用變量,水平線之外則為建模的特征變量,共選出108個變量組合。

圖5 UVE消除算法篩選特征波長Fig.5 Screening characteristic wavelengths by UVE
(3)SPA進行變量選擇的過程如圖6所示,根據RMSE的變化來確定被選取的特征變量。在變量個數的增加過程中,RMSE先迅速下降,說明光譜中的無效信息被高效剔除,然后趨于平穩,說明無效信息基本有效剔除,選擇此過渡點處的變量作為被選取的特征變量組合。


圖6 (a)RMSE; (b)選取的最優波長編號索引Fig.6 (a) RMSE; (b) Selected optimal wavelength number index
將不同的預處理和特征選擇算法結合獲得的特征變量組合分別帶入SVR模型,αs1-酪蛋白的預測結果如表2所示。對于CARS算法,一階導數預處理的光譜數據帶入SVR模型取得了最優效果,選擇的特征變量數量為24,占建模光譜變量的8.89%; 對于UVE算法,一階導數預處理的光譜數據代入SVR模型取得了最優效果,選擇的特征變量數量為108,占建模光譜變量的40%; 對于SPA算法,直接將建模光譜帶入SVR模型取得了最優效果,選擇的特征變量數量為23,占建模光譜變量的8.52%。

表2 基于3種特征選擇算法建立的αs1-酪蛋白SVR預測模型Table 2 SVR prediction model of αs1-casein based on 3 characteristic variable selection methods
κ-酪蛋白的預測結果分別如表3所示。對于CARS算法,二階差分預處理的光譜數據帶入SVR模型取得了最優效果,選擇的特征變量數量為16,占建模光譜變量的5.93%; 對于UVE算法,一階差分預處理的光譜數據帶入SVR模型取得了最優效果,選擇的特征變量數量為55,占建模光譜變量的20.37%; 對于SPA算法,一階導數預處理的光譜數據帶入SVR模型取得了最優效果,選擇的特征變量數量為14,占建模光譜變量的5.19%。

表3 基于不同特征選擇算法建立的κ-酪蛋白SVR預測模型Table 3 SVR prediction model of κ-casein based on different characteristic variable selection methods
對于αs1-酪蛋白預測模型,CARS算法與UVE算法建立的SVR模型訓練集Rc和測試集Rp均在0.85以上,SPA算法建立的SVR模型訓練集Rc和測試集Rp在0.82和0.85之間,一階導數預處理和CARS算法結合建立的SVR模型最優,訓練集Rc和測試集Rp分別為0.882 7和0.899 8,訓練集RMSEC和測試集RMSEP分別為1.136 3和1.372 6。對于κ-酪蛋白,CARS算法、UVE算法和SPA算法建立的SVR模型訓練集Rc和測試集Rp均在0.85以上,一階差分預處理和UVE算法結合建立的SVR模型最優,訓練集Rc和測試集Rp分別為0.880 8和0.890 3,訓練集RMSEC和測試集RMSEP分別為0.534 5和0.535 4。分別將αs1和κ-酪蛋白含量的最優SVR回歸模型用散點圖表示,預測結果如圖7和圖8所示。

圖7 基于CARS的αs1-酪蛋白最優模型Fig.7 Optimal model for αs1-casein based on CARS

圖8 基于UVE的κ-酪蛋白最優模型Fig.8 Optimal model for κ-casein based on UVE
基于傅里葉變換中紅外光譜技術,分別建立了牛乳中αs1和κ-酪蛋白含量的SVR無損快速檢測模型。
對于αs1-酪蛋白,一階導數結合CARS算法、一階導數結合UVE算法和原始光譜結合SPA算法的最優模型提取的特征變量數分別為24,108和23。結果表明,αs1-酪蛋白含量的最佳預測模型為一階導數與CARS算法結合建立的SVR回歸模型,訓練集Rc和RMSEC分別為0.882 7和1.136 3,測試集Rp和RMSEP分別為0.899 8和1.372 6; UVE算法提取的特征變量包含無效信息,影響了預測精度;CARS算法與SPA算法提取的特征變量數相當,但SPA算法的精度遠低于CARS算法,表明SPA算法不適合αs1-酪蛋白含量預測模型的建立。
對于κ-酪蛋白,二階差分結合CARS算法、一階差分結合UVE算法和一階導數結合SPA算法的最優模型提取的特征變量數分別為16,55和14; 結果表明,κ-酪蛋白含量的最佳預測模型為一階差分和UVE算法結合建立的SVR模型,訓練集Rc和RMSEC分別為0.880 8和0.534 5,測試集Rp和RMSEP分別為0.890 3和0.535 4。三種算法的預測精度較為接近,UVE算法優于CARS算法與SPA算法,表明κ-酪蛋白含量最佳預測模型的建立需要提取更多的特征變量。
本研究可為后續利用中紅外光譜法對牛乳中其他與過敏有關的蛋白含量進行快速無損檢測提供重要參考。