張智峰,韓小平,秦剛,宋海燕
(山西農業大學 工學院,山西 太谷,030800)
苦蕎麥是一種食藥兩用的小雜糧,素有五谷之王的美稱,在我國各地都有廣泛的栽培種植,主要集中在云南、四川、貴州、陜西、山西、內蒙古等高寒地區,其籽粒含有高營養價值和多種保健功能的蛋白質、膳食纖維、抗性淀粉、生物類黃酮、不飽和脂肪酸(如亞油酸和亞麻酸)、維生素以及豐富的鈣、磷、鐵、鋅、銅、鎂、硒等人體所必需的礦物質[1]。已有研究證實,蕎麥富含 18 種氨基酸,其中8種必需氨基酸的組成比例較好[2-3]。蘆丁是蕎麥獨有的生物類黃酮主要成分,具有較高的營養和醫用價值,近年來得到了人們廣泛的關注。
近紅外光譜定量分析技術具有樣品制備簡單,分析速度快,可以同時進行多組分測定,實現無損和在線檢測,被廣泛應用[5-6]。馬續瑩等[7]應用近紅外光譜漫反射技術,采用偏最小二乘法和留一全交叉驗證方法對燕麥和苦蕎樣品中膳食纖維的含量進行預測,相關系數達到0.927 2。結果表明,采用近紅外光譜漫反射方法能夠對燕麥、苦蕎等產品中膳食纖維含量進行快速定量或半定量分析。席志勇[8]采用近紅外光譜技術結合主成分分析和神經網絡分別建立蕎麥蛋白質、淀粉和總黃酮含量預測模型,其中總黃酮相關度較高,能夠達到蕎麥總黃酮含量預測的目的。張晶等[9]采集其近紅外漫反射光譜圖,結合化學計量學軟件對光譜進行主成分分析(principal components analysis, PCA),可明顯區分甜蕎粉、苦蕎粉、小麥粉和燕麥粉;利用偏最小二乘(partial least squares,PLS) 模型可以半定量判別蕎麥粉摻假。由此可見,近紅外光譜分析技術可以實現苦蕎及相關產品的定性判別和內部品質定量檢測。此外,由于有機硒以半胱氨酸和硒蛋氨酸2種形式共價結合在蛋白質中[10],碳水化合物包括糖類或者淀粉,以及纖維素類型的生物分子,它們主要是帶—OH的脂肪環化合物[11],一些國際學者據此為尋找對象的地域特征指標進行了積極探索,也為本文尋找特征吸收譜帶和苦蕎產地溯源提供了理論依據[12-13]。然而上述研究沒有很深入地探討影響其定性判別的主要品質指標。
本文對來自朔州、內蒙古、云貴高原、四川大涼山、陜西5個產地的苦蕎樣本進行光譜分析,結合PCA和灰色關聯分析,以實現苦蕎產地溯源以及確定成分對苦蕎產地溯源的影響程度。
從市場上購買5個不同產地的苦蕎,分別來自朔州、內蒙古、云貴高原、四川大涼山、陜西,其中大涼山產地的苦蕎包括2個不同品牌(安喜企業和西昌正中食品有限公司)。這6種苦蕎作為待測樣本,其成分參數由原產品包裝給出,如表1。

表1 不同產地苦蕎營養成分含量(每100 g)Table 1 Component content of tartary buckwheat from different areas
光譜掃描實驗使用ASD公司的FieldSpec3光譜儀:波長范圍350~2 500 nm,掃描次數3,用于全光譜范圍的原始數據采集。掃描光譜數據在室溫下進行,為了避免外界因素影響,光譜采集在暗室進行。每個樣本旋轉2次,同時采集3次掃描光譜值[14]。
光譜數據處理軟件為ViewSpecPro,將每個樣本的3次光譜數據取平均值作為原始光譜,對原始光譜進行拼接校正,并且將光譜反射率轉化為吸光度值。再經過ASCII Export導出數據,應用MTLAB2015a實現主成分分析和灰色關聯分析分析。
原始光譜400 nm之前的波長段具有很大的噪聲,為了減少干擾,本文研究的波長范圍為400~2 500 nm。近紅外光譜中包含了大量與本身性質無關或冗余信息,影響了建模和相關性分析,因此需要提取可以表征被測物體特性的特征波長,以增加分析的準確性并簡化分析過程。PCA是非常有效的多變量分析技術[15-16],已有很多人實現對研究對象的產地溯源[17-18]。主成分方法可以避免信息間的互相重疊,而且進行了數據簡化,從而提取最具代表性的變量子集[19]。
PCA的步驟如下:
(1)利用獲得的原始光譜數據構建X=m*n階的矩陣,其中m代表樣本數目,n為原始光譜數據的維數;
(2)將m*n階矩陣X的每一列進行歸一化處理,即樣本的每個屬性;
(3)求出協方差矩陣D,并求解該矩陣的特征值和對應的特征向量;
(4)將求出的特征值從小到大排列,選擇最大的k個,然后將其對應的特征向量組成新特征矩N;
(5)通過上述求解將原始的數據降到k維,通過計算累計貢獻率得到原始數據的信息保留量。
要定量研究兩個事物間的關聯程度,可以用相關系數和相似系數等,但這需要足夠多的樣本數或者要求數據服從一定概率分布。在實際情況下,有許多因素之間的關系是灰色的,難以區分因素的密切程度,這樣難以找到主要特性[20-21]?;疑到y理論就是以“信息部分明確、部分未知”的“小樣本”的灰色系統為研究對象[22-24]。而灰色因素關聯分析(grey relation analysis,GRA)目的是定量表征多因素之間的關聯程度,從而揭示灰色系統的主要特性。關聯分析是灰色系統分析和預測的基礎[25-26]。其步驟為:
(1)整理苦蕎成分含量和提取的特征波長對應的光譜吸收度;
(2)選定一個參考列和n個比較序列并進行歸一化處理,消除量綱;
(3)計算每個參考列一個關聯度得到關聯矩陣,根據矩陣元素的大小分析得出結論。
圖1是將不同產地的苦蕎樣本光譜數據取均值作為該產地的原始光譜曲線,橫坐標為波長,縱坐標為吸光度。

圖1 不同產地的苦蕎原始光譜Fig.1 Primitive spectra of different areas
從圖1可以看出,不同產地的苦蕎樣本光譜吸收度不同,但峰谷趨勢基本一致,900 ~2 500 nm有多個明顯的吸收峰,表明該波段范圍對苦蕎內部品質檢測具有決定性意義。另外由于空氣中含有水蒸氣會對掃描光譜產生一定的影響,因此在1 450、1 930、2 200 nm左右波段苦蕎樣本的原始光譜曲線有明顯的吸收峰。與ZHU等[27]得到的水分敏感波段1 400、1 940、2 250 nm相近。
將獲得的原始光譜進行主成分分析,主成分屬于無監督的數據降維,即得到的降維結果與因變量無關,因此不會受到變量的干擾[29-30]。進行主成分分析后得到表2和圖2。

表2 前5個主成分的特征值及貢獻率Table 2 Characteristic value and contribution rate of the first five principal components
從表2可以看出,前4個主成分的累計貢獻率達到了99.72%,表示前4個主成分已經可以解釋99.72%的原始光譜信息,因此只保留前4個主成分作為提取的特征波長。然后根據得到的主成分載荷大小順序得到4個特征波長,分別為1 370、1 680、870、971 nm。

圖2 主成分得分圖Fig.2 Principal component score
從圖2可以看出,除朔州產地樣本中存在一個異常樣本外,其余不同產地苦蕎樣本的聚類效果較好。由于四川大涼山的苦蕎樣本來自兩個品牌,所以其樣本聚類效果較為分散,但也能很好地與其他產地的樣本進行有效區分,說明主成分分析基本可以實現苦蕎產地的溯源。
利用提取的特征波長分別與苦蕎的6種成分進行灰色關聯分析,得到表3。

表3 苦蕎成分和特征波長的灰色關聯度Table 3 Grey relation between characteristic wavelength and composition of tartary buckwheat
從表3可以得出,1 370、870、971 nm波長與對應苦蕎成分的關聯度由大到小排列為:碳水化合物>蛋白質>脂肪>鈉>硒>黃酮,1 680 nm對應的關聯度由大到小排列為:蛋白質>碳水化合物>脂肪>鈉>硒>黃酮,根據上述關聯度排序得出苦蕎的6個成分中碳水化合物和蛋白質跟提取的敏感波長關聯度最大。此外通過主成分分析提取的特征波長1 680 nm與杰爾·沃克提到的1 688~1 691 nm波段是折疊結構的CONH2吸收譜帶基本吻合,而主成分分析提取的敏感波長971 nm與杰爾·沃克曼[11]得出糖類的二級倍頻為972 nm的結果一致。
為了實現苦蕎產地溯源以及確定苦蕎成分對苦蕎產地溯源的影響程度,對朔州、內蒙古、云貴高原、四川大涼山、陜西5個產地的36個苦蕎樣本的近紅外光譜數據進行了主成分分析和灰色關聯分析。主要研究結論如下:
(1)主成分分析提取的4個特征波長(1 370、1 680、870、971 nm)的累計貢獻率達到99.72%,主成分得分圖的產地聚類效果明顯,說明主成分分析可以實現不同產地苦蕎的溯源;
(2)為了確定6種苦蕎成分對產地溯源的影響程度,將主成分分析提取的特征波長與苦蕎成分進行灰色關聯分析,得到關聯度由大到小為:碳水化合物>蛋白質>脂肪>鈉>硒>黃酮。且從官能團層面找到了碳水化合物和蛋白質是對苦蕎產地溯源影響最大的2個成分。