秦正龍,馮長君
(1.江蘇師范大學 化學與材料科學學院,江蘇 徐州 221116;2.徐州工程學院 化學化工學院,江蘇 徐州 221008)
山楂又稱紅果、仙果、山里果、山里紅等,是薔薇科山楂屬植物山楂或山里果的成熟果實[1-2],在我國的云南、山東、貴州、東北、太行山南部及燕山山脈等地廣泛種植[3],與北美、智利形成三大世界山楂種植中心[4],山楂資源十分豐富。但是,由于其口感酸澀,故鮮食量很少,而傳統的加工品種也不多,僅有山楂醬、山楂糕、山楂罐頭及山楂果脯等,產品附加值低[5-6]。果酒因其口感細膩、營養豐富、清亮透明、果香濃郁且酒精度低、節約糧食、保健價值高,是未來釀酒企業的發展方向。因此,以山楂為原料加工成果酒,既解決了山楂貯藏保鮮問題,又提升了附加值[7-8],促進區域經濟發展。目前,對山楂果酒的研究主要集中在分離、鑒定、檢測及工藝等方面[9-12],對其香氣組分性質的研究則較少。神經網絡是模擬人腦網絡結構的一種信息功能處理系統,該方法結構簡單、自適應及自學習能力強,可以構建高質的非線性模型,在藥物、環境及食品等領域應用廣泛[13-16],但利用神經網絡方法研究山楂果酒香氣成分鮮見報道。為此本研究采用神經網絡方法中的誤差逆傳播多層前饋網絡算法,建立香氣成分色譜保留時間與其分子結構之間的神經網絡模型并對其進行預測,為快速檢測山楂果酒的風味成分,提高果酒品質提供一定依據。
山楂紅酒中48種香氣成分的色譜保留時間(retention time,RT):取自參考文獻[9]。
Agilent 7890A-5975C氣相色譜-質譜聯用儀(gas chromatography-mass spectrometry,GC-MS):美國安捷倫公司;DH6000AH型電熱恒溫培養箱:天津市泰斯特儀器有限公司。
1.3.1 分子結構表征
拓撲指數是對分子圖的某種矩陣通過數學計算而獲得的,是圖的一種不變量,可揭示化合物分子的結構特征。只要拓撲指數蘊含了影響色譜保留時間的本質因素,那么,兩者之間必然具有良好的相關性。
分子價連接性指數(mXtV)[17]定義成鍵的非氫原子i的特征值(δiv)為:

示和非氫原子i成鍵的氫原子數。
分子價連接性指數(mXtV)的計算公式為:

式中:m為指數的階數;t為子圖的類型,有鏈、星、環、星-鏈等4種子圖,依次記作p、c、ch及pc。
電拓撲狀態指數(Ei)[18]包含兩個方面,一方面是原子的本征值,它是由每個非氫原子類型i的原子結構和拓撲環境共同決定,以“Hi”表示;另一方面是原子本征值的增量,它是由其他非氫原子擾動所產生的,以“ΔHi”表示。定義電拓撲狀態指數(Ei)為:

式中:j為原子類型i的個數。
1.3.2 兩類拓撲參數的計算
采用Chemoffice 2005繪圖軟件,畫出文獻[9]中山楂紅酒48種揮發性香味化合物分子的結構圖,然后在MATLAB軟件中,使用張婷等[19]報道的方法編寫計算程序,運算得分子價連接性指數(mXtV)及電拓撲狀態指數(Ei)(見表1,限于篇幅,表中只列出了相關的6種)。

表1 山楂紅酒香氣成分的結構參數及色譜保留時間Table 1 Structural parameters and chromatographic retention time of aroma compounds in hawthorn red wine

續表
1.3.3 實驗方法
將上述計算得到的山楂紅酒中48種香氣成分的兩類指數用Minitab最佳變量子集回歸,分析篩選與香氣成分色譜保留時間相關性最優的變量集,并以Kubinyi函數(Kubinyi function,Kf)[20-21]作為判據,Kf值越大,模型的穩定性、預測能力就越強。
由表2可見,模型中隨著變量數目的增多,R、R2和R2adj持續增大,S逐漸減小,但五元模型后,其數值變化均很小,且Kf在五元模型處出現最大值,說明該模型的質量最好。所以本實驗選用4XpV、E12、1XpV、E1、0XpV為最佳變量組合。

表2 保留時間與mXtV、Ei的回歸結果Table 2 Regression results of mXtV,nEiand retention time
將山楂紅酒中48種揮發性香味化合物的色譜保留時間(RT)與上述優化篩選得到的5參數最佳變量組合4XpV、E12、1XpV、E1、0XpV進行多元線性回歸,得到的模型為:

用模型(4)給出的預測值與實驗值基本吻合(預測值1,見表1)。
為了檢驗模型(4)的穩定性及預測能力,采用Jackknifed檢驗法進行檢驗,即每次從48個山楂紅酒香氣成分中剔除1個,用余下的47個組分建模,依次建立48個方程,得到48個相關系數,其平均值為0.979,與模型(4)的相關系數完全吻合。根據一般的統計標準,所建模型的R2>0.8,說明所建模型具有良好的預測能力。模型(4)的R2為0.958,另外,模型(4)的Kf最大,說明該模型的預測能力最好,穩定性最佳。為了進一步檢驗模型(4)的質量,將48個香氣化合物分成兩個集,即訓練集和測試集。隨機剔去序號為4、13、22、29和41共5個化合物,并作為測試集,剩余的43個化合物為訓練集,按上述方法建立的模型為:

由模型(5)給出的序號為4、13、22、29、41五個化合物色譜保留時間的預測值分別為12.031、13.427、29.008、33.295、46.198,與模型(4)給出的預測值、實驗值較好吻合,而且模型(5)和模型(4)十分相似:①兩個模型中對應的各項,其數值非常接近;②兩個模型的R、R2、R2adj、F、S等質量指標也十分接近??梢娔P停?)是相關性、穩定性俱佳的模型。
為了判斷模型是否存在離域點,將山楂紅酒中48種揮發性香味化合物的Jackknifed相關系數作雷達圖(圖1),以0.970為圓心,間距為0.002,48個Jackknife 相關系數圍繞原始模型(4)的相關系數(0.979)上下波動,且波動范圍很小,Jackknife的相關系數全都處在0.977~0.982 之間,表明模型(4)沒有異常的離域點。

圖1 相關系數的雷達圖Fig.1 Radar chart of correlation coefficients
為了使模型的預測精準度進一步提高,使用誤差反向傳播方法的三層網絡結構,以前述最好的多元回歸模型中的5種分子結構參數作為神經網絡的輸入層單元,揮發性香味成分的色譜保留時間作為輸出層單元,最佳隱蔽層的單元數按照許祿等[22]提出規則,經計算并優化得5。因此,網絡結構為5∶5∶1。為了避免發生過擬合,把山楂紅酒中48種揮發性香味物質劃分為3個集,1組5個數據,其中的第1、3、4個數據即為訓練集,其相關系數為0.997,每組的第2個、第5個數據則分別為測試集和驗證集,它們的相關系數分別是0.999、0.999,總相關系數是0.998。由神經網絡法得到的預測值見表1(預測值2),預測值與實驗值頗為吻合,平均相對誤差為3.31%。多元回歸法與神經網絡法實驗值和預測值的關系見圖2。由圖2可知,神經網絡法更優。

圖2 兩種方法預測值與計算值的關系Fig.2 Relationship between experimental and predicted values of the two methods
在氣相色譜分析中,影響色譜保留時間的因素很多,如果其他條件恒定下,那么色譜保留時間的長短決定于化合物分子和固定相之間的相互作用,相互之間的作用力越大,則色譜保留時間就越長。相互之間的作用力主要包含取向力、誘導力及色散力。分子價連接性指數把化合物結構圖中各種子結構碎片進行加權計算,對于3個以上非氫原子組成的分子,即可產生鏈、簇、星和環等許多片段結構,能表征分子的大小、形狀、分枝、表面積等,較好地揭示了色散力的強弱。電拓撲狀態指數反映了化合物分子中成鍵原子的價態信息、固有特征、電子狀態、拓撲環境及電性作用等,其數值大小較好地揭示了取向力、誘導力的強弱。因此,與神經網絡方法結合,相關系數由原來的0.979提高到了0.998,預測能力大幅度提升。
通過Minitab優化篩選的5 個分子結構參數與山楂紅酒中48種香氣成分色譜保留時間之間建立的定量構效關系模型,經檢驗不存在異常的離域值,具有良好的穩定性和較強的預測能力。神經網絡法比多元回歸分析法的預測準確度和糾錯能力都更好,訓練集的相關系數為0.997,測試集的相關系數是0.999,驗證集的相關系數是0.999,總的相關系數為0.998,平均相對誤差為3.31%,計算值與實驗值很好吻合。
山楂果酒酸甜適口,酒體清爽優雅,不但有很高的營養價值,而且還有獨特的保健及藥理功能。近年來,人們的生活水平和質量不斷提升,對天然食品的保健功能也更加重視。本研究結果為探索色譜分離條件,研究色譜保留機制提供有益的理論參考,對山楂果酒香氣成分的結構表征、質量檢驗及藥用價值的開發等,具有一定的實際意義。