張同琢,王 樂,梅吉帆,王安然,喬學義*,王 兵,李巧靈,李 斌
1.中國煙草總公司鄭州煙草研究院,鄭州高新技術產業開發區楓楊街2 號 450001
2.河南農業大學煙草學院 國家煙草栽培生理生化研究基地,鄭州市金水區農業路63 號 450002
3.福建中煙工業有限責任公司技術中心,福建省廈門市集美區濱水路298 號 361022
烤煙煙葉香型是烤煙煙葉燃吸過程中煙氣所呈現出的整體香氣格調,在中式烤煙型卷煙產品質量風格特征構成中發揮著重要作用。在日常的卷煙產品開發和配方維護過程中,經常需要根據產品設計的目標以及特征,通過感官評吸的方式,從不同產地不同等級煙葉中篩選出符合配方需求的不同香型煙葉。然而,由于受人體嗅味覺疲勞、評吸環境、心理等諸多因素影響,評吸員不得不將每日的樣品評吸數量控制在一定范圍之內[1],以提高評吸結果的準確性。當煙葉樣品數量較多時,目標香型煙葉的篩選需要較長的時間才能完成,人力、物力成本相對較高。
為了建立更為高效的煙葉香型判定方法,申欽鵬等[2-6]嘗試從煙葉化學成分與香型關系的角度建立香型評判模型,并開展了大量的數據分析和基礎算法研究工作,例如:基于114 種化學指標的Bayes 香型定量判別模型;基于煙葉香味成分的隨機森林算法;基于致香成分的線性判別法和高斯混合模型等。與感官評價相比,基于化學成分的煙葉香型判定方法避免了人的生理、心理等主觀因素對檢測結果的影響,縮短了香型判定時間,但為了提高判定結果的準確率,仍需以大量的化學指標檢測數據為基礎,人力、物力成本依然較高。
熱重分析法是研究樣品質量隨溫度變化的方法,具有靈敏度高、重復性好、可自動化進樣等優點[7]。Baker[8]研究認為絕大部分的煙氣都是在熱解/蒸餾區域產生,而煙葉香型本質上是熱解煙氣作用于人體嗅味覺器官的特征體現,不同煙葉香型的差異與其熱解特性密切相關。李巧靈等[9-10]采用熱重分析法考察了不同產地、年份、部位烤煙煙葉熱解差異性,發現產地對煙葉熱解差異性存在顯著影響。因此,采用熱重分析的方法研究全國煙葉熱解特征,并基于煙葉熱分析圖譜的差異性和機器學習方法構建香型判別模型,旨在進一步提高煙葉香型判定的效率,降低評判過程成本,為煙葉香型判定技術的拓展提供依據。
選擇全國104 個縣烤煙煙葉作為試驗樣品(表1),煙葉年份2014 年,等級C3F。所有煙葉樣品香型均由全國評煙委員會、全國卷煙調香技術委員會委員組成的評吸專家組進行了鑒定。
TA Discovery 熱重分析儀(美國TA 公司);FW100 高速萬能粉碎機(天津泰斯特儀器有限公司);標準篩(紹興市上虞寶成儀器設備有限公司)。

表1 試驗煙葉樣品信息Tab.1 Information of tobacco leaf samples used in the study
將煙葉樣品放置在溫度(22±1)℃、相對濕度(60±2)%的恒溫恒濕箱中平衡48 h 后,經高速粉碎機粉碎,過60 目(250 μm)篩。稱取(10.0±0.5)mg 煙粉進行熱重試驗,設置熱重分析儀反應區吹掃氣(氮氣)流量為30 mL/min,天平保護氣(氮氣)流量為20 mL/min;將樣品以10 ℃/min 的速率由40 ℃升至105 ℃,并保持30 min 以脫出樣品中的水分,再以10 ℃/min 的升溫速率升溫至800 ℃。試驗過程中,每個樣品每分鐘記錄120 個數據點,選取105~800 ℃區間的熱分析圖譜(DTG 曲線)數據進行計算分析。
對數據按溫度進行插值運算,得到同一溫度下不同煙葉樣品的熱分析圖譜。插值的溫度范圍為105.1~800.0 ℃,間隔0.1 ℃,每個樣品共得到6 950 個數據點。
對于分類問題而言,相比其他分類方法,支持向量機(Support Vector Machine,SVM)具有速度快、樣本需求量小等優點[11-13],因此選擇支持向量機構建香型判別模型,其核函數類型選擇高斯核函數。懲罰因子C 和核函數參數g 的值對支持向量機的分類結果有重要影響。遺傳算法[14]具有不依賴于梯度信息或其他輔助知識,只需要影響搜索方向的目標函數和相應的適應度函數的特點,因此采用遺傳算法來尋找支持向量機的最優參數。利用遺傳算法對支持向量機參數進行優化時,首先對分類器參數(懲罰因子C 和核函數參數g)進行編碼,然后通過隨機選擇、交叉和變異等步驟尋找最優參數值,提高支持向量機的精度和效率。
香型判別模型構建與驗證的具體流程見圖1。本研究中涉及的算法均在MATLAB 軟件中實現,支持向量機基于LIBSVM 工具箱實現[11]。

圖1 香型判別模型構建與驗證流程圖Fig.1 A flow chart to illustrate the construction and verification of flavor type discrimination model
八大香型烤煙煙葉樣品熱分析圖譜見圖2。由圖2 可以看出,在105~400 ℃的溫度范圍內,隨著熱解溫度升高,烤煙煙葉質量損失速率均較大;當溫度高于400 ℃后,煙葉質量損失速率迅速減小。對八大香型烤煙煙葉樣品熱分析圖譜進行比較可以看出,在150~400 ℃區間,不同香型煙葉熱解特性差異明顯,說明通過熱解特性的差異來判定煙葉香型可行。
由圖3 可知,同一香型各產地煙葉樣品的熱解特性也存在差異,且與不同香型間的熱解特性相比,在150~400 ℃區間,香型內與香型間煙葉樣品質量損失標準偏差均較大,許多香型內的標準偏差已經大于香型間的標準偏差。因此,直接基于整個溫度區間的熱解特性差異判定煙葉香型存在一定難度,需對溫度進行篩選。
通過逐一比較每種香型煙葉與其他所有香型煙葉熱解特性差異,得到八種香型煙葉特征溫度。具體篩選、計算過程如下:計算某一香型煙葉樣品某一溫度下的質量損失速率標準偏差S1與其余所有樣品的標準偏差S2,并計算該香型煙葉樣品在該溫度下的質量損失速率均值μ1與其余所有樣品的均值μ2,取兩個均值之差的絕對值μ=|μ1-μ2|,取兩個標準偏差中最大的標準偏差S=max(S1,S2),計算μ/S 特征值。比較某一香型煙葉在不同溫度下的μ/S 特征值,為了獲取最有利于分類結果的差異特性,將最大的μ/S 特征值對應的溫度作為該香型煙葉相對于其他所有香型的熱解特征溫度。

圖2 八大香型烤煙煙葉樣品熱分析圖譜Fig.2 Thermal analysis spectra from flue-cured tobacco of eight flavor types

圖3 八大香型內及香型間標準偏差Fig.3 Standard deviations within and among the eight flavor types
八種香型烤煙煙葉μ/S 特征圖見圖4。由圖4可知,在不同熱解溫度條件下,同一香型煙葉樣品計算得到的μ/S 特征值波動較大;不同香型相比較,μ/S 特征值差異明顯。因此選擇每種香型最大值對應的溫度作為該香型特征溫度。計算后得到的Ⅰ~Ⅷ香型煙葉特征溫度分別為368.3、763.4、613.0、517.2、611.2、652.6、336.1、383.5 ℃。

圖4 八大香型烤煙煙葉μ/S 特征圖Fig.4 μ/S Characteristic figures of flue-cured tobacco leaves of eight flavor types
從104 個煙葉樣品中隨機抽取92 個樣品作為訓練集,將訓練集煙葉樣品的八種香型特征溫度對應的質量損失速率進行歸一化處理后,輸入到支持向量機模型中,采用遺傳算法對模型進行優化。遺傳算法的參數為:種群的規模選擇50,交配概率選擇0.8,變異概率選擇0.017 5,進化代數選擇300。將GA-SVM 算法運行5 次,得到懲罰因子C 和核函數參數g 平均值(表2)。由表2 可知,訓練集平均正確率為76.8%,波動較小;懲罰因子C的平均值為87.1;g 的平均值為893.4。
通過懲罰因子C 和核函數參數g 等支持向量機參數計算得到的香型判別函數如下:


表2 GA-SVM 模型參數Tab.2 Parameters of the GA-SVM model
將104 個煙葉樣品中除訓練集外的12 個樣品作為測試集進行模型驗證,將測試集煙葉樣品的特征溫度對應的質量損失速率輸入香型判別函數中進行判別,并與感官評吸結果進行對比驗證,所有測試樣品的香型判定函數預測結果見圖5。由圖5 可以看出,12 個測試樣本中,10 個預測正確,正確率達到83.3%。測試集的準確率高于訓練集,這是因為測試集樣本數量較少,而有的香型種植區域面積較小,樣品數量較少,因此有些香型的樣品不太適合作為測試集。另外本方法是基于八大香型的判定,之前的方法均是基于傳統三大香型的判定,當香型數量增加后,位于香型分布區過渡地帶特征不明顯的煙葉樣品數量增多,增加了模型測試時的香型判定難度,因此需要較多的訓練樣本來建立模型。

圖5 烤煙煙葉香型判別模型驗證結果Fig.5 Validation results of discriminant model for flavor types of flue-cured tobacco leaves
通過采用熱重分析儀測定不同香型烤煙煙葉熱分析圖譜,提取八大香型的熱解特征溫度,依據遺傳算法改進的支持向量機構建香型判別模型,并測試模型準確率,結果表明:①八大香型烤煙煙葉熱分析圖譜在150~400 ℃區間存在明顯差異;②Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、Ⅵ、Ⅶ、Ⅷ香型熱解特征溫度分 別 為368.3、763.4、613.0、517.2、611.2、652.6、336.1、383.5 ℃;③GA-SVM 方法構建的香型判別模型對烤煙煙葉香型判定準確率為83.3%。