沙云菲,黃 雯,王 亮,劉太昂,岳寶華,李敏杰,尤靜林,葛 炯*,謝雯燕*
1.上海煙草集團有限責(zé)任公司技術(shù)中心,上海 200082 2.上海大學(xué)化學(xué)系,上海 200444
中式卷煙風(fēng)格的重要構(gòu)成因素之一是烤煙香型,這也一直是煙草行業(yè)的研究熱點。烤煙香型通常分為清香型、中間香型和濃香型3大類[1]。近年來,隨著對烤煙香型研究和認識的進一步加深進而細分成清香型、清偏中型、中偏清型、中間型、濃香型、濃偏中型和中偏濃型七大類。早期對于烤煙香型分類一般都是通過評吸人員進行感官評價,后來不少研究希望通過煙葉化學(xué)成分或近紅外光譜數(shù)據(jù)建立烤煙香型的判別模型。邱昌桂[2]等利用煙葉中的68種致香成分結(jié)合數(shù)據(jù)分析和模式識別技術(shù),提出了一種基于煙草致香成分和遺傳算法-支持向量機算法的烤煙香型自動識別方法;郭東鋒[3]等利用煙葉中常規(guī)化學(xué)成分結(jié)合人工神經(jīng)網(wǎng)絡(luò)算法建立烤煙香型評價模型。宋楠[4]提出了一種改進局部線性嵌入非線性降維算法首先對煙草近紅外數(shù)據(jù)進行降維,然后建立了香型風(fēng)格投影模型和判別模型。在前期研究中,無論是利用煙葉化學(xué)成分或者是近紅外光譜數(shù)據(jù),可能是包含的信息量還不夠多,因此模型還有進一步優(yōu)化的空間。在文獻調(diào)研中發(fā)現(xiàn)中紅外在快速檢測中得到了應(yīng)用[5-6]。劉巖[7]等運用三級紅外宏觀指紋圖譜法對三種不同香型的白酒進行了鑒定;中紅外光譜攜帶有大量信息,可以用食品類香型的快速識別。本研究嘗試將中紅外和近紅外光譜進行數(shù)據(jù)融合,用來建立烤煙香型風(fēng)格快速識別模型。并與僅僅利用中紅外、近紅外光譜數(shù)據(jù)建立煙葉香型風(fēng)格模型的準確率進行對比。
選取2018年清香型、中間香、型濃香型的煙葉樣本共189個,其中清香型81個,中間香型45個,濃香型63個。
稱取1 g 烘干后的煙葉粉末于試管中,加入10 mL正己烷,超聲混勻靜置一段時間,抽取5 mL經(jīng)濾膜過濾至小試管中,靜置揮發(fā)三天,利用ThermoFisher公司的Nicolet iS50傅里葉變換紅外光譜儀掃描得到中紅外光譜,掃描范圍4 000~650 cm-1,分辨率為4 cm-1,掃描次數(shù)16次。煙葉中紅外光譜如圖1(a)所示。

圖1 煙葉中紅外光譜(a)和近紅外光譜(b)Fig.1 MIRs (a) and NIRs (b) of tobacco samples
將15 g 60 目的煙葉粉末,放置在內(nèi)徑為5 cm樣品杯中,壓實后,利用ThermoFisher公司的Antaris FT-NIR分析儀掃描得到近紅外光譜,掃描范圍3 800~10 000 cm-1,分辨率為4 cm-1,掃描次數(shù)16次。煙葉近紅外光譜如圖1(b)所示。
主成分分析法[8](principal component analysis,PCA)通過線性變換將煙葉中紅外光譜數(shù)據(jù)或者近紅外光譜數(shù)據(jù)投射到一些新的主成分變量(principal components,PCs),這些主成分變量之間依次正交,每一個主成分都是由中紅外光譜數(shù)或者近紅外光譜數(shù)據(jù)線性組合而成,利用PCA可以考察樣本在空間分布情況。
遺傳算法[9](genetic algorithm,GA)是一種模仿生物界的進化規(guī)律(適者生存,優(yōu)勝劣汰)演化而來的自適應(yīng)全局優(yōu)化搜索方法。與其他變量選擇算法相比,GA直接對研究對象操作,不需要求導(dǎo)和連續(xù)函數(shù),具有全局尋優(yōu)、自適應(yīng)調(diào)整尋優(yōu)方向等特點。
后退法[10]則是首先將所有變量都用在建模方程中,然后刪除偏相關(guān)系數(shù)最小的變量,隨后重復(fù)這一選擇過程直到不再刪除變量為止。
支持向量機分類算法[11-12](support vector classification,SVC)的核心內(nèi)容是在進行建模分類過程中,構(gòu)建出一個最優(yōu)分類面,此最優(yōu)分類面可以將樣本正確分開,而且要使兩類的分類空隙最大。對于構(gòu)建最優(yōu)分類面過程即為求函數(shù)全局最優(yōu)解的過程。在利用支持向量機分類算法建立分類模型的過程中懲罰參數(shù)c是一個重要的影響參數(shù),對于建立的分類模型的準確率和預(yù)報能力影響顯著。
為了提高信噪比,對中紅外和近紅外譜圖數(shù)據(jù)進行一階導(dǎo)數(shù)和Savizky-Golay平滑。選取煙葉中紅外光譜數(shù)據(jù)21個和近紅外光譜數(shù)據(jù)13個特征波數(shù)對應(yīng)的吸光度值作為影響因素。如圖2所示。

圖2 (a)中紅外一階導(dǎo)數(shù)圖和(b)近紅外一階導(dǎo)數(shù)圖Fig.2 (a)The first derivative MIR spectra and (b)The first derivative NIR spectra
圖3分別是基于中紅外數(shù)據(jù)(21個影響因素)、近紅外數(shù)據(jù)(13個影響因素)及中紅外和近紅外融合數(shù)據(jù)(34個影響因素)的煙葉清香型、中間香型、濃香型三種香型的PCA投影圖。

圖3 (a)基于中紅外數(shù)據(jù)的PCA投影圖;(b)基于近紅外數(shù)據(jù)的PCA投影圖和(c)基于中紅外和近紅外融合數(shù)據(jù)的PCA投影圖Fig.3 (a) PCA projection plot based on MIR;(b) PCA projection plot based on NIR and (c) PCA projection plot based on MIR and NIR
由圖3可見,基于中紅外和近紅外數(shù)據(jù)PCA投影圖中三種香型混淆嚴重,區(qū)分界面不清晰。基于中紅外和近紅外融合數(shù)據(jù)的PCA投影圖清香型、中間香型和濃香型數(shù)據(jù)分類清晰,有比較明顯的區(qū)分界面。
中紅外和近紅外融合數(shù)據(jù)共有34個影響因素,分別用后退法和GA進行變量選擇。圖4是基于34個全部影響因素、后退法選擇的24個影響因素(中紅外14個,近紅外10個),GA選擇的19個影響因素(中紅外11個,近紅外8個)的清香型、中間香型、濃香型三種香型風(fēng)格的PCA投影圖。

圖4 (a)基于34個變量的PCA投影圖;(b)基于24個變量的PCA投影圖和(c)基于19個變量的PCA投影圖Fig.4 (a) PCA projection plot based on 34 varieties;(b) PCA projection plot based on 24 varieties and (c) PCA projection plot based on 19 varieties
由圖4可以看出:對比全部34個變量、后退法選擇的24個變量和GA選擇的19變量的PCA算法投影圖,可以看出GA即使選擇了比較少的變量,但三種香型風(fēng)格的煙葉分類效果還比較好。因此利用GA對中紅外和近紅外融合后數(shù)據(jù)進行變量選擇,可以剔除對煙葉香型分類影響小的因素。
選取上述189個三種香型煙葉樣本,隨機提取20%共38個樣本作為預(yù)報集,剩余80%共151個樣本作為建模集,以GA選擇的19個變量輸入變量,建立煙葉香型風(fēng)格判別的SVC模型,在SVC建模過程中選擇線性核函數(shù),懲罰因子C取10。該模型的建模結(jié)果、留一法結(jié)果和預(yù)報結(jié)果如表1所示。
由表1可以看出:基于GA選擇的中紅外和近紅外融合數(shù)據(jù)的19個變量輸入變量,建立的煙葉香型風(fēng)格判別的SVC模型,其建模結(jié)果、留一法結(jié)果和預(yù)報結(jié)果都有著比較高的準確率,整體準確率都高于85%。

表1 SVC模型準確率Table 1 The accuracies of the SVC
由于中紅外和近紅外融合數(shù)據(jù)提取了更多的特征信息,對于煙葉香型風(fēng)格的分類效果更佳。利用GA算法對融合后的數(shù)據(jù)進行變量選擇,刪除了中紅外和近紅外融合數(shù)據(jù)的冗余信息,雖然選擇比較少的變量,但煙葉香型風(fēng)格的分類效果還較好。進一步利用以GA選擇的變量,對189個三種香型煙葉樣本建立煙葉香型風(fēng)格判別的SVC模型,模型的建模結(jié)果、留一法結(jié)果和預(yù)報結(jié)果的準確率都大于85%。以上結(jié)果表明中紅外和近紅外數(shù)據(jù)融合可以提取更多特征信息,利用這些信息可以建立煙葉香型風(fēng)格的分類判別模型,為煙葉香型風(fēng)格快速鑒別提供幫助,減少專業(yè)人員的感官評吸工作量。