汪陽忠 張?chǎng)? 蔡振波 黃雯 費(fèi)婷 吳達(dá) 張旭峰 孟祥周 束茹欣



摘 要:基于煙葉近紅外光譜、Heracles電子鼻及二者的融合數(shù)據(jù),建立了云南、河南、福建和吉林4個(gè)省份的煙葉產(chǎn)地識(shí)別模型以及河南省內(nèi)漯河、南陽、平頂山、許昌和駐馬店5個(gè)地級(jí)市的煙葉產(chǎn)地識(shí)別模型.對(duì)于地理位置相距比較遠(yuǎn)的不同省份的煙葉,基于單一數(shù)據(jù)源就可以建立準(zhǔn)確率比較高的產(chǎn)地識(shí)別模型.對(duì)于河南省內(nèi)5個(gè)地級(jí)市的煙葉,其地理位置相距近,氣候變化小,煙葉相似性高,僅基于單一信息源的數(shù)據(jù),該產(chǎn)地識(shí)別模型的準(zhǔn)確率偏低.為了提高河南省內(nèi)5個(gè)地級(jí)市煙葉產(chǎn)地識(shí)別的準(zhǔn)確率,將煙葉近紅外光譜數(shù)據(jù)與Heracles電子鼻數(shù)據(jù)進(jìn)行融合,由于增加了煙葉數(shù)據(jù)信息量,這5個(gè)產(chǎn)地的識(shí)別效果明顯提升,其留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率為98.26%,高于數(shù)據(jù)融合前單一數(shù)據(jù)源判別模型的86.96%.研究表明Heracles電子鼻數(shù)據(jù)可以在不同的數(shù)據(jù)維度上,對(duì)近紅外光譜數(shù)據(jù)進(jìn)行信息量補(bǔ)充,為煙草品種溯源、質(zhì)量監(jiān)測(cè)、市場(chǎng)監(jiān)督等方面提供新思路.
關(guān)鍵詞:近紅外光譜;Heracles電子鼻;數(shù)據(jù)融合;支持向量機(jī)
中圖分類號(hào):O69文獻(xiàn)標(biāo)志碼:A文章編號(hào):1000-2367(2024)02-0104-07
煙草產(chǎn)地的準(zhǔn)確分類對(duì)于煙草行業(yè)的質(zhì)量控制和市場(chǎng)競(jìng)爭(zhēng)具有重要意義,傳統(tǒng)的基于經(jīng)驗(yàn)和感官評(píng)價(jià)的分類方法存在主觀性和不穩(wěn)定性等問題,這可能導(dǎo)致分類結(jié)果的不準(zhǔn)確性和不一致性.為此,近年來研究者基于煙葉近紅外光譜(near-infrared spectroscopy,NIR)數(shù)據(jù)結(jié)合機(jī)器學(xué)習(xí)方法建立煙葉產(chǎn)地的快速識(shí)別模型.耿瑩蕊等[1]基于NIRS,采用灰狼算法優(yōu)化參數(shù),最終建立了8個(gè)煙葉產(chǎn)地的支持向量機(jī)算法(support vector machine,SVM)分類模型.魯夢(mèng)瑤等[2]基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)煙葉近紅外光譜數(shù)據(jù)進(jìn)行處理,針對(duì)近紅外光譜數(shù)據(jù)的特點(diǎn),對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),建立了東北、黃淮、西南三大烤煙產(chǎn)區(qū)識(shí)別模型.束茹欣等[3]基于NIR-PCA-SVM聯(lián)用技術(shù)建立了云南、河南、安徽、福建、貴州、吉林6個(gè)省產(chǎn)地識(shí)別模型.
在前期煙葉產(chǎn)地分類判別的研究中,由于這些產(chǎn)地屬于不同的行政區(qū)域,其地理位置距離比較遠(yuǎn),氣候差異大,因此煙葉本身的差異也比較大,基于近紅外光譜數(shù)據(jù)可以建立準(zhǔn)確率比較高的產(chǎn)地識(shí)別模型.隨著企業(yè)實(shí)際要求更加嚴(yán)格,生產(chǎn)中越來越關(guān)注同一省內(nèi)不同地級(jí)市煙葉產(chǎn)地的識(shí)別,但由于這些地級(jí)市地理位置比較近,氣候差異小,煙葉本身的差異相應(yīng)地也比較小,僅利用近紅外光譜單一數(shù)據(jù)源建立的地級(jí)市煙葉產(chǎn)地識(shí)別模型準(zhǔn)確率就比較低.可能的原因是近紅外光譜數(shù)據(jù)的信息量不能滿足更精準(zhǔn)的建模要求,或者是對(duì)近紅外數(shù)據(jù)處理的機(jī)器學(xué)習(xí)算法還需改進(jìn)[4].本文嘗試補(bǔ)充更多源的信息數(shù)據(jù),建立對(duì)于地理位置相距比較近的同一省內(nèi)不同地級(jí)市產(chǎn)地的識(shí)別準(zhǔn)確率高的模型.近兩年來,電子鼻(electronic nose,EN)數(shù)據(jù)也被引入到煙草行業(yè)的快速檢測(cè)中,并與近紅外數(shù)據(jù)融合,展現(xiàn)出與近紅外數(shù)據(jù)不同維度的信息內(nèi)容,但相關(guān)研究工作還比較少.王文俊等[5]利用煙葉近紅外光譜和電子鼻融合數(shù)據(jù)建立判別煙葉清香型、中間香型和濃香型3種香型風(fēng)格的模式識(shí)別模型,比單一數(shù)據(jù)模型的準(zhǔn)確率提高超過12%.ZHANG等[6]在煙葉NIR和EN數(shù)據(jù)融合的基礎(chǔ)上,通過遺傳算法選擇出了建模變量,再利用支持向量機(jī)算法建立煙葉年份的分類模型,準(zhǔn)確率提高也超過10%.
為了建立準(zhǔn)確率比較高的同一省內(nèi)不同地級(jí)市煙葉產(chǎn)地的識(shí)別模型,本文嘗試基于煙葉NIR和EN數(shù)據(jù)融合進(jìn)行建模.為此采集了河南省漯河、南陽、平頂山、許昌和駐馬店的煙葉近紅外光譜數(shù)據(jù)和電子鼻數(shù)據(jù),利用兩者融合數(shù)據(jù)建立同一省內(nèi)不同地級(jí)市煙葉產(chǎn)地的模式識(shí)別模型.本研究旨在探索煙葉產(chǎn)地識(shí)別的多維度數(shù)據(jù)分析方法,希望可以為煙草行業(yè)的發(fā)展和質(zhì)量控制提供有力支持.
1 實(shí)驗(yàn)和算法
1.1 數(shù)據(jù)
收集了河南、云南、福建和吉林4個(gè)省份的烤后煙葉共352個(gè),用于建立不同省份產(chǎn)地分類模型,其中云南省煙葉111個(gè),河南省煙葉115個(gè),福建省煙葉91個(gè),吉林省煙葉35個(gè).這352個(gè)煙葉樣本中,上部、中部和下部煙葉樣本數(shù)據(jù)分別為:89、169和94個(gè).河南省的115個(gè)烤后煙葉中,包括漯河27個(gè)樣本、南陽15個(gè)樣本、平頂山25個(gè)樣本、許昌27個(gè)樣本和駐馬店21個(gè)樣本.這115個(gè)煙葉樣本用來研究地級(jí)市產(chǎn)地分類模型,如圖1所示,該5個(gè)地級(jí)市的地理位置非常接近,適合用于同一省份內(nèi)小產(chǎn)地識(shí)別研究.
1.2 近紅外光譜
對(duì)烤后煙葉進(jìn)行研磨后,過60目篩,然后取20 g煙葉粉末放置在內(nèi)徑大小為5 cm的樣品杯中近紅外掃描.實(shí)驗(yàn)使用了Spotlight 400傅立葉變換紅外光譜儀,配置了漫反射積分球附件和DTGS檢測(cè)器,該儀器由英國(guó)PerkinElmer公司生產(chǎn).分辨率:4 cm-1,掃描次數(shù):32次.
1.3 Heracles電子鼻系統(tǒng)
Heracles電子鼻系統(tǒng)是法國(guó)Alpha MOS公司生產(chǎn)的,其與AlphaSoft,IMM-Pro和AroChemBase一起專門設(shè)計(jì)用于幫助行業(yè)和實(shí)驗(yàn)室掌握和改善其產(chǎn)品的嗅覺質(zhì)量.Heracles 電子鼻儀器是一種新型的氣味分析手段,依據(jù)氣相基本原理對(duì)頂空氣體進(jìn)行分析,通過機(jī)器學(xué)習(xí)等數(shù)據(jù)分析方法得到響應(yīng)信息.樣品中的揮發(fā)性化合物可以通過Heracles電子鼻系統(tǒng)精確分離出來,并可以通過Arochembase數(shù)據(jù)庫進(jìn)行定性分析.Heracles電子鼻系統(tǒng)具有分析時(shí)間短、精確度高等特點(diǎn)[7].Heracles電子鼻掃描是在室溫常壓下進(jìn)行,取1 g煙葉粉末進(jìn)行電子鼻掃描,煙葉粉末樣品在孵化器中的加熱震蕩溫度為50 ℃,加熱震蕩時(shí)間選擇10 min.
1.4 算法
1.4.1 偏最小二乘算法(partial least squares,PLS)
本研究中,煙葉近紅外光譜數(shù)據(jù)和電子鼻數(shù)據(jù)都具有高維度特征,即變量特征數(shù)遠(yuǎn)超樣本數(shù)量,通常會(huì)造成維數(shù)災(zāi)難的問題.為此本文采用PLS算法作為降維方法.PLS是一種常用的高維數(shù)據(jù)降維方法,通過建立原始數(shù)據(jù)與目標(biāo)變量之間的線性關(guān)系,將高維數(shù)據(jù)轉(zhuǎn)化為一組低維的潛在變量或因子[8-9].在降維過程中PLS能夠提取與目標(biāo)變量最相關(guān)的數(shù)據(jù)特征,實(shí)現(xiàn)數(shù)據(jù)的降維和壓縮[10-11].
1.4.2 SVM算法
SVM是一種機(jī)器學(xué)習(xí)算法,用于分類和回歸分析,通過構(gòu)建最優(yōu)的超平面來進(jìn)行數(shù)據(jù)分類,具有良好的線性和非線性分類能力.SVM利用核函數(shù)將數(shù)據(jù)映射到高維特征空間,從而處理非線性關(guān)系[12],具有強(qiáng)魯棒性、強(qiáng)泛化能力,并能處理高維和噪聲大數(shù)據(jù)等優(yōu)點(diǎn).其訓(xùn)練過程通過優(yōu)化算法和拉格朗日乘子法來找到最優(yōu)的分離超平面.在預(yù)測(cè)階段,新數(shù)據(jù)點(diǎn)被映射到特征空間并進(jìn)行分類判斷[13-14].
2 結(jié)果與討論
2.1 近紅外光譜和Heracles電子鼻數(shù)據(jù)
圖2是不同省份產(chǎn)地的煙葉近紅外光譜,對(duì)比不同省份產(chǎn)地的煙葉近紅外光譜,云南省煙葉的吸光度信號(hào)明顯更強(qiáng)一些,河南省煙葉的吸光度更弱一些.圖3是河南省內(nèi)部不同產(chǎn)地的煙葉近紅外光譜數(shù)據(jù),對(duì)比河南省內(nèi)不同地級(jí)市煙葉近紅外光譜,吸光度的差異主要體現(xiàn)在波數(shù)4 100~5 000cm-1范圍之間.
掃描得到的Heracles電子鼻數(shù)據(jù)如圖4和圖5所示.圖4是不同省份煙葉Heracles電子鼻數(shù)據(jù),圖5是河南省內(nèi)部不同產(chǎn)地的煙葉Heracles電子鼻數(shù)據(jù).Heracles電子鼻系統(tǒng)的120 s保留時(shí)間內(nèi),每1秒鐘采集數(shù)據(jù)100個(gè),總共采集了12 000個(gè)數(shù)據(jù).利用不同顏色來代表不同省份或河南省內(nèi)不同地區(qū)煙葉樣品的電子鼻數(shù)據(jù),從圖4和圖5可以看出,不同產(chǎn)地?zé)熑~其響應(yīng)值有著比較大的差異.
2.2 模型構(gòu)建與參數(shù)優(yōu)化
本工作的建模流程先采用PLS降維,再做PLS因子個(gè)數(shù)選擇,最后構(gòu)建煙葉產(chǎn)地SVM分類判別模型.建立4個(gè)省份和河南省5個(gè)地級(jí)市產(chǎn)地SVM分類判別模型的區(qū)別在于輸入數(shù)據(jù)和產(chǎn)地信息的不同.輸入數(shù)據(jù)包括近紅外數(shù)據(jù)、電子鼻數(shù)據(jù)、近紅外與電子鼻融合數(shù)據(jù),產(chǎn)地信息包括4個(gè)省份產(chǎn)地與河南省5個(gè)地級(jí)市產(chǎn)地.
以河南省5個(gè)地級(jí)市產(chǎn)地的分類模型及其近紅外光譜數(shù)據(jù)為例來說明本工作的建模流程.將河南省5個(gè)產(chǎn)地的近紅外光譜數(shù)據(jù)進(jìn)行PLS降維,并對(duì)PLS因子個(gè)數(shù)進(jìn)行選擇,選擇標(biāo)準(zhǔn)是SVM分類模型的留一法交叉驗(yàn)證的準(zhǔn)確率.本文沒有利用更常用的PCA降維,而利用PLS降維,主要是因?yàn)镻LS降維過程中應(yīng)用到了目標(biāo)信息,更有利于提高后續(xù)模型的分類準(zhǔn)確率.在PLS因子個(gè)數(shù)選擇的過程中,過少的PLS因子個(gè)數(shù)包含的信息量比較少,可能造成模型的“欠擬合”,導(dǎo)致模型準(zhǔn)確率低.過多的PLS因子個(gè)數(shù)往往會(huì)包含過多的冗余信息,可能造成模型的“過擬合”,導(dǎo)致模型準(zhǔn)確率也比較低.因此選擇PLS因子個(gè)數(shù)時(shí)從8個(gè)開始,20個(gè)結(jié)束.當(dāng)PLS因子個(gè)數(shù)為14時(shí),模型的留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率最高,為98.26%,見圖6所示.留一法內(nèi)部交叉驗(yàn)證的流程大致是這樣的:假設(shè)一個(gè)數(shù)據(jù)集有N個(gè)樣本,將每一個(gè)樣本作為測(cè)試樣本,其他N-1個(gè)樣本作為訓(xùn)練樣本.這樣得到N個(gè)分類器,N個(gè)測(cè)試結(jié)果.用這N個(gè)測(cè)試結(jié)果的平均值來衡量模型的性能.在利用SVM算法建立分類模型時(shí),需要對(duì)算法的參數(shù)進(jìn)行優(yōu)化,其中兩個(gè)重要的參數(shù)是核函數(shù)和懲罰因子.PLS因子個(gè)數(shù)為14,線性核函數(shù)和徑向基核函數(shù)選擇不同的懲罰因子,對(duì)比河南省5個(gè)產(chǎn)地SVM分類模型的留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率.由圖7可見,PLS因子個(gè)數(shù)為14,選取線性核函數(shù),懲罰因子取30時(shí),模型留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率最高,為98.26%.因此可確定河南省5個(gè)地級(jí)市產(chǎn)地的分類模型的PLS因子個(gè)數(shù)為14,SVM模型的核函數(shù)為線性、懲罰因子為30.
2.3 基于單一數(shù)據(jù)源的模型結(jié)果
2.3.1 兩種數(shù)據(jù)源結(jié)果比較
利用2.2節(jié)的建模流程,分別構(gòu)建基于近紅外光譜、電子鼻數(shù)據(jù)的4個(gè)省份產(chǎn)地以及河南省5個(gè)地級(jí)市產(chǎn)地的分類模型,其結(jié)果如表1所示.僅基于近紅外光譜數(shù)據(jù)的4個(gè)省份產(chǎn)地分類模型的建模準(zhǔn)確率與留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率分別為100.00%與98.86%,僅基于電子鼻數(shù)據(jù)的4個(gè)省份產(chǎn)地分類模型的建模準(zhǔn)確率與留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率分別為95.45%與92.33%.由此可以看出:不同省份產(chǎn)地的煙葉差異比較大,僅基于單一數(shù)據(jù)源即可得到準(zhǔn)確率非常高的煙葉產(chǎn)地識(shí)別模型.而對(duì)于河南省內(nèi)部5個(gè)地級(jí)市產(chǎn)地識(shí)別模型,無論是僅基于近紅外光譜數(shù)據(jù),還是僅基于電子鼻數(shù)據(jù),其建模準(zhǔn)確率非常高,但其留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率明顯偏低.這說明僅基于一種數(shù)據(jù)源,獲得煙葉的信息還比較少,模型也存在過擬合現(xiàn)象.
2.3.2 僅基于近紅外光譜數(shù)據(jù)的5個(gè)產(chǎn)地模型留一法結(jié)果
僅基于近紅外光譜數(shù)據(jù)的5個(gè)地級(jí)市產(chǎn)地分類模型的建模準(zhǔn)確率與留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率分別為100.00%與86.96%(表1).相較于省份產(chǎn)地分類模型,地級(jí)市產(chǎn)地模型的留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率下降了11.90%.留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率見表2,115個(gè)樣本中預(yù)報(bào)準(zhǔn)確了100個(gè).其中,漯河的準(zhǔn)確率為96.30%,南陽的準(zhǔn)確率為66.67%,平頂山的準(zhǔn)確率為92.00%,許昌的準(zhǔn)確率為81.48%,駐馬店的準(zhǔn)確率為90.48%.可以看出基于NIR數(shù)據(jù)建立河南省內(nèi)5個(gè)地級(jí)市的產(chǎn)地識(shí)別模型,其留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率還比較低,特別是南陽的準(zhǔn)確率只有66.67%.
2.3.3 僅基于電子鼻數(shù)據(jù)的5個(gè)產(chǎn)地模型留一法結(jié)果
僅基于電子鼻數(shù)據(jù)的5個(gè)地級(jí)市產(chǎn)地分類模型的建模準(zhǔn)確率與留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率分別為99.13%與86.96%(表1).相較于省份產(chǎn)地分類模型,地級(jí)市產(chǎn)地模型的留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率顯著下降了5.37%.在留一法內(nèi)部交叉驗(yàn)證中,電子鼻模型對(duì)于許昌的預(yù)測(cè)準(zhǔn)確率偏低,僅有74.07%(表3).
對(duì)比表2和表3,可以看出,僅基于單一近紅外光譜數(shù)據(jù)模型對(duì)許昌的預(yù)測(cè)準(zhǔn)確率較高,達(dá)到81.48%,但南陽的預(yù)測(cè)準(zhǔn)確率較差,僅為66.67%.僅基于單一電子鼻數(shù)據(jù)模型對(duì)許昌的預(yù)測(cè)準(zhǔn)確率比較低,僅為74.07%,但南陽的準(zhǔn)確率高,為86.67%.這兩個(gè)模型的其他3個(gè)地級(jí)市的準(zhǔn)確率則較為接近.通過對(duì)比近紅外光譜與電子鼻的地級(jí)市分類模型結(jié)果可以看出,近紅外光譜與電子鼻數(shù)據(jù)是從兩個(gè)不同的維度來反映煙葉樣本的信息特征,通過融合兩種維度的數(shù)據(jù),可以為模型提供更多的信息,進(jìn)而增加模型準(zhǔn)確率.
2.4 基于融合數(shù)據(jù)的模型結(jié)果討論
無論是基于單一近紅外光譜數(shù)據(jù)的煙葉產(chǎn)地識(shí)別模型,還是基于單一Heracles電子鼻數(shù)據(jù)的煙葉產(chǎn)地識(shí)別模型,對(duì)于河南、云南、福建和吉林4個(gè)產(chǎn)地可以建立準(zhǔn)確率高的識(shí)別模型.原因是這些不同省份的地理位置距離比較遠(yuǎn),氣候差異大,煙葉本身的差異也比較大,因此模型識(shí)別準(zhǔn)確率高.但對(duì)于河南省內(nèi)部的漯河、南陽、平頂山、許昌和駐馬店5個(gè)地級(jí)市產(chǎn)地,由于地理位置比較近,氣候差異小,煙葉本身的差異也相應(yīng)地比較小,因此模型識(shí)別準(zhǔn)確率低,而且模型出現(xiàn)了過擬合現(xiàn)象.本文對(duì)近紅外光譜數(shù)據(jù)補(bǔ)充了不同維度的Heracles電子鼻數(shù)據(jù),兩類數(shù)據(jù)融合后,增加了更多的數(shù)據(jù)信息,以此建立了河南省內(nèi)5個(gè)地級(jí)市的產(chǎn)地識(shí)別準(zhǔn)確率高的模型.
利用PLS對(duì)煙葉近紅外光譜和Heracles電子鼻融合數(shù)據(jù)進(jìn)行降維,選取前14個(gè)PLS因子,選擇線性核函數(shù),懲罰因子取30,建立了河南省內(nèi)部漯河、南陽、平頂山、許昌和駐馬店的5個(gè)地級(jí)市產(chǎn)地識(shí)別模型(表4),其模型建模準(zhǔn)確率為100%.模型留一法準(zhǔn)確率為98.26%,其中漯河的準(zhǔn)確率為96.30%(表5),南陽的準(zhǔn)確率為100.00%,平頂山的準(zhǔn)確率為100.00%,許昌的準(zhǔn)確率為96.30%,駐馬店的準(zhǔn)確率為100.00%.可以看出基于融合數(shù)據(jù)建立的河南省內(nèi)5個(gè)地級(jí)市的產(chǎn)地識(shí)別模型的準(zhǔn)確率明顯高于僅基于單一近紅外光譜數(shù)據(jù)建立的模型,同樣也高于基于單一Heracles電子鼻數(shù)據(jù)建立的模型,特別是南陽和許昌的識(shí)別率明顯提高.
需要說明的是,本研究受到煙葉樣品收集時(shí)間和地點(diǎn)的影響,收集樣本比較困難,收集到的樣品數(shù)比較少,特別是河南省內(nèi)部5個(gè)地級(jí)市的樣品更少,因此沒有對(duì)數(shù)據(jù)進(jìn)行建模集、驗(yàn)證集和測(cè)試集的劃分,只考察了模型的建模準(zhǔn)確率和留一法內(nèi)部交叉驗(yàn)證準(zhǔn)確率,這些結(jié)果初步驗(yàn)證了基于融合數(shù)據(jù)建立的產(chǎn)地識(shí)別有著更高的準(zhǔn)確率.
3 結(jié) 論
綜合以上實(shí)驗(yàn)結(jié)果可知,僅基于近紅外光譜數(shù)據(jù)或Heracles電子鼻數(shù)據(jù)可有效識(shí)別地理位置較遠(yuǎn)的煙葉產(chǎn)地,但對(duì)地理位置較近的產(chǎn)地其準(zhǔn)確率都相對(duì)較低.Heracles電子鼻數(shù)據(jù)作為煙葉的另一種重要的信息源,可以輔助近紅外光譜數(shù)據(jù)進(jìn)行煙葉產(chǎn)地的識(shí)別.將近紅外光譜數(shù)據(jù)和Heracles電子鼻數(shù)據(jù)進(jìn)行融合,可顯著提高地理位置較近的煙葉產(chǎn)地識(shí)別的準(zhǔn)確率,也消除了模型過擬合問題,可能的原因是不同信息源的數(shù)據(jù)融合后,有效信息明顯增加導(dǎo)致模型準(zhǔn)確率提升.本文探討了多數(shù)據(jù)源綜合利用的策略,用以獲取更多煙葉信息,進(jìn)而建立更準(zhǔn)確的產(chǎn)地識(shí)別模型.這些研究成果在煙葉品種溯源、質(zhì)量監(jiān)測(cè)和市場(chǎng)監(jiān)管等方面具有重要意義,可為煙草行業(yè)的進(jìn)一步發(fā)展和創(chuàng)新提供借鑒.
參 考 文 獻(xiàn)
[1]耿瑩蕊,沈歡超,倪鴻飛,等.近紅外光譜結(jié)合灰狼算法優(yōu)化支持向量機(jī)實(shí)現(xiàn)煙葉產(chǎn)地快速鑒別[J].光譜學(xué)與光譜分析,2022,42(9):2830-2835.
GENG Y R,SHEN H C,NI H F,et al.Support vector machine optimized by near-infrared spectroscopic technique combined with grey wolf optimizer algorithm to realize rapid identification of tobacco origin[J].Spectroscopy and Spectral Analysis,2022,42(9):2830-2835.
[2]魯夢(mèng)瑤,楊凱,宋鵬飛,等.基于卷積神經(jīng)網(wǎng)絡(luò)的煙葉近紅外光譜分類建模方法研究[J].光譜學(xué)與光譜分析,2018,38(12):3724-3728.
LU M Y,YANG K,SONG P F,et al.The study of classification modeling method for near infrared spectroscopy of tobacco leaves based on convolution neural network[J].Spectroscopy and Spectral Analysis,2018,38(12):3724-3728.
[3]束茹欣,孫平,楊凱,等.基于NIR-PCA-SVM聯(lián)用技術(shù)的烤煙煙葉產(chǎn)地模式識(shí)別[J].煙草科技,2011,44(11):50-52.
SHU R X,SUN P,YANG K,et al.NIR-PCA-SVM based pattern recognition of growing area of flue-cured tobacco[J].Tobacco Science & Technology,2011,44(11):50-52.
[4]張浩,劉振,王玲,等.基于近紅外光譜結(jié)合機(jī)器學(xué)習(xí)算法檢測(cè)食用明膠品種溯源的研究[J].河南農(nóng)業(yè)大學(xué)學(xué)報(bào),2021,55(3):460-467.
ZHANG H,LIU Z,WANG L,et al.Determination of edible gelatin origins based on near-infrared spectroscopy coupled with machine learning methods[J].Journal of Henan Agricultural University,2021,55(3):460-467.
[5]王文俊,沙云菲,汪陽忠,等.近紅外和電子鼻數(shù)據(jù)融合識(shí)別不同香型風(fēng)格[J].光譜學(xué)與光譜分析,2023,43(1):133-137.
WANG W J,SHA Y F,WANG Y Z,et al.Discriminating flavor styles via data fusion of NIR and EN[J].Spectroscopy and Spectral Analysis,2023,43(1):133-137.
[6]ZHANG H B,LIU T A,SHU R X,et al.Using EN-NIR with support vector machine for classification of producing year of tobacco[J].Spectroscopy and Spectral Analysis,2018,38(5):1620-1625.
[7]張玖捌,張偉,費(fèi)程浩,等.基于Heracles NEO超快速氣相電子鼻的硫熏白芍快速鑒別研究[J].中國(guó)中藥雜志,2022,47(14):3781-3787.
ZHANG J B,ZHANG W,F(xiàn)EI C H,et al.Rapid identification of raw and sulfur-fumigated Paeoniae Radix Alba based on Heracles NEO ultra-fast gas phase electronic nose[J].China Journal of Chinese Materia Medica,2022,47(14):3781-3787.
[8]鄢悅,張紅光,盧建剛,等.基于光譜信息散度的近紅外光譜局部偏最小二乘建模方法[J].計(jì)算機(jī)與應(yīng)用化學(xué),2017,34(5):351-355.
YAN Y,ZHANG H G,LU J G,et al.Spectral-information-divergence based local pls modeling algorithm in near infrared spectroscopy[J].Computers and Applied Chemistry,2017,34(5):351-355.
[9]趙娟娟,葉順,徐可,等.基于提取不同中紅外光譜特征信息的煙葉部位判別研究[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,49(1):45-49.
ZHAO J J,YE S,XU K,et al.Research on discrimination of tobacco leaf parts based on extracting different information of MIR[J].Journal of Henan Normal University(Natural Science Edition),2021,49(1):45-49.
[10]ZENG Z D,ZHANG B H,ZHAN Y F,et al.Method comparison of sample pretreatment and discovery of differential compositions of natural flavors and fragrances for quality analysis by using chemometric tools[J].Journal of Chromatography B,2023,1222:123690.
[11]WU R X,TIAN Z Z,ZHANG C T,et al.Uniformity evaluation of stem distribution in cut tobacco and single cigarette by near infrared spectroscopy[J].Vibrational Spectroscopy,2022,121:103401.
[12]VAPNIK V N.Statistical learning theory[M].New York:Wiley,1998.
[13]QIN Y H,LIU X P,ZHANG F M,et al.Improved deep residual shrinkage network on near infrared spectroscopy for tobacco qualitative analysis[J].Infrared Physics & Technology,2023,129:104575.
[14]ARIANTI N D,SAPUTRA E,SITORUS A.An automatic generation of pre-processing strategy combined with machine learning multivariate analysis for NIR spectral data[J].Journal of Agriculture and Food Research,2023,13:100625.
Classification of tobacco leave parts based on the fusion of near-infrared
spectroscopy and Heracles electronic nose data
Wang Yangzhong1, Zhang Xin1, Cai Zhenbo1, Huang Wen1, Fei Ting1,
Wu Da1,? Zhang Xufeng2, Meng Xiangzhou2, Shu Ruxin1
(1. Technology Center, Shanghai Tobacco Group Co. , Ltd. , Shanghai 200082, China;
2. College of Environmental Science and Engineering, Tongji University, Shanghai 200092, China)
Abstract: In this study, the tobacco leaf origin identification models were established in four provinces in China(Yunnan, Henan, Fujian, and Jilin)and five prefecture-level cities within Henan Province(Luohe, Nanyang, Pingdingshan, Xuchang, and Zhumadian) by utilizing near-infrared spectroscopy data, Heracles electronic nose data, and a fusion of both datasets. In geographically distant provinces, accurate origin identification models with relatively high precision were successfully constructed by using a single data source. However, in the five closely located cities in Henan Province, where geographical proximity, minimal climate variations, and high tobacco leaf similarity were evident, the accuracy of the origin identification model based on a single information source was comparatively lower. To enhance the accuracy of tobacco origin identification in the five prefecture-level cities in Henan Province, a fusion of near-infrared spectroscopy data and Heracles electronic nose data is performed. The increased information content in the fused dataset significantly improved the identification accuracy in these five origin regions. The Leave-One-Out cross-validation accuracy in these regions was measured at 98.26%, surpassing the 86.96% accuracy of the single-data-source discrimination model before data fusion. This study demonstrates the capability of Heracles electronic nose data to complement near-infrared spectroscopy data across different data dimensions, providing new perspectives for tobacco variety tracing, quality monitoring, and market supervision.
Keywords: near-infrared spectroscopy; Heracles electronic nose; data fusion; support vector machine
[責(zé)任編校 趙曉華 陳留院]