翟擎辰,周園春,宋秋成,王建偉,孟珍*,張艷玲*
1.中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190
2.中國煙草總公司鄭州煙草研究院,河南 鄭州 450001
3.中國科學(xué)院大學(xué),北京 100049
數(shù)據(jù)與計(jì)算技術(shù)飛速發(fā)展,不僅在科學(xué)研究中起到輔助與支撐的作用,而且可以依靠其自身的邏輯方法,驅(qū)動甚至引領(lǐng)科學(xué)研究活動[1]。煙草行業(yè)內(nèi)的工業(yè)需求的快速擴(kuò)張,對傳統(tǒng)的煙葉質(zhì)量的認(rèn)知模式也帶來了很大的挑戰(zhàn)。僅依靠經(jīng)驗(yàn)主觀判斷的方法如人工抽吸法與化學(xué)分析法,來完成對煙葉質(zhì)量的判別與評價(jià)已經(jīng)無法滿足產(chǎn)品質(zhì)量穩(wěn)定性的需求。機(jī)器學(xué)習(xí)時代的來臨實(shí)現(xiàn)了很多技術(shù)上的應(yīng)用[2]。通過對以往歷史數(shù)據(jù)的挖掘模擬,建立智能替代模型和交互分析應(yīng)用,采用客觀數(shù)據(jù)作為輔助來配方評價(jià)和煙葉替代,對提高卷煙質(zhì)量穩(wěn)定性有重要意義。因此機(jī)器學(xué)習(xí)方法成為挖掘煙葉原料內(nèi)在特征、發(fā)現(xiàn)煙葉產(chǎn)地外在關(guān)聯(lián)、尋找煙葉分類特點(diǎn)的一種重要的科學(xué)手段。這也是目前輔助技術(shù)人員快速尋找缺失原料替代產(chǎn)地的一種重要方法[3]。
標(biāo)準(zhǔn)化的數(shù)據(jù)集是人工智能算法開展大規(guī)模訓(xùn)練和提升準(zhǔn)確率的重要要素[4]。煙葉質(zhì)量數(shù)據(jù)中包括物理屬性、化學(xué)屬性、感官質(zhì)量、葉身外觀等多種指標(biāo)[5],有的數(shù)據(jù)源可以到達(dá)幾十維甚至上百維。這種情況下,屬性指標(biāo)的選擇和降維以及距離度量的構(gòu)建就成了影響相似性度量和煙葉分類結(jié)果的關(guān)鍵[6]。僅僅依靠人工經(jīng)驗(yàn)篩選輸入指標(biāo),結(jié)果會喪失客觀性且不能體現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性;而在使用數(shù)據(jù)降維算法時,所降維的數(shù)據(jù)在高維空間中的分布狀態(tài)將對降維算法的準(zhǔn)確性產(chǎn)生影響。數(shù)據(jù)分布狀態(tài)未知時,采用主成分分析法進(jìn)行降維可能出現(xiàn)原始樣本間距離結(jié)構(gòu)、拓?fù)浣Y(jié)構(gòu)發(fā)生改變等諸多問題,導(dǎo)致相似性度量結(jié)果不準(zhǔn)確[7]。
面對上述問題,文章在數(shù)據(jù)降維時采用方差權(quán)重法、主成分分析法及局部線性嵌入法三種方法進(jìn)行特征篩選與降維。方差權(quán)重法可以對相似性度量及聚類指導(dǎo)性較高的屬性進(jìn)行篩選。主成分分析法與局部線性嵌入法進(jìn)行降維針對數(shù)據(jù)在高維空間的分布結(jié)構(gòu),以線性與非線性兩種方式進(jìn)行降維。通過比較三種方法的篩選和降維后的數(shù)據(jù)的聚類效果,文章對特征篩選與降維方法進(jìn)行分析,將優(yōu)勝的篩選或降維后的數(shù)據(jù)通過加權(quán)歐氏距離進(jìn)行相似性度量,以克服工業(yè)數(shù)據(jù)中不同屬性的指導(dǎo)性不同的問題,并通過K-means 算法對煙葉進(jìn)行聚類及分析。
文章以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),為完善煙葉質(zhì)量評價(jià)體系、提升煙葉感官品質(zhì)提供理論基礎(chǔ),為研究煙葉質(zhì)量智能評吸算法逐步替代人工抽吸評價(jià)提供算法基礎(chǔ),在煙草工業(yè)應(yīng)用中有較高的參考價(jià)值。
文章數(shù)據(jù)源采用中國煙草總公司鄭州煙草研究院的2004年至2017年湖南、云南、湖北、安徽、福建等22 個省208 個縣區(qū)5 314 個烤煙煙葉樣品數(shù)據(jù),其品質(zhì)屬性指標(biāo)包括:物理化學(xué)屬性如總植物堿、還原糖、總糖、總氮、鉀、揮發(fā)酸、淀粉等28 項(xiàng),感官指標(biāo)包括香氣質(zhì)、香氣量、雜氣、刺激、勁頭、濃度、余味等7 項(xiàng)指標(biāo),以及葉身外觀的長度、厚度、顏色、重量等7 項(xiàng)指標(biāo)。
文章對源數(shù)據(jù)進(jìn)行歸一化預(yù)處理:

其中xmax為樣本數(shù)據(jù)的最大值,xmin為樣本數(shù)據(jù)的最小值,x*為原數(shù)據(jù)在[0,1]之間的線性映射。
原始數(shù)據(jù)在高維空間中的結(jié)構(gòu)特征尚未明確,采用單一的降維方法不利于特征的選擇。文章采用方差權(quán)重法、主成分分析法、局部線性嵌入法三種核心思想不同的算法對煙葉原始數(shù)據(jù)進(jìn)行降維。使線性與非線性結(jié)構(gòu)分布的數(shù)據(jù)在實(shí)驗(yàn)中都盡可能保持在高維空間下的原有拓?fù)浣Y(jié)構(gòu)映射[8],并且方差權(quán)重法可以對煙葉質(zhì)量具有指導(dǎo)性強(qiáng)的屬性進(jìn)行篩選。文章通過降維后數(shù)據(jù)的Kmeans 聚類效果對三種特征選擇與降維方法在煙葉數(shù)據(jù)集上的適用性進(jìn)行比較。
本文的方法有效避免了數(shù)據(jù)在高維空間中分布未知的情況下造成的“距離度量失效”的問題,并且保證了輸入指標(biāo)選擇的客觀性。
2.2.1 方差權(quán)重法
方差權(quán)重法是通過特征本身的方差來篩選特征的算法。當(dāng)一個特征本身的方差很小,表明樣本在此特征上基本沒有差異。這種情況下該特征對于樣本區(qū)分作用較小。當(dāng)一個特征分布發(fā)散,則代表特征的方差大,能夠根據(jù)取值的差異化度量目標(biāo)信息[9]。故文章通過對于每個特征進(jìn)行方差計(jì)算,設(shè)定閾值或者待選擇閾值的個數(shù)選擇特征,優(yōu)先選取與目標(biāo)高度相關(guān)性的指標(biāo)。
在煙葉的特征對其聚類與相似性度量未知的情況下,文章通過方差權(quán)重法對特征進(jìn)行篩選會有更強(qiáng)的可解釋性。
2.2.2 主成分分析法
主成分分析法(PCA)將輸入數(shù)據(jù)構(gòu)成協(xié)方差矩陣,并以特征分解的方式對數(shù)據(jù)進(jìn)行優(yōu)化,得到數(shù)據(jù)的特征向量與特征值。其中特征向量為數(shù)據(jù)的主成分,特征值為這些數(shù)據(jù)的權(quán)重值[10]。
2.2.3 局部線性嵌入法
局部線性嵌入算法(LLE)基于數(shù)據(jù)在高維空間滿足流形分布為假設(shè),將其映射至低維空間時也將保持其流形結(jié)構(gòu)不變化[11]。其步驟主要分為三步:(1)得到樣本的k鄰近點(diǎn);(2)通過樣本點(diǎn)的鄰近點(diǎn)計(jì)算出該樣本點(diǎn)的局部重建權(quán)值矩陣;(3)由樣本點(diǎn)的局部重建權(quán)值矩陣與其相應(yīng)的鄰近點(diǎn)可計(jì)算出輸出值[12]。
上述三種方法得到的輸入值分別是特征選擇后的四種屬性、PCA 降維后的屬性因子及LLE 降維后的屬性因子。將這三種方法得到的因子與屬性分別作為輸入對樣本進(jìn)行K-means 聚類,通過比較聚類輪廓系數(shù),對三種方法在文章數(shù)據(jù)集上的適用性進(jìn)行判斷,從而確定分類輸入指標(biāo)或?qū)傩浴?/p>
文章煙葉產(chǎn)地以縣區(qū)為基本單位對煙葉質(zhì)量的相似性進(jìn)行分析。基于加權(quán)的歐式距離公式對產(chǎn)地間的相似性進(jìn)行度量。
定義樣本矩陣X:

其中xik表示第i個樣本的第k個指標(biāo)數(shù)據(jù),原料樣本質(zhì)量數(shù)據(jù)可包括理化屬性、感官質(zhì)量及外觀指標(biāo)等。
定義Dij為兩個樣本間的相似度:

其中n為所輸入特征的維度,w為權(quán)重。
定義距離矩陣M,其中m為縣區(qū)總數(shù)量,該矩陣中每一個D值由上文中距離公式所求得:

該矩陣即含括了所有縣區(qū)之間的距離,且該矩陣每一行最小的距離即為該行所對應(yīng)的縣區(qū)與其最相近的產(chǎn)地。當(dāng)樣本集中某個樣本xi需要用另一個樣本作為替代時,可以從距離矩陣M中尋找與樣本xi最短距離的點(diǎn)即最鄰近樣本點(diǎn)集合B。
文章采用K-Means 聚類對煙葉質(zhì)量進(jìn)行聚類并對聚類結(jié)果進(jìn)行分析。
對于聚類簇?cái)?shù)即k值的選取,將通過輪廓系數(shù)作為評價(jià)指標(biāo)。輪廓系數(shù)表達(dá)式如下:

其中b(i)與a(i)分別是簇間與簇內(nèi)樣本點(diǎn)間距離。當(dāng)輪廓系數(shù)S越接近1 時,則聚類輪廓的表達(dá)越優(yōu)異。
3.1.1 方差權(quán)重特征選擇煙葉作為一種農(nóng)產(chǎn)品,其質(zhì)量特征可以看作內(nèi)在理化屬性的外在表現(xiàn)。故本文采用理化屬性作為衡量煙葉分類與相似性的輸入指標(biāo)。輸入指標(biāo)通過方差權(quán)重法進(jìn)行篩選得到本次實(shí)驗(yàn)中相近煙葉查找的關(guān)鍵指標(biāo)為:總植物堿、還原糖、含梗率、鉀。其歸一化后權(quán)重系數(shù)取值分別近似取值 1.0、0.5、1.0、0.8。
3.1.2 PCA 及LLE 降維
使用主成分分析法將總植物堿、還原糖、總糖、總氮、鉀、淀粉、含梗率、單葉重、葉面密度多個屬性降至四維。其降維篩選過程如下表。

表1 PCA 篩選過程Table 1 PCA screening process
由上表可以發(fā)現(xiàn),主成分分析法分解所得到的前6 個特征根所代表的主成分累計(jì)方差貢獻(xiàn)率達(dá)到79.989 %,可以涵蓋數(shù)據(jù)源中大部分的信息。若要保留更多信息,則會保留9 維以上的維度,喪失了降維的初衷,故文章采用PCA 將數(shù)據(jù)降至6 維。
由于LLE 降維的維數(shù)選取基于高維空間的本征維數(shù),維數(shù)過高會導(dǎo)致數(shù)據(jù)中含有過多噪聲,維數(shù)過低會導(dǎo)致數(shù)據(jù)集在低維空間映射會彼此交疊。文章基于已有的特征篩選結(jié)果對維度數(shù)做出判斷,通過LLE 算法將原數(shù)據(jù)集降至與特征篩選相同的維度數(shù)目(4 維)。
3.1.3 特征篩選及降維方法比較
為對比降維的效果,文章對未降維的數(shù)據(jù)進(jìn)行K-means 聚類的輪廓系數(shù)如圖1 所示。

圖1 輪廓系數(shù)(未降維)Fig.1 Silhouette coefficient(unreduced)
圖1 表明數(shù)據(jù)未降維時聚類在簇?cái)?shù)為2 時輪廓系數(shù)最佳,但數(shù)值仍未超過0.5,故文章存在對數(shù)據(jù)進(jìn)行特征選擇和降維的必要。
文章將方差權(quán)重?cái)?shù)據(jù)集(4 維)、PCA 變換數(shù)據(jù)集(6 維)及LLE 變換數(shù)據(jù)集(4 維)在K-means聚類后計(jì)算其輪廓系數(shù)。結(jié)果如圖2 所示。
由圖2 可知,PCA 及LLE 兩種方法所得到的數(shù)據(jù)在簇?cái)?shù)目分別為3 和4 時有最高的輪廓系數(shù)值0.544 和0.548。方差權(quán)重法篩選所得的數(shù)據(jù)在簇?cái)?shù)目為4 時有最高的輪廓系數(shù)值0.632。

圖2 輪廓系數(shù)(降維后)Fig.2 Silhouette coefficient (reduced)
雖然方差權(quán)重計(jì)算性上相對簡單,但PCA 與LLE 也存在一定的不足,可能是導(dǎo)致降維效果較差的原因之一。PCA 可能會將特征向量集合作為整體進(jìn)行處理,以尋找均方誤差最小意義下的最優(yōu)線性映射投影,但這種情況下忽視所投影方向可能剛好包含重要可分性信息。而LLE 降維對數(shù)據(jù)分布要求較高,對非流行分布的數(shù)據(jù)可能效果相對較差,可能對文章所用數(shù)據(jù)集也不夠契合,并且文章所使用的數(shù)據(jù)集維度及樣本量相對較小。這種情況下,采用特征的方差對重要特征進(jìn)行篩選,反而存在所得到的特征更有代表性且特征間的分離度會更好的可能性。
綜上多種原因,方差權(quán)重法在此煙葉數(shù)據(jù)集上降維的效果更為優(yōu)異,且篩選所得的總植物堿、還原糖、含梗率、鉀四個指標(biāo)對于煙葉聚類有一定的指導(dǎo)作用。
而對比PCA 及LLE 兩種降維方法所得到的結(jié)果可以發(fā)現(xiàn),LLE 降維所得到的結(jié)果相較于PCA 降維所得到的結(jié)果隨著簇?cái)?shù)目增加,普遍有更好的表現(xiàn)。一定程度上可以反應(yīng),對于煙葉數(shù)據(jù)集,非線性降維相較于線性降維可能更能保持煙葉數(shù)據(jù)在高維空間的原始拓?fù)浣Y(jié)構(gòu)。局部線性嵌入法對煙葉領(lǐng)域數(shù)據(jù)適應(yīng)性更強(qiáng)。
圖2 表明,以特征選擇所篩選的四個屬性作為輸入的情況下,簇?cái)?shù)目為4 聚類效果最好。

表2 四類煙葉的代表指標(biāo)的平均值Table 2 Average value of representative indicators of four types of tobacco leaves
在簇?cái)?shù)目為4 時K-means 聚類結(jié)果如表2 所示。類別1 含123 個縣區(qū),煙葉質(zhì)量主要特征是還原糖、含梗率、鉀均相對較高,代表性產(chǎn)區(qū)有安龍縣、賓川縣等;類別3 含51 個縣區(qū),煙葉質(zhì)量主要特征是含梗率、總植物堿和鉀含量均明顯較高,代表性產(chǎn)區(qū)有保康縣、昌寧縣、楚雄市等;類別4 煙葉質(zhì)量主要特征為含梗率和鉀含量相對較低,代表性產(chǎn)區(qū)有寶豐、郟縣等;類別2 煙葉總植物堿、鉀含量和含梗率均明顯較低,還原糖含量明顯較高,代表性產(chǎn)區(qū)有賓縣、大安市、富錦等。
選取總植物堿、還原糖、含梗率、鉀作為加權(quán)歐氏距離的輸入指標(biāo),得到最鄰近距離矩陣并將其以網(wǎng)絡(luò)圖的形式進(jìn)行可視化結(jié)果如圖3。
文章以濃香型典型產(chǎn)區(qū)襄城縣為例對相似性度量結(jié)果的準(zhǔn)確性進(jìn)行驗(yàn)證。文章將與襄城縣最相似的五個煙葉產(chǎn)地(譙城區(qū)、郟縣、徽縣、臨朐縣、泌陽縣)分別從香氣質(zhì)、香氣量、濃度、總植物堿、還原糖、鉀六個維度進(jìn)行比較。各產(chǎn)地屬性的雷達(dá)圖見圖4 所示。通過比較六個產(chǎn)地的雷達(dá)圖發(fā)現(xiàn),文章所得結(jié)果的產(chǎn)地間屬性輪廓較為相似。
為從煙草業(yè)內(nèi)角度對結(jié)果進(jìn)行驗(yàn)證,文章采用指紋圖譜技術(shù)取得的研究成果與本文進(jìn)行比對(唐徐紅等應(yīng)用煙葉指紋圖譜聚類對云南省的十五個不同的煙葉產(chǎn)區(qū)進(jìn)行的研究[13])。

圖3 縣區(qū)相似性關(guān)聯(lián)圖Fig.3 County similarity association graph
文章與唐徐紅等研究結(jié)果中所共同涉及的產(chǎn)地為麒麟?yún)^(qū)、宣威縣、羅平縣。唐徐紅等的研究結(jié)果表明,基于煙葉指紋圖譜聚類時,宣威市與羅平縣處于同一簇;基于產(chǎn)區(qū)特點(diǎn)分類時,羅平縣與麒麟?yún)^(qū)處在同一產(chǎn)區(qū)類別;結(jié)合上述兩點(diǎn),宣威市、羅平縣、麒麟?yún)^(qū)在指紋圖譜技術(shù)下表現(xiàn)為質(zhì)量相近的煙葉產(chǎn)地。與本文表3 中的結(jié)果趨于一致。

表3 最鄰近產(chǎn)地Table 3 Nearest origin
故實(shí)驗(yàn)結(jié)果表明,文章的相似性度量結(jié)果與行業(yè)內(nèi)專家對特定產(chǎn)區(qū)相似性分析的判定相互驗(yàn)證。文章相似性度量的結(jié)論及算法對煙草企業(yè)進(jìn)行產(chǎn)地替代、配方維護(hù)、煙葉種植區(qū)規(guī)劃有一定的指導(dǎo)作用。

圖4 襄城縣與最相近的五個縣區(qū)雷達(dá)圖Fig.4 Radar map of Xiangcheng County and the five closest counties
針對實(shí)驗(yàn)結(jié)果及分析,文章從三個方面進(jìn)行總結(jié)。
對降維算法研究而言。在煙葉數(shù)據(jù)集上,局部線性嵌入法降維后的結(jié)果相較于主成分分析法更能體現(xiàn)煙葉數(shù)據(jù)集在高維空間中的非線性特征,使其在低維空間映射后能更大程度地保持其分布的拓?fù)浣Y(jié)構(gòu),故局部線性嵌入法更為適合于應(yīng)用在煙葉數(shù)據(jù)集上。而文章采用方差權(quán)重法所篩選出的四個特征相較于兩種降維算法也更為優(yōu)異。基于實(shí)驗(yàn)分析可以發(fā)現(xiàn)總植物堿、還原糖、鉀、含梗率四個指標(biāo)對于煙葉聚類與相似度分析有一定指導(dǎo)作用。
對煙葉聚類而言。文章基于K-means 聚類算法,使用總植物堿、還原糖、鉀、含梗率作為輸入特征進(jìn)行聚類。通過聚類結(jié)果分析發(fā)現(xiàn),煙葉產(chǎn)地分為四類時是最理想的結(jié)果并得到四類煙葉產(chǎn)地所產(chǎn)煙葉的理化指標(biāo)特點(diǎn)及代表性縣區(qū)。
對樣本集相似性度量而言。本文以總植物堿、還原糖、鉀、含梗率作為輸入指標(biāo),通過加權(quán)歐氏距離進(jìn)行相似性度量,所得結(jié)果與業(yè)內(nèi)專家通過指紋圖譜技術(shù)所得結(jié)果間相互驗(yàn)證。表明文章所構(gòu)建的煙葉相似度計(jì)算算法對卷煙配方替代工作有重要意義。
總體而言,本文構(gòu)建針對煙葉分類與相似度計(jì)算的組合算法庫能夠通過對以往歷史數(shù)據(jù)的挖掘模擬,建立智能替代模型來作為輔助煙葉配方評價(jià)和煙葉替代的方法,對提高卷煙質(zhì)量穩(wěn)定性有重要意義。
當(dāng)然,數(shù)據(jù)挖掘技術(shù)在煙葉聚類與相似性度量領(lǐng)域的應(yīng)用尚處于起步階段,對煙葉質(zhì)量的評價(jià)指標(biāo)還缺乏統(tǒng)一和規(guī)范的計(jì)算方法,這對于數(shù)據(jù)挖掘技術(shù)在煙草業(yè)內(nèi)的實(shí)際應(yīng)用構(gòu)成了一定的障礙。保留原始特征信息、過濾無用信息、構(gòu)建距離度量都是數(shù)據(jù)挖掘在煙葉應(yīng)用領(lǐng)域的難點(diǎn)。目前在未對煙葉按風(fēng)格及年份進(jìn)行標(biāo)簽的情況下所得到的結(jié)果精確度依然有待提高,通過基于區(qū)分典型區(qū)域或典型風(fēng)格的條件下,將樣本數(shù)據(jù)集帶上年份標(biāo)簽進(jìn)行研究可能使精確度有一定程度上的提高,這也為后續(xù)卷煙配方替代的研究工作提供了一個新的研究方向及目標(biāo)。
利益沖突聲明所有作者聲明不存在利益沖突關(guān)系。