周澤弘,曹淋海,王昌全*,李啟權,李 冰,李 珊(.四川農業大學資源學院,成都 630;.四川省邛崍市國土資源局,四川 邛崍 6500)
?
基于RBF神經網絡建立庫存煙葉香型的預測模型
周澤弘1,曹淋海2,王昌全1*,李啟權1,李 冰1,李 珊1
(1.四川農業大學資源學院,成都 611130;2.四川省邛崍市國土資源局,四川 邛崍 611500)
摘 要:為建立庫存煙葉香型預測模型,采用RBF神經網絡方法,對川渝中煙2009—2011年庫存煙葉樣品的香型特征進行了分析建模。結果表明,不同香型煙葉在化學成分含量上存在差異,清香型煙葉糖含量明顯高于其他香型,氯含量遠低于濃香型;采用主成分分析消除各化學指標共線問題,并建立基于RBF神經網絡的庫存煙葉香型預測模型,其準確率高達90%;靈敏度檢驗表明,清香型煙葉模型靈敏度為最優,中間香型靈敏度較低。證明利用RBF神經網絡可以較好地對煙葉的常規化學成分進行煙葉香型預測。
關鍵詞:庫存煙葉;香型;主成分分析;RBF神經網絡
烤煙香型是煙葉風格特色的重要表征,按照其風格特征可分為清香型、中間香型和濃香型三大類[1]。煙葉化學成分是決定煙葉內在質量及風格特征的重要因素之一,煙葉中主要化學成分及其衍生值在很大程度上決定煙葉及其制品的香型特征[2]。目前烤煙香型與化學成分之間的關系已成為研究熱點,利用煙葉中化學成分對烤煙香型進行預測已有相關文獻報道[3-8],這些研究的特點與存在的問題有:1)相關研究多局限于傳統的數理統計方法,包括簡單相關分析、典型相關分析、多元回歸分析、逐步回歸分析等[3-6],這些方法對于定性分析有較大幫助,但無法直接給出有關烤煙香型的預測和評價結果;2)傳統的預測方法是將所有化學及衍生指標作為自變量輸入,由于各指標間可能存在相關性,簡單地將所有指標簡化或合并會造成有用信息的丟失或重疊,從而影響模型的預測精度;3)已有相關學者采用誤差反向傳播(Back Propagation,BP)神經網絡進行預測建模[7-8],但BP神經網絡存在學習算法收斂速度慢,模型訓練時間長,在訓練過程中易出現過擬合等不足。
針對上述現狀,本文提出了基于徑向基函數(Radial Basis Function,RBF)神經網絡的庫存煙葉香型預測模型。RBF神經網絡在一定程度上克服了BP神經網絡的不足,由于其結構簡單、應用廣泛且對于定性型輸出變量有較高匹配程度等優點被廣泛運用于土壤、生態、地理等領域[9-11]。本研究首先利用主成分分析消除原始輸入層數據的相關性,然后選取對香型有顯著影響的主成分作為RBF神經網絡的輸入,進行烤煙香型的預測,最后通過實例仿真及靈敏度檢驗證明此方法的可行性。
1.1 材料
分析數據來自川渝中煙公司 2009—2011年間的主要庫存煙葉,涵蓋福建、甘肅、廣東、廣西、貴州、河南、黑龍江、湖北、湖南、江西、山西、陜西、四川、云南和重慶15個地區,共計1194份。其中煙葉香型主要包括清香型、清偏中、中偏清、中間香型、中偏濃、濃偏中、濃香型和特殊香型,化學指標包括總植物堿、還原糖、氯、鉀、總糖、總氮、糖堿比、鉀氯比、氮堿比。測定方法參照行業標準 YC/T161、YC/T160、YC/T162、YC/T159進行,化學指標測定及香型鑒定由川渝中煙公司完成。
1.2 方法
1.2.1 RBF神經網絡[9]徑向基函數網絡是一種結構簡單、應用廣泛的前饋神經網絡。其結構包含輸入層、隱含層和輸出層(圖1)。

圖1 徑向基函數神經網絡模型拓撲結構Fig.1 Structure of radial basis function neural network
輸入層單元的輸出等于其輸入。隱含層單元采用徑向基函數作為其輸出特性。通常定義為空間中任一點到某個中心之間的距離的單調函數,其作用是局部的。最常用的徑向基函數是高斯函數,其形式為:

網絡的輸出表達為:

其中wji為隱含層到輸出層的連接權值;i為隱含層節點數;yj為與輸入樣本對應的網絡的第 j個輸出節點的實際輸出。
1.2.2 RBF神經網絡預測的MATLAB實現本文采用徑向基函數神經網絡模型來構建基于煙葉化學指標主成分的烤煙香型識別模型。先將樣本數據進行主成分分析,以主成分得分值為訓練樣本,利用MATLAB 2010b提供的函數newrb對網絡進行訓練,其命令調用格式為:

其中,net為需要建立的神經網絡模型;newrb為MATLAB中徑向基函數神經網絡模型的調用命令;P模型輸入矩陣,文中為化學指標及其派生值的主成分分值;T為目標輸出矩陣,文中為香型;goal為均方誤差函數;spread為擴展常數;mn為隱層的最大神經元個數;df為迭代過程的顯示頻數。
1.3 靈敏度評價
本文采用平均絕對誤差、誤差均方根和平均相對誤差三項指標來評價RBF神經網絡模型預測的靈敏度[11],其計算公式如下:

1.4 數據統計分析
采用 SPSS19.0軟件對樣本數據進行簡單統計及主成分分析,采用MATLAB 2010b進行RBF神經網絡模型的訓練及檢驗。
2.1 不同香型煙葉化學指標的統計特征分析
由表1可知,不同香型煙葉在化學成分含量有一定差異,清香型煙葉在糖含量尤其是還原糖含量明顯高于其他香型,氯含量遠遠低于濃香型,鉀和總氮含量則略低于中間香型和濃香型。隨著香型由清香到濃香,糖含量呈現明顯下降的趨勢,氯含量呈現明顯上升趨勢。不同香型的煙葉在總植物堿含量上不存在顯著差異(p=0.812),在氮堿比上表現為顯著差異(p<0.05),在其余7個指標上均存在極顯著差異(p<0.01)。
2.2 煙葉化學指標的主成分分析
為消除各化學指標間共線問題,采用主成分分析提取主成分信息(表2)。結果表明,前3個主成分可揭示原變量86.07%的數據方差,前5個主成分則可以反映95.30%的方差。盡管第六至第九主成分的貢獻率不大,但考慮到煙葉評吸質量可能存在的隱性因子,分析中只消除共線問題而不剔除任何主成分。由表2可以看出,第1主成分在堿和糖相關指標上有較大載荷,第2主成分在鉀上有較大載荷,第3主成分在氯相關指標上有較大載荷,第4主成分在氮相關指標上有較大載荷,第5主成分反映由鉀氮組合反應的信息,第6主成分反映由氯鉀組合反應的信息,第7主成分反映植物堿的信息,第8主成分反映由糖堿組合反應的信息,第9主成分反映兩糖的信息。

表1 不同香型煙葉的化學指標統計平均值及方差分析Table 1 The average values, statistics analysis and variance of chemical indices in different flavor types of tobacco
通過主成分分析得到的9個無相關性的綜合指標模型為:

其中,x1~x9分別表示總植物堿,還原糖,氯,鉀,總糖,總氮,糖堿比,鉀氯比,氮堿比。

表2 煙葉化學指標的主成分分析Table 2 Principal component analysis results of chemical indices of tobacco leaf
2.3 不同香型煙葉化學指標主成分的方差分析
根據公式(*)計算出不同香型煙葉化學指標在9個主成分上的得分值,求其均值并進行方差分析(表3)。結果表明,不同香型間煙葉化學指標主成分得分值除在第8主成分上不顯著外,在其余得分值上差異極顯著。清香型在第1、4、5主成分上的得分值總體上高于其他香型,在第 2、3、7、9主成分上的得分值則低于其他香型。在第6主成分上,清香型和濃香型的得分相同并高于中間香型。

表3 不同香型煙葉化學指標主成分平均值及方差分析Table 3 Principal component analysis of the chemical indices of different tobacco flavors the average value and variance
2.4 不同香型煙葉識別結果及驗證
2.4.1 樣本數據整理及RBF建模 將評吸結果中3種典型的香型:清香型、中間香型和濃香型選出進行識別。考慮到數據質量,以主成分均值加減2倍標準差對數據進行篩選,其獲得333個有效數據。隨機抽取60個作為驗證樣,其余則作為訓練樣點。以對3種香型有顯著差異的主成分為輸入層,輸出層包含3個節點,對應3種香型。如果某個煙樣符合清香型,則第1個輸出節點為1,其余2個節點輸出值為 0;如果某個煙樣符合中間香型,則第 2個輸出節點為1,其余2個節點輸出值為0;以此類推。網絡訓練時,設置goal為0.001,經過仿真試驗,當spread取0.25時,RBF神經網絡逼近效果最優。
2.4.2 識別結果分析 預測結果表明(表 4),60個驗證點中有 54個的預測類型與評吸結果一致,有 6個樣品識別結果與評吸結果不同,錯誤率為10%。3種香型中,清香型中有2個識別錯誤,錯誤率為8.33%;中間香型有3個識別錯誤,錯誤率為15%;而濃香型有1個識別錯誤,錯誤率為6.25%。理論上,該方法可以以0誤差逼近任意函數,在保證數據質量的情況下,模型的識別精度還可以進一步提高。
2.4.3 模型靈敏度檢驗 以不同香型 RBF神經網絡模型輸出節點值為預測值,以實際節點值為實際值,計算不同香型預測結果的平均絕對誤差、誤差均方根和平均相對誤差(表5)。結果表明,3種香型RBF模型預測結果的平均絕對誤差、誤差均方根和平均相對誤差相對較小,模型靈敏度較高。其中,清香型煙葉模型靈敏度為最優,而中間香型靈敏度較低。在煙葉評吸過程中,考慮到評吸人員對區分清、濃香型煙葉較中間香型更為準確,因此,RBF神經網絡模型的靈敏度結果與實際評吸結果一致。

表4 驗證煙葉香型的識別結果Table 4 Verification of tobacco flavor recognition results

表5 RBF神經網絡預測模型靈敏度檢驗Table 5 Sensitivity test of RBF neural network model
研究表明,利用煙葉化學及其衍生指標預測煙葉香型是可行的。但是,由于煙葉香型為定性變量,常規的統計及分析方法在烤煙香型的預測及評價中存在一定的限制[3-5]。目前,更多的非線性、判別及匹配模型被運用于煙葉香型識別[12-14],申欽鵬等[12]采用7種不同方法建立基于煙葉化學數據的烤煙香型分類模型,并從中篩選出最優模型;王鵬澤等[13]引入因子、聚類及判別分析,對河南 31個產煙縣的169個煙葉樣品的風格特征指標進行了分析。較傳統方法而言,這類模型在煙葉香型識別中準確率較高,所得結果更為客觀。RBF神經網絡其本身是一個非線性模型,具有模式識別的特點[10],因此,可運用 RBF神經網絡進行煙葉香型識別模型的建立。
本研究表明,不同香型煙葉在化學成分含量上存在差異,清香型煙葉糖含量明顯高于濃香型,氯含量明顯低于濃香型,這與竇玉青等[15]、席元肖等[16]研究結果一致,但差異大小有所不同,這與本研究數據取自全國煙區有關,有研究表明,不同生態區相同香型煙葉化學成分存在著一定差異[17-19]。
本研究表明,利用RBF神經網絡建立庫存煙葉香型的預測模型是可行的,在建模過程中,由于各化學指標間存在著共線問題,在輸入變量時應消除其影響。另外,煙葉香型取決于其化學成分和煙氣成分等多種因素,同時,煙葉的產地[19]、氣候[20]、品種[21]等屬性也會影響其差異,因此,未來在模型深度優化過程中,應該將多種因素作為輸入層進行煙葉香型預測。
以川渝中煙2009—2011年庫存煙葉為研究對象,對各化學指標進行主成分分析提取9個不共線性因子,以對煙葉香型有顯著影響的主成分分值為輸入變量,利用newrb函數進行RBF神經網絡建模,并進行仿真預測,準確率高達90%,且模型靈敏度較高,這說明基于RBF神經網絡的煙葉香型預測較為客觀。
參考文獻
[1] 唐遠駒.關于烤煙香型問題的探討[J].中國煙草科學,2011,32(3):1-7.
[2] 白茂軍,鄧小華.濃香型和清香型烤煙主產區中部煙葉彰顯度與主要化學成分的關系研究[J].作物研究,2015,29(3):267-271,276.
[3] 孟霖,代遠剛,王程棟,等.中間香型烤煙葉片質量指標間的典型相關分析[J].江蘇農業科學,2015,43(3):261-264.
[4] 吳有祥,王玉平,楊佳玫,等.清香型煙葉的感官品質風格特征及主要化學成分[J].貴州農業科學,2014,43(1):40-44.
[5] 夏玉珍,王毅,牟定榮,等.福建和云南烤煙香韻風格特征差異與化學成分的關系[J].煙草科技,2015,48 (6):68-72.
[6] 曹仕明,高遠峰,曹勤華,等.湖北典型生態區烤煙質量風格特征及其影響因子分析[J].中國煙草科學,2015,36(1):14-18.
[7] 彭黔榮,蔡元青,王東山,等.根據常規化學指標識別煙葉品質的 BP神經網絡模型[J].中國煙草學報,2005,11(5):19-25.
[8] 邵惠芳,許自成,李東亮,等.基于BP神經網絡建立烤煙感官質量的預測模型[J].中國煙草學報,2011,17(1):19-25.
[9] 陳飛香,程家昌,胡月明,等.基于 RBF神經網絡的土壤鉻含量空間預測[J].地理科學,2013,33(1):69-74.
[10]王芹芹,雷曉云,高凡.基于主成分分析和 RBF神經網絡的融雪期積雪深度模擬[J].干旱區資源與環境,2014,28(2):175-179.
[11]陳昌華,譚俊,尹健康,等.基于PCA-RBF神經網絡的煙田土壤水分預測[J].農業工程學報,2010,26(8):85-90.
[12]申欽鵬,張霞,張濤,等.基于煙葉化學成分烤煙香型分類模型的建立[J].湖北農業科學,2015,54(5):1220-1226.
[13]王鵬澤,劉鵬飛,來苗,等.因子、聚類及判別分析在煙葉風格特色評價中的應用[J].中國煙草科學,2015,36(2):20-25.
[14]李偉,鄧小華,周清明,等.基于模糊數學和GIS的湖南濃香型烤煙化學成分綜合評價[J].核農學報,2015,29(5):946-953.
[15]竇玉青,湯朝起,王平,等.閩西、贛中不同香型烤煙主要化學成分對吸食品質的影響[J].煙草科技,2009 (11):15-20.
[16]席元肖,魏春陽,宋紀真,等.不同香型烤煙化學成分含量的差異[J].煙草科技,2011(5):29-33,65.
[17]李章海,王能如,王東勝,等.不同生態尺度煙區烤煙香型風格的初步研究[J].中國煙草科學,2009,30(5):67-70,76.
[18]李玲燕,徐宜民,劉百戰,等.不同生態區域烤煙煙葉香氣物質分析[J].中國煙草科學,2015,36(3):1-7.
[19]曹學鴻,申國明,向德恩,等.恩施煙區不同香型煙葉區域分布與品質特征分析[J].中國煙草科學,2012,33(4):17-21.
[20]黎妍妍,王林,李錫宏,等.金神農煙區氣候特征及其對煙葉品質的影響[J].中國煙草科學,2015,36(3):13-18.
[21]張霞,張濤,段沅杏,等.烤煙香型與產區及品種的關系研究[J].煙草科技,2015,48(2):37-42.
The Establishment of Prediction Model of Inventory Tobacco Flavor Based on RBF Neural Network
ZHOU Zehong1, CAO Linhai2, WANG Changquan1*, LI Qiquan1, LI Bing1, LI Shan1
(1.College of Resource, Sichuan Agricultural University, Chengdu 611130, China; 2.Land Resources Bureau of Qionglai City,Qionglai, Sichuan 611500, China)
Abstract:In order to establish the prediction model of inventory tobacco flavor, the authors analyze the samples of 2009-2011 inventory tobacco in China Tobacco Chuanyu Industrial Co., Ltd.by using the RBF neural network method.The results showed that there was difference of the content of chemical components between different tobacco flavors, sugar content in clean aroma type tobacco was significantly higher than the others, and chlorine content in clean aroma type tobacco was much lower than that of full-bodied type.The authors used principal component analysis to eliminate the chemical indicator collinear problem, and established prediction models based on RBF neural network of inventory tobacco flavor.The accuracy rate of the models was up to 90%.The sensitivity test showed that the clean aroma type tobacco model had the best sensitivity, the moderate type showed a lower sensitivity.Tobacco flavor can be predicted based on chemical components using the RBF neural network.
Keywords:inventory tobacco; flavor; principal component analysis; RBF neural network
中圖分類號:TS41+1
文章編號:1007-5119(2016)02-0065-06
DOI:10.13496/j.issn.1007-5119.2016.02.012
基金項目:四川省煙草公司重點項目“基于3S技術的四川煙區生態環境要素時空特征提取及應用”(SCYC201402006);四川省煙草公司重點項目“四川植煙土壤質量監測評價及退化阻控技術研究”(201202005);川渝中煙工業有限責任公司重點項目“公司煙葉原料品質數據庫建設與應用研究”(12097)
作者簡介:周澤弘(1991-),男,碩士研究生,主要研究方向為土壤與環境質量可持續。E-mail:pyfzzh@163.com*通信作者,E-mail:w.changquan@163.com
收稿日期:2015-09-22 修回日期:2015-11-19