張 瑞 丁香乾,2 高政緒 宮會麗,2
(1.中國海洋大學信息科學與工程學院 青島 266100)(2.中國海洋大學信息工程中心 青島 266071)(3.山東濰坊煙草有限公司煙葉生產技術中心 濰坊 261205)
煙草中化學成分的測定,在煙草的選種、種植、生產和加工過程中具有重要意義,常規的化學分析方法費時、費力、操作復雜、成本高,且人為誤差相對比較大,因此科學的測定化學成分含量具有重要意義。近紅外光譜技術以其快速、簡便、無污染、低成本以及樣品的非破壞性和可多組分同時測定等因素,在煙草行業已經得到良好的發展和廣泛的應用[1~4]。煙葉中所含有的總糖、總氮、總煙堿等指標均含有豐富的含氫基團,為近紅外利用樣品的吸光度和待測指標之間的關系,以及樣品光譜信息差別來對樣品進行定量或定性分析提供了可能。
目前近紅外光譜對化學成分分析最常用的建模方法有偏最小二乘法(PLS)、人工神經網絡法(ANN)與多元線性回歸法(MLR)等。文獻[5]采用基于支持向量機回歸(SVR)算法,建立了煙草中主要成分總糖、還原糖、總氮、總煙堿的近紅外光譜分析模型,取得了較好的預測效果;文獻[6]提出了基于偏最小二乘法PLS和人工神經網絡的非線性模型,預測精度優于一般的線性算法;文獻[7]應用傅里葉變換近紅外光譜分析技術,建立了基于偏最小二乘法PLS方法的煙葉總糖、總氮和總煙堿的定量模型。目前國內煙草行業中,普遍使用偏最小二乘法(PLS)進行定量分析,但隨著進一步的深入,發現PLS并不適合分析煙草中所有的化學成分,定量模型的穩定性也會隨著設備、水分、溫度等外部因素的影響產生較大的波動,樣本數據較少時不具有較好的泛化能力。多元線性回歸分析,不考慮質量參數相互之間的影響、不能充分利用光譜的信息,無法解決光譜矩陣的共線問題,容易產生模型的過適應性。偏最小二乘算法和多元線性回歸算法都適用于線性關系良好的體系,在面對非線性的近紅外光譜時往往不能表現出良好的性能。人工神經網絡處理非線性數據具有一定的優勢,但訓練過程中容易出現過擬合現象,導致預測能力低下。
深度信念網絡,作為一種深度學習方法,已經成功應用于語言處理、文本分類和圖像識別[8~11]。它具有深層網絡結構和非線性激活功能,使得大數據的深度學習模型成為可能,尤其是各種高維非線性的數據。然而,面對煙葉數據小樣本、高維、大噪聲、非線性的特點,直接應用深度學習模型會出現過擬合導致泛化能力差的現象,因此,本文利用深度信念網絡可以保證非線性建模的能力,結合Dropout可以克服小樣本過擬合的優勢,提出了一種Dropout DBN近紅外定量建模方法,用于煙葉化學成分預測。為了驗證該模型的有效性,我們使用相同的訓練集和測試集,以指標本身性質差別比較大的總糖、總氮、總煙堿為例,對比分析PLS與Dropout深度信念網絡定量模型在預測性能上的差異,驗證了Dropout DBN模型的穩定性和適用性。實驗表明Dropout DBN具有更好的預測效果。
深度信念網絡是一種概率生成模型,可以對輸入數據進行一層一層特征提取,最典型的深度信念網絡就是由若干層限制玻爾茲曼機(Restricted Boltzmann Machines)和一層BP組成,結構如圖1所示。

圖1 深度信念網絡結構圖
DBN在訓練模型時分為兩步:預訓練(pre-training)階段和微調(fune-tuning)階段。在預訓練階段初始化參數,分別單獨無監督訓練每一層RBM網絡,由低到高逐層訓練,輸出信息并作為向上一層RBM的輸入數據,確保特征向量映射到不同特征空間時盡可能保留特征信息。經過多層深度訓練后,將最后一層RBM網絡輸出信息作為BP神經網絡的輸入數據。使用反向傳播網絡將錯誤信息自頂向下傳播至每一層RBM,微調整個DBN網絡,使DBN克服了因隨機初始化權值參數而容易陷入局部最優和訓練時間長的缺點。
RBM是一種基于能量的網絡模型,該網絡由一層可見單元和一層隱藏單元構成,神經元之間的連接特點是層內無連接、層間全連接[12~13]。可見變量v和隱含變量h的聯合配置能量為

式中,θ={w,a,b}是RBM的參數,w為可見單元與隱含單元之間的連接權重,b和a分別是可視層節點和隱含層節點的偏置。訓練一個RBM意味著調整參數q,以擬合給定的訓練樣本。
相應的聯合概率分布為

其中歸一化因子為

RBM的訓練過程實際就是求出一個最能產生訓練樣本的概率分布,目標就是尋找最優的權值,為了解決這一問題,G.Hinton提出了名為對比散度CD(Contrastive Divergence)的學習算法,它是一種高效的近似學習算法,以每個訓練數據作為初始能量狀態,然后經過幾次能量狀態的轉移(采用Gibbs采樣),最后以轉移后的能量狀態作為樣本,進行均值估計。更新權重θ=θ+ε(<vihj>data-<vihj>recon),其中ε是學習率,<vihj>data是輸入數據的期望,<vihj>recon是重構數據的期望。
因為RBM的特殊結構(層內無連接,層間有連接),所以給定可見單元v時,各個隱含單元h的激活狀態之間是相互獨立的,反之在給定隱含單元h時,各個可見單元v的激活狀態也是相互獨立的,即

此處采用的是Logistic的Sigmod函數f(x)=將開啟的概率與一個服從u~U(0,1)分布的隨機值進行比較:然后開啟或關閉相應的隱元。
由于煙葉近紅外光譜數據具有小樣本、高維、非線性的特點,訓練集有限時應用深度信念網絡建模,往往對測試數據性能表現不佳,容易出現過擬合的問題。防止過擬合的方法有當驗證集上的效果變差時提前終止、L1和L2正則化加權、soft weight sharing。一種減少測試集誤差的方法就是訓練不同的單獨的網絡,然后分別對測試集應用這些網絡對結果取平均,但這種方法對訓練集和測試集來說都是時間代價太大。因此,本文針對近紅外小樣本的問題,在深層網絡的基礎上添加Dropout的思想,使在合理的時間內訓練大量不同的網絡成為可能,使每一次輸入到網絡中的樣本,能夠在網絡結構有差異的同時,共享隱含層節點權值,從而達到求取均值的目的。使用L2權值梯度上限而不是使用L2權值懲罰項,使得神經網絡能夠從一個大的學習速率開始學習,同時也允許神經網絡在一個大的權值空間進行搜索,既避免過擬合又可以得到一種近似指數級的網絡。
Dropout是由Geoffrey Hinton在圖像識別和語音數據集將此概念用于前饋神經網絡以防止過擬合,證明了該方法的有效性[14~15]。它的基本思想就是隨機忽略隱層的一些神經元,使每個單元以一定的概率p獨立于其他的單元,這些單元不能夠對其他單元的及時狀態做出響應,權值的更新不再依賴有固定關系的隱含節點的共同作用,讓這些神經元不參與訓練過程但保存權值,有可能在下一次迭代時參與訓練。訓練樣本較少時,網絡迭代次數過多很可能導致節點之間相互依賴,Dropout隨機刪除一些節點,來避免訓練集的協同影響,有效防止過擬合。經過交叉驗證,隱含節點Dropout率等于0.5的時候效果最好,原因是0.5的時候Dropout隨機生成的網絡結構最多。
本實驗采用四層的網絡結構,對于訓練集和測試集采用相同的預處理和預訓練,引入Dropout后網絡結構調整:
1)預處理:近紅外光譜數據采用一階導數+Savizky Golay(5,3)平滑預處理和歸一化處理。
2)預訓練:網絡隱含層使用兩層RBM自底向上逐層進行無監督預訓練,RBM訓練的過程中,每個RBM迭代次數為200,學習率為0.1,Sigmod函數被用作激活函數,得到節點的連接權值作為深度信念網絡隱含層的初始權值。
3)訓練:將RBM訓練的權重、偏置用于建立輸入光譜數據與輸出化學值之間的關系。前饋網絡隱含層節點的輸出值以0.5的概率隨機置零,完成Dropout前饋網絡的構建。
4)微調:由于前饋網絡中使用Dropout,在微調部分權重反向傳輸的過程中要進行相應的調整,采用Dropout的隱含節點進行微調,在網絡計算節點時乘以相應的Dropout率。
5)測試階段:將更新的權重、偏置和動量應用到預測集,前饋網絡的處理與訓練階段相同,以相同的百分比將權重置零,對化學指標進行預測。
實驗選取某企業提供的五個產區同一年份的具有代表性的上部、中部、下部位的390個代表性煙葉樣品,覆蓋不同的品種不同等級。將煙葉樣品置于烤箱中,40℃干燥4小時,剔除游離水的影響,磨碎過40目篩,密封平衡后進行光譜測量。另外再制備上述幾個產區的114個樣本作為測試集,樣品盡可能分布均勻,采用相同的處理,進行光譜采集,用于分析樣品變化對預測模型能力判斷。
采用FOSSDS2500近紅外光譜儀采集光譜,光譜掃描范圍為400nm~2500nm,光譜采集方式為漫反射,采集光譜前機器預熱一小時以保證機器各項性能穩定,避免開機時間太短,導致采集的光譜以及預測結果的不穩定。取適量樣品置于樣品盒中,放置壓樣器自然壓實,置于儀器臺上,在溫度18℃~22℃下進行光譜掃描,每次采集樣品光譜前都采集背景光譜。為了保證掃描結果準確性,每個樣品分別重復裝樣掃描三次,取三次計算的平均值作為最終的光譜掃描結果。盡量保持建模樣品和測試樣品光譜采集的儀器設備、儀器參數設置、環境溫度盡可能一致。
由于近紅外光譜吸光強度較弱,很容易受到噪聲的影響,再加上煙葉原始光譜中樣品狀態、測量條件等因素引起的基線飄移的影響,因此需要在建模之前對光譜進行預處理[16]。經過比較,一階導數+Savizky Golay(5,3)平滑預處理建模效果較好,可以有效地消除光譜基線飄移的影響,突出有用信息。預處理過的光譜除去了和預測無關的噪聲,但數據中還含有大量的冗余特征,這些特征也會影響到預測的精確程度。實驗采用PCA算法對樣本全光譜矩陣進行降維處理,避免維數高帶來的復共線性問題,然后利用提取的主成分數據進行回歸建模分析輸入,進行歸一化處理,一是防止某個特征過大或過小,從而在訓練中起的作用不平衡,二是為了計算速度,不平衡的數據可能造成計算困難。將歸一化后的數據進行偏最小二乘回歸(PLS)、Dropout-DBN建立定量模型。
本實驗在選取煙葉樣品時不僅考慮了品種、產地、等級等多種因素的變化,還關注了煙葉內在化學組分含量的差異,以本身性質差別比較大的總糖、總氮、總煙堿指標為例,選取的樣本在各含量梯度都有一定的分布,本實驗選取390個煙葉樣品作為基本訓練集分別進行3項指標建模,另外114個樣品作為測試集用于模型性能預測,數據集的樣品濃度范圍如表1。

表1 煙葉樣品濃度范圍
從表1中可以看出數據集的濃度范圍涵蓋了煙葉上部、中部、下部含量范圍,在各含量梯度都有一定的分布。分別使用偏最小二乘法(PLS)、Dropout深度信念網絡建立總糖、總氮、總煙堿模型,比較模型RMSEC和RMSECV大小,再利用測試樣本對所建模型進行預測性能分析,比較SEP大小,模型性能如表2。

表2 不同方法所建模型性能比較
從表2中煙葉三項常規化學成分模型性能分析可以看出,采用相同的數據集,Dropout-DBN所建模型相比較于PLS所建模型,相關系數R相對較大,RMSEC、RMSECV以及SEP值相對較低,說明應用Dropout-DBN方法可以建立起與總糖、總氮、總煙堿常規指標相關性強的近紅外光譜模型。Dropout-DBN模型的RMSEC、RMSECV和SEP三個值相互接近,說明模型穩定性好。使用Dropout-DBN模型分別對預測集的114個煙葉樣品光譜進行預測,并和化學值作比較,總煙堿散點圖如圖2所示。
總煙堿指標的近紅外模型預測值和化學值數據回歸方程為:y=1.009x+0.018,相關關系數R2=0.969,可以看出總煙堿模型的預測值和實際值相關系數較高,說明該近紅外模型對總煙堿含量的預測值和實際的化學值有較好的相關性。因此本文所提出的Dropout-DBN方法對于提高煙葉近紅外定量模型的性能非常有效。

圖2 總煙堿模型預測集實測值與預測值散點圖
一個模型預測誤差結構合理與否是驗證模型性能的一個重要指標,最簡單的評估就是對數據的似然函數進行評價,由于其歸一化因子計算數量級極大,無法通過數學計算直接得到。因此本實驗使用批總錯誤率(errsum)作為評價標準,采用近似方法來評估Dropout概念的加入是否提高了性能。

圖3 測試集總氮預測錯誤率
從圖3中可以看出模型對總氮的預測錯誤率采用隱含單元50%Dropout率的Dropout-DBN結構顯然可以提高預測精度。Dropout的加入使得每個隱含單元單獨學習有用的特征,而不是依靠特定的隱含單元來糾正自己的錯誤,具有更好的泛化能力。
本文針對近紅外光譜小樣本、高維、非線性的特點,提出一種基于Dropout-DBN的模型構建方法,建立煙草中化學成分的回歸數學模型。該方法采用深度信念網絡保持近紅外數據非線性結構,引入Dropout概念對網絡模型進行調整,可以有效防止訓練過擬合現象,使網絡構成一個均值網絡,提高了網絡的泛化能力。采用相同的數據集,分析和比較了Dropout深度信念網絡和偏最小二乘法回歸對煙葉近紅外光譜分析的預測能力,實驗結果表明,本文提出的方法具有較優的正確預測率,建立的模型更加可靠、穩定,可以有效地應用于煙草樣品中化學含量的實際分析。