沈歡超,耿瑩蕊,倪鴻飛,王 輝,吳繼忠,廖 付,陳 勇,劉雪松*
(1.浙江大學 藥學院,浙江 杭州 310058;2.浙江大學 智能創新藥物研究院,浙江 杭州 310018;3.浙江中煙工業有限責任公司技術中心,浙江 杭州 310008)
烤煙作為工業卷煙的重要原料,等級判定是其質量評價的重要工作。煙葉等級的主要考量因素有煙葉的著生部位、顏色等,國家烤煙標準將其分為42個等級。目前,煙葉的分級主要依賴行業專家的感官評判,而個人的主觀差異將影響分級結果。因此,采用智能化手段實現煙葉等級判定是煙草工業評判煙葉品質的未來發展趨勢。
近紅外光譜技術(NIRs)具有快速、無損、操作簡便等優點,已廣泛應用于農業[1-2]、石化[3-4]、食品[5-6]、醫藥[7-9]等領域,是一種極具潛力的化學分析手段。不少學者已將其應用于烤煙等級判定領域,李士靜等[10]比較了不同預處理方法、不同分類模型以及不同特征波段數量對2 個數據集煙葉分類正確率的影響,但煙葉上部與中部數據集的樣本容量較小。王超等[11]基于2018 年不同產地的768 份烤煙煙葉樣品,分別建立了全國和分產區的偏最小二乘判別分析(PLS-DA)等級預測模型,在類別量化中采用連續數字編碼方式,使用定量模型實現質量定性判別具有一定創新性,但其建立的模型預測準確度較低。賓俊等[12]首次提出基于品質相似、價格接近的煙葉分組方法,將極限學習機(ELM)應用于烤煙煙葉的分級判別,但與常規的煙葉分級標準不同,可推廣性不強。
極限學習機由Huang 等[13]于2006 年提出并完善,是一種單隱層前饋神經網絡(SLFNs),具有學習速度快、泛化能力強的優點,在函數逼近與模式分類領域有著廣泛的應用[14-15]。教與學優化(TLBO)算法由Rao 等[16]于2011 年提出,是一種模擬課堂教學的基于群體的啟發式優化算法。該算法的參數設置簡單,收斂速度快,精度高,在許多工程優化問題中得到了應用[17-18]。
本研究基于近紅外光譜技術,比較了競爭性自適應重加權采樣方法[19](CARS)、蒙特卡洛無信息變量消除法[20](MC-UVE)以及隨機青蛙算法[21](RF)3種變量篩選方法,通過與常規PLS-DA模型的比較驗證了ELM模型的優勢,首次將TLBO算法用于ELM烤煙等級判定模型優化,在降低建模成本的同時,提高了SLFNs的泛化能力,實現了對廣泛性分布烤煙樣本的等級判定。
煙葉樣本采集于2016~2018 年,包含來自全國13 個省份的上部煙葉(B)、中部煙葉(C)和下部煙葉(X),共937 份,樣本產地來源分布見表1。煙葉的近紅外光譜數據及其等級標簽均由浙江中煙工業有限公司提供。使用MATLAB(R2020b)軟件進行數據處理。

表1 樣本的不同產地來源及各部位分布Table 1 Distribution of samples from different places of origin and parts
1.2.1 極限學習機(ELM) ELM 是一種新型的快速學習算法,包含輸入層、隱含層和輸出層(如圖1)。在算法運行過程中,隨機產生輸入層到隱含層的權值以及隱含層節點的偏置,計算得到隱含層到輸出層的權值。

圖1 ELM的基礎結構Fig.1 Basic structure of ELM
給定訓練集D= {(xi,ti)},i= 1,2,...,n,xi是d×1 的輸入向量,ti是k×1 的目標輸出向量,對于具有m個隱含層節點數的SLFNs 與激活函數g(x)的數學模型可表示為:

其中,βj=[βj1,βj2,...,βjm]T,是連接第j個隱含層節點和輸出節點的權值向量;wj=[wj1,wj2,...,wjd],是連接輸入節點與第j個隱含層節點的權值向量;bj是第j個隱含層節點的偏置。wj和bj均隨機產生,且滿足:

式(2)可簡寫成:

其中

且

H是隱含層的輸出矩陣,H的第i行是輸入xi時隱含層的輸出向量,H的第j列是輸入為x1,x2,...,xn時第j個隱含層節點的輸出向量。T是目標輸出矩陣。
式(3)的最小二乘解為:

H?是H的廣義逆矩陣。
ELM算法如下:
輸入:訓練集D={(xi,ti)},激活函數g(x),隱含層節點數m。
輸出:隱含層到輸出層的權值矩陣β。
第一步:隨機產生輸入權值wj和偏置bj,j=1,2,...,m;
第二步:計算隱含層輸出矩陣H;
第三步:計算輸出權值矩陣β=H?T。
1.2.2 教與學優化算法(TLBO) TLBO 的優化過程包括教師階段和學習者階段。在教師階段,每個學生均向最優秀的個體學習;在學習者階段,每個學生均以隨機的方式向其他學生學習。在TLBO 中,種群被視為一類學習者,每個學習者代表著優化問題的一種可能的解決方案,成績代表著適應度值。在教師階段,教師T是在該種群中具備最大適應度值的解決方案,M是該班級的平均成績。學習者試圖通過教師的教學提高班級的平均成績。對于第i個學習者Xi,候選解決方案newXi的計算公式如下:

ri是在[0,1]之間產生的隨機數;TF是決定M值的教學因子,取值為1或2。
在學習者階段,每個學習者通過與隨機選擇的學習者進行互動來提高成績。Xj(i≠j)是從種群中隨機選取的學習者,若要優化的目標函數值?(Xj)>?(Xi),則優化的解決方案計算公式如下:

反之,則:

最終得到最佳解決方案newX。
1.2.3 TLBO-ELM 模型 本研究旨在通過TLBO 算法對ELM 運算過程中的隱藏層節點數進行尋優,使TLBO-ELM烤煙等級判定模型達到更高的分類正確率。
TLBO-ELM算法如下:
第一步:輸入訓練集D={(xi,ti)},激活函數g(x),學生數nPop,最大迭代次數MaxIt,變量數nVar,變量取值范圍VarMin及VarMax;
第二步:初始化,每次TLBO的迭代結果代表一個包含ELM參數(權值wj和偏置bj)與隱藏層節點數的解;
第三步:使用適應度函數(本研究中即分類正確率的倒數)對所有候選解決方案進行評估,當迭代次數達到最大值時,停止搜索過程并返回尋優結果。
由于光譜掃描過程可能存在人為操作差異或儀器誤差導致采集光譜異常,通常采用化學計量學方法剔除異常值。本研究采用蒙特卡洛交叉驗證(MCCV)方法對937個樣本進行異常點剔除。
根據文獻[22],剔除均值(Mean)大于1、標準偏差(STD)大于0.1的樣本。本實驗剔除了24個異常點,剩余913個樣本。剔除的異常點編號為881、519、922、520、902、462、19、439、883、621、436、512、389、894、526、897、654、878、137、392、277、346、770、928(見圖2)。

圖2 蒙特卡洛剔除異常點的結果Fig.2 The results of Monte Carlo elimination of outliers
在除去異常點后,采用Kennard-Stone(K-S)算法[23]以6∶2∶2 劃分訓練集、驗證集及測試集。樣本劃分結果見表2。

表2 樣本劃分結果Table 2 The results of samples division
為減少光譜噪聲以及基線漂移等對實驗結果的影響,本研究采用Savitzky-Golay 卷積平滑[24]方法進行光譜預處理(number of points=15,polynominal order=2,derivative order=1)。
為得到預測能力更強、穩健性更好的校正模型,首先對光譜數據中的冗余信息進行剔除。本研究比較了CARS、MC-UVE以及RF 3種變量篩選方法。上述3種變量篩選方法最終從1 609個變量中分別篩選出151、66、223個關鍵變量。
為比較不同變量篩選方法對烤煙等級判定建模效果的影響,設置相同參數:激活函數采用Sigmoid(sig)函數,隱藏層節點數設為50,分別建立ELM 模型。考慮到ELM 建模過程中存在一定的隨機性,以運行10次得到的分類正確率均值作為建模效果的評價指標,實驗結果見表3。

表3 不同變量篩選方法的ELM分部位模型效果Table 3 ELM model effect of different variable screening methods in different parts
從正確率的均值結果來看,RF 法優于CARS 法以及MC-UVE 法,但t檢驗結果表明,3 種變量篩選方法的結果無顯著性差異。考慮到3 種變量篩選方法均在一定程度上降低了光譜數據維度,且在模型效果無顯著性差異的情況下,MC-UVE 法從原光譜的1 609個變量中篩選出66個關鍵變量,大大降低了計算成本,故采用MC-UVE 法進行變量篩選。為檢驗該模型的泛化能力,使用測試集對模型進行外部驗證,參數設置保持一致,以運行10 次的結果均值作為評價指標,實驗結果見表4。外部驗證結果表明該模型表現良好,泛化能力好。

表4 測試集檢驗ELM分部位模型的效果Table 4 The ELM model effect verified by testing set in different parts
通過建立常規的PLS-DA烤煙等級判定模型,與已建立的ELM烤煙等級判定模型比較,驗證ELM模型的優勢與應用意義。
PLS-DA 的最佳潛變量數根據十折交叉驗證確定為24(RMSECVmin=0.375 7)。采用與ELM 模型相同的光譜預處理方法(SG卷積平滑,number of points=15,polynominal order=2,derivative order=1)及變量篩選方法(MC-UVE)篩選出對應的關鍵變量,并進行計算。ELM 與PLS-DA 等級判定模型的結果比較見表5。PLS-DA模型訓練集、驗證集以及測試集預測結果相應的混淆矩陣見圖3。

表5 PLS-DA與ELM分部位模型效果的比較Table 5 Comparison of the effects of PLS-DA and ELM models in different parts
表5結果顯示,使用ELM建立的等級判定模型訓練集、驗證集以及測試集的分部位分類正確率均優于傳統的PLS-DA法。由圖3可知,PLS-DA建立的等級判定模型對下部煙葉的分類正確率較低,多誤判為中部煙葉,降低了總體分類正確率。因而本研究使用ELM建立等級判定模型具有現實意義,在此基礎上使用TLBO進行優化,突出了本研究的優勢。

圖3 PLS-DA模型預測結果的混淆矩陣Fig.3 Confusion matrix of the prediction results about PLS-DA model A:training set;B:calibration set;C:testing set
盡管前期建立的ELM 模型泛化能力較好,但其分類正確率不佳,因而考慮采用TLBO算法對其隱含層節點數進行優化。將隱藏層節點數最大值設為250,ELM 激活函數g(x)= ‘sig’,TLBO 參數設置如下:nPop=30,MaxIt=50,nVar=1,VarMin=30,VarMax=250。參數尋優過程如圖4 所示,得到最佳隱藏層節點數為111,適應度最小值為1.109 1,驗證集的分類正確率提升至90.16%,相較于ELM 模型(83.28%)提升了6.88%。測試集對該模型進行外部驗證,分類正確率達89.07%,相較于ELM模型(87.38%)略有提高,混淆矩陣結果見圖5。

圖4 TLBO-ELM的參數尋優過程Fig.4 Parameter optimization process of TLBO-ELM
由圖5 可知,從測試集的預測結果分析,上部煙葉的分類準確率為89.13%,其中10.87%被錯分為中部煙葉;中部煙葉的分類準確率為89.83%,其中7.63%被錯分為上部煙葉,2.54%被錯分為下部煙葉;下部煙葉的分類準確率為84.21%,其中15.79%被錯分為中部煙葉。盡管存在錯誤預測的情況,但普遍被誤判為相鄰類,分類效果在可接受的范圍內。且由于整體樣本量不夠大,下部煙葉樣本總體偏少,導致分類結果的偶然性影響增大,在一定程度上降低了總體分類正確率。

圖5 ELM模型測試集預測結果的混淆矩陣Fig.5 Confusion matrix of the prediction results about ELM model testing set
本研究基于NIRs技術,以2016~2018年來自13個省份的937個烤煙樣本為研究對象,比較了CARS、MC-UVE、RF 3 種變量篩選方法的ELM模型效果,通過與PLS-DA模型進行比較驗證了ELM模型的優勢,并通過TLBO 算法對ELM 模型進行優化,建立了烤煙等級判定模型。首次將TLBO-ELM 應用于烤煙等級判定,TLBO 尋優過程不僅大大減少了ELM 模型反復嘗試隱藏層節點數的時間,而且將驗證集的分類正確率由83.28%提升至90.16%,相較于ELM 模型,正確率提升了6.88%。測試集的外部驗證效果良好,表明TLBO-ELM 模型泛化能力強,為烤煙分級提供了一種新的思路。