楊光遠,韓 磊,鄧少鵬,劉 強,王 聞
(湖北中煙卷煙材料廠,湖北 武漢 430051)
三醋酸甘油酯是卷煙濾棒成型加工工藝過程中的增塑劑、固化劑,其含量是濾棒質量控制的一個重要指標,對卷煙濾棒的物理指標和煙氣的感官質量起著至關重要的作用。三醋酸甘油酯含量過低,則濾棒的硬度不夠,直接影響濾棒品質;其含量過高,過多的三醋酸甘油酯將轉移到煙氣中,從而影響卷煙煙氣的感官質量[1]。因此,快速、準確檢測濾棒中的三醋酸甘油酯含量,對濾棒成型工藝的質量控制具有重要的實際意義和推廣應用價值。
在工業生產中,濾棒中三醋酸甘油酯含量的測定方法主要有以下4種:重量法、皂化滴定法、氣相色譜法和近紅外光譜法[2]。重量法操作簡易,適用于濾棒生產車間的現場快速測定,但其精確度無法得到保障;煙草行業標準YC/T144-1998[3]使用皂化滴定法測定濾棒中的三醋酸甘油酯純度,但操作復雜、耗時,需要專業的技術人員,無法進行濾棒生產車間的現場快速檢測;氣相色譜法是煙草行業標準YC/T331-2010[4]規定的另一種檢測方法,其檢測精確度高,但單個樣本檢測價格較高,且操作費時費力,難以用于生產車間現場測定。專利CN101334387A[5]和專利CN110174417A[6]使用近紅外光譜技術檢測濾棒中的三醋酸甘油酯含量,但均使用臺式近紅外光譜設備,測定時需要大量的濾棒樣本或將濾棒外層的成型紙剝除,并需將濾棒進行粉粹,操作過程繁瑣費時、投入大。因此,尋求一種能夠實現生產車間濾棒中三醋酸甘油酯含量現場快速、準確、批量測量的有效方法,具有重要實際意義和推廣應用價值。
同時,在建模方法上,以上兩個專利所使用的三醋酸甘油酯近紅外光譜定量建模方法均為偏最小二乘法(Partial least squares,PLS),該法存在受異常值擾動影響大的缺陷。在工業生產時,工業數據一般含有測量誤差,當以誤差數據作為自變量進行偏最小二乘回歸時,得到的參數估計值不能正確反映數據變量之間的結構關系[7]。與偏最小二乘法不同,極限學習機(Extreme learning machine,ELM)作為一種基于前饋神經網絡的機器學習算法,學習過程僅需計算輸出權重,具有學習效率高、泛化能力強的優點,能夠解決反向傳播算法學習效率低、參數設定繁瑣的問題[8]。但ELM 算法也存在一定的缺陷,如算法的隱含神經元個數一般由計算機隨機設定,從而導致算法的穩定性不高。粒子群優化(Particle swarm optimization,PSO)算法與極限學習機算法相結合,能夠解決ELM 算法隱含神經元個數隨機設置帶來的網絡冗余問題,增強ELM 算法的泛化能力,在一定程度上完善ELM算法的性能。研究表明經PSO 優化后的ELM 神經網絡光譜模型預測結果的準確性優于原有的ELM 神經網絡[9-11]。為此,本文擬通過使用PSO 算法對ELM 的隱含神經元個數進行優化,以尋求最優的隱含神經元個數,建立最佳的近紅外光譜回歸預測模型。
本文基于手持近紅外光譜分析技術和ELM 算法,并聯合PSO 算法實現了對卷煙濾棒中三醋酸甘油酯含量的近紅外光譜快速定量建模,并將所建模型應用于生產車間現場快速測量濾棒中三醋酸甘油酯的含量。本方法無需破壞濾棒樣品,操作更簡便,省時省力,便于實際生產操作,適用于生產車間大批量樣品的測定分析,為實時監控生產過程中濾棒中三醋酸甘油酯含量奠定了技術基礎。
與傳統的機器學習和神經網絡算法相比,ELM 具有以下優勢:(1)計算速度快,隱含層的神經元數隨機設定,訓練過程不需要迭代調整;(2)不會陷入局部最優,因為ELM 算法求解輸出權值偏最小二乘解的過程是一個凸優化問題;(3)參數設定簡單,無過多的復雜參數設定,而傳統的機器學習算法如反向傳播(BP)網絡等,在學習過程中需要選擇合適的學習率、訓練步長等,參數選擇不當將影響網絡的泛化性,算法的詳細流程見文獻[12]。
PSO算法的基本思想是模擬鳥群隨機搜尋食物的捕食行為,鳥群通過自身經驗和種群之間的交流調整自己的搜尋路徑,從而找到食物最多的地點。其中每只鳥的位置和路徑為自變量組合,每次到達的地點的食物密度即函數值。每次搜尋都會根據自身經驗(自身歷史搜尋的最優地點)和種群交流(種群歷史搜尋的最優地點)調整自身搜尋方向和速度(稱為跟蹤極值),從而找到最優解[13]。算法的步驟如下:
步驟一:假設有一個運動粒子,對粒子的位置和速度兩個參數進行初始化;步驟二:設定每次搜尋的結果為粒子適應度,分別記錄粒子的個體和群體歷史最優位置;步驟三:分別將個體和群體的歷史最優位置看作兩個力,并結合粒子本身的慣性,綜合考慮以上因素如何影響粒子的運動狀態,從而更新粒子的位置和速度。
使用近紅外光譜技術和PSO-ELM 算法實現對濾棒中三醋酸甘油酯含量快速檢測的流程主要包括以下5個步驟:(1)樣本近紅外光譜的采集;(2)光譜預處理和波長的選擇;(3)PSO-ELM 算法的參數設置;(4)建立PSO-ELM回歸預測模型;(5)實現測試樣本的快速預測。
實驗所使用的光譜儀為江蘇揚光綠能股份有限公司所生產的G1 手持式DLP-NIR 近紅外光譜儀。在光譜分析中,DLP 微鏡陣列作為一個可編程波長選擇濾波器,相比于傳統的銦鎵砷傳感器,其光譜儀架構更加簡便,成本大大降低[14]。手持近紅外光譜儀的波長范圍為900~1 700 nm,光譜分辨率為5.85 nm,掃描點數為225。
實驗樣本由湖北中煙卷煙材料廠于2021 年提供,共98 個樣本。在實驗過程中,選取70 個樣本作為訓練樣本,28 個樣本作為測試樣本。使用煙草行業標準YC/T331-2010《醋酸纖維濾棒中三醋酸甘油酯的測定-氣相色譜法》中的測定方法進行測定,得到訓練樣本的三醋酸甘油酯含量范圍為1%~15%,平均值為7.28%,標準差為1.99;測試樣本的三醋酸甘油酯含量范圍為5%~10%,平均值為7.35%,標準差為1.16。實驗樣本的詳細信息如表1所示。

表1 實驗樣本的詳細信息Table 1 The detail of experimental samples
光譜的采集模式為反射模型,將濾棒樣本豎直放置于光譜儀的光源上,每個樣本掃描6 次,取6 次光譜的平均值作為最終光譜。實驗樣本的原始近紅外光譜數據如圖1所示。
光譜數據的處理步驟如下:(1)對采集的濾棒的近紅外光譜數據進行不同的預處理,選取最優的預處理方法;(2)選擇合適的建模波段;(3)分別采用偏最小二乘回歸(PLSR)[15]、極限學習機回歸(ELMR)和粒子群優化-極限學習機回歸(PSO-ELMR)建立濾棒近紅外光譜數據與三醋酸甘油酯含量之間的回歸預測模型。
建立回歸預測模型后,分別使用決定系數(R2)、校正均方根誤差(RMSEC)、預測均方根誤差(RMSEP)為模型評價指標,指標的具體計算方法如下[16]:
RSS 和SS分別表示最終模型預測數據的殘差平方和響應變量方差,yi為第i個樣本的真實值,yic為訓練集第i個樣本的預測值,yip為測試集第i個樣本的預測值,n為訓練集的樣本數,m為測試集的樣本數。
為降低噪聲及其它因素對光譜質量的影響,提高回歸預測模型精度,對采集的近紅外光譜數據進行不同的預處理操作,包括多元散射校正(MSC)、標準正態變量變換(SNV)及平滑處理(Savitzky-Golay),以確定最優建模波段[17-18]。表2 為不同預處理方法下使用PLS 建立的預測模型的結果比較。R2越大,RMSEP和RMSEC越小,模型預測效果越好。由表可知,基于Savitzky-Golay的預處理方法所建立的回歸預測模型具有最佳的預測效果,其參數設置為窗口大小13、2次多項式。同時,從圖2可以看出,光譜吸收的波長區間主要集中在1 050~1 200 nm和1 300~1 500 nm。因此,后續主要使用Savitzky-Golay預處理方法及這兩個波長區間對濾棒樣本的近紅外光譜數據和三醋酸甘油酯含量進行定量建模。

圖2 原始光譜經Savitzky-Golay(窗口大小為13,2次多項式)處理后的結果Fig.2 Pretreatment results of spectral data by Savitzky-Golay first derivative with a 13-point window and 2 polynomial order

表2 基于PLS建立的不同預處理方法的卷煙濾棒三醋酸甘油酯含量的預測模型性能比較結果Table 2 Calibration and validation results for spectral models of glycerol triacetate content of cigarette filter based on PLS algorithm with different pretreatment methods
分別使用PLSR、ELMR 和PSO-ELMR 建立近紅外光譜數據和煙草行業標準測量方法所獲得的三醋酸甘油酯含量之間的定量預測模型。在使用ELM 算法建立回歸預測模型時,隱含層神經元個數是最為重要的一個參數,傳統方法由計算機進行隨機設置,導致算法的穩定性無法得到保證。為了解決該問題,本文使用PSO 算法對ELM 算法的隱含層神經元個數進行優化,結果如圖3 所示。由圖3 可以看出,模型的RMSEC 和RMSEP 指標隨著ELM 算法隱含層神經元個數的增加逐漸減小并趨向穩定。根據圖3 結果確定ELM算法最佳隱含層神經元的個數為55。

圖3 PSO算法優化ELM回歸模型最佳隱含神經元過程Fig.3 Process of the best hidden neuron of ELM regression model optimized by PSO algorithm
使用R2、RMSEC、RMSEP 為指標優化建模參數,建模結果和預測結果分別如表3、表4 所示。ELM 回歸模型以Sigmoidal函數為隱含層神經元激勵函數,隱含層神經元數、輸入權重Wi和隱層的偏置bi在訓練過程中隨機確定;而PSO-ELM 回歸模型的隱含層神經元激勵函數也使用Sigmoidal函數,隱含層神經元個數由PSO算法優化后確定為55。
由表3可以看出,使用PSO-ELMR算法所建立訓練集模型的決定系數R2為0.921 2,高于PLSR 和ELMR算法;同時,使用PSO-ELMR算法所建立的回歸預測模型的訓練集均方根誤差為0.369 43,低于PLS和ELMR算法。從表4的結果可以看出,在預測方面,PSO-ELMR算法預測模型的決定系數為0.916 2,高于PLSR 和ELMR 算法;同時,使用ELM 算法的預測集均方根誤差為0.392 12,低于PLSR 和ELMR 算法。因此,ELMR 經PSO 算法進行參數優化后,在建模效果和預測結果方面,均取得了最高的決定系數和最小的均方根誤差。即相對于傳統的PLSR 和ELMR 方法,PSO-ELMR 提高了訓練集的數據利用率,具有更好的泛化性能和更高的回歸預測精度。表5給出了使用PSO-ELMR算法和臺式近紅外光譜數據的建模和預測結果,其中臺式近紅外光譜的采集參數為:光譜掃描范圍4 000~10 000 cm-1(1 000~2 500 nm),掃描次數32,分辨率4 cm-1。由表4、表5的對比結果看出,使用臺式近紅外光譜數據的建模和預測結果略優于使用手持式近紅外光譜數據。但手持式近紅外光譜設備的成本遠低于臺式近紅外光譜設備,且攜帶方便、操作靈活,在光譜采集時不需要對濾棒樣本進行前處理操作,便于實際生產和生產車間大批量樣品的現場測定分析,具有更高的實際應用價值。

表3 不同建模方法的訓練結果Table 3 The training results using different modeling methods

表4 不同建模方法測試樣本的預測結果Table 4 The prediction results of testing samples using different modeling methods

表5 使用PSO-ELMR算法的臺式近紅外光譜儀器的建模結果Table 5 The modeling results using PSO-ELMR algorithm of desktop NIR spectroscopy instrument
本文通過使用手持式近紅外光譜儀,結合PSO-ELM算法建立了濾棒三醋酸甘油酯的手持近紅外光譜回歸預測模型,實現了濾棒中三醋酸甘油酯的現場快速檢測。與現有方法相比,本方法具有快速準確、綠色無損等優點,為濾棒三醋酸甘油酯含量的實時在線監測和其它質量參數的快速測量奠定了技術基礎。