吳 珽,梁 龍,朱北平,鄧擁軍,房桂干*
(1.中國林業科學研究院 林產化學工業研究所;生物質化學利用國家工程實驗室;國家林業和草原局 林產化學工程重點實驗室;江蘇省生物質能源與材料重點實驗室,江蘇 南京 210042;2.金東紙業(江蘇)股份有限公司,江蘇 鎮江 212132)
制漿造紙工業是國民經濟的重要組成部分,2019年我國紙和紙板總產量約為10 765萬噸,行業總產值逾萬億元,居世界第一。同年紙漿消耗9 609萬噸,其中進口木漿占24%,國產木漿占13%,進口廢紙漿占10%,國產廢紙漿占46%[1]。新冠疫情和貿易戰的進一步升級制約了木漿的進口,我國近年頒布的“禁廢令”則在短期內將進口廢紙漿配額削減為0,因此未來行業紙漿原料將大力挖掘國內產能[2]。而廢紙漿因重復回收多次打漿,纖維質量下降,結合紙和紙板產品多元化、高檔化發展的實際需求,用國產木漿制取高品質紙產品已是制漿造紙行業近年的必然趨勢[3],預計到2025年,我國國產木漿年消耗占比將增至35%以上。這意味著除了進一步發展制漿造紙經濟林種植和林漿紙一體化產業外,有必要充分利用大量的枝杈材、小徑材和林木剩余物制漿[4]。
我國南方制漿造紙經濟林多以桉木、相思木混交,采伐切片后與枝杈材、小徑材和林木剩余物等混合分裝、運輸、存儲,生產時大批量原料木片無法保證混合均勻且各批次原料的化學成分含量不一[5]。如果按原定制漿工藝參數生產,往往出現磨漿能耗不夠、化學品用量偏低的情況,導致纖維解離程度低,紙漿品質差;如按最高標準輸入磨漿能耗,會加大化學品用量,引起成本高、污染重等問題。因此有必要實現混合原料的快速分析,以便實時在線調整工藝參數,保證生產的正常進行[6]。
近紅外光譜(NIR)屬于分子光譜,當分子受到近紅外區域(780~2 526 nm)的電磁波輻射后,吸收特定頻率的近紅外光,使分子中原子的振動能級和轉動能級發生躍遷,從而形成吸收光譜。近紅外光譜結合化學計量學方法通過已知樣品信息的光譜數據構建模型,利用模型對待測樣品進行分析,可以提高常規定性定量分析的效率[7],近年作為一種快速分析手段已廣泛應用于農林業[8-9]、輕工[10]、石油化工[11]等領域;并在制漿原料樹種快速識別[12]、物理性質研究[13-14]及化學成分含量的測定[15-16]等方面發揮著較大作用。本研究選擇云南、兩廣、海南等地廣泛種植,具有代表性的制漿造紙原料樹種尾巨桉(Eucalyptusurophylla×grandis)和馬占相思(Acaciamangium),人為將兩種樣本混合以模擬生產線混合原料的狀態。通過近紅外光譜技術結合偏最小二乘法、支持向量機法、人工神經網絡法和LASSO算法,建立混合原料混合情況以及綜纖維素、聚戊糖和Klason木質素含量等重要參數的校正模型,確定最優建模方法,實現尾巨桉-馬占相思混合原料的快速分析。
實驗所用的尾巨桉采自廣東湛江,樹齡5~6年;馬占相思采自海南樂東,樹齡6年,均為人工經濟林制漿造紙適齡材。原木去皮后切削成木片,磨粉過篩,截取40~60目的細末,置于空氣中充分平衡水分。隨后將兩種木粉按不同比例混合成145個樣品,混合情況以尾巨桉的質量分數(含量)表示,均勻覆蓋0%~100%區間。針對尾巨桉含量運用含量梯度法篩選出35個樣品作為驗證集,其余110個樣品作為校正集用于建立校正模型。另取原木去皮后不同部位所磨成的尾巨桉木粉樣品和馬占相思木粉樣品各10個,用于確定混合樣品化學成分含量的代表性。
常見傅里葉近紅外光譜儀能夠提供準確優質的數據信息,但成本高,對外部環境要求較為苛刻,難以維護。而本研究最終的應用場所——制漿造紙車間往往溫度、濕度變化較大,因此采用適應性強,易根據設備工序要求改裝的阿達瑪近紅外光譜儀(浙江譜創儀器有限公司)獲取樣品的近紅外光譜。設定儀器參數如下:掃描波長范圍為1 600~2 400 nm;波長點數為100;光譜重復掃描次數為50次。為充分獲取木粉樣品信息,每個樣品采樣5次取平均光譜作為樣品的原始光譜。
尾巨桉-馬占相思混合樣品的混合情況以尾巨桉的質量分數(含量)表示,取樣過程中人為混合尾巨桉和馬占相思,控制并記錄各樣品中尾巨桉的含量,使其均勻覆蓋0%~100%區間。
采集近紅外光譜后測定所有145個混合樣品的綜纖維素、聚戊糖、Klason木質素含量,并測定20個單一樹種樣品的綜纖維素、聚戊糖、Klason木質素含量。按GB/T 2677.10-1995測定綜纖維素含量,按GB/T 2677.9-1994測定聚戊糖含量,按GB/T 2677.8-1994測定Klason木質素含量[17]。各樣品的化學成分含量測定均做平行實驗,以3組實驗數據的平均值為實測值。
在Matlab 8.0中分別加載4種算法,結合交互驗證中的留一法在不同參數條件下建立模型,當預測殘差平方和(PRESS)最小時,表明模型參數最佳,模型性能最優。
1.4.1 偏最小二乘法偏最小二乘法(PLS)將矩陣分解和回歸并為一步,同時分解光譜矩陣X和濃度矩陣Y,并將Y的信息引入X矩陣分解過程中,在每計算一個新的主成分前,將X的得分T與Y的得分U進行交換,使得X主成分直接與Y關聯,從而保證獲得最佳模型。該方法較好地將多元線性回歸、典型相關分析和主成分分析結合,近年在近紅外光譜分析中應用廣泛[18]。模型建立的關鍵在于最佳主成分數n的確定。
1.4.2 支持向量機法支持向量機(SVM)是基于統計學習理論的機器學習算法。其主要思想是將原問題通過核函數實現低維空間的非線性問題到高維空間的線性問題的轉化,并在高維空間中進行線性求解,以保證算法有較好的推廣能力,同時解決了維數災難問題。該算法選擇徑向基函數作為核函數,其關鍵在于ε不敏感損失函數中的ε值、徑向基系數γ、懲罰參數C的確定[19]。
1.4.3 人工神經網絡法人工神經網絡(ANN)是一種旨在模仿人腦結構及其功能的信息處理系統,由大量處理單元(神經元)構成。大量神經元組成網絡動態運行時,構成具有自適應、自學習能力的復雜系統。神經網絡的連接方式有多種,本研究選取的反向傳輸神經網絡(BP-ANN)具有逼近任意非線性映射的功能和很強的學習能力,應用最為廣泛。其數據由輸入層輸入,經標準化處理,并施以權重傳輸到隱含層。隱含層經過權值、閾值和激勵函數運算后,傳輸到輸出層。輸出層給出神經網絡的預測值,并與期望值進行比較,若存在誤差,則從輸出開始反向傳播該誤差,進行權值、閾值調整,使網絡輸出逐漸與期望輸出一致[20]。該模型的主要參數為隱含層神經元個數N1、學習速率v、動量因子m和學習次數N2。
1.4.4 LASSO算法LASSO(Least absolute shrinkage and selection operator)是一種處理具有復共線性數據的有偏估計,算法樣本外的預測能力強,常用于經濟、社會方向的大數據分析[21-22],近年在醫學[23]、化工[24]等領域的數據處理及建模預測方面有較好的表現。其基本思想是在回歸系數的絕對值之和小于一個常數的約束條件下,使殘差平方和最小化,從而能夠產生某些嚴格等于0的回歸系數,得到解釋力較強的模型。
設有p個自變量x1,x2,…,xp和因變量y,它們之間可建立如下的線性回歸模型:
y=α+β1x1+β2x2+…+βpxp+
(1)
其中α為常數項;β1,β2,…,βp為回歸系數;為隨機擾動項。
對系數的絕對值進行懲罰,用殘差平方和的最小值加上一個對回歸系數進行的懲罰函數表示,即:
(2)



RMSECV及RMSEP是均方根誤差(RMSE)在模型建立與評價過程中不同階段的不同表達形式,其值越小,說明模型的預測能力越強。RMSE的計算公式如下:
RPD定義為驗證集標準偏差與預測均方根誤差之比。AD直觀反映預測值和標準方法測定值之差,其值應在模型實際應用時許可的誤差范圍內,通常應小于兩次測定值之間誤差上限的3倍。Bias是絕對偏差代數和的平均值,反映樣品分析過程中的系統誤差。另外,對測定值和獨立驗證的預測值進行雙尾成對T檢驗。即假設近紅外光譜法預測值和經典方法測定值之間無顯著性系統誤差,通過T檢驗計算出統計量進而計算P值,將P值與一定幾率比較(通常取0.05),當該兩組數據在大于5%的幾率上相等,而在小于95%的幾率上不相等時,可認為預測值和測定值之間無顯著性差異[26]。
20個單一樹種樣本的化學成分含量中,尾巨桉的綜纖維素含量分布在78.22%~81.61%之間,馬占相思的綜纖維素含量分布在73.25%~77.44%之間。尾巨桉的聚戊糖含量分布在24.80%~30.51%之間,馬占相思的聚戊糖含量較低,分布在18.03%~26.20%之間。尾巨桉的Klason木質素含量分布在21.23%~27.58%之間,馬占相思的Klason木質素含量分布在22.65%~27.63%之間。校正集和驗證集共145個混合樣品的尾巨桉含量和3種化學成分含量分布見表1,其中尾巨桉含量均勻覆蓋0%~100%區間,3種化學成分含量分布較廣,基本覆蓋了單一樹種化學成分含量的區間。

表1 混合樣品的含量分布情況Table 1 Content distribution of the mixed samples
圖1為樣品的原始近紅外光譜,其中橫坐標為光譜波長,縱坐標反映樣品對光譜的吸收強弱,可見原始近紅外光譜的信號強度較弱,譜帶重疊干擾嚴重,因此需對光譜數據進行預處理以消除無關信息和噪音的干擾。先對所有原始光譜數據進行一階導數處理以消除基線和背景干擾,再通過標準正態變換處理(SNV)消除木粉顆粒大小不均勻導致的非特異性散射的影響。圖2為經預處理后樣品的近紅外光譜。

圖1 樣品的近紅外光譜Fig.1 Near-infrared spectra of samples

圖2 一階導數+SNV預處理后樣品的近紅外光譜Fig.2 Near-infrared spectra of samples pretreated by first derivative and SNV


表2 不同算法所建模型的參數Table 2 Parameters of models built by different algorithms


表3 模型的獨立驗證結果Table 3 The independent verification results of the calibration models
分別以測定值為橫坐標,預測值為縱坐標作散點圖(圖3),可看出4個分析模型對相應化學成分的預測情況。尾巨桉含量分析模型的偏差(Bias)值為-0.098%,模型存在一定系統誤差,使得預測結果偏小;雙尾T檢驗P值為0.748 5>0.05,表明預測值和測定值無顯著性差異。綜纖維素模型的偏差值為-0.087%,模型同樣存在系統誤差使得預測結果偏小;雙尾T檢驗P值為0.386 2,預測值和測定值無顯著性差異。聚戊糖模型所得散點在y=x直線兩側均勻分布且數目差異不大,模型不存在明顯的系統性誤差;雙尾T檢驗P值為0.951 8,預測值和測定值無顯著性差異。Klason木質素模型所得散點在y=x直線兩側均勻分布且數目差異不大,同樣不存在明顯的系統性誤差;雙尾T檢驗P值為0.949 9,預測值和測定值無顯著性差異。


本研究對尾巨桉-馬占相思混合制漿原料樣本的原始光譜進行一階導數和標準正態變換預處理后,通過4種算法建立模型,確定了LASSO法建立的尾巨桉分析模型和綜纖維素分析模型最優,模型RMSEP值分別為1.80%、0.60%,絕對偏差分別為-3.03%~3.17%、-1.03%~0.98%;偏最小二乘法建立的聚戊糖分析模型最優,RMSEP值為0.75%,絕對偏差為-1.26%~1.33%;支持向量機法建立的Klason木質素分析模型最優,RMSEP值為0.48%,絕對偏差為-0.82%~0.86%。其中尾巨桉分析模型和綜纖維素分析模型適用于對尾巨桉-馬占相思混合制漿原料較精確的快速分析,但模型均存在一定的偏移,使得分析結果略低于實測值。而聚戊糖模型和Klason木質素分析模型適用于非精確性的測定。本研究證實了LASSO算法用于制漿混合原料分析的可行性,與目前常用的其他化學計量學方法相比,該建模方法較為新穎,為算法擇優選用以建立更精確的校正模型提供了更多的選擇。