沈文浩 劉 章 葉文軒 焦 東
(1.華南理工大學制漿造紙工程國家重點實驗室,廣東 廣州,510640;2.廣州造紙股份有限公司,廣東 廣州,510281)
對于廢紙來源和纖維種類的劃分,美國等發達國家已經建立了非常完善的廢紙回收標準和制度,回收的廢紙分類準確,雜質含量少。廢紙種類不同,其纖維種類、成分以及性能等差異很大,直接決定了不同種類的廢紙漿性能之間的差異。通常,紙廠會采購多種不同種類的廢紙,以混合制漿的方法來保證紙漿品質[1]。影響廢紙漿性能的因素有很多,如纖維原料、制漿方法、打漿工藝、印刷加工方法、纖維循環回用次數、存放時間和環境條件等[2-5]。
掌握廢紙配比與廢紙漿性能之間的關系對于以廢紙為原料的造紙企業來說具有重要的意義。例如,提前預知粗漿塔出口處紙漿白度對于后續漂白階段減少化學品用量、降低生產成本具有積極的作用。由于影響廢紙漿性質的因素多且具有很大的不確定性,因此廢紙漿的性能指標與廢紙配比之間往往存在高度非線性關系,難以建立機理模型。目前,對于利用廢紙制漿的造紙企業,廢紙配比的選擇主要是憑借人工經驗,導致廢紙漿的性能指標與預期存在很大差異。
與其他質量穩定的造紙原料相比,廢紙來源和品質受多方面因素的影響,不同種類的廢紙之間存在明顯的差異,如8#美廢、10#美廢、37#歐廢等,無論是碎漿后漿料的白度,還是浮選與漂白后漿料的白度初始值明顯不同,各工段后漿料白度的增值也不盡相同[6-7]。考慮到紙廠生產過程中的歷史數據已經隱含了廢紙原料的諸多特性,因此利用數據挖掘與機器學習的方法,可以直接建立廢紙配比與廢紙漿性能指標之間的關系模型[8],為紙廠確定合適的廢紙配比提供科學的定量方法。本課題利用某紙廠3年的廢紙漿檢測數據和對應的廢紙配比數據,選擇支持向量機 (SVM)和BP神經網絡的方法,在MATLAB軟件平臺下建立廢紙配比與廢紙漿白度指標之間的預測模型。
人工神經網絡的原理是利用神經元節點之間的數學關系建立出能模擬復雜函數關系的網絡[9]。目前越來越多地作為一種可供選擇的數學工具來處理各領域中的問題,如系統辨識、預測、模式識別、分類、過程控制[10]。人工神經網絡中最受關注的是BP神經網絡[11],大多數神經網絡結構都采用BP神經網絡的結構。典型的BP神經網絡是一個全神經網絡,即包含3層結構:輸入層、隱藏層和輸出層,每一個神經元的輸出可由式 (1)來描述。

式中,Xi為輸入信號,Wki為神經元權值,θk為神經元閾值,f(x)為神經元傳遞函數,Yk為神經元輸出。
BP算法是基于誤差最小化原則,即模型以實現期望值與預測值之間誤差最小為目的。神經網絡在訓練過程中就是要尋找合適的權值,這個過程實質上可視為一個非線性無約束最小化問題[12]。
SVM是建立在統計學理論基礎之上的新一代機器學習算法。從最初的應用于模式識別擴展到回歸擬合,這種新方法正在獲得越來越多的關注。SVM基于結構風險最小化原則,尋找出由訓練誤差和置信范圍組成的泛化誤差的最小上限[13]。
對于非線性回歸,基本思想是通過一個非線性映射Φ:Rn→H將樣本點映射到高維特征空間H,并在高維特征空間中進行線性回歸,從而得到在原空間的非線性回歸估計。回歸估計函數見式 (2)。

經過推導、引入內積核函數后,SVM的回歸函數式 (2)寫成式 (3)[14]。

αi、是推導過程中引入的拉格朗日乘子,它們滿足式 (4)條件。K(xi,x)是引入的核函數。
數據來源于某紙廠廢紙制漿生產線3年 (2011—2013年)的廢紙配比和廢紙漿檢測數據,該生產線是以100%廢紙為原料制漿,生產新聞紙,圖1是其制漿工藝流程簡圖。

圖1 某紙廠廢紙制漿工藝流程簡圖
紙廠3年中使用的廢紙種類共10種,其中以8#美廢為主,用量平均占比超過60%。另外還用到其他種類的廢紙,如10#美廢、日本廢紙、國內廢紙等。3年間,由于廢紙供應量、供應價格和紙漿性能要求等因素的影響,該廠更換了138次廢紙配比。
紙廠關注的廢紙漿性能指標分別是粗漿塔出口處紙漿的白度和灰分,以及貯漿塔送漿泵出口處紙漿的打漿度和抗張強度。根據相應的TAPPI標準離線測量得到以上紙漿性能指標,檢測方法和檢測頻率如表1所示。

表1 紙漿性能指標的檢測方法和檢測頻率
為了保證數據的可靠性,對數據進行預處理是建模前必不可少的步驟。

隨機選擇一組配比,該配比下的白度數據有200個。圖2(a)是這段時間內粗漿塔出口處紙漿白度的變化曲線。從圖2(a)可以看出,在同一廢紙配比下,白度是波動的,變化范圍為40%~46.4%。波動的原因推測如下:隨著季節和供應商的改變,同一種廢紙本身存在質量差異,即使采用同一配比,紙漿的性能指標也會有明顯不同。圖2(b)是這組白度數據的頻數直方圖,經過正態分布擬合后,可以看出白度數據大致服從正態分布,即服從N(μ,σ2),其中μ值是該組數據的平均值,σ是該組數據的標準差。采用3σ準則 (拉依達準則)對數據中的不可靠點進行剔除,超過該區間的數據被認為不可靠,予以剔除[15]。
為提高管理成效,學校有必要健全管理制度,制定一系列規章制度,增加思想教育管理的內容,要提高德育部門對思想教育管理工作的關注度。學校要樹立人本理念,要將學生、家長引入到學校的管理中,不搞一言堂,涉及到思想教育問題交由學生會決策處理,要經過討論形成科學有效的規章制度。管理是為了教育學生、維持教育教學秩序,促進學生綜合素質的發展。學校管理制度的制訂也要揚長避短,要盡量采納學生提出的合理建議,舍棄不合理的因素。管理制度也要兼顧教育者、被教育者的客觀實際,兼顧人性化、嚴肅性。
在選定的紙漿性能指標中,由于白度測量頻繁,數據信息量較大,采用 [μ-2σ,μ+2σ]作為數據的可信區間;對于數據量相對較少的打漿度、抗張強度和灰分,采用 [μ-3σ,μ+3σ]作為可信區間。預處理后紙漿各性能指標的數據量如表2所示。

表2 預處理前后紙漿各性能指標數據總量對比
從表1和表2可以看出,由于紙漿白度指標測量頻繁,數據量最多,而且也是紙廠目前最關注的紙漿性能指標,所以,下文只介紹通過廢紙配比建立紙漿白度的預測模型,其他紙漿指標的預測方法類同。
3.2.1 BP神經網絡預測模型
本研究中10種廢紙的用量都會影響紙漿的白度,所以,根據BP神經網絡的建模原理,確定輸入層神經元個數為10(X1,X2,…X10),輸出層的神經元個數為1(Y1)。由于只含有一個隱含層的3層BP神經網絡就能以任意精度逼近一個連續函數[16],因此選取標準的3層BP神經網絡進行建模。
圖3所示為該3層神經網絡的結構圖。目前并沒有準確公式可以推導出隱含層的個數,通常的辦法是選擇幾種不同神經元個數,進行模型預測能力的比較,確定出合適的神經元個數[17]。本研究分別以隱含層神經元個數 (20,50,100)組建3組不同的BP神經網絡,通過比較發現神經元個數為50的BP神經網絡精度最高,因此確定隱含層神經元個數為50。根據實際訓練時間和模型的收斂情況,利用MATLAB訓練BP神經網絡的參數為:允許最多訓練步數1000步,學習速率0.1,訓練最小誤差0.0001。

圖3 建立紙漿白度預測模型的3層BP神經網絡結構圖
3.2.2 SVM預測模型
SVM的許多特性是由所選擇的核函數來決定的,不同的核函數所表現的特性各不相同,因而由它們所構成SVM的性能也完全不同。目前,SVM的核函數可分為兩大類:全局核函數和局部核函數。鑒于組合的混合核函數兼有全局核函數和局部核函數的優點[18],本研究中SVM核函數采用多項式核函數和徑向基核函數組合的混合核函數,這樣SVM具有更好的泛化能力,也具有很好的學習能力。

除了核函數的選擇以外,SVM的參數選擇對模型的影響也較大,需要選擇較佳的參數組合。與前面BP神經網絡參數選取方式類似。
p選取 (0.5,0.7,0.85,0.95),q選取 (1,2,3),σ2選取 (2-10,2-9,…,29,210),懲罰因子C 選取 (2-10,2-9,…,29,210),經過組合訓練,比較模型精度后,確定合適的訓練參數為:p=0.85,q=1,σ2=1,C=4。
將表2中的138組配比數據隨機分為兩部分,其中130組作為訓練集,8組作為測試集,對預處理后的白度數據分別使用上述的BP神經網絡和SVM方法,用訓練集建立廢紙配比預測紙漿白度的數學模型,用測試集測試訓練好的預測模型,平均相對誤差(MRE,Mean Relative Error)用于評價預測精度。

下面是預測模型的建立和測試結果,建模數據分別是全部樣本數據和樣本均值數據。
利用全部樣本數據建立預測模型,即指利用每一組配比下所有的白度數據,分別采用BP神經網絡和SVM方法,建立依據廢紙配比預測紙漿白度的數學模型。以每組配比下所有白度數據的平均值作為該配比下的白度實測值,圖4是8組測試集中紙漿白度的預測值和實測值對比結果。從圖4可以看出,BP神經網絡和SVM都能夠合理預測出紙漿白度,但圖4(b)中的數據點較圖4(a)更靠近直線X=Y,同時表3中的1次試驗數據也說明SVM的預測精度較BP神經網絡的高。

為了避免隨機誤差,保持訓練集和測試集的數據量不變,但每次隨機組合訓練集和測試集重復進行10次建模和測試,分別記錄BP神經網絡和SVM的預測結果。圖5是利用兩種建模方法,對測試集進行10次預測的平均精度對比。由圖5可以明顯地發現,無論訓練集和測試集如何組合,SVM的預測精度普遍優于BP神經網絡。
同樣的預測結果也體現在表3中,表3列出了分別采用兩種建模方法進行1次試驗和10次試驗的模型預測精度和訓練時間。可以看出,不論是1次試驗還是10次試驗,SVM的預測精度均比BP神經網絡的高。但是,SVM預測模型的訓練時間遠遠大于BP神經網絡的訓練時間。這主要是由于SVM是借助二次規劃來求解支持向量,而求解二次規劃將涉及n階矩陣的計算 (n為樣本個數),當n數目很大時該矩陣的存儲和計算將耗費大量的機器內存和運算時間,因此,使用某一配比下全部白度數據建立預測模型,SVM的運算量遠遠大于BP神經網絡,相應需要更多的訓練時間。

表3 不同樣本數據集的BP神經網絡和SVM性能對比


由圖2(b)可知,紙漿白度數據近似服從正態分布,因此,針對上述使用全部樣本數據建模需要較長訓練時間的缺陷,可以采用一組配比下的所有白度數據的平均值作為該配比下的紙漿白度參考值。基于以上思路,同樣隨機選擇表2中130組數據作為訓練集,8組數據作為測試集,此時一組配比對應唯一的紙漿白度真實值。分別利用BP神經網絡和SVM方法建立紙漿白度預測模型。預測結果如圖6所示,同樣可以發現,圖6(b)中的數據點較圖6(a)更靠近直線X=Y,同時表3中的1次試驗數據也說明SVM預測模型的精度略優于BP神經網絡模型。
同樣地,重復進行10次建模和測試,圖7是利用兩種建模方法,對測試集進行10次預測的平均精度對比。由圖7可以看出,總體上,SVM的預測相對誤差小于BP神經網絡的相對誤差。同時,表3的數據進一步說明采用樣本平均值數據作為數據集,SVM的預測精度仍然優于BP神經網絡。需要特別指出的是使用樣本平均值數據建立預測模型所需的訓練時間明顯縮短,特別是對于SVM建模方法。
預測結果表明,使用樣本平均值數據建模時,雖然SVM模型的預測精度變化不大 (如圖8(b)所示),但是BP神經網絡的預測效果顯然有較明顯的提升 (如圖8(a)所示),預測精度提高了15%。這主要有兩方面原因,一是利用平均值數據使得一組配比下的白度指標唯一確定,而不是在一定范圍內波動;另一方面,全部數據中,每一組配比下白度指標的檢測次數并不相同,檢測次數多的必然會對模型有較大的影響。


圖8 全部樣本數據和平均值樣本數據建模的預測精度比較
表4所示為BP神經網絡模型和SVM模型的預測性能對比。由表4可知,SVM預測模型的相對誤差波動范圍ΔMRE均低于BP神經網絡,說明SVM方法的預測穩定性較好;與利用全部數據作為數據集相比,用樣本平均值數據作為建模數據集,BP神經網絡模型的預測精度提升了15%,模型訓練時間縮短為全部數據建模的8.8%;SVM模型的預測精度雖然僅提高了3%,但是模型訓練時間縮短為全部數據建模的0.08%。綜合表4中的數據可以看出,以樣本平均值數據作為數據集,采用SVM方法建立的預測模型,不僅有較好的預測精度 (2.42%)和良好的穩定性 (0.58%),而且模型訓練時間短 (0.2 s),完全可以應用于實際生產過程,這樣既有利于模型參數的優化,又方便新樣本數據加入時實現模型的及時更新。

表4 BP神經網絡模型和SVM模型的預測性能對比
本課題基于某紙廠廢紙制漿生產線3年的廢紙配比和廢紙漿性能檢測數據,分別采用BP神經網絡和支持向量機 (SVM)的建模方法,建立了基于廢紙配比預測紙漿白度的數學模型。研究發現,與BP神經網絡相比,SVM預測模型的預測精度普遍較高,誤差波動范圍更小,穩定性更高;BP神經網絡模型和SVM模型的訓練時間均大幅縮減,其中尤以SVM模型為甚,其模型訓練時間縮短為使用全部樣本數據建模所需的0.08%。這說明數據集的選擇對模型的預測精度同樣起著至關重要的作用,全部數據固然包含大量的信息,但是建模算法很難完全提取出有效的信息,相反可能會降低預測模型的精度和增加運算時間。綜合考慮模型預測精度、預測穩定性以及模型訓練時間等因素可以確定:以樣本平均值數據作為建模數據集,采用SVM方法建立紙漿白度預測模型,既能保證有較好的預測精度 (2.42%)和良好的穩定性(0.58%),而且模型訓練時間短 (0.2 s),所建立的預測模型精度可以滿足實際生產過程的需要,其極短的訓練時間也方便使用新樣本數據進行預測模型更新,以保證其實時性。
基于所需的紙漿白度反向推選出最優廢紙配比,并進一步考慮廢紙的價格、市場供應等多重因素,推選出最優廢紙配比,是本課題后續的研究,這將為造紙企業的廢紙采購和配比選擇提供決策支持。
[1]Zhu Xiao-mei.Application of Different Kinds of Waste Paper in Deinking Pulp Production[J].Paper Science & Technology,2013(6):22.朱曉梅.不同種類廢紙在脫墨漿生產中的應用實踐[J].造紙科學與技術,2013(6):22.
[2]Zhan Huai-yu.The classification of waste paper and the changes in regeneration process——one of the waste paper recycling technology lectures[J].Paper Science & Technology,1999(1):50.詹懷宇.廢紙的分類及其再生過程性質的變化——廢紙回用技術講座之一[J].造紙科學與技術,1999(1):50.
[3]Okwonna O.The effect of pulping concentration treatment on the properties of microcrystalline cellulose powder obtained from waste paper[J].Carbohydrate Polymers,2013,98(1):721.
[4]Zhan Huai-yu,Chen Jia-xiang.Pulping Principle and Engineering[M].Beijing:China Light Industry Press,2011.詹懷宇,陳嘉翔.制漿原理與工程[M].北京:中國輕工業出版社,2011.
[5]CHEN Jia-xiang.Research Process in Pulping Technology of Waste Paper[J].China Pulp & Paper,2003,22(2):43.陳嘉翔.廢紙制漿技術的研究進展[J].中國造紙,2003,22(2):43.
[6]LIU Cheng-liang,LIU Shu-guang,ZHAO Nian-zhen,et al.Pulping Properties of Waste Paper From Different Sources[J].China Pulp &Paper,2012,31(5):9.劉成良,劉曙光,趙年珍,等.不同廢紙脫墨制漿性能的研究[J].中國造紙,2012,31(5):9.
[7]HU Hui-ren,LI Hai-ming,ZHANG Pen.Preliminary Study on Deinked pulp Bleaching[J].China Pulp & Paper,2005,24(3):5.胡惠仁,李海明,張 盆.脫墨漿高白度漂白初步研究[J].中國造紙,2005,24(3):5.
[8]Tao Jin-song,Yang Ya-fan,Li Yuan-hua.Comparsion of paper tensile strength prediction models based on PLS and SVM methods[J].Journal of South China University of Technology:Natural Science Edition,2014(7):132.陶勁松,楊亞帆,李遠華.基于PLS和SVM的紙張抗張強度建模比較[J].華南理工大學學報:自然科學版,2014(7):132.
[9]Sha W,Edwards K L.The use of artificial neural networks in materials science based research[J].Materials & Design,2007,28(6):1747.
[10]Mjalli F S,Al-Asheh S,Alfadala H E.Use of artificial neural network black-box modeling for the prediction of wastewater treatment plants performance[J].Journal of Environmental Management,2007,83(3):329.
[11]Sadeghi B H M.A BP-neural network predictor model for plastic injection molding process[J].Journal of Materials Processing Technology,2000,103(3):411.
[12]Ju Q,Yu Z B,Hao Z C,et al.Division-based rainfall-runoff simulations with BP neural networks and Xinanjiang model[J].Neurocomputing,2009,72(13-15):2873.
[13]Su Xing,Li Huai-de,Long Hui-long.The study on temperature prediction model for dry gas-to-ethylbenzene reactor's outlet based on support vector machine[J].Computers and Applied Chemistry,2011(11):1372.蘇 興,李懷德,龍回龍.基于支持向量機的干氣制乙苯反應器出口溫度預測模型研究[J].計算機與應用化學,2011(11):1372.
[14]Cao L J,Tay F E H.Support vector machine with adaptive parameters in financial time series forecasting[J].IEEE Transactions on Neural Networks,2003,14(6):1506.
[15]Cheng D W,Han D,Wang W Y,et al.Study on the Fast Judgment of Abnormal Value with Excel.Proceedings of 20122nd International Conference on Computer Science and Network Technology[C]//New York:IEEE.2012.
[16]Jing G L,Du W T,Guo Y Y.Studies on prediction of separation percent in electrodialysis process via BP neural networks and improved BP algorithms[J].Desalination,2012,291:78.
[17]Labidi J,Tejado A,Garcia A,et al.Simulation of tagasaste pulping using soda-anthraquinone[J].Bioresour Technol.,2008,99(15):7270.
[18]Lu Rong-xiu.Application of mixed kernel function SVM in the system modeling[J].Journal of East China Jiaotong University,2010(2):63.陸榮秀.混合核函數支持向量機在系統建模中的應用[J].華東交通大學學報,2010(2):63.