周文君,李明河
(安徽工業(yè)大學(xué) 電氣與信息工程學(xué)院,安徽 馬鞍山 243002)
基于在線增量LSSVM的污水軟測(cè)量模型
周文君,李明河
(安徽工業(yè)大學(xué) 電氣與信息工程學(xué)院,安徽 馬鞍山 243002)
出水COD濃度的精準(zhǔn)預(yù)測(cè)是污水處理期望實(shí)現(xiàn)的目標(biāo),然而現(xiàn)有的離線模型對(duì)大規(guī)模時(shí)變更新的水質(zhì)數(shù)據(jù),預(yù)測(cè)效果會(huì)逐漸變差.針對(duì)該情況,采用離線模型結(jié)合增量學(xué)習(xí)的思想,提出基于在線增量LSSVM污水軟測(cè)量模型,即首先建立基于LSSVM污水軟測(cè)量模型,然后針對(duì)不斷更新的增量樣本,通過誤差閾值進(jìn)行篩選,有選擇地增量學(xué)習(xí),并結(jié)合合適的剪枝操作,實(shí)現(xiàn)樣本長(zhǎng)度的固定,對(duì)出水COD濃度在線預(yù)測(cè).仿真結(jié)果表明:相較于標(biāo)準(zhǔn)LSSVM模型,本模型在預(yù)測(cè)精度、預(yù)測(cè)時(shí)間上,都具備不同程度的優(yōu)勢(shì),很好地解決了離線學(xué)習(xí)的問題,實(shí)現(xiàn)在線精準(zhǔn)預(yù)測(cè).
污水軟測(cè)量;在線增量LSSVM;出水COD濃度;誤差閾值;剪枝操作
隨著工業(yè)現(xiàn)代化的不斷發(fā)展,環(huán)境污染特別是工業(yè)污水問題尤為突出.污水處理是一個(gè)具有強(qiáng)非線性、時(shí)變性、大滯后等特點(diǎn)的復(fù)雜工業(yè)過程,重要水質(zhì)出水COD濃度的檢測(cè)以及預(yù)判都顯得非常困難,因此軟測(cè)量技術(shù)作為傳統(tǒng)檢測(cè)技術(shù)的延伸和發(fā)展,應(yīng)用于污水處理具有重要的現(xiàn)實(shí)意義.
支持向量機(jī)(support vector machine,SVM)由于其良好的非線性系統(tǒng)辨識(shí)能力,近年來(lái)在污水處理中取得了廣泛應(yīng)用[1-3].然而其中大部分都是屬于離線模型的范疇,一旦遭遇數(shù)據(jù)大規(guī)模時(shí)變更新時(shí),模型的離線學(xué)習(xí)方式將不能夠滿足實(shí)際需求,預(yù)測(cè)效果逐漸降低.因此,很多專家學(xué)者提出離線模型結(jié)合增量學(xué)習(xí)的思想[4-10],使模型可以隨著時(shí)間更新變化具備不斷調(diào)整的能力.由于大多數(shù)增量式算法都是基于傳統(tǒng)支持向量機(jī),即在線求解凸二次規(guī)劃問題,計(jì)算效率較低,運(yùn)算時(shí)間較長(zhǎng).為了提高運(yùn)算效率,本文引入最小二乘支持向量機(jī)(LSSVM),用線性方程組取代二次規(guī)劃運(yùn)算,建立基于在線增量LSSVM學(xué)習(xí)算法,并添加篩選機(jī)制和剪枝操作,使模型相較于標(biāo)準(zhǔn)LSSVM模型,在準(zhǔn)確性和在線性都有一定的改善和提高.
最小二乘支持向量機(jī)通過引入非線性變換?:Rn?Rm,把樣本數(shù)據(jù)從低維輸入空間映射到高維特征空間,在高維特征空間中構(gòu)造線性回歸函數(shù).增量學(xué)習(xí)中,樣本數(shù)據(jù)隨著時(shí)間不斷添加,也就是樣本集隨著時(shí)刻t每次產(chǎn)生一個(gè)增量樣本.設(shè)更新后的樣本集表示為{(xt,yt)},其中,x(t)=[x1,x2,…xt],y(t)=[y1,y2,…yt],x(t)∈Rn,y(t)∈R.
LSSVM回歸函數(shù)表示為:

令U(t)=H(t)-1=(Qt+C-1I)-1,得到:

由式(2)可知,對(duì)矩陣U(t)的求解,本文選擇矩陣迭代的方式求逆運(yùn)算.

當(dāng)t+1時(shí),添加新增樣本,相應(yīng)H(t)則變成(t+1)*(t+1)的方陣:

矩陣分塊可得

式(3)是U(t+1)和U(t)之間的一個(gè)遞推公式,可知當(dāng)添加增量樣本時(shí),新矩陣求解可以根據(jù)以前存儲(chǔ)結(jié)果進(jìn)行迭代求解,避開對(duì)大維度矩陣求解,縮短了運(yùn)算時(shí)間,提高了運(yùn)算效率,給大規(guī)模數(shù)據(jù)在線預(yù)測(cè)提供了可行性.
1.2.1 誤差閾值
污水處理數(shù)據(jù)是時(shí)變更新的,當(dāng)大規(guī)模參數(shù)數(shù)據(jù)無(wú)差別地當(dāng)作增量樣本進(jìn)行學(xué)習(xí)時(shí),模型的負(fù)擔(dān)將會(huì)加重,效率將會(huì)下降,所以一定的篩選機(jī)制實(shí)現(xiàn)有選擇學(xué)習(xí),在保證準(zhǔn)確度的前提下減少學(xué)習(xí)次數(shù),提高學(xué)習(xí)效率[11].本文以模型訓(xùn)練結(jié)果為參照,所選取樣本訓(xùn)練偏差的平均值作為誤差閾值ek,即其中,n是所選訓(xùn)練樣本的個(gè)數(shù),yi是實(shí)際值,是預(yù)測(cè)值.
該方法的思想是針對(duì)每個(gè)樣本進(jìn)行樣本增量之前,首先由預(yù)測(cè)模型進(jìn)行預(yù)測(cè),求偏差,當(dāng)預(yù)測(cè)偏差超過誤差閾值,才對(duì)樣本進(jìn)行增量學(xué)習(xí),而對(duì)于沒有超過的樣本,則認(rèn)為該類樣本對(duì)LSSVM模型的效果影響不大,沒有多余其它信息的產(chǎn)生,不對(duì)其進(jìn)行增量學(xué)習(xí).
1.2.2 剪枝操作
當(dāng)模型面臨龐大的預(yù)測(cè)集數(shù)據(jù)時(shí),計(jì)算機(jī)儲(chǔ)存的歷史結(jié)果不斷增多,矩陣維度也相繼增大,對(duì)應(yīng)的迭代運(yùn)算也將會(huì)變得更加復(fù)雜,所以增量學(xué)習(xí)的同時(shí)需要添加必要的剪枝操作,本文參照文獻(xiàn)[11]的剪枝操作,認(rèn)為時(shí)變模型中原始數(shù)據(jù)包含的信息最弱,選擇剪掉最早加入的樣本數(shù)據(jù).
假設(shè)當(dāng)前模型已經(jīng)學(xué)習(xí)l個(gè)樣本,然后選擇去除最早的樣本,此時(shí)迭代矩陣可以表示為:


圖1 在線增量LSSVM算法流程
其中,v=k(x1,x1)+1/C,V=[k(x1,x2)…k(x2,x1)].
由式(4)可知可以通過剪枝進(jìn)行迭代求解.改進(jìn)算法的流程如圖1所示.
本文基于對(duì)BAF污水處理出水COD的預(yù)測(cè)研究,實(shí)驗(yàn)數(shù)據(jù)來(lái)源于某環(huán)保公司BAF項(xiàng)目正常運(yùn)作下各儀表現(xiàn)場(chǎng)檢測(cè),并通過PLC傳輸,在上位機(jī)顯示的實(shí)時(shí)采樣值.采樣系統(tǒng)定時(shí)在線采集與出水COD有著密切聯(lián)系的變量,即進(jìn)水COD濃度、進(jìn)水NH3-N、溶解氧(DO)濃度、進(jìn)水PH、水力停留時(shí)間(HRT)、TN(總氮)、TP(總磷)等.為了保證建模的準(zhǔn)確和便利,通過主元分析法選取部分過程變量取代之前的所有變量,并反映之前變量的所有信息,即通過SPSS軟件利用貢獻(xiàn)率大小對(duì)出水COD濃度影響因子進(jìn)行篩選,最終選取進(jìn)水COD濃度、進(jìn)水NH3-N、溶解氧(DO)濃度、進(jìn)水PH作為模型的輸入變量,建立出水COD濃度的污水軟測(cè)量模型.
為了驗(yàn)證本文改進(jìn)算法在精度上的有效性,篩選出其中的200組污水?dāng)?shù)據(jù),其中150組作為訓(xùn)練數(shù)據(jù),且當(dāng)作滑動(dòng)窗口的大小,后50組作為在線預(yù)測(cè)數(shù)據(jù).核函數(shù)選用RBF核函數(shù),并且選用PSO算法進(jìn)行參數(shù)優(yōu)化,用本文改進(jìn)的在線增量LSSVM算法進(jìn)行訓(xùn)練預(yù)測(cè),仿真曲線如圖2和圖3所示.

圖2 在線增量LSSVM模型訓(xùn)練曲線

圖3 在線增量LSSVM模型測(cè)試曲線
由圖2和圖3可以看出,在線算法的模型準(zhǔn)確度較高,當(dāng)模型遭遇大規(guī)模時(shí)變數(shù)據(jù)時(shí),可以實(shí)現(xiàn)對(duì)出水COD濃度在線準(zhǔn)確預(yù)測(cè).為了更直觀地驗(yàn)證在線模型的準(zhǔn)確性,從選擇數(shù)據(jù)的角度進(jìn)行分析,以均方根誤差作為模型優(yōu)劣的評(píng)判依據(jù),公式為.選擇在線增量LSSVM、增量LSSVM和標(biāo)準(zhǔn)LSSVM三種模型分別進(jìn)行建模,并且記錄各自的均方根誤差,結(jié)果如表1所示.
由表1可知,相比于標(biāo)準(zhǔn)的LSSVM模型,增量LSSVM模型均方根根誤差為0.4979 mg/L,略有提升,即增量學(xué)習(xí)解決了離線模型面臨的問題,但對(duì)于計(jì)算精度的提升并沒有很好效果.在線增量LSSVM模型均方根誤差為0.3442mg/L,相較于以上兩者,預(yù)測(cè)精度得到一定幅度的提升.由此可見,在線算法可以避免離線學(xué)習(xí)的弊端,實(shí)現(xiàn)對(duì)出水COD濃度的準(zhǔn)確預(yù)測(cè).

表1 不同預(yù)測(cè)模型均方根誤差對(duì)比

表2 在線增量LSSVM和標(biāo)準(zhǔn)LSSVM運(yùn)算時(shí)間對(duì)比
增量學(xué)習(xí)主要通過矩陣迭代代替復(fù)雜的求逆運(yùn)算,縮短了運(yùn)算時(shí)間,提高了效率.本文選擇標(biāo)準(zhǔn)LSSVM和在線增量LSSVM,分別記錄面對(duì)不同數(shù)量樣本情況下模型運(yùn)算時(shí)間,結(jié)果如表2所示.
由表2可知,無(wú)論樣本個(gè)數(shù)是多少,在線增量LSSVM模型的運(yùn)算時(shí)間都比標(biāo)準(zhǔn)LSSVM要短,且隨著樣本數(shù)量的增多,在線模型時(shí)間的增量幅度比標(biāo)準(zhǔn)LSSVM要低很多,對(duì)處理數(shù)量規(guī)模龐大樣本的優(yōu)勢(shì)就更明顯,提高運(yùn)算效率.
本文以LSSVM為模型算法,結(jié)合增量思想,將增量學(xué)習(xí)算法應(yīng)用于出水COD濃度的預(yù)測(cè),很好地解決了離線模型面臨大規(guī)模數(shù)據(jù)時(shí)預(yù)測(cè)效果變差的弊端,在保證預(yù)測(cè)準(zhǔn)確度的前提下,實(shí)現(xiàn)了在線測(cè)量.并且,本文也添加相應(yīng)的改進(jìn)措施,即誤差閾值的設(shè)置以及剪枝操作對(duì)模型進(jìn)行進(jìn)一步的完善,是模型的稀疏性和在線性得到一定的改進(jìn)和完善,更好的實(shí)現(xiàn)對(duì)出水COD濃度的在線精準(zhǔn)預(yù)測(cè).
[1] 尹先清,羅曉明,王文斌,等.基于SVM方法的含聚污水電化學(xué)處理過程控制研究[J].西安石油大學(xué)學(xué)報(bào):自然科學(xué)版,2016(3):92-97.
[2] 程 呈.混合多模型曝氣生物濾池污水處理軟測(cè)量建模研究[D].馬鞍山:安徽工業(yè)大學(xué),2016.
[3] 連曉峰,李曉婷,潘 峰.機(jī)理模型與補(bǔ)償模型相結(jié)合的污水處理工藝出水指標(biāo)軟測(cè)量預(yù)測(cè)模型研究[J].計(jì)算機(jī)與應(yīng)用化學(xué),2013(10):1143-1147.
[4] 潘世超.增量支持向量機(jī)學(xué)習(xí)算法研究[D].太原:山西大學(xué),2015.
[5] 陳沅濤,徐蔚鴻,吳佳英.一種增量向量支持向量機(jī)學(xué)習(xí)算法[J].南京理工大學(xué)學(xué)報(bào),2012(5):873-878.
[6] 王 玲,穆志純,郭 輝.一種基于聚類的支持向量機(jī)增量學(xué)習(xí)算法[J].北京科技大學(xué)學(xué)報(bào),2007(8):855-858.
[7] GU B,SHENG V S,WANG Z,et al.Incremental learning for v-support vector regression[J].Neural Networks,2015,67:140-150.
[8] LIANG Z,LI Y F.Incremental support vector machine learning in the primal and applications[J].Neurocomputing,2009,72(10):2249-2258.
[9] CAUWENBERGHS G,POGGIO T A.Incremental and decremental support vector machine learning[C] //NIPS.the 13th International Conference on Neural Information Processing Systems.Cambridge:MIT Press,2000:388-394.
[10] LIU X,ZHANG G,ZHAN Y,et al.An incremental feature learning algorithm based on least square support vector machine[C]//International Workshop on Frontiers in Algorithmics.Changsha:Springer Berlin Heidelberg,2008:330-338.
[11] 梅 倩.LS-SVM在時(shí)間序列預(yù)測(cè)中的理論與應(yīng)用研究[D].重慶:重慶大學(xué),2013.
[12] 劉雙印,徐龍琴,李振波,等.基于PCA-MCAFA-LSSVM的養(yǎng)殖水質(zhì)pH值預(yù)測(cè)模型[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2014(5):239-246.
[13] 楊 柳,孫金華,馮仲科,等.基于PSO-LSSVM的森林地上生物量估測(cè)模型[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2016(8):273-279.
[14] 張浩然,汪曉東.回歸最小二乘支持向量機(jī)的增量和在線式學(xué)習(xí)算法[J].計(jì)算機(jī)學(xué)報(bào),2006,29(3):400-406.
[15] 蘇書惠,張紹德,譚敬輝.基于支持向量機(jī)的污水處理軟測(cè)量算法的研究[J].自動(dòng)化與儀器儀表,2009(6):6-9.
Wastewater Soft Sensor Modeling Based on Online Incremental LSSVM
ZHOU Wenjun,LI Minghe
(School of Electrical and Information Engineering, Anhui University of Technology, Maanshan 243002, China)
Precise prediction of COD concentration is the desired target in the wastewater treatment process.How?ever,the existing off-line soft-sensing model’s predictive effect will be gradually worse facing large-scale real-time updated water quality data.Aiming at this,it proposed a wastewater soft sensor model based on on-line in?cremental least squares support vector machine(LSSVM)was proposed in this paper.Firstly,a wastewater soft sensor model based on on-line incremental LSSVM was built up;secondly,the error threshold was set to achieve a selective incremental learning and constantly update support vectors;thirdly,the matching pruning operation was selected to achieve the size of the sample fixed.The simulation results demonstrated that the model can solve the problems of off-line learning,and can realize online precise forecasting.
wastewater soft-sensing;on-line incremental LSSVM;effluent COD concentration;error threshold value;pruning operation
X703;TP301.6
A
2095-4476(2017)11-0005-04
2017-08-02
安徽省軟科學(xué)研究計(jì)劃項(xiàng)目(1502052034)
周文君(1992—),女,安徽無(wú)為人,安徽工業(yè)大學(xué)電氣與信息工程學(xué)院碩士研究生.
(責(zé)任編輯:饒 超)
湖北文理學(xué)院學(xué)報(bào)2017年11期