崔 海,余鑫磊,龐繼偉,楊珊珊,任南琪,丁 杰
(1.哈爾濱工業大學 環境學院,哈爾濱 150090;2.哈爾濱供水集團有限責任公司,哈爾濱 150010;3.中國節能環保集團有限公司,北京 100082)
城鎮污水廠是重要的城鎮基礎設施,日益嚴格的環保要求和不斷增長的污水處理量,給污水廠造成了更大的處理壓力,對于污水廠的運行管理提出了更高的要求。進水條件與操作參數相關聯,及時掌握進水水質變化特征對于運行控制方案的制定,以及保障出水穩定達標具有重大的意義[1-2]。BOD5(5 d生化需氧量)作為耗氧第一要素,是污水廠重要的日常監測水質參數,進水BOD5對于曝氣控制與碳源投加方式具有一定的指導作用。因此,實現BOD5快速和準確的測定有利于污水廠的科學運維和優化管理。
BOD5的傳統測定方法是稀釋與接種法,流程簡單,但具有測量耗時和干擾性大的主要缺點[3]。為解決傳統測量方法分析時間滯后的弊端,近年來BOD5檢測方法的研究集中于快速測定和軟測量方法。微生物傳感器法是目前研究最深入和應用最廣泛的一種快速測定方法,大多數方法需要平均30 min估計BOD5,最快的系統可以在70 s內提供樣品的BOD5,為BOD的現場快速檢測提供了依據。由于生化反應的復雜性,各種快速測定方式都具有一定局限性,如適用范圍窄、維護保養復雜、花費昂貴等。與硬件測量相比,軟測量方法響應迅速、投資成本低,能當作硬件儀表的軟冗余和用于過程優化以及故障診斷。隨著工業過程中記錄數據可用性和數據處理計算能力可用性的提升,軟測量技術將具有更加廣闊的應用前景[4]。常用的軟測量建模方法有機理分析建模、統計回歸建模、人工神經網絡等機器學習建模。水質監測過程中的軟測量建模,最常用的有傳統的線性統計模型如多元線性回歸(MLR)、各種神經網絡如BP神經網絡、RBF神經網絡以及支持向量回歸機(SVR)方法[5]。此外還有模糊邏輯、深度學習模型、組合模型等,對于處理過程出水水質還有耦合機理模型(活性污泥模型ASM1、ASM2、ASM3)的參數預測[6-8]。據2008—2019年國內涉及不同軟測量技術的相關論文統計,基于神經網絡的軟測量技術是污水處理行業最常見的軟測量技術手段,其中BP網絡常作為對比方法出現在論文中,其次是支持向量機方法,占比約35%[9]。
機器學習的模型訓練過程常常使用優化算法實現參數的快速高效優化。劉幫等[10]采用粒子群優化算法SVR方法建立序批式活性污泥反應器出水BOD5的軟測量模型,并對比BP網絡和標準的SVR,結果表明,粒子群優化算法SVR模型誤差小、精度高,降低了模型的復雜度,提高了其泛化能力,能達到較好的預測效果。Bagheri等[11]建立神經網絡-遺傳算法模型預測污泥體積指數(SVI),采用遺傳算法對神經網絡的權值和閾值進行優化,訓練和驗證模型顯示SVI的實驗值和預測值幾乎完全匹配。Huang等[12]將粒子群優化算法(PSO)、遺傳算法(GA)和網格搜索算法(GS)改進后的支持向量機(SVM)方法應用于鐵路危險貨物運輸系統的風險識別,發現標準SVM算法的優化時間最短,GA-SVM算法的準確率最高。優化算法的使用改善了模型學習效率低、收斂速度慢和容易陷入局部極小等缺點,因此,本研究考慮了不同優化算法對SVR模型預測性能的影響,以期實現更好的預測效果。
目前,BOD的測量多集中于預測出水水質而忽略進水水質BOD檢測,本研究分別采用BP神經網絡以及GS-SVR、PSO-SVR和GA-SVR 4種方法,通過建立其他進水參數與進水BOD5的數學關系模型,即軟測量模型,實現對進水BOD5快速測定。并通過對比各機器學習模型的性能,建立適用進水BOD5預測的軟測量模型。
誤差反向傳播人工神經網絡(BP-ANN)最早由Rumelhart等[13]提出,其顯著特點是輸入樣本信息正向傳播、輸出誤差反向傳播,結構上具有輸入層、隱含層和輸出層,隱含層可以為一層或多層,上一層與下一層之間的神經元全互連,不存在其他的連接方式。網絡學習和訓練過程主要由正向計算過程和反向計算過程組成。
在正向傳播階段,輸入層神經元負責接收外界數據并傳遞信息給隱含層神經元;隱含層各神經元進行信息的加工處理,將從輸入層傳遞來的輸入值,按對應的連接權重加權求和,通過傳遞函數映射以產生神經元的輸出,最后傳給輸出層的神經元;輸出層向外傳遞處理結果。神經網絡的某個輸出為
(1)
式中:n和q分別為輸入層和隱含層神經元個數;ωij為第i個輸入層神經元與第j個隱含層神經元的連接權值;xi為來自第i個輸入層神經元的輸入值,即訓練樣本第i維屬性的觀測值;bj為第j個隱含層神經元的閾值;fh為隱含層神經元的傳遞函數,通常視需求采用tansig函數或logsig函數等;νjk為第j個隱含層神經元與第k個輸出層神經元的連接權值;bk為第k個輸出層神經元的閾值;fo為輸出層神經元傳遞函數,采用線性傳遞函數purelin(即Y=X)。
當實際輸出與期望輸出不相符,進入輸出誤差的反向傳播階段。誤差由輸出層開始,按照梯度下降的方式,通過隱含層向輸入層逐層反傳,誤差因此分攤給各層所有神經元。各單元以獲得的誤差信號修正節點的連接權值和自身閾值,完成一次迭代,經過反復信息正向、誤差反向傳遞過程,直到誤差達到預設的程度才停止訓練。
BP網絡的關鍵步驟是確定隱含層數、隱含層神經元數,其直接影響網絡對復雜問題的映射能力。研究證明單隱層的BP網絡可以實現對任意連續函數的逼近[14],故選擇使用率最高的經典三層BP網絡。隱含層神經元數常用經驗公式確定大致區間,并結合基準比較,選擇最合適的值:
(2)
式中:n和m分別為輸入層和輸出層的神經元個數,α為[1,10]的常數。
標準的BP網絡依賴用誤差函數的梯度下降調整權值,BP算法也存在一些固有缺陷,例如,迭代次數過多時會降低學習效率,導致收斂速度很慢;權值沿局部改善方向調整使網絡對初始權重敏感,結果容易陷入局部極小。因此,為提高網絡訓練速度和精度,避免落入局部極小,在實際應用中,需要采用BP算法的改進算法,包括啟發式學習算法如附加動量法、自適應學習率算法和基于數值最優化理論的訓練算法如L-M(Levenberg-Marquardt)算法、共軛梯度算法、擬牛頓法以及動量-自適應學習速率調整算法等優化算法的組合[15]。
SVR是Drucker等在支持向量機分類的基礎上,引入核函數和損失函數,通過將數據映射到高維空間,找到最優擬合超平面,使所有的訓練樣本與該面的總偏差最小,以解決非線性回歸問題。
給定訓練樣本集D={(xi,yi)|i=1,2,…n},SVR的目標是找到一個回歸函數f(x),使其與實際輸出y盡可能接近:
f(x)=ωTφ(x)+b
(3)
式中:ω和b分別為函數模型的法向量和截距;φ(·)為非線性映射函數,作用是將樣本從原始輸入空間映射到更高維的特征空間。
同時,考慮到由于微小噪聲的影響,訓練樣本中可能存在特異點,需要定義一個損失函數,可以忽略真實值某個上下范圍內的誤差,通常采用如下的ε不敏感損失函數:
(4)
式中ε為指定的參數,是函數的擬合精度。當預測值f(x)和真實值y之間的差值絕對值大于ε時,才計算損失,否則損失為0。

s.t.f(xi)-yi≤ε+ξi
(5)
式中常數C>0為懲罰因子,用于控制對超出誤差ε的樣本的懲罰程度,以綜合兩個目標的權重。
運用拉格朗日乘子法對式(3)進行求解,目標函數轉化為對偶形式:
(6)

因此,可以用核函數K(xi,xj)=φ(xi)·φ(xj)代替特征空間內積φ(xi)·φ(xj)實現非線性回歸,于是得到的回歸函數即SVR的解為
(7)
式中K(xi,xj)應滿足Mercer條件,選擇的核函數不同,構造的SVR不同,但尋找支持向量的方法是不變的。常用的核函數有線性核、多項式核、高斯徑向基(RBF)核和sigmoid核函數。
研究表明,一般RBF核函數泛化能力最好、穩定性高,適用于不同樣本和各種維度問題的處理,本研究核函數類型設置為RBF,其表達式如下:
K(xi,xj)=exp(-γ‖xi-xj‖2)
(8)
式中γ為核函數參數。
根據SVR原理,SVR模型需要確定兩類參數,第一類是SVR算法的固有參數,包括不敏感損失函數ε和懲罰因子C;另一類是SVR算法引入的核函數參數γ。參數對假設的高維空間規模以及搜索計算方式都有很大的影響,因此,尋找最優的參數組合對于SVR是必須考慮的關鍵問題。目前,對于SVR參數的優化選取,常用的方法有網格搜索算法(GS)、粒子群優化算法(PSO)和遺傳算法(GA),基于這些優化算法提出了改進的支持向量回歸模型。
1.3.1 GS-SVR
網格搜索法是一種對待求參數值進行窮舉搜索的方法,其原理是將待定的參數在一定的搜索范圍內,沿著搜索方向根據一定的調節步長生成相交的網格,形成對應可能的最優參數組合的網格點,然后尋遍所有網格點確定誤差最小的最優參數組合。當需要調整的參數過多時,GS算法會十分消耗計算內存和時間,因此,GS算法通常用于調整SVR模型的懲罰因子和核參數,具體操作步驟如下:
1)確定初始參數C和γ的搜索范圍和步長,并根據其建立參數網格搜索空間。
2)計算搜索空間內每個網格點參數的適應度,不斷更新適應度極值,直到獲得最佳適應度對應的C和γ,實現網格搜索優化。
3)將獲取的最優C和γ代入SVR模型,建立訓練集數據的數學回歸模型并將測試集用于該回歸模型完成預測。
1.3.2 PSO-SVR
PSO是一種基于種群的算法。粒子的個體集合在一個區域內步進移動,在每一步中,算法評估每個粒子的目標函數,評估之后,算法決定每個粒子的新速度。粒子移動,然后算法重新評估。該算法的靈感來自成群的鳥或昆蟲。每個粒子都在某種程度上被吸引到迄今為止它所發現的最佳位置,也吸引到群體中任何成員所發現的最佳位置。PSO是一種啟發式算法,能減小計算復雜度、提高SVR的運行收斂速度,實現在更大的范圍內更快速尋找最佳參數組合。PSO算法對SVR模型參數調整的具體操作步驟如下:
1)確定參數C、ε和γ的尋優范圍。
2)設置PSO的基本參數,包括種群規模、學習因子、最大迭代次數等。初始化所有粒子的速度和位置。
3)計算每一代進化中各個粒子的適應度函數值。若該粒子當前的適應度函數值優于歷史最優值,則替換最優適應值和相應位置。
4)直到達到最大迭代次數或最優解不再變化,則終止迭代,輸出最優參數C、ε和γ。
5)將獲取的最優參數組合代入SVR模型,建立訓練集數據的數學回歸模型并將測試集用于該回歸模型完成預測。
1.3.3 GA-SVR
GA是一種解決約束和無約束優化問題的方法,其基于自然選擇,自然選擇是驅動生物進化的過程。遺傳算法反復修改個體解的群體。在每一步中,遺傳算法從當前群體中隨機選擇個體作為父母,并使用它們為下一代產生孩子。經過連續幾代,種群“進化”到一個最優解。GA算法對SVR模型參數的優化選擇步驟如下:
1)確定參數C、ε和γ的尋優范圍。
2)初始化GA的基本參數,包括種群規模、交叉概率、變異概率等。一組(C,ε,γ)表示種群中的一個個體。
3)計算個體適應度值并判斷是否滿足終止迭代條件,若滿足則轉到步驟4),若不滿足將進行選擇、交叉、變異,產生新種群,返回步驟2)。
4)迭代結束得到的最優(C,ε,γ)組合代入SVR模型,建立訓練集數據的數學回歸模型并將測試集用于該回歸模型完成預測。
進水BOD5的軟測量建模過程如圖1所示。首先,需要通過對進水BOD5進行機理分析,選取與進水BOD5關聯性強的變量作為輔助變量,其次,對選取和收集到的變量數據進行異常數據剔除和數據標準化處理,然后選擇合適的軟測量模型建模方法建立進水BOD5預測模型。本研究采用BP-ANN和GS-SVR、PSO-SVR、GA-SVR 3種改進SVR模型作為進水BOD5軟測量建模方法,最后,將獲得的軟測量模型對進水BOD5訓練、預測,并根據模型評價指標對模型進行合理的評估。具體步驟如下。

圖1 進水BOD5軟測量建模流程Fig.1 Flow chart of modeling of influent BOD5 soft sensing

2)數據預處理。使用“3σ方法”對采集到的數據進行異常值剔除,并在輸入模型前進行數據標準化處理,以消除數據級、量綱的差別影響,數據標準化的公式如下:
(9)

3)建立預測模型。分別應用BP-ANN和改進SVR進行模型構建,樣本訓練集和測試集按照8∶2的比例進行隨機劃分。根據不同建模方法的情況,進行模型參數的調節和優化,得到最優模型。
4)模型評估。采用平均絕對誤差(EMS)和相關系數R對模型進行評估,計算方法如下:
(10)
(11)

使用MatlabR2016a為實驗平臺,實現BP-ANN和SVR模型,此外,為實現優化算法在建立基于SVR的進水BOD5軟測量模型時,運用了李洋編寫的SVM工具包[16]。


圖2 預處理后的數據集Fig.2 Preprocessed data set


表1 進水水質指標的相關系數Tab.1 Correlation coefficient of influent water quality parameters
在確定輔助變量和主導變量后,網絡的輸入層與輸出層的神經元個數分別確定為5和1,選擇構建單隱層的BP網絡。由經驗公式(2),并通過基準比較,確定BP軟測量模型的網絡拓撲結構為[5 10 1]。選擇tansig函數作為隱層神經元的傳遞函數,使用基于數值最優化L-M(Levenberg-Marquardt)算法的“trainlm”訓練函數,學習函數為帶動量項的BP梯度下降學習規則“learngdm”,其他參數為默認值。由于網絡權值隨機初始化,需將建立的BP-ANN軟測量模型進行多次運行,以擬合度最高及均方差最小為原則,得到最優的網絡模型。
訓練集擬合結果和測試集的預測效果如圖3所示,可以看出,整個數據集的EMS為656.22,訓練集和測試集的實測值與預測值的相關系數分別為0.81和0.80,說明該最優模型的泛化性能較好。

圖3 基于BP網絡的BOD5實測值與預測值的線性回歸Fig.3 Linear regression of measured and predicted BOD5 values based on BP network
2.4.1 基于GS算法的參數尋優
采用網格搜索法選取最優參數組合,設定懲罰參數C和RBF核參數γ的取值均為[2-5,25],步長為1(以2為底的冪指數下變化),采用5折交叉驗證方法進行訓練,獲得每個參數組合下模型性能,結果見圖3~5。得到最優參數C和γ分別為0.5(2-1)和8(23),最小標準化訓練數據的EMS為0.012 6。根據計算得到的最優參數C和γ,對測試數據進行回歸預測。訓練集和測試集的擬合結果如圖4所示,可以看出,訓練集和預測集的R分別為0.83和0.80,數據集的EMS為602.99,表明基于GS-SVR的軟測量模型也具有較好的泛化能力,同時,訓練集的擬合結果優于BP-ANN軟測量模型,而且不需要進行多次運行。

圖4 基于GS-SVR的BOD5實測值與預測值的線性回歸Fig.4 Linear regression of measured and predicted BOD5 values based on GS-SVR
2.4.2 基于PSO的參數尋優
使用PSO算法進行參數尋優,具體參數設定:種群個數為20,最大進化代數即最大迭代次數設置為200,取C的搜索范圍為[0,100],γ的搜索范圍為[0,1 000],ε的搜索范圍為[0.01,1]。自我學習因子c1和群體學習因子c2設置為1.5和1.7,分別代表PSO的局部搜索能力和全局搜索能力,初始慣性權重w=1。得到最優參數C和γ分別為0.433 2和3.098 9,參數ε為0.01,最小標準化訓練數據的EMS為0.052 548。根據計算得到的最優參數組合對測試集進行回歸預測,結果如圖5所示。訓練集和預測集的R分別為0.83和0.79,整個訓練集的EMS為621.99,介于BP-ANN模型與GS-SVR模型之間,表明PSO的參數尋優方法沒有GS的參數尋優效果好,可能是由于GS的參數取值范圍和步長的設置比較合理。

圖5 基于PSO-SVR的BOD5實測值與預測值的線性回歸Fig.5 Linear regression of measured and predicted BOD5 values based on PSO-SVR
2.4.3 基于GA的參數尋優
通過GA算法進行參數尋優,具體參數設定:種群個數為20,最大進化代數即迭代次數設置為200,取C的搜索范圍為[0,100],γ的搜索范圍為[0,1 000],ε的搜索范圍為[0.01,1]。采用間接二進制編碼,每條染色體長度為54個基因,設置交叉概率為0.9,變異概率為0.01。最終得到最優參數C和γ分別為0.532 7和9.976 4,參數ε為0.033 5,最小標準化訓練數據的EMS為0.012 4。根據計算得到的最優參數組合對測試集進行回歸預測,實測值與預測值的比較結果見圖6。訓練集和預測集的R分別為0.85和0.81,整個訓練集的EMS為565.00,較GS-SVR和PSO-SVR模型分別降低了6.3%和9.2%,表明GA算法增強了SVR的參數全局最優搜索能力,能夠改善其預測性能。

圖6 基于GA-SVR的BOD5實測值與預測值的線性回歸Fig.6 Linear regression of measured and predicted BOD5 values based on GA-SVR
本研究分別采用BP神經網絡和改進的SVR方法建立了BOD5的軟測量模型,可以看出,兩類模型有各自的特點。BP-ANN受隨機初始化權值閾值的影響大,需要調整確定的超級參數較多,學習記憶不穩定;SVR模型在較好的擬合效果的同時具有好的泛化性能,穩定性高。不同模型的性能比較如表2所示,可以看出,無論是訓練集還是預測集,基于GA-SVR的軟測量模型的擬合度最高,誤差最小,其次是GS-SVR和PSO-SVR、BP-ANN軟測量模型,說明GA-SVR的預測效果更為理想,能夠提升SVR建模方法的預測性能,更適用于污水廠的進水BOD5預測。

表2 不同軟測量模型的性能比較Tab.2 Performance comparison of different soft sensing models
圖7為不同軟測量模型預測結果,可以看出,GS-SVR、PSO-SVR和GA-SVR模型的擬合曲線很接近,都是基于同一非線性映射函數,均有不錯的全局搜索能力,這可能是由于建立SVR模型時,本研究的數據集具有合適的參數區間,GS-SVR的擬合效果略優于PSO-SVR,但遺傳算法相對網格搜索有更強的跳出局部最優解的能力。

圖7 不同軟測量模型預測結果比較Fig.7 Comparison of prediction results of different soft sensing models
模型的預測誤差如表3所示,對于實際BOD5質量濃度在250 mg/L以上和100 mg/L以下時,4種模型的預測偏差均較大,這可能是實際測量等原因導致數據集本身存在異常,或者在建模時還需要考慮天氣、水溫等其他因素,才能更進一步地提高軟測量模型的精確度。

表3 不同進水BOD5范圍下模型的預測誤差Tab.3 Prediction error of models in different influent BOD5 ranges
針對現階段水質參數BOD5難以實現在線測量的特點,以污水廠日常監測指標數據為基礎,基于BP-ANN、GS-SVR、PSO-SVR和GA-SVR方法構建了相應的進水BOD5軟測量模型。在污水廠進水BOD5質量濃度預測中,3種SVR模型均優于BP網絡模型,誤差排序為BP-ANN>PSO-SVR>GS-SVR>GA-SVR,采用GA優化的SVR模型預測效果最好,整體數據集的R和EMS分別為0.84和565.00,具有較好的精度和泛化能力,為實現污水廠進水BOD5的實時監測提供了可能性,對污水廠的管理具有一定的應用價值。