翁新龍,焦云強,歐陽福生,王建平,邸雪梅
(1.華東理工大學化工學院石油加工研究所,上海 200237;2.石化盈科信息技術有限責任公司)
在石化企業中,循環冷卻水系統的腐蝕、結垢等問題嚴重影響生產裝置的正常運行,造成經濟損失和水資源浪費[1]。針對冷卻水系統腐蝕與結垢問題的處理,主要是根據經驗通過向循環冷卻水系統中投加阻垢緩蝕劑、殺菌劑等藥劑來控制腐蝕和結垢。然而,該方法目前還不能根據水質指標的變化動態地調整藥劑用量,一方面可能導致藥劑浪費,另一方面無法實時應對水質異常變化。判斷循環冷卻水系統腐蝕、結垢趨勢的主要方法有掛片失重法與監測測試法[2]。其中,掛片失重法的采樣周期較長,一般需要1個月以上;監測測試法以采用探頭監測為主,受水質影響其探頭極易損壞,維修成本高昂。因此,通過上述方法均較難獲得足夠判斷系統腐蝕、結垢趨勢的有效數據。為了提高數據利用水平、準確判斷循環冷卻水系統的腐蝕、結垢狀況,亟待建立一套低成本、快速響應的循環水腐蝕、結垢預測模型。
某石化企業對循環冷卻水系統腐蝕、結垢判斷完全依賴現場操作經驗,王鐵強等[3]為克服這一弊端,運用Matlab建立了預測該系統循環冷卻水水質的NARX神經網絡模型。機器學習算法的數據處理能力強,是建立數據驅動模型必不可少的工具。喻西崇等[4]采用Cvda-84規范、BP神經網絡、改進的Rumelhart方法和MBP神經網絡4種不同方法分別對注水管道腐蝕速率進行了預測。曹生現等[5]基于粒子群算法(PSO)的小波神經網絡(WNN)建立了換熱器污垢熱阻和腐蝕速率的在線預測模型。李榮等[6]針對動態水質的預測,提出了一種基于遺傳算法改進的網絡模型方法。李超等[2]基于軟測量技術以及腐蝕結垢研究,設計研發了一套循環水腐蝕結垢在線預測系統。
然而,以上模型建模變量的選取多是依據操作經驗,缺少理論依據;而且,其預測結果的平均相對誤差(MAPE)均在10%以上、甚至高達20%以上,預測效果欠佳。模型建模變量的選取與模型預測的準確性密切相關,為了提高模型預測的準確性和魯棒性,本研究基于某石化企業循環水系統的大量基礎水質數據,在有效監控關鍵指標的基礎上,采用最大互信息系數(MIC)[7]、Pearson相關系數[8]法在14個水質指標中尋找具有代表性和獨立性的參數作為建模變量,通過BP神經網絡、KNN回歸和極端梯度提升(XGBoost)等機器學習算法建立循環水系統黏附速率和腐蝕速率的預測模型,對循環水系統可能出現的異常情況進行預測預警。
從某石化企業實驗室信息管理系統(LIMS)中采集了2020年1月至2022年12月的24個月循環冷卻水水質指標,共計1 015組數據。受現場因素的影響,取得的原始水質分析數據往往存在各種問題,需要進行預處理,剔除噪聲大、存在較大偏差的數據,并根據工作經驗刪除部分不符合實際情況的數據;同時,結合LIMS系統歷史樣本的分布區間及其水質標準,運用箱線圖[9-10]檢測各水質指標的異常值(設定異常值范圍在箱線圖內限之外),對出現無效值、缺失值或離群值過多的變量予以刪除或進行異常值替換。
經過數據預處理,保留了899組數據樣本以及14個水質性質指標:鈣含量、化學耗氧量(COD)、氯含量、總磷含量、游離氯濃度、正磷含量、鋅離子濃度、濁度、總堿度、氨氮含量、pH、電導率、腐蝕速率(FSSL)和黏附速率(NFSL)。
其中,FSSL指循環水管道金屬表層的年平均腐蝕厚度[6],表征循環冷卻水對管道的腐蝕速率,其計算見式(1),單位為mm/a。
(1)
式中:G為試件腐蝕后減少的質量,g;A為試驗管內表面面積,cm2;S為試樣腐蝕面積,cm2;D為金屬密度,g/cm3。
NFSL指循環水管道內部單位面積年平均沉積污垢的增長量[6],其計算見式(2),單位為mg/(cm2·a)。
(2)
式中:G1為試驗管試驗后的質量,mg;G2為試驗管試驗去除污垢后質量,mg;T為試驗時間,d。
此外,按照機器學習方法建模的要求,對所有變量數據進行歸一化處理[11],降低不同變量數據因數量級的差異而影響預測結果的準確性。歸一化處理后的數據樣本作為預測模型的輸入數據,以保證機器學習算法的速度和精度。
1.2.1最大互信息系數
經過數據預處理后,保留了14個水質指標變量。由于仍存在部分輸入變量與目標變量間相關性很低、變量間獨立性差、存在冗余變量等情況,因此,還需對保留的水質指標進行選擇。特征變量選擇是指從已知特征中選取隱含信息量較大的特征以減少數據集維度的方法,其能有效提高模型的效率。采用最大互信息系數衡量14個水質指標與預測目標變量間的相關性強弱,進而找到具有代表性的特征變量。將保留的14個水質指標的數據樣本經過歸一化后,以FSSL和NFSL為目標變量,分別計算其他12個水質指標與目標變量間的MIC值,結果見表1。

表1 各水質指標與FSSL和NFSL之間的MIC值
為了使模型具有說服力,應保留大部分有效變量;而為了提高模型模擬效率,需要精簡建模變量。綜合分析發現,當MIC在0.3以上時,相關指標之間具有較高的相關性[7]。因此,針對FSSL預測建模,需要精簡掉MIC小于0.3的指標,但由于要保留更多的有效變量,將MIC值接近0.3的氯含量和鋅離子濃度2個指標保留,去掉總堿度、電導率和濁度3個指標,最終留下鈣含量、COD、氯含量、總磷含量、游離氯濃度、正磷含量、鋅離子濃度、氨氮含量、pH總共9個指標。同理,針對NFSL預測建模,去掉COD、濁度和pH 3個指標,最后留下鈣含量、氯含量、總磷含量、游離氯濃度、正磷含量、鋅離子濃度、氨氮含量、總堿度和電導率總共9個指標。
1.2.2Pearson相關性分析
為了解決輸入變量之間的多重共線性問題,篩選出獨立性較強的建模變量,利用Python平臺通過Pearson相關系數(r)法對上述保留輸入變量間的相關性進行分析,結果見圖1。研究表明,當r絕對值大于0.6時,變量間線性相關性顯著,只保留其一即可[8]。由圖1可知:對于目標變量FSSL預測模型,各輸入變量間的r絕對值均小于0.6,故保留所有輸入變量;而對于目標變量NFSL預測模型,r絕對值大于0.6的輸入變量只有電導率,故將其剔除。

圖1 FSSL與NFSL預測模型輸入變量間的Pearson相關性分析
綜合MIC和r的分析結果,最終確定針對目標變量FSSL預測模型的輸入變量共9個,分別為鈣含量、COD、氯含量、總磷含量、游離氯濃度、正磷含量、鋅離子濃度、氨氮含量、pH;針對目標變量NFSL預測模型的輸入變量共8個,分別為鈣含量、氯含量、總磷含量、游離氯濃度、正磷含量、鋅離子濃度、氨氮含量、總堿度。
分別采用BP神經網絡、KNN回歸和XGBoost 3種機器學習算法,建立的循環水系統以FSSL和NFSL為目標變量的預測模型。將預處理后的899組數據樣本按照4∶1的比例隨機劃分成訓練集和測試集,用于所建模型的訓練和測試,用于模型評價的指標有均方誤差(MSE)、擬合決定系數(R2)和MAPE。依據客戶對循環水系統腐蝕和結垢程度的預警要求,其FSSL和NFSL的預警限值分別設定為0.7 mm/a和10.8 mg/(cm2·a)。899組數據樣本中,FSSL和NFSL超出預警限值的數據樣本分別有95組和39組。
BP人工神經網絡是最常用、最成熟的神經網絡之一[12]。其包含輸入層、隱含層和輸出層,其中隱含層可以有多層。其計算主要分兩個階段:一是信號的前向傳播;二是誤差的反向傳遞[13]。通常具有單隱含層的網絡可以映射出所有的連續函數,只有映射函數不連續時才會考慮設計多個隱含層[14]。
本研究采用3層結構BP神經網絡建立循環水系統FSSL和NFSL的預測模型。激活函數采用ReLU函數[15]。建立神經網絡模型的關鍵是確定隱含層神經元數,隱含層神經元數計算見式(3)。
(3)
式中:H為隱含層神經元數;m為輸入層神經元數;n為輸出層神經元數;L為1~10區間內的一個可調常數。
對于FSSL和NFSL預測模型,由式(3)得到隱藏層神經元數為4~13。因此,分別建立隱含層神經元數為4~13的BP神經網絡預測模型,將數據導入模型中,在相同的初始權值和參數(激活函數為ReLU函數,迭代次數為1 000,損失函數為MSE,優化方法采用動量法,學習率設定為0.1)下進行訓練,并比較每次計算結果的MSE和R2,結果見圖2。從圖2可知:對于FSSL模型,隱含層神經元數為8~12時對應的MSE最小,但其相差不大;而隱含層神經元數為10時,訓練結果的R2最大。同理可知,NFSL預測模型的最佳隱含層神經元數為7。因此,基于BP神經網絡方法建立的FSSL和NFSL預測模型的結構分別為9-10-1和8-7-1。

圖2 隱含層神經元數與預測模型MSE和R2的關系
圖3為基于BP神經網絡的FSSL和NFSL預測模型在測試集數據的擬合結果,圖中綠色線為預警限值。從圖3可以看出,兩預測模型預測值與實際值的擬合效果較好。

圖3 BP神經網絡模型對測試集的FSSL以及NFSL的預測結果
KNN回歸算法[16]是一種有監督的學習算法,具有簡單易實現、實時性好、計算效率高等優點。基于數值相似的KNN回歸算法依據近鄰狀態歐式距離最小進行回歸預測[17],其選取數值上最為近似的k個近鄰樣本,將這些樣本的加權平均值當作預測結果。該算法主要包括以下3個步驟:
(1)最佳k值的選取
不同的k值對模型預測的準確性有較大的影響。若k值偏小,則可能會造成模型過擬合;反之,則可能造成模型欠擬合。為了選取最佳k值,在不同的k值下構建KNN水質預測模型,模型MSE最小時對應的k值即為最佳k值,結果見圖4。

圖4 FSSL和NFSL模型的MSE與k的變化關系
由圖4可見:FSSL預測模型的最佳近鄰樣本數為7;NFSL預測模型的最佳近鄰樣本數為3或5,但比較發現,k=3時的模型R2=0.846,而k=5下的模型R2=0.812,前者擬合效果更好,故NFSL預測模型的最佳近鄰數為3。
(2)相似性度量方法選取
在樣本數據有限的情況下,k近鄰樣本的選取結果和距離度量方式有直接關系。一般來說,選擇歐式距離作為相似性判定指標可以滿足要求,見式(4)。
(4)
式中:Ui為數值相似預測方法的第i個樣本的狀態向量;uj(i)為Ui的第j個元素值;V為數值相似預測的待預測時間點的狀態向量;vj為V的第j個元素值。
(3)預測值計算
基于KNN回歸方法,利用最佳k值分別構建FSSL和NFSL的預測模型,模型對測試集數據樣本的預測值與實際值對比結果見圖5,圖中綠色線為預警限值。從圖5可見,兩個預測模型預測值與實際值的擬合效果均較好。

圖5 KNN模型對測試集的FSSL與NFSL的預測結果
XGBoost是基于回歸樹的提升算法[18]。為了得到預測性能更佳的模型,需要對相關參數進行尋優和選擇。
(1)損失函數的選擇
XGBoost建模常用的損失函數L包括對數損失函數和平方損失函數兩種[19]。對數損失函數用于分類任務,而平方損失函數用于回歸任務。本文建立的模型為回歸預測模型,故建模損失函數選擇平方損失函數。
(2)回歸樹個數的選擇
回歸樹個數(J)代表XGBoost模型的復雜程度,J過大,則模型會復雜化,易導致模型過擬合;J過小,則模型簡單,易導致模型擬合不足。圖6展示了針對目標變量FSSL構建的XGBoost模型的R2與J的變化關系。從圖6可以看出:當J增加到80時,R2達到最大;當J繼續增大時,R2不再增大。因此,XGBoost模型回歸樹數量優選80個。

圖6 R2隨J的變化關系
(3)回歸樹的最大深度和子節點的最小分裂閾值的選擇
回歸樹的最大深度(Ψ)用于調節單個回歸樹節點分裂的深度,Ψ值越大,模型越傾向于學習更局部的樣本,越容易出現過擬合。子節點的最小分裂閾值(Ω)用來控制子節點分裂。若子節點的權重小于Ω,則其停止分裂。Ω較大時,可以防止模型僅限于學習局部特殊樣本。
Ψ和Ω之間會相互影響,對其進行網格搜索法尋優,結果見圖7。由圖7可知,當Ψ為7、Ω為3時,針對目標變量FSSL模型的R2最大,故Ψ和Ω分別選擇7和3。

圖7 R2隨Ψ和Ω的變化關系
(4)正則化系數的選擇
合理設定正則化項,可以避免模型過擬合。γ為回歸樹上的葉子節點數目的L1正則化系數,λ為葉子權重的L2正則化系數,對其采用網格搜索法尋優,結果見圖8。由圖8可知,當γ為0、λ為1時,針對目標變量FSSL模型的R2達到最大值,故γ和λ最優值分別為0和1。

圖8 R2隨γ和λ的變化關系
同理,對NFSL的XGBoost模型重要參數進行尋優,XGBoost模型主要參數尋優結果見表2。
按照表2尋優參數分別建立FSSL和NFSL的XGBoost預測模型,其對測試集數據樣本的預測效果見圖9,圖中綠色線為預警限值。從圖9可以看出,兩個預測模型預測值與實際值的擬合效果較好。

圖9 針對FSSL與NFSL的XGBoost模型對測試集數據樣本的預測結果
綜合3種模型的預測精準性的分析結果見表3。從表3可以看出,3種模型的預測值與實際值擬合效果較好,其MAPE均在9%以下,性能均優于文獻[1-7,14]中的模型,其中基于XGBoost方法所建模型的MAPE最小,均在5%以下,R2最大,均在0.9以上,因而表現出最佳的擬合效果和泛化能力。

表3 3種模型預測精準性評價結果對比
將圖3、圖5和圖9中3種FSSL和NFSL預測模型對測試集數據樣本預測值超出預警值的個數(X)與樣本實際值超過預警值的個數(Y)進行結合,可以計算出3種FSSL和NFSL預測模型各自的預警準確率(Z);進而,也分別計算了模型對訓練集數據樣本的預警效果(對應的X,Y,Z),詳見表4和表5。從表4可以看出,XGBoost模型預警準確率最高,其對目標變量FSSL的訓練集和測試集預警準確率均在90%以上,而對NFSL的預警準確率達100%。這表明,采用XGBoost方法建立的循環冷卻水系統FSSL和NFSL預測模型,可以為該系統的腐蝕、結垢預警提供重要指導。

表4 3種預測模型對FSSL的預警效果
(1)基于LIMS系統采集的包含24個月水質化驗指標的1 015組數據,運用箱線圖等方法進行了數據預處理,得到保留14個水質指標的899組有效數據樣本。
(2)采用最大互信息系數和Pearson相關系數法,從14個水質指標中進行特征變量選擇,針對以FSSL和NFSL為目標變量預測模型,分別篩選出9個和8個輸入變量,為模型的建立奠定了基礎。
(3)分別采用BP神經網絡、KNN回歸和XGBoost機器學習算法建立了FSSL和NFSL預測模型,經驗證,3種模型均具有較好的擬合效果和泛化能力,其對FSSL的預警準確率分別為83.3%,82.6%,91.7%,對NFSL的預警準確率分別為87.5%,85.7%,100%。3種模型中,基于XGBoost方法所建模型的性能最佳,可為石化企業循環冷卻水系統的良好運行提供及時、有效的指導。