張顯國, 曹 斌, 王明剛, 石 進
(1 貴州大學 大數據與信息工程學院, 貴陽 550025; 2 中鋁智能科技發展有限公司 技術部, 杭州 310000;3 遵義鋁業股份有限公司 分析計控中心, 遵義 貴州 561300)
鋁電解槽基本由4個部分組成:陰極結構、上部結構、母線結構以及電氣絕緣部分。為保證電解槽安全穩定生產,需要工藝參數處于正常范圍,如:電流、槽電壓、極距、電解溫度、電解質水平、加料次數等。由于電解鋁生產環境的惡劣因素,如:強磁、高溫、多粉塵和空間狹窄等,導致普通傳感器不能在該環境下穩定運行,不能獲取更多精準數據,如:分布電流、陰極溫度和爐膛厚度等。目前能獲取到的數據為單槽電流、單槽電壓和一些原輔料下料量等間歇性測量和化驗數據。
為提高鋁液的產量和質量,挖掘物料、能耗等數據之間的關聯性并建立鋁電解反應模型具有重要意義。文獻[1]提出使用數據挖掘技術得到平均電壓、工作電壓和效應持續時間之間的線性關系;文獻[2]提出基于統計學方法控制電解槽的熱量平衡;文獻[3]提出基于貝葉斯網絡的異常塑因模型。本文研究鋁電解反應過程中的下料時序數據和生產工藝參數的時序數據,通過數據挖掘的方法,對鋁電解槽內物料平衡和熱量平衡建模,合成完整的鋁電解槽反應過程模型。
鋁的電解化學反應式:

可知保持合適的物料平衡,一定范圍內提高氧化鋁濃度,可以提高鋁的產量。
鋁冶煉的出鋁量AL,公式(1):
(1)
由公式(1)可知,在適宜的能量平衡下,提供電流值、電流效率或效應時長能夠提高鋁的產量。
通過數據挖掘方式獲得物料平衡和能量平衡之間關聯性,為防止后期數據挖掘出現虛假回歸問題,先對所有序列進行平穩性檢驗。單位根檢驗(Augmented Dickey-Fuller test)是迪基-福勒檢驗(Dickey-Fuller test)的增廣形式,其無漂移項回歸公式如公式(2)所示:
(2)
其中,Δ為增量;εt為t時刻殘差(白噪聲);βi是i階自回歸加權系數 。
假設H0:δ=0,若檢驗序列存在單位根,則檢驗序列為非平穩序列,否則為平穩序列。
兩個時間序列使用皮爾遜相關系數法需要滿足以下條件:兩個時間序列長度一致,連續且服從正態分布,因此首先檢驗時間序列是否服從正態分布,因為單維時序數據序列的樣本數小于5 000,所以采用夏皮羅-威爾克(Shapiro-Wilk)檢驗,根據檢驗結果檢驗序列是否服從正態分布。
夏皮羅-威爾克檢驗:單維時序數據序列是一個樣本數為n的樣本,假設H0:樣本序列與正態分布沒有顯著區別,H1:樣本數據與正態分布有顯著區別[4]。檢驗使用的統計量W定義為公式(3):
(3)

獲得統計量后,設定顯著性水平α,獲取其分位數或者臨界值Wα,若W 為降低格蘭杰因果檢驗的計算復雜度,首先計算時序序列集合的相關系數集合。在指定時間段內,多維時序數據序列在時間段內k維時序數據序列之間的相關系數集合為KR[5],公式(4): (4) 其中,Rij表示i,j序列之間的相關系數值。 為了減少非線性關系分析的計算復雜度,先進行因果檢驗,獲得序列之間的因果關系。格蘭杰因果關系檢驗是一種推斷和分析兩個時間數據序列之間是否存在邏輯因果關系的檢驗算法[5]。檢驗序列X和檢驗序列Y在T時刻數值為XT和YT,公式(5)和公式(6): (5) (6) 其中,Xi是序列X在i時刻的數值;Yi是序列Y在i時刻的數值;u1和u2為不相關的白噪音;α,β,λ,δ為參數。 若式(5)成立而式(6)不成立,則序列Y是引起X變化的因序列,存在序列Y到X的單向因果關系;若式(6)成立而式(5)不成立,則序列X是引起Y變化的因序列,存在序列X到Y的單向因果關系;若式(5)、式(6)同時成立,則認為X和Y存在雙向因果關系。 為進一步理解因果變量之間的非線性程度,采用非線性回歸分析方法,得到因變量和多個果變量的非線性回歸系數集合。有助于關鍵參數的優化決策。梯度提升回歸樹有著較強的泛化能力,對異常值有很好的魯棒性,以決策樹為基函數,采用基函數的線性組合與前向分布的提升方法,其基本思想是采用多個弱分類器構建一個強分類器[6]。 為獲取影響出鋁量的工藝影響參數路徑圖,基于圖論和概率論以及貝葉斯網絡的理論,構建有向概率無環網絡圖,其中節點表示鋁電解槽的某個生產條件變量,有向邊表示變量之間存在單向或者雙向因果系。設有圖G=(V,E),其中V={v|v∈Sk},E={e|e∈(Rij=1)},頂點v表示變量,路徑e表示兩個變量存在因果關系,箭頭方向表示單向或者雙向因果,節點概率值表示特征重要性程度[7]。 首先,進行時序數據序列空值填充、重復值刪除等預處理;其次,將滿足正態分布的序列集合做皮爾遜相關處理,具有相關性的變量相互間進行格蘭杰因果分析并得到因果變量集合,將滿足平穩性的因果變量集合做非線性回歸分析,得到因變量和多個果變量的非線性回歸系數集合,對于不滿足正態分布的變量、不滿足平穩性的變量和其他沒有相關性的變量在圖中用孤立節點表示,最后將節點和工藝參數名對應并輸出鋁槽模型。 算法的具體流程如圖1所示。 圖1 算法流程圖 從鋁廠的時序數據庫中導出若干個鋁電解槽的工藝參數的數據變量,包括日期、槽號、槽狀態、運行時間、設定電壓、工作電壓、平均電壓、效應電壓、效應持續時間、效應次數、電壓擺時間、異常持續時間、氧化鋁下料次數、加料次數、氟鹽添加次數、出鋁指示量、基準下料間隔等。數據清洗方法如下: 由于傳感器延遲傳輸導致的重復樣本,本文根據時間戳保留第一個時間戳樣本,刪除其余重復樣本; 若當前時間戳的工藝參數記錄值缺失數量過多,則刪除該樣本,否則就采用眾數填充的方式填補缺失值; 某些樣本的某些屬性值超出或者低于正常范圍,為了保留真實的生產數據,不處理異常值并保留該樣本。 計算和獲取單維時間序列的平穩性和正態性。采用單位根檢驗,檢驗的顯著性結果p<0.05,則該序列是平穩的時序數據序列。采用夏皮羅-威爾克方法檢驗每個時間序列,若統計量W小于Wα,則檢驗序列符合正態性分布。根據檢驗結果的峰度、偏度以及圖像形狀判斷序列是否滿足正態分布,若序列峰度絕對值小于10和偏度絕對值小于3,并且相應正態分布直方檢驗圖呈現中間高,兩邊低的鐘型,就判定檢驗序列符合正態分布。 (1)相關關系。為獲取多維時間序列之間的相關系數集合,將滿足正態分布的數據集做皮爾遜相關系數處理。 (2)因果關系。為了判斷兩個工藝參數相互之間是否存在邏輯因果關系,選取具有相關性的時間序列進行格蘭杰因果檢驗。實際設定電壓和實際出鋁量時間序列具有不平穩性,但在鋁生產過程和指導出鋁過程中具有重要意義,因此兩個序列也要和其他序列做因果分析。 (3)非線性關系。使用梯度提升回歸樹算法計算影響果變量的各個因變量權值,數據集按照8:2劃分訓練集和測試集。梯度提升回歸樹節點分割的準則為弗里德曼均方誤差[8],決策樹的最大深度為10,內部節點再劃分所需最小樣本數為2,葉子節點最小樣本數為1,葉子節點樣本最小權重為0,最大葉子節點數為50。 根據每一組因果關系,梯度提升回歸樹獲得非線性回歸關系。 基于獲得的因果關系集合和因果權值集合,構建貝葉斯網絡結構。貝葉斯網絡中的“節點”代表工藝參數,“有向邊”代表兩個工藝參數的因果關系,權值代表當前因變量影響果變量的程度。出鋁關系圖如圖2所示。 圖2 出鋁關系圖 為了定量分析模型對出鋁量的擬合回歸效果,采用可決系數R2、平均絕對誤差(MAE)和均方根誤差(RMSE)作為評價指標。 可決系數R2值在[0,1]之間,數值越小代表模型越好,式(7): (7) 平均絕對誤差(MAE),數值越小表示錯誤越小,模型越好,式(8): (8) 均方根誤差(RMSE)是在均方誤差基礎上求取平方根,式(9): (9) 采用廣度優先搜索算法,搜索出直接影響出鋁量的直接節點,強相關關系系數閾值為0.1,強因果關系的特征重要性程度閾值為0.05。搜索出直接影響出鋁量的因果關系,見表1。得到氧化鋁下料次數,加料次數、設定電壓、針振、鋁水平、電解質水平、鐵含量、硅含量和出鋁量的強相關系數絕對值在0.126和0.331之間,強因果關系的特征重要性程度在0.07和0.22之間。出鋁因果關系表體現的物料平衡因果關系和公式(1)的化學反應方程表達的物料平衡結論基本一致。氧化鋁下料次數和加料次數是氧化鋁(Al2O3)和碳(C)的主要來源,頻繁向電解槽添加適量的氧化鋁,使得電解質中保持適當的氧化鋁濃度和鋁水平,提高鋁的產量;電流和工作電壓直接存在強相關關聯。一定條件下,提高電壓,從而提高電流,也能夠提高鋁的產量,和公式(2)表達的改變熱量平衡來增加鋁產量結論基本一致。 表1 出鋁量因果關系表 根據出鋁量的非線性關系集合,對包含氧化鋁下料次數、加料次數、設定電壓、工作電壓、平均電壓、噪聲、鋁水平、電解質水平、鐵水平、硅水平,多點鋁水平11個工藝參數的14組數據做非線性回歸擬合分析。出鋁量的非線性回歸擬合結果見圖3,橫坐標代表樣本集編號,縱坐標代表出鋁量。 由圖3可知,氧化鋁下料次數、加料次數、設定電壓、鋁水平、電解質水平、鐵含量、硅含量能夠影響出鋁量,在已知因變量參數情況下能夠預測出鋁量。 圖3 非線性回歸擬合效果圖 表2 評價指標表 在相關性分析和因果分析中,若出鋁量是果變量,則有電解質溫度、電解質水平、效應持續時間、硅含量、鐵含量、鋁水平、分子比、效應等待時間、各類電壓、出鋁指示量等10個因變量。在非線性回歸分析中,10個因變量中有7個因變量和出鋁量存在因果關系,且因果權值在7%~22%之間,影響權值總和為83%。 本文基于多變量控制理念,通過對電解質溫度、電解質水平、加料次數等工藝參數變量進行數據挖掘,得到各個工藝參數變量之間關聯性,建立鋁電解槽的物料平衡和熱量平衡數學模型,實現鋁電解槽對生產過程的參數優化和精確控制,達到提高電解效率和增加鋁液產量的目的,對于推動鋁電解槽增加出鋁量具有重要意義。2 算法流程

3 實驗
3.1 數據處理
3.2 挖掘序列性質
3.3 挖掘序列關系
3.4 物料能量平衡模型

4 實驗結果與結論
4.1 評價指標



4.2 出鋁量擬合結果




5 結束語