趙春紅



摘要:為提高鋁電解工藝參數優化能力,基于近端策略優化(PPO)深度強化學習算法,構建鋁電解工藝參數優化模型,以實現鋁電解工藝優化求解。對鋁電解工藝流程進行介紹,確定其工藝中的重要技術參數;然后將深度與強化學習相結合,建立鋁電解參數尋優模型。在原始 PPO 算法基礎上加入RMSProp 算法和沖量思想得到M-RMSProp-PPO 算法,將該算法應用到模型中進行鋁電解工藝參數尋優。結果表明:改進后算法可實現快速收斂,累計獎賞高達15%,說明改進后的算法性能更優越;與決策樹算法進行搭配后,可以得到鋁電解工藝優化最優組合。
關鍵詞:鋁電解;工藝優化;深度強化學習;M-RMSProp-PPO
中圖分類號:TP392
文獻標識碼:A文章編號:1001-5922(2022)06-0186-05
Optimization of aluminum electrolysis technology based on artificial intelligence algorithm
ZHAO Chunhong
(Sichuan Vocational College of Culture & Communication, Chongzhou 611200, Sichuan China
)
Abstract:In order to improve the parameter optimization ability of the aluminum electrolysis process, the aluminum electrolytic process parameter optimization model is constructed based on the proximal strategy optimization (PPO) deep reinforcement learning algorithm to realize the optimization and solution of the aluminum electrolysis process. First, the aluminum electrolysis process is introduced to determine the important technical parameters in the process; then combine depth and reinforcement learning to establish the aluminum electrolytic parameter optimization model; add RMSProp algorithm and impulse idea based on the original PPO algorithm to obtain M-RMSProp-PPO algorithm and apply it to the model to optimize the aluminum electrolytic process parameters. The experiment show that the improved algorithm can achieve rapid convergence with a cumulative reward of 15%, indicating that the improved algorithm is superior; after matching with the decision tree algorithm, the optimal combination of aluminum electrolysis process could be obtained.
Key words:aluminum electrolysis; process optimization; deep reinforcement learning; M-RMSProp-PPO
我國制造業的不斷發展,鋁電解的生產需求呈爆炸式增長,將鋁與多種金屬材料組合后可以得到新的合成金,而合成金廣泛應用于工業領域、發動機和電動機等,其具有較好的發展前景。然而,傳統的鋁電解生產主要受工藝人員經驗限制,工藝優化方法主觀性太強,從而導致工藝優化效率低、穩定性差,
不能達到當前工業領域的高效鋁電解生產需求。因此,提出一種新的工藝優化方法對當前鋁電解運用具有重要的研究意義。有學者提出將BP-ANN-MCSA算法應用到電弧增材工藝中,進行參數尋優,其利用BP神經網絡的深層學習特性,實現增材工藝參數尋優,且尋優速率提升了10%,具有一定的可行性[1];在近端策略優化算法PPO的基礎上,加入RMSProp,并構建一個基于改進RMSProp-PPO算法的鋁電解參數尋優模型,通過此模型實現率電解的優化求解,模型性能優越[2];集合深度強化學習的特性,將其應用到電氣綜合能源系統優化調度中,通過建立深度強化學習DRL模型和懲罰機制等完成電氣能源的優化調度,提升了工作效率[3]。基于此,結合以上學者研究成果,利用當前應用廣泛的深度強化學習方法,進行鋁電解工藝優化求解,為同領域的優化求解提供參數數據和研究方向,具有一定的實際意義。
1鋁電解工藝參數流程
1.1鋁電解工藝流程
鋁(Al)屬于一種金屬元素,其在空氣中組合成致密氧化鋁薄膜,具備較強的耐腐蝕性和延展性,在建筑、器械領域的應用十分廣泛[4]。目前工業上常用的鋁電解生產方法為融鹽電解法,其可在950~970 ℃溫度下引入強電流,在槽內產生化學反應,反應公式:
Al2O3(固)→2Al3+(絡合狀)+3O2-(絡合狀 )7E892C3A-7DF4-477E-BA4F-4C2E980EB88A
Al3+(絡合狀)+3e→Al(液)
O2-(絡合狀)-2e→(原子)
2O(原子)+C(固)→CO2(氣)
工業制鋁具體工藝步驟主要分為4步。首先,將工業鋁置入電解槽中,對其進行通電處理;然后,提升該槽內溫度,設置在960~960 ℃。之后在槽內加入高壓鋁液,將其與工業鋁發生化學反應,得到陽極氣體,分別為氧氣和二氧化碳;最后,將該氣體進行凈化處理和排放,得到氟化物,由此完成鋁電解工藝操作。
1.2鋁電解技術參數
鋁電解生產過程中,通過鋁電解參數指標可看出鋁產量和當前電解槽狀態。優化工藝參數優化,能夠提升電解槽狀態,生產大量鋁[5]。主要方法是調節鋁水平;將電解質、鋁液進行設置,高度為15~19 cm。
1.3鋁電解槽生產MDP分析
由于鋁電解中的數據具有較強的時序性,其滿足馬爾科夫決策過程(MDP)要求,因此通過MDP對鋁電解生產過程進行模擬,還原真實生產環境,幫助確立準確的參數范圍。
MDP具體流程為:初始化狀態S0,從動作集A中選取一個動作A0執行[6]。具體流程可表示為:
S0→S1→S2→S3→S4…
根據上式,將以上工藝技術參數表示電解槽狀態空間;連續天數表示為維度。
2深度強化學習模型構建
2.1深度強化學習原理
深度學習的基本原理是對某物體進行表征學習,提取其深層特征,其學習性能優越,在圖像識別、語言分類等方面均取得較好的應用效果[7]。強化學習常用于人臉識別、數據挖掘和參數優化等領域;將其與深度學習結合,得深度強化學習(Deep Reinforcement Learning,DRL)。
2.2深度強化學習模型構建
DRL網絡結構如圖1所示。該網絡主要分3個層級:輸入層、隱含層和輸出層,常用激活函數為目前應用較多、應用效果較好的Relu[8]。
在深度強化學習中,近端策略優化PPO算法具備尋優速度快,準確率高的特點。因此將該算法應用到鋁電解流程中,將智能體設置在標準步長內,計算出最高出鋁量,并將其進行輸出,進行多次迭代后得到最終狀態[9],其訓練流程如圖2所示。
從圖2可知,對網絡參數進行設置,并將其與環境融合;然后將數據與獎勵函數相結合輸入至全連接神經網絡中進行訓練[10]。根據策略選擇下一步動作并執行,由此轉移至下一狀態;循環上述流程,進行多次更新,直至訓練結束[11]。
2.3基于原始PPO模型的范圍尋優算法
2.4基于改進PPO的尋優算法
原始PPO算法存在隨機梯度上升效率低、訓練過早結束的問題,收斂速度慢,尋優結果不準確。因此,基于該算法加入RMSProp 算法和沖量原理,改進其隨機梯度上升方式,提升迭代更新速度,避免振蕩。由此得到改進的RMSProp[13]。
3實驗結果與分析
3.1實驗環境和配置
為取得更好的實驗效果,本次實驗硬件和軟件分別選用Pychann 2019和3.6 Python,顯卡和CPU分別選用NVIDIA和E5-2620型號,內存大小為48 GB。
3.2實驗數據
根據原始PPO尋優策略,選擇從某鋁廠獲取2020年7月4日至2021年7月4日的鋁電解數據合計30 000條,電解槽數量為300,部分原始數據如表1所示。
本次鋁電解參數優化過程中網絡結構使用全連接神經網絡,隱層數為2個,其對應層數的神經元數目為128 個,神經元激活函數選用 Relu,超參數主要包括 PPO 算法部分超參數和 M-RMSProp部分超參數。其中,PPO和M-RMSProp的學習率分別設置為0.002 5和0.003;步數最高設置為3 000。
3.3實驗結果與分析
3.3.1基于改進模型的訓練結果分析
為驗證改進模型的訓練效果,本次實驗將改進前后的模型進行分析。Max_steps 設置為 3 000,將3個模型的最大episodes(步)設置為3 000。從而得到3個算法的訓練結果,具體如圖3~圖5所示。
由圖3可知,原始 PPO 算法在1 500個episodes(步)后逐漸穩定,穩定值累計獎賞約10%。
從圖4可知,RMSProp-PPO算法在1 300個episodes(步)后開始穩定下來,累計獎賞約15%,對比原始PPO算法,獎賞值提升了5%,迭代速度得到提升。
從圖5可知,改進算法在1 000個episodes(步)時逐漸穩定,累計獎賞約15%。對比改進前算法,改進算法的迭代速度明顯更快,得到進一步提升。
根據以上3種算法的訓練結果,將其進行統計后進稀疏對比,對比結果如圖6所示。
由圖6可知,改進算法迭代至1 000次時實現收斂,說明改進算法可取得較好的應用效果。
3.3.2參數范圍尋優算法的結果對比和分析
實驗將對改進模型進行多次訓練,選取其中獎賞值最高的 2 000組,收集訓練結果,確定最優參數取值范圍。訓練結果如表2所示。
從以上訓練結果中進行改進算法尋優結果分析,將表2中的最優參數與決策樹中的C4.5尋優的多組最優參數范圍做搭配選擇其交集,得到最終最優參數范圍搭配,部分參數對比結果如圖7所示。
對以上對比結果進行分析后,取得多種最優參數范圍組合,組合結果如表3所示。7E892C3A-7DF4-477E-BA4F-4C2E980EB88A
4結語
綜上所述,構建的基于深度強化學習的鋁電解工藝優化模型可以計算出鋁電解生產的最優解,為鋁電解生產工藝人員提供強有力的數據和技術支持,且通過最優參數組合和搭配可以提升鋁電解的生產量,從而提升了工廠的經濟效益。實驗結果表明,相較于改進前算法,改進后的算法收斂速度更快,在訓練1 000次后即趨于穩定,穩定性更強,累計獎賞為15%,比原始PPO算法更高。結果可知:改進算法的性能十分優越,且將其與決策樹的最優解進行組合和搭配后,可以得到鋁電解的最優參數解,說明其可在鋁電解工藝參數優化領域進行大力推廣和應用。
【參考文獻】
[1]權國政,溫志航,鹿超龍,等.融合BP-ANN-MCSA算法的電弧增材工藝參數尋優策略研究[J].塑性工程學報,2021,28(1):91-97.
[2]張曉,李晉宏.基于改進RMSProp-PPO算法的鋁電解參數尋優模型[J].電子元器件與信息技術,2021,5(3):170-174.
[3]喬驥,王新迎,張擎,等.基于柔性行動器–評判器深度強化學習的電-氣綜合能源系統優化調度[J].中國電機工程學報,2021,41(3):819-833.
[4]于一瀟,楊佳峻,楊明,等.基于深度強化學習的風電場儲能系統預測決策一體化調度[J].電力系統自動化,2021,45(1):132-140.
[5]陳虹松,董定乾,黃兵,等.基于遺傳算法的航空葉片銑削加工工藝參數優化[J].工具技術,2021,55(9):68-73.
[6][ZK(]張永棠.一種深度強化學習的C-RAN動態資源分配方法[J].小型微型計算機系統,2021,42(1):132-136.
[7]隗寒冰,賀少川.基于深度強化學習的插電式柴電混合動力汽車多目標優化控制策略[J].重慶交通大學學報(自然科學版),2021,40(1):44-52.
[8]趙小云,龔紅英,施為鐘,等.基于RSM與NSGA-Ⅱ的燃氣灶外殼零件成形質量多目標優化[J].輕工機械,2021,39(1):86-91.
[9]劉永姜,李俊杰,曹一明,等.基于近似模型和遺傳算法的等離子噴焊工藝參數多目標優化[J].科學技術與工程,2021,21(11):4 403-4 408.
[10]肖鵬飛,張超勇,孟磊磊,等.基于深度強化學習的非置換流水車間調度問題[J].計算機集成制造系統,2021,27(1):192-205.
[11]祝亢,黃珍,王緒明.基于深度強化學習的智能船舶航跡跟蹤控制[J].中國艦船研究,2021,16(1):105-113.
[12]李聰波,余必勝,肖溱鴿,等.考慮刀具磨損的數控車削批量加工工藝參數節能優化方法[J].機械工程學報,2021,57(1):217-229.
[13]楊挺,趙黎媛,劉亞闖,等.基于深度強化學習的綜合能源系統動態經濟調度[J].電力系統自動化,2021,45(5):39-47.
[14]董詩繪,牛彩雯,戴琨.基于深度強化學習的變電站巡檢機器人自動化控制方法研究[J].高壓電器,2021,57(2):172-177.
[15][JP3]張雷,鐘言久,闞歡迎,等.熔融沉積制造高能效工藝參數優化方法[J].機械設計與制造,2021(3):149-152.7E892C3A-7DF4-477E-BA4F-4C2E980EB88A