譚 行,蔣 健,魏德驕
(1.北京理工大學 化學與化工學院,北京100081;2.北京東方嘉科數碼科技有限公司,北京100088)
慢走絲電火花線切割是利用電極絲與工件之間的相對位移和火花放電,使工件切割成型的加工方法[1]。 這種加工方法對電極絲的張力有很高的要求,張力太大容易造成電極絲頻繁斷裂,張力太小則容易產生振動和滯后彎曲。 在電極絲強度極限之內,應當盡可能保持高且穩定的張力,從而減少放電加工過程中電極絲的振動和滯后彎曲,提高加工工件的精度并降低表面粗糙度[2]。 新型的慢走絲電火花線切割恒張力控制系統采用雙電機轉速差加載式控制裝置,利用張力電機和排絲電機之間微小的速度差來產生張力,對張力的調節效果好,但結構較為復雜、成本較高。 此外,慢走絲張力控制系統大多采用經典PID 控制算法,而被控對象具有滯后和時變的特征, 因此隨著機床使用時間的增長,被控對象的模型結構和參數發生變化, 如果不對PID參數進行重新整定,控制效果會變得越來越差[3]。
本文提出一種基于深度強化學習的自適應PID控制算法, 可以不依賴被控對象精確的數學模型,能夠自動識別被控對象模型結構和參數的變化,并對PID 參數進行自適應調節,具有很好的魯棒性和快速響應性能。
慢走絲電火花線切割恒張力控制系統可以根據執行機構的不同分為3 種類型:機械式、電磁式和電機式[4]。 電機式張力控制器易于實現且控制精度較高,因此本文基于電機式張力控制器設計了一套恒張力控制系統,如圖1 所示。

圖1 走絲系統示意Fig.1 Diagram of wire travelling system
由圖1 可知,電極絲從絲筒抽出,經過導線輪到達張力控制機構,出來之后通過張力傳感器到達放電加工區, 然后經過導線輪和自動穿絲機構,最后由排絲輪送出至廢絲箱。 恒張力控制原理是通過張力傳感器對電極絲張力進行測量,控制器將測量值和給定張力值進行比較,最后通過控制算法輸出控制信號,控制張力輪的輸出轉速,從而達到控制電極絲張力的目的。
張力電機采用的是由可控硅供電的直流力矩電機,該電機具有空載轉速低,堵轉力矩大、反應速度快、共振頻率高等優點,并且可以在沒有減速裝置的情況下直接驅動負載。 根據直流力矩電機電樞回路的電壓平衡方程式和轉矩平衡方程式,可以推出直流力矩電機的傳遞函數如式(1)所示:

式中:Ke為直流力矩電機的反電動勢系數(V/r/min);Te為直流力矩電機的電氣時間常數;Tm為直流力矩電機的機械時間常數。
通過對張力輪進行合理的受力分析,可以得到它的動態力矩平衡方程如式(2)所示:

式中:T 為張力輪上電極絲的張力值(N);R 為張力輪的半徑(mm);Tr為前端負載阻力(N);M(t)為張力電機輸出的阻力力矩(N·m);I 為張力輪的轉動慣量(kg·m2);dω(t)為張力輪旋轉時的角速度(rad/s)。通過觀察張力輪的動態力矩平衡方程可以發現,電極絲的張力大小主要取決于張力輪角速度的變化,其數學模型可以簡化為一個比例環節,因此可以得到張力輪的傳遞函數如式(3)所示:


圖2 恒張力控制系統方塊圖Fig.2 Block diagram of constant tension control system
在構建好張力電機和張力輪的數學模型之后,可以畫出基于傳統PID 控制算法的恒張力控制系統方塊圖,如圖2 所示。 為了簡化模型結構、便于計算,這里取KP=1,KI=0,KD=0,由于張力傳感器檢測精度高且基本沒有檢測延遲,其數學模型可以視為Kt=1 的比例常數,直流力矩電機的反電動勢系數Ke=0.0415,電氣時間常數Te=0.0037,機械時間常數Tm=0.025,張力輪的半徑R=30 mm,張力輪轉動慣量I=6.25×10-5kg·m2,因此,恒張力控制系統的開環傳遞函數如式(4)所示:

根據誤差反饋方式的不同,機器學習算法可以分為有監督學習、無監督學習和強化學習三大類別[5]。 一個典型的強化學習系統可以分為3 個部分:智能體Agent、工作環境Environment 和交互信息,如圖3 所示。 工作環境通常是復雜且時變的,智能體Agent 需要根據工作環境的不同狀態做出合理決策,產生相應的動作并作用于工作環境,然后工作環境會將該動作的作用效果反饋給智能體Agent,智能體Agent 會根據工作環境的反饋值對自己的決策進行修正。 強化學習系統通過不斷的重復以上過程以提升智能體Agent 的決策能力,最終智能體Agent 可以對工作環境的任意狀態做出最佳決策。

圖3 強化學習原理圖Fig.3 Schematic diagram of reinforcement learning
常用的強化學習算法有Sarsa 算法、Q-learning算法、Deep Q Network 算法和Actor-Critic 算法,其中Deep Q Network 算法是改進后的Q-learning 算法, 它融合了Q-learning 算法和深度學習的優點[6]。深度學習的概念最早由Hinton 等人于2006 年提出,隨著近年來數據量的急劇增加以及計算能力的大幅提高,深度學習相較于傳統機器學習在工業界的很多領域都表現出了卓越的性能[7]。 深度學習的模型往往是由多層神經網絡構成,因此具有很強的擬合能力,但隨著神經網絡的節點數量和深度的增加,模型的訓練變得更加困難,過擬合現象十分嚴重[8]。 Q-learning 算法不需要對學習的對象進行建模,它只需要建立一個決策矩陣Q,并通過不斷的迭代,根據評價函數的返回值對決策矩陣進行修正,最終收斂得到最優決策矩陣Q。Q-learning 算法本質上是一種值函數的迭代運算過程,通過不斷的迭代以優化狀態s 和動作k 的價值函數Q(s,k),決策階段就可以根據當前的狀態s0選擇使價值函數Q(s0,k)最大的動作k0作為最佳決策,Q-learning 算法的值函數定義如式(5)所示,?∈(0,1]表示學習率,rt+1表示智能體Agent 在狀態st下采取動作kt后獲得的反饋值,γ∈(0,1]表示未來反饋值的比重。 Q-learning算法也有一定的局限性,由于決策矩陣Q 只能容納離散的狀態變量,因此不適用于具有狀態連續的任務,而且實際工業任務模型復雜度大,二維的決策矩陣Q 很難去擬合真實的價值函數。 Deep Q Network 算法最大程度上的保留了Q-learning 算法的優點,同時用深度學習領域的多層神經網絡代替二維決策矩陣Q,極大的提高了模型的擬合能力,并且能適用于狀態連續的任務[9]。 因此,我們選擇Deep Q Network 算法來設計恒張力控制系統的自適應PID調節模塊。

深度強化學習自適應PID 控制算法是一種將深度強化學習算法和經典PID 控制算法相結合的自適應PID 控制算法。 根據Deep Q Network 算法的工作流程, 可以設計出基于Deep Q Network 深度強化學習算法的自適應PID 控制系統方塊圖,如圖4 所示。 整個自適應PID 控制系統可以分為兩層, 底層是經典的PID 控制系統, 它可以根據PID控制規律產生控制信號并直接作用于被控對象,頂層是一個強化學習的智能體Agent, 它通過不斷和生產環境交互學習生成最優控制策略π, 然后根據最優控制策略π 對PID 控制器的參數進行智能調節以優化控制效果。

圖4 深度強化學習自適應PID 控制系統方塊圖Fig.4 Block diagram of deep reinforcement learning adaptive PID control system
底層的經典PID 控制器的初始化參數可以通過臨界比例度法來整定, 上層的Deep Q Network深度強化學習算法是在這個基礎之上對PID 參數進行細微調整[10]。 Deep Q Network 算法的核心是設計合適的狀態空間、 動作空間和性能評價函數,狀態空間是對智能體Agent 所處環境的合理描述,動作空間是對PID 參數優化策略的合理描述,性能評價函數應當正確反應PID 參數優化對控制效果的影響,強化學習智能體Agent 的模型結構如圖5所示。

圖5 智能體Agent 模型結構Fig.5 Model architecture of intelligence agent
從圖5 可以看出,深度強化學習的狀態空間為e、de/dt,它可以間接對環境狀態進行合理描述,動作空間為ΔP、ΔI 和ΔD, 它可以輸出PID 參數對應的修正值, 修正值的范圍為初始PID 參數值的正負10%。 性能評價函數應當正確反映當前PID 參數調節動作對整體控制效果的影響,因此我們選取超調量、峰值時間、衰減比和穩態誤差來定義性能評價函數,如式(6)所示:

式中:σ、t、n、e 分別為階躍響應的實際超調量、峰值時間、衰減比和穩態誤差;σ*、t*、n*、e*分別為期望的超調量、 峰值時間、 衰減比和穩態誤差;kσ、kt、kn、ke分別為超調量、峰值時間、衰減比和穩態誤差在性能評價函數中所在的比重,實際使用中可以根據不同的控制要求進行調節。
本文根據慢走絲恒張力控制系統的數學模型來搭建仿真系統,通過臨界比例度法來確定初始的PID 控制參數,然后進行強化學習。在強化學習的過程中,需要不斷地向控制系統加入不同的干擾信號,智能體Agent 通過不斷迭代尋優以獲取最優策略π。
分別采用經典固定參數的PID 控制器和深度強化學習自適應PID 控制器對慢走絲恒張力系統進行控制,仿真結果如圖6 所示。

圖6 仿真實驗結果Fig.6 Experimental results of simulation
通過仿真實驗結果的對比可以看出,在加入時變干擾信號的情況下,經典PID 控制算法由于固定了PID 參數,無法對干擾信號進行準確識別并做出及時的參數調整,控制效果明顯下降;本文設計的基于深度強化學習的自適應PID 控制算法,可以在初始PID 參數的基礎上,根據不同的干擾信號實時調整控制器參數, 實現控制參數的在線自適應調整,因此控制效果較好。
本文在經典PID 控制算法的基礎之上,提出了結合深度強化學習的自適應PID 控制算法,選擇Deep Q Network 深度強化學習算法設計了雙層控制結構,實現了上層參數調整策略的在線學習和底層PID 控制參數的自適應調整。 Matlab 仿真結果表明,本文設計的深度強化學習自適應PID 控制算法可以對PID 參數進行在線尋優,并且具有擬合能力好、實時性高、魯棒性強等優點。因此,它也為自適應PID 控制系統提供了一種新的優化方案。