基于強化學習的濃密機底流濃度在線控制算法

2021-08-28 04:55:38袁兆麟何潤姿姚超李佳班曉娟

自動化學報 2021年7期

袁兆麟何潤姿姚超李佳班曉娟

在現代復雜過程工業生產中,對控制性能指標進行優化是不同控制算法、控制系統的首要任務.在冶金、采礦領域等復雜過程工業場景下,濃密機是一種被廣泛應用的大型沉降工具,它通過重力沉降作用可以將低濃度的固液混合物進行濃縮形成高濃度的混合物,起到減水、濃縮的作用.在對濃密機進行控制時,底流濃度是核心控制指標.該參量與其他過程監控變量如進料流量、進料濃度、出料流量、泥層高度有著復雜的耦合關系.在大部分的實際生產過程中,濃密機底流濃度的控制一般是操作員根據個人經驗,通過對底流流量設定值、絮凝劑流量設定值進行調節,間接地使底流濃度追蹤其工藝設定值.但是由于濃密機運行過程具有非線性、多變量、高時滯等特點,操作員難以維持底流濃度持續穩定,濃度存在偏差的底流會導致產品質量退化以及增加工業生產成本.

濃密機是一種典型的復雜過程工業設備,關于過程工業設備優化控制的研究一直是工業界、學術界研究的熱點問題.對于機械結構明確、且能夠精確建立動態模型的工業設備,可以采用基于模型的優化控制方法,如:實時優化控制(Realtime optimization,RTO)[1]、模型預測控制(Model predictive control,MPC)[2]等.但由于濃密機系統機械結構復雜、部分變量難以觀測,因此難以建立準確的數學模型近似其運轉機理,導致基于模型的方法無法適用于此類復雜工業設備的控制.研究人員提出了基于數據驅動的控制方法來實現對此類無模型工業設備的控制.Dai 等[3]提出了用于解決赤鐵礦研磨系統控制問題的數據驅動優化(Date driven opimization,DDO)控制算法.Wang 等[4]采用基于數據驅動的自適應評價方法解決連續時間未知非線性系統的無窮范圍魯棒最優控制問題.

近年來,基于強化學習[5?6]理論的最優控制技術,也稱為自適應動態規劃(Adaptive dynamic programming,ADP)[7?9]技術,是控制領域的研究熱點話題.典型的自適應動態規劃算法,如HDP、雙啟發式動態規劃(Dual heuristic programming,DHP)、動作依賴啟發式動態規劃(Action dependent heuristic dynamic programming,ADHDP)[8]等均采用多個神經網絡分別對被控系統動態模型、控制策略、策略評價模型進行建模.此類方法可以在模型未知的情況下以數據驅動的方式在線學習控制策略.Liu 等[10]提出了一種在線自適應動態規劃算法用來解決離散時間多輸入多輸出仿射系統控制問題,且該方法僅需要訓練少量網絡參數.Liu 等[11]采用一種基于強化學習的自適應跟蹤控制技術解決多輸入多輸出系統容錯控制問題.Xu 等[12]采用拉普拉斯特征映射算法提取被控系統全局特征,并將該全局特征用于DHP 算法中以增強值函數網絡的近似能力.

近年來,利用自適應動態規劃方法解決過程工業控制問題也取得很大研究進展.Wei 等[13]將煤炭氣化過程的最優追蹤控制轉化為雙人零和最優控制問題,并采用迭代自適應動態規劃方法求解最優控制率,同時給出了收斂穩定性的分析.Jiang 等[14]利用穿插學習策略迭代(Interleaved learning policy iteration,ILPL)實現了對浮選過程操作指標優化的控制,獲得了比傳統值函數迭代(Value iteration,VI)、策略迭代(Policy iteration,PI)算法更佳的控制效果.Jiang 等[15]將強化學習與舉升方法結合(Lifting technology),實現了對浮選過程設備層與操作層雙速率系統的最優控制.

上述算法均使用被控系統實時生成的數據對神經網絡進行訓練,該訓練方法忽略了系統在短期內產生的歷史軌跡數據對模型學習的影響.同時,在工業場景下進行設備在線控制對算法實時性要求較高.上述方法對于控制量的計算均依托于表征控制策略的神經網絡,而對于控制網絡或動作網絡的訓練將產生較大的時間開銷.為了解決上述問題,本文引入了短期經驗回放技術[16?17]以對短期內的系統運行軌跡數據進行回放訓練.實驗證明該技術有效增強了算法收斂穩定性,且在其他ADP 類在線控制算法中具有通用性.同時本文根據濃密機系統特性提出了一種迭代梯度優化算法,該算法可以在沒有動作網絡的情況下求解控制輸入量.實驗表明該方法能夠在提升控制精度的同時,減少模型學習過程中產生的時間消耗.

本文主要貢獻總結如下:

1)提出了一種基于ADP 算法架構的啟發式評價網絡值迭代算法(Heuristic critic network value iteration,HCNVI).該算法僅通過評價網絡、模型網絡和梯度優化算法即可求解系統最優控制輸入.

2)提出了一種適用于評價網絡訓練的短期經驗回放技術.訓練評價網絡時,將短期內系統運行軌跡數據共同用于模型訓練,該方法可以有效增強評價網絡收斂速度.

3)通過濃密機仿真實驗驗證了HCNVI 算法的有效性.實驗結果表明本文提出方法在時間消耗、控制精度上均優于其他對比方法.

本文正文部分組織如下:第1 節,對濃密機沉降過程進行形式化描述.第2 節,HCNVI 算法介紹以及利用該算法實現濃密機在線控制.第3 節,通過兩組仿真實驗驗證本文提出控制模型的有效性.第4 節對本文研究工作進行總結.

1 濃密過程控制問題描述

濃密機在采礦、冶金領域是重要的沉降分離設備,其運行過程如圖1 所示.低濃度的料漿源源不斷地流入濃密機頂部進料口.利用沙粒的密度大于水的特性以及絮凝劑的絮凝作用,料漿中沙粒不斷沉降,并在濃密機底部形成高濃度的底流料漿.高濃度的底流料漿多以管道輸送的形式流至其他工業設備進行后續加工處理.

圖1 濃密過程示意圖Fig.1 Illustration of thickening process.

對于濃密沉降控制過程的性能進行評價,其核心控制指標為底流濃度y.該因素受控制輸入、系統狀態參量、及其他外部噪音擾動影響.控制輸入包括底流泵轉速u1(k) 以及絮凝劑泵轉速u2(k),系統狀態參量為泥層高度h(k),外部噪音輸入為進料流量c1(k)、進料濃度c2(k). 由于在部分工業場景中,上游工序產生的物料濃度、物料流量是不可控的.為了使提出的濃密機控制模型具有通用性,因此本文將進料狀態作為噪音輸入量.濃密機進料顆粒大小,進料成分都會對濃密機底流濃度產生影響.不過由于此類變量無法觀測且波動較小,為了簡化問題,本文假定其保持恒定.根據上述定義,其中u(k)[u1(k),u2(k)]T∈R2為可控制輸入量,c(k)[c1(k),c2(k)]T∈R2為不可控但是可觀測的噪音量,h(k)∈R為系統狀態量,該參量是表征當前濃密機狀態的重要參量,它可被間接控制但不作為控制目標.因此,濃密機系統可表述為式(1)形式的非線性系統,其中f(·) 為未知非線性函數.

本文提出的濃密機底流濃度控制算法,可以根據當前底流濃度y(k)、泥層高度h(k)、進料流量c1(k)、進料濃度c2(k) 幾個狀態量,自動地調節底流泵速u1(k) 和絮凝劑泵速u2(k) ,使底流濃度y(·) 追蹤其設定值y?.

2 利用HCNVI 算法實現濃密機底流濃度在線控制

當前,工業場景下控制濃密機的方法主要依靠操作員手工控制.操作員根據生產經驗給出絮凝劑添加量的設定值 (m3/h) 以及底流流量設定值(m3/h),濃密機內相配套的回路控制系統會根據設定值的大小自動調節絮凝劑泵速 (Hz) 與底流泵速 (Hz),使絮凝劑的實時流量、底流實時流量追蹤操作員給出的設定值.然而,由于濃密機系統的復雜性,操作員難以實時、完整地掌握系統運行參數,因此無法及時、準確地設定目標點位.這導致在實際生產過程中,濃密機常常處于非最優工作狀態,底流濃度大范圍頻繁波動,偏離理想的底流濃度.

對于濃密過程式(1),控制系統的首要目標是使底流濃度y(k) ,追蹤其設定值y?(k) .另外,為了保證系統運行安全與儀器壽命,控制輸入必須滿足一定的限制條件.綜合上述指標因素,可以將濃密機控制問題轉化為有約束的最優化問題式(2).

J(k)為折扣累計評價值函數,用來評估控制策略的好壞.式(3)是效用函數,代表在當前狀態y(k)下,執行控制輸入u(k) 需要承受的代價.γ ∈(0,1]是折扣因子,代表系統短期控制過程中產生的懲罰值在累計懲罰項所占比重.Q>0,R是對稱正定矩陣,分別代表對ui(k) 的限制,umid

2.1 理論最優控制模型

本節根據對式(2)的定義,求解理想情況下最優控制輸入u?(k) .

式(2)可以表示為式(4)貝爾曼方程的形式:

根據貝爾曼最優原則,第k時刻的最優評價值函數J?(k) 滿足離散哈密頓?雅可比?貝爾曼方程

第k時刻,最優的控制輸入u?(k) 可以表示為

由于式(1)中f(·) 是復雜非線性函數,無法直接對式(5)進行求解,但可以利用算法1 以值函數迭代的方式求解最優值函數和最優控制律,其中x(k)用于表征系統狀態,x(k)[y(k),h(k),c(k)T]T.根據文獻[18],可以證明當i →∞時,值函數V i →J?,控制律u i →u?.

算法 1.值迭代算法

初始化:隨機定義V0(·)

2.2 啟發式評價網絡值迭代算法

本節將基于算法1,提出一種啟發式評價網絡值迭代算法.該算法能根據濃密機系統產生的實時監測數據x(k) 進行在線學習,并產生滿足 ?u約束的控制輸入量u(k),且最小化J(k) .算法整體結構如圖2 所示.HCNVI 算法中包含兩個神經網絡,分別是模型網絡和評價網絡.神經網絡均采用單隱層人工神經網絡,其基本結構如圖3 所示.模型網絡的訓練全部離線進行,在控制任務開始后,將不再對模型網絡參數進行調整.控制動作決策算法根據濃密機實時反饋狀態x(k) 計算控制變量u(k) 并用于濃密機系統控制,u(k),x(k) 被放入短期經驗數據暫存區存儲.模型訓練時,由短期經驗暫存區提供訓練數據供模型訓練.算法學習過程中,僅評價網絡參數發生改變.

圖2 HCNVI 算法結構示意圖Fig.2 Structure diagram of algorithm HCNVI

評價網絡.HCNVI 采用一個稱為評價網絡的神經網絡來近似算法1 中的V(·) 函數.神經網絡選擇單隱層人工神經網絡,其基本結構如圖3 所示.評價網絡的具體定義如下:

tanh(x)是網絡的激活函數,網絡輸入層包含4 個節點,隱層包含14 個節點,輸出層1個節點,Wc1和Wc2內參數均初始化為 ?1 ～1 之間的隨機數.該模型采用由濃密機控制過程中產生的在線數據進行網絡訓練.為了保證算法更新的實時性,本文采用單步時序差分誤差(Temporal difference error,TD error)[5]計算評價網絡估計誤差值,見式(10).

網絡損失函數為Ec(k).通過極小化該目標函數,可以使評價網絡根據被控系統反饋的狀態信號及效用值信號,增量式地逼近對于當前控制策略的評價函數.使用鏈式法則可以計算損失值E c(k)對網絡參數的梯度:

采用梯度下降算法對評價網絡進行訓練更新:

l c是學習率,由于濃密機所處環境的外界噪音是不斷波動的,當外界噪音c(k) 改變時,網絡需要根據訓練數據快速收斂,l c需設定為固定值以保持學習能力.

由于不同物理量的取值差異很大,這會導致網絡無法有效學習并且造成超參數設定困難.因此本文采用濃密機系統產生的離線數據中各參量的極值對所有訓練數據利用式(13)進行歸一化放縮.

模型網絡.建立模型網絡用來對系統動態進行建模,根據當前系統狀態、外部噪音量、控制輸入、預測下一時刻底流濃度和泥層高度變化.網絡結構仍采用單隱層神經網絡,如圖3 所示.模型網絡具體定義如下:

其中,?(k)[xT(k),uT(k)]T,網絡輸入層包含6 個節點,隱層包含20 個節點,輸出層2 個節點,W m1和Wm2內各個參數均初始化為 ?1 ～1 之間的隨機數.通過梯度下降方法訓練模型網絡:

損失函數Em(k) 定義為:

對于模型網絡,同樣采用式(13)對訓練數據進行放縮.模型網絡的訓練全部離線進行,在控制任務開始后,將不再對模型網絡進行調整.

2.3 動作生成

大部分的ADP 類算法都是通過建立一個動作網絡來計算控制輸入,并利用評價網絡輸出值更新動作網絡的參數.HCNVI 方法以HDP 算法架構為基礎,去掉了動作網絡,直接利用評價網絡和模型網絡計算控制動作.該方法可以在環境噪音改變時,使被控系統更快速地收斂,并且減少內存占用以及削減訓練時間的消耗.

利用評價網絡和模型網絡計算控制動作u(k)的過程如算法2 所示.式(19)中在估計k+1時刻的折扣累計懲罰時,下一時刻濃密機系統所處外界噪音是未知的.不過由于真實工業環境下進料噪音都是連續變化的,很少出現突變,因此本模型用當前時刻噪音c(k) 來充當下一時刻噪音c(k+1) .

算法 2.利用迭代梯度下降算法計算控制動作

輸入:第k時刻系統狀態y(k),h(k),c(k)

輸出:第k時刻的控制動作輸出u(k)

圖4 迭代梯度下降過程可視化Fig.4 Visualize the process of iterative gradient decline

2.4 短期經驗回放

為了增加評價網絡訓練的準確性和收斂速度,本文進一步提出短期經驗回放方法優化網絡訓練損失函數,并計算優化梯度.短期經驗回放方法將式(10)的誤差值計算方法修改為

通過存儲短期內被控系統的運行軌跡數據,在訓練過程中,短期軌跡數據可以用來共同計算評價網絡的損失值以及優化梯度方向.

HDP、DHP 以及本文提出的HCNVI 算法都是面向狀態值函數進行建模的在線控制算法,其策略模塊的更新都是以模型網絡作為媒介,計算評價網絡輸出值對于控制輸入u(k) 的梯度,并在此梯度基礎上更新動作網絡或者利用算法2 優化u(k) .因此對于u(k) 梯度估計的準確性極大地影響了策略模塊的更新效果,進而影響整個控制系統的控制效果與收斂速度.u(k) 的梯度表達式為式(25)

對于濃密機等大型過程工業設備來說,系統的運行過程緩慢,短時間內系統狀態不會發生劇烈改變,即x(k)≈x(k+1),且評價網絡具有連續可微的性質.因此可以近似認為λ(k)≈λ(k+1) .同樣,由于系統的運行過程緩慢會導致提供給控制模型學習的訓練數據中系統狀態參量分布非常集中,可以近似認為式(26)成立.

該式表明短期內系統狀態點x(k ?t) 都在以x(k)為中心,δ為半徑的領域內.通過式(24)將短期L條數據共同用于評價網絡訓練,可以使評價網絡在x(k) 的鄰域內學習地更佳充分,進而更準確地估計λ(k) .

為了更直觀地展示增加短期經驗回放對評價網絡學習過程的影響,本文對第3.1 節實驗1 中的評價網絡進行了可視化,實驗結果如圖5 所示.該實驗中采用等高線圖對評價網絡的輸出值進行展示,其中圖5(a)代表不使用經驗回放,利用式(10)訓練網絡,圖5(b)代表使用短期經驗回放,回放數據點數L為2,利用式(24)訓練網絡.對于兩種算法,分別繪制了連續四次迭代中,評價網絡在更新后對不同泥層高度h(·) 和底流濃度y(·) 的評價值.圖中橫縱坐標分別代表被歸一化后的泥層高度和底流濃度.根據實驗結果發現.在圖5(a)中評價網絡的輸出值在不同輸入下基本趨同.且在當前時刻系統狀態點附近,網絡輸出值的梯度很小.說明單數據點更新會造成評價網絡很快地遺忘歷史數據,導致網絡輸出值整體漂移,難以穩定地學習到正確的局部梯度.在圖5(b)中,當前系統狀態 (h(k),y(k)) 所處臨域內,網絡輸出值具有較大差異,局部梯度值可以被較好地保持.準確的梯度λ(k) 可以提高?u(k)估計的精確度,因此對短期數據進行回放訓練可以更好地指導控制策略輸出更優控制動作,促使評價網絡和被控系統快速收斂.同時,當經驗回放數據量式(24)中L的過大,會導致性能的退化.其原因在于本文提出的方法是同策略(On-policy)強化學習方法,而時間相差較遠的歷史數據點不能表征由當前控制策略產生的控制軌跡,因此評價網絡會學習到錯誤的評價值.另外,L過大將不再滿足性質式(26),過多的歷史數據回放將不再有助于評價網絡學習x(k) 處的梯度值λ(k),進而不會提高對?u(k)估計的精確度.通過實驗觀察,一般將L限定在 5 以內,本文也將這種經驗回放方法稱為短期經驗回放.

圖5 短期經驗回放對評價網絡的輸出值的影響Fig.5 The effect of short-term experience replay on critic network

將HCNVI 算法用于濃密機控制的具體流程如算法3 所示.

算法 3.利用HCNVI 算法實現濃密機在線控制

3 濃密機仿真實驗

濃密機仿真模型.由于在真實工業場景下進行濃密機控制實驗成本較高,本節采用濃密機仿真模型驗證本文提出控制算法的有效性,模型構建方法參考了文獻[19?24].該仿真模型建立在如下假設基礎上:

1)進料都是球形顆粒.

2)絮凝劑在濃密機的靜態混合器中作用完全.

3)流體的擴散以固液混合物形式進行.

4)忽略顆粒間相互作用、濃密機中把機中軸的影響.

模型推導過程中出現的變量如表1～表3所示

表1 參量定義Table 1 Variables definition

表2 仿真模型常量Table 2 Definitions for constant variables

表3 部分變量計算方法Table 3 Definitions for part intermediate variables

由文獻[23],可得泥層高度與泥層液固質量比之間的關系.

根據固體守恒定律,泥層內固體質量變化量等于由進料導致泥層內固體量增加量與底流導致泥層內固體減少量的差.因此可以建立泥層內平均單位體積含固量與粒子沉降速度的關系.

對式(28)做變形可得式(29):

聯立式(29),式(27),可得泥層高度h(t) 與底流濃度cu(t) 的一階變化率

在該仿真模型中,絮凝劑泵速f f和底流泵速f u是控制輸入u[f u,f f]T,進料泵速f i和進料濃度c i是外部干擾量c[f i,c i]T,底流濃度c u為控制系統追蹤變量yc u. 理想的控制系統能夠在外界干擾量c不斷波動下,通過在合理范圍內調節u,驅使y追蹤其設定值y?. 根據真實生產情況對部分變量做如下定義:umin[40,30]T,umax[120,50]T,ymin280,ymax1200,cmin[40,30]T,cmax[120,50]T,y?680.接下來本節將基于濃密機仿真模型式(30)、式(31),分別進行兩組實驗驗證在兩種類型噪音量c(k) 輸入下HCNVI 模型的控制效果,并與其他算法進行比較.

3.1 實驗1:恒定 ? 階躍型噪音輸入下濃密機控制仿真實驗

第一組實驗中設置干擾量輸入c為恒定值,并在某一時刻為其增加階躍突變,噪音輸入量如圖6所示.該實驗用來驗證控制模型能否在濃密機外在環境發生大幅度變化下,快速尋找到u?,使被控模型達到理想收斂穩態.

圖6 噪音量變化曲線Fig.6 Noise input in the simulation experiment

使用本文提出的HCNVI 算法與HDP、DHP、ILPL 算法進行對比實驗.仿真實驗參數如下:迭代輪次T270,仿真步長T d120 s,Q0.004,γ0.6,N a4 000,N c500,?c0.001,?a0.0001,l m0.01,l c0.01,l a0.009,l u0.4,L c2,L m[0.01,3].其中HDP、DHP 算法也使用短期經驗回放,回放點數L為2.實驗中HDP、ILPL、HCNVI 的評價網絡結構相同,且網絡參數初始化為相同數值.實驗結果如圖7 所示.

圖7 HCNVI 與其他ADP 算法在恒定噪音輸入下的對比Fig.7 HCNVI versu other ADP algorithms under stable noisy input

根據實驗結果可以發現,對于不同控制算法,由于網絡參數初始值均為隨機設定值,訓練初期底流濃度有較大幅度的波動,且在設定值兩側持續震蕩.隨著各個控制模型的學習,系統狀態與網絡參數不斷趨于平穩,直到某一時刻底流濃度開始穩定并與設定值重合且不再產生波動,此時控制模型參數也不再發生變化,被控系統和控制模型同時收斂到最優態.從效用值變化曲線也可以看出,早期由于底流濃度與其設定值偏差較大,效用值較高.但是隨著模型與系統趨于穩態,效用值u(k) 不斷縮減直到接近于0 的位置.到達270 分鐘時,系統進料濃度、進料流量發生突變,底流濃度無法維持穩態,開始遠離設定值.控制模型根據噪音量改變后的系統所產生的軌跡數據重新訓練,將底流濃度拉回設定值位置.由于在第一階段控制模型已經到達過一次穩態,在第二階段僅需要少量迭代就可以使系統重歸理想收斂穩態.通過觀察不同控制算法產生的系統軌跡,可以發現不同控制算法到達最優態所需的時間有較大差別,且在收斂到最優態的過程中,底流濃度的波動也有較大差異.在實驗第一階段,為使系統達到穩態,HCNVI 算法所需要的迭代次數更少,訓練過程中產生的底流濃度振幅也更小.并且在噪音量改變后,HCNVI 算法可以迅速地使模型重歸最優態,且底流濃度幾乎未發生大幅度波動.

HCNVI 的快速收斂能力主要來源于其采用迭代算法2 得出的u(k) 嚴格滿足式(7)的最小化條件,可以使評價網絡更快地收斂到最優評價值函數.而其他ADP 算法中引入了動作網絡,這會使策略的更新存在一定的滯后性,進而拖慢評價網絡的訓練速度.

為了驗證短期經驗回放技術對控制算法性能的影響,本文分別對比了無經驗回放、使用短期經驗回放 (L2) 情況下HDP、HCNVI 的控制性能.對比結果如圖8 所示.在本實驗中,僅比較了兩種算法的效用值變化,效用值越快地收斂到0 說明算法控制效果越佳.通過觀察圖8(a)和圖8(b)中無經驗回放情況下的效用值變化曲線,可以發現曲線波動較大.相比于使用短期經驗回放,無經驗回放情況下控制模型需要更多的迭代輪次才能夠使系統達到收斂.特別是在圖7(a) 的HCNVI 的實驗中,270 分鐘時系統噪音輸入量改變,效用值開始劇增,底流濃度開始偏離設定值,評價網絡的學習結果如圖5(a)中的第4 部分所示.評價網絡對當前狀態點x(k)的局部梯度估計有較大偏差,使得利用算法2求解的u(k) 并沒有驅使底流濃度向其設定值移動,被控系統無法收斂.但在增加了短期經驗數據回放后,無論是本文提出的HCNVI 算法還是HDP算法,效用函數值可以快速收斂至最低點,有效實現對被控系統的控制.該實驗結果表明短期經驗回放技術對于控制模型的收斂速度改善效果明顯,且對不同ADP 算法具有通用型.

圖8 短期經驗回放對HDP 與HCNVI 的影響Fig.8 The influence of short-term experience replay on HDP and HCNVI

另外本文進行了十組實驗來對比HCNVI 算法在時間上的優勢.選取HDP 算法作為參考對象,T270,結果如圖9 所示.由于每次實驗中網絡初始值不同,系統運行軌跡以及模型訓練過程也不同,因此每組實驗中模型學習以及控制所需的累積時間略有差異.但是從多次實驗結果可以看出,由于HCNVI 算法中去掉了動作網絡,僅需要訓練評價網絡,所以模型整體訓練時間大大縮減,盡管算法2 中計算控制輸入所需時間相比于HDP 算法直接利用動作網絡前向傳播求解控制動作所需時間長,但是HCNVI 算法總消耗時間明顯少于HDP 算法.

圖9 實驗一中HDP 與HCNVI 在時間消耗上的對比Fig.9 Comparison of time consuming in HDP and HCNVI in Experiment 1

前人研究表明[25?26],在啟發式動態規劃類算法中,去掉動作網絡可以有效減少模型訓練時間.但是在某些復雜系統控制問題中,去除動作網絡會使模型難以擬合復雜策略函數,最終導致控制效果變差.在本文的實驗中,由于濃密機系統運行緩慢且具有較高時滯性,當前時刻控制輸入量u(k) 對的影響較小,即對的影響較小.因此利用算法2 求解的u(k) 滿足式(7)的最小化條件.而在HDP、DHP、ILPL 等方法中采用神經網絡擬合出的控制策略,難以輸出嚴格滿足式(7) 的u(k),算法2 的最優性代表HCNVI 可以最大程度地利用評價網絡給出的協狀態信息優化當前控制策略,進而獲得更高的控制效果.但HCNVI 方法也具有一定的局限性,當被控系統狀態變化速率較快,隨u(k) 變化的分布函數不再是單峰函數,算法2 求解出的u(k) 極容易陷入到局部最優解,算法控制效果及收斂速度必然變差.而此時在HDP、DHP、ILPL 等方法中采用神經網絡擬合的控制策略往往能夠給出相對更優、魯棒性更強的控制動作u(k),其控制效果與收斂速率必然優于HCNVI 算法.

3.2 實驗2:高斯噪音波動輸入下濃密機控制仿真實驗

實驗1 中仿真模型的進料狀態是恒定的,只在某一時刻產生突變,其目的是為了更好地觀察不同控制算法的收斂速度.而真實工業場景下,濃密機的進料濃度和進料流量是實時波動的.在本節實驗中,進料流量和進料濃度兩個噪音量持續波動,用來模仿真實工業場景下的濃密機系統環境.噪音輸入的單步變化增量服從高斯分布,進料波動變化如圖10 所示.

圖10 噪音量變化曲線Fig.10 The fluctuation of noisy input

本實驗中HCNVI 控制器參數與第3.1 節實驗1 中的算法參數相同,迭代輪次T270,仿真步長T d120 s.利用該仿真模型再次對比HCNVI 與其他算法控制性能的差異,結果如圖11 所示.

圖11 HCNVI 與其他ADP 算法在波動噪聲輸入下的對比Fig.11 HCNVI versu other ADP algorithms under fluctuate noisy input

通過觀察實驗結果發現在環境噪音連續變化條件下,濃密機底流濃度會發生持續震蕩.隨著對模型參數的不斷訓練,各個算法的控制性能趨于平穩,由于進料噪音導致的底流濃度波動稍有減弱.對比不同控制算法的控制性能,可以發現HCNVI 相比于其他ADP 算法能夠更快地將底流濃度鎖定在設定值臨域范圍內,且濃度振幅小于其他算法.從效用值變化曲線也可以看出,相比于其他算法,HCNVI算法的效用值整體較小,且在訓練后期幾乎0.

該實驗結果與第3.1 節實驗1 中進料噪音突變條件下的實驗結果相吻合.HCNVI 算法在外界噪音頻繁改變時,可以更快地響應外部變化,快速調節評價網絡參數,將底流濃度穩定在目標值附近.其他算法由于增加了動作網絡產生了訓練滯后性,進而導致無法快速適應外部環境的變化,使其控制性能差于HCNVI.

表4 給出了不同算法在第3.1 節實驗1 和第3.2 節實驗2 中底流濃度控制性能指標對比結果.相比其他算法,HCNVI 算法可以更好地控制底流濃度穩定在其設定值附近,其控制總體穩定性(由MSE、IAE 體現)、控制魯棒性(由MAE 體現)更佳.在過程工業控制場景中,控制系統的MAE 指標尤為重要,某一工序的物料性質發生劇烈波動會使下游物料加工工序出現連帶波動,嚴重影響生產的穩定性和最終產品的質量.HCNVI 算法在MAE指標上的優勢證實了其在過程工業控制問題中的適用性.

表4 不同控制算法之間性能分析Table 4 Performances analysis of different algorithms

圖12 展示在環境噪音持續變化條件下,不使用經驗回放和使用短期經驗回放 (L2) 兩種情況下HCNVI 算法控制性能.在無經驗回放情況下,底流濃度穩定性明顯較差,且效用值明顯較高,使用短期經驗回放 (L2) 后模型控制效果較好.實驗結果表明,短期經驗回放技術在環境噪音持續變化下仍對模型控制效果與收斂速度有重要促進作用.

圖12 噪音持續變化下短期經驗回放對HCNVI 的影響Fig.12 The influence of short-term experience replay on HCNVI

為了展現在噪音持續變化條件下,HCNVI 算法在時間上的優勢,再次重復了10 次實驗對比了HCNVI 算法與HDP 算法的時間消耗,T270 .實驗結果如圖13 所示.在噪音持續變化環境下,HCNVI算法和HDP 算法的總時間消耗相比于圖9中的結果均有增加.這是由于當外部環境存在持續擾動時,被控系統和控制模型參數不再如第3.1 節實驗1 中達到穩定態,而是始終處于震蕩狀態,被控系統軌跡數據不斷變化.每輪學習過程中,為了滿足評價網絡的精度ec(k)2

圖13 實驗二中HCNVI 算法與HDP 算法在時間消耗上的對比Fig.13 Comparison of time consuming in HDP and HCNVI in Experiment 2

4 結論

本文提出了基于強化學習的自適應控制算法HCNVI,該算法通過構建用于識別系統動態方程的模型網絡以及用于估計折扣累計代價的評價網絡來解決濃密機控制問題.該方法可以在對濃密機系統未知的情況下,僅利用濃密機系統輸出數據以及歷史運行數據即可實現在線學習并獲得較好的控制效果.另外本文提出的短期經驗回放技術可以很好地增強評價網絡訓練的穩定性,在其他自適應動態規劃算法中也具有較好通用性.根據仿真實驗驗證結果可以發現,相比其他在線ADP 算法,由于HCNVI算法模型結構簡單,且具有較高的學習敏捷性,因此在濃密機仿真系統控制問題中,HCNVI 算法消耗了更少的訓練時間但獲得了更優的控制效果.但是HCNVI 算法也存在自身的局限性,其去掉動作網絡的可行性是建立濃密機具有運行緩慢、穩定的特性基礎之上的.但是當被控系統相對復雜且不再具有此特性時,如系統狀態量變化過程并不連續或系統運行速度較快,HCNVI 依靠迭代算法求解的控制量難以保持最優性,控制性能極有可能產生退化.如何使HCNVI 算法以及其他無動作網絡類自適應動態規劃類算法適用于此類復雜被控系統,在優化訓練時間消耗的同時保證其控制性能與收斂速度,將是未來非常有意義的研究方向.