王 濤, 羅敏娜, 王 娜, 崔黎黎
(1. 沈陽師范大學 計算機與數學基礎教學部, 沈陽 110034; 2. 沈陽師范大學 軟件學院, 沈陽 110034)
在控制領域中,求解隨機線性二次(SLQ)最優控制問題是一個非常活躍和有前景的課題,近些年來引起廣泛的關注[1-3]。與確定性情況相似,SLQ最優控制問題依賴于隨機代數Riccati方程(SARE)[4-5]。在一些文獻中已經給出求解SARE相應的算法。例如,考慮到線性矩陣不等式的可解性等價于SARE的可解性,引進基于半定規劃的計算方法求解權重矩陣不定的SLQ最優控制問題[6]。根據一般化差分Riccati方程,Rami等人[7]得到權重矩陣不定的離散時間線性二次最優控制集。利用拉格朗日乘子定理得到了線性終端狀態約束條件下不定的SLQ最優線性狀態反饋解[8]。針對有限時間不定的平均場SLQ最優控制問題,Ni等人[9]給出依賴帶有平穩性條件和凸性條件的線性平均場正倒向隨機差分方程的開環最優控制。采用基于路徑積分的自適應評價算法求解仿射非線性隨機系統對應的最優控制策略[10]。在權重矩陣不定的情況下,Li等人[11]中討論了帶有泊松過程的隨機哈密頓系統解的存在性和唯一性條件。通過提出一種基于樣本數據的數字方法,充分利用正倒向隨機微分方程求解隨機最優控制問題[12]。Zhang和Yan[13]基于倒向隨機微分方程給出混合最優控制。
從上面介紹的方法可以發現,求解SLQ最優控制問題需要系統參數的信息,但許多實際問題的數學模型很難建立,如何在模型參數部分未知的條件下求解有限時間SLQ最優控制問題已成為隨機最優控制領域的研究熱點。本文采用Q學習迭代算法求解有限時間SLQ最優控制問題,該方法充分利用系統狀態信息,避免了系統參數部分未知的限制。
考慮如下隨機線性離散時間系統

(1)




設系統(1)對應的性能指標函數為

(2)


若對于任意初始狀態x0,存在一個控制序列使性能指標函數(2)達到最小值,則稱隨機線性二次最優控制問題是可達的。本文將在線性反饋控制uk=Lkxk,Lk∈Rm×n中尋找最優控制序列,稱常值實矩陣Lk為控制增益矩陣。下面通過系統變換將有限時間SLQ最優控制問題轉化為相應的確定性最優控制問題。
給定線性反饋控制uk=Lkxk,帶入式(1)得



(3)
相應地,性能指標函數(2)轉化為
若對任意初始狀態x0,性能指標函數滿足

則稱隨機線性二次最優控制問題是適應的。下面給出隨機線性二次最優控制問題適應性條件。

證明 證明過程參考引理1[14]。
引理2 如果隨機線性二次最優控制問題是可達的,則最優控制增益矩陣序列為


(4)
證明 通過矩陣拉格朗日乘子算法獲得最優控制增益矩陣序列,首先構造拉格朗日函數:


注釋1 由引理2知,最優控制增益矩陣序列依賴于系統模型參數A,B,C,D。雖然參數A,B是已知的,但參數C,D是未知的,通過求解SARE獲得最優控制增益矩陣序列是行不通的。
根據貝爾曼最優性原理知,
Q函數定義為

(5)
根據引理1,最優性能指標函數可以表示為
將式(6)帶入式(5),Q函數又可以寫為
這里定義H矩陣為
則Q函數簡化為
最優控制增益矩陣表示為
注釋2最優控制增益矩陣序列僅依賴H矩陣,完全擺脫了系統模型參數未知的限制。下面通過Q學習迭代算法估計H矩陣序列。
給定系統初始狀態xk和初始控制u0(xk),設Q0(xk,uk)=0,則
當i≥1時,Q學習迭代算法在

(7)
和

(8)
之間迭代。
下面給出Q學習迭代算法(7)、(8)的等價形:
和

(10)
本文提出的Q學習迭代算法是建立在值迭代算法基礎之上,下面給出相應的值迭代算法

引理4Q學習迭代算法式(9)和式(10)等價于

(13)
證明 式(9)等號右端最后一項可以寫為
將上式帶入式(9),考慮到系統狀態xk的任意性,則
根據Q學習迭代算法知,

(15)
將式(15)帶入式(14),則

(16)
在式(15)基礎上,可以得到
結合式(16),有

(17)
根據式(10)和式(16),可以得出

(18)
將式(18)帶入式(17),則式(17)可以轉化為式(13)。

證明 根據式(11),知
因為系統狀態xk的任意性,所以
根據式(11)和函數極值的必要條件,則

(20)
將式(20)帶入式(19),則式(19)可以轉化為
在實際問題中,由于系統狀態依賴于噪聲,所以系統狀態軌跡具有很強的隨機性。為了實現Q學習迭代算法,下面通過系統變換將隨機Q學習迭代算法轉化為確定性迭代算法。
給定系統初始狀態x0和控制增益矩陣LN-1,LN-2,…,Lk,則
在系統狀態轉移過程中,控制增益矩陣在不同的時間區間上不同,當控制增益矩陣序列LN-1,LN-2,…,Lk+1確定后,控制增益矩陣Lk可由下式計算得到。
根據式(21)和式(22),式(9)等號左邊又可寫為
式(9)等號右邊又可以寫為
本節將通過一個仿真例子說明Q學習迭代算法的有效性。考慮二階隨機線性離散時間系統

通過求解SARE獲得最優控制增益矩陣序列需要系統參數A,B,C,D的全部信息,下面在系統模型參數部分未知的條件下采用Q學習迭代算法求解最優控制增益矩陣序列。


圖1 控制增益矩陣L1曲線Fig.1 Control gain matrixL1curves

圖2 控制增益矩陣L0曲線Fig.2 Control gain matrixL0curves
從以上仿真結果可以看出,在系統模型參數部分未知的情況下,通過Q學習迭代算法獲得的控制增益矩陣序列收斂到各自的最優值,這就說明了Q學習迭代算法是有效的。
求解SLQ最優控制問題通常需要系統參數全部信息,但在實際問題中,得到系統參數信息是一件很困難的事情。當系統模型參數部分未知時,如何獲得最優控制變得十分有意義。因為系統參數的信息包含在系統狀態中,所以Q學習算法充分利用系統狀態信息求解最優控制。最后通過仿真實例說明了Q學習算法的有效性。