宋孟豪


摘 ?要:在當(dāng)今的社會(huì)領(lǐng)域和工業(yè)領(lǐng)域中存在著大量的復(fù)雜系統(tǒng),如交通系統(tǒng)、通信網(wǎng)絡(luò)系統(tǒng)等。這些復(fù)雜系統(tǒng)通常具有高度的非線性和不確定性,并且難于建立精確的數(shù)學(xué)模型。而現(xiàn)實(shí)世界中的系統(tǒng)都具有本質(zhì)非線性,傳統(tǒng)的線性系統(tǒng)理論只是一種局部近似。常見的幾種非線性系統(tǒng)的控制方法[1]有適應(yīng)控制、模變結(jié)構(gòu)控制、魯棒控制、自學(xué)習(xí)控制。傳統(tǒng)的控制方法已逐漸不能滿足當(dāng)下科技高度發(fā)展的控制需求,因此尋找一種更加先進(jìn)的控制方法顯得尤為重要。由于動(dòng)態(tài)規(guī)劃是一種非線性規(guī)劃方法,并且適用于不確定性問題。因而,自適應(yīng)動(dòng)態(tài)規(guī)劃理論在解決復(fù)雜非線性系統(tǒng)的優(yōu)化控制問題中具有極大的應(yīng)用潛力。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);自適應(yīng)動(dòng)態(tài)規(guī)劃;非線性系統(tǒng)
1 自適應(yīng)動(dòng)態(tài)規(guī)劃的簡(jiǎn)述
動(dòng)態(tài)規(guī)劃理論是20世紀(jì)50年代的美國(guó)數(shù)學(xué)家貝爾曼(Bellman)為了解決非線性動(dòng)態(tài)系統(tǒng)的最優(yōu)控制問題而提出的一種先進(jìn)控制理論[2]。動(dòng)態(tài)規(guī)劃是一種非線性的最優(yōu)化規(guī)劃方法,并且適用于隨機(jī)系統(tǒng),因此是解決復(fù)雜非線性系統(tǒng)控制問題的有效方法。其核心思想是最優(yōu)性原理,可以將多級(jí)決策控制問題轉(zhuǎn)化為一系列單級(jí)決策控制問題,廣泛應(yīng)用于經(jīng)濟(jì)管理和決策、工業(yè)控制、空間技術(shù)等領(lǐng)域。啟發(fā)式動(dòng)態(tài)規(guī)劃(Heuristic Dynamic Programming,HDP)是1992年,Werbos[3]提出了啟發(fā)式動(dòng)態(tài)規(guī)劃(HDP)和二次啟發(fā)式動(dòng)態(tài)規(guī)劃(DHP)兩種基本的結(jié)構(gòu)之一。
2 啟發(fā)式動(dòng)態(tài)規(guī)劃
HDP結(jié)構(gòu)是最基本也是應(yīng)用最廣泛的一種ADP結(jié)構(gòu),如圖2-1。
該結(jié)構(gòu)由三個(gè)神經(jīng)網(wǎng)絡(luò)組成:第一個(gè)為執(zhí)行網(wǎng)絡(luò)(Action Network),根據(jù)狀態(tài)變量 產(chǎn)生控制變量 ;第二個(gè)為模型網(wǎng)絡(luò)(Model Network),根據(jù)此刻的狀態(tài)變量 和控制變量 得到下一刻的狀態(tài)變量 ,可以對(duì)復(fù)雜的非線性系統(tǒng)進(jìn)行建模,通過在線或離線方式進(jìn)行訓(xùn)練;第三個(gè)為評(píng)判網(wǎng)絡(luò)(Critic Network),輸入為狀態(tài)變量 或 ,輸出為近似的性能指標(biāo)函數(shù),通過權(quán)值傳遞,可以得到兩個(gè)時(shí)刻的輸出 或 。 為效用函數(shù)。
3 基于BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法推導(dǎo)
4 總結(jié)
傳統(tǒng)的非線性系統(tǒng)的控制方法僅能在一定程度上解決模型未知或建模不精確、參數(shù)未知或變化等問題,具有一定局限性。而且由于復(fù)雜系統(tǒng)的高度非線性和不確定性,因而實(shí)現(xiàn)復(fù)雜非線性系統(tǒng)的最優(yōu)控制一直是一個(gè)熱點(diǎn)問題。雖然基于神經(jīng)網(wǎng)絡(luò)啟發(fā)式動(dòng)態(tài)規(guī)劃能在某種程度上解決傳統(tǒng)算法的局限性,但是在面對(duì)一些復(fù)雜的非線性系統(tǒng)的控制中還顯得束手無策,因而對(duì)復(fù)雜系統(tǒng)的非線性控制的研究不能停留在當(dāng)下,依舊要繼續(xù)向前。
參考文獻(xiàn)
[1] ?方勇純,盧桂章. 非線性系統(tǒng)理論. 清華大學(xué)出版社. 2009年5月.
[2] ?Bellman R E. Dynamic Programming. Princeton University Press. 1957.
[3] ?Werbos P J. Approximate Dynamic Programming for Real-Time Control and Neural Modeling. Handbook of Intelligent Control:Neural,F(xiàn)uzzy,and Adaptive Approaches,D.A. White and D.A. Sofge,Ed.,New York:Van Nostrand Reinhold. 1992.