基于神經(jīng)網(wǎng)絡(luò)的啟發(fā)式動(dòng)態(tài)規(guī)劃在非線性系統(tǒng)中的研究

2020-10-28 08:46:25宋孟豪

科學(xué)導(dǎo)報(bào)·學(xué)術(shù) 2020年44期

宋孟豪

摘 ?要：在當(dāng)今的社會(huì)領(lǐng)域和工業(yè)領(lǐng)域中存在著大量的復(fù)雜系統(tǒng)，如交通系統(tǒng)、通信網(wǎng)絡(luò)系統(tǒng)等。這些復(fù)雜系統(tǒng)通常具有高度的非線性和不確定性，并且難于建立精確的數(shù)學(xué)模型。而現(xiàn)實(shí)世界中的系統(tǒng)都具有本質(zhì)非線性，傳統(tǒng)的線性系統(tǒng)理論只是一種局部近似。常見的幾種非線性系統(tǒng)的控制方法[1]有適應(yīng)控制、模變結(jié)構(gòu)控制、魯棒控制、自學(xué)習(xí)控制。傳統(tǒng)的控制方法已逐漸不能滿足當(dāng)下科技高度發(fā)展的控制需求，因此尋找一種更加先進(jìn)的控制方法顯得尤為重要。由于動(dòng)態(tài)規(guī)劃是一種非線性規(guī)劃方法，并且適用于不確定性問題。因而，自適應(yīng)動(dòng)態(tài)規(guī)劃理論在解決復(fù)雜非線性系統(tǒng)的優(yōu)化控制問題中具有極大的應(yīng)用潛力。

關(guān)鍵詞：神經(jīng)網(wǎng)絡(luò);自適應(yīng)動(dòng)態(tài)規(guī)劃;非線性系統(tǒng)

1 自適應(yīng)動(dòng)態(tài)規(guī)劃的簡(jiǎn)述

動(dòng)態(tài)規(guī)劃理論是20世紀(jì)50年代的美國(guó)數(shù)學(xué)家貝爾曼（Bellman）為了解決非線性動(dòng)態(tài)系統(tǒng)的最優(yōu)控制問題而提出的一種先進(jìn)控制理論[2]。動(dòng)態(tài)規(guī)劃是一種非線性的最優(yōu)化規(guī)劃方法，并且適用于隨機(jī)系統(tǒng)，因此是解決復(fù)雜非線性系統(tǒng)控制問題的有效方法。其核心思想是最優(yōu)性原理，可以將多級(jí)決策控制問題轉(zhuǎn)化為一系列單級(jí)決策控制問題，廣泛應(yīng)用于經(jīng)濟(jì)管理和決策、工業(yè)控制、空間技術(shù)等領(lǐng)域。啟發(fā)式動(dòng)態(tài)規(guī)劃（Heuristic Dynamic Programming，HDP）是1992年，Werbos[3]提出了啟發(fā)式動(dòng)態(tài)規(guī)劃（HDP）和二次啟發(fā)式動(dòng)態(tài)規(guī)劃（DHP）兩種基本的結(jié)構(gòu)之一。

2 啟發(fā)式動(dòng)態(tài)規(guī)劃

HDP結(jié)構(gòu)是最基本也是應(yīng)用最廣泛的一種ADP結(jié)構(gòu)，如圖2-1。

該結(jié)構(gòu)由三個(gè)神經(jīng)網(wǎng)絡(luò)組成：第一個(gè)為執(zhí)行網(wǎng)絡(luò)（Action Network），根據(jù)狀態(tài)變量產(chǎn)生控制變量 ;第二個(gè)為模型網(wǎng)絡(luò)（Model Network），根據(jù)此刻的狀態(tài)變量和控制變量得到下一刻的狀態(tài)變量，可以對(duì)復(fù)雜的非線性系統(tǒng)進(jìn)行建模，通過在線或離線方式進(jìn)行訓(xùn)練;第三個(gè)為評(píng)判網(wǎng)絡(luò)（Critic Network），輸入為狀態(tài)變量或，輸出為近似的性能指標(biāo)函數(shù)，通過權(quán)值傳遞，可以得到兩個(gè)時(shí)刻的輸出或。為效用函數(shù)。

3 基于BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法推導(dǎo)

4 總結(jié)

傳統(tǒng)的非線性系統(tǒng)的控制方法僅能在一定程度上解決模型未知或建模不精確、參數(shù)未知或變化等問題，具有一定局限性。而且由于復(fù)雜系統(tǒng)的高度非線性和不確定性，因而實(shí)現(xiàn)復(fù)雜非線性系統(tǒng)的最優(yōu)控制一直是一個(gè)熱點(diǎn)問題。雖然基于神經(jīng)網(wǎng)絡(luò)啟發(fā)式動(dòng)態(tài)規(guī)劃能在某種程度上解決傳統(tǒng)算法的局限性，但是在面對(duì)一些復(fù)雜的非線性系統(tǒng)的控制中還顯得束手無策，因而對(duì)復(fù)雜系統(tǒng)的非線性控制的研究不能停留在當(dāng)下，依舊要繼續(xù)向前。

參考文獻(xiàn)

[1] ?方勇純，盧桂章. 非線性系統(tǒng)理論. 清華大學(xué)出版社. 2009年5月.

[2] ?Bellman R E. Dynamic Programming. Princeton University Press. 1957.

[3] ?Werbos P J. Approximate Dynamic Programming for Real-Time Control and Neural Modeling. Handbook of Intelligent Control：Neural，F(xiàn)uzzy，and Adaptive Approaches，D.A. White and D.A. Sofge，Ed.，New York：Van Nostrand Reinhold. 1992.

科學(xué)導(dǎo)報(bào)·學(xué)術(shù)2020年44期

科學(xué)導(dǎo)報(bào)·學(xué)術(shù)的其它文章: 基于數(shù)感培養(yǎng)的小學(xué)數(shù)學(xué)教學(xué)策略的實(shí)施; 給幼兒創(chuàng)設(shè)一個(gè)多元的閱讀環(huán)境; 晉南鄉(xiāng)土資源在美術(shù)創(chuàng)意中的應(yīng)用措施; 小學(xué)數(shù)學(xué)課堂高效模式的創(chuàng)建與反思; 優(yōu)化教學(xué)語(yǔ)言技巧，提升小學(xué)體育教學(xué)質(zhì)量; 從習(xí)近平教育觀看幼兒園的德育教育