段緒彭 李永振
摘 要:本文對于系統(tǒng)模態(tài)不匹配的異步切換多智能體系統(tǒng)的輸出調(diào)節(jié)問題進(jìn)行了分析與探討,結(jié)合粒子群算法等多智能體系統(tǒng)的優(yōu)化算法對于分布式輸出反饋控制協(xié)議進(jìn)行了設(shè)計,從而能夠有效地做好輸出調(diào)節(jié)的工作,為其進(jìn)一步發(fā)展打下了堅實的基礎(chǔ)。
關(guān)鍵詞:異步切換多智能體系統(tǒng);輸出調(diào)節(jié)問題;分析;探討
輸出調(diào)節(jié)問題近年來已經(jīng)取得了很多成果, 輸出調(diào)節(jié)的目標(biāo)是為不確定受控系統(tǒng)設(shè)計控制律使得閉環(huán)系統(tǒng)漸近穩(wěn)定, 且在存在擾動時閉環(huán)系統(tǒng)的輸出可以漸近地跟蹤參考輸入或漸近地抑制干擾信號。多智能體系統(tǒng)一致性問題受到了很多學(xué)者的關(guān)注,一致性問題可以看作輸出調(diào)節(jié)的一類特殊問題, 同理, 多智能體的一致性問題也可看作多智能體協(xié)同輸出調(diào)節(jié)問題的一類特殊問題。
1 多智能體系統(tǒng)的優(yōu)化算法分析
粒子群算法,縮寫為 PSO。PSO 算法屬于進(jìn)化算法的一種,和模擬退火算法相似,它也是從隨機解出發(fā),通過迭代尋找最優(yōu)解,它也是通過適應(yīng)度來評價解的品質(zhì),但它比遺傳算法規(guī)則更為簡單,它沒有遺傳算法的“交叉”和“變異”操作,它通過追隨當(dāng)前搜索到的最優(yōu)值來尋找全局最優(yōu)。這種算法以其實現(xiàn)容易、精度高、收斂快等優(yōu)點引起了學(xué)術(shù)界的重視,并且在解決實際問題中展示了其優(yōu)越性,粒子群算法是一種并行算法,其源于對鳥群捕食的行為研究 目前很多學(xué)者都對多智能體系統(tǒng)生成進(jìn)行了深入研究,取得的研究成果也是眾多的。在本文中對于個體適應(yīng)值以多智能體系統(tǒng)數(shù)據(jù)進(jìn)行有效模擬,以此方式使得程序運行時間得以有效控制,故此,進(jìn)行多智能體系統(tǒng)數(shù)據(jù)生成時,僅需利用較為基本的方法即可,由于在被測程序中,所對應(yīng)的目標(biāo)路徑并不是唯一的,而每次算法運行,僅能夠?qū)ζ渲械囊环N路徑進(jìn)行測試,由此得到對應(yīng)路徑的多智能體系統(tǒng)數(shù)據(jù),因此路徑數(shù)量對應(yīng)著算法需要進(jìn)行的次數(shù)。首先,要求能夠得到一定的多智能體系統(tǒng)數(shù)據(jù),可將程序進(jìn)行插裝以獲得真實適應(yīng)值,由此得到實驗需要的樣本數(shù)據(jù)。隨后,通過樣本使得多智能體系統(tǒng)數(shù)據(jù)得到訓(xùn)練,當(dāng)訓(xùn)練完成之后以這些多智能體系統(tǒng)數(shù)據(jù)來對個體適應(yīng)值進(jìn)行大致評估,從中選擇優(yōu)秀的個體,即那些具有較好適應(yīng)值的,隨后進(jìn)行程序運行以此方式從中得到實際的適應(yīng)值水平。此外,因為在本文方法中對于個體適應(yīng)值是以多智能體系統(tǒng)數(shù)據(jù)進(jìn)行的評估,故此,如果目標(biāo)路徑是相同的,只需要在初始階段對多智能體系統(tǒng)數(shù)據(jù)進(jìn)行訓(xùn)練,在后期的運行中是無須對其進(jìn)行更新的。
2 分布式輸出反饋控制協(xié)議設(shè)計
一般在這樣的框架下,可以實現(xiàn)較好的優(yōu)化功能,主要包括評價模型和執(zhí)行三個部分,這三個部分主要在于能夠?qū)崿F(xiàn)完整的評價改善循環(huán),評價模塊可以評估執(zhí)行模塊的實際效能,對于代價函數(shù)進(jìn)行優(yōu)化與修正,執(zhí)行模塊可以產(chǎn)生實際的動作來對所改進(jìn)的策略進(jìn)行執(zhí)行,同時也能有效的對于被控對象的情況進(jìn)行反應(yīng),將其進(jìn)行運行之后,可以通過不同的反饋,來對實際評價與運行的情況進(jìn)行確定,同時,利用相關(guān)的神經(jīng)網(wǎng)絡(luò)、強化學(xué)習(xí)等算法,來實現(xiàn)函數(shù)的近似與優(yōu)化,這樣就能對于系統(tǒng)的內(nèi)部參數(shù)進(jìn)行實時的更新,這里主要是采用貝爾曼的優(yōu)化方式來進(jìn)行更新的。效用函數(shù)可以對于函數(shù)輸入在系統(tǒng)內(nèi)產(chǎn)生的效果,進(jìn)行合理有效的評估,主要有以下這些方式:通過代價函數(shù)的定義情況,我們可以對效用函數(shù)做出一定的評價,我們可以看出,當(dāng)?shù)綍r候,效用函數(shù)的重要性是一樣的,當(dāng)折扣因子減小的時候,這個自適應(yīng)系統(tǒng)就可以在越短的時間內(nèi)進(jìn)行收斂,得到一個更加優(yōu)化的結(jié)果,但是當(dāng)折扣因子如果過大的時候,系統(tǒng)的幅度就很難進(jìn)行控制,所以這個時候,我們應(yīng)當(dāng)盡量的提高學(xué)習(xí)率。學(xué)習(xí)率一般是在0到1之間的,學(xué)習(xí)率可以直接反映這個系統(tǒng)的學(xué)習(xí)速度,但是學(xué)習(xí)率如果太大的話,就可能會導(dǎo)致整個系統(tǒng)的震蕩過于嚴(yán)重,但是學(xué)習(xí)律太低又使得它的收斂的速度太慢了,導(dǎo)致整個的訓(xùn)練時間太長,無法滿足實際的要求,因此在符合實際要求的情況下,盡量增大學(xué)習(xí)率,這樣就可以提升學(xué)習(xí)的速度,同時避免出現(xiàn)嚴(yán)重的震蕩情況。
分布式輸出反饋控制協(xié)議方法是通過強化學(xué)習(xí),來對傳統(tǒng)的動態(tài)規(guī)劃進(jìn)行優(yōu)化,然后可以有效的解決離散系統(tǒng)和非線性系統(tǒng)中出現(xiàn)的問題,主要包括策略迭代和直接在兩種形式,策略迭代主要是通過策略評價與改進(jìn)的方法,對每一步的策略進(jìn)行評估,來不斷的尋找優(yōu)化的策略,同時對其進(jìn)行改良和優(yōu)化,得到新的權(quán)值,生成新的優(yōu)化函數(shù)進(jìn)行計算,在這個過程當(dāng)中,評估和改進(jìn)是循環(huán)進(jìn)行的,最后將會得到一個最優(yōu)的控制策略。但是需要注意的是,在最好的運行模式下,相關(guān)的一些外部參數(shù)條件應(yīng)當(dāng)是穩(wěn)定的,這是非常重要的,如果沒有這個條件,就會導(dǎo)致整個策略評估,出現(xiàn)一些意外的情況。值迭代的算法主要是針對于一些方程式的計算,通過最優(yōu)函數(shù)的尋找與控制計算,就能計算出最優(yōu)的值,它不需要進(jìn)行控制策略的穩(wěn)定化,在我們的使用當(dāng)中必須要注意,無論是迭代策略還是值迭代,都需要對于被控對象的相關(guān)特性,尤其是內(nèi)部特性進(jìn)行研究,這也是分布式輸出反饋控制協(xié)議的核心特點。
策略迭代的算法可以根據(jù)每一步的執(zhí)行情況,來對策略進(jìn)行迭代性的優(yōu)化,主要是通過每一步的代價函數(shù)來對于當(dāng)前情況的優(yōu)化情況進(jìn)行分析,根據(jù)目前策略下系統(tǒng)的運行方式,來對于新的代價函數(shù)進(jìn)行求解,進(jìn)行不斷的迭代,最終得到最優(yōu)化的全局的結(jié)果。
3 總結(jié)
在每次處理更新中對于最優(yōu)的控制函數(shù)進(jìn)行重新的計算,通過求函數(shù)最小值的方法來盡量得到優(yōu)化的控制方案。主要可以通過對于貝爾曼方程進(jìn)行求導(dǎo)而得到最優(yōu)解,同時每次迭代算法幾乎都是一樣的,需要通過對計算對象的內(nèi)部動態(tài)特性來進(jìn)行有效的控制與計算,這樣才能使得最終的結(jié)果符合于實際的優(yōu)化情況。
參考文獻(xiàn):
[1]王傳銳.多智能體系統(tǒng)分布式跟蹤控制問題研究[D].中國科學(xué)技術(shù)大學(xué),2014.
[2]丁磊.不同數(shù)據(jù)觸發(fā)機制下的多智能體系統(tǒng)一致性及H_∞濾波[D].大連海事大學(xué),2014.
[3]金元日.不確定通信下多智能體系統(tǒng)的一致性[D].浙江大學(xué),2013.
[4]劉學(xué)良.多智能體系統(tǒng)協(xié)調(diào)控制中的若干問題研究[D].華南理工大學(xué),2012.