異步切換多智能體系統(tǒng)的協(xié)同輸出調(diào)節(jié)探討

2018-05-14 09:39:00段緒彭李永振

科技風(fēng) 2018年15期

關(guān)鍵詞：探討分析

段緒彭李永振

摘要：本文對于系統(tǒng)模態(tài)不匹配的異步切換多智能體系統(tǒng)的輸出調(diào)節(jié)問題進(jìn)行了分析與探討，結(jié)合粒子群算法等多智能體系統(tǒng)的優(yōu)化算法對于分布式輸出反饋控制協(xié)議進(jìn)行了設(shè)計，從而能夠有效地做好輸出調(diào)節(jié)的工作，為其進(jìn)一步發(fā)展打下了堅實的基礎(chǔ)。

關(guān)鍵詞：異步切換多智能體系統(tǒng)；輸出調(diào)節(jié)問題；分析；探討

輸出調(diào)節(jié)問題近年來已經(jīng)取得了很多成果，輸出調(diào)節(jié)的目標(biāo)是為不確定受控系統(tǒng)設(shè)計控制律使得閉環(huán)系統(tǒng)漸近穩(wěn)定，且在存在擾動時閉環(huán)系統(tǒng)的輸出可以漸近地跟蹤參考輸入或漸近地抑制干擾信號。多智能體系統(tǒng)一致性問題受到了很多學(xué)者的關(guān)注，一致性問題可以看作輸出調(diào)節(jié)的一類特殊問題，同理，多智能體的一致性問題也可看作多智能體協(xié)同輸出調(diào)節(jié)問題的一類特殊問題。

1 多智能體系統(tǒng)的優(yōu)化算法分析

粒子群算法，縮寫為 PSO。PSO 算法屬于進(jìn)化算法的一種，和模擬退火算法相似，它也是從隨機解出發(fā)，通過迭代尋找最優(yōu)解，它也是通過適應(yīng)度來評價解的品質(zhì)，但它比遺傳算法規(guī)則更為簡單，它沒有遺傳算法的“交叉”和“變異”操作，它通過追隨當(dāng)前搜索到的最優(yōu)值來尋找全局最優(yōu)。這種算法以其實現(xiàn)容易、精度高、收斂快等優(yōu)點引起了學(xué)術(shù)界的重視，并且在解決實際問題中展示了其優(yōu)越性，粒子群算法是一種并行算法，其源于對鳥群捕食的行為研究目前很多學(xué)者都對多智能體系統(tǒng)生成進(jìn)行了深入研究，取得的研究成果也是眾多的。在本文中對于個體適應(yīng)值以多智能體系統(tǒng)數(shù)據(jù)進(jìn)行有效模擬，以此方式使得程序運行時間得以有效控制，故此，進(jìn)行多智能體系統(tǒng)數(shù)據(jù)生成時，僅需利用較為基本的方法即可，由于在被測程序中，所對應(yīng)的目標(biāo)路徑并不是唯一的，而每次算法運行，僅能夠?qū)ζ渲械囊环N路徑進(jìn)行測試，由此得到對應(yīng)路徑的多智能體系統(tǒng)數(shù)據(jù)，因此路徑數(shù)量對應(yīng)著算法需要進(jìn)行的次數(shù)。首先，要求能夠得到一定的多智能體系統(tǒng)數(shù)據(jù)，可將程序進(jìn)行插裝以獲得真實適應(yīng)值，由此得到實驗需要的樣本數(shù)據(jù)。隨后，通過樣本使得多智能體系統(tǒng)數(shù)據(jù)得到訓(xùn)練，當(dāng)訓(xùn)練完成之后以這些多智能體系統(tǒng)數(shù)據(jù)來對個體適應(yīng)值進(jìn)行大致評估，從中選擇優(yōu)秀的個體，即那些具有較好適應(yīng)值的，隨后進(jìn)行程序運行以此方式從中得到實際的適應(yīng)值水平。此外，因為在本文方法中對于個體適應(yīng)值是以多智能體系統(tǒng)數(shù)據(jù)進(jìn)行的評估，故此，如果目標(biāo)路徑是相同的，只需要在初始階段對多智能體系統(tǒng)數(shù)據(jù)進(jìn)行訓(xùn)練，在后期的運行中是無須對其進(jìn)行更新的。

2 分布式輸出反饋控制協(xié)議設(shè)計

一般在這樣的框架下，可以實現(xiàn)較好的優(yōu)化功能，主要包括評價模型和執(zhí)行三個部分，這三個部分主要在于能夠?qū)崿F(xiàn)完整的評價改善循環(huán)，評價模塊可以評估執(zhí)行模塊的實際效能，對于代價函數(shù)進(jìn)行優(yōu)化與修正，執(zhí)行模塊可以產(chǎn)生實際的動作來對所改進(jìn)的策略進(jìn)行執(zhí)行，同時也能有效的對于被控對象的情況進(jìn)行反應(yīng)，將其進(jìn)行運行之后，可以通過不同的反饋，來對實際評價與運行的情況進(jìn)行確定，同時，利用相關(guān)的神經(jīng)網(wǎng)絡(luò)、強化學(xué)習(xí)等算法，來實現(xiàn)函數(shù)的近似與優(yōu)化，這樣就能對于系統(tǒng)的內(nèi)部參數(shù)進(jìn)行實時的更新，這里主要是采用貝爾曼的優(yōu)化方式來進(jìn)行更新的。效用函數(shù)可以對于函數(shù)輸入在系統(tǒng)內(nèi)產(chǎn)生的效果，進(jìn)行合理有效的評估，主要有以下這些方式：通過代價函數(shù)的定義情況，我們可以對效用函數(shù)做出一定的評價，我們可以看出，當(dāng)?shù)綍r候，效用函數(shù)的重要性是一樣的，當(dāng)折扣因子減小的時候，這個自適應(yīng)系統(tǒng)就可以在越短的時間內(nèi)進(jìn)行收斂，得到一個更加優(yōu)化的結(jié)果，但是當(dāng)折扣因子如果過大的時候，系統(tǒng)的幅度就很難進(jìn)行控制，所以這個時候，我們應(yīng)當(dāng)盡量的提高學(xué)習(xí)率。學(xué)習(xí)率一般是在0到1之間的，學(xué)習(xí)率可以直接反映這個系統(tǒng)的學(xué)習(xí)速度，但是學(xué)習(xí)率如果太大的話，就可能會導(dǎo)致整個系統(tǒng)的震蕩過于嚴(yán)重，但是學(xué)習(xí)律太低又使得它的收斂的速度太慢了，導(dǎo)致整個的訓(xùn)練時間太長，無法滿足實際的要求，因此在符合實際要求的情況下，盡量增大學(xué)習(xí)率，這樣就可以提升學(xué)習(xí)的速度，同時避免出現(xiàn)嚴(yán)重的震蕩情況。

分布式輸出反饋控制協(xié)議方法是通過強化學(xué)習(xí)，來對傳統(tǒng)的動態(tài)規(guī)劃進(jìn)行優(yōu)化，然后可以有效的解決離散系統(tǒng)和非線性系統(tǒng)中出現(xiàn)的問題，主要包括策略迭代和直接在兩種形式，策略迭代主要是通過策略評價與改進(jìn)的方法，對每一步的策略進(jìn)行評估，來不斷的尋找優(yōu)化的策略，同時對其進(jìn)行改良和優(yōu)化，得到新的權(quán)值，生成新的優(yōu)化函數(shù)進(jìn)行計算，在這個過程當(dāng)中，評估和改進(jìn)是循環(huán)進(jìn)行的，最后將會得到一個最優(yōu)的控制策略。但是需要注意的是，在最好的運行模式下，相關(guān)的一些外部參數(shù)條件應(yīng)當(dāng)是穩(wěn)定的，這是非常重要的，如果沒有這個條件，就會導(dǎo)致整個策略評估，出現(xiàn)一些意外的情況。值迭代的算法主要是針對于一些方程式的計算，通過最優(yōu)函數(shù)的尋找與控制計算，就能計算出最優(yōu)的值，它不需要進(jìn)行控制策略的穩(wěn)定化，在我們的使用當(dāng)中必須要注意，無論是迭代策略還是值迭代，都需要對于被控對象的相關(guān)特性，尤其是內(nèi)部特性進(jìn)行研究，這也是分布式輸出反饋控制協(xié)議的核心特點。

策略迭代的算法可以根據(jù)每一步的執(zhí)行情況，來對策略進(jìn)行迭代性的優(yōu)化，主要是通過每一步的代價函數(shù)來對于當(dāng)前情況的優(yōu)化情況進(jìn)行分析，根據(jù)目前策略下系統(tǒng)的運行方式，來對于新的代價函數(shù)進(jìn)行求解，進(jìn)行不斷的迭代，最終得到最優(yōu)化的全局的結(jié)果。

3 總結(jié)

在每次處理更新中對于最優(yōu)的控制函數(shù)進(jìn)行重新的計算，通過求函數(shù)最小值的方法來盡量得到優(yōu)化的控制方案。主要可以通過對于貝爾曼方程進(jìn)行求導(dǎo)而得到最優(yōu)解，同時每次迭代算法幾乎都是一樣的，需要通過對計算對象的內(nèi)部動態(tài)特性來進(jìn)行有效的控制與計算，這樣才能使得最終的結(jié)果符合于實際的優(yōu)化情況。

參考文獻(xiàn)：

[1]王傳銳.多智能體系統(tǒng)分布式跟蹤控制問題研究[D].中國科學(xué)技術(shù)大學(xué)，2014.

[2]丁磊.不同數(shù)據(jù)觸發(fā)機制下的多智能體系統(tǒng)一致性及H_∞濾波[D].大連海事大學(xué)，2014.

[3]金元日.不確定通信下多智能體系統(tǒng)的一致性[D].浙江大學(xué)，2013.

[4]劉學(xué)良.多智能體系統(tǒng)協(xié)調(diào)控制中的若干問題研究[D].華南理工大學(xué)，2012.