999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

動態環境下多智能體協作學習方法的研究

2011-12-31 00:00:00王全武胡曉輝
科技創新導報 2011年9期

摘 要:將預測分析技術和強化學習技術有機結合,使多Agent系統中的各Agent,不僅具有了高度反應自適應性,而且擁有了高效而準確的預測分析能力;使Agent的行為更具有針對性,盡可能地減少錯誤,保證學習的正確方向,提高Agent間進行信息共享,融合單個Agent的Q值表。相當于相同情況下增加了學習次數,不僅盡可能地消除策略中的冗余動作,以高效的方式實現最終目標,而且提高多Agent系統執行效率和收斂速度及性能。本文提出了一種改進的多Agent間協作學習方法,適用于環境不完備的復雜情況。以追捕問題作為仿真實驗。結果表明所提方法能夠有效地促進多智能體系統中各Agent間協作學習能力。

關鍵詞:多智能體系統 強化學習 協作學習 預測分析技術 追捕問題 黑板模型

中圖分類號:TP18 文獻標識碼:A 文章編號:1674-098X(2011)03(c)-0253-02

1 引言

近年來,分布式人工智能研究者對多Agent協作完成任務的研究越來越多。這是因為隨著計算機網絡,分布式計算技術等不斷發展和完善,所要研究的系統往往異常復雜龐大,并且呈現動態多變的分布式特性,要解決問題單憑單Agent所擁有的有限的資源和能力是無法完成的,或者完成任務的效益不是理想的,同時,成本也很高。因此,對多Agent間的協作學習方法的研究是十分必要的,也是非常重要的,更是多Agent系統發展的必然趨勢。學習可以使多Agent能夠在開放、復雜、動態的環境中提高自反應適應性,更是學習機制可能有效地實現多Agent間的協作。反之,為多Agent系統增加協作學習機制也能起到加速多Agent的學習進程。本文以追捕問題為背景,采用協作機制和獨立強化學習技術來研究多Agent系統中的協作學習問題,結合預測分析技術和黑板模型使多Agent擁有了可預測的能力,和共享學習成果的平臺,從而達到了利用協作來改善學習效果的目的。

2 強化學習

強化學習是一種無人監督的在線的機器學習方法,也稱為再勵學習或評價學習,使智能體能夠在環境模型未知的情況下利用環境獎賞發現最優的行為序列。其原理是:如果學習者即Agent的某個動作策略導致環境正的獎賞,那么Agent以后產生這個動作策略的趨勢就會加強;反之,Agent產生這個動作策略的趨勢便會減弱。Agent算法是由Watkins于1989年提出的一種與環境無關的動態差分強化學習算法,其本質是MDP的一種變化形式。馬爾可夫決策過程是一個四元組MDP=(S,A,P,R),其中:S是離散的狀態空間;A:是離散的動作空間;P:S是表示環境狀態轉移概率函數;R:是狀態-動作對的獎賞函數。

馬爾可夫決策過程的思想是,智能體每步可在有限的動作集合中選取某一動作,環境接受該動作后狀態發生轉移,同時作出評價,Agent面臨的主要任務是決定一個最優策略,使得最終總的折扣獎賞信號期望值最大。

3 改進的多Agent協作學習方法

3.1 算法思想

3.1.1 各Agent均采用獨立強化學習算法進行學習

3.1.2 為了加快學習速度,提高學習效率。首先,各Agent在采取行為動作之前,預測分析其他Agent的可能動作和下一個時刻可能所處的狀態。其次,多Agent通過黑板模型進行策略的共享。再次,利用融合算法對多個策略進行融合來改進策略,利用融合后的策略進行再次學習。

3.2 算法描述

多Agent系統中,各個Agent處于同一個環境中獨立地執行Q-learning.

3.2.1 對于在t+1時刻將到達的狀態的概率預測函數P的定義如下式:

(1)

任意時刻有:成立。

表示Agenti狀態集中的第k個狀態,st是時刻所有Agent的組合狀態,是預測學習模型的學習率,它在學習過程中是逐漸衰減的。

3.2.2 具體實現多Agent協作學習算法

Step1 t←0,隨機初始化每個智能體的Q(s,α);

Step2:對于每個智能體,執行標準的Q-learning算法:

首先,觀察環境當前狀態st;

其次,按如下公式Boltzmann機的方式選擇一個動作αt并執行;

最后,觀察環境的后繼狀態st+1并從環境中獲得強化信號rt;(4)根據此公式對(s,α)狀態-動作對相應的Q(st,αt)進行更新;

Step3:如果t能被事先指定的F整除,則所有的Agent交換策略并融合;

Step4:t←t+1;

Step5:如果后繼狀態滿足結束條件,則結束;否則s←s'轉Step2。在學習收斂之后,采用公式

4 仿真實驗

以追捕問題對改進多Agent協作學習方法改進仿真實驗,得出比傳統多Agent強化學習算法的有效性和其自身的收斂性。宏觀上把Agent分為獵人和獵物兩類。實驗結果要使多個獵人通過協作采取有效的策略追捕并最終捕獲到獵物。采用有界柵格建模,在20×20追捕地圖中,實現四個獵人追捕一個獵物。用N=(N1,N2,N3,N4)表示四個獵人的集合,M表示獵物,初始狀態如圖1所示。獵人的目標是在最少的步數內成功捕獲獵物,即指在某一個時刻獵人們在獵物周圍分別占據了四個鄰近網格,如圖2所示。其中,N1,N2,N3,N4之間是相互協作關系,稱為協作團隊,與獵物對抗。各獵人都執行獨立強化學習,通過預測分析,感知、規劃、移動,并與其他獵人進行通信協商。而獵物的逃避策略是為向其最近的獵人的反方向逃跑。在每個狀態,各個Agent只能在水平和垂直方向移動一個網格的位置。Agent不能越邊界方格,且任意兩個Agent均不能同時占據同一個網格,若出現此現象,則二者都將原地不動。設Agent可視半徑為r,能夠看見區域內所有網格為S=(2r+1)×(2r+1)。各個Agent分配唯一的ID,r=4,且交換頻率f=50Hz

(1)定義獵人的狀態值為獵人當前狀態,與其目標狀態的相對距離的平方,即

(2)動作選擇策略,先對各個Q(st,αt)用Boltzmann機進行非線性化,再采用輪盤賭算法進行抉擇。對于動作αi被選擇概率為

(4)

式中,T為退火溫度值,T越大。隨機性越強。

(3)獎賞函數:若獵人達到目標位置時,獎賞+300,靠近目標時,獎賞+100,位置未發生變化得到獎賞0;獵人與獵物的距離反而增加時,獎賞值為-1。在獨立學習過程中,每個Agent都有一份Q值表,每個Agent互斥獨立地修改各自的Q值表,經過一定的學習步數后,所有的Agent采用黑板模型與融合算法共享各自的Q值表。

5 實驗結果及其分析

將本文提出的多Agent協作學習算法和獨立強化學習算法來進行比較試驗。捕獲的平均成功概率和Q值的比較如圖3所示。從實驗結果很明顯得出,協作學習與獨立學習相比,能夠更快地收斂于平穩值。同時,多Agent之間進行相互合作,如多Agent間通信機制,共享策略預測其他Agent的后繼狀態。

參考文獻

[1] 張汝波,顧國昌,劉照德,王醒策.強化學習理論、算法及應用[J].控制理論與應用,2000,17(5):637~642.

[2] 高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004,30(1):86~101.

[3]譚民,王碩,曹志強.多機器人系統[M].北京:清華大學出版社,2005.

[5] 張維明,姚莉.智能協作信息技術[M].北京:電子工業出版社,2002.

[6] Sutton RS.Learning to predict by the methods of temporal difference[J].Machine Learning.1988(3):9~44.

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文

主站蜘蛛池模板: 98精品全国免费观看视频| 日本手机在线视频| 亚洲欧美在线精品一区二区| 婷婷午夜影院| 全部毛片免费看| 免费一级毛片在线播放傲雪网| 日韩大乳视频中文字幕| 国产粉嫩粉嫩的18在线播放91| 91成人在线免费观看| 欧美第一页在线| 国产成人精品免费视频大全五级 | 国产精品免费福利久久播放 | 免费一级全黄少妇性色生活片| 中文字幕人妻无码系列第三区| 免费啪啪网址| 香蕉色综合| 欧美日本视频在线观看| 欧美在线观看不卡| 真人免费一级毛片一区二区| AV天堂资源福利在线观看| 亚洲天堂2014| 手机成人午夜在线视频| 搞黄网站免费观看| 国产一级毛片高清完整视频版| 欧美一级99在线观看国产| 好吊日免费视频| 4虎影视国产在线观看精品| 国产在线精彩视频二区| 色哟哟精品无码网站在线播放视频| 美女裸体18禁网站| 久热精品免费| 国内精品久久人妻无码大片高| 国产91熟女高潮一区二区| 东京热一区二区三区无码视频| 亚洲中文字幕国产av| 国产精品免费福利久久播放| 成人日韩视频| 国产亚洲欧美日韩在线一区二区三区| 女人18一级毛片免费观看| 亚洲福利视频一区二区| 久久午夜影院| 欧美爱爱网| 欧美日韩午夜| 无码粉嫩虎白一线天在线观看| 国模视频一区二区| 日本道中文字幕久久一区| 欧美综合区自拍亚洲综合天堂| 98精品全国免费观看视频| 国产女人爽到高潮的免费视频| 在线观看欧美国产| 亚洲欧美日韩久久精品| 91国内外精品自在线播放| 亚洲第一成年免费网站| 国产高清在线观看91精品| 九色国产在线| 中文字幕在线一区二区在线| 国产在线观看99| 国产丰满大乳无码免费播放| 亚洲综合专区| 国产午夜无码片在线观看网站 | аv天堂最新中文在线| 亚洲精品综合一二三区在线| 日韩国产一区二区三区无码| 欧美日韩国产精品综合 | 在线播放国产一区| 97国产精品视频自在拍| 亚洲日韩第九十九页| 亚洲福利网址| 一区二区三区成人| 精品精品国产高清A毛片| 欧美日韩va| 亚洲男人天堂网址| 久久久久人妻精品一区三寸蜜桃| 久久久久国色AV免费观看性色| 高h视频在线| 欧美丝袜高跟鞋一区二区| 中文纯内无码H| 亚洲日韩AV无码一区二区三区人| 国产日韩丝袜一二三区| 日韩精品一区二区三区免费| 超清无码熟妇人妻AV在线绿巨人 | 国产91丝袜|