999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

噪聲環境下信息共享對多智能體強化學習效率的影響

2021-09-23 06:08:30韓雨琪
電子技術與軟件工程 2021年12期
關鍵詞:智能環境策略

韓雨琪

(同濟大學電子與信息工程學院 上海市 201804)

1 引言

在強化學習中,多智能體協作為解決復雜問題提供了新的思路。通過將困難的任務分解并分發給多個智能體,可以更高效地完成任務。例如,Mahmoud等引入多智能體系統來分析客戶的行為并發現他們的偏好, Hajj等利用多智能體系統來檢測和避免黑客攻擊。

然而,在多智能體系統中,每個智能體在實際環境中觀察到的信息可能會失真。如,在傳感器網絡中,一方面,隨著設備的退化,會導致傳感器等設備采集到的信息不正確。另一方面,由于帶寬和功率的限制,信息的傳輸可能受到無線通信的干擾。在這種場景下,需要建模真實觀測值與失真觀測值之間的關系,利用這種關系,智能體可以在帶噪環境下做出決策。由此,強化學習引入部分可觀測馬爾可夫決策過程[3-4],通過建模環境真實信息(狀態值)與環境誤差信息(觀測值)之間的條件概率,智能體根據觀察到的信息而非實際信息進行策略調整。

在多智能體協作的場景下,通過信息共享,可以對一部分智能體獲得的信息進行補償,從而提高強化學習的學習性能增益。然而,現有的研究中極少討論到信息共享如何影響每個智能體的學習性能。本文首先分析了在觀測噪聲分布相同的情況下(即同構觀測噪聲),信息共享對每個智能體策略的影響。然后,我們考慮了每個智能體觀測噪聲服從不同分布(即異構觀測噪聲)的場景,在這種場景下,觀測噪聲較小的智能體可以獲得更精確的狀態信息。

2 多智能體強化學習模型

2.1 連續空間的部分可觀測馬爾可夫模型

設環境中共N個智能體,在時間t,st表示t時刻的智能體所在的狀態。對于每個智能體n,在t時刻的動作寫為在t時刻的動作集合寫為基于當前的狀態和每個智能體做出的動作,下一個時刻的狀態st+1由轉移概率確定,轉移概率表示為:

on,t表示智能體實際的觀測值,其可以看作實際狀態與噪聲的疊加。設U服從與參數β的均勻分布。實際的觀測值可以表示為:

在每個智能體采取了一個行動后,環境返回一個獎賞值rt。為了獲得最好的合作效果,給定衰減因子σ,多個智能體需要提高總的期望獎賞值

2.2 協作POMDP模型

在本節中,討論兩個智能體組成的協作PODMP模型。智能體在每個時刻t選擇行為并滿足:

在每個時刻,獎賞值被定義為:

在同構噪聲情況下,不同智能體的觀測噪聲分布相同。我們定義β1作為智能體1的觀測噪聲分布參數,β2作為智能體2的觀測噪聲分布參數,β1=β2。在時間t時,智能體n的觀測狀態為:

圖1:噪聲同構時的累積獎賞值變化

圖2:噪聲異構時不同噪聲參數對累積獎賞值的影響

而在異構的場景中,每個智能體的觀測噪聲不相同,不失一般性,設β1<β2,的概率密度函數表示為:

2.3 REINFORCE策略

本文采用REINFORCE策略作為強化學習的方法并對信息共享進行研究。REINFORCE策略根據每個事件的累積報酬來調整策略的參數,從而找到最優策略。智能體n的行為由觀測值o和策略π決定。而策略π由其參數θ確定,該參數表示為在每次更新中,智能體按當前策略選擇行為并執行,獲得期望獎賞值隨后根據的梯度進行策略調整,調整策略如下:

3 信息共享

3.1 同構噪聲智能體信息共享

在同構噪聲的場景下,若考慮信息共享,每個智能體觀測到環境當前的狀態后,將全部觀察結果發送給另一個智能體。我們選擇智能體n來說明信息共享性能變化,由于而另一個智能體具有相同的參數設置,因此另一個智能體與其有相同的過程。n的期望獎賞值被表示為:

若st<0,則只有當時,rt=1才成立。設的概率為可表示為:

我們定義在參數為βn時,信息共享的條件下獲得的獎賞值與無信息共享的條件下獲得的獎賞值之差g(βn),其可表示為:

對上式求導分析可知,信息共享可以使智能體n的期望獎賞值提高。當分布參數βn減小時,性能差距也減小。

3.2 異構智能體信息共享

在異構智能體場景中,智能體具有不同的感知環境的能力。當多智能體單獨與環境交互并調整策略參數時,其性能受到觀測信息噪聲更大的智能體的限制。設兩個智能體具有不同的觀測噪聲分布,其分布參數為β1和β2,滿足|β1|<|β2|。在異構觀測場景中,每個智能體獲得的期望獎賞值表示為:

4 仿真和結果分析

在進行仿真比較時,本文考慮狀態完全可觀測、部分可觀測、以及部分可觀測的智能體信息共享三組設置,并進行仿真和結果分析。第一組中的智能體可以精確獲得當前的狀態。第二組讓兩個智能體單獨觀察環境并調整策略。第三組考慮智能體之間的信息共享。實驗共進行10組迭代,每組采樣10次,同時對實驗進行了100次模擬,并給出結果的平均值以推廣實驗結果。σ設定為0.9,每個智能體的學習率α設定為0.1。

噪聲同構時的累積獎賞值變化的實驗結果如圖1所示。在觀測噪聲同構的情況下,信息共享可提高每個智能體對環境的學習效率并獲得更好的性能。

在異構噪聲的場景下,本文建立了與同構智能體相同的實驗環境。我們假設智能體1的噪聲分布參數是給定的,并改變智能體2的噪聲分布參數。如圖2所示,當智能體2的噪聲分布參數小于代理1的分布參數時,兩個智能體之間的信息共享可以為智能體1帶來性能增益;如果智能體2的噪聲分布過大,則信息共享對智能體1的學習性能造成損失。

5 結論

本文研究了在觀測狀態受噪聲的影響下,信息共享如何影響多智能體協作系統在連續狀態空間的性能。我們將觀測噪聲加入到真實狀態中,建立實際狀態和觀測的條件概率模型。在同構噪聲環境中,智能體之間的信息共享總是對強化學習的過程有益。而在異構噪聲環境中,觀測噪聲分布參數越大的智能體往往獲得性能增益,觀測噪聲分布參數較小的智能體有時反而會損失學習性能。以上研究對實際問題中連續狀態空間的智能體協同工作提供了理論指導。

猜你喜歡
智能環境策略
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
例談未知角三角函數值的求解策略
孕期遠離容易致畸的環境
我說你做講策略
環境
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
主站蜘蛛池模板: 成人免费网站久久久| 深夜福利视频一区二区| 国产无人区一区二区三区| 欧美劲爆第一页| 亚洲一本大道在线| 天天综合网在线| 中文字幕色在线| 性色生活片在线观看| 亚洲综合天堂网| 香蕉视频在线精品| 国产成人免费高清AⅤ| 国产a v无码专区亚洲av| 亚洲午夜久久久精品电影院| 57pao国产成视频免费播放| 日韩福利视频导航| 中文无码影院| 9cao视频精品| 黄网站欧美内射| 国产肉感大码AV无码| 毛片免费在线视频| 久久精品中文字幕免费| 伊人中文网| 制服丝袜一区| 日本高清在线看免费观看| 国产乱子伦视频在线播放| 老司机久久99久久精品播放| 欧美一级专区免费大片| 日韩123欧美字幕| 成年av福利永久免费观看| 亚洲大学生视频在线播放| 91亚洲免费视频| 人妻丰满熟妇αv无码| 国产欧美一区二区三区视频在线观看| 亚洲Av激情网五月天| 美女裸体18禁网站| 欧美日韩在线第一页| 国产极品嫩模在线观看91| 国产精品永久不卡免费视频| 国产成人亚洲无码淙合青草| 国产亚洲欧美在线专区| 99热这里都是国产精品| 免费无码网站| 九九久久精品国产av片囯产区| 亚洲无线一二三四区男男| 香蕉eeww99国产在线观看| 美女内射视频WWW网站午夜| 丁香亚洲综合五月天婷婷| 色婷婷在线播放| 久久免费精品琪琪| 国产小视频免费| 免费国产不卡午夜福在线观看| 欧美笫一页| 欧美一区国产| 91在线无码精品秘九色APP | 欧美三级视频在线播放| 中文字幕有乳无码| 亚洲人成在线精品| 久久精品亚洲中文字幕乱码| 福利视频一区| 亚洲天堂网2014| 精品人妻AV区| 亚洲无码视频一区二区三区| 国产一在线观看| a天堂视频| 精品国产网| 国产成人无码AV在线播放动漫| 一区二区三区四区精品视频| 免费人欧美成又黄又爽的视频| 97国产精品视频人人做人人爱| 呦系列视频一区二区三区| 波多野结衣AV无码久久一区| 国内熟女少妇一线天| 另类重口100页在线播放| 精品无码一区二区三区在线视频| 久久黄色一级视频| 国产精品护士| 国产97视频在线| 欧美精品aⅴ在线视频| 国产h视频免费观看| 超碰91免费人妻| 久久人人妻人人爽人人卡片av| 欧美在线观看不卡|