999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PS-PDDPG算法的網絡路由優化研究

2023-03-23 02:39:28陸燕楊秋芬
科技資訊 2023年3期
關鍵詞:經驗深度策略

陸燕 楊秋芬

(湖南開放大學 湖南長沙 410004)

隨著網絡技術的發展以及互聯網的規模逐漸擴大及其應用的不斷豐富,通信網絡正經歷著爆發式的流量增長[1]。研究表明:通過對設備提速擴容來提升網絡服務質量的方法已不再適用[2]。近年來,學術界使用了深度強化學習(DRL)技術來生成網絡路由的最優路徑[3]。基于深度強化學習的網絡路由算法通常是有數據驅動的,在一定程度上克服了人工進行流量分析和建模的缺點[4]。但是,已有的深度強化學習網絡路由算法存在無法收斂及可擴展性差等問題[5]。對此,該文主要介紹了一種基于多變量分配技術的結構,并將其與優先級深度確定性策略梯度(Prioritized Deep Deterministic Policy Gradient,PDDPG)算法融合,通過Agent 間相互共享策略與經驗提升算法的收斂速度和算法的可擴展性。

1 算法設計

目前,基于DRL算法實現的網絡路由方案主要面臨兩個問題。(1)難以收斂。當網絡負載呈指數增長時,高輸出維數使得深度強化學習算法無法收斂[6]。當網絡負載流量呈指數級增長,過高的輸出維度使得深度強化學習算法出現無法收斂的情況。(2)可擴展性差。目前,基于DRL算法的網絡路由方案通常需要控制網絡中所有目標元素單元(鏈路或數據流)。隨著網絡負載和流量的增加,這種控制方法將導致DRL輸出動作空間過大,容易出現數據交換成本增加以及網絡傳輸延時增長,影響了算法的可擴展性[7]。為解決當前DRL算法的兩個問題,該文對算法進行了設計。

1.1 DRL學習機制和基于KDN的路由框架

該文使用深度強化學習算法來控制和操作網絡,并展示了知識定義網絡(KDN)功能平面的三層結構:數據平面、責任存儲以及轉發和處理數據包。控制平面(CP)負責監控網絡流量,并分發流表規則和頂級知識平面(KP)。在KP 中的Agent(DRL Agent)用于利用底部發送的有效網絡信息生成有效的網絡策略,從而找到當前網絡流量狀態下的鏈路權重信息,將其發送到控制平面,使用路徑規劃模塊生成路由流表,并將其更新到拓撲交換機以實現KDN 全局實時網絡控制。同時,KP中有動作離散化模塊和狀態預處理模塊這兩個模塊,分別用于KP接收數據平面信息的狀態優化和分發數據平面的動作優化。

該文使用當前網絡流量來構造符合當前網絡流量狀態的鏈路權重,并預先處理原始信息以生成代理的先驗知識增強神經網絡中動作狀態的潛在相關性。神經網絡在初始權重上繼續學習,以降低學習難度,從而根據流量狀態對路由策略采取行動,降低梯度向錯誤策略參數更新的概率,提高算法的收斂速度。

1.2 參數共享的優先深度確定性策略梯度算法

該文基于參數共享的優先級深度確定性策略梯度(PS-PDDPG)算法是PDDPG 方法在多Agent 系統中的擴展。該項目的共享優先經驗回放池技術有助于提升訓練效率,參數共享技術有助于提升算法可擴展性,從而使得PS-PDDPG算法適用于大規模動態變化的網絡路由優化場景。

(1)利用基于注意力的經驗回放優化算法,實現使智能體能有選擇性地存儲和利用訓練樣本,提升PSDDPG 算法的訓練效率。為了提高樣本的采集效率,該項目設計兩個經驗回放池,一個為普通的經驗回放池,另一個為高獎勵經驗回放池。當回合結束時,將進程緩存器中的交互經驗累積起來,計算該回合對應的累積獎勵值,然后將其與歷史最大的回合累積獎勵值進行對比,如果大于歷史最大的回合累積獎勵值,則將該回合交互軌跡存入高回報經驗回放池中。在智能體與環境進行交互并采集存儲交互經驗時,同時從兩個經驗回放池中采樣訓練樣本,對動作網絡和策略網絡進行更新,如圖1所示。

圖1 PS-DDPG算法框架

該文將注意力機制的應用范圍從對神經網絡特征的調制優化拓展到模型輸入,利用注意力機制對訓練樣本進行篩選,在不同的訓練階段,根據模型的訓練狀態,選擇適合當前學習的訓練樣本,提升強化學習算法的樣本效率,降低對于數據的依賴。其中,動作網絡用于策略學習,對于給定環境狀態依據策略輸出執行的動作,從而評判網絡用于擬合動作、狀態和回報值之間的關系,從而在訓練中對動作網絡的輸出進行監督,實現策略學習。該項目初步提出基于注意力機制的經驗回放算法,首先定義policy是以θ={θ1,…,θN}為參數的N個Agent 之間的博弈,將所有Agent 策略的集合設為π={π1,…,πN},則期望獎勵的梯度為公式(1)。

經過引入注意力機制的經驗回放優化后,損失函數的定義為公式(2)。

(2)融合共享參數可以增強算法的可擴展性。PDDPG算法采用了評判器系統的結構,由評判器系統的狀態和行為作為輸入,輸出的標量函數估計用于判斷當前的策略;執行程序Actor網絡是以狀態作為輸入的,而輸出持續的行為則是基于評判器網絡估算的價值來進行戰略升級。為了提高PDDGP 算法的可擴展性,引入Target-Actor 網絡和Target-Critic 網絡。訓練前,Target-Actor 與Actor 以及Target-Critic 與Critic 的網絡結構和共享參數完全相同,如圖2 所示。因為各代理的觀察測量o、動作a和獎勵r設定是相同的,因此各代理n在周期內t與周圍的情境相互作用產生了一種體驗單元(on,t,an,t,rn,t,on,t+1,φn,t,εn,t,φn,t+1,εn,t+1),智能體N的多智能體聯合Q值函數可近似為

圖2 PS-DDPG算法的智能體策略學習過程

PS-PDDPG算法的集中式訓練和分布式執行框架如圖3 所示,在各階段步t,各智能個體根據當地觀測on,t和經過訓練的控制系統μ?(on,t)和控制系統的控制系統?*來實現決策,而無需評判系統。在PS-PDDPG算法中所有智能體共享參數,可獲得其他智能體的經驗,該方法可以幫助智能主體在不進行選擇的情況下,迅速地發現最佳的網絡路由策略,從而提高了系統的可擴展性。

圖3 PS-PDDPG算法的訓練與執行框架

2 實驗

2.1 部署不同網絡負載均衡實驗場景,以驗證算法性能的整體有效性

深度強化學習路由算法的整體有效性在現有網絡架構下難以大規模部署。因此,該文利用智慧校園網絡和實驗實訓機房軟硬件資源,嘗試自主組建大規模網絡環境,并改變網絡負載均衡,在不同網絡負載的網絡場景下驗證DDPG算法和PS-PDDPG 算法的收斂速度和可擴展性,由此來驗證基于PS-PDDPG 算法的整體有效性。

圖4 不同網絡負載下的算法性能測試

2.2 實驗結果

該實驗使用網絡流量構建符合兩種不同規模網絡流量狀態的鏈路權重,使用兩種不同方法,讓Agent 在網絡負載均衡分別為25%和75%的兩種環境中學習網絡路由最優策略,最終獲得最短網絡延時。通過實驗發現PDDPG 算法的訓練曲線增長緩慢,表明Agent在網絡負載均衡為25%和75%兩種環境中的隨訓練步數增加時,網絡延時降低速率較慢。但PS-PDDPG算法的訓練曲線在整個學習和訓練階段不斷增加,網絡延時快速降低,且較早穩定。但是,在訓練初期階段,由于沒有從行為選擇模型中學習到有效的行為選擇策略,代理累積的內外獎賞并不能幫助尋找最佳的網路路徑。PS-PDDPG算法在訓練過程中逐步獲得一種較好的抽樣策略,從而使PS-PDDPG 算法在最大程度上達到了很好的穩定性,比PDDPG 算法要好得多。研究結果顯示,該PS-PDDPG 算法能夠有效地減少在復雜的網絡環境中學習路由優化策略的困難,從而使代理更好地掌握路由優化策略。優化后的PS-PDDPG算法在收斂速度和可擴展性方面優于其他深度強化學習算法。

3 結論

對于高維度和大規模網絡的路由優化,對原有的DDPG算法進行了改進和改進,從而得到了增強的PSPDDPG算法,它更適合解決網絡路由優化問題。

3.1 提出動態權重策略

使用當前網絡流量根據當前網絡流量狀態構建鏈路權重,預先兩次處理原始信息以生成智能體積的先驗知識可以增強網絡中動作狀態的潛在相關性,提高算法的收斂速度。

3.2 設置共享經驗回放池

根據獎勵值對訓練樣本進行分類,分別放入高獎勵經驗回放池或者普通獎勵經驗回放池。不同的訓練階段,根據模型的訓練狀態,選擇適合當前學習的訓練樣本,提升深度強化學習算法的訓練效率。

3.3 融合共享參數更新公式

利用參數分享技術,使各主體分享同一策略的參數,并利用各主體在與周圍環境的互動中獲得的經驗,從而減少了算法的復雜性。幫助學習者進行高效的學習,執行高獎勵策略,解決深度強化學習的普遍問題,并提升算法的可擴展性。

猜你喜歡
經驗深度策略
2021年第20期“最值得推廣的經驗”評選
黨課參考(2021年20期)2021-11-04 09:39:46
深度理解一元一次方程
例談未知角三角函數值的求解策略
我說你做講策略
經驗
深度觀察
深度觀察
2018年第20期“最值得推廣的經驗”評選
黨課參考(2018年20期)2018-11-09 08:52:36
深度觀察
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 日韩欧美中文字幕在线韩免费 | 久久婷婷国产综合尤物精品| 精品国产自| 青青草一区二区免费精品| 日韩毛片在线播放| 在线亚洲天堂| 亚洲精品少妇熟女| 婷婷六月综合网| 国产91久久久久久| 91在线国内在线播放老师| 四虎成人精品在永久免费| 久久精品亚洲专区| 久久久久久久97| 精品国产毛片| 日韩一区二区在线电影| 日韩精品无码免费专网站| 免费人成网站在线高清| 国产成人亚洲综合a∨婷婷| 成人午夜在线播放| 欧美日韩国产精品综合| 国产精品嫩草影院视频| 国产99久久亚洲综合精品西瓜tv| 日韩精品一区二区三区免费在线观看| 免费看一级毛片波多结衣| 国产区免费| 國產尤物AV尤物在線觀看| 国产乱视频网站| 国产天天色| 好吊妞欧美视频免费| 国产91特黄特色A级毛片| 亚洲精品国产综合99久久夜夜嗨| 欧美有码在线| 天堂成人av| 国产成人久久综合777777麻豆| 久久精品无码中文字幕| 黑色丝袜高跟国产在线91| 国产欧美日韩专区发布| 国产无遮挡猛进猛出免费软件| 国产区网址| 中文字幕有乳无码| 麻豆国产精品一二三在线观看| 中文字幕无线码一区| 国产清纯在线一区二区WWW| av一区二区三区在线观看| 97人人做人人爽香蕉精品| 国产精品极品美女自在线| 亚洲无码视频一区二区三区 | 免费人成黄页在线观看国产| 国产激情无码一区二区三区免费| 国内精品视频| 欧美色亚洲| 国产精品久久久久久久伊一| 2020极品精品国产 | 亚洲自偷自拍另类小说| 美女毛片在线| 国产亚洲精品自在久久不卡| 午夜久久影院| 999精品色在线观看| 99热这里只有精品5| 日本三区视频| 亚洲精品国产综合99久久夜夜嗨| 欧美综合区自拍亚洲综合天堂| 亚洲男人的天堂在线观看| 亚洲精品va| 免费不卡视频| 国产一级毛片高清完整视频版| 午夜啪啪福利| 尤物精品国产福利网站| 波多野结衣无码AV在线| 找国产毛片看| 91蜜芽尤物福利在线观看| 丰满人妻久久中文字幕| 自慰网址在线观看| 丰满的熟女一区二区三区l| 亚洲 日韩 激情 无码 中出| 欧美在线天堂| 综合网天天| 久久精品中文无码资源站| 18禁不卡免费网站| 福利小视频在线播放| 欧美成人综合视频| 亚洲男人天堂2020|