999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的智能路由算法綜述

2020-04-21 07:56:46劉辰屹徐明偉
計算機研究與發展 2020年4期
關鍵詞:深度智能優化

劉辰屹 徐明偉 耿 男 張 翔

(清華大學計算機科學與技術系 北京 100084)

近年來隨著互聯網的高速發展,包括工業互聯網、4K+視頻及全息通信、網絡游戲、遠程云服務在內的很多新興應用大量涌現.這些新興的網絡應用帶來了高度差異化的服務質量需求.然而以往單純通過對設備提速擴容來提升網絡服務質量的方式已經逐漸觸及天花板,進一步提升性能需要很高的成本,與此同時,研究表明:現有網絡仍然存在巨大的優化空間[1].因此,對現有網絡資源進行更好地優化利用成為提升用戶服務體驗的重要途徑.

Fig. 1 A suboptimal routing decision made by OSPF圖1 OSPF所生成的非最優路由決策示意圖

在傳統的計算機網絡體系結構中,網絡層通常采用盡力而為的數據包分組轉發模式,路由算法所關注的重點是數據包的可達性、算法的性能和可擴展性.近幾年隨著計算機網絡的飛速發展,網絡規模變得越來越大的同時網絡上層的應用服務類型數量也在飛速增長.日益增長的服務類型數量帶來了多樣化的服務性能優化目標,這些優化目標涉及時延、帶寬、吞吐、丟包率和網絡穩定性等.盡力而為的傳統路由算法使得現有計算機網絡體系結構對于這些性能評價指標進行優化時存在一定的局限性.圖1給出了傳統路由算法局限性的示例,在本示例中網絡流負載需求500 Mbps的帶寬,傳統基于最短路徑的路由算法將所有流量導入瓶頸鏈路中,所選擇的路徑可用帶寬(100 Mbps)遠小于服務需求帶寬.這不僅會大幅降低用戶體驗,同時還可能帶來嚴重的網絡擁塞問題并造成網絡資源的巨大浪費.對上述流量進行恰當的路由分流能夠很好地避免此示例中的問題,然而由于真實網絡環境中路徑可用帶寬隨時間動態變化,傳統路由算法很難實現精確感知當前網絡狀態并據此進行恰當的動態路由調度.

此外,數據中心網絡等新興網絡應用場景的出現為路由優化與流量工程領域提出了新的挑戰.相比于傳統網絡,數據中心網絡帶寬更大,同時存在的大流、長流更多,對于流量調度的需求與難度也更高.雖然現在已經有一些路由與流量工程的方法嘗試解決各種數據中心場景下的網絡優化問題,然而在數據中心網絡場景中,現有路由與流量調度優化方法仍然很難滿足高效利用鏈路以及負載均衡的需求[2].

為了滿足復雜的網絡應用場景以及多樣化的服務質量需求,很多基于數學模型的網絡層優化方案被提出[2-7].這些路由優化或流量工程方案在建模時通常會針對應用場景進行一些假設來簡化問題,以使得優化問題能夠利用現有數學方法高效求解.然而真實網絡應用場景往往難以完全符合這些理想化假設, 這使得基于數學模型的路由優化算法無法保證其在真實場景下部署的效果.實際上,即使是在經過假設簡化過的場景下,很多路由優化問題的求解仍是十分復雜的,目前尚未存在一個通用的模型能夠同時求解不同類型的路由優化問題[3].由于傳統的路由優化任務需要針對每一種特定的場景以及特定的優化目標單獨建模,將這些方法部署在真實網絡環境下可能會對網絡設施的可擴展性帶來影響,因此傳統基于數學模型的路由優化方案目前仍難以大規模部署在實際場景中.

近幾年,基于深度學習的人工智能技術飛速發展并被廣泛應用于自然語言處理[8]、圖像識別[9]、游戲策略計算[10]等領域中.對深度學習模型的研究和CPU,GPU等計算機硬件的發展使得人工智能模型能夠學習到的策略越來越復雜,訓練和執行效率越來越高.設備算力以及模型表達能力的提升使得的人工智能模型具備了強大的學習能力和良好的泛化性,利用人工智能模型去解決路由優化問題、為網絡層賦予智能正逐漸變得可能.相比于傳統模型驅動的路由優化算法,數據驅動的智能路由優化算法具有3方面優勢:1)準確性.利用真實數據對機器學習算法模型進行訓練,不需要對網絡環境進行復雜的假設和建模.2)高效性.多項式時間內可根據輸入數據快速推理得到優化后的路由決策.3)通用性.相同的機器學習模型根據訓練數據不同可以用來求解不同網絡優化問題.上述3個優勢使得數據驅動的智能路由方法相比傳統路由方法能夠更好地適應不同網絡應用場景和路由優化目標,并使得智能路由方法在部署的過程中存在較好的可擴展性.

除了人工智能技術的飛速發展,近些年興起的軟件定義網絡(software defined networking, SDN)[11]與可編程路由設備[12-13]的相關研究同樣為智能路由算法提供了部署的可能.這些工作使得路由層可以完成更多、更復雜的任務.SDN架構的出現使得基于機器學習的智能路由算法能夠作為一個應用運行在具有強大運算能力的SDN服務器中并且有效地對路由和流量進行控制[14].不過現有基于機器學習的智能路由方案研究仍然處于比較初步的階段,研究主要針對智能路由算法的正確性以及收斂性,智能路由算法在真實場景下的訓練與部署方案仍不夠完善.此外,當前路由設備的計算能力對于智能路由算法的大規模部署而言仍然遠遠不夠[15].

本文從方法與應用場景等角度介紹了現有基于機器學習的數據驅動智能路由算法的相關工作并分析了不同智能路由方法的優劣.之后本文進一步對現有智能路由算法的訓練與部署方法進行了分析總結并提出了2種適用于不同應用場景的智能路由算法訓練部署框架.最后本文分析了基于機器學習的智能路由算法未來發展中所面臨的機遇與挑戰并給出了智能路由算法未來的研究方向.

1 數據驅動的智能路由算法概覽

早在1994年Boyan等人[16]就提出了基于Q-Learning的、應用在通信網絡中的智能路由算法Q-routing.實驗表明:相比于傳統的最短路徑路由,Q-routing方案能夠有效避免網絡擁塞并降低數據包傳輸時延.然而雖然后續有很多相關工作對該方法進行了完善和優化[17-18],受限于路由器的計算能力以及網絡層結構設計,智能路由算法難以被真正部署到真實網絡場景中.

2010年Hu等人[19]提出了QELAR方法,將Q-Learning的思想應用于無線傳感器網絡(wire-less sensor network, WSN),用來優化無線傳感器網絡的能耗和壽命.相比于傳統網絡,無線傳感器網絡所處環境復雜多變,路由服務質量需求多樣,傳統路由算法在該應用場景下往往難以取得令人滿意的效果.此外WSN與傳統網絡相比結構較為獨立,因此基于Q-Learning的智能路由方法的部署難度更小.后續Basagni等人[20-21]進一步將Q-Learning方法用于無線傳感器網絡的可靠傳輸和加速轉發上,取得了良好的效果.

近幾年,隨著深度學習技術的飛速發展,深度學習正越來越多地被應用于網絡領域,并已經在包括傳輸層擁塞控制[22]、網絡安全檢測[23]、視頻流傳輸優化[24]等領域取得了顯著進展.利用深度學習解決路由優化問題也得到了更多的關注,一些基于深度學習和深度強化學習的路由算法被提出[25].這些智能路由算法既有利用深度學習對傳統路由算法進行改進[26],也有針對數據中心網絡流量調度、骨干網流量工程[14]等近些年新出現的網絡應用場景進行全局性能優化.

隨著越來越多的智能路由算法的提出,如何將數據驅動的智能路由算法部署在真實環境中同樣成為了一個備受關注的問題.Mao等人[15]的工作對基于深度學習的智能路由算法在真實場景下部署的前景進行了探討并提出了一種利用配備了GPU的軟件定義路由器(SDR)來部署基于深度學習的智能路由算法的框架設想.然而根據我們的研究,現有研究工作仍然沒有給出一套切實可行的將智能路由算法部署在現有計算機網絡體系架構中的方案.

經過調研,近年來數據驅動的智能路由算法依照其所應用的機器學習方法類型主要分為基于監督學習的智能路由算法以及基于強化學習的智能路由算法.

2 基于監督學習的智能路由算法

2.1 應用于智能路由中的監督學習方法概述

監督學習是指利用已知的輸入輸出樣本訓練模型,使得模型能夠準確地完成從輸入到輸出映射的一類機器學習任務[27].近年來所提出的基于監督學習的智能路由方法主要基于深度學習模型.相比于傳統監督學習方法,深度學習模型能夠通過帶標簽的數據學習得到更加復雜的策略,為實現應用于復雜網絡環境下的智能路由方法提供了可能.在本節中我們將對現有智能路由方法中常用的深度學習方法進行簡單介紹.

最常見的深度學習模型是深度神經網絡(deep neural network, DNN),其模型設計模擬了生物神經元的工作原理,工作過程包括前饋過程和反饋過程.圖2中給出了其模型結構與工作過程.在DNN的前饋過程中,模型將輸入向量利用線性加權與激活函數相結合的方式逐層向前傳遞,最終實現輸入到輸出的映射.在DNN的反饋過程中,模型將實際輸出結果與期望結果的偏差逐層反向傳遞完成模型參數的調整過程,達到自動學習的效果.作為對DNN模型的改進,Hinton等人[29]于2006年提出了深度置信網絡(deep belief network, DBN).DBN模型將傳統DNN模型與受限玻爾茲曼機(restricted Boltzmann machine, RBM)相結合,訓練過程可以被視作利用RBM對DBN模型的參數進行初始化和利用梯度反向傳遞過程對DBN模型參數根據任務進行微調2部分.作為一個基礎深度學習模型,DBN模型可以被用于包括路由優化在內的多種任務中.

Fig. 2 Feedforward and backpropagation of deep neural networks[28]圖2 深度神經網絡的前饋與反饋原理示意圖[28]

Fig. 3 Recurrent neural network (RNN) and unfolding[28]圖3 循環神經網絡及其模型展開示意圖[28]

在智能路由方案中很多時候需要處理維度不定的序列化信息,例如路徑信息提取[30],基于過往流量信息預測下一時刻流量[31].在這些任務中僅僅通過DNN模型就很難達到期望的效果,這時往往需要用到循環神經網絡(recurrent neural network, RNN).RNN能夠很好地處理不定長度的序列化輸入[28],對于網絡流量信息的時序性、路徑特征的有序性具有良好的保證.圖3中給出了RNN網絡的模型結構.作為RNN模型的改進,長短期記憶單元(long short-term memory, LSTM)[32]以及門控循環單元(gated recurrent unit, GRU)[33]在現有工作中具有更好的效果并被廣泛使用.

在智能路由方案中,當前網絡的局部或全局拓撲信息是完成智能路由決策的重要依據,然而由于網絡拓撲的動態變化性,傳統深度學習模型往往難以很好地處理這部分信息.圖神經網絡(graph neural network, GNN)是近年來被提出的,被認為能夠有效處理拓撲信息提取問題的新型神經網絡結構[34].GNN模型將網絡節點與邊的特性進行向量化表示,并進行若干輪迭代.每一輪迭代過程中,這些節點和邊信息的向量化表示會根據拓撲依賴關系利用基于深度學習模型的更新函數進行更新.最終這些節點與邊的向量化表示將收斂到確定值,代表著GNN模型已經將拓撲信息轉化為了可被深度學習模型利用的向量化表示信息.研究表明,GNN模型具有良好的可擴展性與泛化性,并已經被廣泛應用于網絡拓撲信息提取任務中[35].

2.2 基于深度學習的智能路由算法

深度學習在路由優化問題中最直接的應用就是利用深度學習模型去代替原本基于數學模型的路由求解算法.一個普遍的路由求解模型如圖4所示,即將網絡拓撲以及網絡狀態信息作為輸入,深度學習模型根據輸入信息做出符合當前網絡環境狀態的恰當路由決策.

Fig. 4 Scheme of deep learning based routing model圖4 基于深度學習的智能路由算法框架

Mao等人[15]在2017年提出了一種基于深度置信網絡(DBN)的路由決策方案.圖5給出了該方案的整體模型示意圖,Mao等人的智能路由方案應用場景為骨干網絡,該方案將路由器分為域內路由器與邊界路由器.數據包在經由邊界路由器進入主干網時部署于邊界路由器上的DBN模型會根據當前網絡各節點流量狀態為每個數據包計算其在主干網內的轉發路徑,其后數據包經由域內路由器轉發到目的邊界路由器并最終離開改主干網.在上述模型中,域間路由器只負責路由轉發和網絡狀態信息收集,從而避免了傳統分布式路由算法中頻繁的網絡拓撲信息交換.該方案的路由決策模型為每個路由節點到每個目的邊界路由器路單獨訓練一個DBN模型用來根據網絡狀態信息輸出恰當的下一跳節點,路由路徑計算過程采用逐跳的方式依次通過對應的DBN模型生成.Mao等人的工作表明基于深度學習模型的路由策略能夠達到95%準確率,與此同時,深度學習模型所具有的基于部分網絡狀態特征進行路由決策的特點也使得基于深度學習的智能路由方法相比傳統路由方法具有更低的信息交換成本以及當網絡環境發生變化時更快的路由收斂速度.然而,上述方案的部署不僅需要骨干網路由器具備極強的模型計算能力,同時還需要對現有路由協議進行修改,因此在現有計算機網絡體系結構下部署上述方案需要極高的成本并且會嚴重影響網絡的可擴展性.

Fig. 5 Considered system model of the DBN-based routing protocol[15]圖5 基于DBN的智能路由算法系統模型[15]

除了DBN模型,其他深度學習模型同樣被嘗試應用于智能路由任務中.Zhuang等人[36]的工作對于應用不同深度學習模型學習路由決策的效果進行了對比,該工作中將逐跳智能路由決策過程形式化表示為:

n+1=F(n,dst,G),

其中,src,dst分別表示源、目的節點,n是從src到dst的路由中的第n個路由節點編號;F()是路由決策函數;G代表拓撲結構信息.通過實驗發現將基于拓撲結構的特征提取方式與深度學習模型相結合的方案(graph-aware deep learning, GADL)相比單純采用DBN,CNN等現有深度學習模型能夠有效提升模型測試準確率并降低模型訓練時間.

更進一步地利用拓撲結構信息,Geyer等人[26]基于GRU和GNN設計了分布式智能路由算法.為了使得GNN模型能夠更好地表現路由網絡結構特點并使得GNN建模的網絡特征信息能更方便地用于路由決策過程,該方案將路由器接口作為額外節點加入圖模型中.圖6中給出了將路由器接口作為額外節點加入后的圖模型示意圖.當GNN完成了拓撲結構建模之后,每個路由器接口對應的節點信息向量化表示hv不僅包含了自身信息,同時由于GNN的信息傳遞特性使得該節點同時會包含路由決策所需的全網結構和狀態信息.利用路由接口信息hv,每個路由器能夠在本地計算出到對應目的節點所應該通過的路由器接口.由于GNN的模型特性,上述GNN拓撲結構建模的迭代過程可以通過將GNN參數更新函數部署在每個路由器上的方式分布式地完成,因此該方法天然具有良好的可擴展性與分布式路由決策的能力.該工作的仿真實驗表明,基于GNN的分布式智能路由算法在路由收斂速度、準確性、魯棒性、故障適應性方面表現良好,其中對于最短路徑路由,經過訓練的GNN模型能夠在15輪迭代之內達到98%的準確率,而對于最大最小公平路由[37]算法能夠在15輪迭代之內達到95%的準確率.

結合圖7中的內容能夠發現,現有基于深度學習模型的智能路由方案主要通過逐跳的方式生成路由路徑.與逐跳路由生成方式相對應的另一種路由模式是預先計算所有可能路徑,通過深度學習模型根據網絡狀態選擇恰當的路徑.這種基于路徑選擇的方式能夠避免路徑生成模型所帶來的路由環路等問題,具有更好的效果保障.然而網絡中的可選路徑數會隨著網絡規模的增大指數級增長,其巨大的輸出維度使得基于路徑選擇的深度學習模型的學習難度以及模型參數數量處于難以承受的數量級[38].此外由于網絡路徑特征與拓撲結構具有很強的相關性,基于路徑選擇的深度學習模型很難具有足夠的通用性和泛化性.相比于路徑選擇的方式,采用逐跳生成路徑的方式能夠顯著降低輸出維度以及模型決策難度,使得路由決策的準確率明顯提升[38-39].

Fig. 6 Graph model with extra nodes for router interfaces[26]圖6 將路由器接口作為額外節點的網絡圖模型[26]

Learning ModeTraining ModeControlling ModeDeployment ModeRouting PolicyML AlgorithmReferenceSupervisedLearningOfflinePacket-controlledFlow-controlledDecentralizedCentralizedCentralizedPath GenerationDBNRef[15,25,39]Path GenerationGNN[26](A)Congestion PredictionDNNRef[40](A)Delay and Jitter PredictionGNNRef[30]Path GenerationGADLRef[36]Reinforcement LearningOnlineOfflinePacket-controlledDecentralizedPath GenerationEpoch-controlledCentralizedSetting Splitting RatioEpoch-controlledCentralizedSetting Link WeightsQ-LearningRef[16-21]DDPGRef[14]TRPORef[31]MADDPGRef[38]

“(A)” denotes that the machine learning algorithm only acts as an auxiliary part of the routing modelFig. 7 Summary of machine learning based routing model圖7 基于機器學習的路由方法概述

現有工作表明,基于深度學習的智能路由算法能夠基于部分網絡狀態信息快速、準確地計算出對應的路由決策,并且在信息傳遞成本、路由收斂速度等方面相比傳統分布式路由展現出了一定的優勢.基于GNN的分布式路由決策在拓撲信息建模、魯棒性以及故障適應性等基于傳統深度學習模型的智能路由方案難以解決的問題上面已經取得了一定的進展.然而現有基于深度學習模型的智能路由算法主要學習的是基于最短路徑的路由算法,其能否很好地學會更多復雜的動態路由算法是值得更進一步探討的.此外,現有基于深度學習的智能路由算法無法保證其在復雜多變的網絡環境下的安全性和魯棒性,并且需要高昂的部署成本,因此基于深度學習的路由算法想要替代傳統路由算法仍有很長的一段路要走.

2.3 利用智能模塊輔助路由計算

現有的深度學習方法在網絡建模、流量預測、擁塞檢測方面已經取得了一定的成果[31,41-42],利用深度學習方法在這些領域的成果來輔助路由計算是使得路由算法變得更加智能的另一種途徑.在路由優化問題中,有很多時候傳統基于模型優化或者啟發式的方法都需要涉及網絡環境建模、流量預測、擁塞檢測等模塊,用深度學習方法來替代這些模塊有時會取得比較好的效果.

Barabas等人[40]的工作利用基于多任務學習的深度神經網絡預測器根據鏈路歷史狀態數據為每條鏈路進行鏈路擁塞預測,并將預測得到的結果與基于規則的擁塞避免和重路由方案相結合,使得路由方法能夠在擁塞發生前主動調整路由而不是發生后被動地亡羊補牢.

Rusek等人[30]的工作將GNN與LSTM模型相結合,用基于圖神經網絡的深度學習模型對路由路徑時延和時延抖動與網絡拓撲結構、流量矩陣以及路由路徑之間的關系進行建模,并利用所建立的模型輔助啟發式路由優化算法進行路由策略計算.研究結果表明基于GNN的網絡建模能夠根據輸入信息準確預測路由路徑時延和時延抖動,并且對于沒有在訓練中出現的拓撲以及動態變化的路由路徑展現了良好的泛化性.數據驅動的網絡建模方法為基于探索的啟發式路由優化算法提供了一個準確、高效的路由策略試驗環境,使得啟發式的路由優化算法能夠以低成本完成路由優化求解過程,同時避免了因為網絡建模與真實環境不符所帶來的路由策略效果損失.

利用深度學習模型輔助傳統路由算法的方案能夠有效提升傳統路由優化算法性能,與此同時傳統路由優化算法保證了智能路由方案具有更強的可靠性與可解釋性.因此未來將傳統路由優化算法與深度學習模型相結合可能是智能路由算法發展的一個途徑.

3 基于強化學習的智能路由算法

3.1 應用于智能路由中的強化學習方法概述

Q-Learning方法采用一個Q函數來預測時刻t觀測到的狀態st和動作at對應的最大遞減獎勵和,Q函數的定義為:

對于Q函數的計算有基于模型和模型無關2種方法.其中基于模型的方法通過Markov決策過程中各狀態間的關聯模型對Q函數進行直接求解,形式化表示為:

Q(st,at)=(1-α)Q(st,at)+α[rt+γV(st+1)],

其中,α是模型學習速率,相比于基于模型的Q函數計算方法,模型無關的Q函數計算方法通常需要更長的收斂時間.

在傳統的Q-Learning方法中,Q函數是一個從有限狀態決策空間S×A到實數空間的映射,為了處理連續高維狀態決策空間上的強化學習問題,研究者們將深度學習模型引入強化學習框架,設計出了多種深度強化學習(deep reinforcement learning, DRL)模型.

Google Deep Mind機構提出了深度Q值學習(deep Q-Learning, DQN)[43].DQN采用一個深度神經網絡(DNN)來代替原本的Q值表來近似估計Q函數,并通過平方誤差進行訓練:

L(θQ)=E[(yt-Q(st,at|θQ))2],

這里θQ是DQN的參數,yt是目標值,可計算為:

yt=rt+γQ(st+1,π(st+1)|θQ),

其中,π(·)是一個能夠最大化預期總收益的策略函數,一個常用的異步策略是采用貪心的方式選擇動作:

與基于Q函數估計的DQN方法相對應的是策略梯度方法[44],策略梯度法利用深度學習模型作為策略函數πθ(s,a),通過計算策略梯度的方式直接優化策略函數.

為了進一步提升策略梯度方法的性能,加速強化學習模型的收斂速度,可以將Q值學習與策略梯度方法結合起來,通過價值估計函數來預測當前狀態下采用行動后續會得到的價值,并利用預測結果對策略模型進行訓練,這就是強化學習的演員-評價者(actor-critic, AC)框架.

一種目前常用的基于在線策略(on-policy)的AC框架利用一個動作優勢函數A(s,a)來對策略優劣進行估計,引入優勢函數后的策略梯度為

其中,τ代表狀態-動作元組(st,at).

基于在線策略的強化學習方法需要將訓練過程與數據收集同步進行,經過多輪數據收集-參數更新的迭代過程達到參數收斂,為了將數據收集和模型訓練過程解耦合,可以采用基于離線策略(off-policy)的強化學習方法,一個常用的基于離線策略的AC框架深度強化學習模型是確定性策略梯度算法(deterministic policy gradient, DPG)[45].該方法直接利用價值網絡梯度回傳的方式計算策略梯度,在連續動作空間強化學習問題上取得了良好的效果.該方法的改進版深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)[46]在解決連續動作空間的路由優化問題上有比較廣泛的應用.

近些年來的最新工作中,為了解決傳統基于隨機梯度下降算法的策略優化方法所存在的策略更新過度問題,Schulman等人[47]提出了二階強化學習方法——置信域策略優化方法(trust region policy optimization, TRPO).雖然二階方法具有比一階方法更好的收斂性保證,其過高的計算復雜度限制了它的應用場景.基于TRPO的思想,OpenAI與DeepMind提出了近端策略優化方法(proximal policy optimization, PPO)[48],該方法兼具了傳統一階方法的高效和易于實現的特性以及置信域算法的數據效率和可靠表現,成為了當前的主流強化學習算法之一.

3.2 基于Q-Learning的智能路由算法

1994年Boyan等人[16]的工作Q-routing第一次將Q-Learning用在了路由算法上面.Q-routing將路由轉發過程用Markov決策過程(Markov decision process, MDP)進行建模,將每個路由節點視作MDP中的狀態,路由下一跳所選擇的鄰居節點作為MDP中的動作,路由每一跳所花費的時延作為強化學習一次動作所獲得的反饋值.Q-routing中用Q值函數Qx(d,y)來預測從當前節點x到目標節點d采用下一跳節點y所需花費的時間.每當節點x向鄰居節點y發送一次數據包,節點y立刻會返回預估的剩余路程時延t給x:

此時利用基于模型的Q-Learning方法,節點x可以動態更新自身對應的Q值函數信息,形式化地:

ΔQx(d,y)=η(q+s+t-Qx(d,y)),

其中,η是算法學習速率,q和s分別是從x到y的隊列時延和傳輸時延.根據動態更新的Q值函數,Q-routing能夠自適應動態變化的網絡狀態并為每個數據包選擇時延最短的路由路徑.相比于傳統最短路徑路由算法,Q-routing將時延而不僅僅是路由跳數作為衡量路徑長短的指標,因此能夠有效避免網絡擁塞的發生.

雖然Q-routing能夠很快地感知網絡擁塞的發生并調整路由路徑來實現擁塞避免,該方法很難快速地感知到擁塞消除情況.由于Q-Learning模型所限,對于因對應路徑發生擁塞而導致短時間內不被采用的鄰居節點,Q-routing方法中路由器只能通過向鄰居節點發送額外的請求數據包的方式來更新其對應的Q值表,這不僅帶來了額外的數據傳輸成本,而且受限于額外請求數據包的發送頻率,在全網范圍內完成擁塞消除情況的傳遞需要一個較長的時間,這使得Q-routing實際上難以達到最優的路由調度效果.為了做到快速感知擁塞恢復,Choi等人[17]對于Q-routing中的擁塞恢復過程與時間的關系進行了建模,提出采用R函數來對Q函數隨時間的變化速率進行估計,并將R函數用于路由決策時對當前各鄰居節點對應Q值的計算.實驗表明基于Q值變化預測的Q-routing方案在網絡擁塞頻繁出現的情況下相比于原本的Q-routing方案具有更好的收斂速度和穩定性.此外,Kumar等人[18]利用對偶強化學習對于Q-routing進行了改進并獲得了更好的性能.

2010年Hu等人[19]的工作將Q-Learning的方法應用在了無線傳感器網絡(WSN)中,提出了QELAR方案.由于WSN的工作環境復雜,網絡拓撲結構經常變動,所以傳統路由方法應用在WSN環境下往往無法取得很好的效果.QELAR主要解決WSN的壽命問題,類似于Q-routing,QELAR同樣將數據包在網絡中傳輸的過程用Markov過程進行建模,不同的是QELAR將當前節點及其鄰居節點的剩余能量狀態與路徑跳數相結合作為強化學習的反饋,使得路由算法能夠根據當前系統剩余能量狀態進行智能路由決策,以保證WSN網絡正常工作的時間盡可能長.

在QELAR之后,Basagni等人[20-21]又提出了MARLIN和MARLIN-Q模型,將WSN網絡的數據包發送與重傳過程用MDP進行建模.圖8中展示了MARLIN-Q方案中每個路由節點控制數據包進行轉發的狀態轉移模型示意圖.在MARLIN與MARLIN-Q工作中,數據包p在每個路由節點的狀態空間S根據當前數據包重傳次數進行定義

S={0,1,…,K-1}∪{rcv,drop}.

Fig. 8 States and transitions of node i handling packet p as shown in MARLIN-Q [21]圖8 MARLIN-Q中節點i處理數據包p的狀態轉移模型 [21]

每個路由節點i在狀態s可進行的動作空間包括選擇的調制解調器類型以及對應的調制解調器所能到達的下一跳路由節點:

經過調研,現有基于Q-Learning的智能路由算法大都將數據包在網絡中的轉發過程用MDP進行建模,之后將路由優化問題轉化為基于模型的Q-Learning問題,并在此基礎上構建智能路由算法.由于MDP建模以及基于模型的Q-Learning本身的特點,其優化目標主要為時延、吞吐、能耗等可逐跳累加的性能評價指標.利用基于模型的Q-Learning方法設計的智能路由算法本身能夠自適應動態變化的網絡環境,且由于其MDP模型已知,其決策過程相比于其他基于深度學習的方法具有更好的可解釋性,因此在網絡狀態波動性很大的應用場景中,例如WSN網絡,具有比較廣泛的應用.然而對于輸入輸出維度更高、優化目標更復雜的路由優化問題顯式地建立MDP模型十分困難,此外現有基于Q-Learning的路由優化方法普遍采用的包級別的路由控制方式難以滿足主干網的高性能需求,因此現有基于Q-Learning的智能路由算法的應用場景仍然具有很大的局限性.

3.3 基于深度強化學習的智能路由算法

隨著近幾年深度學習技術的發展,研究者們開始嘗試將深度強化學習技術(DRL)應用到智能路由與流量工程方案設計中.相比于Q-Learning,DRL方法能夠學習到更復雜的策略,以解決狀態、決策空間更大以及優化目標更復雜的路由優化問題.

Xu等人[14]將深度強化學習用于域內流量工程問題中提出了基于深度強化學習的流量工程方案DRL-TE.類似于2018年Kumar等人[7]提出的經典的半狀態無關流量工程方案SMORE,DRL-TE將流量工程問題劃分為靜態多路徑求解以及在線動態調整路徑分流比2部分.DRL-TE采用傳統方法生成路徑,并利用一個深度強化學習單元來完成在線動態調整路徑分流比過程.DRL-TE方案中深度強化學習模型將當前每個會話對應的時延和吞吐作為強化學習的狀態,將路徑分流比作為強化學習的動作,將每個會話的性能評價函數作為強化學習的反饋,從而動態感知網絡狀態信息,控制各條路徑的分流比,并根據各會話反饋結果自適應地學習最優分流策略.為了處理分流比所帶來的連續動作空間問題,DRL-TE采用深度確定性策略梯度算法(DDPG)作為強化學習模型,并采用了專為流量工程設計的經驗回放方式來保證強化學習模型的收斂性和穩定性.相比于SMORE需要準確預測下一時刻的流量矩陣才能利用線性規劃模型解出最優的分流比并且只能優化有限的目標(例如最大鏈路利用率),DRL-TE只需根據各會話當前流量特征信息即可自動預測未來的流量變化情況,并做出能最大化各會話總效益函數值的決策.因此,DRL-TE相比于SMORE方法對應用場景需求更少的假設,具有更好的通用性和魯棒性.DRL-TE在ns-3環境下進行了仿真實驗,實驗結果表明:相比于傳統路由以及流量工程算法,DRL-TE不論在時延、吞吐還是文中定義的效用函數指標上都具有明顯優勢.此外直接采用原始DDPG算法的對比實驗表明利用機器學習模型解決流量工程問題時對原有機器學習算法進行針對性地改進是十分必要的,直接將現有機器學習模型應用在路由優化與流量工程問題中可能難以達到十分理想的效果.

除了流量工程領域,深度強化學習同樣被應用于智能路由配置優化任務中.Valadarsky等人[31]嘗試利用深度強化學習單元根據歷史流量數據對未來的網絡流量進行預測,并基于強化學習模型的流量預測能力計算出恰當的路由配置.在這篇工作中,Valadarsky等人將歷史流量矩陣作為強化學習模型的輸入,每條鏈路的權值作為強化學習模型的輸出,強化學習模型(TRPO)根據學習到的經驗和知識通過歷史流量矩陣對未來流量進行預測并通過調整鏈路權值來進行路由配置,以達到優化全網最大鏈路利用率并完成負載均衡的目標.Valadarsky等人的工作中指出,路由規則的表現形式與強化學習模型的收斂性有很強的相關性.對于一個網絡拓撲G(V,E),如果直接采用一個輸出維度為|V|·|E|的基于目的節點的路由規則形式作為上述強化學習模型的輸出動作,即為每個節點v針對每個目的節點d設置一個對其所有鄰居節點的分流比,那么由于輸出維度過高上述強化學習模型將難以收斂.因此該工作中強化學習模型的動作為每條鏈路設置一個實數權值,鏈路權值通過一個傳統基于規則的方式映射成為路由規則.這使得強化學習模型的輸出維度降為|E|,以降低強化學習模型的動作空間大小,減輕探索和學習難度,達到加速收斂的效果.該工作采用了稀疏和非稀疏的重力雙峰模型生成了不用類型的流量矩陣序列用于檢測算法性能.仿真實驗結果表明對于具有明顯規律特征的流量矩陣,強化學習模型能夠通過流量預測來實現良好的路由配置,達到優于流量無關最優路由[50]并且接近最優的路由配置效果.然而當流量矩陣不再具有明顯規律特征時,該方法的性能就會顯著下降.實際上,真實場景下的流量變化可能是無規律的,包含許多突發流量的,因此對于上述模型在真實流量數據下的流量預測和路由配置能力仍然是一個值得探索的問題.

雖然DRL模型理論上能夠根據網絡狀態數據或歷史信息對未來的流量進行預測并作出最優的路由決策,在目前實驗中DRL模型的結果還遠遠沒有達到最優.Xu等人[38]的工作對比了若干種強化學習模型在路由任務上的效果,提出了將強化學習模型用來解決路由問題的指導性建議.首先作者通過一個Q-routing模型[16]簡單場景部署實驗表明包級別路由控制的強化學習智能路由模型對于吞吐較高的應用場景難以適用,采用時間段級別路由控制模型將會是比較推薦的方式.其次,將顯式的路徑選擇方式作為強化學習單元動作的智能路由方案難以收斂到理想結果.正如2.2節所提到的,路徑數目隨網絡規模的增長而指數增長,基于路徑選擇的方案無疑會大幅增加強化學習模型的學習和探索能力.基于上述2點,本文最終同樣選擇了通過強化學習模型來控制鏈路權值繼而間接實現路由控制的方案.與Valadarsky等人直接生成實鏈路權值相比,Xu等人的方案將鏈路權值離散化處理,進一步將動作空間大小從無限降為了有限,并對每一條鏈路對應的權值選擇過程單獨采用一個強化學習模型進行處理,進一步減小了每個強化學習模型的決策難度和探索空間.生成的鏈路權值作為最短路徑算法的邊權來進行路由計算.為了保證這個多智能體的合作路由模型的策略一致性,Xu等人利用最新的多智能體深度確定性策略梯度算法[51](multi-agent deep deterministic policy gradient, MADDPG)來對模型進行訓練.最終的實驗結果表明基于離線鏈路權值的強化學習智能路由算法相比于最短路徑路由具有更好的負載均衡特性,即更短的路由器平均等待隊長.

現有基于深度強化學習的智能路由方案在域內流量工程和智能路由優化任務上已經取得了一定的成果.深度強化學習模型具有良好的通用性與泛化性,其既可以優化網絡全局性能評價指標,例如全網最大鏈路利用率、路由器平均等待隊長等,也可以優化每個會話對應的私有效益值函數.此外相比于傳統基于規則或數學模型的路由優化算法,基于深度強化學習的智能路由算法無需對環境做出假設,并且能夠自適應動態變化的網絡環境.然而,不難發現,深度強化學習模型的收斂性與其生成路由規則的形式間具有很強的關聯性,過高的輸出維度往往使得深度強化學習模型無法收斂.因此現有研究工作中,深度強化學習模型普遍通過控制路徑分流比或鏈路權值的方式間接完成流量控制,而非通過路徑選擇或路徑生成的方式直接生成路由路徑.實際上即使現有工作已經盡量降低深度強化學習單元的路由決策難度,并取得了顯著進展,現有方案在復雜應用場景下的表現仍然有很大的提升空間.另外受限于深度強化學習的模型性能,現有方案大部分都采取時間段級別的路由控制方式,包級別的路由控制方式則不太適合于此類智能路由方案.對于路由算法而言,魯棒性和可靠性是十分重要的性質,然而現有基于深度強化學習的智能路由算法在這方面的研究還遠遠不夠.

4 智能路由算法的訓練與部署

雖然近些年已經有很多基于機器學習的智能路由算法相關工作,但是這些工作主要針對智能路由算法的原理設計和算法準確性、收斂性等問題進行研究,而對于智能路由算法在真實場景下的訓練與部署還尚未有一個成熟且完整的框架.本文對智能路由算法不同的訓練方式與部署方式的優勢與不足進行了討論,并提出了2類較為合理的智能路由訓練與部署框架以使得智能路由算法能夠低成本、高可靠性地在真實場景被部署.

4.1 訓練方式:在線與離線

智能路由算法模型的訓練方式主要分為在線和離線2種.圖7中給出了現有智能路由方案的訓練方式.其中基于監督學習的智能路由模型全部采用離線訓練的方式;而基于強化學習的模型則既可以在真實環境下在線訓練也可以在仿真環境下進行離線訓練.

通常來說,模型的離線訓練過程首先需要從真實環境中收集數據,這些數據可能是流量矩陣、網絡各節點狀態信息以及對應的路由決策標簽等.數據經過處理后被用于機器學習模型在服務器上的離線訓練過程.訓練完成后模型被部署到真實環境中進行在線路由決策.離線訓練和在線測試、部署是深度學習領域常見的訓練部署方式,然而對于智能路由算法,離線訓練往往面臨著3個挑戰:1)訓練數據的收集可能需要比較高的成本;2)真實場景下的網絡狀態可能與訓練數據集不同,導致路由算法無法達到預期效果甚至出現錯誤;3)對于強化學習來說,搭建與真實環境近似的仿真訓練環境可能很困難.

對于強化學習方法,在線訓練可以保證模型自適應網絡環境的變化,并且避免離線仿真環境搭建所帶來的困難與額外成本.然而在線訓練所帶來的路由安全性和可靠性問題使得實際部署中往往難以部署需要在線訓練的智能路由方法.實際上,在在線強化學習中,安全問題是一個已經被廣泛研究的問題[52-53],強化學習模型在訓練的初始階段以及訓練過程中的探索階段都可能會產生難以預測的行為,當強化學習方法應用在路由任務中時,這些難以預測的行為可能造成包括路由環路、鏈路擁塞等嚴重后果.因此,保證在線強化學習路由算法訓練過程的安全性與可靠性將是其在真實場景下部署的重要前提.

4.2 部署方式:集中式與分布式

隨著越來越多的智能路由算法的提出,如何在現有計算機網絡體系結構中部署這些算法正受到越來越多的關注.智能路由算法的部署方式主要分為分布式與集中式2種.

圖9中給出2種部署方案的框架結構示意圖.智能路由算法部署于集中式控制器中,根據控制器所收集到的網絡狀態信息動態進行路由決策,路由決策通過集中式控制器下發至各路由節點中.SDN網絡結構的提出為智能路由算法的集中式部署在理論上提供了可能,通過將智能路由控制單元作為SDN控制器上的一個應用可以完成上述集中式控制過程.在數據中心網絡流量工程這樣相對獨立的應用場景下,采用集中式方法部署智能路由調度方案是一種現階段較為可行的方案.

Fig. 9 Comparison between decentralized and centralized machine learning based routing control system圖9 分布式智能路由控制系統與集中式智能路由控制系統結構對比

集中式方案部署需要在網絡中部署一個集中式的路由控制器,并設計一個集中式的路由控制協議,然而當前計算機網絡體系結構中路由協議依然以分布式路由協議為主.相比于集中式路由協議,分布式路由協議具有更好的可擴展性.從圖7中可以看出,現有智能路由算法中有很多能夠支持分布式路由決策,這些分布式智能路由算法在收斂性、魯棒性等方面已經取得了進展,然而想要真正部署,還需要對應的路由器硬件的進一步發展和完善[15].隨著可編程路由設備的發展,未來在真實網絡中部署分布式智能路由算法將會成為可能.然而現有分布式智能路由算法主要關注路由方法的準確性以及收斂性,并沒有考慮對現有網絡層結構與協議的兼容.對于分布式智能路由算法而言,如何在兼容現有網絡層結構的基礎上進行增量式部署將是一個未來值得思考的問題.

4.3 智能路由訓練與部署模型設計

本節基于上述討論總結并提出了2類未來具備可行性的智能路由訓練與部署框架:1)集中式離線訓練與在線決策相結合的智能路由框架;2)保證安全的在線強化學習路由框架.

圖10中給出了集中式離線訓練與在線路由決策相結合的智能路由部署框架的工作流程圖.在這種智能路由部署方案下,路由器數據平面需要收集網絡流量特征信息并向上傳遞給控制層用來完成智能路由模型的訓練以及在線路由決策過程.智能路由決策模型在一個單獨的具有足夠計算能力的節點利用歷史網絡狀態信息以及網絡仿真環境完成離線訓練,并將訓練好的模型參數發布到在線路由決策單元中.對應的路由決策單元既可以采用分布式部署的方式將在線智能路由單元部署到每個路由器的控制平面,也可以采用集中式部署的方式將智能路由單元放在一個集中式的路由控制器中,例如SDN控制器.為了適應隨時間動態變化的網絡拓撲結構以及流量特征,上述模型采用閉環學習的方式定期根據最新的網絡流量特征對智能路由模型進行增量式訓練.基于機器學習的智能路由模型的訓練過程需要消耗大量計算和存儲資源,采用集中式的離線訓練使得網絡各路由節點不需要額外部署這些資源,能夠有效降低智能路由算法的部署成本.

Fig. 10 Centralized offline training and online deployment model for machine learning based routing protocol圖10 集中式離線訓練與在線部署相結合的機器學習智能路由部署方案

集中式離線訓練加在線路由決策的智能路由部署方案適用于大多數現有智能路由算法,并且與機器學習離線訓練、在線決策的思想相吻合.然而對于強化學習模型而言,無論是在線策略(on-policy)模型還是離線策略(off-policy)模型,與環境的交互是其學習過程必不可少的部分.不同于游戲任務,在路由優化問題中搭建一個與真實網絡環境相一致的仿真環境往往依賴于對網絡場景的精確建模,是一件十分困難的事情[30].與之相對應,深度強化學習模型開始階段糟糕的策略以及其學習過程中的探索行為,使得直接將基于深度強化學習的智能路由模型放在真實網絡環境中進行訓練很可能會為網絡帶來嚴重的安全性和可靠性問題.為了解決基于深度強化學習的智能路由策略在訓練過程中所面臨的挑戰,本文參考安全在線強化學習的思想[53],提出了具有可靠性保證的深度強化學習智能路由模型在線訓練方案,圖11給出了該方案的工作流程圖.相比于傳統的強化學習方法,該方案引入安全監測模塊對強化學習單元所做出的路由決策是否安全進行了基于規則的判斷,當強化學習單元所做出的路由決策可能存在安全隱患時,例如包含路由回路、引發網絡擁塞等,強化學習單元采用一個簡單可靠的路由決策(例如最短路徑路由)對原本的路由決策進行替換,并同時給強化學習單元施加一個懲罰因子p,以避免強化學習單元之后再次生成類似的路由策略.在線安全學習在其他網絡應用場景下的相關工作表明,基于在線安全學習的深度強化學習智能路由方案有能力在不影響原本路由優化目標的同時保證路由學習過程的可靠性[53].它不僅能解決由于模型尚未收斂以及探索過程所帶來安全性問題,而且可以在不保證模型可解釋性的前提下保證模型的可靠性,一定程度上解決了深度學習智能路由模型不可解釋性以及網絡突發狀況下路由行為不可預測性所帶來的擔憂.

Fig. 11 Safe online learning model for deep reinforcement learning based routing algorithm圖11 具有可靠性保證的基于深度強化學習的智能路由算法在線學習方案

對于智能路由的訓練與部署框架,現有研究工作還比較少,但是本文認為由智能路由方案所帶來的模型不可解釋性、路由行為的不可預測性將是其訓練部署框架設計的重要挑戰.而利用基于規則的方案來對智能路由控制單元進行約束可能是保證智能路由的可靠性的一個有效手段.

5 智能路由算法所面臨的機遇與挑戰

近年來,智能路由算法受到越來越多的關注,本節針對智能路由算法在解決路由優化問題上所具有的優勢以及其未來發展過程所面臨的的挑戰進行了探討.

5.1 智能路由算法的優勢

數據驅動的智能路由算法通常基于深度學習或強化學習,其主要具有5個優點:

1) 網絡狀態敏感.相比于傳統基于模型的路由算法,智能路由算法能夠處理更高維度的網絡狀態特征信息,這使得智能路由算法對網絡狀態的變化更加敏感,當網絡狀態發生變化時能快速收斂,做出更適合當前網絡狀態的路由決策.

2) 數據驅動.相比于傳統路由算法基于固定的模型求解路由策略,智能路由算法由數據驅動,基于更少的環境假設,利用歷史數據信息以及對環境的自發探索來自動對應用場景進行建模并完成路由優化,因此能夠自適應不同應用場景與網絡環境變化.

3) 面向服務質量.智能路由能夠更好地支持區分服務質量的路由請求.相比于傳統服務質量路由優化方案基于大量對應用場景的假設為每種QoS需求單獨設計復雜的優化模型,數據驅動的智能路由算法能夠根據QoS需求自動學習得到恰當的路由決策.

4) 經驗驅動與記憶特性.相比于傳統基于模型和規則的路由算法,基于機器學習的智能路由算法能夠通過學習歷史數據來把過往經驗記憶下來,使得模型能像人類一樣“吃一塹長一智”,隨著經驗的增長逐步提升路由優化效果.

5) 路由決策考慮過去、現在和未來.循環神經網絡結構(RNN)及其相應擴展(GRU,LSTM)能夠很好地將過往歷史信息進行建模,而強化學習模型則賦予了智能路由算法不僅著眼于當前路由效果,更可預測未來網絡狀態變化,提前避免未來可能發生的網絡擁塞的能力.

5.2 智能路由算法面臨的挑戰

與智能路由算法的優勢相對應的,智能路由方法的未來發展過程同樣面臨著很多挑戰:

1) 網絡特征信息提取.智能路由方法中,網絡狀態信息可能是按照拓撲結構的形式進行組織的,并且由于網絡場景的動態變化,使得網絡狀態信息的維度可能發生改變.傳統的機器學習方法對于這種類型的網絡狀態信息的處理上存在困難.現有智能路由算法嘗試利用圖神經網絡模型(GNN)對網絡狀態信息進行建模和提取[26,30].GNN方法對于不同拓撲結構具有良好的泛化性,然而現有GNN方法是否能夠對于路由優化問題真實場景中動態變化的大規模拓撲結構完成建模還缺乏足夠的實驗支撐.

2) 算法收斂性.相比于游戲、圖像識別、自然語言處理等已經廣泛應用機器學習的場景,路由優化問題的輸入輸出維度更高,目標策略更復雜,現有的研究表明對于輸入輸出維度很高的復雜路由優化問題,現有機器學習方案往往難以收斂到最優解.為了解決模型難以收斂的問題,往往需要通過降低輸入輸出維度,將決策空間離散化,或者采用間接控制路由決策以簡化策略復雜度的方式來降低模型的收斂難度,然而即使采用了這些方案,很多模型最終的收斂結果依然距離理論最優值存在很大差距.

3) 算法可擴展性.可擴展性是路由算法所需要滿足的重要特性.現有基于機器學習的智能路由算法主要基于不超過20個節點的小拓撲進行設計和實驗.更大的拓撲意味著指數增長的網絡狀態數以及更高的路由決策難度,如何保證智能路由算法在大拓撲上依然能取得良好的效果將是未來智能路由算法設計面臨的一個挑戰.此外當拓撲規模很大時,集中式的路由控制算法可能帶來很高的數據交換成本以及網絡狀態傳輸延時,影響可擴展性;而分布式的智能路由算法如何在大拓撲下保證各節點路由策略的一致性將是未來需要解決的問題.

4) 算法可解釋性.智能路由方法所面臨的另一個問題是路由策略的不可預測性以及不可解釋性,相比于傳統路由基于數學模型的傳統路由算法,基于深度學習的方法其行為往往具有不可預測性,當出現一個糟糕的路由決策時,操作員很難去定位錯誤原因,至于針對錯誤去更正模型更是一件幾乎不可能的事情.因此,如何提升智能路由算法的可解釋性將是未來智能路由方法發展過程中面臨的一個挑戰.

5) 模型訓練成本.對于基于監督學習的智能路由算法而言,收集足夠多、足夠準確的帶標簽數據有時是一個成本很高昂的事情.不同于人臉識別等一次訓練一勞永逸的應用場景,隨著網絡環境的變化,現有智能路由可能需要重復收集訓練數據并重新進行訓練.因此如何提升智能路由訓練過程的數據效率是智能路由方案部署過程中所面臨的重要挑戰.面對類似的問題時,通過元學習來降低訓練成本是一個可行的解決方案[54],然而路由領域對這方面尚未有很完善的研究.此外對于基于深度強化學習的智能路由方法,無論是在線訓練還是離線訓練,其高昂的訓練成本以及訓練過程中對于系統所帶來的可靠性隱患都是亟待解決的挑戰.

6) 網絡突發情況處理.對于智能路由方法來說,如何處理網絡突發狀況是另一個智能路由算法未來發展過程將面臨的挑戰.流量突發、網絡設備故障帶來的網絡狀態變化是現實中非常常見的情況,然而這些突發情況種類多樣,很多突發情況在訓練數據中從未出現過,現有數據驅動的智能路由算法很難保證當面對這些突發情況時能夠處理得當.實際上,即使是Q-Learning這類能夠動態適應環境變化的方法也無法很好地應對網絡突發且劇烈的波動,利用“安全在線強化學習”[53]的思想來應對網絡突發狀況變化也許是未來一個可能的解決方案,但如何精確感知網絡突發狀況同樣是一個挑戰.

7) 真實場景部署.對于智能路由方法來說,如何在真實場景部署是一個巨大的挑戰.相比于傳統路由算法來說,智能路由需要更多的計算資源、更高的路由性能,與此同時訓練數據收集與路由感知過程需要對于原有的路由協議重新設計以使得智能路由算法所需要的數據能夠被智能單元所獲得.SDN網絡以及可編程路由設備的提出使得路由器控制層的計算能力變得更強,然而即便如此智能路由算法也很難在現有網絡體系結構下進行大規模部署.在優化智能路由算法性能并增強其對傳統路由算法兼容性以及可擴展性的同時,設計與智能路由方案相匹配的路由設備也許會是未來智能路由算法發展的趨勢.

6 總 結

本文經過調研發現,現有智能路由算法主要分為基于監督學習與基于強化學習2類:1)基于監督學習的智能路由方法主要通過用深度學習模型替代現有路由算法或輔助傳統路由算法完成路由求解.深度學習方法使得智能路由算法對環境感知更敏感、收斂速度更快,數據驅動的輔助模塊也能夠使得傳統路由算法所做出的路由決策更準確,并在擁塞發生之前提前避免.2)基于強化學習的路由算法能夠自適應不同的路由應用場景,并優化多種網絡性能指標.其中基于模型的Q-Learning方法被廣泛用于無線傳感器網絡的路由優化過程,而深度強化學習方法則被應用于域內流量工程、基于流量預測的智能路由算法等多樣化的復雜路由優化問題.

本文分析了在線與離線的智能路由訓練方案以及集中式和分布式2種智能路由部署方案的優缺點,并進一步提出了離線集中式訓練加在線部署的閉環學習框架以及自適應在線訓練與安全學習相結合的有可靠性保證的智能路由部署框架.這2種框架為基于機器學習的智能路由算法在真實場景下低成本、高可靠性地部署提供了可能.

本文討論了智能路由算法在未來發展過程中的機遇與挑戰,并針對這些挑戰提出了基于機器學習的智能路由算法未來可能的研究方向.

猜你喜歡
深度智能優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
深度理解一元一次方程
深度觀察
深度觀察
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
主站蜘蛛池模板: 久久久久人妻精品一区三寸蜜桃| 不卡无码h在线观看| 久久精品电影| 国产女人水多毛片18| 亚洲国产日韩视频观看| 中文字幕日韩丝袜一区| 免费高清自慰一区二区三区| 亚洲精品免费网站| 国产网站一区二区三区| 欧美成人二区| 亚洲丝袜中文字幕| 97人妻精品专区久久久久| 国产精品成人一区二区| 亚洲国产看片基地久久1024| 久久无码高潮喷水| 精品国产自在现线看久久| 一级毛片在线免费看| 欧美视频在线第一页| 97国产精品视频人人做人人爱| 成人在线天堂| 美女无遮挡被啪啪到高潮免费| 3344在线观看无码| 亚洲成a人片77777在线播放| 国产精品午夜福利麻豆| h网站在线播放| 免费国产在线精品一区| 精品国产成人av免费| 一级黄色网站在线免费看| 国产欧美视频一区二区三区| 国产精品亚洲αv天堂无码| 免费国产高清精品一区在线| 国产婬乱a一级毛片多女| 一本大道AV人久久综合| 国产精品自在拍首页视频8| 在线视频亚洲欧美| 99视频精品在线观看| 99久久国产综合精品女同| 婷婷五月在线| 久久天天躁夜夜躁狠狠| 丰满的少妇人妻无码区| 高清免费毛片| 精品成人免费自拍视频| hezyo加勒比一区二区三区| 久久久久青草大香线综合精品 | 国产一级无码不卡视频| 57pao国产成视频免费播放| a级毛片在线免费观看| 青青操视频在线| 中文字幕乱妇无码AV在线| 手机在线国产精品| 国产美女精品一区二区| 黄色网址免费在线| 日韩国产综合精选| 成年免费在线观看| 五月激激激综合网色播免费| 亚欧美国产综合| 日本久久网站| 中文字幕va| 亚洲三级色| 国产h视频在线观看视频| 久久久久中文字幕精品视频| 亚洲综合九九| 日本在线视频免费| 青青草久久伊人| 日韩无码黄色| 综合亚洲色图| 2020国产精品视频| 精品视频福利| 4虎影视国产在线观看精品| AV在线天堂进入| 在线免费不卡视频| 亚洲日韩AV无码一区二区三区人| 无码专区在线观看| 欧美天堂在线| 在线无码av一区二区三区| 在线播放精品一区二区啪视频| 免费一级成人毛片| 欧美日韩动态图| 国产尤物视频网址导航| 日本欧美视频在线观看| 欧美日韩成人在线观看| 日本午夜影院|