999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強(qiáng)化學(xué)習(xí)的移動(dòng)Ad Hoc網(wǎng)絡(luò)路由選擇*

2020-08-14 06:31:36朱凡芃姚昌華張海波
通信技術(shù) 2020年8期
關(guān)鍵詞:深度策略

朱凡芃,朱 磊,姚昌華,王 磊,張海波

(1.解放軍陸軍工程大學(xué),江蘇 南京 210007;2.陸軍研究院系統(tǒng)工程研究所,北京 100072;3.南京信息工程大學(xué),江蘇 南京 210044)

0 引言

無(wú)線(xiàn)自組織網(wǎng)絡(luò)[1]自提出以來(lái)就受到了廣泛的關(guān)注,近些年研究熱點(diǎn)多是放在與其他網(wǎng)絡(luò)的結(jié)合,如無(wú)線(xiàn)自組網(wǎng)與車(chē)載局域網(wǎng)的結(jié)合VANET[2-4],與無(wú)人機(jī)駕駛器的結(jié)合FANET,與移動(dòng)寬帶多媒體的Mesh等。無(wú)線(xiàn)自組織網(wǎng)絡(luò)的特性決定了路由問(wèn)題是它的研究重點(diǎn),當(dāng)前基于無(wú)線(xiàn)自組織網(wǎng)路的路由選擇算法方面還多停留在Q學(xué)習(xí)算法[5],基本沒(méi)有研究結(jié)合當(dāng)前熱門(mén)的深度強(qiáng)化學(xué)習(xí)提出新的算法,而深度強(qiáng)化學(xué)習(xí)可采用非線(xiàn)性函數(shù)近似逼近強(qiáng)化學(xué)習(xí)中的值函數(shù),用深度神經(jīng)網(wǎng)絡(luò)來(lái)完成函數(shù)擬合,能較好解決無(wú)線(xiàn)自組織網(wǎng)絡(luò)的動(dòng)態(tài)性難點(diǎn)。

1 基于深度強(qiáng)化學(xué)習(xí)的Ad Hoc網(wǎng)絡(luò)路由選擇的研究動(dòng)機(jī)

1.1 Ad Hoc網(wǎng)絡(luò)路由選擇的特點(diǎn)

Ad Hoc網(wǎng)絡(luò)路由選擇[6]需綜合考慮網(wǎng)絡(luò)能力、狀態(tài)信息、網(wǎng)絡(luò)特點(diǎn)、網(wǎng)絡(luò)環(huán)境、路由協(xié)議等多方因素[7]。與傳統(tǒng)有線(xiàn)網(wǎng)絡(luò)相比,Ad Hoc網(wǎng)絡(luò)有以下特點(diǎn):

(1)節(jié)點(diǎn)動(dòng)態(tài)性,網(wǎng)絡(luò)中節(jié)點(diǎn)移動(dòng)性較強(qiáng),可隨時(shí)加入或離開(kāi)網(wǎng)絡(luò),且不破壞其他節(jié)點(diǎn)通信;

(2)環(huán)境動(dòng)態(tài)[8],網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)動(dòng)態(tài)變化,鏈路的通連關(guān)系不固定;

(3)路由計(jì)算能力有限,存儲(chǔ)開(kāi)銷(xiāo)較大;

(4)可擴(kuò)展性不強(qiáng)。

1.2 Ad Hoc網(wǎng)絡(luò)路由選擇算法的要求

理想的Ad Hoc網(wǎng)絡(luò)路由算法應(yīng)該包含以下特點(diǎn):

(1)分布式路由[9]。Ad Hoc網(wǎng)絡(luò)是一種無(wú)中心的分布式控制網(wǎng)絡(luò),所以分布式算法更適合。

(2)自適應(yīng)性強(qiáng),可適應(yīng)快速變化的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。

(3)路由維護(hù)開(kāi)銷(xiāo)少。

(4)具有可擴(kuò)展性,適用于大規(guī)模網(wǎng)絡(luò)。

特別地:

(1)收斂速度要快,現(xiàn)有路由算法在大規(guī)模的網(wǎng)絡(luò)中存在收斂較慢的問(wèn)題;

(2)動(dòng)態(tài)環(huán)境適應(yīng)性強(qiáng),由于Ad Hoc網(wǎng)絡(luò)節(jié)點(diǎn)的移動(dòng)性,在節(jié)點(diǎn)之間創(chuàng)建的路由是不可持續(xù)的,且這種不可持續(xù)不僅增加了分組傳送時(shí)間,而且浪費(fèi)了能量資源[10-11];

(3)不確定信息適應(yīng)性強(qiáng),Ad Hoc網(wǎng)絡(luò)節(jié)點(diǎn)、鏈路狀態(tài)無(wú)法預(yù)測(cè);

(4)對(duì)網(wǎng)絡(luò)拓?fù)湫畔⑷笔А㈠e(cuò)誤容忍度高,在無(wú)法準(zhǔn)確獲取網(wǎng)絡(luò)全部信息的情況下,依舊可以選擇合適路由。

1.3 Ad Hoc網(wǎng)絡(luò)路由選擇算法的現(xiàn)狀

傳統(tǒng)的路由算法是尋找從源端到目的端的固定路由[1],且需要知道網(wǎng)絡(luò)的先驗(yàn)狀態(tài)信息,如信道統(tǒng)計(jì)以及網(wǎng)絡(luò)拓?fù)湫畔⒌龋@在Ad Hoc網(wǎng)絡(luò)中是不可行的。此外,固定的路由選擇策略無(wú)法滿(mǎn)足Ad Hoc網(wǎng)絡(luò)的動(dòng)態(tài)性和不可預(yù)測(cè)性需求。可以說(shuō)Ad Hoc網(wǎng)絡(luò)中的大多難點(diǎn)問(wèn)題都?xì)w因于網(wǎng)絡(luò)的拓?fù)鋭?dòng)態(tài)性[12]。目前提出的大多數(shù)算法都弱化考慮節(jié)點(diǎn)的動(dòng)態(tài)性,或者對(duì)節(jié)點(diǎn)的動(dòng)態(tài)移動(dòng)軌跡或網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)做了預(yù)先的假設(shè)。在移動(dòng)自組網(wǎng)路由中,使用強(qiáng)化學(xué)習(xí)是一種相對(duì)新穎的思想和概念。目前,結(jié)合深度強(qiáng)化學(xué)習(xí)對(duì)Ad Hoc路由算法的研究存在空白與欠缺。

1.3 Ad Hoc網(wǎng)絡(luò)路由選擇算法面臨的挑戰(zhàn)

Ad Hoc網(wǎng)絡(luò)拓?fù)洳粩嘧兓酚蛇x擇算法面臨的主要難點(diǎn)之一就是鏈路中斷后的尋路問(wèn)題。

(1)現(xiàn)有的無(wú)線(xiàn)路由選擇算法較為復(fù)雜,在大規(guī)模網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中收斂較慢;(2)現(xiàn)有算法對(duì)信息獲取的準(zhǔn)確性需求較高,但在實(shí)際網(wǎng)絡(luò)中,信息數(shù)據(jù)較難獲取;(3)Ad Hoc網(wǎng)絡(luò)有是動(dòng)態(tài)變化的,現(xiàn)有的強(qiáng)化學(xué)習(xí)方法進(jìn)行路由選擇時(shí)對(duì)網(wǎng)絡(luò)的適應(yīng)性不是很好;(4)在不斷變化的環(huán)境中,無(wú)法提供較為穩(wěn)定的Qos路由選擇。

2 基于深度強(qiáng)化學(xué)習(xí)的Ad Hoc網(wǎng)絡(luò)路由選擇研究現(xiàn)狀

2.1 Ad Hoc網(wǎng)絡(luò)路由選擇發(fā)展概述

Ad Hoc網(wǎng)絡(luò)的路由選擇算法不僅要考慮路由的短暫性,還需考慮路由的穩(wěn)定性。由于不同環(huán)境中的可用因素具有特定的行為模式,結(jié)合鏈路穩(wěn)定性和路由短暫性的參數(shù),利用強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)特性,提出一種依賴(lài)鄰居節(jié)點(diǎn)狀態(tài)信息,預(yù)測(cè)節(jié)點(diǎn)相對(duì)于目標(biāo)節(jié)點(diǎn)的行為模式的算法。但強(qiáng)化學(xué)習(xí)的路由選擇算法對(duì)網(wǎng)絡(luò)狀態(tài)信息的準(zhǔn)確性要求較高。

人工神經(jīng)網(wǎng)絡(luò)算法使用神經(jīng)網(wǎng)絡(luò)來(lái)確定動(dòng)作的值,其中估計(jì)基于先前的估計(jì)。然而,為每種可能的路由組合都建立神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練大量的神經(jīng)網(wǎng)絡(luò),大大增加了對(duì)計(jì)算資源的需求。此外,深度學(xué)習(xí)本質(zhì)上是某些功能的近似值,不適用于決策問(wèn)題,例如路由選擇,能量分配等。

因此,研究人員嘗試使用深度強(qiáng)化學(xué)習(xí)解決決策類(lèi)型問(wèn)題。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法相比,深度強(qiáng)化學(xué)習(xí)利用深度學(xué)習(xí)的函數(shù)逼近能力來(lái)解決具有較大狀態(tài)和動(dòng)作空間的實(shí)際問(wèn)題。本文從三個(gè)較為經(jīng)典的深度強(qiáng)化學(xué)習(xí)算法出發(fā),對(duì)現(xiàn)有的路由選擇算法做了總結(jié),如下圖1所示。

圖1 深度強(qiáng)化學(xué)習(xí)路由選擇研究現(xiàn)狀

2.2 基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)路由選擇算法

Mnih等[13]在Q learning基礎(chǔ)上結(jié)合深度神經(jīng)網(wǎng)絡(luò)提出的基于值函數(shù)逼近的強(qiáng)化學(xué)習(xí)方法,框架流程如圖2所示,主要特點(diǎn)有:

(1)用深度卷積神經(jīng)網(wǎng)絡(luò)逼近行為值函數(shù);

(2)利用經(jīng)驗(yàn)回放(均勻采樣)訓(xùn)練強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過(guò)程;

(3)設(shè)置單獨(dú)目標(biāo)網(wǎng)絡(luò)來(lái)處理時(shí)間差分算法中的TD偏差。

圖2 DQN框架流程

2017年Stampa等[14]結(jié)合深度神經(jīng)網(wǎng)絡(luò)在強(qiáng)化學(xué)習(xí)中的最新研究[15-16],訓(xùn)練了一種能夠根據(jù)預(yù)定義的目標(biāo)指標(biāo)(網(wǎng)絡(luò)延遲)優(yōu)化路由的深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)智能體。所提算法將流量帶寬作為狀態(tài),不考慮節(jié)點(diǎn)隊(duì)列大小、鏈路質(zhì)量等其他因素。使用OMNeT++[17-18]收集給定流量和路由參數(shù)的傳輸延遲[19]。隨著路由變化,智能體可以通過(guò)更改獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)不同的策略選擇,相較傳統(tǒng)路由選擇算法,優(yōu)化了傳輸延遲。

Hu T[20]提出了基于強(qiáng)化學(xué)習(xí)QELAR的自適應(yīng)、節(jié)能感知路由算法。在整個(gè)路由選擇中考慮每個(gè)節(jié)點(diǎn)的剩余能量以及一組節(jié)點(diǎn)之間的能量分布以計(jì)算獎(jiǎng)勵(lì)函數(shù),同時(shí)考慮重傳和丟包對(duì)網(wǎng)絡(luò)造成的負(fù)面影響。

Ghaffari等[21]提出了基于Q學(xué)習(xí)[22]的移動(dòng)自組網(wǎng)算法。該算法無(wú)需對(duì)環(huán)境做出任何假設(shè),僅依賴(lài)于從鄰居獲得的節(jié)點(diǎn)的局部信息。考慮到可持續(xù)性和路徑短等參數(shù),采用基于試錯(cuò)的強(qiáng)化學(xué)習(xí)方法,提出了一種在所有鄰居中選擇最佳方案向目標(biāo)發(fā)送數(shù)據(jù)包的方法。實(shí)驗(yàn)證明,所提出的算發(fā)與最優(yōu)蟻群路由算法[23-24]相比,隨著節(jié)點(diǎn)數(shù)量的增加表現(xiàn)出更好的兼容性。在網(wǎng)絡(luò)路由的變化與擁塞時(shí)所提算法相較[24],能更快地搜索到最新路由。在網(wǎng)絡(luò)狀態(tài)不變的情況下,所提出的算法比結(jié)合人工神經(jīng)網(wǎng)絡(luò)和蟻群算法所提出的算法[25]具有更高的效率,在傳輸延遲方面有較強(qiáng)的優(yōu)勢(shì)。

文獻(xiàn)[26]提出了基于改進(jìn)統(tǒng)計(jì)鏈路模型的Ad Hoc網(wǎng)絡(luò)連續(xù)鏈路模型,并結(jié)合強(qiáng)化學(xué)習(xí)算法,將動(dòng)作選擇與連續(xù)鏈路模型相結(jié)合,提出了基于改進(jìn)統(tǒng)計(jì)模型的Ad Hoc網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法SNLQ,利用統(tǒng)計(jì)信息表示鏈路的質(zhì)量,在擁塞網(wǎng)絡(luò)環(huán)境下,可以有效解決擁塞頻率和端到端延時(shí)。

2.3 基于策略梯度的深度強(qiáng)化學(xué)習(xí)路由選擇算法

實(shí)際網(wǎng)絡(luò)是狀態(tài)不計(jì)其數(shù)的復(fù)雜的連續(xù)時(shí)間系統(tǒng),而上面提到的所有研究都使用狀態(tài)動(dòng)作表來(lái)找到某種路由策略,而這種策略很難處理太多的狀態(tài)。策略梯度(policy gradient)[27]是一種常用的策略?xún)?yōu)化方法,它使用逼近器來(lái)近似表示和優(yōu)化策略,不斷計(jì)算策略期望總獎(jiǎng)賞關(guān)于策略參數(shù)的梯度來(lái)更新策略參數(shù),以端對(duì)端的方式直接在策略空間中搜索最優(yōu)策略,省去了繁瑣的中間環(huán)節(jié)[28]。Lillicrap等[29]將DPG(deterministic policy gradient)算 法[30]與DQN (deep Q network)[31]相結(jié)合,提出了DDPG(deep deterministic policy gradient)算法,框架流程如圖3所示。DDPG 在連續(xù)動(dòng)作空間求解上有較好表現(xiàn),且求得最優(yōu)解所需的時(shí)間步也遠(yuǎn)低于DQN。

圖3 DDPG框架流程

文獻(xiàn)[32-33]使用DDPG和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來(lái)進(jìn)行流量工程(Traffic Engineering,TE)的策略選擇。作為一種無(wú)模型方案,該算法可通過(guò)訓(xùn)練就可生成接近最佳的動(dòng)態(tài)路由策略。該算法可隨著網(wǎng)絡(luò)中流量分布的變化而緊密地更新路由規(guī)則,而一旦在線(xiàn)部署則僅花費(fèi)少量的計(jì)算和存儲(chǔ)資源。實(shí)驗(yàn)證明,隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,與傳統(tǒng)最短路徑算法相比,所提出算法能更好減少傳輸延遲。但同時(shí)根據(jù)實(shí)驗(yàn)結(jié)果顯示,該算法對(duì)流量強(qiáng)度大小要求較為嚴(yán)格,在流量強(qiáng)度較小時(shí),與傳統(tǒng)路由算法相比并無(wú)優(yōu)勢(shì),在網(wǎng)絡(luò)流量強(qiáng)度很高時(shí),噪聲流量的隨機(jī)性又會(huì)削弱該算法的準(zhǔn)確性。

C.Yu[34]等考慮到Q學(xué)習(xí)在用于網(wǎng)絡(luò)路由優(yōu)化時(shí)需要龐大的Q table,且不適用于動(dòng)態(tài)變化的網(wǎng)絡(luò)環(huán)境,結(jié)合DDPG提出了一種在連續(xù)時(shí)間內(nèi)實(shí)現(xiàn)通用和可定制的路由選擇算法DROM。所提出的算法相較現(xiàn)有的路由算法而言具有良好的收斂性和有效性,并節(jié)省了維護(hù)大規(guī)模Q表所導(dǎo)致的存儲(chǔ)開(kāi)銷(xiāo)和表查找的時(shí)間成本,在網(wǎng)絡(luò)中流量強(qiáng)度較大時(shí)可有效減少網(wǎng)絡(luò)延遲,提高吞吐量。

2.4 結(jié)合Graph Neural Networks的深度強(qiáng)化學(xué)習(xí)路由選擇算法

離散狀態(tài)的強(qiáng)化學(xué)習(xí)問(wèn)題中,不同的狀態(tài)可以自然地表示為一個(gè)圖的形式,GNN(Graph Neural Networks)是Franco[35]等引入的用于處理圖結(jié)構(gòu)信息的新型神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)關(guān)系推理和組合泛化的目的,并已發(fā)展出許多變式[36-38],在網(wǎng)絡(luò)建模和優(yōu)化領(lǐng)域顯示了空前的泛化能力[39-40]。

目前 GNN 所解決的問(wèn)題中,圖結(jié)構(gòu)是一次性全部給出的;而在強(qiáng)化學(xué)習(xí)中,需要通過(guò)策略的探索來(lái)遇見(jiàn)相應(yīng)的節(jié)點(diǎn),當(dāng)節(jié)點(diǎn)數(shù)目較多時(shí),相應(yīng)的圖就會(huì)變得特別龐大,圖4給出了GNN聚合示例。因此,如何一邊探索并記錄所遇到的狀態(tài),一邊對(duì)于狀態(tài)(節(jié)點(diǎn))做聚合(aggregation)就成為了一個(gè)十分重要的問(wèn)題[41]。

圖4 GNN聚合示例

Paul A[42]等將GNN與DRL結(jié)合做網(wǎng)絡(luò)的路由優(yōu)化,用圖神經(jīng)網(wǎng)絡(luò)對(duì)計(jì)算機(jī)網(wǎng)絡(luò)場(chǎng)景進(jìn)行建模,DRL Agent采用了DQN算法[13],其中q值函數(shù)由GNN得出。

在網(wǎng)絡(luò)領(lǐng)域,從給定的流量矩陣中找到最佳路由配置是一個(gè)基本問(wèn)題,研究人員提出了幾個(gè)基于DRL的解決方案來(lái)解決路由優(yōu)化[43-47]。然而,它們不能推廣到看不見(jiàn)的場(chǎng)景。他們通常會(huì)預(yù)處理來(lái)自網(wǎng)絡(luò)狀態(tài)的數(shù)據(jù),并以固定大小的矩陣形式呈現(xiàn)由傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)(例如,完全連接的卷積神經(jīng)網(wǎng)絡(luò))處理。這些神經(jīng)網(wǎng)絡(luò)不適合學(xué)習(xí)和歸納那些固有地被構(gòu)造成圖形的數(shù)據(jù)。Paul A[42]所提出模型能夠在訓(xùn)練中從未見(jiàn)過(guò)的網(wǎng)絡(luò)中維持類(lèi)似的精確度,能較好地推廣至其他拓?fù)浣Y(jié)構(gòu)。

3 深度強(qiáng)化學(xué)習(xí)路由選擇算法面臨的機(jī)遇與挑戰(zhàn)

3.1 深度強(qiáng)化學(xué)習(xí)路由選擇算法的優(yōu)勢(shì)

相較于路由選擇算法,深度強(qiáng)化學(xué)習(xí)路由選擇算法有以下優(yōu)點(diǎn)[14]:

(1)傳統(tǒng)優(yōu)化需要大量步驟才能產(chǎn)生新的配置。而DRL 智能體經(jīng)過(guò)訓(xùn)練,可以達(dá)到快速收斂;

(2)DRL 智能體是無(wú)模型的(他們從經(jīng)驗(yàn),行為和獎(jiǎng)勵(lì)之間的動(dòng)態(tài)中自主學(xué)習(xí)[48])、非線(xiàn)性、復(fù)雜多維系統(tǒng),而無(wú)需進(jìn)行簡(jiǎn)化;

(3)DRL 智能體可以使用不同的獎(jiǎng)勵(lì)函數(shù)來(lái)實(shí)現(xiàn)不同的目標(biāo)策略,而無(wú)需設(shè)計(jì)新的算法。

3.2 深度強(qiáng)化學(xué)習(xí)路由選擇算法的挑戰(zhàn)

然而就現(xiàn)階段的研究來(lái)看,深度強(qiáng)化學(xué)習(xí)路由選擇算法的研究重心應(yīng)放在:

(1)解決DRL 智能體的穩(wěn)定性問(wèn)題,就現(xiàn)階段的研究來(lái)看,網(wǎng)絡(luò)中的狀態(tài)噪聲會(huì)誤導(dǎo)神經(jīng)網(wǎng)絡(luò)以輸出不同的決策;

(2)移植性問(wèn)題;當(dāng)前很難將智能體移植到另一個(gè)網(wǎng)絡(luò)拓?fù)渲校蛘弋?dāng)現(xiàn)有拓?fù)涓臅r(shí),智能體無(wú)法很好地工作,后續(xù)仍然需要研究受過(guò)訓(xùn)練的智能體的增量部署;

(3)信息收集和處理問(wèn)題,網(wǎng)絡(luò)狀態(tài)的時(shí)間和內(nèi)容粒度也會(huì)影響智能體的性能,如何高效獲取網(wǎng)絡(luò)信息是未來(lái)研究的關(guān)鍵。同時(shí),信息的收集與獲取可能存在偏差,應(yīng)加強(qiáng)對(duì)網(wǎng)絡(luò)信息的處理的容錯(cuò)能力的進(jìn)一步研究;

(4)規(guī)模問(wèn)題,現(xiàn)有的算法研究都是在小規(guī)模節(jié)點(diǎn)網(wǎng)絡(luò)上實(shí)驗(yàn)證明,在大規(guī)模網(wǎng)絡(luò)中,節(jié)點(diǎn)環(huán)境更加復(fù)雜多變,還需提出更智能更穩(wěn)定的算法同時(shí),大規(guī)模的網(wǎng)絡(luò)也給集中控制器帶來(lái)了更多的通信開(kāi)銷(xiāo)。

4 結(jié)語(yǔ)

本文回顧了Ad Hoc網(wǎng)絡(luò)路由選擇算法的研究現(xiàn)狀與成果,簡(jiǎn)要介紹了基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)、基于策略梯度的深度強(qiáng)化學(xué)習(xí)以及結(jié)合Graph Neural Networks的深度強(qiáng)化學(xué)習(xí)從三個(gè)方面總結(jié)了深度強(qiáng)化學(xué)習(xí)路由選擇算法的研究成果,討論了結(jié)合深度強(qiáng)化學(xué)習(xí)的Ad Hoc網(wǎng)絡(luò)路由選擇算法研究趨勢(shì)。

AdHoc網(wǎng)絡(luò)其自身的獨(dú)特性,賦予其廣闊的發(fā)展前景。隨著深度強(qiáng)化學(xué)習(xí)研究熱潮的涌現(xiàn),對(duì)路由選擇又提出更高的要求,如:如何達(dá)到算法的快速收斂、如何更好地支持QoS路由、如何有效地收集網(wǎng)絡(luò)的拓?fù)湫畔ⅰ⑷绾翁幚韯?dòng)態(tài)的網(wǎng)絡(luò)配置、如何擴(kuò)展至大規(guī)模自組織網(wǎng)絡(luò)等等。這些問(wèn)題的解決在很大程度上依賴(lài)于Ad Hoc網(wǎng)絡(luò)路由選擇算法的研究,將深度強(qiáng)化學(xué)習(xí)應(yīng)用于Ad Hoc網(wǎng)絡(luò)路由選擇在未來(lái)會(huì)有更大的發(fā)展。

猜你喜歡
深度策略
基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
深度理解一元一次方程
求初相φ的常見(jiàn)策略
例談未知角三角函數(shù)值的求解策略
我說(shuō)你做講策略
深度觀察
深度觀察
深度觀察
深度觀察
高中數(shù)學(xué)復(fù)習(xí)的具體策略
主站蜘蛛池模板: 国产91九色在线播放| 亚洲美女一级毛片| 亚洲不卡影院| 国产微拍精品| 黄色成年视频| 极品av一区二区| 国产精品久久久久久搜索 | 一区二区自拍| 亚洲国产理论片在线播放| 亚洲浓毛av| 国产成人综合亚洲网址| 好紧太爽了视频免费无码| 国产精品太粉嫩高中在线观看| 99草精品视频| 一本大道视频精品人妻| 精品一区二区久久久久网站| 国产精品第一区| 高清视频一区| 四虎精品免费久久| 欧美成人免费一区在线播放| 国产杨幂丝袜av在线播放| 日韩av无码精品专区| 亚洲无码不卡网| 国产在线拍偷自揄观看视频网站| 国产欧美精品专区一区二区| 不卡视频国产| 亚洲欧美人成电影在线观看| 欧美日韩一区二区在线免费观看 | 国产成人8x视频一区二区| 为你提供最新久久精品久久综合| 国产精品污视频| 91亚洲影院| 国产办公室秘书无码精品| 成色7777精品在线| 亚洲精品黄| 国产91无毒不卡在线观看| 中文字幕亚洲第一| 午夜视频日本| 日韩黄色精品| 好吊色妇女免费视频免费| 久久综合色视频| 国产成人精品综合| 国产精品久久久久婷婷五月| 亚洲视频四区| 国产成人超碰无码| 成人福利在线看| 精品欧美一区二区三区久久久| 亚洲第一黄色网址| 国产精品嫩草影院av| 国产午夜一级毛片| 亚洲狼网站狼狼鲁亚洲下载| 国产精品区网红主播在线观看| 亚洲小视频网站| 亚洲AV色香蕉一区二区| 精品国产成人av免费| 日韩一区二区三免费高清| 午夜毛片福利| 91福利一区二区三区| 91在线视频福利| 亚洲制服丝袜第一页| 精品人妻无码区在线视频| 国产免费一级精品视频| 精品精品国产高清A毛片| 一本综合久久| 无遮挡国产高潮视频免费观看 | 久久青草精品一区二区三区| 亚洲资源站av无码网址| 久久成人国产精品免费软件| 999国内精品久久免费视频| 成人精品午夜福利在线播放| 99人妻碰碰碰久久久久禁片| 欧美在线三级| 欧美日韩在线成人| 精品久久香蕉国产线看观看gif| 日本三级黄在线观看| 国产特一级毛片| 欧洲一区二区三区无码| 午夜视频免费一区二区在线看| 国产精品.com| 无码一区18禁| 青青青伊人色综合久久| 国产精品久久久久久搜索|