基于深度強(qiáng)化學(xué)習(xí)的電力物聯(lián)網(wǎng)動(dòng)態(tài)切片策略研究

2024-09-19 00:00:00辛銳吳軍英薛冰張鵬飛李艷軍柴守亮王佳楠

無線電工程 2024年6期

摘要：軟件定義電力物聯(lián)網(wǎng)支持構(gòu)建承載不同業(yè)務(wù)的網(wǎng)絡(luò)切片（ＮｅｔｗｏｒｋＳｌｉｃｅ，ＮＳ），通過部署ＮＳ為具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備提供端到端服務(wù)。業(yè)務(wù)ＮＳ的部署涉及２個(gè)互相耦合的問題，即虛擬網(wǎng)絡(luò)功能（ＶｉｒｔｕａｌＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎ，ＶＮＦ）部署和業(yè)務(wù)傳輸路由確定。在海量業(yè)務(wù)需求與動(dòng)態(tài)網(wǎng)絡(luò)場景中，ＮＳ部署方案需要根據(jù)網(wǎng)絡(luò)狀態(tài)，實(shí)現(xiàn)智能的動(dòng)態(tài)靈活部署。針對上述問題，研究動(dòng)態(tài)網(wǎng)絡(luò)場景下的切片策略，基于深度強(qiáng)化學(xué)習(xí)算法求解ＶＮＦ部署和業(yè)務(wù)傳輸路由確定這一復(fù)雜聯(lián)合優(yōu)化問題，實(shí)驗(yàn)證明所提策略能根據(jù)目前的網(wǎng)絡(luò)狀態(tài)靈活地改變部署方案，控制業(yè)務(wù)路由平均能量損耗、平均可靠性和平均剩余帶寬占有率，提高了網(wǎng)絡(luò)整體傳輸性能。

關(guān)鍵詞：軟件定義電力物聯(lián)網(wǎng)；切片；虛擬網(wǎng)絡(luò)功能；路由；深度強(qiáng)化學(xué)習(xí)

中圖分類號：ＴＭ７３文獻(xiàn)標(biāo)志碼：Ａ開放科學(xué)（資源服務(wù)）標(biāo)識碼（ＯＳＩＤ）：

文章編號：１００３－３１０６（２０２４）０６－１３８０－０８

０引言

電力物聯(lián)網(wǎng)［１］是物聯(lián)網(wǎng)技術(shù)在智能電網(wǎng)中應(yīng)用的產(chǎn)物。近年來，電力物聯(lián)網(wǎng)規(guī)模不斷增大，承載的業(yè)務(wù)種類也日益繁多，導(dǎo)致業(yè)務(wù)數(shù)據(jù)量呈指數(shù)級增長。在這種情況下，為給眾多物聯(lián)網(wǎng)設(shè)備提供服務(wù)，供應(yīng)商需要頻繁更換硬件設(shè)備、分配帶寬資源等。然而事實(shí)上，更換硬件設(shè)備的成本高，而且軟硬件耦合［２］、網(wǎng)絡(luò)封閉化，使得服務(wù)成本高昂、服務(wù)效率低下，給電力物聯(lián)網(wǎng)的發(fā)展帶來了巨大挑戰(zhàn)。隨著軟件定義網(wǎng)絡(luò)（ＳｏｆｔｗａｒｅＤｅｆｉｎｅｄＮｅｔｗｏｒｋ，ＳＤＮ）和網(wǎng)絡(luò)功能虛擬化（ＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎＶｉｒｔｕａｌｉｚａｔｉｏｎ，ＮＦＶ）［３］的出現(xiàn)，網(wǎng)絡(luò)切片（ＮｅｔｗｏｒｋＳｌｉｃｅ，ＮＳ）［４］應(yīng)運(yùn)而生，研究者們提出了軟件定義電力物聯(lián)網(wǎng)［５］，為解決上述問題提供了新的思路。

新思路的關(guān)鍵是：依據(jù)不同電力業(yè)務(wù)需求的特點(diǎn)，將軟件定義電力物聯(lián)網(wǎng)抽象為多個(gè)獨(dú)立的虛擬化邏輯網(wǎng)絡(luò)，即業(yè)務(wù)ＮＳ，ＮＳ承載具有對應(yīng)業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備；利用ＮＦＶ實(shí)現(xiàn)軟硬件解耦，通過Ｄｏｃｋｅｒ容器在物聯(lián)網(wǎng)網(wǎng)關(guān)部署多個(gè)虛擬網(wǎng)絡(luò)功能（ＶｉｒｔｕａｌＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎ，ＶＮＦ）［６］，物聯(lián)網(wǎng)設(shè)備按需激活網(wǎng)關(guān)上的ＶＮＦ，并傳輸業(yè)務(wù)數(shù)據(jù)。借此，軟件定義電力物聯(lián)網(wǎng)可以通過軟件編程部署業(yè)務(wù)ＮＳ，實(shí)現(xiàn)為物聯(lián)網(wǎng)設(shè)備靈活提供端到端服務(wù)的目標(biāo)。然而，在ＮＳ部署過程中，面臨以下問題：一是網(wǎng)絡(luò)中存在多個(gè)網(wǎng)關(guān)，業(yè)務(wù)ＮＳ承載的物聯(lián)網(wǎng)設(shè)備難以選擇合適的網(wǎng)關(guān)進(jìn)行部署并激活所需的ＶＮＦ；二是物聯(lián)網(wǎng)設(shè)備在向網(wǎng)關(guān)傳輸業(yè)務(wù)數(shù)據(jù)時(shí)，使用的路由是基于最短路徑的固定路由，無法根據(jù)網(wǎng)絡(luò)狀態(tài)動(dòng)態(tài)改變。當(dāng)業(yè)務(wù)數(shù)據(jù)量增大時(shí)，可能會導(dǎo)致鏈路擁塞，降低路由質(zhì)量，從而影響服務(wù)的可靠性。

針對上述問題，學(xué)術(shù)界已經(jīng)開展了面向ＮＳ部署的相關(guān)研究。Ｇｕａｎ等［７］采用復(fù)雜網(wǎng)絡(luò)理論獲取網(wǎng)絡(luò)拓?fù)湫畔ⅲ⑼ㄟ^定義節(jié)點(diǎn)重要性對設(shè)備節(jié)點(diǎn)進(jìn)行排序。然后選擇重要性高的設(shè)備來部署ＶＮＦ，并使用ＫＳＰ算法計(jì)算多個(gè)ＶＮＦ之間的傳輸路由，以完成ＮＳ部署。然而，這項(xiàng)研究不屬于電力物聯(lián)網(wǎng)領(lǐng)域，并且使用基于最短路徑的傳輸路由，無法根據(jù)網(wǎng)絡(luò)狀態(tài)進(jìn)行動(dòng)態(tài)調(diào)整。另一方面，王雅倩等［８］研究了電力物聯(lián)網(wǎng)ＮＳ的ＶＮＦ部署問題，并提出了基于升價(jià)匹配的多階段多對一部署算法。該算法能夠獲得更小的業(yè)務(wù)服務(wù)總時(shí)延，并滿足時(shí)延敏感業(yè)務(wù)的需求。然而，這項(xiàng)工作并未考慮如何確定業(yè)務(wù)的傳輸路由，因此在實(shí)際應(yīng)用中，ＮＳ無法提供端到端的服務(wù)。此外，楊爽等［９］針對電力物聯(lián)網(wǎng)提出了一種基于模擬退火－粒子群算法的ＮＳ部署方案。通過優(yōu)化節(jié)點(diǎn)映射和鏈路映射，該方案能夠得到較好的傳輸路由。然而，在節(jié)點(diǎn)映射過程中，忽略了節(jié)點(diǎn)種類不同和ＶＮＦ部署位置等因素，與實(shí)際網(wǎng)絡(luò)特點(diǎn)不符。綜上所述，盡管已有關(guān)于電力物聯(lián)網(wǎng)ＮＳ部署的研究，但大多數(shù)工作只關(guān)注單個(gè)問題，如ＶＮＦ部署或傳輸路由確定，而忽略了這兩方面是相互耦合的，且現(xiàn)有的傳輸路由也缺乏智能性。

人工智能是當(dāng)前學(xué)術(shù)界研究的熱點(diǎn)問題之一，其中最具代表性的是深度學(xué)習(xí)［１０］、強(qiáng)化學(xué)習(xí)［１１］及深度強(qiáng)化學(xué)習(xí)［１２］。在物聯(lián)網(wǎng)領(lǐng)域，Ｚｈｏｕ等［１３］提出了一種基于Ｑｌｅａｒｎｉｎｇ的路由算法，通過計(jì)算設(shè)備節(jié)點(diǎn)的剩余能量和深度信息來選擇Ｑ值較大的路由，以減少數(shù)據(jù)傳輸時(shí)延。然而，由于實(shí)際網(wǎng)絡(luò)的復(fù)雜性，該算法的計(jì)算量較大，難以實(shí)現(xiàn)。在電力通信網(wǎng)絡(luò)領(lǐng)域，向敏等［１４］提出了基于深度學(xué)習(xí)的路由策略，通過建立鏈路帶寬占用率預(yù)測模型，計(jì)算不同路由的選擇度，實(shí)驗(yàn)證明選擇的路由能有效減少傳輸時(shí)延。葉萬余等［１５］建立了面向電力物聯(lián)網(wǎng)業(yè)務(wù)的管理模型，使用深度強(qiáng)化學(xué)習(xí)算法，將電力業(yè)務(wù)傳輸路由的時(shí)延和可靠性作為優(yōu)化目標(biāo)，為業(yè)務(wù)ＮＳ按需分配鏈路帶寬資源。然而，以上研究都集中在智能方法如何確定路由或分配資源上，而忽略了ＮＳ部署涉及的ＶＮＦ部署問題。因此，在軟件定義電力物聯(lián)網(wǎng)領(lǐng)域，還缺乏一種能夠系統(tǒng)地、智能地完成ＶＮＦ部署、傳輸路由確定和資源分配的工作。

本文研究了基于深度強(qiáng)化學(xué)習(xí)的電力物聯(lián)網(wǎng)動(dòng)態(tài)切片策略，實(shí)現(xiàn)在動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下靈活部署ＮＳ，為物聯(lián)網(wǎng)設(shè)備提供端到端服務(wù)。首先，簡要描述了軟件定義電力物聯(lián)網(wǎng)的架構(gòu)和切片部署過程，通過ＳＤＮ控制器管理網(wǎng)絡(luò)，提高業(yè)務(wù)服務(wù)的靈活性和高效性；然后，建立了動(dòng)態(tài)切片策略的數(shù)學(xué)模型，并以平均能量損耗、平均可靠性和平均剩余帶寬占有率為優(yōu)化目標(biāo)，提出深度強(qiáng)化學(xué)習(xí)動(dòng)態(tài)切片算法（ＤＲＬ-ＤＳＡ）求解切片策略，該策略能夠根據(jù)網(wǎng)絡(luò)狀態(tài)動(dòng)態(tài)調(diào)整ＮＳ部署方案，以滿足不同業(yè)務(wù)數(shù)據(jù)量的需求；最后，通過仿真實(shí)驗(yàn)，驗(yàn)證了所提策略在解決ＶＮＦ部署和業(yè)務(wù)傳輸路由確定這一聯(lián)合優(yōu)化問題的同時(shí)，保障了平均能量損耗、平均可靠性和平均剩余帶寬占有率等性能，實(shí)現(xiàn)了ＮＳ的動(dòng)態(tài)優(yōu)化部署。

１系統(tǒng)架構(gòu)及數(shù)學(xué)模型

１．１系統(tǒng)架構(gòu)

軟件定義電力物聯(lián)網(wǎng)的架構(gòu)如圖１所示，包括３層：物聯(lián)網(wǎng)設(shè)備層、網(wǎng)關(guān)層和控制器層。在物聯(lián)網(wǎng)設(shè)備層，多個(gè)物聯(lián)網(wǎng)設(shè)備互相連接構(gòu)成Ｍｅｓｈ網(wǎng)絡(luò)，這些設(shè)備是支持ＳＤＮ功能，并能夠采集壓力、溫度和聲音等信息的無線傳感器。網(wǎng)關(guān)層包含一些支持ＳＤＮ功能的物聯(lián)網(wǎng)網(wǎng)關(guān)，支持使用輕量級虛擬化技術(shù)如Ｄｏｃｋｅｒ來部署ＶＮＦ。物聯(lián)網(wǎng)設(shè)備采集的數(shù)據(jù)需要傳輸?shù)骄W(wǎng)關(guān)進(jìn)行邊緣計(jì)算。控制器層由ＳＤＮ控制器組成，例如Ｒｙｕ、ＮＯＸ、ＯｐｅｎＤａｙＬｉｇｈｔ等，控制器負(fù)責(zé)觀測網(wǎng)絡(luò)的實(shí)際狀態(tài)，確定網(wǎng)關(guān)和傳輸路由，并為相關(guān)物聯(lián)網(wǎng)設(shè)備和網(wǎng)關(guān)安裝流表，通過管理網(wǎng)絡(luò)并控制業(yè)務(wù)數(shù)據(jù)的轉(zhuǎn)發(fā)，提高業(yè)務(wù)服務(wù)的靈活性和高效性。此外，從圖中可以看出，軟件定義電力物聯(lián)網(wǎng)中可以存在多個(gè)業(yè)務(wù)ＮＳ。每個(gè)業(yè)務(wù)ＮＳ承載著具有各自業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備，包含若干個(gè)業(yè)務(wù)流，通過部署業(yè)務(wù)ＮＳ，能夠有效地提供業(yè)務(wù)服務(wù)，提高電力物聯(lián)網(wǎng)的并發(fā)性。當(dāng)部署業(yè)務(wù)ＮＳ時(shí)，需要從網(wǎng)關(guān)層中為物聯(lián)網(wǎng)設(shè)備選擇合適的網(wǎng)關(guān)來激活所需的ＶＮＦ，并確定傳輸路由以傳輸業(yè)務(wù)數(shù)據(jù)。通過這種方式，軟件定義電力物聯(lián)網(wǎng)實(shí)現(xiàn)了為具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備提供端到端服務(wù)的目標(biāo)。

所提動(dòng)態(tài)切片策略能根據(jù)網(wǎng)絡(luò)狀態(tài)調(diào)整ＮＳ部署方案，支持同時(shí)確定ＶＮＦ部署和傳輸路由；在數(shù)學(xué)模型中，給出了計(jì)算ＮＳ所需鏈路帶寬資源的方法。通過優(yōu)化動(dòng)態(tài)ＮＳ部署方案，能提高網(wǎng)絡(luò)性能，為物聯(lián)網(wǎng)設(shè)備提高服務(wù)質(zhì)量。

１．２數(shù)學(xué)模型

軟件定義電力物聯(lián)網(wǎng)的節(jié)點(diǎn)集合Ｎ由物聯(lián)網(wǎng)設(shè)備集合Ｄ、網(wǎng)關(guān)集合Ｉ、控制器集合Ｂ組成，即Ｎ＝Ｄ∪Ｉ∪Ｂ；鏈路集合Ｅ由物聯(lián)網(wǎng)設(shè)備之間的鏈路集合ＥＤ、物聯(lián)網(wǎng)設(shè)備與網(wǎng)關(guān)之間的鏈路集合ＥＩ、網(wǎng)關(guān)與控制器之間的鏈路集合ＥＢ組成，即Ｅ＝ＥＤ ∪ＥＩ∪ＥＢ。

假設(shè)業(yè)務(wù)ＮＳ內(nèi)，具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備集合為Ｕ，顯然Ｕ-Ｄ，物聯(lián)網(wǎng)設(shè)備節(jié)點(diǎn)ｎｄ ∈Ｕ；可被選擇部署ＶＮＦ的候選網(wǎng)關(guān)集合為Ｇ，顯然Ｇ-Ｉ，網(wǎng)關(guān)節(jié)點(diǎn)ｎｉ∈Ｇ；物聯(lián)網(wǎng)設(shè)備ｎｄ到網(wǎng)關(guān)ｎｉ的候選路由集合為Ｐｄｉ，第ｋ條路徑ｐｄｉｋ ∈Ｐｄｉ。在不失一般性的情況下，不指定節(jié)點(diǎn)類型而使用節(jié)點(diǎn)時(shí)，用符號ｎｕ或ｎｖ表示，符號ｅｕｖ表示ｎｕ與ｎｖ之間的鏈路，符號Ｃｕｖ表示鏈路ｅｕｖ的剩余帶寬大小。

本文數(shù)學(xué)模型將選擇合適網(wǎng)關(guān)部署ＶＮＦ和確定物聯(lián)網(wǎng)設(shè)備到網(wǎng)關(guān)的傳輸路由這２個(gè)問題互相耦合。

在部署ＮＳ時(shí)，若網(wǎng)關(guān)ｎｉ被某具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備ｎｄ選擇以部署ＶＮＦ，則變量ｘｉ＝１，否則ｘｉ＝０。當(dāng)ｘｉ＝１時(shí)，若路由ｐｄｉｋ ∈Ｐｄｉ被選擇，則變量ｙｄｉｋ＝１，否則ｙｄｉｋ＝０；當(dāng)ｘｉ＝０時(shí)，變量ｙｄｉｋ＝０。滿足：

ＮＳ所服務(wù)的業(yè)務(wù)的帶寬需求為ｚ，任意鏈路ｅｕｖ所需帶寬資源為ｂｕｖ：

ｂｕｖ＝ αｕｖｚ，（８）

ｂｕｖ ≤ Ｃｕｖ。（９）

傳輸路由的能量損耗、可靠性和剩余帶寬占有率是大多數(shù)網(wǎng)絡(luò)研究中的主要問題。在軟件定義電力物聯(lián)網(wǎng)業(yè)務(wù)ＮＳ部署中，保障這３個(gè)方面的性能，對提升端到端服務(wù)質(zhì)量具有重大意義。故本文聯(lián)合上述３個(gè)性能構(gòu)建優(yōu)化目標(biāo)。

能量損耗的計(jì)算采用經(jīng)典的二維功耗模型［１６］。規(guī)定任意鏈路ｅｕｖ的實(shí)際距離為ｌｕｖｍ，任意設(shè)備接收ｔｂｉｔ數(shù)據(jù)將消耗式（１０）所示能量，發(fā)送和傳輸ｔｂｉｔ數(shù)據(jù)將消耗式（１１）所示能量：

聯(lián)合優(yōu)化目標(biāo)方程如式（１７）所示，令該優(yōu)化目標(biāo)的值越大性能越好。

ｍａｘy ｅ－Ｅａｖｅ＋ｒｅｌ＋ｗr 。（１７）

２動(dòng)態(tài)切片策略

２．１馬爾科夫決策過程

馬爾科夫決策過程是對完全可觀測環(huán)境進(jìn)行的描述。在使用深度強(qiáng)化學(xué)習(xí)求解前，要把待求解問題建模為馬爾科夫決策過程。馬爾科夫決策過程包含獎(jiǎng)勵(lì)、決策，可用四元組（Ｓ，ａ，ｒ，Ｓ′）表示，具體如下：

① Ｓ表示所有狀態(tài)的集合。

② ａ表示選擇的動(dòng)作，從動(dòng)作空間選擇表示。

③ ｒ（Ｓ，ａ，Ｓ′）表示在狀態(tài)Ｓ下執(zhí)行動(dòng)作ａ，狀態(tài)轉(zhuǎn)移至新狀態(tài)Ｓ′時(shí)獲得的獎(jiǎng)勵(lì)。

④ Ｓ′表示執(zhí)行動(dòng)作之后，新狀態(tài)的集合。

智能體通過觀察當(dāng)前環(huán)境狀態(tài)來選擇動(dòng)作，并將所選動(dòng)作應(yīng)用于環(huán)境中，接著環(huán)境會給予智能體反饋，包括執(zhí)行動(dòng)作所獲得的獎(jiǎng)勵(lì)和新的狀態(tài)。根據(jù)環(huán)境反饋的獎(jiǎng)勵(lì)和新狀態(tài)，智能體做出新的動(dòng)作決策。通過不斷重復(fù)上述過程，智能體進(jìn)行訓(xùn)練直到收斂，以達(dá)到理想的結(jié)果。在這個(gè)過程中，獎(jiǎng)勵(lì)的反饋過程體現(xiàn)了馬爾科夫決策過程的特點(diǎn)。

２．２雙深度Ｑ網(wǎng)絡(luò)算法

常見的深度強(qiáng)化學(xué)習(xí)方法有兩大類［１７］：基于值函數(shù)的學(xué)習(xí)方法和基于策略的學(xué)習(xí)方法。其中，深度Ｑ網(wǎng)絡(luò)（ＤｅｅｐＱ-ｎｅｔｗｏｒｋ，ＤＱＮ）［１８］算法和雙深度Ｑ網(wǎng)絡(luò)（ＤｏｕｂｌｅＤｅｅｐＱ-ｎｅｔｗｏｒｋ，ＤＤＱＮ）［１９］算法是經(jīng)典的基于值函數(shù)的學(xué)習(xí)方法，適用于具有離散動(dòng)作空間的任務(wù)，符合本場景需求。

傳統(tǒng)ＤＱＮ算法會高估某些動(dòng)作的Ｑ值，導(dǎo)致智能體選擇的動(dòng)作不穩(wěn)定，于是，研究者提出ＤＤＱＮ算法對其優(yōu)化。ＤＤＱＮ算法與ＤＱＮ算法的網(wǎng)絡(luò)構(gòu)造一致，均由一個(gè)訓(xùn)練網(wǎng)絡(luò)和一個(gè)目標(biāo)網(wǎng)絡(luò)組成。ＤＤＱＮ算法在選擇下一個(gè)動(dòng)作時(shí)使用訓(xùn)練網(wǎng)絡(luò)來估計(jì)Ｑ值，但在評估下一個(gè)狀態(tài)的最佳動(dòng)作時(shí)使用目標(biāo)網(wǎng)絡(luò)來估計(jì)Ｑ值。計(jì)算如下：

Ｑｔ（Ｓ，ａ）＝ｒ＋ γＱｔ（Ｓ′，ａｒｇｍａｘａ′（Ｑ（Ｓ′，ａ′）））。（１８）

目標(biāo)網(wǎng)絡(luò)是一個(gè)與訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)相同但參數(shù)不同的網(wǎng)絡(luò)，用于計(jì)算目標(biāo)Ｑ值。訓(xùn)練網(wǎng)絡(luò)的參數(shù)實(shí)時(shí)更新，目標(biāo)網(wǎng)絡(luò)的參數(shù)每經(jīng)過固定步數(shù)后更新。參數(shù)更新的依據(jù)是，目標(biāo)網(wǎng)絡(luò)和訓(xùn)練網(wǎng)絡(luò)之間的Ｑ值平方差反向傳播，計(jì)算如下：

Ｌｏｓｓ＝（Ｑｔ（Ｓ，ａ）－Ｑ（Ｓ，ａ））２。（１９）

逐步優(yōu)化２個(gè)網(wǎng)絡(luò)的參數(shù)，直至訓(xùn)練出穩(wěn)定的動(dòng)作價(jià)值函數(shù)，能輸出最優(yōu)計(jì)算方案。

另一方面，ＤＤＱＮ算法需要大量的數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù)。故要先構(gòu)造經(jīng)驗(yàn)回放池，將智能體隨機(jī)探索的數(shù)據(jù)以四元組的形式存放其中，當(dāng)存放數(shù)量達(dá)一定值后，智能體才能從池中隨機(jī)抽取樣本輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。從經(jīng)驗(yàn)回放池中隨機(jī)抽取樣本的操作，可以減小所抽樣本之間的相關(guān)性。

２．３深度強(qiáng)化學(xué)習(xí)動(dòng)態(tài)切片算法

為求解動(dòng)態(tài)切片策略中的ＶＮＦ部署和傳輸路由確定這一聯(lián)合優(yōu)化問題，在ＤＤＱＮ算法的基礎(chǔ)上，結(jié)合軟件定義電力物聯(lián)網(wǎng)場景，提出ＤＲＬ-ＤＳＡ。算法的整體框架如圖２所示。

狀態(tài)空間Ｓ表示軟件定義電力物聯(lián)網(wǎng)的當(dāng)前狀態(tài)。狀態(tài)通過網(wǎng)絡(luò)鏈路描述，包括鏈路的節(jié)點(diǎn)信息、剩余帶寬資源等，計(jì)算如下：

式中：ｎｊ１和ｎｊ２分別表示第ｊ條鏈路兩端點(diǎn)，ｃｊ表示第ｊ條鏈路的剩余帶寬資源，｜Ｅ｜表示軟件定義電力物聯(lián)網(wǎng)中所有鏈路總數(shù)。

動(dòng)作空間ａ表示切片部署方案，包含網(wǎng)關(guān)選擇部署ＶＮＦ結(jié)果和傳輸路由結(jié)果。本文欲縮減動(dòng)作空間來降低計(jì)算復(fù)雜度，遂使用ｋ-ｓｈｏｒｔｅｓｔｐａｔｈｓ算法，為物聯(lián)網(wǎng)設(shè)備逐一選擇Ｍ條到某個(gè)網(wǎng)關(guān)的傳輸路由，并構(gòu)造候選路由集合，計(jì)算如下：

式中：｜Ｕ｜表示ＮＳ內(nèi)具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備總數(shù)，｜Ｇ｜表示可能被選擇部署ＶＮＦ的網(wǎng)關(guān)總數(shù)，ｄ和ｉ分別表示設(shè)備序號和網(wǎng)關(guān)序號，ｐｄｉｋ表示候選路由集合中第ｋ條路徑。

獎(jiǎng)勵(lì)函數(shù)ｒ由聯(lián)合優(yōu)化目標(biāo)確定，如式（２２）所示。隨著業(yè)務(wù)數(shù)據(jù)量增大，若當(dāng)前所選的傳輸路由帶寬充足，將會獲得該獎(jiǎng)勵(lì)，并繼續(xù)訓(xùn)練；否則停止訓(xùn)練。

ｒ＝ｅ－Ｅａｖｅ＋ｒｅｌ＋ｗ。（２２）

智能體為了處理盡可能多的多業(yè)務(wù)數(shù)據(jù)，使每輪迭代的累計(jì)獎(jiǎng)勵(lì)值最大化，將靈活地選擇其他剩余帶寬充足的傳輸路由，這樣同時(shí)保障了平均能量損耗、平均可靠性和平均剩余帶寬占有率。ＤＲＬ-ＤＳＡ實(shí)現(xiàn)流程如算法１所示。

３仿真分析

３．１仿真環(huán)境及參數(shù)設(shè)計(jì)

仿真環(huán)境使用Ｇｙｍ框架編寫，仿真計(jì)算平臺為英特爾酷睿ｉ７-１０７００ＣＰＵ，內(nèi)存為１６ＧＢ，ＧＰＵ為ＮＶＩＤＩＡＧｅＦｏｒｃｅＧＴＸ１６６０ＳＵＰＥＲ，操作系統(tǒng)為Ｗｉｎｄｏｗｓ１０。

實(shí)驗(yàn)?zāi)M構(gòu)建一個(gè)包含３０個(gè)物聯(lián)網(wǎng)設(shè)備，５個(gè)物聯(lián)網(wǎng)網(wǎng)關(guān)的軟件定義電力物聯(lián)網(wǎng)拓?fù)洹Ｆ渲袠I(yè)務(wù)ＮＳ承載５個(gè)具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備，候選３個(gè)可被部署ＶＮＦ的物聯(lián)網(wǎng)網(wǎng)關(guān)。網(wǎng)絡(luò)拓?fù)浞植荚冢常埃?ｍ×３００ｍ范圍內(nèi)，鏈路帶寬為１０００～２５００Ｂ／ｓ，各鏈路的故障率大小為０．０２～０．０９。

本實(shí)驗(yàn)對比基于最短傳輸路由的ＳＰ切片算法和基于ＤＱＮ的Ｂａｓｅｌｉｎｅ切片算法，通過設(shè)置不同業(yè)務(wù)數(shù)據(jù)量進(jìn)行實(shí)驗(yàn)，分析各個(gè)策略在平均能量損耗、平均可靠性、平均剩余帶寬占有率三方面的性能表現(xiàn)，證明了本文求解出的動(dòng)態(tài)切片策略具有有效性和優(yōu)越性。其中，業(yè)務(wù)數(shù)據(jù)量大小在５１２～１０２４Ｂ／ｓ。

設(shè)定模型訓(xùn)練所需的其他參數(shù)值如表１所示。

３．２仿真結(jié)果分析

所提ＤＲＬ-ＤＳＡ切片算法和基于ＤＱＮ的Ｂａｓｅｌｉｎｅ切片算法同屬于深度強(qiáng)化學(xué)習(xí)算法，故模型需要若干次重復(fù)訓(xùn)練，直至收斂，才能得到最優(yōu)的動(dòng)態(tài)切片策略，模型累積的獎(jiǎng)勵(lì)值將在一個(gè)小范圍內(nèi)波動(dòng)，基本保持穩(wěn)定。圖３展示了二者的獎(jiǎng)勵(lì)值變化，當(dāng)均達(dá)到收斂狀態(tài)時(shí)，ＤＲＬ-ＤＳＡ獲得的累積獎(jiǎng)勵(lì)值優(yōu)于Ｂａｓｅｌｉｎｅ算法的累積獎(jiǎng)勵(lì)值。根據(jù)式（２２），證明ＤＲＬ-ＤＳＡ算法在上述三方面的性能表現(xiàn)更好。

展開分析各算法在平均能量損耗、平均可靠性和平均剩余帶寬占有率三方面的表現(xiàn)。

在平均能量損耗方面，各算法求得的切片策略性能如圖４所示。由式（１３）可知，平均能量損耗僅和物聯(lián)網(wǎng)設(shè)備到所選網(wǎng)關(guān)之間的實(shí)際距離相關(guān)。隨著業(yè)務(wù)數(shù)據(jù)量增大，平均能量損耗必然增加。其中，由于ＳＰ算法的切片策略是基于最短傳輸路由的策略，故其平均能量損耗必然是最小的。Ｂａｓｅｌｉｎｅ算法和ＤＲＬ-ＤＳＡ所求的是隨著網(wǎng)絡(luò)狀態(tài)變換的動(dòng)態(tài)切片策略，為保障網(wǎng)絡(luò)整體的性能，某些狀態(tài)下所選的傳輸路由不是最短的，故其平均能量損耗略高，是正常表現(xiàn)。相比較Ｂａｓｅｌｉｎｅ算法而言，ＤＲＬ-ＤＳＡ接近ＳＰ算法，平均能量損耗更小，性能更好。

在平均可靠性方面，各算法求得的切片策略性能如圖５所示。根據(jù)式（１５），平均可靠性與物聯(lián)網(wǎng)設(shè)備選取的傳輸路由中各鏈路可靠性的乘積相關(guān)。顯然，ＳＰ算法的切片策略不能根據(jù)網(wǎng)絡(luò)狀態(tài)改變，其平均可靠性保持不變，且僅依據(jù)傳輸路由的最短距離做決策，未考慮保障可靠性，因此表現(xiàn)最差。在某些業(yè)務(wù)數(shù)據(jù)量下，Ｂａｓｅｌｉｎｅ算法和ＤＲＬ-ＤＳＡ的策略一致，但后者在平均可靠性方面表現(xiàn)的上限更高，性能更好。

在平均剩余帶寬占有率方面，各算法求得的切片策略性能如圖６所示。可以看出，因?yàn)椋樱?算法的切片策略一直選擇的是同一條傳輸路由，故隨著業(yè)務(wù)數(shù)據(jù)量增大，其平均剩余帶寬占有率呈線性下降。相反，ＤＲＬ-ＤＳＡ和Ｂａｓｅｌｉｎｅ算法改變了切片策略，選擇其他剩余帶寬容量大的傳輸路由，顯著限制了平均剩余帶寬占有率下降的速度，且隨著業(yè)務(wù)數(shù)據(jù)量增大，二者算法的優(yōu)勢愈發(fā)明顯。但由于ＤＲＬ-ＤＳＡ的動(dòng)作更加穩(wěn)定，所以探索的切片策略的平均剩余帶寬占有率要高于Ｂａｓｅｌｉｎｅ算法探索的切片策略。

４結(jié)束語

軟件定義電力物聯(lián)網(wǎng)通過部署業(yè)務(wù)ＮＳ滿足海量物聯(lián)網(wǎng)設(shè)備的電力業(yè)務(wù)需求，但傳統(tǒng)的切片策略是基于最短傳輸路由的策略。當(dāng)業(yè)務(wù)數(shù)據(jù)量激增時(shí)，傳統(tǒng)的切片策略由于不能根據(jù)當(dāng)前網(wǎng)絡(luò)狀態(tài)靈活改變，將出現(xiàn)可靠性低下、鏈路擁塞等問題。針對上述問題，本文提出了基于深度強(qiáng)化學(xué)習(xí)的電力物聯(lián)網(wǎng)動(dòng)態(tài)切片策略，并引入了ＤＲＬＤＳＡ來求解該策略。所提策略能夠同時(shí)確定ＶＮＦ的部署和傳輸路由，并保證傳輸路由在平均能量損耗、平均可靠性和平均剩余帶寬占有率三方面的性能，實(shí)驗(yàn)證明了該策略的有效性。本策略通過加入智能體實(shí)現(xiàn)切片的動(dòng)態(tài)部署，為軟件定義電力物聯(lián)網(wǎng)的后續(xù)研究奠定了基礎(chǔ)。

參考文獻(xiàn)

［１］何奉祿，陳佳琦，李欽豪，等．智能電網(wǎng)中的物聯(lián)網(wǎng)技術(shù)應(yīng)用與發(fā)展［Ｊ］．電力系統(tǒng)保護(hù)與控制，２０２０，４８（３）：５８－６９．

［２］賀金紅，張港紅，高建．５Ｇ切片技術(shù)在電力物聯(lián)網(wǎng)應(yīng)用的智能化管理［Ｊ］．電力信息與通信技術(shù)，２０２０，１８（５）：１９－２５．

［３］趙慧玲，史凡．ＳＤＮ／ＮＦＶ的發(fā)展與挑戰(zhàn)［Ｊ］．電信科學(xué)，２０１４，３０（８）：１３－１８．

［４］臧玉華，鄭煥坤，尹世豪．面向新型電力系統(tǒng)的５Ｇ網(wǎng)絡(luò)切片資源分配策略［Ｊ］．河北電力技術(shù)，２０２３，４２（１）：２６－３１．

［５］ＲＡＦＩＱＵＥＷ，ＱＩＬＹ，ＹＡＱＯＯＢＩ，ｅｔａｌ．ＣｏｍｐｌｅｍｅｎｔｉｎｇＩｏＴＳｅｒｖｉｃｅｓＴｈｒｏｕｇｈＳｏｆｔｗａｒｅＤｅｆｉｎｅｄＮｅｔｗｏｒｋｉｎｇａｎｄＥｄｇｅＣｏｍｐｕｔｉｎｇ：ＡＣｏｍｐｒｅｈｅｎｓｉｖｅＳｕｒｖｅｙ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，２０２０，２２（３）：１７６１－１８０４．

［６］李航，溫向明，孔紫璇，等．面向多樣化需求的網(wǎng)絡(luò)切片業(yè)務(wù)鏈部署［Ｊ］．北京郵電大學(xué)學(xué)報(bào)，２０２２，４５（２）：９－１５．

［７］ＧＵＡＮＷＱ，ＷＥＮＸＭ，ＷＡＮＧＬＨ，ｅｔａｌ．ＡＳｅｒｖｉｃｅｏｒｉｅｎｔｅｄＤｅｐｌｏｙｍｅｎｔＰｏｌｉｃｙｏｆＥｎｄｔｏＥｎｄＮｅｔｗｏｒｋＳｌｉｃｉｎｇＢａｓｅｄｏｎＣｏｍｐｌｅｘＮｅｔｗｏｒｋＴｈｅｏｒｙ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０１８，６：１９６９１－１９７０１．

［８］王雅倩，陳心怡，曲睿，等．基于ＳＤＮ／ＮＦＶ的電力物聯(lián)網(wǎng)時(shí)延敏感業(yè)務(wù)編排方法［Ｊ］．華北電力大學(xué)學(xué)報(bào)（自然科學(xué)版），２０２３，５０（１）：８４－９１．

［９］楊爽，龔亮亮，胡陽，等．一種網(wǎng)絡(luò)切片編排算法在電力物聯(lián)網(wǎng)中的應(yīng)用［Ｊ］．電力信息與通信技術(shù)，２０２０，１８（１２）：２９－３５．

［１０］張菊，郭永峰．深度學(xué)習(xí)研究綜述［Ｊ］．教學(xué)研究，２０２１，４４（３）：６－１１．

［１１］劉全，翟建偉，章宗長，等．深度強(qiáng)化學(xué)習(xí)綜述［Ｊ］．計(jì)算機(jī)學(xué)報(bào)，２０１８，４１（１）：１－２７．

［１２］ＺＨＡＮＧＺＤ，ＺＨＡＮＧＤＸ，ＱＩＵＲＣ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｆｏｒＰｏｗｅｒＳｙｓｔｅｍＡｐｐｌｉｃａｔｉｏｎｓ：ＡｎＯｖｅｒｖｉｅｗ［Ｊ］．ＣＳＥＥＪｏｕｒｎａｌｏｆＰｏｗｅｒａｎｄＥｎｅｒｇｙＳｙｓｔｅｍｓ，２０２０，６（１）：２１３－２２５．

［１３］ＺＨＯＵＹ，ＣＡＯＴ，ＸＩＡＮＧＷ．ＡｎｙｐａｔｈＲｏｕｔｉｎｇＰｒｏｔｏｃｏｌＤｅｓｉｇｎｖｉａＱＬｅａｒｎｉｎｇｆｏｒＵｎｄｅｒｗａｔｅｒＳｅｎｓｏｒＮｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇＪｏｕｒｎａｌ，２０２１，８（１０）：８１７３－８１９０．

［１４］向敏，饒華陽，張進(jìn)進(jìn)，等．基于圖卷積神經(jīng)網(wǎng)絡(luò)的軟件定義電力通信網(wǎng)絡(luò)路由控制策略［Ｊ］．電子與信息學(xué)報(bào)，２０２１，４３（２）：３８８－３９５．

［１５］葉萬余．面向電力物聯(lián)網(wǎng)ＵＲＬＬＣ業(yè)務(wù)的智能網(wǎng)絡(luò)切片管理方法［Ｊ］．工業(yè)工程，２０２２，２５（１）：１２９－１３５．

［１６］李鑫，劉楊，劉立業(yè)．ＷＳＮｓ中一種基于強(qiáng)化學(xué)習(xí)的跟蹤調(diào)度算法［Ｊ］．無線電工程，２０２３，５３（５）：１２２１－１２２７．

［１７］ＬＵＯＮＧＮＣ，ＨＯＡＮＧＤＴ，ＧＯＮＧＳＭ，ｅｔａｌ．ＡｐｐｌｉｃａｔｉｏｎｓｏｆＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｉｎＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇ：ＡＳｕｒｖｅｙ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，２０１９，２１（４）：３１３３－３１７４．

［１８］ＭＮＩＨＶ，ＫＡＶＵＫＣＵＯＧＬＵＫ，ＳＩＬＶＥＲＤ，ｅｔａｌ．ＨｕｍａｎｌｅｖｅｌＣｏｎｔｒｏｌＴｈｒｏｕｇｈＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１５，５１８（７５４０）：５２９－５３３．

［１９］ＶＡＮＨＡＳＳＥＬＴＨ，ＧＵＥＺＡ，ＳＩＬＶＥＲＤ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｗｉｔｈＤｏｕｂｌｅＱＬｅａｒｎｉｎｇ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｐｈｏｅｎｉｘ：ＡＡＡＩＰｒｅｓｓ，２０１６：２０９４－２１００．

作者簡介

辛銳男，（１９８３—），碩士，高級工程師。主要研究方向：大數(shù)據(jù)、人工智能及網(wǎng)絡(luò)安全。

（*通信作者）吳軍英男，（１９８２—），碩士，高級工程師。主要研究方向：人工智能、物聯(lián)網(wǎng)、邊緣計(jì)算。

薛冰女，（１９９９—），碩士研究生。主要研究方向：物聯(lián)網(wǎng)、人工智能。

張鵬飛男，（１９８５—），碩士，高級工程師。主要研究方向：物聯(lián)網(wǎng)、自然語言處理。

李艷軍男，（１９７７—），碩士，正高級會計(jì)師。主要研究方向：財(cái)務(wù)、技經(jīng)及大數(shù)據(jù)。

柴守亮男，（１９８１—），碩士，正高級工程師。主要研究方向：信息通信和網(wǎng)絡(luò)安全。

王佳楠男，（１９７４—），碩士，工程師。主要研究方向：物聯(lián)網(wǎng)、大數(shù)據(jù)及人工智能。

基金項(xiàng)目：河北省省級科技計(jì)劃資助（２２３１０３０２Ｄ）

無線電工程2024年6期

無線電工程的其它文章: 變電站多尺度異常入侵目標(biāo)輕量化檢測方法; 基于虛擬成像原理的組合相機(jī)視場拼接與波段配準(zhǔn)方法; 口岸城市末端無人機(jī)精準(zhǔn)配送與投遞模型; 無人機(jī)輸電線路巡檢照片號牌文字識別方法; 高通量衛(wèi)星隨機(jī)接入控制技術(shù)研究; IoT-MEC網(wǎng)絡(luò)中服務(wù)功能鏈主動(dòng)重構(gòu)方法