邵瑞宇 ,黎智雄,任瑾璇
(廣東工業大學 自動化學院,廣州 510006)
工業物聯網(Industrial Internet of Things,IIoT),又稱為工業4.0或工業互聯網,可以應用于互聯網一些工業領域,比如能源、交通和制造業。隨著工業數據的快速增長,工業數據倉庫正在進入大數據時代,大數據傳輸需要更大的帶寬[1]。然而有限的連接始終限制了信息網絡的發展,并且由于設備的傳感器數量過多,導致彼此之間的通信過于頻繁,一種兼顧霧計算和網絡功能虛擬化的物聯網邏輯架構應運而生[2-3]。為了突破這些限制,霧計算被集成到IIoT中,這將有可能解決資源受限的工業設備和計算密集型應用之間的矛盾[4-5]。
現有的頻譜分配問題研究中,很多智能體無法獲得系統整個完整信息,都是基于部分可觀察馬爾科夫決策過程理論,導致智能體在計算最優策略時變得非常棘手[6]。在文獻[7-8]及其參考文獻中,都是在一個多武裝強盜(Multi-armed Bandit Problem)條件環境上利用其算法尋求一個短期策略,這種策略只是取決于收集過去的一小段時間所獲得的獎勵,而缺陷是當預測點與依賴的相關信息距離比較遠的時候,就難以學到相關信息。
近年來,深度強化學習中的Deep Q-Learning (DQN)的收斂性能得到了大家的認可。這種算法是在文獻[9]中被提出的,它結合了強化學習和深度神經網絡,利用多層的神經元構建更加抽象的數據表達,使得人工神經網絡可以直接從輸入數據中獲得物體信息。在Atari2600平臺上進行的測試表明,在沒有借助其他方法獲得先驗知識的情況下,49個游戲中43個游戲都可以達到人類分數的75%。
面臨著5G時代的到來,工業物聯網將會成為未來的趨勢,而其中頻譜資源的管理和分配成為關鍵問題。動態頻譜的接入(Dynamic Spectrum Access,DSA)分為底層訪問和覆蓋訪問。底層訪問模式[10]利用算法來讓次用戶通過調整傳輸功率,在不影響主用戶服務質量(Quality of Service,QoS)的情況下接入信道,把次用戶對主用戶的干擾降到最低,從而提高頻譜的利用率。而覆蓋訪問[11]相比底層訪問而言需要算法考慮何時進行主、次用戶的接入,怎樣才能實現兩者信道分配的平衡,以至于所獲得的收益最大,策略最優。
本文主要研究信道的爭用問題,提出了一種多跳的聚類模式、“合作計算”的模式以及動態頻譜接入相結合的策略。首先,設計了一種多跳的聚類模式,在保證信息傳達效率的同時減少了頻譜通信的數量。其次,設計了一種深度強化學習動態頻譜的訪問算法,通過過去的策略、獎勵來訓練神經網絡,從而讓用戶學會如何更好地獲得獎勵,即減少信道的爭搶。最后,針對某些用戶沒有足夠的計算能力來實現分配算法,根據多跳聚類分組模式,可以借助同組的次用戶的計算能力進行一個“合作計算”。
假設在一個大型的工業物聯網中,某些設備(以下簡稱為用戶)需要和其他用戶進行通信。可以把此過程分為三個子問題:一是從源節點(需要發送信息的用戶)如何能夠經過更少的中繼節點(中間轉發的用戶)轉發信息到目標節點(接受信息的用戶),從而選出一條最優路徑;二是有限的頻譜資源可能會導致信道缺少,用戶之間彼此爭搶信道,因此設計了一種最優的深度強化學習策略來減少用戶對于信道的碰撞以及提高通信概率;三是由于某些用戶沒有足夠的計算能力去達到算法的計算要求,則這些用戶可以借助同一個分組的次用戶的能力,從而達到一種合作計算的效果。
針對以上問題,我們提出了一種新的基于深度強化學習的頻譜分配算法——合作式動態分組的頻譜分配算法(Dynamic Grouping Based on Cooperation for Spectrum Access,DGC)。該算法首先使用深度強化學習的方法為物聯網中所有需要發送信息的用戶進行一個相似性分組,確保分組模式是中斷概率最低的模式;然后選擇發送信息的最優策略,使得信道的利用率提升;最后,針對某些用戶本身計算能力的不足,可以讓同組空閑用戶幫忙計算策略,之后把計算后的策略發送回來,從而達到合作計算的目的。算法流程如圖1所示。

圖1 DGC算法流程圖
現有的關于中繼和頻譜資源的分配算法大多數都是針對單個用戶或者單跳而言的,而本文多跳算法是基于多個用戶之間快速穩定的多次跳躍,在中斷概率最小的分組模式下完成通信。整體的分組協議可以分成兩部分:首先根據相似性公式把整體用戶按照1個主用戶、3個次用戶一組的模式進行分組,然后,若源節點和目標節點處于同組內,則能直接通信,通信直接完成;若不在同組內,需要通信時,則源節點先把信息轉發給同組的中心節點,由中心節點跨組連接,最終完成通信。
協議的假設和原則如下:
(1)物聯網設備能夠通過本身的感應設備感應到周圍所存在的設備信息,并且確定源節點和目標節點的方向;
(2)當源節點需要向其他組節點發送信息時,可以通過同一組的中心節點作為中繼節點,通過中繼節點轉發信息;
(3)兩個分組之間避免廣播風暴,只能通過中心節點進行連接通信。
假設三維空間當中擁有10個節點,如果相互彼此之間都能進行通信,那么將會導致信道嚴重不足。可以將10個節點彼此之間制定一個新的連接協議,而不在協議內的節點無法通信。與此同時,需要保證有些節點彼此之間雖不能直接進行通信,但是通過多跳的方式能夠從源節點經過中繼節點,最終能到達目標節點。所以如何能夠更快并且更穩定地選擇中心節點是面臨的挑戰。
圖2表示的是一個500 m×900 m×900 m的三維空間,總共有10個節點,其中標有紅色字體的2、3、4、5、9等5個點是5個組之間的中心節點,5個組分別為{5:[4,9,6],4:[2,5,0],2:[3,7,8],3:[1,7,0],9:[4,0,1]},其中5代表的是中心節點,5、4、9、6屬于同一分組,當5、4、9、6等4個節點需要相互通信時,可以直接通信。但是,當4、9、6節點需要和其他組節點通信連接時,都必須通過中心節點5進行信息轉發。

圖2 三維立體系統模型
根據工業物聯網的空間分布模型,除了將三維空間的位置點坐標考慮進去,還要考慮機器的上空包含無人機這種可移動的分配用戶,所以加入了用戶可能移動的方向(前、后、左、右),結合歐幾里德(Euclidean)度量公式有
(1)
式中:(x,y,z)分別代表節點k和節點i的三維坐標,Vk、Vi分別表示k節點和i節點的速度,tk、ti分別表示k節點和i節點的運動方向,K1、K2、K3分別表示系統針對節點的速度、運動方向以及三維距離的影響因子。
為了找出最優策略,除了考慮位置、速度和運動方向的因素,還應該考慮不同分組模式下網絡中斷概率也不相同,因此需要選取中斷概率最小的中繼連接模式才能達到最優。
由香農公式可知,網絡吞吐量可以表示為
C=ωlb(1+SNR) ,
(2)
(3)
即
(4)
式中:ω為頻譜帶寬,SNR為網絡信噪比,P為傳輸功率,h為信道增益,N為噪聲功率譜密度,W為帶寬,τ表示與物理層編碼調制關聯的冗余量。
而網絡中斷一般出現在現有的信息傳輸速率達不到節點連接之間的最低速率,也就是網絡的信噪比低于最低信噪比的閾值,從而導致網絡連接中斷。假設網絡要求的信息傳輸速率最低為α,網絡的瞬時信噪比為β,則網絡的瞬時信息速率可表示為
C(β)=ωlb(1+β) ,
(5)
則網絡的中斷概率為
Poff=P{C(β)