謝 然,白雪敏,李淑豐,張鳳霞,于 江,孫久會
(1.31107 部隊,江蘇 南京 210000;2.陸軍工程大學,江蘇 南京 210000)
隨著先進寬頻無線技術快速和廣泛的發展,以及對高速率高質量服務的需求增加,傳統的靜態頻譜分配政策正變得過時。為了盡可能地提高授權頻譜的利用率,認知無線電(Cognitive Radio,CR)的概念被提出。認知無線電是一種智能無線通信系統,能夠自動感知周圍頻譜的使用情況,并在不影響授權用戶正常通信的情況下機會式地接入空閑頻譜(Opportunistic Specturm Access)。通常來說,授權用戶被稱為主要用戶(PUs),非授權用戶稱為次要用戶(SUs)或認知用戶。認知用戶應當具有頻譜感知能力以檢測是否存在頻譜空洞,并且能夠根據感知結果重配置或調整軟硬件參數和工作參數。
認知無線電技術在不改變現有頻譜分配政策的情況下使有價值的頻譜資源得到復用,從而解決了頻譜利用率低的問題。其核心思想是通過動態頻譜接入來實現頻譜共享[1],頻譜共享的含義是SUs 可以使用PUs 的空閑頻譜,但前提是不能對PUs 的通信產生干擾。頻譜共享通常包括四個步驟:頻譜感知(Spectrum Senseing)、頻譜分配(Spectrum Allocation)、頻譜接入(Spectrum Access)、頻譜切換(Spectrum Handoff)。而這些功能的實現,除了必須的軟硬件條件外,還必須依靠復雜的學習和決策機制。如何協助無線電用戶進行智能自適應學習和決策,以滿足無線網絡的多樣化要求,是無線通信技術面臨的挑戰。
機器學習(Machine Learning)作為強大的人工智能工具之一,近年來被廣泛地用于無線通信網絡,如大規模多輸入多輸出(Multiple-Input Multiple-Output,MIMO)、終端直通(Device-to-Device,D2D)網絡、由femtocells 和small cells 組成的異構網絡等[2]。機器學習可大致分類為監督學習、無監督學習、強化學習3 大類。機器學習應用在無線網絡特別是認知無線網絡中的優勢主要體現在以下3個方面[3]。
(1)允許CR 用戶以分布式的方式獨立自適應地感知、決策并接入頻譜資源,減少了對控制單元的需求,避免了獲取全局觀測值所需的信息交互和信令開銷。
(2)區別于傳統方法中預設或提取特征,基于機器學習的方法可以自動從數據中提取特征,以便CR 用戶(agent)在不需要任何先驗知識或對無線網絡環境的假設的情況下實現其網絡效能目標。
(3)通過周期性的訓練,數據驅動方法的性能不會受到無線電環境變化的顯著影響,因此對環境具有較強的魯棒性。
本文主要探索機器學習中的強化學習和深度學習在認知無線網絡頻譜共享方面的應用。
強化學習依賴于一個動態的迭代學習和決策過程。可用于推測未知網絡條件下的移動用戶決策,如頻譜共享中未知信道可用性條件下的信道接入,蜂窩網絡中未知資源質量條件下的分布式資源分配。深度學習算法如卷積神經網絡(Convolutional Neural Network,CNN)和長短期記憶(Long Short Term Memory,LSTM)遞歸神經網絡,作為目前最先進的分類任務,已經被應用于包括頻譜感知、頻譜分配等各個無線網絡領域[4]。其他經典的機器學習技術,如支持向量機(Support Vector Machine,SVM)和K-nearest neighbor(KNN)分類器已經被廣泛用于包括涉及多個傳感器的分布式(或合作)頻譜感知當中,并有效提高了方案性能。
強化學習(Reinforcement Learning,RL)是機器學習的一個重要分支,主要用來解決連續決策的問題(如頻譜接入和切換)。強化學習也可以應用到有序列輸出的問題中,因為它可以針對一系列變化的環境狀態,輸出一系列對應的行動。
大多數的強化學習問題都可以用馬爾科夫決策過程(Markov Decision Process,MDP)來進行問題建模。對于一個為了達到目標狀態的決策問題,一般存在一個智能體(Agent)來感知周圍的環境狀態(State),同時根據策略(Policy)在當前環境中執行一個動作(Action)從而達到另一個環境狀態(next state),同時得到一個獎勵(Reward)。可以通過包含5 個元素的元組來表示這一過程(S,A,P,γ,R)。其中:S表示智能體的狀態集;A表示智能體的動作集;P表示狀態轉移矩陣;γ∈(0,1)表示折扣因子,用于計算累積獎勵,表明越遠的獎勵對當前的貢獻越少;R表示獎勵值函數,Agent 每執行一個動作(或離開某一狀態)都會得到一個獎勵值。此外,模型中應含有但未提現在元組中的策略π,表示從狀態到動作的一種映射,也可表示為a=π(s)。
由于延遲回報的特性,要度量一種策略的好壞程度,則需要定義在某種策略情況下的一個函數來表明當前的狀態下所做的策略對長遠的影響,即衡量該狀態的好壞程度,這個函數被稱作值函數(Value Function),可表示為:

式(1)表明值函數V π(s)在初始狀態為s的情況下采取策略π得到的一個累積的獎勵期望值。根據其馬爾科夫性質進行迭代可得到Bellman 方程[5]:

可簡單表達為:

通過Bellman 方程,可以得知值函數的求解是一個動態規劃的迭代過程。使用動態規劃算法進行迭代計算便可得出所有狀態穩定的值函數值。在實際的強化學習問題中,往往使用的是動作值函數(Action-Value Function),用Q(s,a)表示,表達式為:

處于狀態s的情況下,經過某種策略π達到狀態s′,兩個狀態都有自己的值函數對應的值,同時知道這兩種狀態之間的轉換獎勵r,就可以通過Bellman 方程進行迭代求解。
對于強化學習問題的求解,主要的算法分為兩種:基于動態規劃的算法和基于策略優化的算法。基于動態規劃(Dynamic Programing,DP)的算法主要包括值迭代(Value Iteration)、策略迭代(Policy Iteration),在無模型的算法中又可以分為蒙特卡洛(Monte Carlo,MC)算法和時序差分(Temporal-Difference,TD)算法。最有名的Q-Learning 算法也是一種值迭代,其更新表達式為:

計算出來的Q值存儲在Q 表中,以便下一次更新使用。
近年來,深度學習極大地促進了計算機視覺(Computer Vision,CV)和自然語言處理(Natural Language Processing,NLP)的發展。作為DL 的核心技術,人工神經網絡被用來近似輸入與輸出之間的關系。典型的神經網絡一般由三部分組成,即輸入層、輸出層和隱含層。在每一層中,放置許多具有不同激活功能的細胞,相鄰層的細胞按預先設計的方式相互連接。隨著網絡神經網絡的發展,對于不同類型的數據有不同的網絡結構。例如:卷積神經網絡由卷積層、池化層和全連接層組成,適合于圖像;遞歸神經網絡(Recurrent Neural Network,RNN)在隱含層中包含許多遞歸細胞,適合用于時間序列數據。文獻[6]在神經網絡的設計中引入了dropout 等技術,以提高DL 的泛化和收斂性能。
(1)深度神經網絡(DNN)。深度神經網絡是一種判別模型,可以使用反向傳播算法進行訓練,權重更新可以使用隨機梯度下降法進行求解。廣義上,深度神經網絡就是深度學習的總稱,包括其他一系列的神經網絡結構,如卷積神經網絡、循環神經網絡等;狹義上,DNN 指的是只有全連接的網絡結構。
(2)卷積神經網絡(CNN)。卷積神經網絡由一個或多個卷積層和頂端的全連接層組成,同時也包括關聯權重和池化層(Pooling Layer)。這一結構使得卷積神經網絡能夠利用輸入數據的二維結構。
(3)循環神經網絡(RNN)是一種處理時間序列數據的強大工具。與傳統的神經網絡不同,遞歸網絡的每一層都有許多相互連接的細胞(cells)。同一層中的所有cells 都具有相同的結構,并且每個cell 都將其信息傳遞給它的后續cell。RNN 的輸出不僅取決于它的當前輸入,還取決于過去時間的記憶。雖然RNN 的目的是學習長期依賴性,但理論和經驗表明它很難學習并長期保存信息。長短時記憶網絡(Long Short-Term Memory,LSTM)的提出就是為了解決長期保存輸入的問題。LSTM 網絡被證明比傳統的RNN 更加有效。
隨著機器學習的應用和發展,各種機器學習方法正在融合和升級。深度強化學習(Deep Reinforcement Learning,DRL)是Google 的Deep Mind團隊提出的一種算法框架,是一種用于決策學習的算法。該算法結合了深度學習以及強化學習各自的優點:深度學習善于做非線性的擬合,而強化學習適合于做決策學習。其算法的核心還是強化學習。
在使用傳統的強化學習算法(如Q-learning)進行決策優化時,隨著狀態維度的變化,問題的計算量會顯著地變化,即所謂的維度災難(The Curse of Dimensionality)。具體來說,Q-learning 需要一個二維Q表來存儲環境中所有肯定狀態和每個狀態的行動Q值,對于狀態空間較大的問題來說用Q表來存儲所有狀態動作對的Q值是不現實的。即使硬件可以滿足狀態的存儲量要求,但在這樣一個大Q表中查詢狀態是相當耗時的[7]。
深度Q 網絡(Deep Q Network,DQN)把狀態和行動作為神經網絡的輸入,然后通過神經網絡的分析操作來估計Q值,所以不需要表中記錄的Q值,而是直接使用神經網絡生成Q值。然后根據Q 學習的原則,直接選擇值最大的動作作為下一步要做的動作。
頻譜感知是頻譜共享的第一步,SU 在時域、空域和頻域上不斷檢測PU 正在使用的頻段,以確定是否存在頻譜空洞。因此,準確地感知頻譜空洞是頻譜共享的前提。
對于無線信道來說,可以將認知用戶感知的能量矢量當作特征矢量并饋入分類器來決定信道是否可用。進行在線分類之前,分類器需要經過訓練階段。文獻[8]提出了一種基于機器學習技術的協同頻譜感知算法(Collaborative Spectrum Sensing,CSS)用于模式分類。所提出的技術能夠以在線方式隱式學習周圍環境(如PU 和CR 的網絡拓撲和信道衰落)。與傳統的需要環境先驗知識進行優化的CSS 技術相比,所提出的技術具有更強的適應性。而且,所使用的技術具有更多的決策域,從而使感知結果更加精確。文中還提到了其他基于機器學習的感知分類技術如屬于無監督學習的K 均值聚類(K-means Clustering)和高斯混合模型(Gaussian Mixed Model,GMM)、屬于監督學習的支持向量機(SVM)和加權K-nearest-neighbor(KNN)。在文獻[4]中,作者具體比較了2 種基于經典信號檢測理論的方法、3 種經典機器學習算法和8 種深度學習算法分類器模型的實現細節。
不同于通常使用的N 維能量向量,文獻[9]提出一種低維概率向量作為基于機器學習的CSS 分類器的特征向量。文中研究了基于這種概率向量的K-means clustering 和SVM 算法,針對具有單一PU和N個SUs 的CRN,提出的概率向量可以將現有的能量向量從N維降至2 維,在達到相同的檢測精度的情況下,訓練時間和分類更短。
為了解決傳統OFDM 系統感知方法中存在的噪聲不確定性、時延和載頻偏移等問題,文獻[10]中作者提出了基于深度學習網絡的感知結構。相較于手動描述事件特征,文中利用多層非線性處理單元即深度架構來提取信號中已知的和可能隱藏的特征,并證明與現有感知方法相比,所提方法對時延、噪聲不確定性和載頻偏移的魯棒性更強,特別是在低信噪比條件下,具有更高的感知精度。
頻譜分配是在頻譜空洞可用性的基礎上,將頻譜分配給SUs。頻譜空洞數并不是固定的,而不同的SU 對服務質量(Quality of Service,QoS)的要求不同,因此是以競爭的方式來使用。頻譜分配的關鍵在于設計高效的分配算法和規則,在滿足效用需求(如帶寬、功率、吞吐量等)的情況下盡可能提高頻譜利用率。
文獻[11]考慮了在認知用戶數量多于主用戶信道的條件下,每個認知用戶可以看作獨立的智能體與隨機環境進行交互。所提出的強化學習算法可以將頻譜動態地分配給認知用戶,并進行功率控制。實驗證明該算法能在較少的迭代次數內收斂。
為了解決現有頻譜資源分配算法在高計算復雜度情況下難以實現的問題,文獻[12]針對衛星物聯網提出了一種基于深度強化學習(Deep Reinforcement Learning,DRL)的集中動態信道分配方法,稱為CA-DRL。該方法利用深度神經網絡強大的表示能力,通過不斷學習分配策略,做出智能分配決策,從而最小化所有傳感器的平均傳輸延遲。
文獻[13]基于學習算法提出了能量和跨層感知資源分配技術,使認知用戶有效地定位和利用頻譜空洞。所提技術包含兩階段啟發式算法,第一階段提出了兩個信道分配的學習程序,并在最優性、可擴展性和魯棒性方面進行了比較;第二階段采用優化求解解決了功率分配問題。
文獻[14]提出用非確定性Q-Learning 算法解決認知用戶的信道分配問題,即向認知用戶提供主用戶信道使用模式的先驗知識,并使用時效技術避免了低優先級用戶的資源短缺。
在文獻[15]中,作者提出了基于異構強化學習算法的多目標策略模型對蜂窩網絡進行自配置和優化,旨在解決蜂窩網絡下行鏈路的資源分配和干擾協調問題。具體目標有兩個:一是為機會頻譜接入確定可用的頻段資源;二是在細致的限制條件下配置終端,以避免干擾并滿足服務質量要求。
PUs 對于授權頻譜具有優先接入權,SUs 的接入需要高效的算法在PUs和SUs、SUs之間進行協調,避免發生碰撞。
多臂老虎機(Multi-Armed Bandits,MAB)模型常用于解決“利用”(Exploitation)和“探索”(Exploration)問題,即“直接執行當前收益最大的動作”和“探索是否有更大收益的動作”之間的矛盾。具體到頻譜接入的場景下,將選擇某個信道接入等效于拉動老虎機的拉桿,每個拉桿對應的獎勵值等效于接入信道的優劣程度(如帶寬、駐留時長、信道質量等)。而“利用”和“探索”的均衡就在于以怎樣的順序和多大的概率接入回報已知的信道和探索接入回報未知的信道。然而MAB 模型對信道統計特性的非平穩性很敏感,因此文獻[16]研究了離線靈敏度來優化MAB 分配策略的參數調優,并提出了半動態參數調整方案實現參數的在線更新。這種自適應的MAB 方案提高了認知用戶在動態環境中的性能。在文獻[17]中,作者將D2D用戶作為認知用戶,在缺少信道質量和可用性的先驗知識的情況下,建立起多用戶多臂老虎機模型,提出了包含校準預測(Calibrated Forecasting)和無悔老虎機學習(No-regret Bandit Learning)兩個模塊的算法。其中校準預測用來預測用戶的聯合行動集,無悔學習用來對可用選擇的獎勵產生過程進行可靠預測。
在文獻[18]中,作者將多信道接入問題表述為未知系統動力學的部分可觀測馬爾科夫決策過程(Partially Observable Markov Decision Process,POMDP),并應用深度Q 網絡(DQN)來解決。文中首先研究了在已知系統動力學條件下的最優策略,并通過仿真表明DQN 在缺少先驗知識的情況下也能獲得同樣的最優性能。之后通過更一般的模擬和真實數據跟蹤,將DQN 與短視策略和基于惠特爾指數的啟發式算法進行性能比較,發現DQN在更復雜的情況下可以達到近乎最優的性能。
在文獻[19]中,作者對基礎的DQN 算法進行了修改,加入了LSTM 層、Double Q-Learning、dueling DQN 等元素,使算法性能得到進一步提升。同時,文中根據不同的網絡效用優化目標(競爭式和合作式),允許每個用戶自適應地調整其傳輸參數以達到最優目的。
頻譜切換主要發生在以下兩種情況:一是SU占用頻段的PU 重新出現時;二是當SU 的地理位置出現大的變化或當前頻段不能滿足通信質量需求時。當存在多個涉及切換的SU,或者存在多個可接入信道時,必須設計高效的算法來協調SUs 的接入行為。
文獻[20]指出傳統的頻譜切換機制在切換過程中會產生明顯的時延,從而導致服務的不連續性。在密集無線局域網(Dense WLAN)中,作者根據切換決策的時間相關性將決策過程建模為MDP,并提出了基于DQN 的切換管理方案。該方案使網絡可以從零開始獲取用戶行為和網絡狀態,利用卷積神經網絡和遞歸神經網絡提取細粒度的判別特征,在時變的密集無線局域網中適應其學習,依賴于實時網絡統計數據做出切換決策。仿真結果表明,DCRQN 能有效地提高切換過程中的數據速率,優于傳統的切換方案。
文獻[21]提出了一種使用強化學習方法的基于測量丟包率的頻譜切換方案。作者在具有多個PU和SU 的系統模型中,設計了一種新的狀態空間描述方法作為強化學習算法的輸入,并使用測量的PDR 代替計算的丟包率來更新平均意見得分(Mean Opinion Score,MOS)。與現有的基于QOE 的計算丟包率方案相比,所提方案在動態環境中能夠更快地收斂,更加顯著地降低系統丟包率。
信道估計問題是認知無線電系統中的一個經典問題。信道估計通常包括對PU 到達概率、占用時間以及信號強度等參數的估計。傳統的強化學習方法如馬爾科夫模型及各類變型、貝葉斯推斷等可以方便地用于頻譜特征參數的學習和估計。在文獻[22]中,作者根據PU 是否存在構建了一個雙態隱馬爾科夫模型(Hidden Markov Model,HMM),并利用標準期望最大化算法(Expectation Maximization Algorithm,EM)對可用信道的留存時間、PU 的活動狀態等進行估計。
在文獻[23]中,針對MIMO 系統中導頻污染問題,作者提出了在估計目標小區中期望鏈路的信道參數同時估計來自相鄰小區的干擾鏈路的信道參數的方法,通過將接收信號轉換到波束域,證明了利用稀疏貝葉斯學習技術可以解決信道估計問題。所提出的信道估計方法不需要信道協方差矩陣的可用性、背景噪聲水平,也不需要單元間的協調,并且在導頻污染存在的情況下,信道估計的性能較傳統方法有實質的提升。
頻譜預測可以作為頻譜感知和頻譜接入的前期工作。頻譜感知過程需要消耗相當大的能量,可以通過使用頻譜預測方法發現頻譜空洞來減少感知次數。使用可靠的預測方案,認知用戶將只需要感應那些被預測為空閑的頻道。通過降低預測的錯誤率,頻譜利用率也可以提高。
文獻[24]將頻譜預測問題抽象為二元序列預測問題,使用多層感知機(Multilayer Perceptron,MLP)設計了信道狀態預測器在輸入和輸出數據之間建立映射函數,輸入數據為截至時刻T,長度為τ的二元序列,輸出數據為T+1 時刻的信道狀態,忙碌狀態和空閑狀態分別用二進制符號1 和-1 表示。在多信道系統中,每個信道都會分配一個預測器。
文獻[25]應用了LSTM 較強的求解時間序列的能力,在兩個真實的數據集上提出了基于深度學習的頻譜預測方案。其中:第一個數據集用于預測信道占用狀態,作者首先使用田口法確定了神經網絡的最優結構,并分析了網絡中各個超參數的效果。然后從回歸和分類兩個視角建立了的LSTM 神經網絡進行頻譜預測;第二個數據集用于信道質量預測,作者比較了LSTM 神經網絡和傳統多層感知器神經網絡的預測性能。從統計學的角度來看,LSTM 神經網絡比MLP 神經網絡具有更好的預測性能,也更穩定。
本文對機器學習技術中的強化學習和深度神經網絡的原理進行簡單介紹,展現了其在認知無線網絡特別是頻譜共享領域的應用。可以發現,機器學習技術應用廣泛、可擴展性強,且對網絡性能提升作用明顯,特別是在動態適應性方面有著巨大潛力。隨著機器學習技術的不斷發展,認知無線網絡中也會出現越來越多機器學習的身影,其在改變頻譜稀缺現狀、進一步提升網絡性能方面的作用值得期待。