鄭紅燕,馮延蓬,仵 博,2,孟憲軍
(1.深圳職業技術學院 教育技術與信息中心,廣東 深圳518055;2.中南大學 信息科學與工程學院,湖南 長沙410083)
頻譜資源匱乏、利用率低的問題已成為制約無線通信發展的主要因素之一,具有無線環境認知能力、動態頻譜管理能力、重配置能力的新一代認知無線電 (cognitive radio,CR)技術[1],允許部分非授權用戶 (以下稱 “認知用戶”)在不影響授權用戶 (primary user,PU)的前提下,機會式的利用空閑頻譜段進行通信,為頻譜資源共享問題提供了一個全新的方向,得到國內外學者的廣泛關注,成為通信領域研究的熱點[2,3]。頻譜感知是認知無線電中實現動態頻譜共享的前提和關鍵[4]。
目前針對MAC層的頻譜感知技術研究已經趨于成熟,但針對頻譜感知機制的研究卻相對較少。在文獻 [5]中,提出隨機搜索、串行搜索機制、n-步串行搜索機制,并指出相鄰的信道之間在頻譜占用規律上具有相關性,采用n-步串行搜索機制可以減少平均檢測信道個數,同時保證信道檢測的性能,但未考慮認知用戶在被迫中斷后需檢測時的搜索策略。文獻 [6]提出一種停止規則 (stopping rule),將信道感知和接入判決問題轉化為獲取最大吞吐量的最優求解問題。文獻 [7]引入部分可觀察馬爾可夫決策過程 (partially observable Markov decision process,POMDP)對認知無線電信道感知策略進行建模,按照信道空閑概率進行排序,求取最優感知信道,但由于POMDP中的狀態信念空間求解是一個維數災問題,難以滿足認知用戶信道搜索的實時性要求。
本文基于多認知用戶集中式協作感知思想,提出一種帶緩沖區的雙周期n步串行協作感知機制。該機制利用多認知用戶分時、分段協作感知,建立空閑信道頻譜池,既減小單用戶頻譜感知與數據傳輸時間占比,又縮短中斷后信道切換時間。此外,還建立離散馬爾可夫信道感知參數優化模型,通過量化分析感知模式、感知周期、信道分段數與感知性能的關系,建立信道轉移概率和報酬函數模型,并利用值迭代算法求解最優感知參數,在保證頻譜感知效率的同時,減小認知用戶的被迫中斷時間。
認知無線網絡按系統架構可以劃分為集中式和分布式[8],其中,集中式網絡架構是由一個或多個集中的實體協調頻譜資源,稱為認知基站 (或稱頻譜管理單元),如IEEE802.22系統;分布式網絡架構頻譜資源管理則依靠點到點的連接分布在各個認知無線終端上,如Cognet系統,但隨著終端數量的增加,它們之間的連接數目會呈指數增長,通信和管理成本較高。因此,本文針對集中式認知無線網絡的信道共享技術展開研究,網絡模型如圖1所示。

圖1 集中式信道共享認知無線網絡模型
假設認知無線網絡中存在P個授權用戶、M個認知用戶和N個信道,存在一個具有較高運算能力認知基站,該基站通過一個全局公共控制信道來收集認知用戶信道感知信息,建立和維護動態頻譜池,并對認知用戶的信道感知參數進行分配,包括按何種順序、對哪些信道開始搜索、優化信道感知周期等,目的在于提高認知用戶的感知準確度和信道利用率。
在每個時隙,每個信道有Busy和Free兩種狀態,Busy表示信道被占用,Free則表示信道空閑??臻e信道允許認知用戶采用Overlay的方式機會式接入,并假設每個認知用戶每個時隙只能占用一個信道。
在認知無線電技術的實際應用環境中,認知用戶受自身硬件成本、感知能力等的限制[9],使得單一認知用戶感知范圍、感知精度有限;認知用戶通信信道被授權用戶搶占時,認知用戶被迫重新搜索新的空閑信道 (稱之為按需搜索),需重新進行多信道搜索,感知時間較長,會大大影響認知用戶通信QoS。針對以上問題,本文基于鏈路層的多認知用戶集中式協作感知思想,提出一種帶頻譜池的n-步串行 協 作 搜 索 機 制 (n-step serial search with spectrum pool,n-SSSP),通過多認知用戶分時、分段協作,有效減小單用戶頻譜感知與數據傳輸時間比,提高頻譜感知效率。
由于相鄰信道間的信道占用規律具有一定相關性,認知用戶在進行信道感知時,串行順序檢測可能遭遇連續的非空閑信道,增大頻譜感知時間。n-SSSP的基本思想如下:由基站將頻譜劃分為Nsection段,每段固定包含n個信道,n=?N/Nsection」。每個加入認知網絡的認知用戶,在首個感知周期內,主動從認知基站獲取一個隨機的起始信道號i,以n為步長進行搜索,直到遍歷每個信道段的第i信道。如果認知用戶在該輪搜索中未感知到空閑信道,則重新從認知基站獲取新的信道號i′,并以n為步長對Nsection個信道段進行新的遍歷,如此反復,直到搜索到空閑信道為止。完成信道感知后,認知用戶根據自身帶寬需求,在感知到的一個空閑信道中選擇一個合適信道接入,并把剩余感知到的空閑信道號上報給基站,基站將認知用戶的感知信息進行與操作,構成頻譜池?;驹砣鐖D2所示。

圖2 n-步串行協作頻譜搜索機制
與傳統搜索機制不同,n-SSSP在認知用戶搜索到空閑信道后,并不馬上停止,而是繼續完成所有Nsection段的信道遍歷,并將盈余的空閑信道信息上報基站,建立空閑頻譜池。頻譜池用來向被中斷的認知用戶提供搜索的信道號。當認知用戶通信信道被授權用戶搶占時,認知用戶不再從基站隨機獲取信道號,而是通過認知基站獲取頻譜池中的信道號,由于頻譜池中的信道為感知后驗證的空閑信道,因此被再次感知到是空閑信道的概率將大大提高,從而有效縮短認知用戶通信被迫中斷后的頻譜感知時間。認知用戶在獲得頻譜池中的信道號之后,再通過本地感知尋找可使用的空閑信道。
為保證頻譜池的時效性,并進一步提高認知用戶頻譜感知效率,減小頻譜感知與數據傳輸時間占比,在n-SSSP的基礎上提出一種雙周期感知策略,所謂雙周期,是指認知基站為所有認知用戶指定一個頻譜池更新周期T1,再將T1劃分為若干個相等的感知周期T2。如圖3所示。

圖3 雙周期機制
對于每個認知用戶,無論通信是否被中斷,每隔T1時間,必須從基站獲取一個信道號i,并以n為步長對每個信道段內的第i個信道進行感知,并將除自用外的剩余空閑信道信息上報給認知基站,并由認知基站對多認知用戶感知信息進行匯聚和融合,更新頻譜池,以備被中斷用戶使用,該過程稱為:共享式頻譜感知。
每個感知周期T1的首個感知周期T2即用來共享式頻譜感知,它完成包含本地檢測、與基站通信和數據傳輸3個部分,除首個感知周期外,其余感知周期在時間上與T2一致,正常情況下僅包含本地檢測和數據傳輸兩個部分,認知用戶只需對自身接入的信道進行感知,如果該信道仍為空閑狀態,則繼續使用,無需與基站通信;如果信道被授權用戶占用,則觸發按需信道搜索,由認知用戶從頻譜池中獲取一個空閑概率較高的信道進行感知,以便快速回復通信。相比傳統周期性感知機制,無需每個周期都進行多個信道的感知,特別是中斷后,能快速找到新的空閑信道,這樣認知用戶用于感知信道的時間將大大縮短,為數據傳輸預留更多時間,可以提高感知效率,縮短響應時間。
搜索步長n以及頻譜池更新周期T1和感知周期T2的設定將直接影響到頻譜感知效率和頻譜池的時間有效性。因此,本文提出一種基于馬爾可夫決策過程 (Markov decision process,MDP)的n-SSSP感知參數優化模型 (以下簡稱為:MDP-SSSP),綜合考慮頻譜感知效率、用戶被中斷時間兩要素構建報酬函數,并通過值迭代算法求取搜索步長和感知周期的最優解。
MDP模型是在給定當前知識和信息的情況下,預測和決策未來,可以用一個四元組 <S,A,T,R> 表示[10]。其中,S表示狀態集,表示所有可能到達的狀態;A表示動作集,表示所有可能執行的動作;T:S×A→ ∏(S)為狀態轉移函數,表示在狀態s下執行a到達狀態s′的概率,記為T(s,a,s′);R:S×A→R表示策略評價函數。
(1)狀態集和動作集定義
建立離散時間MDP模型,t表示當前時刻,t′表示下一時刻,t′=t+ΔT,其中,ΔT即為認知用戶感知周期,故:ΔT=T2。
設

其中,Np(t)和Ns(t)分別為系統在t時刻的授權用戶和認知用戶的數量,則系統狀態集可表示為

動作集包含系統待優化的參數,本文以搜索步長和感知周期為優化目標。特別的,針對感知周期,選取頻譜池更新周期T1和感知周期T2均為優化參數,為降低模型求解難度,以T2基本時間單位,定義雙感知周期比τ(τ=T2/T1)為優化目標。則系統動作集可表示為

(2)狀態轉移概率建模
狀態轉移函數表示信道狀態在相鄰兩個時間片上的變化,與系統業務模型緊密相關,為了求取狀態轉移概率,對系統業務流進行建模。
定理1 對系統中認知用戶與授權用戶流量利用隨機過程進行建模,假定授權用戶與認知用戶的到達流量均滿足泊松隨機過程,其到達率分別為λp、λs;頻譜使用的持續時間滿足負指數分布,平均占用時間分別為:1/μp和1/μs,認知用戶每次僅能夠接入一個空閑信道,且忽略一個時隙內認知用戶因為授權用戶的出現而讓出相應信道的時間,則系統狀態轉移概率如下


證明:設NA∈{NPA,NSA}為授權用戶和認知用戶的在間隔ΔT內的到達數,ND∈{NPD,NSD}為授權用戶和認知用戶在間隔ΔT內的離開數。PA(NPA)和PA(NSA)表示在間隔ΔT內到達NPA和NSA個授權/認知用戶的概率,PD(ND=m,k)表示在間隔ΔT內從m 中離開k個授權/認知用戶的概率。

根據系統業務模型可知授權用戶和認知用戶到達率λp和λs,那么在間隔ΔT內,由泊松過程的狀態概率分布可知,到達NPA個授權用戶和NSA個認知用戶的概率分別為

頻譜使用的持續時間滿足負指數分布,平均占用時間分別為:1/μp和1/μs,則從m中離開k個授權用戶和認知用戶的概率[11]為


同樣有

將式(6)-式(10)代入式(4)可得

證畢。
(3)性能指標及報酬函數建模
由圖2可知,在正常情況下,在首個感知周期T2內,認知用戶需執行進行本地感知、上報基站和數據傳輸3個動作,其余感知周期,只需檢測本占用信道和進行數據傳輸,那么設認知用戶對單位信道的本地感知花費時間為Tsense,與基站通信花費的時間為Ttransport,不考慮認知用戶因被中斷觸發的按需感知時的感知效率,可以得出認知用戶在非中斷時的感知效率為

式中:μ——認知用戶首次感知到空閑信道所需要輪詢的圈數,由授權用戶占用信道密度和分布決定,授權用戶占用信道密度越大,信道越繁忙,被檢測信道內不包含空閑信道的概率越大,則認知用戶首次感知到空閑信道所需的輪詢的圈數也就越大。
在用戶被中斷時,直接從頻譜池獲取信道進行感知,并進行數據傳輸,仍然以一個感知周期作為一次中斷檢測評價單位,則認知用戶在中斷時的感知效率為

式中:δ——認知用戶中斷后重新感知到新的空閑信道所需要檢測的信道數,與認知被中斷概率、被中斷時間相關,可通過離線訓練獲取。
信道感知效率Ηsence可定義為認知用戶在中斷和非中斷時感知效率的加權和

式中:α——加權因子,與認知用戶被中斷概率相關。
除感知效率外,認知用戶被迫中斷時間Τinterrupt與搜索步長n和雙感知周期比τ也緊密相關。在相同的授權用戶到達率和檢測周期Τ2下,認知用戶被迫中斷概率隨授權用戶到率的增大而增大,業務中斷后,利用頻譜池中預留空閑組建新的會話,頻譜池更新周期Τ1越小,則頻譜池中的信道空閑概率越高,認知用戶在業務中斷后能越快搜索到新的空閑信道,即中斷時間Τinterrupt越小。
可以看出感知效率和被迫中斷時間是一對矛盾的性能指標,為保證認知用戶有較高的感知效率Ηsence和較小的中斷時間Τinterrupt,設系統報酬函數如下

感知效率越高,業務被迫中斷時間越小,則系統報酬值越大,反之越小。其中β為被迫中斷時間權重調節因子,可以針對不同的認知業務進行調節,如:對于QoS要求較高的語音業務,則增大β取值,通過適量犧牲感知效率來獲得更低的業務被迫中斷時間Τinterrupt,反之,對于QoS要求較低的數據業務,則可以減小β取值。
經過對認知網絡進行MDP建模,認知用戶頻譜感知周期優化問題轉化為MDP報酬函數的最大化問題,報酬值越大,頻譜感知性能越好。本文采用值迭代算法[12]獲取MDP最大報酬值,具體描述見表1。其中,Vt(s)通過Bellman方程計算,代表模型在不同狀態的值函數,γ為折扣因子;最優策略π*t(s)是使折扣報酬值和的期望值最大時的動作取值。

表1 MDP求解算法
本文從兩個角度評價帶頻譜池的雙周期n-步串行協作信道感知策略的有效性。首先,針對本文算法在不同搜索步長n和雙感知周期比τ下的性能進行仿真和縱向對比,驗證參數優化前后對算法性能的影響;其次分別實現本文算法與隨機搜索、傳統串行搜索算法,在不同的授權用戶到達率λp下的性能指標進行橫向對比,驗證本文算法的有效性,仿真參數見表2。
利用Matlab搭建仿真實驗平臺,開展兩組實驗,每組實驗分別重復10次求平均值,每次實驗運行30分鐘。
(1)為了對比n-SSSP和MDP-SSSP算法性能,并驗證參數對(n,τ)與感知效率Ηsence和被迫中斷時間Τinterrupt之間的關系,首先,固定參數τ,倍數逐漸增大n抽取(n,τ)=(1,3)、(2,3)、(4,3)、(8,3)、(16,3)5組參數,然后,固定參數n,逐漸增大τ抽取 (n,τ)= (4,1)、(4,2)、(4,4)、(4,5)4組參數分別進行實驗,將結果與MDP-SSSP進行對比,結果如圖4 (a)、(b)所示。

表2 仿真環境參數

圖4 感知效率和中斷時間隨參數變化
就圖4(a)、(b)單獨而言,在τ保持不變時,感知效率隨n的增大而減小,在n保持不變時,感知效率隨τ的增大而增大;被迫中斷時間則與n和τ無明顯線性關系,但綜合兩個圖發現,在實驗抽取(n,τ)參數對中,感知效率最優時,被迫中斷時間則很長,被迫中斷時間最優時,則感知效率偏低。而采用MDP-SSSP算法,兩項指標參數雖然不是最優,但可以平衡各項指標,獲取最優參數,提高系統的整體性能。
(2)將 MDP-SSSP與隨機搜索 (random search,RS)、傳統串行搜索算法 (serial search,SS)比對,認知用戶被迫中斷概率、感知效率Ηsence和中斷時間Τinterrupt隨授權用戶到達率λp變化情況如圖5 (a)、(b)、(c)所示。

圖5 信道關鍵指標隨授權用戶到達率變化
MDP-SSSP的平均感知效率為0.74,而RS和SS的平均感知效率分別為0.53和0.36,由于采用了 MDP建模和針對感知效率的求解算法,在感知效率上MDP-SSSP具有明顯優勢。由于采用了雙周期搜索策略,MDP-SSSP的被中斷率和中斷時間都優于RS和SS。RS和SS的平均被中斷率比較接近,MDP-SSSP的平均被中斷率為0.398,比RS和SS低20%。RS和SS的平均中斷時間分別為MDPSSSP的2倍和2.2倍,因此MDP-SSSP可以使認知用戶在被授權用戶中斷后更快地找到可用信道。
由此可見,MDP-SSSP算法在感知效率Ηsence,被中斷概率和中斷時間Τinterrupt三項性能指標上均優于傳統頻譜感知機制,尤其是在授權用戶到達率較高,信道占用率提高的情況下,仍能保證在較高感知效率下,實現較低的中斷時間,從而有效保證了認知用戶的通信質量。
本文綜合考慮信道檢測效率和認知用戶被迫中斷時間兩個因素,提出了帶頻譜池的n步串行信道搜索策略,在認知用戶被迫中斷后,通過頻譜池中的先驗信道感知信息,快速搜索到新的空閑信道,通過構建離散馬爾可夫模型,求取參數最優解,通過仿真實驗驗證,表明引入頻譜池和MDP優化模型的MDP-SSSP策略相比隨機搜索和串行搜索,能顯著地提高信道感知效率,縮短認知用戶被迫中斷時間。
[1]Mitola Joseph.The inventor of cognitive radio [J].Electronic Engineering Times,2005 (1):47-50.
[2]Srinivasa S,Jafar S A.The throughput potential of cognitive radio:A theoretical perspective [J].IEEE Communications Magazine,2007,45 (5):73-79.
[3]WEI Jibo,WANG Shan,ZHAO Haitao.Cognitive wireless networks:Key techniques and sate of the art [J].Journal on Communications,2011,32 (11):147-158 (in Chinese).[魏急波,王杉,趙海濤.認知無線網絡:關鍵技術與研究現狀[J].通信學報,2011,32 (11):147-158.]
[4]Ghasemi A,Sousa E S.Spectrum sensing in cognitive radio networks:Requirements,challenges and design trade-offs [J].IEEE Communications Magazine,2008,46 (4):32-39.
[5]Ling Luo,Sumit Roy.Analysis of search schemes in cognitive radio [C]//San Diego:2nd IEEE Workshop on Networking Technologies for Software Define Radio Networks,2007:17-24.
[6]Jia J,Zhang Q,Shen X.HC_MAC:A hardware-constrained cognitive MAC for efficient spectrum management [J].IEEE Journal on Selected Areas in Communications,2008,26(1):104-117.
[7]Jayakrishnan Unnikrishnan,Venugopal V Veeravalli.Algorithms for dynamic spectrum access with learning for cognitive radio [J].IEEE Transactions on Signal Processing,2010,58(2):750-760.
[8]MIAO Dan.Research on dynamic spectrum allocation technology in cognitive wireless network [D].Beijing:Beijing University of Posts and Telecommunications,2010:27-29 (in Chinese). [苗丹.認知無線網絡中的動態頻譜分配技術研究[D].北京:北京郵電大學,2010:27-29.]
[9]Yunxia Chen,Qing Zhao,Ananthram Swami.Joint design and separation principle for opportunistic spectrum access in the presence of sensing errors [J].IEEE Transactions on Information Theory,2008,54 (5):2053-2071.
[10]Bhatnagar S,Abdulla M S.Simulation-based optimization algorithms for finite-horizon Markov decision processes [J].Simulation,2008,84 (12):577-600.
[11]Xavier Gelabert,Oriol Sallent.Spectrum sharing in cognitive radio networks with imperfect sensing:A discrete-time Markov model[J].Computer Networks,2010,54 (14):2519-2536.
[12]Stevens-Navarro E,Yuxia Lin,Wong V W S.An MDP-based vertical handoff decision algorithm for heterogeneous wireless networks [J].IEEE Transactions on Vehicular Technology,2008,57 (2):1243-1254.