超短波電臺頻譜動態博弈接入算法*

2022-02-27 05:54:10潘雅茹

通信技術 2022年1期

關鍵詞：用戶

詹菲，賈斌，潘雅茹

（中國電子科技集團公司第五十研究所，上海 200331）

0 引言

超短波電臺通信頻段范圍為30～108 MHz，整個波段寬度為78 MHz，憑借其靈活的網絡拓撲結構、強大的抗干擾能力及低廉的設備制造成本在特定的通信場景下有著不可替代的作用，且無論在軍事環境下還是在民用領域中都有廣泛的應用前景[1-2]。在超短波電臺通信中，用戶移動性強，拓撲結構多變，網絡環境復雜，在頻譜接入方面有較高的技術要求。目前在頻譜的分配上，超短波電臺主要使用分段分配法和頻率表分配法，有較大缺陷[3-6]，其分配原理及優缺點如表1 所示。

表1 現有超短波頻率分配方法

顯然，目前的頻譜分配方法無法滿足超短波電臺用戶快速、準確地頻譜接入的需要。而博弈論作為一種重要的數學理論，逐漸在動態頻譜接入過程中得到了廣泛的應用。不同的博弈方可以采取合作或不合作的方式進行競爭，根據自己掌握的信息選擇策略，追求博弈收益的最大化。本文以此為出發點，將博弈論與超短波動態頻譜接入技術相結合，使分布式超短波電臺用戶能夠通過相互博弈達到穩定的接入狀態。

本文首先介紹在動態頻譜接入中使用博弈論解決問題的基本理論框架；其次根據超短波電臺用戶的應用場景和通信需求，對動態博弈接入的系統模型進行搭建，研究信道選擇算法；最后仿真證明算法的有效性和可靠性，并提出技術挑戰和未來工作。

1 博弈論頻譜接入

1.1 博弈基礎知識

博弈論（Game Theory）[7]作為一種數學理論，在交互決策的分析中起到了重要的作用。每個博弈參與人作出的決策可能會影響別的博弈參與者的決策甚至是整個博弈的走向。

博弈論的基本模型表示為：

式中：P為博弈人（局中人）；A為博弈行為；S為博弈順序；I為博弈信息；U為博弈收益。

博弈參與者所追求的目標與利益，往往會產生沖突，因此，他們所采用的策略一般也是有沖突的，甚至是完全對立的。博弈的過程可以被理解為在競爭中追求平衡的過程。

常見的均衡狀態有上策均衡、納什均衡、防共謀均衡、貝葉斯均衡等[8-10]，在本文中，主要討論納什均衡。

納什均衡（Nash Equilibrium，NE）[11]是由美國著名數學家納什提出的，是一種局中人經過完全競爭后達到的系統穩定狀態。若每個博弈局中人都按照最優策略集進行行動，最終會使得系統取得較高的收益。對于每個博弈局中人來說，只要其他人不改變自己的選擇，他就無法通過改變自身的行動來改善自己的收益狀況。

1.2 動態博弈接入模型

將博弈論的思想應用于動態頻譜接入技術時，對博弈基本模型公式進行簡化，可得到標準形式的博弈模型：

式中：Mu為博弈中競爭者的集合；Ai為競爭者可能采取的策略的集合；Ui為系統的效用函數，用于衡量博弈收益。

在應用博弈模型解決實際問題時，其流程如圖1 所示。

圖1 博弈模型解決問題流程

首先，要結合超短波電臺通信特點場景建立動態博弈接入模型。超短波電臺常常采用分布式架構，頻譜池保存頻譜資源，當電臺用戶產生通信需求時，通過一定的競爭策略得到頻譜資源。由于超短波用戶移動性強，網絡拓撲形狀不規則，故采用非合作的方式進行競爭。

其次，需要保證系統具有合理的均衡點。超短波電臺用戶各自平等，且互相之間沒有信息交流，在博弈過程中，僅考慮如何使自身的收益最大化，每個用戶都知道其他博弈者所采用的策略，但是不會根據對方的策略而改變自己的策略，屬于非合作、完全信息博弈。在實際應用時，網絡環境是不確定的。隨著時間的變化，信道的狀態會發生改變。在建立模型時，假設時間被分為相等長度的時隙，隨著時隙的變化，信道最大可傳輸速率會發生隨機改變。為了方便計算，可以認為在任一時隙中，信道參數不變，信道處于穩定狀態，因此該博弈可歸于靜態博弈模型。由于每個用戶僅按照固定的策略參與博弈且用戶間沒有合作行為，超短波動態博弈接入模型符合伯特蘭德博弈模型的特征[12]。在伯特蘭德博弈模型中，博弈均衡的存在通常用尋找納什均衡點來完成。

在對算法進行設計時，為了衡量性能，將頻譜接入的最終目標設置為使所有超短波電臺用戶的瞬時傳輸速率的期望值達到最大，表示為：

在對超短波動態博弈接入模型進行建立時，需要考慮以上條件，并在此基礎上完成對博弈算法的設計。

2 超短波動態博弈接入系統

將動態博弈接入應用于超短波通信實際應用時，首先需要明確博弈目的，分析在該通信系統下博弈的收斂性，證明博弈均衡的存在。此外，還應確定指標，合理評價超短波動態博弈接入結果。

2.1 超短波動態博弈接入系統模型

超短波電臺頻譜動態博弈接入的目的是所有超短波電臺用戶的瞬時傳輸速率的期望值達到最大。若空閑信道數量為N，超短波電臺用戶數量為M，由于超短波電臺用戶是分布式網絡拓撲結構，每個節點地位完全相同，因此系統的效用函數ui(ai,a-i)可以用任意一個超短波電臺用戶i的傳輸速率的期望值xi(k)來表示，計算方式為：

式中：為第j信道上用戶的傳輸速率的期望值；cj為時隙開始時，選擇信道j進行試探接入的用戶數量；a-i為除了用戶i，其他所有用戶對信道的選擇。

將效用函數的式（4）代入博弈論經典模型中，可得到超短波動態頻譜接入的博弈論模型為：

該模型很好地反映了在動態頻譜接入博弈過程中系統追求的目標。

在對超短波電臺的動態博弈接入模型進行建立時，還需要保證該博弈具有合理均衡點。納什均衡是博弈論中一個重要的均衡概念，可以通過證明博弈能夠達到納什均衡來證明博弈的收斂性。

勢博弈的概念于1996 年由蒙德勒和沙普利提出[13]。在勢博弈中，博弈服從于勢函數，勢函數是博弈局中人進行競爭后收益的體現。如果任意一個用戶改變了自己的選擇策略，都存在一個函數會隨之發生改變，那么這個函數就是勢函數，該博弈就是嚴格勢博弈。

從博弈的有限改進理論[14-15]可知，嚴格勢博弈必定存在純策略納什均衡，而納什均衡點對應的行為策略會使勢函數達到最大值，使勢函數達到最大值的策略一定是納什均衡點。因此，如果可以證明該博弈是嚴格勢博弈，就可以證明該博弈存在純策略納什均衡點，具有收斂性。

構建勢函數，定義為：

此時，勢函數的改變量為：

顯然，任意用戶策略改變時，收益函數的變化都可以反映在勢函數上，式（8）滿足嚴格勢博弈的條件。超短波動態博弈接入系統模型下的博弈是勢博弈，存在納什均衡點，該博弈具有收斂性。

2.2 動態頻譜接入的評價指標

本文采用4 個評價指標分別從接入效果、接入速度等方面對動態頻譜接入進行評價，分別為系統效益、收斂時間、接入成功率、接入準確率。

（1）系統效益：評價一個頻譜接入系統接入結果是否優良的最基本的指標，本文中定義系統效益為用戶的平均可傳輸速率。

（2）收斂時間：在動態頻譜接入過程中，希望能選擇信道所用的時間盡可能短，這對信道選擇算法提出了要求。

（3）接入成功率：在接入過程中傳輸的數據包是具有時限性的，若經過一段時間仍未接入成功，數據包可能被丟棄，視為接入失敗。

（4）接入準確率：在接入成功后，需要研究系統接入達成的均衡狀態是否是最優的均衡狀態，接入準確率將直接影響系統的整體性能。

3 信道選擇算法及仿真分析

在分布式超短波電臺用戶的非合作博弈過程中，用戶的信道選擇算法對最終接入結果有直接影響。本文在信道狀況隨時間變化的情況下，采用分布式信道選擇算法和周期重啟的信道選擇算法進行動態頻譜接入，并評價其動態接入結果。

3.1 時變信道的分布式信道選擇算法

在網絡環境不確定的情況下，隨著時間的變化，信道的狀態會發生改變。采用時變信道的分布式信道選擇算法時，用戶嘗試接入信道，并根據接入結果改變下一次的接入概率矩陣，最終達到均衡狀態，完成動態接入。仿真證明，該算法在信道充足和信道短缺情況下，均能滿足超短波電臺用戶動態頻譜接入的需求。

3.1.1 時變信道的分布式信道選擇算法原理

信道選擇算法的主要原理：建立信道選擇概率矩陣，用戶通過感知信道，獲取信道最大可傳輸速率，在每個時隙內，用戶都按照如下公式更新信道選擇概率矩陣：

概率更新的原則：若用戶i在第k個時隙接入信道j成功，則在第i+1 個時隙，用戶i選擇信道j進行嘗試接入的概率將增大，多次嘗試成功后，用戶i接入信道j的概率即信道選擇概率Pij會趨近于概率1；反之，若用戶i多次嘗試接入信道n′失敗，則其信道選擇概率Pij′會趨近于概率0。通過這樣的思想可以使系統達到最終的穩定狀態（均衡）。此外，在頻譜接入初期（k較小時），信道質量（信道的最大可傳輸速率）將對用戶的信道選擇起到決定性的作用，但隨著嘗試接入次數的增加，信道質量對頻率選擇的影響越來越小，這可以有效保證用戶接入狀態的穩定性。

3.1.2 時變信道的分布式信道選擇算法仿真

時變信道的分布式信道選擇算法仿真可分為如下幾個步驟。

（1）參數初始化。將時隙數k、效用函數、信道選擇概率進行初始化，用戶i選擇所有信道的概率相同，即對于任意信道j，有。

（2）信道選擇概率矩陣更新。感知信道，獲得傳輸速率，并計算效用函數值。根據式（9）更新信道選擇概率矩陣。

（3）接入狀態判斷。用戶比較各個信道的選擇概率，若對某一信道j的概率大于其他任意信道選擇概率的兩倍，則視為用戶已選定該信道進行接入，并達到穩定狀態。如果達到穩定，結束信道選擇概率的更新；如果沒有達到穩定，則更新選擇概率隨時隙變化繼續更新。

對算法進行MATLAB 軟件仿真，研究其接入性能。

在仿真時，用信道最大可傳輸速率的歸一化值表示信道質量的好壞，定義信道指數為：

式中：sj(k)為信道j在k時刻的最大可傳輸速率；S為所有信道在任意時刻可達到的最大可傳輸速率組成的矩陣。

在信道數量充足場景下，設置用戶數量M=3，時變信道數量N=5，信道指數隨時間的變化如圖2所示。

圖2 信道數量充足場景的信道指數

圖3 展示了每個用戶的信道選擇概率隨著嘗試接入時間的增長而產生的變化。

圖3 信道數量充足場景的信道選擇概率

由圖3 可知，用戶1、用戶2、用戶3 最終分別接入了信道3、信道4、信道5。這表明在信道充足場景下，基于時變信道的分布式頻譜接入算法可以有效地完成頻譜接入。經統計，在該條件下，用戶的接入成功率為85%，接入準確率為75%。

在信道短缺場景下，設置用戶數量M=4，時變信道數量N=3，信道指數隨時間的變化如圖4所示。

圖4 信道數量緊缺場景的信道指數

圖5 展示了每個用戶的信道選擇概率隨著嘗試接入時間的增長而產生的變化。

圖5 信道數量緊缺場景的信道選擇概率

由圖5 可知，用戶1、用戶2、用戶3、用戶4最終分別接入了信道用戶2、用戶3、用戶1、用戶3。這表明在信道短缺場景下，時變信道的分布式頻譜接入算法可以完成頻譜接入，并使用戶共享信道質量較好的信道，提高系統整體性能。經統計，在該條件下，用戶的接入成功率為61%，接入準確率為59%。

3.2 周期重啟的分布式信道選擇算法

時變信道的分布式信道選擇算法可以完成用戶動態頻譜接入的基本需求，但是仍存在一些問題。因此，提出周期重啟的分布式信道選擇算法，可以有效克服無法改變接入結果、信道選擇猶豫等問題，提高系統性能。

3.2.1 周期重啟的分布式信道選擇算法原理

在對時變信道的分布式信道選擇算法的研究過程中發現，該算法可以完成用戶動態頻譜接入的基本需求，但是仍存在兩點問題。

（1）接入成功后無法隨著信道的變化改變接入選擇。在超短波電臺的實際應用環境中，外界環境的變化（如雨雪天氣）以及人為干擾（如其他的設備搶占信道）可能導致已經接入成功的信道發生改變，信道質量變差，最大可傳輸速率減小。此時，已經達到穩定的接入狀態其實并不是最優的頻譜接入結果。

（2）可能產生“信道選擇猶豫”。信道選擇概率矩陣的更新規則決定了在用戶進行信道選擇時，隨著迭代次數的增加，信道狀況發生改變對用戶信道選擇概率改變的影響減小，這可能導致在多次迭代之后，用戶在多個信道之間產生猶豫，無法確定信道進行頻譜接入，最終導致接入失敗。

引入周期重啟的分布式信道選擇算法可以有效緩解以上兩個問題。其改進思路：設定周期重啟時間lmax，每隔一個重啟周期，用戶各自檢查自己是否達到穩定狀態，若已達到穩定狀態，則保持；若未達到穩定狀態，則重啟接入流程，將信道選擇概率初始化，重新進行信道選擇。

3.2.2 周期重啟的分布式信道選擇算法仿真

周期重啟的分布式信道選擇算法仿真可分為如下幾個步驟。

（1）參數初始化。將時隙數k、效用函數、周期嘗試時間l、信道選擇概率進行初始化，用戶i選擇所有信道的概率相同，即對于任意信道j，有。

（2）信道選擇概率矩陣更新。感知信道，獲得傳輸速率，并計算效用函數值。根據式（11）更新信道選擇概率矩陣。

式中：l為嘗試接入時間；lmax為周期重啟時間。

（3）接入狀態判斷。用戶比較各個信道的選擇概率，若對某一信道j的概率大于其他任意信道選擇概率的兩倍，則視為用戶已選定該信道進行接入，并達到穩定狀態。如果達到穩定，結束信道選擇概率的更新；如果沒有達到穩定，則進入重啟周期判斷程序。

（4）重啟周期判斷。接入失敗的用戶進行重啟周期判斷，判斷嘗試接入時間是否達到設定的重啟周期lmax，若達到重啟周期，則認為此周期嘗試接入不成功，初始化信道選擇概率，嘗試重新接入；否則更新選擇概率隨時隙變化繼續更新。

對算法進行MATLAB 軟件仿真，研究周期重啟的分布式信道選擇算法下系統的接入性能。

在信道數量充足場景下，設置用戶數量M=3，時變信道數量N=5，信道指數隨時間的變化如圖6所示。

圖6 信道數量充足場景的信道指數

圖7 展示了每個用戶的信道選擇概率隨著嘗試接入時間的增長而產生的變化。由圖7 可知，用戶1、用戶2、用戶3 最終分別接入了信道3、信道5、信道4。這表明在信道充足場景下，周期重啟的分布式信道選擇算法可以有效地完成頻譜接入。經統計，該條件下，用戶的接入成功率為100%，接入準確率為81%。頻譜接入成功率和接入準確率得到提升，緩解了“信道選擇猶豫”的問題。

圖7 信道數量充足場景的信道選擇概率

在信道短缺場景下，設置用戶數量M=4，時變信道數量N=3，信道指數隨時間的變化如圖8 所示。

圖8 信道數量緊缺場景的信道指數

圖9 表示了每個用戶的信道選擇概率隨著嘗試接入時間的增長而產生的變化。

由圖9 可知，用戶1、用戶2、用戶3、用戶4最終分別接入了信道2、信道3、信道3、信道1。這表明在信道短缺場景下，周期重啟的分布式信道選擇算法可以完成頻譜接入，并使用戶共享信道質量較好的信道，提高系統整體性能。經統計，在該條件下，用戶的接入成功率為90%，接入準確率為86%。

圖9 信道數量緊缺場景的信道選擇概率

對時變信道的分布式信道選擇算法和周期重啟的分布式信道選擇算法下的系統性能進行分析對比，結果如表2 和表3 所示。

表2 三信道下時變信道的頻譜接入性能

通過上述MATLAB 仿真對比分析可以看出，時變信道的分布式信道選擇算法和周期重啟的分布式信道選擇算法都能實現在信道充足和信道短缺條件下的動態頻譜接入需求，但周期重啟的分布式頻譜接入具有更高的系統效益、更短的接入時間、更高的接入成功率和接入準確率，可以更好地滿足分布式超短波電臺用戶的動態頻譜接入要求。

4 技術挑戰及未來工作

本文提出的時變信道的頻譜接入算法和周期重啟的頻譜接入算法可以滿足分布式超短波電臺用戶動態頻譜接入的基本需求，但仍存在一些技術挑戰。

（1）在超短波電臺用戶數量遠大于信道數量的場景下，頻譜接入的速度和準確率難以保證，需要進一步對算法進行優化。

（2）本文中，所有超短波電臺用戶以相同的優先級競爭信道，而在實際通信過程中，由于業務種類不同，各電臺用戶對頻譜的需求也有不同的優先級，在對算法進行改進時可考慮用戶優先級等因素。

5 結語

本文對超短波電臺動態博弈接入進行了研究，建立起超短波電臺通信場景下的動態博弈接入系統模型，提出了時變信道的分布式信道選擇算法和周期重啟的信道選擇算法，并在MATLAB 軟件平臺進行了算法仿真。仿真實驗中，在信道充足和信道短缺場景下，從系統效益、收斂時間、接入成功率和接入準確率4 個方面對頻譜動態博弈接入系統性能進行評估，驗證了算法的有效性與優越性。