基于MDP的Massive MIMO物理層安全算法

2018-11-30 01:47:00侯夢茹張昕然王慶瑞

計算機應用與軟件 2018年11期

蔣華侯夢茹張昕然王慶瑞

1(北京電子科技學院通信工程系北京 100070)2(西安電子科技大學通信工程學院陜西西安 710071)

0 引言

隨著智能終端的普及，人們越來越依賴無線網絡進行重要信息的傳輸。與通過密碼技術保護數據安全的傳統方法相比，通信系統的物理層安全通過利用通信介質的缺陷來提供安全的無線傳輸，不僅不依賴于計算復雜性，同時具有很高的可擴展性，為信息的保密傳輸提供了巨大優勢[1-2]。作為最常用的物理層安全技術，MIMO技術可以在一個或多個非法用戶存在的情況下支持高速率的安全通信[3]。近年提出的大規模多天線陣列MIMO技術可以在不增加帶寬或提高發射功率的情況下顯著提高數據吞吐量和鏈路可靠性，因此成為5G移動通信系統的關鍵技術之一[4-5]。

在Massive MIMO系統中，在發射機上使用非常大的天線陣列(通常為數十甚至數百個)接收器，數百個天線同時服務于數十個用戶。理論和測量結果表明，大規模MIMO技術可以通過利用低復雜度傳輸設計提供的大陣列增益來提供高功率和能源效率。此外，當大量天線部署在基站時，可以降低隨機損傷(如小規模衰落和噪聲)的干擾[6-7]。由于MIMO技術只能輻射天線陣固定下傾角水平方向的波束，為了更好地利用信號傳播的垂直角度分辨率，將MIMO的輻射信號控制在3D空間中，采用矩形、球形或圓柱形的天線陣列配置，被稱為3D MIMO技術。第三代合作伙伴計劃(3GPP)指出，具有大量天線的3D MIMO可被看作是Massive MIMO的實際形式之一[5]。

對于通信系統而言，信道容量上限代表了用戶可達的最大速率。文獻[8]提出了竊聽信道三端口網絡的加密容量的概念。竊聽者通過其自己的通道收聽傳輸信號不能解碼消息的情況下，能夠以嚴格正確的速率可靠地進行通信。即在加密容量存在的情況下，一定存在一種編碼方式使得非法用戶的信道容量為零。同時研究表明，隨著天線陣列規模的增加，信道容量將和天線數呈線性增長的關系。因此對MIMO信道的物理層保密問題引起了研究學者的廣泛興趣[9]。

馬爾可夫決策過程(MDP)模型是在不確定情況下進行順序決策、考慮當前決策的結果和未來的決策機會的數學方法[10]。在近幾年關于Massive MIMO技術的文獻中，經常使用MDP模型作為優化工具，在多小區Massive MIMO系統中實現全局最優。例如使用MDP模型處理Massive MIMO通信系統的資源分配問題[11]。在文獻[12]中，采用SMDP(semi-Markov decision process)方法，提出了一種資源分配方案，以實現OFDMA(orthogonal frequency division multiple Access)多小區協作網絡中保證通信質量業務的最優功率效率。Massive MIMO系統中的功率和速率分配問題在文獻[13]中被建模為CMDP(constrained Markov decision process)，其優化目標是受延遲約束的最小化發射功率。下行鏈路OFDMA系統的功率和子載波分配問題在文獻[14]中被建模為CMDP，優化目標是在平均延遲約束下的最大化能量效率。當模型參數不可知時，強化學習算法被經常用來求解MDP模型。它是從控制理論、統計學、心理學等相關學科發展而來，具有自學習和在線學習的優點[15]。MDP模型的最優策略可以用值迭代和動態規劃算法確定。值迭代算法的優勢在于其在實現上的簡易性，可以用來進一步研究分析得到的最優策略的結構。

本文從物理層角度提出了基于MDP模型的Massive MIMO系統安全傳輸技術。利用互阻抗模型建立了Massive MIMO系統下行鏈路的信道模型。建立了基于平均無折扣回報的MDP模型，利用有限狀態馬氏信道FSMC的區間轉移概率模型[16]，給出了MDP的轉移概率表達式，并提出了基于值迭代的動態規劃算法，計算了全局最優的系統加密容量。通過仿真對算法性能進行了驗證，給出了仿真結果，并對結果進行了分析。仿真結果給出了基站發射信號功率對信道物理層加密容量的影響并評估了算法的性能。

1 系統模型

如圖1所示，系統模型是多小區Massive MIMO系統的下行鏈路模型，此小區包括K個移動用戶，每個小區的基站裝載NT根天線，每個用戶有NR根接收天線。考慮小區中使用相同時頻資源的一個合法用戶和一個竊聽用戶，則系統的物理場景簡化模型如圖2所示。

圖1 多小區Massive MIMO系統模型

圖2 系統下行鏈路簡化模型

系統模型為：

yk,t=Htx+nt

(1)

yk,e=Hex+ne

(2)

式中：x∈NT×1表示基站端的發射信號，yk,t∈NR×1和yk,e∈NR×1分別表示第k個小區的合法用戶和非法用戶接收到的信號和為服從獨立高斯分布，具有零均值和單位方差的加性高斯白噪聲。H={hk}為信道傳輸矩陣。在Massive MIMO信道場景下，應使用互阻抗模型對信道進行建模[5]。因此，第k個小區的傳輸信道為:

(3)

式中：hk∈NR×NT。

(4)

gk=[ZRkvk]T

(5)

ZP=(AZ+LZ)(Ψ+LZI)-1

(6)

(7)

式中：AZ、LZ、MZ分別表示天線的阻抗、負載阻抗和互耦阻抗。矩陣γk∈NT×NR，滿足：

(8)

(9)

2 基于MDP的值迭代算法

2.1 MDP建模

為了模擬系統的物理層時變特性，建立有限狀態馬爾科夫信道(FSMC)模型來描述信道的時變行為。把下行鏈路增益量化為許多區間，第j個區間φj對應一個鏈路增益范圍：φj={φ:χj≤φ≤χj+1}，χj為區間邊界，信道被量化為FSMC模型。為上述Massive MIMO系統建立馬爾科夫決策過程(MDP)模型，模型的組成部分包括，各項分別代表狀態、動作、狀態轉移函數、回報函數，各項表述為：

(2) 動作a：動作用來控制系統的狀態。at表示t時刻下MDP模型的動作，它代表基站的發射功率。馬爾科夫決策過程在t時刻所有可行的行為構成一個行為集，即行為空間At，At={a1,a2,…,aNT}。

(3) 狀態轉移函數p：在離散的時刻t，對狀態st采取動作at，狀態轉移至下一狀態st+1，其轉移通過狀態轉移函數得到。文獻[16]指出，假定在時間間隔T內φ值保持在同一個區間內，在這個時間間隔結束時，可能繼續停留在本區間內或者轉移到相鄰的鏈路增益區間。定義狀態增量函數δ(·)用來表示相鄰狀態的變化量，則區間之間的轉移概率為：

(10)

式中：Lj是χj處的電平通過率，即單位時間內信號包絡向下穿過電平χj的平均次數，滿足:

(11)

式中：fm是多普勒頻率；ρ為基站發送端信噪比的期望。

ρ=E{SNRt}

(12)

(13)

式中：Rt代表單位時間內信號傳輸速率；κj代表當前狀態下的穩態概率，滿足:

(14)

(4) 回報函數c：在與環境的交互過程中，在離散的時隙t，對狀態st采取動作at，狀態轉移至下一狀態st+1，產生回報。在此Massive MIMO系統中，以系統物理層的加密容量作為MDP模型的回報函數。由于Massive MIMO的物理層安全優勢，可獲得加密容量的表達式，從而無需使用任何正式的加密系統，該速率就可以可靠而安全地傳輸[17]。因此，三端口網絡竊聽系統中的加密容量為:

(15)

式中：Rxx=E{xxH}，是發送信號的自相關矩陣。

(5) 策略π：給定一個MDP模型，馬爾科夫策略就是在某一狀態下，決策者所采取的動作或者所采取的動作的概率。而在有限MDP中，一定至少存在一個策略π，使得任意狀態st∈S下，值函數Jπ(st)≥Jπ′(st)，被稱為最優策略π*。簡單來說，解決一項強化學習任務的本質是尋找到最優策略。

2.2 基于值迭代的動態規劃算法

強化學習算法是以評估價值函數為基礎，通過價值函數將MDP的最優標準與策略聯系起來。動態規劃算法是在已知MDP模型的基礎上,首先計算狀態值函數，然后利用模型，計算出該狀態下的最優動作，尋找出最優化策略。為了計算系統最大化加密容量，采用值迭法算法，從初始狀態價值開始反復迭代計算，最終收斂至全局最優價值函數J*，從而達到系統模型的最優結果。

(16)

根據貝爾曼方程，滿足值迭代算法，最優值函數滿足的迭代形式如下：

(17)

式中：l為迭代步數。對于每個狀態s,迭代地更新每一個狀態動作對應的值，得到下一值函數Jl+1(s,a)。直到Jl+1(s,a)達到最優，滿足：

(18)

具體算法見算法1。

算法1基于MDP模型的物理層安全算法

步驟1 輸入轉移概率P(s′|s,a)和獎賞函數R(s,a)

步驟2 初始化參數：令J0(s,a)=0，temp=Jl(s,a)

步驟3 for 每個迭代步l={0,1,2,…}

Jl(s,a)←Jl+1(s,a)

until

|Jl(s,a)-temp|<ε,ε為足夠小量

3 仿真與分析

圖3描述了基站發射信號對信道容量的影響，可以看出，隨著發射端信噪比的增大，加密容量會增大。當最大發送信噪比大于某個門限信噪比時，策略的性能增長趨勢減緩并趨于恒定，因此當發射功率較大時，即使再增加發射功率，也不能進一步提高系統加密容量。同時，竊聽用戶和信道噪聲功率會影響加密容量，竊聽用戶接收信噪比增大，加密容量會減小；信道噪聲功率增大，加密容量減小。因此通信環境需要警惕干擾信號，需要盡量減小干擾信號對加密容量的削弱作用，比如非法竊聽用戶的接收信號和信道噪聲功率的負面影響，從而保證高質量的通信。

由圖4可以看出，隨著竊聽非法用戶接收端信噪比增大，加密容量會下降。非法用戶小規模的竊聽對加密容量的影響不大，當竊聽用戶竊聽信號過大時，信道性能急劇惡化，因此通信傳輸過程中，減少非法用戶的竊聽是保證通信質量的基礎。同時，圖4體現出信道本身的衰減對加密容量也有影響。同等前提條件下，合法用戶信道噪聲功率的增加會削弱加密容量。

圖4 竊聽用戶接收端信噪比對信道容量的影響

表1是MDP模型的策略表，是一個輸出動作標號的序列。它描述了算法在不同狀態下尋找到的最優策略，即基站在每一狀態下選擇的行為以確保模型中的加密容量最大。具體來說，就是在此算法下，基站可以根據不同的信道增益狀態選擇發射功率，使系統模型獲得最大的加密容量。

表1 策略π

4 結語

本文基于MDP模型研究了Massive MIMO系統的物理層安全算法。通過對Massive MIMO下行鏈路模型進行MDP建模，利用值迭代算法求解MDP模型，計算出系統最大化加密容量。根據算法模型，基站可以在不同信道增益下控制發射功率，求解出保證物理層加密容量的全局最優策略。分析結果說明了基站發射信號功率對三端口網絡信道物理層加密容量的影響，即系統的加密容量會隨著基站發射功率的增大而增大，隨著非法竊聽用戶的接收信噪比的增大而減小，證明了算法的正確性和有效性。進一步說明強化學習的相關算法可以解決通信系統中相關的控制問題，為今后的研究奠定了理論和應用基礎。