基于Q—學習算法的礦井自適應OFDM調制研究

2021-07-02 08:57:12朱靜茹張育芝王安義李萍

工礦自動化 2021年6期

關鍵詞：系統

朱靜茹，張育芝，王安義，李萍

(西安科技大學通信與信息工程學院，陜西西安 710054)

0 引言

煤礦無線通信系統已成為煤礦信息化和安全生產的重要組成部分。與地面無線通信相比，煤礦井下粗糙的巷壁和障礙物會導致煤礦無線通信系統信號幅度大范圍波動，造成信號嚴重衰落，導致煤礦無線通信系統誤碼率上升，降低了通信質量[1]。因此，如何緩解礦井無線信道衰落對礦井無線通信系統性能的影響是亟需解決的問題。國內外學者針對該問題進行了大量研究，采取自適應OFDM (Orthogonal Frequency Division Multiplexing，正交頻分復用)調制技術來對抗衰落，提高頻譜利用率，降低誤碼率。文獻[2]將OFDM自適應調制技術應用于井下無線多媒體監測場景來緩解頻率選擇性衰落帶來的影響，提高了井下多媒體傳感器網絡的可靠性。文獻[3]將OFDM自適應調制技術引入井下無線通信系統，解決了煤礦井下多徑干擾嚴重的問題，提高了井下通信的抗噪性和實時性。文獻[4]設計了一種能根據信道特征動態改變其比特和功率分配的自適應OFDM算法，提高了井下無線數據傳輸的抗干擾性。但以上礦井自適應OFDM調制技術均假設信道狀態已知，依靠提前確定的固定信噪比門限選擇相應的調制方式，調制方式不夠智能化，且在實際礦井無線信道中由發送端到達接收端的信號是時變信號，信號傳輸過程中存在時延，且接收端信噪比估計不是理想估計，導致信號發送端接收到的反饋信道狀態與實際信道狀態不能完全匹配，造成傳統基于固定信噪比門限的自適應OFDM調制系統誤碼率高及吞吐量低等問題。

Q-學習算法在一定條件下只需采用貪婪策略即可保證收斂，是一種與模型無關的強化學習算法。針對上述問題，本文提出了一種基于Q-學習算法的自適應OFDM調制方法，并將其用于礦井自適應OFDM調制系統。發送端可不用提前已知信道狀態信息，在與信道的交互中不斷更新狀態-動作值函數，最終利用狀態-動作值函數學習出動態礦井無線衰落信道下的最佳自適應調制策略，達到降低礦井無線通信系統誤碼率，提高吞吐量的目的。

1 礦井自適應OFDM調制系統

1.1 系統原理

礦井自適應OFDM調制系統由發送端、礦井無線信道和接收端組成，如圖1所示。發送端為礦井下裝有傳感器的小車，可以在狹長的巷道內自由移動。

圖1 礦井自適應OFDM調制系統組成Fig.1 Composition of mine adaptive OFDM modulation system

礦井小車在移動過程中的自適應調制過程如圖2所示。發送端在B1處向接收端發送信道狀態信息(Channel State Information，CSI)測試信號，接收端在經過時延后收到CSI測試信號，并對接收到的CSI測試信號進行估計后將結果反饋給發送端，最后發送端移動到B3處，根據接收到的反饋CSI測試信號自適應地分配調制方式。

圖2 礦井信道自適應OFDM調制過程Fig.2 Adaptive OFDM modulation process of mine channel

1.2 礦井無線信道衰落模型

礦井無線信道易受噪聲等外界因素影響，存在衰落現象。一般可將巷道內無線信道衰落分為大尺度衰落和小尺度衰落2種。

1.2.1 巷道內大尺度衰落

巷道內大尺度衰落包括自由空間路徑損耗和礦井環境下特定的電磁波傳播損耗[5-6]。對于任意距離，特定時間與位置下的路徑損耗ζ(t,d)服從正態分布，單位為dB。

(1)

式中：t為時間；d為信號傳輸距離；d0為參考距離；n為路徑損耗指數，表示路徑損耗增長速率；Xσ(t)為陰影衰落，服從均值為0、方差為σ2的正態分布。

礦井巷道中電磁波傳播損耗與巷道壁的粗糙度、傾斜度和天線的極化方式等相關，其中垂直極化衰減損耗為

(2)

式中：λ為電磁波信號波長；z為收發天線距離；ω為水平傳播方向的半波數；a，b分別為巷道的寬和高；φ1，φ2分別為兩側和頂底板的相對介電常數；ρ為垂直傳播方向的半波數。

水平極化波的總損耗為

Ltotal=Lhor+Lrough+Ltile

(3)

式中：Lhor為水平極化損耗；Lrough為粗糙損耗；Ltile為傾斜損耗。

(4)

(5)

(6)

式中：Δh為巷道表面的起伏高度；?為頂壁和巷道壁的傾斜角度。

1.2.2 巷道內小尺度衰落

本文以礦井無線信道普遍采用的Nakagami-m衰落作為巷道內小尺度衰落模型，其概率密度函數[7]為

(7)

式中：r為Nakagami-m包絡；m為衰落因子，表征信號衰落強度，m值越大表示信號衰落越小；Γ(·)為Gamma函數；Ω為平均功率。

用Nakagami-m分布能夠準確地表征多徑信號在復雜場景的衰落情況。采用正弦求和法仿真Nakagami-m衰落信號，將隨機序列分解為整數部分和小數部分，Nakagami-m衰落信號為

(8)

式中：α和β分別為調整整數部分和小數部分的參數，β=2m-αp；p為2m的整數部分；g1(t)，g2(t)為均值為0、方差相等的2個不相關的實高斯隨機過程。

采用多個正弦波的疊加來逼近隨機過程g1(t)和g2(t)，用等間隔方法來獲得多普勒系數和多普勒頻率。

(9)

式中：N為正弦波個數；cl為第l個正弦波的幅度；fl為第l個正弦波的頻率；θl為第l個正弦波的相位。

(10)

(11)

式中：v為礦井小車運動速度。

1.2.3 礦井無線信道衰落特性分析

發送端天線采用水平極化方式，v=15 km/h，n=2，a=4 m，b=3 m，φ1=φ2=4.5，ω=1，ρ=1，m=1，N=40，d0=1m，Xσ(t)服從均值為0、方差為5的正態分布，Δh服從均值為0.1、方差為0.05的正態分布。基于以上參數對礦井無線信道衰落特性進行分析。礦井無線信道衰落特性如圖3所示，藍色曲線為大尺度衰落和小尺度衰落疊加后的結果，總體呈下降趨勢；紅色曲線為擬合結果，表征了大尺度衰落的趨勢，即收發端距離越遠，衰落越嚴重。

圖3 礦井無線信道衰落特性Fig.3 Fading characteristics of mine wireless channel

礦井巷道長且不平整，井下設備多，影響井下移動設備的移動速度，不同移動速度對應不同的衰落程度，因此，本文對2種礦井小車移動情況下的衰落特性進行分析。

(1) 假設礦井小車以15 km/h速度從距發送端100～200 m之間往復移動，總路程為1 km，用時240 s，勻速移動狀態下礦井信道衰落特性如圖4所示。隨著礦井小車往復移動，衰落呈現周期性變化。

(2) 礦井小車從距發送端100～200 m之間往復移動，總路程為1 km，前500 m移動速度為15 km/h，后500 m移動速度變為20 km/h，總用時210 s，礦井小車移動速度變化狀態下礦井無線信道衰落特性如圖5所示。與圖4相比，后500 m的信道衰落更加劇烈，這是因為隨著移動速度增大，Nakagami-m衰落更加劇烈。

圖4 礦井小車勻速移動狀態下礦井無線信道衰落特性Fig.4 Fading characteristics of mine wireless channel as mine cart in the uniform movement state

圖5 礦井小車移動速度變化下礦井無線信道衰落特性Fig.5 Fading characteristic of mine wireless chamel as mine cart in the non-uniform morement state

2 基于Q-學習算法的自適應OFDM調制方法

2.1 Q-學習算法基本原理

Q-學習算法是Chris Watkins將時間差分與最優控制問題融合后提出的一種強化學習算法，通過對狀態-動作值函數進行估計來逼近最優策略。

Q-學習算法框架由智能體、環境、狀態、動作和獎勵5個要素組成，如圖6所示。在每個時刻，智能體都能從環境中接收到一個狀態并通過策略產生一個動作與環境繼續交互，環境會產生新的狀態，同時給出一個獎勵，智能體更新狀態-動作值函數并進入下一狀態。如此循環，智能體與環境不停交互，從而產生更多的數據(狀態和獎勵)，并利用新的數據進一步改善智能體所采取的動作，最終學習相應任務下的最優策略[8-9]。

圖6 Q-學習算法原理Fig.6 Principle of Q-learning algorithm

Q-學習算法中狀態-動作值函數的迭代公式為[10]

Q(S,A)←Q(S,A)+η[R+

γmaxQ(Snext,Anext)-Q(S,A)]

(12)

式中：Q(S,A)為當前時刻的狀態-動作值，S為當前時刻的狀態，A為當前時刻所采取的動作；η為學習率；R為當前時刻所采取動作得到的獎勵；γ為折扣因子；Q(Snext,Anext)為下一時刻的狀態-動作值，Snext為下一時刻的狀態，Anext為下一時刻所采取的動作。

2.2 基于Q-學習算法的自適應OFDM調制

Q-學習算法中智能體為發送端；環境為礦井無線信道；狀態集為礦井小車移動過程中不同時刻收到的反饋狀態信息即信噪比(SNR)；動作集為OFDM系統下BPSK、4QAM、8QAM、16QAM 4種調制方式；獎勵為4種調制方式在不同信噪比條件下的吞吐量。

基于Q-學習算法的礦井自適應OFDM調制根據不斷更新的狀態-動作值函數，采用貪婪策略來分配調制方式，具體步驟[11-13]為

步驟1：隨機初始化Q表(一般為0)。

步驟2：初始化信道狀態S，使用貪婪策略根據信道狀態S選取一個動作A，即為選取一個調制方式。

步驟3：執行動作A，觀測獎勵值R和下一個狀態Snext。

步驟4：利用式(12)更新Q表。

步驟5：設置下一狀態為當前狀態，即S=Snext，若S未達到目標狀態，則轉至步驟3。

根據實際信道狀態計算獎勵值R，貪婪策略以ε的概率隨機選擇未知的一個調制方式，避免系統陷入局部最優，1-ε的概率選擇當前狀態下最大狀態-動作值對應的調制方式；狀態-動作值更新函數學習率控制連續時刻所能獲得狀態-動作值之間的差異，折扣因子γ決定下一時刻所獲得反饋獎勵的大小。因此，合適的貪婪系數ε、學習率η、折扣因子γ是提升整個礦井自適應OFDM調制系統性能的關鍵。

3 仿真分析

應用Matlab仿真軟件，在礦井小車2種移動狀態下，對基于Q-學習算法的自適應OFDM調制系統和基于SARSA(State-Action-Reward-State-Action)算法[14-15]、固定信噪比門限的自適應OFDM調制系統的誤碼率和吞吐量性能進行仿真對比。

仿真環境如圖1所示，接收端在礦井巷道入口的固定位置接收CSI信號，發送端處于移動狀態下進行信號發送；以4G通信系統為參考，將OFDM系統載波數設為1 024個，采用BPSK、4QAM、8QAM、16QAM 4種調制方式進行自適應OFDM調制。

固定信噪比門限數值從OFDM系統下4種調制方式吞吐量隨信噪比變化曲線中得到：當SNR<3 dB時選擇BPSK；3 dB≤SNR<8 dB時選擇4QAM；8 dB≤SNR<22 dB時選擇8QAM；SNR≥22 dB時選擇16QAM。Q-學習和SARSA算法中ε=0.1，η=0.9，γ=0.9。

2種移動狀態對應的衰落信道信噪比序列為發射功率減去對應的接收功率損耗和加性高斯白噪聲后得到的序列。其中發射功率為90 dB，加性高斯白噪聲的方差是從7 dB的接收噪聲數值計算中得到[16]。

3.1 Q-學習算法參數

在礦井小車勻速移動對應的衰落信道下，仿真ε、η和γ取不同值時對基于Q-學習算法和SARSA算法的自適應OFDM調制系統吞吐量性能的影響，ε、η和γ的取值范圍為(0，1)，步長為0.1，仿真結果如圖7—圖9所示。

圖7 不同貪婪系數ε下的系統吞吐量性能Fig.7 System throughput performance under different ε

圖8 不同學習率η下的系統吞吐量性能Fig.8 System throughput performance under different η

從圖7可看出，隨著貪婪系數ε的增大，基于Q-學習算法和SARSA算法的礦井自適應OFDM調制系統吞吐量性能逐漸下降，在貪婪系數取0.1時，2種系統吞吐量性能均達到最佳。從圖8可看出，在學習率為0.9時，基于Q-學習算法的礦井自適應OFDM調制系統取得最大吞吐量。從圖9可看出，在折扣因子取0.9時，基于Q-學習算法和SARSA算法的礦井自適應OFDM調制系統均可獲得最大吞吐量。

圖9 不同折扣因子γ下的系統吞吐量性能Fig.9 System throughput performance under different γ

綜上，當ε=0.1，η=0.9，γ=0.9時，基于Q-學習算法和SARSA算法的礦井自適應OFDM調制系統均可獲得良好的吞吐量性能。

3.2 仿真結果

3.2.1 礦井小車勻速移動時仿真結果

在礦井小車勻速移動情況下，基于固定信噪比門限、SARSA算法、Q-學習算法的3種自適應OFDM調制系統性能對比如圖10所示。

(a) 基于固定信噪比門限的自適應OFDM調制系統性能

(b) 基于SARSA算法的自適應OFDM調制系統性能

從圖10可看出，在礦井小車勻速運動情況下，基于Q-學習算法的自適應OFDM調制系統的誤碼率小于基于固定信噪比門限和SARSA算法的自適應OFDM調制系統，且誤碼率在經過多次迭代學習后下降并最終趨于穩定。

3.3.2 礦井小車移動速度變化時仿真結果

在礦井小車移動速度變化情況下，基于固定信噪比門限、SARSA算法、Q-學習算法的自適應OFDM調制系統性能對比如圖11所示。

(a) 基于固定信噪比門限的自適應OFDM調制系統性能

(b) 基于SARSA算法的自適應OFDM調制系統性能

從圖11可看出，在移動速度變化情況下，基于SARSA 算法和基于Q-學習算法的自適應OFDM調制系統誤碼率明顯小于基于固定信噪比門限的自適應OFDM調制系統；基于SARSA算法的自適應OFDM調制系統在經過500次迭代后誤碼率降低并最終趨于穩定，基于Q-學習算法的自適應OFDM調制系統在經過300次迭代后誤碼率下降并逐漸趨于穩定，其收斂速度優于SARSA算法。

對礦井小車2種不同移動狀態下基于固定信噪比門限、SARSA算法、Q-學習算法的3種自適OFDM調制系統的平均誤碼率和總吞吐量進行統計，結果見表1。

表1 3種自適應OFDM調制系統的平均誤碼率和總吞吐量Table 1 Average bit error rate and throughput of three adaptive OFDM modulation systems

由表1可知，礦井小車勻速移動狀態下基于Q-學習算法的自適應OFDM調制系統平均誤碼率為1.1×10-3，總吞吐量為3 115 bit，性能最佳；礦井小車移動速度變化情況下基于Q-學習算法的自適應OFDM調制系統平均誤碼率為2.1×10-3，總吞吐量為2 719 bit，性能最佳。

4 結論

提出了一種基于Q-學習算法的礦井自適應OFDM調制方法，并將其應用于礦井自適應OFDM調制系統。與基于SARSA算法和固定信噪比門限的礦井自適應OFDM調制系統性能進行了仿真對比，仿真結果表明：

(1) 通過優化Q-學習算法中貪婪系數、學習率和折扣因子，可以使基于Q-學習算法的礦井自適應OFDM調制系統吞吐量性能達到最佳。

(2) 礦井小車在勻速和移動速度變化狀態下，基于Q-學習算法的自適應OFDM調制系統的平均誤碼率和總吞吐量均優于基于SARSA算法和固定信噪比門限的自適應OFDM調制系統。

(3) Q-學習和SARSA算法應用于礦井自適應OFDM調制系統時，Q-學習算法收斂速度優于SARSA算法。