王 韜,張彥波,張 宇,呂浩杰,劉 勇
(河南大學 物理與電子學院,河南 開封475004)
無線傳感器網絡(WSNs)由許多微小的傳感器節點組成[1],大量節點間的通信使得無線信道變得擁擠不堪。無線信道資源高效公平的使用能夠減少不必要的數據擁塞[2]。近年來,博弈論被廣泛應用于信號處理與通信的各個領域,特別是在信道資源分配方面[3~7]。林曉鵬等人提出一種基于進化博弈的網格資源分配方法對資源分配策略進行調整[6]。Brandt H 等人在博弈機制中增加聲譽和懲罰機制來實現個體間的高度合作和公平性[7]。本文以博弈論中的抓錢博弈模型為基礎,設計一種加入信譽與權重機制的算法,通過實驗分析,該算法能夠保證信道資源的高效公平使用,減少數據擁塞。
在抓錢博弈模型里,有兩個用戶A 和B,每個用戶都有一套策略,策略集合有兩種策略:抓錢或者忽略。在無線通信場景中,1 表示用戶試圖占用信道;0 表示放棄。用C 表示信道,如果信道被占用,C 的狀態記為1;如果信道沒有被占用,C 的狀態記為0。具體如表1 所示。

表1 用戶A,B 和C 的策略選擇情況Tab 1 Strategy selection situation of user A,B and C
在每次博弈中,用戶A 和B 只能有一種策略。A 和B博弈的增益矩陣下如表2 所示。

表2 用戶A,B 的收益選擇情況Tab 2 Profit selection situation of user A and B
在本文中,研究兩個用戶A 和B 對一條信道的占用情況。首先,對系統進行初始化。前m 次博弈用戶A 和B 的策略隨機生成后,用戶根據前m 次博弈中獲得最大增益的策略來選擇第m+1 次的策略[9]。例如:對用戶A 來說,如果e0>e1(e0,e1分別表示最近m 次博弈中A 選擇0 策略或者1 策略的增益之和(earnings,e)),則第m+1 次A 選0策略;如果e0≤e1,則第m+1 次A 會選擇1 策略。這樣A和B 每次策略的選取都是根據自身前m 次博弈獲得的增益情況來進行策略的選取。
為了保證用戶使用信道的公平性,引入信譽機制[7]。信譽值(reputation value,rv)是一個可調節的閾值,若用戶在m 次的博弈中選擇某一策略的次數(strategy,s)高于閾值,則第m+1 次強制該用戶選擇另一策略。對于用戶A,當e0>e1時:若s0≥rv,則第m+1 次A 選1 策略;若s0<rv,則第m+1 次A 選策略1。s0的值由式(1)得出

sm0表示第m 次用戶A 是否選擇0 策略的策略值。如果選擇策略0,則sm0=1;如果選擇策略1,則sm0=0。
人的記憶會隨著時間的推移而逐漸衰退,越早策略的作用在整個策略集合中所占比重越低。為了增加算法的真實性,又加入權重(weight value,wv)機制。權重值與策略值一一對應,m 個權重值組成了一個權重值數列。對于用戶A,e0>e1:假定權重值數列的每一項分別是wv1,wv2,wv3…wvm。如果s0≥rv,則第m+1 次A 選1 策略;如果s0<rv,則第m+1 次用戶A 選策略1。此時s0的表達式如式(2)所示

式(3)為權重值數列為等權重時的特例

本文使用Matlab 2012a 作為工具來模擬實驗場景,一些模擬參數:
m=20 為初始化階段的循環次數,L=1000 為除去初始化階段每輪總的循環次數,n=50 為總輪數,為了更好地描述不同的增益值與信道利用率的關系,本文使用P=g/h表示不同的增益值,g∈[0.01,0.99],h=1-g。
當rv=10,在不同P 值下隨機賦值和加入信譽機制的程序的對比圖。用戶的信道使用情況如圖1 所示,P 值用對數形式表示。

圖1 不同P 值對A,B 的信道利用率的影響Fig 1 Influence of different P on utilization of channel of A and B
通過圖1 可以發現:不同的P 值對用戶A,B 的信道的使用量影響不大。加入信譽值機制以后,A,B 的信道占用量在相同P 值的情況下基本一致,并且遠高于隨機賦值的情況,這就保證了用戶的公平性。
圖2 為取P=0.45,不同的信譽值(rv∈[0,20]) 對用戶A,B 及總的信道利用率的影響。

圖2 不同的信譽值對A,B 及總的信道利用率的影響Fig 2 Influence of different RV on A and B and total utilization of channel
圖2 中,mva,mvb,mvc分別表示用戶A,B 及信道C 在50 輪里每輪信道占用量的平均值(mean value,mv),其表達式分別如下

式中 ai,bi,ci分別為用戶A,B 及信道C 在第i 輪的信道使用量。
從圖2 中可以看出:rv 與mva,mvb,mvc的關系可以用分段函數來表達,rv 與mvc的關系表達式式(7)

圖3 描述了加入權重值機制后,取rv=10,不同的權重值數列對用戶A,B 和信道C 的信道利用率的影響,P 值用對數形式表示。

圖3 不同權重值數列對信道C 利用率的影響Fig 3 Influence of different series of weight values on utilization ratio of channel C
圖3 中,用“.”,“。”,“*”標記的曲線分別代表采用等差數列、等權重值數列及斐波那契數列的算法在不同的P 值下的信道使用情況。采用等權重值數列和斐波那契數列的算法在相同的P 值處信道占用量相差不大,使用等差數列的算法與前兩者相比,其信道占用量有了很大程度的提高,其最高處的信道利用率為92.6%,最低處為58.4%,平均的信道利用率達到了71.4%。信道利用率由信道占用量除以L 得到。
以上所有圖形表明:加入信譽和權重機制的算法不僅能夠保證用戶使用信道的公平性,而且大大提高了信道的利用率。
無線信道資源是一種不可再生資源,如何更好地分配無線信道資源是一個非常重要的問題。本文引入基于抓錢游戲的信譽和權重機制來進行無線信道資源配置的原理研究。信譽機制用于保證用戶的公平性,權重機制用于提高信道利用率。仿真結果表明:這兩種機制不僅能夠保證用戶的公平性,也大大提高信道的利用率。
[1] 戴菲菲,彭 力,董國勇.改進K-ACO 無線傳感器網絡的分簇路由算法[J].傳感器與微系統,2013,32(8):135-139.
[2] 孫利民,周新運.無線傳感器網絡的擁塞控制技術[J].計算機研究與發展,2008,45(1):3-72.
[3] 曾 軻.基于博弈論的認知無線電頻譜分配技術研究[D].成都:成都電子科技大學,2007:20-21.
[4] 叢 犁.基于博弈論的無線網絡資源分配策略研究[D].西安:西安電子科技大學,2011:3.
[5] 林曉鵬,郭東輝.基于進化博弈的網格資源分配方法的研究[J].計算機仿真,2011,28(3):155-158.
[6] 許 力,陳志德,黃 川.博弈理論在無線網中的應用[M].北京:科學出版社,2012:109.
[7] Brandt H,Hauert C,Sigmund K.Punishment and reputation in spatial public goods games[C]∥Proceedings of the Royal Society B—Biological Sciences,2003,270(1519):1099-1104.