胡 敏,朱 琦
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
近年來,認(rèn)知無線電成為減輕擁擠無線電頻譜的有效技術(shù),通過動態(tài)的頻譜接入,可以大大地提高現(xiàn)有頻譜資源的利用效率[1-2]。認(rèn)知無線電的關(guān)鍵技術(shù)是頻譜感知,認(rèn)知設(shè)備(即次用戶)感知到主用戶的空閑頻譜后可以以機(jī)會式的方式動態(tài)接入。一般將頻譜感知方法技術(shù)分為發(fā)射機(jī)檢測、協(xié)作檢測和基于干擾的檢測[3],由于受陰影效應(yīng)和深度衰落影響,單節(jié)點(diǎn)感知結(jié)果不準(zhǔn)確,因此需要多個節(jié)點(diǎn)協(xié)作感知來提高檢測可靠性。隨著當(dāng)前科學(xué)技術(shù)的快速發(fā)展和學(xué)習(xí)模式的巨大改變,人們對移動通信方面的需求大大增加,而計算機(jī)技術(shù)是這一需求的依靠。新形勢下的移動通信技術(shù)其實(shí)是依靠計算機(jī)技術(shù)和通信設(shè)備將信息數(shù)據(jù)進(jìn)行傳輸,再經(jīng)過信息處理實(shí)現(xiàn)資源共享和其余的服務(wù)。
計算機(jī)通信技術(shù)是計算機(jī)技術(shù)和通訊技術(shù)的融合,應(yīng)用于實(shí)時遠(yuǎn)程通信、多媒體技術(shù)應(yīng)用和無線計算機(jī)通信技術(shù)等。計算機(jī)通信技術(shù)的原理是把信息轉(zhuǎn)換為數(shù)據(jù),通過數(shù)據(jù)的方式傳遞信息[4]。
文獻(xiàn)[5]中使用基于能量檢測和特征值檢測的兩種頻譜感知技術(shù)來判斷信道是否空閑,通過能量檢測的方法推導(dǎo)了頻譜感知中檢測概率和虛警概率的表達(dá)式,并研究了在主用戶得到充分保護(hù)的約束下,優(yōu)化感知時間來最大化網(wǎng)絡(luò)的吞吐量。文獻(xiàn)[6]通過利用次用戶的空間分集來提高頻譜感知性能。文獻(xiàn)[7]提出了一種分布式協(xié)作算法,兩個次用戶進(jìn)行合作,其中一個次用戶距離主用戶較近,感知準(zhǔn)確性較高,另一個次用戶離主用戶較遠(yuǎn),這樣就不需要集中機(jī)制就可以配對次用戶。
以上研究都是假設(shè)用戶均愿意參與感知任務(wù),但是由于感知頻譜需要消耗用戶終端的資源,因此需要采用一定的激勵機(jī)制來激勵更多的次用戶參與感知。
群智感知可以利用大量的移動設(shè)備共同提供某類感知信息,廣泛應(yīng)用于交通監(jiān)控、環(huán)境監(jiān)控、城市安全等領(lǐng)域[8]。文獻(xiàn)[9]提出了基于斯坦伯格博弈的方法來激勵移動用戶的參與,并使用后向歸納來分析群智感知平臺的最優(yōu)激勵機(jī)制。文獻(xiàn)[10]提出了一種基于反向拍賣的激勵機(jī)制,并在初始激勵中采用Vickrey-Clarke-Groves(VCG)機(jī)制,使得競價成為最終激勵機(jī)制中的主導(dǎo)策略。
文獻(xiàn)[11]提出了一種基于隨機(jī)博弈的激勵機(jī)制,該機(jī)制針對用戶行為的不確定性,通過確定任務(wù)參與者級別,為參與者設(shè)計策略來選擇合適任務(wù),并保證參與者的最低收益。文獻(xiàn)[12]設(shè)計了一種新穎的基于逆向拍賣的動態(tài)定價激勵機(jī)制,提出的激勵機(jī)制側(cè)重于最小化和穩(wěn)定激勵成本,同時通過防止用戶退出參與感知來保持足夠的參與者水平。文獻(xiàn)[13]設(shè)計了一種基于反向拍賣的激勵機(jī)制,其目標(biāo)是通過優(yōu)化系統(tǒng)中人員的組成來最大程度地減少系統(tǒng)維護(hù)成本(包括拍賣成本和招聘成本)。以上研究都沒有將群智感知應(yīng)用到具體場景。
該文將頻譜感知和群智感知相結(jié)合,設(shè)計了一種基于微分博弈的群智頻譜感知算法。將平臺的效用定義為第三方支付的報酬減去付給次用戶的報酬,次用戶的效用定義為平臺支付的報酬減去次用戶參與頻譜感知任務(wù)的花費(fèi),平臺決定任務(wù)的價格,各個次用戶決定對任務(wù)的檢測概率,以獲得各自效用最大為目標(biāo)設(shè)計了一種非合作的微分博弈模型,通過求解反饋納什均衡推導(dǎo)證明了平臺和用戶的最優(yōu)策略。微分博弈是指在時間連續(xù)的系統(tǒng)內(nèi),多個參與者進(jìn)行持續(xù)的博弈,力圖最優(yōu)化各自獨(dú)立、沖突的目標(biāo),最終獲得各參與者隨時間演變的策略并達(dá)到納什均衡,即任何參與者都沒有單獨(dú)改變策略的意愿,其狀態(tài)的演化由微分方程描述。
文中的系統(tǒng)模型如圖1所示,平臺發(fā)布頻譜感知任務(wù),次用戶根據(jù)發(fā)布的任務(wù)對頻譜進(jìn)行感知。假設(shè)次用戶數(shù)為N,各個次用戶均可以通過能量檢測感知主用戶頻段,得到相應(yīng)的檢測結(jié)果和檢測概率,次用戶將相關(guān)信息通過基站發(fā)送到平臺。相關(guān)信息被轉(zhuǎn)化成數(shù)據(jù)在計算機(jī)之間進(jìn)行傳遞,移動通信技術(shù)與計算機(jī)技術(shù)相互促進(jìn)推動,逐漸融合。

圖1 系統(tǒng)模型
檢測概率是頻譜感知的重要參數(shù),用戶i(i=1,2,…,N)能量檢測的檢測概率為[14]:
(1)
其中,Pf表示虛警概率,即當(dāng)主用戶不存在時次用戶誤判主用戶存在的概率,τi為次用戶i的感知時間,fs為采樣頻率,τifs則是采樣點(diǎn)數(shù),SNRi表示次用戶i接收主用戶發(fā)送信號的信噪比,Q函數(shù)為互補(bǔ)累計分布函數(shù):
(2)
平臺和用戶之間存在價格和檢測概率的博弈,用戶通過完成任務(wù)獲得收益,其獲得的收益與檢測概率成正比,由式(1)可以看到,當(dāng)信噪比一定時,獲得的檢測概率與檢測時間有關(guān),檢測時間越長,則檢測概率越高,但是用戶付出的代價越大,因此用戶需要確定最優(yōu)的檢測時間(即檢測概率)以使得自己的效用最大化;另一方面,平臺獲得檢測數(shù)據(jù)需要付出支付給用戶費(fèi)用,并且支付的費(fèi)用與數(shù)據(jù)的檢測概率成正比,因此N個用戶和平臺為了得到自身效用的最優(yōu)進(jìn)行博弈,構(gòu)成了一個N+1的非合作微分博弈。令v(t)表示在時刻t(t∈[t0,T])平臺發(fā)布的頻譜感知任務(wù)單價,ui(t)表示次用戶i在時刻t提供的對頻譜的檢測概率,x(t)表示所有次用戶從開始到時刻t(t∈[t0,T])上報的所有的感知數(shù)據(jù)量。x(t)會隨著用戶上報的檢測概率和平臺決定的任務(wù)價值而改變,其變化可以用微分方程表示為:
(3)
其中,a,b,c為歸一化因子,a>0,b>0表示次用戶上報檢測概率對最終的數(shù)據(jù)量的影響,c>0表示平臺對任務(wù)定價對數(shù)據(jù)量的影響。
每個用戶根據(jù)檢測概率的大小獲得收益,用戶的收益和檢測概率成正比,定義收益函數(shù):
gi=ui(t)v(t)
(4)
用戶進(jìn)行頻譜感知需要消耗存儲資源和電量,將數(shù)據(jù)上傳至平臺時需要消耗電量,因此定義其代價函數(shù):

(5)
其中,δi表示次用戶i頻譜感知的代價,δi與信噪比成反比,次用戶的信噪比越大,δi越小。σi表示次用戶i上傳數(shù)據(jù)的代價,σi與用戶到基站的距離成有關(guān),因此可以定義次用戶i的效用函數(shù):
(6)
其中,α>0為加權(quán)因子。
次用戶的目標(biāo)是最大化個人的累計效用,表示為:

σix(t)]e-r(t-t0)dt+qix(T)e-r(T-t0)
(7)
其中,r>0表示折扣因子,T-t0表示博弈時長,qix(T)表示次用戶的邊緣效用[15]。
平臺完成任務(wù)會獲得第三方的報酬,定義收益函數(shù)為:
(8)
平臺需要付給次用戶報酬以及處理接收到的數(shù)據(jù),因此定義平臺的代價函數(shù)為:
(9)
其中,m>0表示平臺處理數(shù)據(jù)的花費(fèi)。因此定義平臺的效用函數(shù)為:
(10)
其中,β>0為加權(quán)因子。
平臺的目標(biāo)是最大化累計效用,故表示為:
(11)
其中,r>0表示折扣因子,T-t0表示博弈時間間隔,qx(T)表示平臺的邊緣效用。
根據(jù)建立的非合作微分博弈模型(3)、(7)、(11),求解該模型的反饋納什均衡。每個次用戶通過優(yōu)化上報結(jié)果的檢測概率以使效用最大化,平臺通過優(yōu)化任務(wù)的價格以獲得自身效用的最優(yōu),下面將推導(dǎo)次用戶的最優(yōu)檢測概率和平臺最優(yōu)價格的表達(dá)式。

(12)
Ui(T,x)=qix(T)e-r(T-t0)
(13)
對式(12)求ui(t)的一階導(dǎo),并令其等于0,得到反饋納什均衡的解:
(14)
對于平臺來說,如果存在連續(xù)微分函數(shù)V(t,x):[t0,T]×R→R滿足以下的偏微分方程,則策略集v*(t)=φ*(t)是(3)和(11)的反饋納什均衡解[15]:

mx(t)]e-r(t-t0)+Vx(t,x)[ax(t)+
(15)
V(T,x)=qx(T)e-r(T-t0)
(16)
對式(15)求v(t)的一階導(dǎo),并令其等于0,得到反饋納什均衡的解:
(17)
引理1:博弈模型(12)-(13)、(15)-(16)的納什均衡解可以表示為[16]:
Ui(t,x)=e-r(t-t0)[Ai(t)x+Bi(t)]
(18)
V(t,x)=e-r(t-t0)[A(t)x+B(t)]
(19)
其中,
(20)
Ai(T)=qi
(21)
(22)
A(T)=q
(23)
證明:將式(18)和式(19)分別對x和t求導(dǎo),得到如下的表達(dá)式:
(24)
(25)
Vx(t,x)=e-r(t-t0)A(t)
(26)
Vt(t,x)=
(27)
將式(24)-(25)帶入式(12)-(13):
e-r(T-t0)[Ai(T)x+Bi(T)]=e-r(T-t0)qix(T)
(29)
為了使得式(28)-(29)成立,應(yīng)滿足下面的條件:
(30)
求解微分方程(30),得到下面的表達(dá)式:
(31)
將式(26)-(27)帶入式(12)-(13):
e-r(T-t0)[A(T)x+B(T)]=e-r(T-t0)qx(T)
(33)
為了使得式(32)-(33)成立,應(yīng)滿足下面的條件:
(34)
求解微分方程(34),得到下面的表達(dá)式:
(35)
根據(jù)式(14)、(17)、(24)、(26)、(31)、(35),可以得到用戶檢測概率和平臺定價的最優(yōu)解分別為:
(36)
(37)

(39)

將式(37)-(38)代入微分方程(3),可以得到非合作微分博弈最優(yōu)狀態(tài)表達(dá)式:
(40)
該文采用MATLAB進(jìn)行仿真,假設(shè)參與感知的次用戶數(shù)為3,T=5,折扣因子r=0.05,δi服從期望為0.5,方差為0.05的正態(tài)分布,σi服從期望為0.26,方差為0.05的正態(tài)分布,qi服從期望為1.8,方差為0.05的正態(tài)分布,采樣頻率為10 MHz,次用戶的虛警概率為0.01,其余參數(shù)如表1所示。

表1 參數(shù)設(shè)置
圖2(a)給出了r=0.05時三個次用戶的最優(yōu)策略隨時間變化曲線。從圖中可以看出次用戶最優(yōu)的檢測概率隨著時間的增加而增大,這是因為次用戶提高檢測概率參與頻譜感知可以獲得更多的報酬,為了使得效用最大,次用戶會更愿意參與感知任務(wù)。
圖2(b)給出了r=0.05時用戶的最優(yōu)感知時間變化曲線。用戶的信噪比與發(fā)射功率和到主用戶的距離相關(guān),從仿真圖可以看到用戶的感知時間逐漸上升,這是因為在確定的信噪比條件下,檢測概率確定后可由式(1)計算感知時間。

(a)r=0.05時次用戶最優(yōu)檢測概率ui/t隨時間變化曲線

(b)r=0.05時次用戶最優(yōu)感知時間變化曲線圖2 仿真曲線
圖3給出了r=0.05時平臺最優(yōu)價格v(t)隨時間變化曲線。從仿真圖可以看到任務(wù)的價格隨著時間的增加而減小,這是因為隨著時間的增加,平臺能收到的信息增多,平臺為了提高自身效用則盡可能地降低價格。
圖4給出了r取不同值時平臺效用隨時間變化曲線。從仿真圖可以看到r越大平臺的效用越高。當(dāng)r不變時,平臺的效用隨著時間的增加而減小,這是因為v(t)隨著時間的增加而減小,平臺得到的收益也會隨之下降。

圖3 r=0.05時平臺最優(yōu)價格v/t隨時間變化曲線

圖4 平臺效用隨時間變化曲線
圖5給出了當(dāng)用戶均采用最優(yōu)檢測概率時,平臺分別取最優(yōu)價格和固定價格時效用隨用戶數(shù)變化曲線。固定價格取值為0.385,從仿真圖可以看到平臺采用最優(yōu)價格時,平臺效用值高于取固定價格相對應(yīng)的效用,對平臺來說,招募到更多的用戶數(shù)可以提高檢測概率,第三方支付的報酬會增加,平臺效用增加,因此取最優(yōu)價格能夠提高平臺的效用。

圖5 平臺取最優(yōu)價格與固定價格時效用 隨用戶數(shù)變化曲線
圖6給出了當(dāng)平臺取最優(yōu)價格時,用戶分別取最優(yōu)檢測概率和固定檢測概率時的平均效用變化曲線。檢測概率均取0.6,從仿真圖可以看到用戶采取最優(yōu)檢測概率時,用戶的平均效用高于取固定價格相對應(yīng)的平均效用,因此取最優(yōu)檢測概率能夠提高用戶的平均效用。對用戶來說,當(dāng)采取最優(yōu)檢測概率時,用戶的平均效用高于取固定價格相對應(yīng)的平均效用,隨著用戶數(shù)增加,平臺所能增加的檢測概率相對減小,用戶的平均效用隨之下降;當(dāng)用戶采取固定策略時,用戶的平均效用隨著用戶數(shù)的增加而增加,這是因為隨著用戶數(shù)增加,第三方給的報酬會增加,所以用戶的平均效用會增加。

圖6 用戶取最優(yōu)檢測概率與固定檢測概率時 平均效用隨用戶數(shù)變化曲線
通信技術(shù)的開展離不開計算機(jī)技術(shù),當(dāng)下用戶對通信技術(shù)最關(guān)注的是其可靠性、安全性和保密性,將計算機(jī)技術(shù)的優(yōu)勢和功能與通信技術(shù)結(jié)合起來,可以加快計算機(jī)通信技術(shù)的發(fā)展。該文將群智感知與頻譜感知相結(jié)合,提出了一種基于微分博弈的群智頻譜感知算法。平臺的效用定義為第三方支付的報酬減去付給次用戶的報酬,次用戶的效用定義為平臺支付的報酬減去次用戶參與頻譜感知任務(wù)的成本,以各自效用最大為目標(biāo)設(shè)計了一種非合作的微分博弈模型,通過求解反饋納什均衡獲得了平臺和用戶的最優(yōu)策略,即平臺決定任務(wù)的最優(yōu)價格,各個次用戶確定頻譜的最優(yōu)檢測概率(即感知時間)。仿真結(jié)果表明,平臺和次用戶采取最優(yōu)策略時效用高于采取固定策略時的效用。