基于微分博弈的群智頻譜感知算法

2021-04-06 10:13:50胡敏，朱琦

計算機(jī)技術(shù)與發(fā)展 2021年3期

關(guān)鍵詞：用戶檢測

胡敏，朱琦

(南京郵電大學(xué) 通信與信息工程學(xué)院，江蘇南京 210003)

0 引言

近年來，認(rèn)知無線電成為減輕擁擠無線電頻譜的有效技術(shù)，通過動態(tài)的頻譜接入，可以大大地提高現(xiàn)有頻譜資源的利用效率[1-2]。認(rèn)知無線電的關(guān)鍵技術(shù)是頻譜感知，認(rèn)知設(shè)備(即次用戶)感知到主用戶的空閑頻譜后可以以機(jī)會式的方式動態(tài)接入。一般將頻譜感知方法技術(shù)分為發(fā)射機(jī)檢測、協(xié)作檢測和基于干擾的檢測[3]，由于受陰影效應(yīng)和深度衰落影響，單節(jié)點(diǎn)感知結(jié)果不準(zhǔn)確，因此需要多個節(jié)點(diǎn)協(xié)作感知來提高檢測可靠性。隨著當(dāng)前科學(xué)技術(shù)的快速發(fā)展和學(xué)習(xí)模式的巨大改變，人們對移動通信方面的需求大大增加，而計算機(jī)技術(shù)是這一需求的依靠。新形勢下的移動通信技術(shù)其實(shí)是依靠計算機(jī)技術(shù)和通信設(shè)備將信息數(shù)據(jù)進(jìn)行傳輸，再經(jīng)過信息處理實(shí)現(xiàn)資源共享和其余的服務(wù)。

計算機(jī)通信技術(shù)是計算機(jī)技術(shù)和通訊技術(shù)的融合，應(yīng)用于實(shí)時遠(yuǎn)程通信、多媒體技術(shù)應(yīng)用和無線計算機(jī)通信技術(shù)等。計算機(jī)通信技術(shù)的原理是把信息轉(zhuǎn)換為數(shù)據(jù)，通過數(shù)據(jù)的方式傳遞信息[4]。

文獻(xiàn)[5]中使用基于能量檢測和特征值檢測的兩種頻譜感知技術(shù)來判斷信道是否空閑，通過能量檢測的方法推導(dǎo)了頻譜感知中檢測概率和虛警概率的表達(dá)式，并研究了在主用戶得到充分保護(hù)的約束下，優(yōu)化感知時間來最大化網(wǎng)絡(luò)的吞吐量。文獻(xiàn)[6]通過利用次用戶的空間分集來提高頻譜感知性能。文獻(xiàn)[7]提出了一種分布式協(xié)作算法，兩個次用戶進(jìn)行合作，其中一個次用戶距離主用戶較近，感知準(zhǔn)確性較高，另一個次用戶離主用戶較遠(yuǎn)，這樣就不需要集中機(jī)制就可以配對次用戶。

以上研究都是假設(shè)用戶均愿意參與感知任務(wù)，但是由于感知頻譜需要消耗用戶終端的資源，因此需要采用一定的激勵機(jī)制來激勵更多的次用戶參與感知。

群智感知可以利用大量的移動設(shè)備共同提供某類感知信息，廣泛應(yīng)用于交通監(jiān)控、環(huán)境監(jiān)控、城市安全等領(lǐng)域[8]。文獻(xiàn)[9]提出了基于斯坦伯格博弈的方法來激勵移動用戶的參與，并使用后向歸納來分析群智感知平臺的最優(yōu)激勵機(jī)制。文獻(xiàn)[10]提出了一種基于反向拍賣的激勵機(jī)制，并在初始激勵中采用Vickrey-Clarke-Groves(VCG)機(jī)制，使得競價成為最終激勵機(jī)制中的主導(dǎo)策略。

文獻(xiàn)[11]提出了一種基于隨機(jī)博弈的激勵機(jī)制，該機(jī)制針對用戶行為的不確定性，通過確定任務(wù)參與者級別，為參與者設(shè)計策略來選擇合適任務(wù)，并保證參與者的最低收益。文獻(xiàn)[12]設(shè)計了一種新穎的基于逆向拍賣的動態(tài)定價激勵機(jī)制，提出的激勵機(jī)制側(cè)重于最小化和穩(wěn)定激勵成本，同時通過防止用戶退出參與感知來保持足夠的參與者水平。文獻(xiàn)[13]設(shè)計了一種基于反向拍賣的激勵機(jī)制，其目標(biāo)是通過優(yōu)化系統(tǒng)中人員的組成來最大程度地減少系統(tǒng)維護(hù)成本(包括拍賣成本和招聘成本)。以上研究都沒有將群智感知應(yīng)用到具體場景。

該文將頻譜感知和群智感知相結(jié)合，設(shè)計了一種基于微分博弈的群智頻譜感知算法。將平臺的效用定義為第三方支付的報酬減去付給次用戶的報酬，次用戶的效用定義為平臺支付的報酬減去次用戶參與頻譜感知任務(wù)的花費(fèi)，平臺決定任務(wù)的價格，各個次用戶決定對任務(wù)的檢測概率，以獲得各自效用最大為目標(biāo)設(shè)計了一種非合作的微分博弈模型，通過求解反饋納什均衡推導(dǎo)證明了平臺和用戶的最優(yōu)策略。微分博弈是指在時間連續(xù)的系統(tǒng)內(nèi)，多個參與者進(jìn)行持續(xù)的博弈，力圖最優(yōu)化各自獨(dú)立、沖突的目標(biāo)，最終獲得各參與者隨時間演變的策略并達(dá)到納什均衡，即任何參與者都沒有單獨(dú)改變策略的意愿，其狀態(tài)的演化由微分方程描述。

1 系統(tǒng)模型

文中的系統(tǒng)模型如圖1所示，平臺發(fā)布頻譜感知任務(wù)，次用戶根據(jù)發(fā)布的任務(wù)對頻譜進(jìn)行感知。假設(shè)次用戶數(shù)為N，各個次用戶均可以通過能量檢測感知主用戶頻段，得到相應(yīng)的檢測結(jié)果和檢測概率，次用戶將相關(guān)信息通過基站發(fā)送到平臺。相關(guān)信息被轉(zhuǎn)化成數(shù)據(jù)在計算機(jī)之間進(jìn)行傳遞，移動通信技術(shù)與計算機(jī)技術(shù)相互促進(jìn)推動，逐漸融合。

圖1 系統(tǒng)模型

檢測概率是頻譜感知的重要參數(shù)，用戶i(i=1,2,…,N)能量檢測的檢測概率為[14]：

(1)

其中，Pf表示虛警概率，即當(dāng)主用戶不存在時次用戶誤判主用戶存在的概率，τi為次用戶i的感知時間，fs為采樣頻率，τifs則是采樣點(diǎn)數(shù)，SNRi表示次用戶i接收主用戶發(fā)送信號的信噪比，Q函數(shù)為互補(bǔ)累計分布函數(shù)：

(2)

平臺和用戶之間存在價格和檢測概率的博弈，用戶通過完成任務(wù)獲得收益，其獲得的收益與檢測概率成正比，由式(1)可以看到，當(dāng)信噪比一定時，獲得的檢測概率與檢測時間有關(guān)，檢測時間越長，則檢測概率越高，但是用戶付出的代價越大，因此用戶需要確定最優(yōu)的檢測時間(即檢測概率)以使得自己的效用最大化；另一方面，平臺獲得檢測數(shù)據(jù)需要付出支付給用戶費(fèi)用，并且支付的費(fèi)用與數(shù)據(jù)的檢測概率成正比，因此N個用戶和平臺為了得到自身效用的最優(yōu)進(jìn)行博弈，構(gòu)成了一個N+1的非合作微分博弈。令v(t)表示在時刻t(t∈[t0,T])平臺發(fā)布的頻譜感知任務(wù)單價，ui(t)表示次用戶i在時刻t提供的對頻譜的檢測概率，x(t)表示所有次用戶從開始到時刻t(t∈[t0,T])上報的所有的感知數(shù)據(jù)量。x(t)會隨著用戶上報的檢測概率和平臺決定的任務(wù)價值而改變，其變化可以用微分方程表示為：

(3)

其中，a，b，c為歸一化因子，a>0，b>0表示次用戶上報檢測概率對最終的數(shù)據(jù)量的影響，c>0表示平臺對任務(wù)定價對數(shù)據(jù)量的影響。

每個用戶根據(jù)檢測概率的大小獲得收益，用戶的收益和檢測概率成正比，定義收益函數(shù)：

gi=ui(t)v(t)

(4)

用戶進(jìn)行頻譜感知需要消耗存儲資源和電量，將數(shù)據(jù)上傳至平臺時需要消耗電量，因此定義其代價函數(shù)：

(5)

其中，δi表示次用戶i頻譜感知的代價，δi與信噪比成反比，次用戶的信噪比越大，δi越小。σi表示次用戶i上傳數(shù)據(jù)的代價，σi與用戶到基站的距離成有關(guān)，因此可以定義次用戶i的效用函數(shù)：

(6)

其中，α>0為加權(quán)因子。

次用戶的目標(biāo)是最大化個人的累計效用，表示為：

σix(t)]e-r(t-t0)dt+qix(T)e-r(T-t0)

(7)

其中，r>0表示折扣因子，T-t0表示博弈時長，qix(T)表示次用戶的邊緣效用[15]。

平臺完成任務(wù)會獲得第三方的報酬，定義收益函數(shù)為：

(8)

平臺需要付給次用戶報酬以及處理接收到的數(shù)據(jù)，因此定義平臺的代價函數(shù)為：

(9)

其中，m>0表示平臺處理數(shù)據(jù)的花費(fèi)。因此定義平臺的效用函數(shù)為：

(10)

其中，β>0為加權(quán)因子。

平臺的目標(biāo)是最大化累計效用，故表示為：

(11)

其中，r>0表示折扣因子，T-t0表示博弈時間間隔，qx(T)表示平臺的邊緣效用。

2 反饋納什均衡求解

根據(jù)建立的非合作微分博弈模型(3)、(7)、(11)，求解該模型的反饋納什均衡。每個次用戶通過優(yōu)化上報結(jié)果的檢測概率以使效用最大化，平臺通過優(yōu)化任務(wù)的價格以獲得自身效用的最優(yōu)，下面將推導(dǎo)次用戶的最優(yōu)檢測概率和平臺最優(yōu)價格的表達(dá)式。

(12)

Ui(T,x)=qix(T)e-r(T-t0)

(13)

對式(12)求ui(t)的一階導(dǎo)，并令其等于0，得到反饋納什均衡的解：

(14)

對于平臺來說，如果存在連續(xù)微分函數(shù)V(t,x):[t0,T]×R→R滿足以下的偏微分方程，則策略集v*(t)=φ*(t)是(3)和(11)的反饋納什均衡解[15]：

mx(t)]e-r(t-t0)+Vx(t,x)[ax(t)+

(15)

V(T,x)=qx(T)e-r(T-t0)

(16)

對式(15)求v(t)的一階導(dǎo)，并令其等于0，得到反饋納什均衡的解：

(17)

引理1：博弈模型(12)-(13)、(15)-(16)的納什均衡解可以表示為[16]：

Ui(t,x)=e-r(t-t0)[Ai(t)x+Bi(t)]

(18)

V(t,x)=e-r(t-t0)[A(t)x+B(t)]

(19)

其中,

(20)

Ai(T)=qi

(21)

(22)

A(T)=q

(23)

證明：將式(18)和式(19)分別對x和t求導(dǎo)，得到如下的表達(dá)式：

(24)

(25)

Vx(t,x)=e-r(t-t0)A(t)

(26)

Vt(t,x)=

(27)

將式(24)-(25)帶入式(12)-(13)：

e-r(T-t0)[Ai(T)x+Bi(T)]=e-r(T-t0)qix(T)

(29)

為了使得式(28)-(29)成立，應(yīng)滿足下面的條件：

(30)

求解微分方程(30)，得到下面的表達(dá)式：

(31)

將式(26)-(27)帶入式(12)-(13)：

e-r(T-t0)[A(T)x+B(T)]=e-r(T-t0)qx(T)

(33)

為了使得式(32)-(33)成立，應(yīng)滿足下面的條件：

(34)

求解微分方程(34)，得到下面的表達(dá)式：

(35)

根據(jù)式(14)、(17)、(24)、(26)、(31)、(35)，可以得到用戶檢測概率和平臺定價的最優(yōu)解分別為：

(36)

(37)

(39)

將式(37)-(38)代入微分方程(3)，可以得到非合作微分博弈最優(yōu)狀態(tài)表達(dá)式：

(40)

3 仿真結(jié)果與分析

該文采用MATLAB進(jìn)行仿真，假設(shè)參與感知的次用戶數(shù)為3，T=5，折扣因子r=0.05，δi服從期望為0.5，方差為0.05的正態(tài)分布，σi服從期望為0.26，方差為0.05的正態(tài)分布，qi服從期望為1.8，方差為0.05的正態(tài)分布，采樣頻率為10 MHz，次用戶的虛警概率為0.01，其余參數(shù)如表1所示。

表1 參數(shù)設(shè)置

圖2(a)給出了r=0.05時三個次用戶的最優(yōu)策略隨時間變化曲線。從圖中可以看出次用戶最優(yōu)的檢測概率隨著時間的增加而增大，這是因為次用戶提高檢測概率參與頻譜感知可以獲得更多的報酬，為了使得效用最大，次用戶會更愿意參與感知任務(wù)。

圖2(b)給出了r=0.05時用戶的最優(yōu)感知時間變化曲線。用戶的信噪比與發(fā)射功率和到主用戶的距離相關(guān)，從仿真圖可以看到用戶的感知時間逐漸上升，這是因為在確定的信噪比條件下，檢測概率確定后可由式(1)計算感知時間。

(a)r=0.05時次用戶最優(yōu)檢測概率ui/t隨時間變化曲線

(b)r=0.05時次用戶最優(yōu)感知時間變化曲線圖2 仿真曲線

圖3給出了r=0.05時平臺最優(yōu)價格v(t)隨時間變化曲線。從仿真圖可以看到任務(wù)的價格隨著時間的增加而減小，這是因為隨著時間的增加，平臺能收到的信息增多，平臺為了提高自身效用則盡可能地降低價格。

圖4給出了r取不同值時平臺效用隨時間變化曲線。從仿真圖可以看到r越大平臺的效用越高。當(dāng)r不變時，平臺的效用隨著時間的增加而減小，這是因為v(t)隨著時間的增加而減小，平臺得到的收益也會隨之下降。

圖3 r=0.05時平臺最優(yōu)價格v/t隨時間變化曲線

圖4 平臺效用隨時間變化曲線

圖5給出了當(dāng)用戶均采用最優(yōu)檢測概率時，平臺分別取最優(yōu)價格和固定價格時效用隨用戶數(shù)變化曲線。固定價格取值為0.385，從仿真圖可以看到平臺采用最優(yōu)價格時，平臺效用值高于取固定價格相對應(yīng)的效用，對平臺來說，招募到更多的用戶數(shù)可以提高檢測概率，第三方支付的報酬會增加，平臺效用增加，因此取最優(yōu)價格能夠提高平臺的效用。

圖5 平臺取最優(yōu)價格與固定價格時效用隨用戶數(shù)變化曲線

圖6給出了當(dāng)平臺取最優(yōu)價格時，用戶分別取最優(yōu)檢測概率和固定檢測概率時的平均效用變化曲線。檢測概率均取0.6，從仿真圖可以看到用戶采取最優(yōu)檢測概率時，用戶的平均效用高于取固定價格相對應(yīng)的平均效用，因此取最優(yōu)檢測概率能夠提高用戶的平均效用。對用戶來說，當(dāng)采取最優(yōu)檢測概率時，用戶的平均效用高于取固定價格相對應(yīng)的平均效用，隨著用戶數(shù)增加，平臺所能增加的檢測概率相對減小，用戶的平均效用隨之下降；當(dāng)用戶采取固定策略時，用戶的平均效用隨著用戶數(shù)的增加而增加，這是因為隨著用戶數(shù)增加，第三方給的報酬會增加，所以用戶的平均效用會增加。

圖6 用戶取最優(yōu)檢測概率與固定檢測概率時平均效用隨用戶數(shù)變化曲線

4 結(jié)束語