陳玲玲,趙全軍
(吉林化工學(xué)院 信息與控制工程學(xué)院,吉林吉林,132022)
近些年,伴隨著通信技術(shù)的高速發(fā)展以及物聯(lián)網(wǎng)與智能汽車的普及,交通行業(yè)也逐漸走向了智能化,車聯(lián)網(wǎng)技術(shù)成為物聯(lián)網(wǎng)與智能汽車兩大領(lǐng)域的重要交集[1~3]。因此車聯(lián)網(wǎng)在智能交通系統(tǒng)中扮演著重要角色。隨著通信需求爆發(fā)式增長,充分利用頻譜資源成為車聯(lián)網(wǎng)通信的一項(xiàng)重要挑戰(zhàn)。
為了提高頻譜利用率[4],認(rèn)知無線電能夠通過對(duì)空閑頻段的智能使用這種方式恰好可以滿足車聯(lián)網(wǎng)通信的需求。于是,認(rèn)知車聯(lián)網(wǎng)的概念從此被提出[5-6],即能夠支持認(rèn)知無線電技術(shù)的車聯(lián)網(wǎng)。認(rèn)知車聯(lián)網(wǎng)是指通過車載傳感器、認(rèn)知無線電等技術(shù),使車輛之間、車輛與基礎(chǔ)設(shè)施之間建立起智能化交互,實(shí)現(xiàn)信息共享和協(xié)同決策,提高交通安全性、舒適性和效率的新型交通系統(tǒng)。認(rèn)知車聯(lián)網(wǎng)能通過感知、分析和推理來獲取對(duì)車輛及其周圍環(huán)境的認(rèn)知能力,并通過車輛間和車路間通信來實(shí)現(xiàn)協(xié)同決策和共同優(yōu)化的車輛互聯(lián)網(wǎng)簡單來說,就是將車輛、道路和智能化設(shè)備進(jìn)行互聯(lián)互通,形成一個(gè)智能化的交通網(wǎng)絡(luò),通過共享和交換數(shù)據(jù),實(shí)現(xiàn)車輛和交通基礎(chǔ)設(shè)施之間的智能互動(dòng)和協(xié)同決策,從而提升整個(gè)交通系統(tǒng)的效率、安全性和舒適性。在認(rèn)知車聯(lián)網(wǎng)中,車輛類型主要分為兩種:授權(quán)車輛與認(rèn)知車輛[7-8]。授權(quán)車輛優(yōu)先使用授權(quán)頻段進(jìn)行數(shù)據(jù)傳輸,認(rèn)知車輛感知信道狀態(tài)嘗試使用未被授權(quán)車輛占有的頻段,于是動(dòng)態(tài)頻譜接入是認(rèn)知車聯(lián)網(wǎng)中的重要難題之一。近些年來,強(qiáng)化學(xué)習(xí)[9~12]逐漸用來解決動(dòng)態(tài)頻譜接入問題。
本文提出了基于新型強(qiáng)化學(xué)習(xí)的認(rèn)知車聯(lián)網(wǎng)頻譜接入的方法,構(gòu)建了存在多個(gè)認(rèn)知車輛,同時(shí)包含V2V 與V2I兩種不同通信鏈路的認(rèn)知車聯(lián)網(wǎng)環(huán)境。通過對(duì)比貪婪算法和傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法,所提方法能夠有效提高認(rèn)知車輛接入信道的成功率,本文同時(shí)探索了認(rèn)知車輛數(shù)目所提方法的影響,進(jìn)一步說明所提方法的穩(wěn)定性。
本文建立一個(gè)存在V2V 鏈路與V2I 鏈路的認(rèn)知車聯(lián)網(wǎng)通信模型,為了保證可靠的通信環(huán)境,假設(shè)每輛車都配備了一個(gè)發(fā)射機(jī)與一個(gè)接收機(jī),并且每一條信道僅被一輛授權(quán)車輛占用。正如圖1 所示,本文考慮的認(rèn)知車聯(lián)網(wǎng)場景中包含C輛授權(quán)車輛與V輛認(rèn)知車輛兩種類型。授權(quán)車輛優(yōu)先使用授權(quán)頻段進(jìn)行數(shù)據(jù)傳輸,例如應(yīng)急救護(hù)車與移動(dòng)演播室車等。為了防止授權(quán)車輛之間產(chǎn)生干擾,每一條信道僅被一輛授權(quán)車輛占用。如果信道被授權(quán)車輛占用,認(rèn)知車輛應(yīng)該被限制接入信道,如果當(dāng)授權(quán)車輛沒有占有信道時(shí),認(rèn)知車輛可以接入信道用于通信。在實(shí)際的認(rèn)知車聯(lián)網(wǎng)中,在認(rèn)知車輛接入信道之前,認(rèn)知車輛需要對(duì)信道進(jìn)行感知。

圖1 認(rèn)知車聯(lián)網(wǎng)通信模型
在基站的通信覆蓋范圍內(nèi),所有的車輛以隨機(jī)分布的形式存在。因此,本文將所有的車輛映射在一個(gè)位于第一象限的二維空間中,其中X軸的范圍為[0,M],Y軸的范圍[0,N]。,(xBS,yBS),分別代表第i對(duì)認(rèn)知車輛的發(fā)射機(jī)T的位置,第i對(duì)認(rèn)知車輛的接收機(jī)R的位置,第j對(duì)授權(quán)車輛的發(fā)射機(jī)T的位置和第j對(duì)授權(quán)車輛的接收機(jī)R的位置以及基站的位置。其中i={1,…,V},j={1,…,C}。
由于本文所設(shè)計(jì)的反饋函數(shù)是與信干噪比(Signal-to-Interference-Plus-Noise Ratio,SINR)有所關(guān)聯(lián),所以我們需要計(jì)算V2V 鏈路與V2I 鏈路的SINR。在V2V 鏈路中的信干噪比SINRV2V公式為:
在V2I 鏈路中的信干噪比SINRV2I公式為:
在認(rèn)知車聯(lián)網(wǎng)環(huán)境中,本文采用強(qiáng)化學(xué)習(xí)方法解決動(dòng)態(tài)頻譜接入問題。本小節(jié)針對(duì)所研究的認(rèn)知車輛網(wǎng)中頻譜接入的問題設(shè)計(jì)合理的狀態(tài)空間,動(dòng)作空間與反饋函數(shù)。
由于所提出的認(rèn)知車聯(lián)網(wǎng)中假設(shè)了一條信道中只被一輛授權(quán)車輛占用,即正交信道集合為{1,2,…,C}。授權(quán)車輛存在兩類活動(dòng)模式,在任意時(shí)刻授權(quán)車輛都處于兩類活動(dòng)模式中的一類。這兩類活動(dòng)模式分別為:動(dòng)態(tài)(Dynamic)與非動(dòng)態(tài)(Undynamic)。當(dāng)授權(quán)車輛處于動(dòng)態(tài)的時(shí)候,意味著授權(quán)車輛正在使用信道進(jìn)行通信,信道處于忙碌狀態(tài),認(rèn)知車輛則限制接入信道;當(dāng)授權(quán)車輛處于非動(dòng)態(tài)的時(shí)候,意味著信道處于空閑狀態(tài),認(rèn)知車輛則允許接入信道完成通信。如圖2 所示,將授權(quán)車輛的活動(dòng)模式構(gòu)建為二維的離散時(shí)間的馬爾科夫鏈,說明每一條信道都是獨(dú)立的,互不干擾。一條信道從空閑狀態(tài)轉(zhuǎn)移到忙碌/空閑狀態(tài),或者從忙碌狀態(tài)轉(zhuǎn)移到忙碌/空閑狀態(tài)的轉(zhuǎn)移可能性不依賴于其他任何信道。轉(zhuǎn)移概率矩陣如下:
在認(rèn)知車輛在進(jìn)行頻譜接入之前,每一個(gè)認(rèn)知車輛對(duì)每一條信道進(jìn)行頻譜感知,去感知信道處于空閑狀態(tài)還是忙碌狀態(tài),感知結(jié)果矩陣設(shè)計(jì)為狀態(tài)空間。其中,v={1,…,V},c={1,…,C},=0表示t時(shí)刻第v個(gè)認(rèn)知車輛感知到第c條信道被占用,=1表示t時(shí)刻第v個(gè)認(rèn)知車輛感知到第c條信道未被占用。
認(rèn)知車輛的感知結(jié)果決定認(rèn)知車輛是否接入信道,構(gòu)成了動(dòng)作空間:
其中av(t)=c(c>0),表示第v輛認(rèn)知車輛選擇接入第c條信道進(jìn)行數(shù)據(jù)傳輸,av(t)=0表示第v輛認(rèn)知車輛不接入任何的信道。
在傳統(tǒng)的基于強(qiáng)化學(xué)習(xí)的認(rèn)知車聯(lián)網(wǎng)頻譜接入中,反饋函數(shù)r(t+)1 的設(shè)計(jì)如下:
其中β為一個(gè)常數(shù)。
傳統(tǒng)的反饋函數(shù)設(shè)計(jì)過于簡單,并沒有考慮到真實(shí)的現(xiàn)實(shí)情況的復(fù)雜性。在V2V 與V2I 鏈路中,根據(jù)認(rèn)知車輛不同接入情況下的信干噪比,本文重新設(shè)計(jì)反饋函數(shù)rv(t+1),公式如下:
其中B為信道帶寬,SINR∈{SINRV2I,SINRV2V}。
本文的目的是利用強(qiáng)化學(xué)習(xí)方法獲取最大的累積反饋Rv,進(jìn)而提高接入認(rèn)知車輛成功率,公式如下:
其中γ∈[0,1]為折扣因子,T為時(shí)間。
所提算法目的在滿足獲取最大的累積反饋Rv,其表示如下:
圖3 展示基于強(qiáng)化學(xué)習(xí)的頻譜接入的學(xué)習(xí)過程,通過不斷的學(xué)習(xí)進(jìn)而學(xué)習(xí)到一個(gè)策略使累積反饋Rv達(dá)到最大。

圖3 強(qiáng)化學(xué)習(xí)交互環(huán)境
首先認(rèn)知車輛在獲得某個(gè)信道的感知結(jié)果s時(shí),通過主要網(wǎng)絡(luò)(Primary Q-network)可以得到各個(gè)動(dòng)作的Q值,Q值用來評(píng)估認(rèn)知車輛接入策略的好壞程度。然后認(rèn)知車輛再利用貪婪策略進(jìn)行動(dòng)作選擇,將相應(yīng)的動(dòng)作a輸入到車聯(lián)網(wǎng)環(huán)境中,最后得到s′和r,這樣就得到一個(gè)經(jīng)驗(yàn)(s,a,r,s′)并將其存儲(chǔ)到經(jīng)驗(yàn)池當(dāng)中。訓(xùn)練時(shí)從經(jīng)驗(yàn)池中取出一定數(shù)量的數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)的優(yōu)化。由圖3 可知首先根據(jù)兩個(gè)結(jié)構(gòu)相同的主要網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)(Target Q-network)進(jìn)行損失函數(shù)的構(gòu)建,在整個(gè)過程中通過實(shí)現(xiàn)損失函數(shù)最小化進(jìn)而尋找到最優(yōu)策略,損失函數(shù)L(θ)如下:
其中,θ為網(wǎng)絡(luò)參數(shù)。為目標(biāo)Q網(wǎng)絡(luò),Q(s,a;θ)為當(dāng)前Q網(wǎng)絡(luò),s′表示下一時(shí)刻的認(rèn)知車輛的頻譜感知結(jié)果,a′表示下一時(shí)刻的認(rèn)知車輛的動(dòng)作。目標(biāo)Q網(wǎng)絡(luò)與當(dāng)前Q網(wǎng)絡(luò)的網(wǎng)絡(luò)完全相同。在訓(xùn)練過程中,Q值根據(jù)公式(10)不斷更新。在Q值不斷更新的過程中,動(dòng)作a′根據(jù)公式(11)進(jìn)行策略π的更新,具體公式如下:
其中,Q1(·) 表示目標(biāo)Q網(wǎng)絡(luò)的Q函數(shù),Q2(·)表示當(dāng)前Q網(wǎng)絡(luò)的Q函數(shù),表示更新后的Q值,表示原始的Q值,智能體會(huì)周期性在經(jīng)驗(yàn)池中隨機(jī)地選擇樣本進(jìn)行訓(xùn)練。其中ε的范圍為 ε∈[0,1),網(wǎng)絡(luò)參數(shù)不斷迭代更新,最終逐漸收斂到最優(yōu)策略。
本文采用貪婪算法,強(qiáng)化學(xué)習(xí)算法作為對(duì)比算法,通過試驗(yàn)仿真來驗(yàn)證所提方法在收斂速度與性能遠(yuǎn)遠(yuǎn)優(yōu)于其他對(duì)比方法。同時(shí)實(shí)驗(yàn)還探討了認(rèn)知車輛數(shù)目對(duì)所提方法的影響。
如圖4 所示,認(rèn)知車聯(lián)網(wǎng)存在5 個(gè)認(rèn)知車輛,10 條信道。為了公平對(duì)比,所提方法與其他對(duì)比的方法都設(shè)置了相同的模型參數(shù)。如圖4 中所示,總體而言,所提方法的性能與收斂速度明顯優(yōu)于其他方法。對(duì)于貪婪算法而言,其平均信道成功接入率基本不變,這是由于貪婪算法無法利用未來的信息,導(dǎo)致無法得到最優(yōu)的累積獎(jiǎng)勵(lì)。然而傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法的反饋函數(shù)設(shè)計(jì)得過于簡單,并不能有效地減少各類碰撞。訓(xùn)練開始,所提方法的信道接入率比其他對(duì)比方法都高。總體而言,在認(rèn)知車輛的接入信道的平均成功接入率,所提出方法的收斂性與性能明顯優(yōu)于對(duì)比算法。

圖4 平均成功接入率
為了探究所提方法的穩(wěn)定性,如圖5 通過構(gòu)建相同信道數(shù)目,不同認(rèn)知車輛的數(shù)目的認(rèn)知車聯(lián)網(wǎng)環(huán)境,用來探究認(rèn)知車輛數(shù)目對(duì)所提方法的影響。伴隨著訓(xùn)練次數(shù)的不斷增加,三種不同認(rèn)知車聯(lián)網(wǎng)環(huán)境下的認(rèn)知車輛的平均信道成功接入率都開始趨向收斂。由于所提方法考慮到了多種反饋以及競爭網(wǎng)絡(luò)能夠處理大尺度的動(dòng)作集合與狀態(tài)集合,最終,三種不同認(rèn)知車聯(lián)網(wǎng)環(huán)境下的認(rèn)知車輛的信道接入率都達(dá)到了90%左右。

圖5 平均成功接入率
如圖6 所示,在認(rèn)知車輛的平均累積反饋方面,所提方法的平均反饋值明顯優(yōu)于對(duì)比算法,這是由于所提方法考慮到了認(rèn)知車輛在當(dāng)下狀態(tài)中每一個(gè)動(dòng)作的重要性。從圖6中可以看出,所提方法的收斂性和性能明顯優(yōu)于傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法和貪婪算法的收斂性和性能。

圖6 平均累積反饋
在本文中,所提方法考慮了一個(gè)包含V2V 與V2I 鏈路認(rèn)知車聯(lián)網(wǎng)通信環(huán)境,建立以提高認(rèn)知車輛接入信道成功率的動(dòng)態(tài)頻譜接入問題的模型。為了提高接入信道成功率,本文將認(rèn)知車輛的頻譜感知結(jié)果與認(rèn)知車輛是否接入信道分別作為所提方法中的狀態(tài)空間與動(dòng)作空間。根據(jù)認(rèn)知車輛的信干噪比設(shè)計(jì)反饋函數(shù),本文提出了改進(jìn)的強(qiáng)化學(xué)習(xí)方法用來提高認(rèn)知車輛的頻譜接入率。通過對(duì)比傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法與貪婪算法,本文所提出的改進(jìn)的強(qiáng)化學(xué)習(xí)方法性能優(yōu)于其他對(duì)比算法。同時(shí)還探討了認(rèn)知車輛數(shù)目對(duì)所提方法的影響,通過仿真實(shí)驗(yàn)證明,所提方法并不受認(rèn)知車輛數(shù)目的影響,所提的方法具有顯著的穩(wěn)定性與收斂性。