基于多智能體深度強化學習的車聯網資源分配方法

2024-09-19 00:00:00孟水仙劉艷超王樹彬

無線電工程 2024年6期

摘要：在車聯網中，合理分配頻譜資源對滿足不同車輛鏈路業務的服務質量（ＱｕａｌｉｔｙｏｆＳｅｒｖｉｃｅ，ＱｏＳ）需求具有重要意義。為解決車輛高速移動性和全局狀態信息獲取困難等問題，提出了一種基于完全分布式多智能體深度強化學習（Ｍｕｌｔｉ-ＡｇｅｎｔＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＭＡＤＲＬ）的資源分配算法。該算法在考慮車輛通信延遲和可靠性的情況下，通過優化頻譜選擇和功率分配策略來實現最大化網絡吞吐量。引入共享經驗池機制來解決多智能體并發學習導致的非平穩性問題。該算法基于深度Ｑ網絡（ＤｅｅｐＱＮｅｔｗｏｒｋ，ＤＱＮ），利用長短期記憶（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，ＬＳＴＭ）網絡來捕捉和利用動態環境信息，以解決智能體的部分可觀測性問題。將卷積神經網絡（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）和殘差網絡（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ，ＲｅｓＮｅｔ）結合增強算法訓練的準確性和預測能力。實驗結果表明，所提出的算法能夠滿足車對基礎設施（Ｖｅｈｉｃｌｅ-ｔｏ-Ｉｎｆｒａｓｔｒｕｃｔｕｒｅ，Ｖ２Ｉ）鏈路的高吞吐量以及車對車（Ｖｅｈｉｃｌｅ-ｔｏ-Ｖｅｈｉｃｌｅ，Ｖ２Ｖ）鏈路的低延遲要求，并且對環境變化表現出良好的適應性。

關鍵詞：車聯網；資源分配；多智能體深度強化學習；深度Ｑ網絡

中圖分類號：ＴＮ９２９．５文獻標志碼：Ａ開放科學（資源服務）標識碼（ＯＳＩＤ）：

文章編號：１００３－３０１６（２０２４）０６－１３８８－１０

０引言

隨著通信技術的飛速發展，車聯網作為物聯網中車輛通信網絡的新范式，對提升交通服務的安全性和舒適性起著日益重要的作用［１］。其中，蜂窩車聯網（ＣｅｌｌｕｌａｒＶｅｈｉｃｌｅ-ｔｏ-Ｅｖｅｒｙｔｈｉｎｇ，Ｃ-Ｖ２Ｘ）通信技術實現了車輛與車輛、車輛與基礎設施、車輛與行人以及車輛與互聯網之間通信的無縫連接，為車聯網提供了全方位的通信技術支持［２］。Ｃ-Ｖ２Ｘ通信技術主要通過支持車對基礎設施（Ｖｅｈｉｃｌｅ-ｔｏ-Ｉｎｆｒａ-ｓｔｒｕｃｔｕｒｅ，Ｖ２Ｉ）和車對車（Ｖｅｈｉｃｌｅ-ｔｏ-Ｖｅｈｉｃｌｅ，Ｖ２Ｖ）２種通信模式為不同服務質量（ＱｕａｌｉｔｙｏｆＳｅｒｖｉｃｅ，ＱｏＳ）需求提供不同的應用服務［３］。其中，Ｖ２Ｉ通信主要應用于提供高數據傳輸速率的非安全相關的應用服務，而Ｖ２Ｖ通信則專注于實現低延遲和高可靠性的實時信息傳輸［４－５］。然而，面對網絡資源的稀缺性以及車聯網中服務類別的多元化，如何實現Ｖ２Ｉ和Ｖ２Ｖ鏈路之間的協同資源共享以保證ＣＶ２Ｘ網絡資源的有效利用是車聯網資源分配時面臨的巨大挑戰。

目前，車聯網中的資源分配問題已得到廣泛研究，文獻［６－８］采用傳統優化算法來解決這一問題。然而，隨著無線網絡多樣性和復雜性的增加，這些傳統算法面臨著嚴峻的挑戰，例如，車聯網環境的動態不確定性使得實時獲取信道狀態信息變得困難。同時，由于車聯網用戶具有不同的服務需求，構建的優化問題和約束條件通常是非凸的，這使得優化算法在求解時容易陷入局部最優解［９］。因此，如何設計一個更智能、更靈活的資源分配算法成為車聯網中的一個重要問題。

隨著人工智能技術的不斷進步，深度強化學習（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＤＲＬ）在無線通信領域得到了廣泛應用。與傳統的優化算法相比，ＤＲＬ展現出更強大的解決復雜問題的能力。通過與未知環境的交互，ＤＲＬ能夠學習如何做出最優決策，以最大化長期累積回報。此外，針對一些難以通過傳統算法優化的目標，ＤＲＬ可以通過設計相應的訓練獎勵來解決。因此，ＤＲＬ為解決車聯網中資源分配問題帶來了全新思路。文獻［１０］研究了設備到設備（Ｄｅｖｉｃｅ-ｔｏ-Ｄｅｖｉｃｅ，Ｄ２Ｄ）網絡的聯合信道選擇和功率控制問題，以最大化Ｄ２Ｄ網絡的加權和速率為目標，提出了一種基于分布式ＤＲＬ的算法，并通過仿真結果證明了即使沒有全局瞬時信道狀態信息，該算法也能有良好的性能表現。文獻［３］在包含Ｖ２Ｖ鏈路和Ｖ２Ｉ鏈路的認知車輛網絡中應用了一種改進的深度Ｑ網絡（ＤｅｅｐＱＮｅｔｗｏｒｋ，ＤＱＮ）算法來提高頻譜利用率。上述算法在靜態環境模型上表現良好，但并不適用于動態變化的車聯網環境。文獻［１１］針對Ｖ２Ｘ通信資源分配問題，提出了一種使用ＤＱＮ進行子頻帶選擇和使用深度確定性策略梯度（ＤｅｅｐＤｅｔｅｒｍｉｎｉｓｔｉｃＰｏｌｉｃｙＧｒａｄｉｅｎｔ，ＤＤＰＧ）進行發射功率分配的ＤＲＬ算法，在此基礎上，加入元強化學習來提高算法對動態環境的適應性。但在該算法中，同時訓練２種不同的ＤＲＬ算法會增加模型訓練的難度，使算法變得更復雜。文獻［１２］針對不同的ＱｏＳ需求，提出了一種基于鏈路優先級集中式的強化學習頻譜資源分配算法，該算法實現了在對一般鏈路無干擾的情況下，為高優先級鏈路提供了高質量的通信支持，并且在實際場景中展現了出色的抗噪聲性能。但該算法采用的是集中式控制方案，每條鏈路都需要與基站進行信息交互，增加了通信開銷和傳輸時延。文獻［１３－１５］都采用基于ＤＱＮ的多智能體深度強化學習（Ｍｕｌｔｉ-ＡｇｅｎｔＤｅｅｐＲｅｉｎ-ｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＭＡＤＲＬ）算法來解決車聯網環境中的資源分配問題，然而，這些算法均未考慮多個智能體同時探索學習所引發的非平穩性問題，而這一問題將直接影響算法的收斂速度，從而降低算法的性能。

為解決上述問題，本文提出了一種完全獨立的分布式ＭＡＤＲＬ的資源分配算法，以進一步提升動態車聯網環境下資源共享效率。在該算法中，經過訓練和學習的Ｖ２Ｖ用戶僅依賴局部環境觀測值就可以學到最佳資源分配策略，即最優的子信道選擇和功率分配策略。為解決多智能體并發學習帶來的非平穩性問題，本文引入共享經驗池機制，以促進智能體之間更好地合作和學習。為解決每個智能體對環境的部分可觀測問題，采用長短期記憶（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，ＬＳＴＭ）和卷積神經網絡（Ｃｏｎｖｏ-ｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）結合的殘差網絡（Ｒｅ-ｓｉｄｕａｌＮｅｔｗｏｒｋ，ＲｅｓＮｅｔ）跳躍連接結構，這種結構使得智能體能夠捕捉和利用環境狀態信息的時間序列關系，從而提高了算法處理序列數據的能力，同時也增強了算法的泛化能力。最后，通過仿真實驗驗證了該算法的有效性，確保了在滿足Ｖ２Ｖ鏈路延遲約束條件的同時減少了Ｖ２Ｖ鏈路對Ｖ２Ｉ鏈路的干擾。

１系統模型

本文考慮擁有一個基站和多輛車構成的城市道路交通的Ｃ-Ｖ２Ｘ通信場景。在該場景中，具有Ｍ輛車的Ｖ２Ｉ鏈路完成高吞吐量的數據傳輸任務，而具有Ｎ輛車的Ｖ２Ｖ鏈路實現低延遲、高可靠的實時信息傳輸任務。本文只考慮Ｖ２Ｉ通信的上行鏈路，并假設所有車輛用戶的收發機都采用單天線，此外，假設Ｍ條Ｖ２Ｉ鏈路被預先分配了Ｍ個具有固定發射功率的正交子信道，即第ｍ條Ｖ２Ｉ鏈路占用第ｍ個子信道并且這些子信道之間無干擾。為提高頻譜利用率，這些子信道可以被Ｖ２Ｖ鏈路重用。考慮到實際情況，Ｖ２Ｖ鏈路的數量往往遠大于Ｖ２Ｉ鏈路的數量，為更有效地利用有限的頻譜資源，將Ｖ２Ｖ鏈路重用Ｖ２Ｉ鏈路的頻譜資源是必要且合理的。因此，本文主要目標是為這些Ｖ２Ｖ鏈路設計一種有效的頻譜共享方案，以使這２種類型的車輛鏈路以最小的信令開銷到達各自的目標。圖１顯示了Ｖ２Ｖ共享Ｖ２Ｉ鏈路時的通信鏈路和干擾鏈路的復雜關系。

當第ｎ條Ｖ２Ｖ鏈路共享第ｍ條Ｖ２Ｉ鏈路的子信道時，這條Ｖ２Ｖ鏈路的接收端可能受到來自其他Ｖ２Ｖ鏈路以及Ｖ２Ｉ鏈路的發射端的干擾，而第ｍ條Ｖ２Ｉ鏈路的接收端會受到來自Ｖ２Ｖ鏈路的干擾，則第ｍ條Ｖ２Ｉ鏈路與第ｎ條Ｖ２Ｖ鏈路的信干噪比（ＳｉｇｎａｌｔｏＩｎｔｅｒｆｅｒｅｎｃｅｐｌｕｓＮｏｉｓｅＲａｔｉｏ，ＳＩＮＲ）分別表示為：

式中：ＰＩｍ、ＰＶｎ［ｍ］和ＰＶｎ′［ｍ］分別表示第ｍ條Ｖ２Ｉ鏈路、第ｎ條Ｖ２Ｖ鏈路和除ｎ以外的其他Ｖ２Ｖ鏈路（如ｎ′）的發射功率，σ２表示噪聲功率，ρｎ［ｍ］、ρｎ′［ｍ］表示第ｎ和ｎ′條Ｖ２Ｖ鏈路是否重用第ｍ條Ｖ２Ｉ鏈路，如果重用，其值為１，否則值為０；ｇｍ，Ｂ表示第ｍ條Ｖ２Ｉ鏈路的信道功率增益，ｇｎ，Ｂ［ｍ］表示Ｖ２Ｖ鏈路ｎ對Ｖ２Ｉ鏈路ｍ的干擾信道增益，ｇｎ［ｍ］表示第ｎ條Ｖ２Ｖ鏈路的信道增益，ｇｍ，ｎ表示Ｖ２Ｉ鏈路ｍ對Ｖ２Ｖ鏈路ｎ的干擾信道增益，ｇｎ′，ｎ［ｍ］表示其他Ｖ２Ｖ鏈路ｎ′對Ｖ２Ｖ鏈路ｎ的干擾信道增益。發射功率計算公式為：

ｇ＝ αｈ，（３）

式中：α 表示與頻率無關的大尺度衰落，即陰影衰落和路徑損耗；ｈ表示與頻率相關的小尺度衰落信道增益。對于信道衰落，本文同時考慮大尺度和小尺度衰落，并假設信道衰落在一個子信道內大致相同并且在不同子信道之間相互獨立。由此，第ｍ條Ｖ２Ｉ鏈路和第ｎ條Ｖ２Ｖ鏈路的信道總吞吐量分別為：

ＣＩｍ＝Ｗｌｂ（１＋ γＩｍ），（４）

ＣＶｎ［ｍ］＝ＷＩｂ（１＋ γＶｎ［ｍ］），（５）

式中：Ｗ為信道帶寬。

如上所述，本文的目標是在提高Ｖ２Ｉ鏈路的總吞吐量的同時，滿足Ｖ２Ｖ鏈路低延遲、高可靠的實時數據傳輸的要求。為此本文定義在一定時間限度內，成功傳輸有效載荷的概率為：

式中：Ｂ表示在每個周期Ｔ內生成的Ｖ２Ｖ鏈路傳輸載荷的大小，單位為ｂｉｔ；ΔＴ表示信道相干時間。

綜上所述，本文研究的車聯網中資源分配問題可以描述為：在Ｖ２Ｖ鏈路中，如何智能地重用Ｖ２Ｉ的子信道，并選擇適當的發射功率進行數據傳輸，以減少Ｖ２Ｖ鏈路的傳輸時延，同時減少其對Ｖ２Ｉ鏈路的干擾，即在追求最大化Ｖ２Ｉ鏈路總吞吐量的同時提高Ｖ２Ｖ鏈路的單位時間內載荷成功傳輸率。

２算法方案設計

ＭＡＤＲＬ是應對車聯網中動態不確定性以及全局信道狀態信息獲取困難的有效方法。在ＭＡＤＲＬ模型中，多個智能體采取試錯的方式不斷與環境交互，以獲得最大化累積獎勵來優化信道選擇與功率控制策略。由于Ｖ２Ｖ鏈路中每個用戶作為獨立智能體無法完全獲取信道狀態的完整信息，因此采用部分可觀察馬爾科夫決策過程（ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ，ＰＯＭＤＰ）對動態頻譜分配和功率選擇過程進行建模，該過程由動作、狀態和獎勵描述。如圖２所示，在ｔ時刻，獲得環境狀態ｓｎｔ的Ｖ２Ｖ鏈路ｎ，根據策略做出動作ａｎｔ，所有Ｖ２Ｖ鏈路的動作同時被執行后，環境狀態依據狀態轉移概率轉移到下一時刻的狀態ｓｎｔ＋１，并且每條Ｖ２Ｖ鏈路得到執行各自動作后的獎勵ｒｎｔ。

２．１狀態空間

Ｖ２Ｖ鏈路用戶不能在ｔ時刻觀測到全局環境狀態Ｓｔ，而只能獲得和自己相關的環境狀態ｓｎｔ，并且其他Ｖ２Ｖ鏈路的動作也是未知的。Ｖ２Ｖ鏈路ｎ占用第ｍ條Ｖ２Ｉ鏈路傳輸數據時，該Ｖ２Ｖ鏈路可獲得的狀態包括Ｖ２Ｖ鏈路ｎ的信道增益ｇｎ［ｍ］、受到其他Ｖ２Ｖ鏈路的干擾ｇｎ′，ｎ［ｍ］、對Ｖ２Ｉ鏈路的干擾ｇｎ，Ｂ［ｍ］以及受到Ｖ２Ｉ鏈路ｍ的干擾ｇｍ，ｎ。則Ｖ２Ｖ鏈路ｎ占用Ｖ２Ｉ鏈路ｍ傳輸數據時的關聯信道增益表示為：

Ｇｎ［ｍ］＝｛ｇｎ［ｍ］，ｇｎ′，ｎ［ｍ］，ｇｎ，Ｂ［ｍ］，ｇｍ，ｎ｝。（７）

將Ｖ２Ｖ鏈路ｎ在第ｍ條Ｖ２Ｉ鏈路傳輸數據時受到的所有干擾表示為：

此外，為了保證每條Ｖ２Ｖ鏈路在一定的時間限度內完成數據傳輸任務，將剩余的傳輸載荷數Ｂｎ和剩余的可傳輸載荷時間Ｔｎ也考慮進可獲得的環境狀態內。因此，Ｖ２Ｖ鏈路ｎ的狀態空間表示為：

ｓｎｔ＝｛Ｂｎ，Ｔｎ，｛Ｉｎ［ｍ］｝ｍ∈Ｍ，｛Ｇｎ［ｍ］｝ｍ∈Ｍ｝。（９）

２．２動作空間

車聯網的資源分配問題可歸結為Ｖ２Ｖ鏈路的子信道選擇和傳輸功率控制問題。每條Ｖ２Ｉ鏈路占據被自然分成的Ｍ條不相交的子信道中的一條，Ｎ條Ｖ２Ｖ鏈路可以從這Ｍ個頻譜子信道中選擇一條鏈路進行重用并控制發射功率以便進行數據傳輸。考慮實際電路的限制，本文將功率控制分為４個級別的離散值，即［２３，１０，５，－１００］ｄＢｍ。因此，每條Ｖ２Ｖ鏈路的動作空間維度為４×Ｍ。

２．３獎勵函數

在強化學習中，獎勵函數起到驅動智能體學習策略的關鍵作用，通過對智能體采取的策略進行評估，提供相應的獎勵或懲罰，幫助智能體在復雜的環境中學會有效決策。本文研究目標是使Ｖ２Ｉ鏈路的總吞吐量最大化和提高Ｖ２Ｖ鏈路的載荷成功傳輸概率。本質上，這是一個多目標優化問題，本文通過權重系數法將其轉化成單目標優化問題。分別將２個目標函數設置成２個獎勵函數，即在ｔ時刻，Ｖ２Ｉ鏈路吞吐量的獎勵函數即為該鏈路獲得的總吞吐量；將ｔ時刻未完成傳輸的Ｖ２Ｖ用戶獎勵函數設置為載荷傳輸速率，對于已完成傳輸的Ｖ２Ｖ用戶獎勵函數設置為比載荷傳輸速率更大的常數β，以鼓勵Ｖ２Ｖ用戶提高傳輸速率。因此對第二個目標的獎勵函數設置為：

式中：λ 為權重系數。

強化學習的目標是找到最佳策略π* ，任何狀態Ｓｔ下的智能體都能根據π 做出最優決策，從而最大化期望獎勵，即：

式中：γ 是折扣因子，表示未來獎勵對當前狀態的重要程度。

２．４ＭＡＤＲＬ法

雖然將ＭＡＤＲＬ引入車聯網環境來解決資源分配問題的方案優于傳統算法，但是仍然面臨以下挑戰：① 動態變化的車聯網環境和環境狀態信息部分可觀測；② 分布式的多智能體訓練方案會影響環境的平穩性從而影響訓練過程并削弱算法的性能。為此，本文提出基于ＭＡＤＲＬ的完全分布式的多智能體深度循環殘差Ｑ網絡（Ｍｕｌｔｉ-ＡｇｅｎｔＤｅｅｐＲｅｃｕｒｒｅｎｔＲｅｓｉｄｕａｌＱＮｅｔｗｏｒｋ，ＭＡＤＲＲＱＮ）算法，該算法整體框架如圖３所示。

每條Ｖ２Ｖ鏈路作為智能體擁有自己的ＤＱＮ并獨立訓練。智能體從與環境交互到學習過程主要分為動作選擇、經驗存儲和學習３個階段。首先，將當前環境狀態ｓｎｔ輸入到ＤＱＮ中的估計網絡中，智能體ｎ根據εｇｒｅｅｄｙ策略選擇動作，即以概率ε 隨機采取動作，或以概率１－ε 從估計網絡中選擇使輸出Ｑ值最大的動作。智能體ｎ做出動作ａｎｔ后得到獎勵ｒｎｔ，環境狀態變為ｓｎｔ＋１。此時，智能體獲得了一條經驗（ｓｎｔ，ａｎｔ，ｒｎｔ，ｓｎｔ＋１）并將該經驗放入經驗池中。為解決多智能體分布式訓練帶來的非平穩性的問題，本文所有智能體共享經驗池中的經驗。經驗池根據容量采用先進先出的存儲方式。最后，在學習階段，從經驗池中抽取小批量經驗分別輸入到估計網絡和目標網絡中，然后從這２個網絡中輸出Ｑ１ｅ（ｓ１ｔ，ａ１ｔ；θ）和ｍａｘａ′１ｔＱｉｔ（ｓ１ｔ＋１，ａ′１ｔ；θ′）并計算損失值：

ｌｏｓｓ＝［ｒｎｔ＋ γ ｍａｘａ′１ｔＱｉｔ（ｓｎｔ＋１，ａ′ｎｔ；θ′）－Ｑｎｅ（ｓｎｔ，ａｎｔ；θ）］２。（１３）

利用反向傳播計算的損失值更新估計網絡的參數θ，每隔一定時間將估計網絡的參數拷貝給目標網絡，更新其參數θ′。該過程重復進行并不斷優化智能體的行為策略，從而實現最優的動作選擇。具體如算法１所示。

為了避免與環境交互時積累的經驗不足導致智能體做出的動作策略陷入局部最優解，有必要權衡利用（使用已知的動作）和探索（學習新的、可能更好的動作）的關系。因此，本文采用自適應的ε-ｇｒｅｅｄｙ探索算法，即在算法實現的初始階段，面對大的狀態和動作空間，智能體主要進行新動作和新狀態的探索。然后，隨著迭代次數的增加，逐漸增加利用概率讓智能體根據以往經驗做出最佳決策。

ε ＝ εｍｉｎ＋（εｍａｘ－ εｍｉｎ）ｅ－ζｔ，（１４）

式中：εｍａｘ和εｍｉｎ分別為ε 的最大值和最小值，ζ 為衰減因子。

在強化學習中引入深度神經網絡的目的是為了有效處理高維度復雜的狀態和動作空間。通過深度神經網絡的強大學習能力，智能體能夠更準確地表示和近似復雜的狀態－動作映射關系，從而提高對大量和多樣化狀態信息的處理能力，進而增強訓練和決策的性能。本文提出的深度神經網絡結構如圖４所示。

采用ＬＳＴＭ網絡作為深度神經網絡的輸入層來解決ＭＡＤＲＬ的部分可觀測問題、提高對序列數據的處理能力以及捕捉長期依賴關系，從而提高模型對動態環境的自適應能力。為了提高模型特征提取能力和預測能力，采用了ＣＮＮ的跳躍連接的ＲｅｓＮｅｔ結構。

３仿真結果分析

本文車聯網仿真場景遵循３ＧＰＰＴＲ３６．８８５［１６］中的城市交通道路場景，并遵循設置車聯網環境的仿真參數［１７－１８］。為了便于仿真，將交通場景面積等比例縮小一半。表１給出了主要仿真參數，表２給出了Ｖ２Ｖ鏈路和Ｖ２Ｉ鏈路的信道模型。

每個智能體的深度神經網絡由一層ＬＳＴＭ作為輸入層和２個ＲｅｓＮｅｔ連接的３層ＣＮＮ構成，各層神經元都是１２０個。使用修正線性單元（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ，ＲｅＬＵ）作為激活函數，并使用ＲＭＳＰｒｏｐ優化器更新網絡參數，學習率為０．００１。采用的自適應εｇｒｅｅｄｙ算法中，ε 最大值為１，最小值為０．０２，衰減因子為０．００５，經驗池大小為２００００，每次訓練抽取的小批次樣本數為２０００，折扣因子為０．９９，總共進行１０００個訓練回合，訓練過程的每個訓練集的時間都是１００ｍｓ。測試階段共進行１００個回合。在訓練階段，載荷大小固定為２×１０６０ｂｙｔｅ，車速固定為１０～１５ｍ／ｓ，在測試階段，分別改變其大小以驗證所提算法的魯棒性。

為了驗證所提ＭＡＤＲＲＱＮ算法的有效性，本文在Ｐｙｔｈｏｎ平臺上使用ＰｙＴｏｒｃｈ框架對提出的算法進行仿真，并在算法Ｖ２Ｉ鏈路吞吐量、Ｖ２Ｉ鏈路信道利用率以及Ｖ２Ｖ鏈路有效傳輸等方面與其他算法的性能進行比較。其他算法包括：① 隨機算法，子信道和功率隨機選擇；② 多智能體深度Ｑ網絡（Ｍｕｌｔｉ-ＡｇｅｎｔＤｅｅｐＱＮｅｔｗｏｒｋ，ＭＡＤＱＮ）算法，由每層包含１２０個神經元的４層全連接結構的ＤＱＮ構成，訓練智能體時，每個智能體分配相同的獎勵值；③ 單智能體深度Ｑ網絡（Ｓｉｎｇｌｅ-ＡｇｅｎｔＤｅｅｐＱＮｅｔｗｏｒｋ，ＳＡＤＱＮ）算法，所有智能體共享一個ＤＱＮ，在每個時隙，只有一個智能體根據訓練的ＤＱＮ更新其動作選擇的策略，而其他智能體動作的選擇策略保持不變。

圖５和圖６分別顯示了車輛數為４時，訓練階段所有智能體的總和累積獎勵和每個智能體獎勵與訓練回合數的關系。從圖中可以看出，獎勵值隨著訓練回合數的增加而增加，最后趨于收斂。從圖６可以看到，每條Ｖ２Ｖ鏈路的獎勵值隨著訓練回合數的增加也趨于平穩。由此證明了所提ＭＡＤＲＲＱＮ算法的有效性。收斂的獎勵值存在波動的原因在于車輛的快速移動，導致車聯網的拓撲結構不斷變化，同時也受到信道衰落的影響。

本文通過Ｖ２Ｉ鏈路總吞吐量和Ｖ２Ｉ鏈路利用率（實際獲得的Ｖ２Ｉ鏈路總吞吐量與禁用所有Ｖ２Ｖ鏈路獲得的Ｖ２Ｉ鏈路總吞吐量的比值）來評估該算法在Ｖ２Ｉ鏈路上的性能。圖７和圖８分別展示了不同載荷大小對不同算法在Ｖ２Ｉ鏈路總吞吐量和利用率方面的性能影響。從圖中可以看出，隨著Ｖ２Ｖ載荷大小的增加，所有算法的性能都有所下降。這是因為成功傳輸更多的載荷需要更長的傳輸時間和更高的Ｖ２Ｖ鏈路發射功率，加劇了對Ｖ２Ｉ鏈路的干擾，從而減小了Ｖ２Ｉ鏈路的總吞吐量。但是，相同載荷大小的條件下，ＭＡＤＲＲＱＮ算法具有更大的Ｖ２Ｉ鏈路總吞吐量和更高的Ｖ２Ｉ鏈路利用率。

圖９顯示了不同載荷大小，不同算法在Ｖ２Ｖ鏈路載荷傳輸成功率方面的性能表現。所有算法的載荷傳輸成功率都隨著載荷大小的增加而降低了，但其他算法的性能表現都比ＭＡＤＲＲＱＮ算法差，雖然ＭＡＤＱＮ算法在載荷小于等于４ ×１０６０ｂｙｔｅ時傳輸成功率達到了１００％，但是隨著載荷的增加，成功率顯著下降，而ＭＡＤＲＲＱＮ算法的載荷傳輸成功率下降緩慢，即使載荷達到８×１０６０ｂｙｔｅ，其載荷傳輸成功率仍然在９０％以上。

為了驗證ＭＡＤＲＲＱＮ算法對環境變化的適應性，本文從車速和車輛數量兩方面驗證其對算法性能的影響。圖１０顯示了車輛數固定為４時的車速對具有不同載荷大小的Ｖ２Ｉ鏈路利用率的影響。僅使用鏈路利用率來評估Ｖ２Ｉ鏈路總吞吐量的變化的原因在于，車速的改變同樣會影響沒有Ｖ２Ｖ鏈路傳輸時的Ｖ２Ｉ鏈路吞吐量。因此，采用Ｖ２Ｉ鏈路利用率這一相對比值更能客觀地反映吞吐量的變化情況。從圖中可以看出，車速對于２×１０６０ｂｙｔｅ和４×１０６０ｂｙｔｅ載荷的Ｖ２Ｉ鏈路利用率影響較小，其鏈路利用率都高于８０％。對于大載荷，高車速對其影響較大，這是因為隨著車速的增加，車聯網拓撲結構變化更快，而需要傳輸的載荷數量更多，這對Ｖ２Ｖ鏈路的子信道選擇和功率分配提出了更高的要求。圖１１顯示了車輛數固定為４時的車速與Ｖ２Ｖ鏈路載荷傳輸成功率的關系圖。對于相同的載荷大小，所提出的ＭＡＤＲＲＱＮ算法的性能隨著車速的增加而改變。這是因為車聯網環境隨著車速的增加變化地更加顯著，增加了環境的不確定性和獲取信道狀態信息的難度。然而，所提出的算法仍然可以保持高Ｖ２Ｉ鏈路總吞吐量和Ｖ２Ｖ鏈路成功傳輸的概率，這說明車速變化對所提ＭＡＤＲＲＱＮ算法的性能影響較小，因此該算法能夠適應車聯網環境中的車速變動。

當增加車輛，即子信道的數量增加時，意味著智能體的動作空間維度也增加了，對算法性能提出了更高要求。圖１２和圖１３分別展示了車輛數對具有不同載荷大小的Ｖ２Ｉ鏈路利用率和Ｖ２Ｖ鏈路載荷傳輸成功率的影響。從圖中可以看出，車輛數對于所提算法的性能影響較小，甚至隨著車輛數的增加，在大載荷的情況下，Ｖ２Ｉ鏈路利用率反而提高了。由此說明算法能夠適應不同數量車輛的環境，具備擴展到更多車輛情況的能力，并且對于傳輸載荷大小的變化具有魯棒性。

４結束語

針對車聯網中的資源分配問題，本文采用了Ｖ２Ｖ鏈路共享Ｖ２Ｉ鏈路頻譜資源的策略，并基于ＭＡＤＲＬ算法提出了ＭＡＤＲＲＱＮ算法。在該算法中，每條Ｖ２Ｖ鏈路都被視為一個獨立的智能體，每個智能體進行獨立的訓練和決策，顯著降低了決策過程中的信息傳輸開銷，增強了算法的可擴展性。通過充分的仿真實驗，本文驗證了所提算法的有效性，展示了其在最大化Ｖ２Ｉ鏈路總吞吐量、提高Ｖ２Ｉ鏈路頻譜利用率以及提升Ｖ２Ｖ鏈路載荷成功傳輸概率等性能方面的優越性。此外，該算法還表現出在不斷變化的車聯網環境中的魯棒性和適應性。未來研究將繼續優化該算法，以適應更為復雜的實際應用場景。

參考文獻

［１］ＹＡＤＡＶＳ，ＰＡＮＤＥＹＡ，ＤＯＤＴ，ｅｔａｌ．ＳｅｃｕｒｅＣｏｇｎｉｔｉｖｅＲａｄｉｏｅｎａｂｌｅｄＶｅｈｉｃｕｌａｒＣｏｍｍｕｎｉｃａｔｉｏｎｓＵｎｄｅｒＳｐｅｃｔｒｕｍＳｈａｒｉｎｇＣｏｎｓｔｒａｉｎｔｓ［Ｊ］．Ｓｅｎｓｏｒｓ，２０２１，２１（２１）：７１６０．

［２］ＱＩＷＪ，ＳＯＮＧＱＹ，ＧＵＯＬ，ｅｔａｌ．ＥｎｅｒｇｙｅｆｆｉｃｉｅｎｔＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎｆｏｒＵＡＶａｓｓｉｓｔｅｄＶｅｈｉｃｕｌａｒＮｅｔｗｏｒｋｓｗｉｔｈＳｐｅｃｔｒｕｍＳｈａｒｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＶｅｈｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙ，２０２２，７１（７）：７６９１－７７０２．

［３］ＣＨＥＮＬＬ，ＺＨＡＯＱＪ，ＦＵＫ，ｅｔａｌ．ＭｕｌｔｉｕｓｅｒＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＢａｓｅｄＭｕｌｔｉｒｅｗａｒｄｆｏｒＳｐｅｃｔｒｕｍＡｃｃｅｓｓｉｎＣｏｇｎｉｔｉｖｅＶｅｈｉｃｕｌａｒＮｅｔｗｏｒｋｓ［Ｊ］．ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍｓ，２０２３，８３（１）：５１－６５．

［４］方維維，王云鵬，張昊，等．基于多智能體深度強化學習的車聯網通信資源分配優化［Ｊ］．北京交通大學學報，２０２２，４６（２）：６４－７２．

［５］ＸＩＡＮＧＰ，ＳＨＡＮＨＧ，ＷＡＮＧＭ，ｅｔａｌ．ＭｕｌｔｉａｇｅｎｔＲＬＥｎａｂｌｅｓＤｅｃｅｎｔｒａｌｉｚｅｄＳｐｅｃｔｒｕｍＡｃｃｅｓｓｉｎＶｅｈｉｃｕｌａｒＮｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＶｅｈｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙ，２０２１，７０（１０）：１０７５０－１０７６２．

［６］ＺＨＡＮＧＭＬ，ＤＯＵＹ，ＣＨＯＮＧＰＨＪ，ｅｔａｌ．ＦｕｚｚｙＬｏｇｉｃｂａｓｅｄＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎＡｌｇｏｒｉｔｈｍｆｏｒＶ２ＸＣｏｍｍｕｎｉｃａｔｉｏｎｓｉｎ５ＧＣｅｌｌｕｌａｒＮｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＪｏｕｒｎａｌｏｎＳｅｌｅｃｔｅｄＡｒｅａｓｉｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０２１，３９（８）：２５０１－２５１３．

［７］ＸＩＥＹＣ，ＹＵＫ，ＴＡＮＧＺＸ，ｅｔａｌ．ＡｎＥｆｆｅｃｔｉｖｅＣａｐａｃｉｔｙＥｍｐｏｗｅｒｅｄＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎＡｐｐｒｏａｃｈｉｎＬｏｗｌａｔｅｎｃｙＣＶ２Ｘ［Ｃ］∥２０２２１４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＷＣＳＰ）．Ｎａｎｊｉｎｇ：ＩＥＥＥ，２０２２：７９４－７９９．

［８］趙莎莎．基于ＰＳＯ的Ｄ２Ｄ蜂窩網絡聯合信道分配和功率控制［Ｊ］．無線電工程，２０２３，５３（７）：１６６０－１６６９．

［９］ＬＩＡＮＧＬ，ＹＥＨ，ＹＵＧＤ，ｅｔａｌ．ＤｅｅｐｌｅａｒｎｉｎｇｂａｓｅｄＷｉｒｅｌｅｓｓＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｔｏＶｅｈｉｃｕｌａｒＮｅｔｗｏｒｋｓ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，２０２０，１０８（２）：３４１－３５６．

［１０］ＴＡＮＪＪ，ＬＩＡＮＧＹＣ，ＺＨＡＮＧＬ，ｅｔａｌ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｆｏｒＪｏｉｎｔＣｈａｎｎｅｌＳｅｌｅｃｔｉｏｎａｎｄＰｏｗｅｒＣｏｎｔｒｏｌｉｎＤ２ＤＮｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０２０，２０（２）：１３６３－１３７８．

［１１］ＹＵＡＮＹ，ＺＨＥＮＧＧ，ＷＯＮＧＫＫ，ｅｔａｌ．ＭｅｔａｒｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＢａｓｅｄＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎｆｏｒＤｙｎａｍｉｃＶ２ＸＣｏｍｍｕｎｉｃａｔｉｏｎｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＶｅｈｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙ，２０２１，７０（９）：８９６４－８９７７．

［１２］ＧＵＡＮＺ，ＷＡＮＧＹＹ，ＨＥＭ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｂａｓｅｄＳｐｅｃｔｒｕｍＡｌｌｏｃａｔｉｏｎＡｌｇｏｒｉｔｈｍｉｎＩｎｔｅｒｎｅｔｏｆＶｅｈｉｃｌｅｓＤｉｓｃｒｉｍｉｎａｔｉｎｇＳｅｒｖｉｃｅｓ［Ｊ］．ＡｐｐｌｉｅｄＳｃｉｅｎｃｅｓ，２０２２，１２（３）：１７６４．

［１３］ＨＡＮＤ，ＳＯＪ．ＥｎｅｒｇｙｅｆｆｉｃｉｅｎｔＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎＢａｓｅｄｏｎＤｅｅｐＱｎｅｔｗｏｒｋｉｎＶ２ＶＣｏｍｍｕｎｉｃａｔｉｏｎｓ［Ｊ］．Ｓｅｎｓｏｒｓ，２０２３，２３（３）：１２９５．

［１４］ＴＩＡＮＪ，ＳＨＩＹ，ＴＯＮＧＸＬ，ｅｔａｌ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＢａｓｅｄＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎｗｉｔｈＨｅｔｅｒｏｇｅｎｅｏｕｓＱｏＳｆｏｒＣｅｌｌｕｌａｒＶ２Ｘ［Ｃ］∥２０２３ＩＥＥＥＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ（ＷＣＮＣ）．Ｇｌａｓｇｏｗ：ＩＥＥＥ，２０２３：１－６．

［１５］ＶＵＨＶ，ＦＡＲＺＡＮＵＬＬＡＨＭ，ＬＩＵＺＹ，ｅｔａｌ．ＭｕｌｔｉａｇｅｎｔＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｆｏｒＣｈａｎｎｅｌＡｓｓｉｇｎｍｅｎｔａｎｄＰｏｗｅｒＡｌｌｏｃａｔｉｏｎｉｎＰｌａｔｏｏｎｂａｓｅｄＣＶ２ＸＳｙｓｔｅｍｓ［Ｃ］∥２０２２ＩＥＥＥ９５ｔｈＶｅｈｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙＣｏｎｆｅｒｅｎｃｅ（ＶＴＣ２０２２Ｓｐｒｉｎｇ）．Ｈｅｌｓｉｎｋｉ：ＩＥＥＥ，２０２２：１－５．

［１６］３ＧＰＰ．ＳｔｕｄｙＬＴＥｂａｓｅｄＶ２ＸＳｅｒｖｉｃｅｓ（Ｒｅｌｅａｓｅ１４）［Ｒ］．Ｖａｌｂｏｎｎｅ：３ＧＰＰＳｕｐｐｏｒｔＯｆｆｉｃｅ，２０１６．

［１７］ＫＹ？ＳＴＩＰ，ＭＥＩＮＩＬ？Ｊ，ＨＥＮＴＩＬＡＬ，ｅｔａｌ．ＷＩＮＮＥＲＩＩＣｈａｎｎｅｌＭｏｄｅｌｓ［Ｍ］．Ｈｏｂｏｋｅｎ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，２００８．

［１８］ＬＩＡＮＧＬ，ＹＥＨ，ＬＩＧＹ．ＳｐｅｃｔｒｕｍＳｈａｒｉｎｇｉｎＶｅｈｉｃｕｌａｒＮｅｔｗｏｒｋｓＢａｓｅｄｏｎＭｕｌｔｉａｇｅｎｔＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｊ］．ＩＥＥＥＪｏｕｒｎａｌｏｎＳｅｌｅｃｔｅｄＡｒｅａｓｉｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１９，３７（１０）：２２８２－２２９２．

作者簡介

孟水仙女，（１９８４—），碩士，高級工程師。主要研究方向：無線電監測、電磁兼容。

劉艷超女，（１９９６—），碩士研究生。主要研究方向：認知無線傳感器網絡、強化學習。

（*通信作者）王樹彬男，（１９７１—），博士，教授。主要研究方向：認知無線傳感器網絡、機器視覺。

基金項目：國家自然科學基金（６２３６１０４８）