魏憲鵬,付 芳,張志才
(山西大學 物理電子工程學院,山西 太原 030006)
由于無人機的靈活性、機動性和低成本,其在物聯網(Internet of Things,IoT)網絡中實時應用發揮著關鍵作用,如智能交通[1]、災難救援[2]、野火預防[3]等。在這些應用程序中,要求將IoT設備生成的實時數據盡可能新鮮地傳遞給接收器。例如,智能交通中復雜的數據和過時數據可能會導致錯誤的操作,甚至造成災難性的后果[4]。因此,保證接受數據的及時性對無人機輔助物聯網網絡至關重要。信息年齡(Age of Information,AoI)是一種有效的性能指標,其定義為自生成接收器的最新更新以來經過的時間量[5],其中最新收到的數據包的年齡值較小,因此,可以通過最小化AoI來保證接收數據的時效性。
基于深度強化學習(Deep Reinforcement Learning,DRL)的無人機軌跡設計被認為是處理無人機路徑規劃問題的有效方法[6-9],其中無人機被視為“智能體”,通過與環境直接交互獲得最優軌跡。例如,Fu F 等[8]提出了一種基于好奇心驅動的DQN 路徑規劃方法;Wang L 等[9]提出了一種基于深度確定性策略梯度算法的無人機路徑設計方法,以降低分布式邊緣計算系統中用戶的能量開銷。然而,這些優化問題大都受短期限制條件約束。眾所周知,無人機的飛行能量預算對無人機的路徑規劃有很大影響,然而,他們忽略了飛行的能耗成本。考慮到無人機承載能量的局限性,Hu X等[10]提出了一種最小化無人機能耗的無人機軌跡規劃方案;Liao Y 等[11]提出了一種多目標優化方案,以最小化AoI 和無人機的能耗成本;……