倪龍飛,白 倩
(黃河交通學院智能工程學院,河南 焦作 454950)
強化學習(Reinforcement Learning)的基本原理是,智能體在與環境的交互過程中,通過環境反饋的信息調整自身策略從而獲得最佳對策的過程[1]。強化學習中一般包括:狀態、動作、獎勵、狀態的轉移概率、策略以及值函數。傳統的強化學習在簡單的場景中能取得好的結果,但是在現實中復雜問題較多,傳統的強化學習不能滿足需求,為了解決動作空間維數大的問題,谷歌團隊首先將深度學習與強化學習有效結合,形成了人工智能的研究熱點,深度強化學習由此產生。
智能體是在人工智能技術應用背景下能夠與外界環境進行人機交互的實體,其作為一種能夠自主活動的軟件或者硬件實體,能夠在環境中基于自身的意圖或者算法來與其他智能體進行交互,并且在環境應用的過程中不斷修改自己的行為,從而更好地適應智能化、信息化的環境需求[2]。其中,智能體的應用主要受到策略(Policy)、價值函數(Value Function)和模型(Model)三個方面的影響。從策略的角度看,其主要是作為一種方向性的經驗指導來指揮智能體的操作,無論是作為確定性策略還是隨機性策略,都是基于特殊的現狀或者預測性現狀而形成的一種方向性的指令。
狀態是智能體執行一項指令過程中所存在的器械環境,其主要包括三個方面的內容,分別是外界環境狀態(Environment State)、智能體狀態(Agent State)和信息環境狀態(Information State)。其中,智能體所處的狀態可以理解為其所處的數據信息環境以及數據指標的特征,例如Agent State是輸入給agent的信息,也就是特征數據。Information State是當前狀態包含了對未來預測所需要的有用信息,過去信息對未來預測不重要,該數據狀態更側重于當前數據狀態的分析。Environment State主要有完全可觀測環境與部分可觀測環境。完全可觀測環境是一種理想化的狀態,而部分可觀測環境需要智能體在狀態操作基礎上進行深層次的探索與學習研究。
傳統的蜂窩網資源分配方法主要包括博弈理論、拍賣機制、圖論著色理論、遺傳算法等。其中,拍賣機制采用了信息加密和拍賣協議的方式,不僅能夠提高頻譜的利用效率,還能提升頻譜安全性。圖論著色理論主要是采用相關理論建構干擾感知圖,從而提出資源共享方案,這樣的優點是算法快,時間成本相對較低。隨著無線網絡的不斷發展,資源呈現動態變化,傳統的蜂窩網資源分配方法不足以應對多目標優化問題,無法挖掘深層次的數據信息。當前,以深度學習為主的人工智能技術已開始廣泛運用于各個領域,其能夠基于一種狀態監測與指令預測性操作的形式解決上述問題,以此來全面提高數據資源的分配利用效率。
首先,蜂窩網資源分配算法的覆蓋面相對較廣泛,其能夠在數據信息利用的過程中覆蓋各個國家與地區,從而更好地在多個主體的信號傳輸過程中實現信息資源的分配式均衡利用。其次,蜂窩網在資源分配算法應用的過程中,其能夠通過遠程管理的形式對于多個智能體進行環境監視,從而通過系統化的管理進行故障監測,并且設定一定的技術指標來會進行異常情況預警,提示相關技術操作人員的維修與管理。另外,在蜂窩網資源分配式算法應用的過程中,其能夠通過多個類似蜂窩的小區進行信息的發射與接收,不僅能夠實現信號傳輸的高效利用,還能夠在應用過程中保護下小區內部的隱私性信息,提高分布式算法系統的安全性。
蜂窩網資源分配算法能夠充分應用于我國的通信工程、物聯網技術等方面的領域中,并且其實際的應用范圍還處于一個不斷探索的過程中。例如我國許多學者在研究過程中仍然采用傳統的方法,即迭代運算進行研究,這樣的方式使得資源的優化效率顯著降低,在復雜的網絡環境中不能夠快速靈活的作出反應。擁塞控制能夠在一定程度上反映出用戶對于某種資源的需求情況,它與無線資源的分配是緊密聯系在一起的,而部分學者未考慮到用戶的擁塞控制,從而降低了用戶的QoS技術保證。此外,深度強化學習的模型確實能夠解決許多問題,但是在新的網絡中不能復用,這不僅要求重新訓練新的神經網絡,還要獲取大量的訓練樣本,因而算法速度會顯著下降,也會耗費訓練時間。
基于深度強化學習理論我選哪個成的蜂窩網資源分配算法,其算法的應用模式能夠基于深度學習的理解與感知能力進行技術性的改機,也就是將信息的感知能力與信息的決策能力、信息的處理進行融合,從而通過多元的嘗試來進行算法應用的研究,從而在此基礎上給予最大效益的原則進行算法框架預設??梢哉f,基于深度強化學習的蜂窩網資源分配算法框架,如圖1所示。

圖1 基于深度強化學習的蜂窩網資源分配算法模型
在該算法模型應用的過程中,其主要采用了Q-learning的學習機制來進行算法框架的設計,其算法應用主要是一種迭代式的狀態來進行算法技術應用的推算與預估,并且在該算法運作的過程中,我們能夠采用求解誤差梯度的形式來進行智能體動作狀態值網絡的最優解,從而基于效率最優的原則來完成整個蜂窩網資源分配的全面應用。
深度強化學習理論背景下蜂窩網資源分配算法流程的應用,其主要是通過前向傳輸過程與反向訓練過程來實現資源算法的應用,并且基于信號傳輸最大化與效率最高的原則來進行數據算法的應用,從而在分配算法應用的過程中實現算法模型的全面系統優化。
在前向傳輸過程中,蜂窩網的資源分配算法需要構建一個較為完善的DNN系統,其作為前向傳輸過程中的核心,首先需要基于一定的算法公式來探索微基站的最大發射功率,并且基于傳輸速率最優化的原則來進行數據流分析,這就能夠在迭代應用的過程中通過數據流的更新來構造相對完整的DNN,從而能夠在不同的信道中將觀測到的蜂窩數據的進行動態分析,從而在研究活動中用算法實現資源分配策略的優化。
在反向訓練的過程中,其算法模型主要通過是通過一種構造誤差函數的形式來進行數據的測試與訓練。首先,在觀測系統中,其主要對于系統化的能量效率進行觀測,且將其作為一種獎懲值來進行接入信息與干擾信息的分析,從而在此基礎上形成優質的資源分配策略??梢哉f,在該策略分布的過程中,我們需要重點基于反向傳播算法來進行數據的分析,將損失函數值實現最小化的處理,并且基于資源分配最優化的策略來進行仿真分析,這就能夠在研究活動中通過深度強化學習的模式來優化蜂窩網資源分配算法,全面提高信息處理與傳輸的使用效率。
綜上所述,據深度強化學習理論顯示,蜂窩網資源分配算法能夠解決目前資源網格容量不高的問題,并且在最大限度實現網絡總容量空間的綜合應用,并且構建出一種相對完善的蜂窩網絡資源分配算法模型,該模型是基于深度強化學習理論基礎上構建的算法模型,能夠通過系統化的設置來進行智能體內部的資源自主選擇,其收斂的速度較快,而且其算法應用的成本消耗、運作效率都優于其他算法,更好地實現了蜂窩網資源分配效率的全面提升。