張 芳,倪守娟,顏 艷
(1.青島民航凱亞系統集成有限公司,山東 青島 266108;2.青島國際機場集團有限公司,山東 青島 266308)
為了提高無線通信網絡傳輸的安全態勢感知能力,需要設計和實現一種改進的強化學習算法[1-2]。具體的設計結構如圖1 所示。

圖1 改進算法的設計結構
如圖1 所示,在狀態表示的改進方面,不僅考慮了當前的多維度狀態特征,還將歷史信息整合進來,使算法能夠更全面地把握當前的無線通信網絡傳輸態勢。主要采用深度學習技術,將多維度狀態特征和歷史信息進行有效整合,使狀態表示更加豐富和準確。在動作空間的改進方面,主要設計了多樣化的動作,以應對無線通信網絡傳輸中的各種復雜情況。同時,改進算法設計還實現了自適應動作,使算法能夠根據當前的網絡傳輸態勢自動選擇最適合的動作,從而提高網絡傳輸的安全態勢感知能力。在獎勵機制的改進方面,采用了多目標優化,將短期收益和長期收益進行有效平衡。這使得算法在追求網絡安全的同時,也能夠關注網絡的傳輸效率。此外,還設計了一種長期激勵機制,以鼓勵算法在長期的網絡運行中保持優秀表現。在策略學習的改進方面,主要從模型驅動的學習和遷移學習2 個方面進行了改進。利用模型驅動的學習,使算法能夠更加精確地模擬網絡傳輸中的各種情況,從而提高算法的預測能力。采用遷移學習技術,使算法能夠將在一個網絡環境中學到的知識應用到另一個網絡環境中,從而提高算法的泛化能力。
總之,改進強化學習算法在狀態表示、動作空間、獎勵機制、策略學習4 個方面都進行了全面的技術性完善和優化,通過這些具體的改進形式,能夠使得改進的強化學習算法更好地適應無線通信網絡的傳輸安全需求,提高安全態勢感知的準確性和實時性,從而增強網絡的整體安全性。
在構建無線通信網絡傳輸安全態勢感知模型時,需要綜合考慮多方面的因素,確保網絡傳輸的安全性和可靠性[3]。具體模型架構流程如圖2 所示。

圖2 模型架構流程
如圖2所示,建立模型架構時,先要進行數據采集,收集流量數據、信號強度等多種數據,并對數據進行預處理,消除噪聲,提取有用信息。接著通過特征提取中的模式識別技術,從數據中提取反映網絡狀態和用戶行為的特征,并結合支持向量機(Support Vector Machine,SVM)整合威脅情報,識別異常行為和威脅特征,具體的表達式為
式中:w為權重值;ai為拉格朗日乘子;yi為輸出標簽,通常取值為+1 或-1;xi為輸入數據點。
在態勢理解層對威脅進行建模,具體可利用邏輯回歸的預測計算進行分類和標注,為態勢預測提供依據。同時,整合網絡外部信息,如天氣狀況、地理位置等,為模型構建提供更全面的網絡使用背景。具體的邏輯回歸預測計算為
式中:y為預測的輸出值,也稱為邏輯回歸得分;x為輸入的特征量,包含了用于預測的各個特征的值;b為截距項,是邏輯回歸模型的另一個參數,對應于所有輸入特征值為0 時模型的預測值。當y值接近于1 時,意味著模型預測輸出為正類;相反,當y值接近于0 時,意味著模型預測輸出為負類。此外,通過動態分析和趨勢分析,實時監測與分析網絡傳輸中的變化,預測潛在的安全態勢變化。如果動態分析或趨勢分析不成功,那么模型將會重新評估分析方法或增加更多的分析維度,直至預測結果準確。最后,態勢展示層通過可視化界面,將安全態勢感知結果直觀展示給網絡安全分析師,并根據感知結果發出預警,指導相應響應措施。學習與優化層利用過往安全事件數據,持續優化模型,適應新的安全威脅,并定期更新模型參數和特征庫。
在無線通信網絡傳輸安全態勢感知模型的構建中,獎勵函數的設計是關鍵組成部分,主要負責指導網絡中的節點如何通過各自的行為來優化整個網絡的安全態勢[4]。獎勵函數通常設計為衡量個體行為對整個網絡安全的貢獻程度,激勵節點采取有利于網絡安全的行動。具體獎勵函數設計組成如下。
2.2.1 安全性能指標
利用基于量子密鑰分發(Quantum Key Distribution,QKD)的量子通信協議,來確保通信的保密性。QKD 利用量子態的不確定性來生成和傳輸密鑰,任何試圖監聽的行為都會被檢測到,從而保證密鑰的安全和通信的機密性。此外,網絡采用分布式架構,及時中斷在不安全的環境下發生的分布式拒絕服務(Distributed Denial of Service,DDoS)攻擊事件。
2.2.2 行為貢獻度
在無線通信網絡中,為提高安全態勢感知的效率,獎勵函數應重點考慮節點的行為貢獻度[5]。通過建立信譽積分系統,評估上報信息的準確性和及時性,從而獎勵那些能夠快速識別并上報威脅的節點。在防御行為方面,主要通過部署入侵檢測系統(Intrusion Detection Systems,IDS)和入侵防御系統(Intrusion Prevention System,IPS),檢測正在進行的攻擊或異常活動,并向網絡管理員發出警報,及時隔離受感染的系統,阻止惡意流量或修改網絡配置等危險動作。
2.2.3 網絡效率指標
采用先進的調制技術并優化傳輸協議,減少傳輸延遲和提高數據吞吐量。同時,激勵節點使用動態頻率選擇和頻譜感知技術,降低無線通信網絡中頻率干擾和沖突的概率,提高頻譜利用效率。此外,采用機器學習算法來預測和優化網絡資源分配,獎勵那些能夠根據網絡負載動態調整發射功率和資源分配策略的節點。
通過以上3 個部分,可以構建一個有效的獎勵機制,激勵網絡中的節點積極參與到網絡安全態勢感知,共同維護無線通信網絡的安全。
為全面評估基于改進強化學習的無線通信網絡傳輸安全態勢感知方法的性能,需搭建一個適合測試的實驗環境。實驗要準備OPNET 系列的網絡模擬器、Intel Xeon 系列的服務器、GeForce 系列的圖形處理器;同時還須準備不間斷電源,確保實驗過程中電源的穩定性和系統的不間斷運行;以及用于構建網絡拓撲結構,連接模擬無線節點的網絡交換機。通過以上設備,可以搭建一個適合測試基于改進強化學習的無線通信網絡傳輸安全態勢感知方法的實驗環境[6]。
在進行結果分析前,模擬DDoS 攻擊,讓攻擊者通過發送大量偽造請求使服務器被這些請求所占滿,導致合法用戶無法獲得足夠的網絡服務資源,從而使得網絡服務變得不可用。仿真時間為100 s,仿真數據如表1 所示。

表1 仿真數據
如表1 所示,在模擬的DDoS 攻擊場景下,強化學習算法通過動態調整網絡策略來最小化這些影響。可以看出,強化學習算法在提高傳輸成功率、減少延遲和丟包率、優化能耗方面取得了一定的效果。這些數據表明,強化學習算法有助于提高網絡在遭受攻擊時的健壯性和效率。
接著,將改進的強化學習方法與傳統的安全管理方法進行對比,評估改進后的方法在傳輸效率、延遲和丟包率等方面的表現。同時,使用定義的性能指標,對實驗結果進行量化分析。具體實驗結果對比如表2 所示。

表2 測試實驗結果
表2 數據顯示,強化學習方法顯著提升了無線通信網絡的傳輸效率,從原來的700 Mb/s 增加到850 Mb/s。這一變化表明,強化學習能夠更有效地利用無線通信資源,提高數據傳輸速度和網絡容量。此外,平均延遲從30 ms 減少到20 ms,表明強化學習方法提供了更快的響應時間,對于實時應用和用戶體驗有顯著改善。丟包率也從2%降低到0.5%,這顯示了強化學習在管理網絡擁塞和干擾方面的有效性,增強了網絡的可靠性。能耗方面,強化學習方法節省了25%。總之這些結果證明了強化學習技術在無線通信網絡管理中的潛力,為網絡提供了更加高效、可靠和安全的環境。
文章針對無線通信網絡傳輸安全態勢感知問題,提出了一種基于改進強化學習的方法。通過設計新的強化學習算法,構建了無線通信網絡傳輸安全態勢感知模型,并通過仿真實驗驗證了方法的有效性。實驗結果表明,改進的強化學習方法在傳輸效率、延遲、丟包率等方面顯著優于傳統安全管理方法,同時具備更高的能源效率和資源利用率。