





收稿日期:2022-04-19;修回日期:2022-06-01" 基金項目:廣東省自然科學基金資助項目(2018A030313889);廣東省重點領域研發計劃資助項目(2019B010116001)
作者簡介:蔡玲如(1979-),女(通信作者),廣東汕頭人,副教授,碩導,博士,主要研究方向為復雜系統建模與仿真、博弈論、人工智能(lrcai@stu.edu.cn);朱理(1997-),男,碩士研究生,主要研究方向為博弈論與網絡安全;黃瑞崧(1998-),男,碩士研究生,主要研究方向為博弈論與網絡安全;蔡偉鴻(1963-),男,教授,主要研究方向為網絡技術、信息安全;陳銀冬(1983-),男,副教授,主要研究方向為密碼學與信息安全.
摘 要:無線傳感器網絡易遭到各種內部攻擊,入侵檢測系統需要消耗大量能量進行攻擊檢測以保障網絡安全。針對無線傳感器網絡入侵檢測問題,建立惡意節點(malicious node,MN)與簇頭節點(cluster head node,CHN)的攻防博弈模型,并提出一種基于強化學習的簇頭入侵檢測算法——帶有近似策略預測的策略加權學習算法(weighted policy learner with approximate policy prediction,WPL-APP)。實驗表明,簇頭節點采用該算法對惡意節點進行動態檢測防御,使得博弈雙方快速達到演化均衡,避免了網絡出現大量檢測能量消耗和網絡安全性能的波動。
關鍵詞:無線傳感器網絡;入侵檢測;攻防博弈;強化學習;演化均衡
中圖分類號:TP393.08"" 文獻標志碼:A
文章編號:1001-3695(2022)12-042-3786-05
doi:10.19734/j.issn.1001-3695.2022.04.0208
Research on attack-defense game based on reinforcement learning for
wireless sensor network intrusion detection
Cai Lingru,Zhu Li,Huang Ruisong,Cai Weihong,Chen Yindong
(Dept.of Computer Science,College of Engineering,Shantou University,Shantou Guangdong 515063,China)
Abstract:Wireless sensor network is vulnerable to various internal attacks,and intrusion detection systems need to consume a lot of energy for attack detection to ensure network security.To address the intrusion detection problem of wireless sensor network,this paper established an attack-defense game model between malicious node(MN) and cluster head node(CHN) and proposed a reinforcement learning-based cluster head intrusion detection algorithm called weighted policy learner with approximate policy prediction (WPL-APP).Experiments show that cluster head nodes use this algorithm for dynamic detection and defense against malicious nodes,which can make both sides of the game quickly reach evolutionary equilibrium and avoid large detection energy consumption and fluctuation of network security performance.
Key words:wireless sensor network;intrusion detection;attack-defense games;reinforcement learning;evolutionary equilibrium
0 引言
無線傳感器網絡(wireless sensor network,WSN)是由部署在監測區域的大量傳感器節點構成,通過無線通信的方式進行監測數據傳輸,形成一個自組織的多跳網絡系統,被廣泛地應用于環境監測、軍事安全和自然災害預警等領域[1]。傳感器節點有限的能量資源、無線通信傳輸方式以及監測環境復雜且無人值守等原因,使得WSN易遭受網絡外部和內部的各種攻擊,尤其內部攻擊形式多樣且不易被發現[2]。入侵檢測系統(intrusion detection system,IDS)能夠有效檢測出網絡的內部攻擊并及時進行報警和采取管制措施,但它需要更多的能量消耗[3]。如何在能量資源受限的WSN中合理有效地使用IDS是一個非常具有挑戰性的任務[4]。
近年來,不少學者利用節點聚類、信任值等方法來解決入侵檢測問題。文獻[5]運用聚類方法將節點分為惡意節點、可疑節點和規則節點,建立一個信息不完整的惡意節點與規則節點共存的非合作博弈模型,利用獎懲機制降低惡意節點的預期收益和信任值,可疑節點為避開檢測將被迫轉發數據包,仿真結果表明該方案延長了WSN的使用壽命。文獻[6]提出一種基于多智能體系統和節點信任值的入侵檢測方案,在普通節點和簇頭節點上建立多智能體模型框架,節點智能體根據Beta分布和容忍系數的組合更新節點信任值,實現網絡入侵檢測。文獻[7]提出基于狀態上下文和層次信任的入侵檢測與預防機制,采用普通—簇頭和簇頭—基站兩層信任計算機制,初始化節點不同的信任權重并在狀態轉換時更新信任值,在數據聚合時過濾掉低信任值的節點數據,實現入侵防御。但是大部分基于信任值的入侵檢測方案檢測的有效性容易受到無線信道的穩定性、可靠性以及惡意節點的偽裝影響,導致檢測失敗。
近年來,基于博弈論的入侵檢測方案也引起了廣泛的關注和應用。文獻[8]建立惡意、簇頭節點之間的攻防博弈模型,利用信號博弈將其構建為多階段動態入侵檢測博弈,使得簇頭節點能夠選擇最優防御策略,迫使惡意節點選擇合作策略,延長了網絡生命周期。文獻[9]針對WSN安全問題提出了一種基于博弈論和自回歸模型的入侵檢測模型,將自回歸理論模型改進為非協同完全信息靜態模型,并對攻擊模式進行預測,通過分析混合策略Nash均衡得到最優防御策略。文獻[10]提出一種基于演化博弈的WSN主動防御模型,防御節點學習攻擊節點的策略,動態地調整防御策略來實現有效防御。文獻[11]在基于演化博弈主動防御模型中建立預防機制,迫使惡意節點放棄攻擊轉為合作,提高WSN的可靠性和穩定性。文獻[12,13]從網絡攻防對抗有限理性約束條件出發,構建攻防演化博弈模型,給出演化均衡的求解方法并分析演化穩定策略的形成機理,設計出最優防御策略選取算法。有學者針對環境污染問題建立政府與企業的混合策略演化博弈,提出加入動態懲罰的控制策略[14],博弈能夠達到演化均衡,但WSN受到外界環境和自身拓撲結構的影響以及惡意節點攻擊的多樣性和隱蔽性,動態懲罰控制策略難以借鑒應用,而博弈過程的動態性則會造成大量檢測能量消耗和網絡安全性能波動。
強化學習是一類學習、預測和決策的方法框架,對于許多動態、復雜的問題能夠給出最優解,被廣泛地應用于信息安全防御[15,16]、無線傳感器網絡[17,18]等領域并取得了不錯的成果。梯度上升(gradient ascent,GA)算法[19]是強化學習中的重要算法之一,它從理性角度出發,給出一種合理調整策略使收益最大化的方法,能夠使得具有純策略Nash均衡的博弈收斂,但無法讓混合策略博弈收斂[20]。對于混合策略博弈,許多學者在GA算法的基礎上進一步給出解決方法。文獻[21]提出WoLF原則,用兩個固定學習率改變策略的更新速度,但收斂性不夠理想;文獻[22]從博弈遺憾角度出發,用近似的Nash均衡策略指導當前策略變化,逐漸最小化遺憾值來實現策略的收斂,但收斂速度較慢;文獻[23]對策略進行動態加權,將固定學習率改進為變化的學習率,策略收斂性得到提高;文獻[24]提出將對手的策略變化納入考慮范圍,預測出對手的策略變化進而及時更新自身策略,達到策略收斂效果;文獻[25]使用WoLF和WoLS兩種學習機制進行策略更新,策略收斂于Nash均衡;文獻[26]在建立對手模型的基礎上提出學習對手的學習意識(LOLA),策略的收斂性和穩定性都有不錯的表現;文獻[27]提出穩定對手塑造(SOS),它表現出與LOLA相同或更好的收斂穩定性。
許多學者對促進博弈策略收斂提供了有效的方法,本文從策略收斂的廣泛性和穩定性角度出發,提出帶有近似策略預測的策略加權學習算法(WPL-APP),該算法能夠讓簇頭節點主動、動態地調整策略,使博弈雙方快速達到演化均衡,避免網絡出現大量檢測能量消耗和安全性能的波動。
1 無線傳感器攻防博弈
1.1 網絡分簇
為節約節點能量和保障數據穩定傳輸,WSN常被分為多個相互連接的簇,每個簇由若干個成員節點和一個簇頭節點組成,成員節點將監測數據發送給簇頭節點,簇頭節點再將信息轉發給基站[28]。其中,成員節點中可能存在惡意節點,惡意節點會對網絡發起內部攻擊,如選擇性轉發攻擊、竄改攻擊等。假設WSN被劃分為k個簇,分別標記為c1,c2,…,ck,簇頭節點具有IDS,收到成員節點的數據包可選擇檢測或不檢測,若檢測到惡意節點的攻擊,對其采取管制措施,如要求其重發數據、加入黑名單、節點隔離和重編程等。惡意節點為避免被IDS捕獲,選擇合作偽裝成正常節點發送有效數據,伺機發動攻擊。對于惡意節點的偽裝,文獻[29]表明隔離惡意節點并不是最優策略,利用惡意節點的偽裝合作為網絡帶來收益是合理有效的。本文網絡分簇模型如圖1所示。
1.2 攻防博弈模型
簇頭節點檢測到攻擊,對惡意節點進行警告并要求其重發有效數據,否則將采取節點隔離等措施;惡意節點被警告后選擇偽裝合作,伺機再發動攻擊。因此,惡意節點與簇頭節點之間可描述為一種演化博弈。基于此,構建惡意節點與簇頭節點間的攻防博弈模型如定義1所述。
定義1 攻防博弈模型可表示為一個四元組(N,S,P,V),其中,N=(Nm,Nc)是博弈參與者集合,Nm表示惡意(malicious)節點,Nc表示簇頭(cluster)節點;S=(Sm,Sc)表示博弈者策略空間集合,Sm={攻擊,合作}是惡意節點的策略動作集合,Sc={檢測,不檢測}是簇頭節點的策略動作集合;P=(σm,σc)表示博弈者策略概率分布,σm=(γ,1-γ),γ表示惡意節點的攻擊概率,σc=(β,1-β),β表示簇頭節點的檢測概率;V=(Vm,Vc)表示博弈者支付函數集合,Vm是惡意節點的支付函數,Vc是簇頭節點的支付函數。
假設攻防博弈中,簇頭節點轉發數據包獲得收益a2,惡意節點的數據包被轉發獲得收益a1,簇頭節點檢測數據包需耗能d2,若成功檢測到攻擊則獲得收益u2,同時惡意節點被警告且因重復發送數據包產生能量損耗p1;若簇頭節點不檢測且被惡意節點攻擊則產生損失p2,同時惡意節點獲得收益u1,當惡意節點合作且簇頭節點檢測時,惡意節點因發送有效數據獲得潛在信任收益c1。為了使簇頭的檢測和惡意節點的攻擊有意義,各支付關系滿足a1gt;c1,u1gt;p1, a2gt;d2,u2gt;p2。入侵檢測博弈雙方支付矩陣如表1所示。
假設惡意節點和簇頭節點分別以概率γ、β進行攻擊和檢測,則惡意節點和簇頭節點的期望效用函數可分別用Vm(σm,σc)和Vc(σm,σc)表示,如式(1)所示。
Vm(σm,σc)=γβ(a1-p1)+γ(1-β)(a1+u1)+
(1-γ)β(a1+c1)+(1-γ)(1-β)a1
Vc(σm,σc)=βγ(a2+u2-d2)+β(1-γ)(a2-d2)+
(1-β)γ(a2-p2)+(1-β)(1-γ)a2(1)
根據收益最大化方法得到惡意節點和簇頭節點唯一的混合策略Nash均衡點(γ*,β*),其中γ*=d2/(u2+p2)
β*=u1/(c1+p1+u1)。
入侵檢測博弈模型中,僅研究Nash均衡的存在性是不夠的,復雜動態的網絡環境變化使得博弈雙方策略選擇存在很大的不確定性。因此,如何讓簇頭節點具有一定的學習能力,從而促使博弈雙方能夠快速地達到博弈的演化均衡狀態是研究的重點。GA算法提供了一種策略調整使收益最大化的方法,簇頭節點可利用該算法不斷學習和調整策略概率獲得最大收益,實現高效檢測。
2 梯度上升算法
傳感器節點內部嵌有微型操作系統,將強化學習算法寫入系統內使其具有一定的智能性,簇頭節點作為智能體不斷學習、執行合理高效的檢測策略。
GA思想與復制動態方程基本一致,且具有一定的突變性。在GA下,節點沿梯度上升的方向不斷調整策略概率,逼近期望收益最大值,使得節點具有學習和動態調整能力,以應對復雜多變的網絡環境。
博弈模型中惡意節點、簇頭節點的期望收益函數Vm、Vc對攻擊率γ、檢測率β的梯度(偏導)如式(2)所示。
γVm(γ,β)=Vm(γ,β)γ=β(-p1-c1-u1)+u1
βVc(γ,β)=Vc(γ,β)β=γ(u2+p2)-d2(2)
節點沿計算得到的策略梯度方向調整其策略概率,逼近收益最大值,策略概率更新如式(3)所示。
γk+1=γk+λγVm(γk,βk)βk+1=βk+λβVc(γk,βk)(3)
引入步長λ∈(0,1)來控制梯度更新幅度,以確保策略概率在合適且有效的區間,即(γ∈[0,1],β∈[0,1])。實驗表明,λ太大則會錯過收益最大值點,太小則收斂速度過于緩慢。分析節點采用GA下博弈模型的穩定性,令X=γVm(γ,β)βVc(γ,β)=f(X,t)=0,求得系統唯一的平衡態X1=γ*β*=d2/(u2+p2)u1/(c1+p1+u1),建立其雅可比矩陣并求解,可得
J(X1)=f(X1,t)X1γVm(γ,β)γγVm(γ,β)β
βVc(γ,β)γβVc(γ,β)β=0Δ1Δ2
-Δ1Δ20
Δ1=(p2+u2)·[p2(c1+p1)-u1u2]·(c1+p1+u1)·
[c1(d2-p2-u2)+d2(u1+p1)]lt;0Δ2=(c1+p1+u1)(p2+u2)gt;0
J(X1)的矩陣特征根中不存在負實部特征值,由Lyapunov穩定性理論可知,基于梯度上升算法的入侵檢測博弈系統不具有漸進穩定性,該系統的平衡態X1即博弈的Nash均衡點為臨界穩定狀態。
3 基于策略加權與預測算法(WPL-APP)的博弈模型
入侵檢測博弈中,采用GA進行策略學習調整的節點難以使博弈快速達到演化穩定均衡,節點的智能程度不夠。因此,在GA的基礎上,本文提出WPL-APP算法,為簇頭節點提供更高效的學習策略,使入侵檢測博弈快速達到演化均衡且收斂廣泛、穩定。
3.1 WPL-APP算法
WPL-APP算法主要由基于Q-learning的策略梯度值計算和策略加權預測機制兩部分組成,其流程如圖2所示。
3.1.1 基于Q-learning的梯度計算
GA中,簇頭節點的梯度中包含了惡意節點的策略概率值和動作收益值(式(1)),但在實際博弈過程中,簇頭節點難以獲得惡意節點的準確相關信息。本文利用Q-learning算法,通過在博弈中可獲得的信息來計算簇頭節點的策略總收益值,進而求取節點策略梯度。Q-learning算法的Q值更新公式如下所示:
Qt+1(s,a)=Qt(s,a)+α[rt+ε×max Q(s′,a)-Qt(s,a)](4)
其中:α∈[0,1]為學習速率,表示對經驗學習的重視程度;ε∈[0,1]為折扣因子,表示對未來狀態價值的重視程度。
簇頭節點策略梯度計算分為以下四個步驟:a)初始化簇頭節點當前狀態s下的策略概率πc(s,a),a∈A={0,1}分別表示策略檢測和不檢測;b)節點間進行攻防博弈,簇頭節點根據式(4)分別更新兩個策略的總收益值Qc(s,a);c)計算簇頭節點兩個策略的平均收益值c=∑a∈A πc(s,a)Qc(s,a);d)計算簇頭節點兩個策略的策略梯度δ(s,a)= Qc(s,a)-c。
簇頭節點當前策略收益與平均收益差的正負與該策略梯度方向一致,故可用策略收益差近似代替該策略梯度值,求得當前策略的梯度值。
3.1.2 策略加權與預測
1)策略動態加權
策略動態加權[23]可在多變的博弈過程中,通過動態地對策略概率加權學習來實現快速收斂。入侵檢測攻防博弈過程中,簇頭節點檢測概率跨越其檢測均衡概率時,惡意節點攻擊策略梯度方向將發生改變。因此,當簇頭節點檢測概率大于均衡概率,即檢測收益大于平均收益值時,梯度采用1-πc(s,0)加權進行緩慢學習,否則使用πc(s,0)加權進行快速學習。策略動態加權用變化的學習率可使博弈過程達到演化均衡,節點的智能性得到提高,但若對手未使用策略動態加權,博弈過程仍會存在一定幅度的波動。
2)策略預測機制
為了使算法具有更廣泛的收斂性和更好的穩定性,引入策略預測機制[24]。假設簇頭節點獲得惡意節點當前策略概率及策略梯度變化方向,那么簇頭節點就可以預測出惡意節點的策略,根據預測結果及時調整自身策略概率,進行更合理的檢測。節點策略概率更新如式(5)所示。
γk+1=γk+λγVm(γk,βk+φβVc(γk,βk))βk+1=βk+λβVc(γk+φγVm(γk,βk),βk)(5)
其中:φ∈(0,∞]表示對對手策略梯度的短期預測,若預測長度太大,可能得到錯誤的預測梯度導致自身策略梯度調整太大,偏離了最優策略;預測梯度太小則收斂速度緩慢[24]。根據梯度計算公式(式(2))變形式(5)可得
γk+1=γk+λ(γk+φμmβk)
βk+1=βk+λ(βk+φμcγk)(6)
其中:γk=γVm(γk,βk),βk=βVc(γk,βk),μm=-p1-c1-u1,μc=u2-d2+p2;βk表示簇頭節點自身的梯度;φμcγk是對惡意節點梯度的預測項。簇頭節點的預測項通過式(2)可表示為
φμcγk=φμcμmγ-d2φμc(7)
預測項φμcγk是簇頭節點自身策略收益的線性函數,因此,使用-φ|δ(s,a)|πc(s,a)近似地表示預測出惡意節點的梯度。
算法1 WPL-APP 算法
1 let α be the learning rate of Q-learning,ε be the discount factor of Q-learning,λ be the gradient step size,φ be the derivation prediction length;
2 initialize value function Q and policy π;
3 repeat
4"" select an action a in current state s according to policy π(a,s) with suitable exploration;
5"" observing reward r and next s′,update Q(s,a)←(1-α)·Q(s,a)+α(r+ε maxa′(s′,a′));
6"" average reward (s,a)←∑a∈A π(s,a)·Q(s,a);
7"" for each action a do
8"" ΔQ←Q(s,a)-;
9"" if ΔQgt;0:
10""""" Δπ←1-π(s,a);
11"" else
12""""" Δπ←π(s,a);
13"" δ(s,a)←λ·ΔQ·Δπ;
14"" δ^(s,a)←δ(s,a)-φ|δ(s,a)| ·π(s,a);
15" π(s,a)←π(s,a)+λ·δ^(s,a);
16" end
17" π(s,a)←projection(π(s,a));
18 until the process is terminated
偽代碼中投影函數[22](第17行)將更新后的策略概率投射到有效策略空間,使得更新后的策略概率值滿足a∈A:1≥π(s,a) ≥0;∑a∈A π(s,a)=1。
3.2 實驗結果
仿真實驗使用編譯器PyCharm 3.2、編程語言Python 3.8對無線傳感器網絡的入侵檢測攻防博弈過程進行模擬仿真。假設惡意節點和簇頭節點支付矩陣收益值如表2所示,根據各參數意義調整設置實驗參數α=0.1,ε=0.9,λ=0.000 025,φ=3。為模擬檢測環境的復雜性,假設簇頭節點以10%的概率進行策略隨機選擇;以90%的概率在[0,1]內產生隨機概率值,若隨機概率值低于檢測概率,則執行檢測,反之不檢測。考慮惡意節點攻擊概率和簇頭節點檢測概率在不同初始條件下的博弈過程。
3.2.1 博弈雙方使用不同策略更新算法(GA-Q vs WPL-APP)
入侵檢測攻防博弈中,若惡意節點使用基于Q-learning的梯度上升算法(GA-Q)、簇頭節點使用WPL-APP算法。考慮惡意節點和簇頭節點在極端以及隨機初始概率情況下的攻防博弈過程。圖3表示博弈雙方采用混合策略(γ=0.9,β=0.1)的博弈過程。當惡意節點攻擊概率遠大于簇頭節點檢測概率時,簇頭節點能夠迅速提高檢測概率抑制惡意節點的攻擊,博弈過程快速達到演化均衡;若惡意節點的攻擊概率遠小于簇頭節點的檢測概率時,簇頭節點也能夠及時、主動地調整檢測概率,節省檢測能量消耗并控制博弈過程穩定于均衡狀態,博弈過程如圖4所示。隨機初始化博弈雙方概率如圖5所示,圖5(a)(b)分別表示初始概率在相差較大和較小群情況下的博弈過程。由結果可知,隨機地初始雙方概率,博弈過程也能快速收斂于演化均衡。
實驗結果表明,在極端和隨機初始概率情況下,簇頭節點均能夠及時調整策略控制博弈過程快速趨于均衡狀態。簇頭節點在WPL-APP算法下能及時有效地抑制惡意節點攻擊,避免攻擊概率的反復波動。而博弈穩定在Nash均衡的過程中存在的微小波動,則是由于模擬了檢測環境的復雜性所致。
3.2.2 博弈雙方使用相同策略更新算法(WPL-APP vs WPL-APP)
簇頭節點使用WPL-APP算法使得攻擊概率得到有效控制,當惡意節點和簇頭節點均使用WPL-APP算法,入侵檢測攻防博弈過程依然能夠快速穩定于均衡狀態,且收斂速度較單方采用WPL-APP算法更快,穩定性更強。圖6~8分別為博弈雙方在極端、隨機初始概率情況下的博弈過程,其中,圖8(a)(b)為初始博弈雙方概率相差較大和較小情況下的博弈過程。
利用強化學習算法賦予簇頭節點動態學習能力,使節點具有策略動態調節和一定的預測能力,調整策略提前防御可能遭受到的攻擊。
WPL-APP算法使得簇頭節點面對惡意節點在不同的智能程度和攻擊概率的情況下,均能夠主動、快速地調整策略概率,控制入侵檢測博弈快速達到演化均衡,避免網絡安全性能的較大波動,同時也使網絡避免了大量檢測能量的消耗,一定程度上延長了WSN的生命周期。
4 結束語
無線傳感器網絡入侵檢測是一個動態的、多因素影響的問題,從博弈論的角度,構建攻防博弈模型并從機器學習的角度提高簇頭節點的動態監測防御能力,進一步降低網絡復雜性和動態性帶來的各種不確定性,在保障網絡安全性能穩定可控的同時避免出現大量不必要的檢測能量消耗。仿真實驗表明,采用WPL-APP學習算法的簇頭節點能夠有效地提高動態監測能力,進一步提高WSN的安全性和協作性。機器學習中大部分實驗參數的設置對數據集和實驗者的調參能力依賴性較大,后續工作將把自動尋參作為研究方向。
參考文獻:
[1]Kandris D,Nakas C,Vomvas D,et al.Applications of wireless sensor networks:an up-to-date survey[J].Applied System Innovation,2020,3(1):14.
[2]劉妮,周海平,王波.面向多種攻擊的無線傳感器網絡攻防博弈模型[J].計算機應用研究,2020,37(8):2491-2495.(Liu Ni,Zhou Haiping,Wang Bo.Attack-defense game models for multi-attack oriented wireless sensor network[J].Application Research of Compu-ters,2020,37(8):2491-2495.)
[3]Butun I,Morgera S D,Sankar R.A survey of intrusion detection systems in wireless sensor networks[J].IEEE Communications Surveys amp; Tutorials,2013,16(1):266-282.
[4]Delgado M L.On the effectiveness of intrusion detection strategies for wireless sensor networks:an evolutionary game approach[J].Ad hoc amp; Sensor Wireless Networks,2017,35(1):25-40.
[5]Li Yuting,Wu Yuanming.Combine clustering with game to resist selective forwarding in wireless sensor networks[J].IEEE Access,2020,8:138382-138395.
[6]Jin Xianji,Liang Jianquan,Tong Weiming,et al.Multi-agent trust-based intrusion detection scheme for wireless sensor networks[J].Computers amp; Electrical Engineering,2017,59(4):262-273.
[7]Vyas A,Abimannan S.Intrusion detection and prevention mechanism implemented using NS-2 based on state context and hierarchical trust in WSN[C]//Proc of the 4th International Conference on Internet of Things and Connected Technologies.Cham:Springer,2019:229-240.
[8]Shen Shigen,Li Yuanjie,Xu Hongyun,et al.Signaling game based strategy of intrusion detection in wireless sensor networks[J].Computers amp; Mathematics with Applications,2011,62(6):2404-2416.
[9]Han Lansheng,Zhou Man,Jia Wenjing,et al.Intrusion detection mo-del of wireless sensor networks based on game theory and an autoregressive model[J].Information Sciences,2019,476(2):491-504.
[10]Chen Zhide,Qiao Cheng,Qiu Yihui,et al.Dynamics stability in wireless sensor networks active defense model[J].Journal of Computer and System Sciences,2014,80(8):1534-1548.
[11]Al-Jaoufi M A A,Liu Yun,Zhang Zhenjiang.An active defense model with low power consumption and deviation for wireless sensor networks utilizing evolutionary game theory[J].Energies,2018,11(5):1281.
[12]黃健明,張恒巍,王晉東,等.基于攻防演化博弈模型的防御策略選取方法[J].通信學報,2017,38(1):168-176.(Huang Jianming,Zhang Hengwei,Wang Jindong, et al.Defense strategies selection based on attack-defense evolutionary game model[J].Journal on Communications,2017,38(1):168-176.)
[13]鞏俊輝,胡曉輝,杜永文.基于演化博弈的最優防御策略選取研究[J].計算機工程與應用,2021,57(13):116-123.(Gong Junhui,Hu Xiaohui,Du Yongwen.Research on selection of optimal defense strategy based on evolutionary game[J].Computer Engineering and Applications,2021,57(13):116-123.)
[14]蔡玲如.基于SD的環境污染多人演化博弈問題研究[J].計算機應用研究,2011,28(8):2982-2986.(Cai Lingru.Multi-person evolutionary game of environment pollution based on system dynamics[J].Application Research of Computers,2011,28(8):2982-2986.)
[15]Dey S.Securing majority-attack in blockchain using machine learning and algorithmic game theory:a proof of work[C]//Proc of the 10th Computer Science and Electronic Engineering.Piscataway,NJ:IEEE Press,2018:7-10.
[16]Zhu Mu,Anwar A H,Wan Zelin,et al.A survey of defensive deception:approaches using game theory and machine learning[J].IEEE Communications Surveys amp; Tutorials,2021,23(4):2460-2493.
[17]Kumar D P,Amgoth T,Annavarapu C S R.Machine learning algorithms for wireless sensor networks:a survey[J].Information Fusion,2019,49(9):1-25.
[18]Zhou Mi,Guan Yue,Hayajneh M,et al.Game theory and machine learning in UAVs-assisted wireless communication networks:a survey[EB/OL].(2021-08-07).https://arxiv.org/pdf/2108.03495v1.pdf.
[19]Singh S,Kearns M,Mansour Y.Nash convergence of gradient dyna-mics in iterated general-sum games[C]//Proc of the 16th Conference on Uncertainty in Artificial Intelligence.San Francisco:Morgan Kaufmann Publishers,2000:541-548.
[20]Bloembergen D,Tuyls K,Hennes D,et al.Evolutionary dynamics of multi-agent learning:a survey[J].Journal of Artificial Intelligence Research,2015,53(1):659-697.
[21]Bowling M,Veloso M.Multiagent learning using a variable learning rate[J].Artificial Intelligence,2002,136(2):215-250.
[22]Bowling M.Convergence and no-regret in multiagent learning[C]//Proc of the 17th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2004:209-216.
[23]Abdallah S,Lesser V.A multiagent reinforcement learning algorithm with non-linear dynamics[J].Journal of Artificial Intelligence Research,2008,33(1):521-549.
[24]Zhang Chongjie,Lesser V.Multi-agent learning with policy prediction[C]//Proc of the 24th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2010:927-934.
[25]Awheda M D,Schwartz H M.Exponential moving average based multiagent reinforcement learning algorithms[J].Artificial Intelligence Review,2015,45(3):299-332.
[26]Foerster J N,Chen R Y,Al-Shedivat M,et al.Learning with opponent-learning awareness[C]//Proc of the 17th International Conference on Autonomous Agents and Multi-agent Systems.2018:122-130.
[27]Letcher A,Foerster J,Balduzzi D,et al.Stable opponent shaping in differentiable games[C]//Proc of International Conference on Lear-ning Representations.2019.
[28]張德干,邱健寧,吳昊,等.一種面向無線傳感器網絡的近鄰輪轉層次分簇方法[J].計算機應用研究,2020,37(S1):258-263.(Zhang Degan,Qiu Jianning,Wu Hao,et al.A hierarchical clustering method with neighbor rotation for WSN[J].Application Research of Computers,2020,37(S1):258-263.)
[29]Wang Wenjing,Chatterjee M,Kwiat K,et al.A game theoretic approach to detect and co-exist with malicious nodes in wireless networks[J].Computer Networks,2014,71(10):63-83.