王 羽, 李慶奎
(北京信息科技大學自動化學院,北京 100192)
信息物理系統(Cyber-Physical System,CPS)是將3C技術(計算、通信、控制)與現代物理設備完美結合,通過嵌入式計算機對物理過程進行感知和控制的智能系統[1]. 與傳統控制系統相比,CPS更加可靠、高效、實時協同. 但因為CPS中有大量用于通信的設施和IT組件,所以CPS更容易遭受網絡攻擊[2-3].
CPS的網絡攻擊主要分為兩類:完整性攻擊和可用性攻擊[4]. 完整性攻擊是指通過篡改傳輸數據包中的信息,以降低系統可靠性和安全性的攻擊方式[5]. 可用性攻擊則可阻斷CPS各部分之間數據、控制命令的正常傳輸,使某些服務被暫停甚至使系統癱瘓. 虛假數據注入(False Data Injection,FDI)攻擊是一種完整性攻擊方式,通過劫持物理設備(傳感器、控制器等)或者網絡信道,向系統注入錯誤或無用但存在安全隱患的數據信息,破壞數據的完整性,導致系統失去穩定甚至崩潰[6]. 與其他網絡攻擊相比,FDI攻擊更加巧妙、復雜并具有更高的隱蔽性. 針對信息物理系統FDI攻擊的研究大致可以分為以下三類[7].
第一類,FDI攻擊的可行性分析、實現路徑和方法研究. 文獻[8]研究了攻擊不被檢測的基本條件,給出了系統可被攻擊的傳感器的最小數量,以確保攻擊的隱蔽性;文獻[9]在所有傳感器數據可觀且可以被攻擊者修改的情況下,提出了一種對遠程狀態估計器發起線性欺騙性攻擊的策略,該策略可以成功通過卡方檢測器的監測;文獻[10]將攻擊者的控制目標表示為一個二次型值函數,通過求解約束優化問題來尋找最優攻擊策略.
第二類,從防御角度出發制定系統保護機制、入侵檢測機制并降低攻擊影響. 文獻[11-12]采用卡爾曼濾波器來估計狀態變量,并設計了相應的檢測器來發現未知傳感器子集上的攻擊信號,但都過于關注誤差的統計特性而忽略了CPS的高速采樣特性. 基于此,文獻[13]將歐氏檢測器、卡方檢測器以及卡爾曼濾波器結合起來設計了針對智能電網系統的安全框架,該方法可以克服以上缺點但只適用于電網電壓信號模型;文獻[14]借助線性二次型控制理論,開發了最優自適應切換策略通過來抵御稀疏的傳感器-執行器攻擊策略.
第三類,研究攻擊-防御對抗策略. 這類研究的目的是揭示網絡攻擊方的行為特征及量測系統的脆弱點,為量測系統的安全防護工作提供參考依據[15]. 網絡攻防對抗的本質可以抽象為攻防雙方相互博弈的過程. 現有網絡攻防博弈策略研究文獻甚少,且大多集中于網絡安全領域[16-18],很少有關于物理系統的控制安全分析. 文獻[19]從網絡安全的角度出發,提出了一種基于非合作、完整信息的博弈主動防御模型,通過解決不同系統狀態下的納什均衡,實現最佳防御策略. 不足之處在于在網絡對抗中使用完全信息靜態博弈模型,與實際的應用場景不夠貼切. 文獻[20]以電力CPS為背景,建立了三層動態攻防博弈模型,并用遍歷思想結合遺傳算法求解該方案. 但該方法只適用于電網負荷數據被攻擊的情況,不適用于一般的線性模型.
與上述文獻的研究側重點不同,本文著重考慮FDI攻擊對控制系統的影響,采用攻防博弈模型研究控制安全問題. H∞范數被廣泛用于描述控制對信號的抑制程度. 針對受FDI攻擊的信息物理系統,在設計控制器時首先建立H∞目標函數和約束條件. 借助最優控制的理論和方法,將H∞問題抽象為二人零和博弈問題并求出其均衡解. 通過納什均衡設計狀態反饋控制器,使系統在保持魯棒穩定性的前提下最大限度地降低攻擊對狀態的影響,獲得最優的性能指標. 而后對系統矩陣未知的情況展開研究,設計無模型狀態反饋Q學習算法,利用系統的量測數據在線求解最優控制策略和最壞情形攻擊策略. 使系統在沒有動力學知識的情況下,控制性能達到最優. 最后通過算例仿真證明了提出方法的可行性.
考慮FDI攻擊下的線性時不變信息物理系統:

其中,xk∈Rn,uk∈Rm1分別是k 時刻的系統狀態變量和控制輸入信號,ak∈Rm2是攻擊者在有限時間[0,T]內向系統注入的攻擊向量,且ak∈L2[0,∞) . 矩陣(A,B,C)是未知恒定的具有適當維數的系統矩陣.
假設1 FDI攻擊者具備以下幾點攻擊能力:
1)攻擊者知道系統(1)的線性結構,但無法獲取參數矩陣(A,B,C)的準確值.
2)攻擊者可以獲取控制信號uk和狀態信息xk.
3)攻擊者可以產生一個無約束的攻擊信號ak對傳感器發起虛假數據注入攻擊.
為了保障CPS的安全,本文采用H∞范數來評價CPS對攻擊的魯棒性.
定義1 H∞控制的目標是:
1)找到合適的控制輸入使得系統(1)在ak=0 的情況下漸近穩定;
2)當攻擊者發起攻擊即ak≠0 時滿足

式中,Q 和R 是正定對稱的權重矩陣,γ ≥0 為給定的衰減因子. 上式是反映系統對攻擊的魯棒性評價. γ 越小,說明系統對攻擊的抑制效果越好.
基于式(2),首先對系統(1)定義一個性能指標函數:

對于容許的控制輸入和外部攻擊信號定義如下值函數:

假設2 (A,B)是能控的,(A, Q)是能觀的.
H∞控制問題可看作是一個零和博弈問題,其中參與者包含控制器和FDI攻擊信號,控制輸入的目標是盡可能減小指標函數,而攻擊信號的目標則是最大化指標函數. 因此,這個過程可表示為

且滿足

注1 式(14)~(16)是二人零和博弈問題(5)的解,并且保證了當攻擊ak≠0 時系統滿足H∞指標(2).式(17)是保證系統穩定的充分條件.
在這一節中,將提出無模型Q 學習算法在線求解在系統矩陣(A,B,E)未知時的最優控制策略增益L*和最壞情形攻擊策略增益K*.
仿照式(8)的形式定義Q 函數:

將式(1)代入式(18)并將其寫成矩陣形式:

式中,

當系統矩陣已知時,令式(19)的一階偏導滿足?Q(xk,uk,ak)/?uk=0,?Q(xk,uk,ak)/?ak=0 即可求出最優控制增益L*和最壞情形攻擊增益K*的解:

注2 式(21)、(22)中最優控制策略增益L*和最壞情形攻擊策略增益K*的解由參數矩陣H 的元素構成,而矩陣H 的元素又由系統矩陣(A,B,E)構成. 當系統矩陣(A,B,E)未知時,無法通過對式(19)求一階偏導從而求出最優控制策略增益L*和最壞情形攻擊策略增益K*.
因此,下面將借助強化學習中的Q學習算法,利用系統的量測數據在線學習出參數矩陣H 的值.
根據值方程(8)和Q 方程的定義式(18)可知:

式(18)則可以表示為:

基于式(24)定義貝爾曼時間差分誤差:

接下來將用式(21)、(22)、(25)驅動無模型Q 學習算法. 算法包括策略評估和策略改進兩步,其中策略評估步驟將控制策略、攻擊策略固定,對參數矩陣H 進行估計;策略更新步驟則利用第一步計算出的矩陣H,改進控制策略、攻擊策略. 算法具體步驟如表1所示.

表1 無模型狀態反饋Q學習算法Tab.1 Model-free state feedback Q-learning algorithm
在策略評估階段,利用最小二乘法估計參數矩陣H. 根據克羅內克積,式(26)可化為

令

代入到式(29)中可得到

在本節中,將用F-16飛機自動駕駛儀來驗證所提算法的有效性,系統的動力學方程為



圖1 F-16飛機狀態xi 的響應曲線Fig.1 State response of F-16 aircraft state xi

圖2 參數矩陣H 的誤差響應曲線Fig.2 Error response of parameter matrix H

圖3 不同初始條件下F-16飛機狀態xi 的響應曲線Fig.3 State response of F-16 aircraft state xi under different initial conditions

圖4 不同初始條件下參數矩陣H 的誤差響應曲線Fig.4 Error response of parameter matrix H under different initial conditions
本文利用二人零和博弈的思想,研究了信息物理系統在系統矩陣未知且受FDI攻擊影響下的H∞控制問題. 首先對系統提出魯棒穩定性的要求,建立二次型H∞目標函數,而后將H∞控制問題轉化為二人零和博弈問題,并推導出最優控制策略和最壞情形攻擊策略. 最后,設計在線無模型狀態反饋Q學習算法求出最優控制策略和最壞情形攻擊策略. 仿真結果驗證了該方法行之有效,考慮到同時具有擾動和攻擊的CPS會更加貼切實際情形,可以作為下一步的研究方向.