李其昌,步 兵,趙駿逸,李 剛
(1. 北京交通大學(xué) 軌道交通控制與安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100044; 2. 中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 通信信號(hào)研究所,北京 100081)
城市軌道交通作為典型的工業(yè)控制系統(tǒng)以及重要的城市基礎(chǔ)設(shè)施,為緩解和解決城市化進(jìn)程帶來(lái)的交通壓力和人民日益增長(zhǎng)的交通需求,應(yīng)運(yùn)發(fā)展了基于通信的列車(chē)運(yùn)行控制系統(tǒng)(Communication Based Train Control,CBTC)。CBTC系統(tǒng)廣泛融合了計(jì)算機(jī)、通信和控制等領(lǐng)域的先進(jìn)技術(shù),是一個(gè)復(fù)雜的分布式、實(shí)時(shí)控制系統(tǒng)[1]。隨著列控系統(tǒng)信息化與自動(dòng)化的深度融合,實(shí)現(xiàn)了自管理信息層延伸至現(xiàn)場(chǎng)設(shè)備的一致性識(shí)別、通信和控制。
然而,在軌道交通信息化、智能化融合的同時(shí),來(lái)自列控系統(tǒng)內(nèi)部和外部的威脅也逐漸增大,其面臨的信息安全風(fēng)險(xiǎn)日益加劇[2]。一方面,列控系統(tǒng)采用標(biāo)準(zhǔn)通信協(xié)議與通用計(jì)算設(shè)備,使得列控系統(tǒng)更易遭到黑客的攻擊,如惡意木馬植入、洪水攻擊等;另一方面,列控系統(tǒng)與其他系統(tǒng)的數(shù)據(jù)共享、設(shè)備互聯(lián)、業(yè)務(wù)協(xié)作,使得系統(tǒng)難以做到真正的“完全封閉”,進(jìn)一步加劇了列控系統(tǒng)的信息安全風(fēng)險(xiǎn)。
同時(shí),CBTC列控系統(tǒng)與傳統(tǒng)IT系統(tǒng)以及其他工業(yè)控制系統(tǒng)相比,在信息安全方面存在一定區(qū)別:一是列控系統(tǒng)采用設(shè)備、網(wǎng)絡(luò)冗余配置,例如ATS、ZC、VOBC等設(shè)備運(yùn)行在冗余網(wǎng)絡(luò)上,CI、ZC、ATS等關(guān)鍵設(shè)備采用三取二、二乘二取二或主備機(jī)等安全計(jì)算模式;二是列控系統(tǒng)按照時(shí)刻表運(yùn)行,流量數(shù)據(jù)具有周期性、指向性等特點(diǎn);三是列控系統(tǒng)遵循“故障導(dǎo)向安全”原則,即在系統(tǒng)發(fā)生故障的情況下,能夠維持安全狀態(tài)或者向安全狀態(tài)轉(zhuǎn)移。綜上,傳統(tǒng)的工控系統(tǒng)安全理論無(wú)法直接適用于列控系統(tǒng),因此提出列控系統(tǒng)信息安全態(tài)勢(shì)感知技術(shù),以識(shí)別信息安全風(fēng)險(xiǎn),避免列控系統(tǒng)安全事故發(fā)生。
列控系統(tǒng)信息安全態(tài)勢(shì)感知(以下簡(jiǎn)稱(chēng)列控系統(tǒng)態(tài)勢(shì)感知),是指可能引起列控系統(tǒng)信息安全態(tài)勢(shì)發(fā)生變化的態(tài)勢(shì)要素獲取、理解、評(píng)價(jià)以及預(yù)測(cè)的過(guò)程[3-5]。列控系統(tǒng)態(tài)勢(shì)感知不同于現(xiàn)有的入侵行為檢測(cè)。入侵行為檢測(cè)可以檢測(cè)出系統(tǒng)存在的受攻擊行為,保障列控系統(tǒng)的信息安全,是一種被動(dòng)防御的安全行為。列控系統(tǒng)態(tài)勢(shì)感知?jiǎng)t通過(guò)主動(dòng)收集融合理解數(shù)據(jù),評(píng)價(jià)當(dāng)前安全態(tài)勢(shì),為列控系統(tǒng)的正常安全運(yùn)行提供決策依據(jù)。這其中既包括對(duì)入侵攻擊行為的檢測(cè),也包括為提高列控系統(tǒng)安全性能進(jìn)行的評(píng)估與預(yù)測(cè)。
列控系統(tǒng)態(tài)勢(shì)感知模型見(jiàn)圖1,由態(tài)勢(shì)覺(jué)察、態(tài)勢(shì)理解、態(tài)勢(shì)預(yù)測(cè)3個(gè)層次組成[6]。列控系統(tǒng)態(tài)勢(shì)感知通過(guò)布設(shè)網(wǎng)絡(luò)探針,采集物理層和網(wǎng)絡(luò)層數(shù)據(jù),生成多源異構(gòu)數(shù)據(jù)集;再經(jīng)過(guò)數(shù)據(jù)清洗與歸一化,數(shù)據(jù)特征提取,數(shù)據(jù)分類(lèi)技術(shù),結(jié)合態(tài)勢(shì)評(píng)價(jià)指標(biāo),完成當(dāng)前列控系統(tǒng)安全態(tài)勢(shì)理解與評(píng)價(jià),并結(jié)合其他先進(jìn)技術(shù),實(shí)現(xiàn)安全態(tài)勢(shì)預(yù)測(cè)。本文主要研究列控系統(tǒng)多源異構(gòu)數(shù)據(jù)的特征提取與分類(lèi)技術(shù),并通過(guò)對(duì)列控系統(tǒng)數(shù)據(jù)特征提取與分類(lèi),摒棄無(wú)用信息,整理歸納數(shù)據(jù),大幅提高列控系統(tǒng)態(tài)勢(shì)感知的實(shí)時(shí)性,避免陷入復(fù)雜計(jì)算而無(wú)法理解實(shí)時(shí)當(dāng)前態(tài)勢(shì)的弊端。

圖1 列控系統(tǒng)態(tài)勢(shì)感知模型
CBTC列控系統(tǒng)結(jié)構(gòu)示意見(jiàn)圖2,主要由車(chē)載設(shè)備、地面設(shè)備及其數(shù)據(jù)通信系統(tǒng)(Data Communication System,DCS)組成。在CBTC列控系統(tǒng)中,區(qū)域控制器(Zone Controller,ZC),結(jié)合計(jì)算機(jī)聯(lián)鎖(Computer Interlocking,CI)的進(jìn)路狀態(tài)、數(shù)據(jù)存儲(chǔ)單元(Database Storage Unit,DSU)的線(xiàn)路數(shù)據(jù)、列車(chē)自動(dòng)監(jiān)控(Automatic Train Supervision,ATS)設(shè)備的臨時(shí)限速信息,以及列車(chē)自動(dòng)防護(hù)(Automatic Train Protection,ATP)設(shè)備(車(chē)載)匯報(bào)的列車(chē)位置和速度等信息,為其控制范圍內(nèi)的列車(chē)計(jì)算生成移動(dòng)授權(quán)(Movement Authority,MA),并通過(guò)無(wú)線(xiàn)接入點(diǎn)(Access Point,AP)組成的車(chē)地?zé)o線(xiàn)網(wǎng)發(fā)送給列車(chē)。正常狀態(tài)下,列車(chē)車(chē)載控制器(Vehicle On-Broad Controller,VOBC)周期性接受ZC生成的MA,ATP根據(jù)MA終點(diǎn)基于列車(chē)動(dòng)力學(xué)方程得到即刻速度防護(hù)曲線(xiàn)。列車(chē)自動(dòng)駕駛(Automatic Train Operation,ATO)設(shè)備根據(jù)ATS制定的運(yùn)營(yíng)時(shí)刻表,結(jié)合旅客舒適度、列車(chē)能耗等因素,自動(dòng)計(jì)算出即刻最優(yōu)速度曲線(xiàn),列車(chē)以此速度在速度防護(hù)曲線(xiàn)限定下運(yùn)行。

圖2 CBTC列控系統(tǒng)結(jié)構(gòu)示意圖
對(duì)于任意實(shí)矩陣A∈Rm×n(一般認(rèn)為m為樣本數(shù),n為特征數(shù)),必然存在酉矩陣U∈Rm×m和V∈Rn×n,使得下式成立
A=UΣVT
(1)
式中:矩陣Σ∈Rm×n的主對(duì)角線(xiàn)元素λi為非負(fù)并按降序排列,且除了主對(duì)角元素以外全為0。這些對(duì)角線(xiàn)元素λi便是矩陣A的奇異值(Singular Value),且有λ1≥λ2≥…≥λr>0,r=rank(A),即矩陣A的秩為非零奇異值的個(gè)數(shù)。
根據(jù)矩陣范數(shù)性質(zhì)和矩陣酉不變性質(zhì)(即‖UAVT‖F(xiàn)=‖A‖F(xiàn))可知,任一矩陣的Frobenious范數(shù)與該矩陣所有的非零奇異值平方和的正平方根相等,即
(2)
式中:aij(i=1,2,…,m;j=1,2,…,n)為矩陣A中的元素。那么,給定一個(gè)秩為r的矩陣A,可以用秩為k的矩陣Ak,k≤r,逼近表達(dá)矩陣A,則該問(wèn)題用數(shù)學(xué)表達(dá)式解釋為
(3)
s.t. rank(Ak)=k
(4)
如何通過(guò)確定k值進(jìn)而得到近似矩陣Ak?對(duì)矩陣A做奇異值分解,得到奇異值譜λj(j=1,2,…,r)[8]。根據(jù)香農(nóng)信息熵的定義,可計(jì)算矩陣奇異值分解后的奇異值熵(Singular Value Decomposition Entropy)為
(5)

(6)
利用奇異值熵的限定條件,得到前k個(gè)有用奇異值后,將A的奇異值分解矩陣Σ中r-k個(gè)數(shù)值比重小的奇異值置零,進(jìn)而得到特征降維后的多源異構(gòu)數(shù)據(jù)集Ak。
支持向量機(jī)(Support Vector Machine,SVM)作為一種先進(jìn)機(jī)器學(xué)習(xí)算法,廣泛應(yīng)用于模式識(shí)別、數(shù)據(jù)分類(lèi)、回歸預(yù)測(cè)等方面[9-10]。其基本原理是通過(guò)劃分超平面,在滿(mǎn)足可容忍分類(lèi)精度的前提下,最大化不同類(lèi)別數(shù)據(jù)至超平面的間隔,并將此間隔最大化問(wèn)題轉(zhuǎn)變?yōu)榍蠼舛瓮挂?guī)劃的最優(yōu)化問(wèn)題,從而完成數(shù)據(jù)的分類(lèi)。
假設(shè)非線(xiàn)性可分?jǐn)?shù)據(jù)集Ak∈Rm×n;xi∈R;i=1,2,…,m;yi∈[-1, 1]。其中xi為第i個(gè)實(shí)例,yi為類(lèi)標(biāo)記,m為觀測(cè)樣本數(shù),n為特征數(shù)。給定超平面wTΦ(x)+b=0,可將實(shí)例分為不同類(lèi)別,則相應(yīng)決策函數(shù)為[11]
y(x)=sign(wTΦ(x)+b)
(7)
式中:w為超平面法向量;b為超平面到空間某點(diǎn)距離;Φ(x)為某個(gè)確定的特征空間轉(zhuǎn)換函數(shù),其作用是將x映射到高維度,如為一維,則Φ(x)=x。將y(xi)>0分為正類(lèi),y(xi)<0分為負(fù)類(lèi),且有yi(wTΦ(xi)+b)≥1。
要尋找的唯一超平面即是以充分大置信度使樣本點(diǎn)集到此超平面間隔最大,即盡可能使更多的樣本點(diǎn)遠(yuǎn)離超平面,以完成分類(lèi),即
(8)
s.t.yi(wTΦ(xi)+b)≥1
其中,滿(mǎn)足yi(wTΦ(xi)+b)=1的樣本點(diǎn)(xi,yi)稱(chēng)為支持向量。當(dāng)某些樣本不滿(mǎn)足其中yi(wTΦ(xi)+b)≥1的約束時(shí),引入松弛變量ξi≥0,使最大化間隔的同時(shí),不滿(mǎn)足約束的樣本盡可能少,則式(8)可改寫(xiě)為
(9)
s.t.yi(wTΦ(xi)+b)≥1-ξi
式(9)為二次規(guī)劃問(wèn)題,通過(guò)拉格朗日乘子法可得拉格朗日分解式為
(10)
式中:α≥0為拉格朗日乘子向量;μi≥0為常數(shù);C>0為懲罰參數(shù)。分別對(duì)L(w,b,α,ξ,μ)求w,b,ξ的極小,求α的極大,并整理可得:
(11)

(12)
(13)
式中:(xj,yj)為任一支持向量。因此,非線(xiàn)性可分?jǐn)?shù)據(jù)集的劃分超平面與決策函數(shù)分別為
(14)
(15)
列控系統(tǒng)態(tài)勢(shì)感知多源異構(gòu)數(shù)據(jù)集為非線(xiàn)性可分?jǐn)?shù)據(jù)集,如果其原始特征空間屬性數(shù)有限,那么一定存在高維特征空間是樣本可分。高維特征空間在求解劃分超平面過(guò)程中,由于特征空間維數(shù)可能很高,直接計(jì)算樣本xi與xj的內(nèi)積(Φ(xi)·Φ(xj))比較困難,因此,通常采用核函數(shù)K(xi,xj)擬合,而不用顯式地定義特征空間和映射函數(shù)Φ(x)。那么劃分超平面與決策函數(shù)可表示為
(16)
(17)

對(duì)列控系統(tǒng)特征降維后的多源異構(gòu)數(shù)據(jù)集Ak分類(lèi)需要運(yùn)用多分類(lèi)技術(shù),本文采用一對(duì)一多分類(lèi)方法(One-Versus-One SVM),在任意兩類(lèi)樣本之間設(shè)計(jì)一個(gè)分類(lèi)器,當(dāng)對(duì)某一未知類(lèi)別樣本xi分類(lèi)時(shí),最終得票最多的類(lèi)別即判為該未知樣本的類(lèi)別。上述多分類(lèi)問(wèn)題的數(shù)學(xué)描述為:求解滿(mǎn)足約束條件下使分類(lèi)間隔最大的劃分超平面,進(jìn)而完成類(lèi)別劃分與投票。
(18)
s.t.


本文基于實(shí)驗(yàn)室CBTC列控系統(tǒng)仿真平臺(tái)采集多源異構(gòu)數(shù)據(jù)。CBTC列控系統(tǒng)屬于物理信息系統(tǒng)(Cyber-Physical System,CPS),其數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)參考文獻(xiàn)[12],分別從物理信息系統(tǒng)的物理層(Physical Layer,PL)和網(wǎng)絡(luò)層(Network Layer,NL)采集數(shù)據(jù),組成多源異構(gòu)數(shù)據(jù)集。
物理層數(shù)據(jù)通過(guò)SNMP通信協(xié)議獲得,包括ATS設(shè)備、ZC設(shè)備、CI設(shè)備、VOBC設(shè)備和網(wǎng)絡(luò)設(shè)備的峰值CPU占用率、平均CPU占用率、峰值內(nèi)存使用率和平均內(nèi)存使用率。列控系統(tǒng)物理層信息統(tǒng)計(jì)量見(jiàn)表1。

表1 列控系統(tǒng)物理層信息統(tǒng)計(jì)量
網(wǎng)絡(luò)層數(shù)據(jù)主要采集設(shè)備集中站內(nèi)部和設(shè)備集中站與列車(chē)之間的源Mac地址、源IP地址、通信會(huì)話(huà)建立(源IP與目的IP)、傳輸數(shù)據(jù)包(源地址與目的地址間TCP/UDP數(shù)據(jù)包)4組參數(shù),并對(duì)這4組參數(shù)運(yùn)用一維和二維統(tǒng)計(jì)公式進(jìn)行分析計(jì)算。列控系統(tǒng)網(wǎng)絡(luò)層信息統(tǒng)計(jì)量見(jiàn)表2。

表2 列控系統(tǒng)網(wǎng)絡(luò)層信息統(tǒng)計(jì)量
表2中:S={d1,d2,…} 為數(shù)據(jù)流,且di∈R;N,LS,SS分別為數(shù)據(jù)流數(shù)目、線(xiàn)性和、平方和;SRi,j為數(shù)據(jù)流Si和Sj的殘差之積。在單個(gè)時(shí)間窗W提取21個(gè)特征屬性,共選取W=100 ms、500 ms、1 s、10 s、30 s,5個(gè)時(shí)間窗合計(jì)105個(gè)統(tǒng)計(jì)特征作為網(wǎng)絡(luò)層特征屬性。
數(shù)據(jù)集A可以表示為如下結(jié)構(gòu):包括2臺(tái)ATS設(shè)備、4臺(tái)ZC設(shè)備、4臺(tái)CI設(shè)備、2臺(tái)VOBC設(shè)備、6臺(tái)網(wǎng)絡(luò)設(shè)備的72個(gè)物理層特征屬性集合和105個(gè)網(wǎng)絡(luò)層特征屬性集合。再通過(guò)2.1節(jié)所述方法,得到降維后多源異構(gòu)數(shù)據(jù)集Ak。
為了驗(yàn)證列控系統(tǒng)態(tài)勢(shì)感知技術(shù)效能,本文設(shè)計(jì)引入列控系統(tǒng)常見(jiàn)的Dos拒絕服務(wù)攻擊和Probe端口掃描攻擊。通過(guò)3.1節(jié)所述物理層、網(wǎng)絡(luò)層多源異構(gòu)數(shù)據(jù)集,完成系統(tǒng)態(tài)勢(shì)感知,識(shí)別潛在風(fēng)險(xiǎn)。
實(shí)驗(yàn)采集20 000條數(shù)據(jù)用作數(shù)據(jù)集。為提高分類(lèi)精度,對(duì)正常狀態(tài)Normal數(shù)據(jù)集進(jìn)行欠采樣,并標(biāo)記為類(lèi)別0;對(duì)Dos攻擊和Porbe攻擊數(shù)據(jù)集進(jìn)行過(guò)采樣,并分別標(biāo)記為類(lèi)別1和類(lèi)別2。三類(lèi)數(shù)據(jù)以大致1∶1∶1的比例組成多源異構(gòu)數(shù)據(jù)集,其中2/3比例用作訓(xùn)練集,1/3比例用作測(cè)試集。
本文利用混淆矩陣列出正確分類(lèi)與錯(cuò)誤分類(lèi)的計(jì)數(shù)值,混淆矩陣見(jiàn)圖3。

圖3 混淆矩陣
通過(guò)混淆矩陣,可以得到如下指標(biāo):TP-Ture Positive(樣本為正態(tài),預(yù)測(cè)為正態(tài)),F(xiàn)P-False Positive(樣本為異態(tài),預(yù)測(cè)為正態(tài)),TN-Ture Negative(樣本為異態(tài),預(yù)測(cè)為異態(tài)),F(xiàn)N-False Negative(樣本為正態(tài),預(yù)測(cè)為異態(tài)),則
精度Accuracy為
(19)
正確率Precision為
(20)
召回率Recall為
(21)
F1分?jǐn)?shù)為正確率和召回率的調(diào)和平均,即
(22)
接受者操作特征曲線(xiàn)(Receiver Operating Characteristic Curve,ROC曲線(xiàn))是反映召回率和誤報(bào)率的綜合指標(biāo)。ROC曲線(xiàn)見(jiàn)圖4。圖4中,縱坐標(biāo)為召回率,其定義見(jiàn)式(21);橫坐標(biāo)為誤報(bào)率FPR,即
(23)
ROC曲線(xiàn)下面積即為Area Under the Curve(AUC)。通常,AUC面積area接近1,表示分類(lèi)器性能越優(yōu)異。
SVD Entropy與SVM聯(lián)合算法,與樸素SVM算法的仿真結(jié)果比較見(jiàn)表3。由表3可知,在保持精度和F1分?jǐn)?shù)基本不變的情況下,SVD Entropy與SVM聯(lián)合算法能有效縮短實(shí)現(xiàn)列控系統(tǒng)態(tài)勢(shì)感知數(shù)據(jù)集分類(lèi)的運(yùn)算時(shí)間。

圖4 ROC曲線(xiàn)

表3 SVD Entropy與SVM聯(lián)合算法與樸素SVM算法比較
SVD Entropy與SVM聯(lián)合算法,對(duì)于不同奇異值熵閾值的性能比較見(jiàn)表4。隨著奇異值熵閾值降低,分類(lèi)精度下降,對(duì)列控系統(tǒng)態(tài)勢(shì)感知數(shù)據(jù)集的分類(lèi)性能隨之下降。因此,奇異值熵閾值不易選擇過(guò)小,避免特征提取后的多源異構(gòu)數(shù)據(jù)集Ak無(wú)法準(zhǔn)確表達(dá)原集A的信息量。同時(shí),選擇過(guò)大的閾值,無(wú)法快速壓縮運(yùn)算時(shí)間。在保持分類(lèi)精度基本不變的前提下,本文認(rèn)為選取閾值為0.85時(shí),是合理的閾值門(mén)限。

表4 不同奇異值熵閾值比較
SVD Entropy與SVM聯(lián)合算法,與K近鄰算法KNN[13]、樸素貝葉斯分類(lèi)NBM[14]、隨機(jī)森林RF[15]等分類(lèi)算法比較見(jiàn)表5。從表5可以看出,本文提出的SVD Entropy與SVM聯(lián)合算法,在保持?jǐn)?shù)據(jù)分類(lèi)精度基本不變前提下,運(yùn)算時(shí)間較短,對(duì)于列控系統(tǒng)多源異構(gòu)數(shù)據(jù)集的分類(lèi)效果較好。

表5 不同算法比較
(1)本文提出的SVD Entropy與SVM聯(lián)合算法,通過(guò)設(shè)定奇異值熵閾值,實(shí)現(xiàn)了多源異構(gòu)數(shù)據(jù)的快速降維。結(jié)合支持向量機(jī)多分類(lèi)技術(shù),在保持分類(lèi)精度基本不變的前提下,能有效降低運(yùn)算時(shí)間。仿真實(shí)驗(yàn)表明,當(dāng)閾值設(shè)定為0.85時(shí),為較為理想的閾值門(mén)限。通過(guò)和其他數(shù)據(jù)分類(lèi)算法對(duì)比分析可知,本文提出的SVD Entropy與SVM聯(lián)合算法具有較好的準(zhǔn)確性和時(shí)效性。
(2)本文提出的聯(lián)合算法,能夠?qū)崿F(xiàn)列控系統(tǒng)數(shù)據(jù)特征提取與分類(lèi),并快速準(zhǔn)確識(shí)別潛在攻擊和信息安全風(fēng)險(xiǎn),為后續(xù)實(shí)時(shí)在線(xiàn)處理數(shù)據(jù),進(jìn)一步完成列控系統(tǒng)態(tài)勢(shì)評(píng)價(jià)、預(yù)測(cè)提供理論支持。且本文提出的聯(lián)合算法,對(duì)于高速鐵路列控系統(tǒng)態(tài)勢(shì)感知研究亦有借鑒意義。