楊黎霞,許茂增,陳仁祥
(1.重慶交通大學 經濟與管理學院, 重慶 400074; 2.重慶廣播電視大學 管理學院, 重慶 400052;3.重慶交通大學 機電與車輛工程學院, 重慶 400074)
當前,恐怖襲擊正在成為影響國際安全的重要風險源,交通襲擊事件頻繁發生[1]。交通工具是一種非常容易獲得的非常規武器,常被恐怖分子用來進行恐怖活動[2]。據全球恐怖主義數據庫[3]統計數據可知目前交通襲擊采用最多的攻擊方式是轟炸/爆炸,在爆炸發生后,應快速將現場封鎖,進行搜爆和排爆工作,以防止二次爆炸引起更大的人員傷亡和損失,同時對爆炸現場進行分區管理和制定疏散計劃直至醫學救援團隊到來[4]。生化襲擊也曾被用來襲擊人員密集的交通系統,如:“日本東京地鐵沙林毒氣案”[5-6]。而該襲擊方式的救援與爆炸襲擊的應急救援有較大差別,生化襲擊具有隱蔽性、擴散性和傳染性。一旦生化襲擊發生需要快速鎖定攻擊物,針對不同攻擊物采用對應的疏散和隔離措施[7-8],同時需要對疾病疫情進行追溯[9]。由此可見,不同的交通襲擊方式需要采用的應急救援是不一樣的,需要的救援物資也有所差別[10-11]。為了不造成社會資源的浪費,需要在交通襲擊發生時快速準確進行識別,啟動相應的應對預案。
1970—2017年,全球恐怖主義數據庫(Global Terrorism Database,GTD)[3]收錄了來自12個地區221個國家發生的182 438起恐怖襲擊事件信息,其中攻擊目標為交通系統有8500條數據。2008—2017年10年間該數據庫收錄了2 806條交通襲擊數據,接近過去48 a收錄總量的三分之一[12]。近年來交通襲擊頻繁發生使得數據量大幅增加,同時,與恐怖襲擊事件相關的大量信息被收集和存儲,恐怖襲擊事件統計數據呈現出大容量、高維度和多樣化的特點。GTD中收錄的每條恐怖襲擊事件最多會有135條屬性對其進行詮釋,如何在大數據背景下分析這些屬性之間復雜的內部關系,從而快速、高效和智能的識別交通襲擊事件攻擊類型,為更合理的配置交通襲擊防御資源提供數據和理論支撐,成為交通反恐中的關鍵問題。
目前,已有學者就恐怖襲擊攻擊方式分類進行了研究。如:Nizamani等[13]基于2001—2008年GTD的文本數據,對比分析了決策樹、樸素貝葉斯和支持向量機3種分類方法,研究結果表明支持向量機能達到合理的準確率但是運行時間太長,樸素貝葉斯雖速度快而準確率低,決策樹的綜合表現更好,分類識別率能達到83%。Sivaraman等[14]針對恐怖襲擊方式分類提出基于多分類器的集成決策樹算法,利用GTD數據進行實例分析,結果表明:該算法比單一決策樹算法的準確率有顯著提高。肖圣龍等[15]為了提高社會安全事件分類訓練速度,將神經網絡的訓練任務分發到多個主機同時進行訓練,提出了一種基于Spark平臺的分布式神經網絡分類算法。已有研究工作取得了較好效果,同時也有不足之處:目前已有的算法主要從攻擊方式諸多屬性中人工提取特征后利對攻擊方式進行識別,其將特征提取與模式識別分步進行,而特征提取與模式識別均有多種方法,兩者相對獨立、匹配程度難以評價,從而影響識別結果的準確性。同時,部分方法需要人工提取特征,受制于人的專業背景,智能化不夠,也難以實現大數據下攻擊方式的高效、準確識別。面對大數據在模型訓練方面,雖然可以利用Spark平臺加快計算速度,但在表征屬性和攻擊方式之間的復雜映射關系時分布式神經網絡這種淺層模型的識別能力及泛化性能均顯不足。
交通襲擊攻擊方式與諸多屬性相關,且各屬性與攻擊方式類別間呈現出非線性,增大了識別的挑戰性。近年來,深度學習采用一系列的非線性變換,從原始數據中提取由低層到高層、由具體到抽象的結構性特征,是通過模擬人類大腦的學習過程,構建深層次網絡模型,最終提升分類精度[16]。為此,本文提出了基于深度學習的交通襲擊攻擊方式識別方法,利用加噪自動編碼深度神經網絡(denoising auto-encoder deep neural network,DAEDNN)從多樣化的交通襲擊事件統計數據中自動學習提取出各類攻擊方式特征,并利用微調將攻擊方式特征學習與模式識別融為一體,實現攻擊方式的智能識別。


圖1 自編碼的模型結構示意圖
編碼過程可表示為[18]
h=fθ(x)=Sf(Wx+b)
(1)
式中:θ、W、b、Sf分別為編碼網絡參數集合、權重矩陣、偏置向量和解碼網絡的激活函數,其中θ={W,b};W是d′×d維的權重矩陣;Sf一般采用sigmoid和tanh兩種激活函數。解碼過程可表示為
(2)
式中:θ′、W′、b′、Sg分別為編碼網絡參數集、權值矩陣、偏置向量和解碼器的激活函數,其中θ′=(W′,b′);W′為d×d′維的權值矩陣,且W′=WT;Sg一般采用線性函數和sigmoid兩種激活函數。
自編碼的訓練過程是通過在訓練樣本集D上尋找參數θ和θ′的最小化重構誤差,重構誤差表達式為
(3)
式中,L為重構誤差函數,常用交叉熵損失函數或平方誤差函數,本文采用平方誤差函數,表示為
(4)

首先依照二項隨機噪聲qD分布對樣本x(d)加入隨機噪聲,獲得含噪樣本x′(d),其表達式為
(5)
然后通過優化以下目標函數完成加噪自編碼的訓練
(6)
加噪自動編碼機(denoising auto-encoder,DAE)通過添加噪聲進行編碼重構,可以減少隨機因素對提取攻擊方式特征的影響,提升模型的魯棒性和特征提取能力。
DAEDNN是將多個DAE用無監督的方法層層堆疊形成深度神經網絡(deep neural network,DNN),其前一層DAE的輸出作為后一層DAE的輸入,如圖2所示。本文在對DAEDNN進行預訓練時采用逐層貪婪訓練法,預訓練的過程如下:
1) 訓練第一層的DAE時采用無監督方法,原始輸入的最小化重構誤差即為其輸出,其表達式為
(7)
式中,θ1為DAE1的參數集合,θ={W1,b1}。

圖2 DNN的網絡結構示意圖
2) 以上一層DAE隱藏層作為下一層DAE的輸入,訓練下一層DAE:
(8)
3) 重復2),直到所有DAE訓練完畢;
4) 為下一步有監督微調做準備,需要把最后一層隱藏層的輸出作為分類層的輸入,攻擊方式類別數作為分類神經元個數。
將多個DAE連接起來,建立起加噪深度神經網絡,每一層所學到的特征就是數據特征不同階表達。對DNN參數進行微調時需在DNN最后加入具有分類功能的輸出層,DNN的輸出其表達式為
(9)
式中,設輸出層的參數為θN+1,xm的交通襲擊攻擊方式類別為dm,通過最小化φDNN(Θ)來完成DNN的微調:
(10)
式中,Θ為DNN的參數集,且Θ=(θ1,θ2,…,θN+1)。
經過微調的DNN優化了對交通襲擊攻擊方式信息的特征表示,將攻擊方式特征學習與攻擊方式分類融為一體,實現攻擊方式的智能識別。
本文提出了基于深度學習的交通襲擊攻擊方式智能識別方法,該方法有機的融合了無監督學習和將監督微調,同時結合了深度學習的優勢和交通襲擊事件大容量、高維度和多樣化的數據特性,可同時完成大數據情形下交通恐怖事件特征自適應提取和攻擊方式智能識別,將特征學習與模式識別融為一體,識別流程如圖3所示。

圖3 識別流程框圖
該算法實現主要包括:
1) 樣本獲取與預處理。從GTD中篩選出交通襲擊事件,對篩選出的數據進行填充后進行歸一化處理,使其取值范圍為[0,1],以其作為訓練樣本和測試樣本;
2) 預訓練。構建加噪加噪自編碼深度神經網絡,包括設置每層神經元個數,DAE的數量N,加噪比例等網絡結構參數。輸入訓練樣本,將上一個DAE的輸出作為下一個DAE的輸入逐層的訓練N個DAE,直到所有DAE訓練完畢;
3) 有監督微調。設置輸出層神經元個數為攻擊方式的類別數,對預訓練得到的參數通過輸入有標簽訓練樣本進行微調,微調后的網絡參數作為最終的網絡參數。
4) 輸出智能識別結果。輸入測試樣本,輸出結果。
本文數據來源于GTD,由于該數據庫收集時間跨度大、恐怖襲擊事件描述的復雜性等諸多因素,致使其數據具有不完整、描述重復、不規范、數據異常等問題。在輸入DAEDNN進行訓練前,需對其進行預處理,包括:
1) 數據篩選。從屬性targtype1中篩選與交通相關數據。篩選數據按攻擊方式分類統計,如表1所示。

表1 攻擊方式分類統計信息
2) 數據預處理。GTD中恐怖襲擊事件每條含有135個屬性,其中部分屬性解釋量小、重復定義、數據缺失嚴重,需對部分屬性剔除[20]。保留屬性包括eventid,iyear,imonth,iday,extended等35個。
3) 數據填補。保留屬性仍有部分數據缺失,根據不同屬性的特點,采用相應處理方法對缺失值進行填補。如:利用水經注萬能地圖將屬性latitude,longitude進行填補;用targtype1中各類的子類中被襲頻率最高的類來填補targsubtype1中的空白;
4) 數據轉換。需要將字符串和日期型的數據轉換成數值型。本文將字符串和日期型的屬性通過Excel透視表排序,其序號作為該屬性的一個映射值,讓其作為輸入的源數據[15]。
5) 數據規范化。不同屬性有不同的量綱,數值間差別較大。在此采用離差標準化法進行數據規范化處理,將數值映射到[0,1]間,便于深度神經網絡的輸入。轉換公式為:
(11)
式中,max為樣本數據最大值; min為樣本數據最小值。
在DAEDNN特征學習時確定DAE層數非常關鍵,通常情況下,DAE層數越多網絡結構越深特征學習效果會越好,但這又會加大網絡訓練的難度。本文通過多次試驗后設置參數為:DAE的深度神經網絡中含3層DAE,對應的神經元個數是35-19-35,19-15-19,15-10-15,分類層神經元個數與攻擊方式識別類別相同為8,加入噪聲比例為20% GTD收錄攻擊方式為9種類型,其中1類為unknown。由于未知攻擊類型有可能是其他8種類型中的某一類,因此在其特征提取的時候可能干擾其他類別,故在做試驗時剔除了該類數據。對于編號為1、5、8的3種攻擊方式,由于樣本數過少不利于深度神經網絡的訓練,在原來樣本基礎上增加適當的噪聲后將樣本數量進行擴展。所增加噪聲的標準差相對于原始樣本標準差倍數k=0.1~0.2,以使加噪后的樣本相對于原樣本差異明顯又不至于被噪聲湮沒。以此原則,取k=0.1對編號1類擴展1倍使其樣本量為170,取k=0.1和k=0.2對編號5、8類擴展2倍使其樣本量分別為150和156。
對每類攻擊方式分別隨機抽取70個樣本作為訓練樣本,剩下樣本中隨機抽取70個作為測試樣本。模型訓練完成后,得出交通襲擊攻擊方式識別的結果,所提方法的識別準確率如表2所示(隨機抽取10次,即共做10次試驗,識別結果進行平均)。
同時,應用主成分分析方法分析所提出方法對原始數據進行自學習得到的特征,選取所得到前3個主分量作為特征向量,圖4為特征提取結果示意圖,觀察圖4,所學習的特征聚集性非常好,各攻擊方式之間區分明顯,說明了所提方法可以有效自動學習提取攻擊方式的特征。

表2 幾種算法的準確率

圖4 特征提取結果示意圖
本文算法與決策樹算法[13]、集成決策樹算法[14]和分布式神經網絡分類算法(DNNC)[15]的計算結果如圖5和表2所示。

圖5 不同方法結果直方圖
觀察圖5和表2。決策樹算法每次只用一個屬性進行分叉,沒有考慮各屬性見的隱含關系,所以導致其準確率平均值最低,僅74.14%,且對不同的攻擊類型準確率波動非常大(對“劫持人質(綁架)”準確率達到93.63%,而對“轟炸/爆炸”只有42.46%),各類型準確率的標準差是17.28%,說明其對不同攻擊類型的識別穩定性差;集成決策樹算法相對于單一決策樹算法準確率有提高(平均值為81.80%),但其仍然忽略了各屬性間的隱含關系準確率不高,且各攻擊類型的準確率波動也大(標準差達到12.38%);DNNC方法考慮到了不同屬性間的隱含關系,其準確率平均值比決策樹算法和集成決策樹算法都有提高為89.22%,各攻擊類型識別準確率波動減小(標準差為5.48%),但其屬于淺層神經網絡模型,相對于本文所提DAEDNN方法相比,學習特征能力不足,所以準確率低于所提方法。
本文所提方法DAEDNN算法平均準確率達到94.86%,較決策樹算法、集成決策樹算法和分布式神經網絡算法在攻擊方式智能識別時的準確率總體具有明顯優勢,比決策樹算法、集成決策樹算法和DNNC算法分別提升了20.72%、13.06%和5.64%。這是因為DAEDNN通過深度網絡關聯各個屬性,在每層之間進行變換,能自動學習提取出各屬性與被識別目標之間的關系,將特征提取與模式識別融為一體。同時,DAEDNN相對于DNNC網絡層數更深,可以學習得到更深層次的特征,特征學習提取效果更佳,提升到更高的準確率。另一方面,DAEDNN使得網絡的魯棒性更好,各攻擊類型識別準確率波動值相對于前3種方法最小,僅為3.50%。
1) 本文提出利用加噪自編碼深度神經網絡從大容量與多樣化的交通襲擊事件統計數據中自動學習提取恐怖襲擊特征和識別攻擊方式識別。
2) 所構建的深度神經網絡通過添加噪聲進行編碼重構,從而減少隨機因素對提取共計方式特征的影響,提升了特征提取能力。
3) 本文采用GTD的數據進行了驗證,同時與決策樹算法、集成決策樹算法和DNNC算法進行了對比分析,結果表明所提方法在攻擊方式智能識別時準確率有所提升,同時具有良好的特征自提取能力。
4) 本文為交通襲擊攻擊方式智能識別提供了一種新的思路和方法。