齊 斌,王 宇,鄒紅霞,李冀興
(航天工程大學 航天信息學院,北京 101416)
近年來,網絡安全意識作為國家網絡安全戰略的重要內容之一,受到社會的廣泛關注.高效培養全民網絡安全意識是筑牢網絡防線的重要環節,而可靠的、系統的、完善的網絡安全知識圖譜可以大幅提高教育效果.
知識圖譜[1]也被稱為科學知識圖譜,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系,從而構成完整的知識體系結構.但由于不同行業、不同工作崗位對網絡安全知識掌握程度的要求存在差異,所以知識圖譜包含的知識點的范圍并不一致,而知識圖譜也會隨著相關知識的發展進而動態調整結構,實現重構性[2].自適應的知識圖譜是根據層次化需求,先映射為需求知識圖譜,然后通過相似性匹配算法生成相似度較高的若干圖譜,再根據圖譜間的合并運算重構出最符合用戶需求的目標知識圖譜.為避免目標圖譜出現冗雜、交叉嚴重的情況,需要對知識圖譜復雜度、相似度進行研究,以便于系統更好地自主選擇.
本文利用形式化和概率論的方法引入信息熵的概念[3],通過計算知識的熵值表示其復雜度,從而量化知識圖譜.現有的研究通常是利用系統熵表示系統的復雜度,熵值越高,系統越復雜.但現有的復雜度度量方法[4]缺乏獨立的知識點和繼承流的測度,不適用于邏輯性較強的網絡安全領域.由于知識點龐雜難以形成匹配度較高的聚類知識圖譜,且缺乏合適的網絡安全知識模型,故當前對此類圖譜復雜度的研究較少,而系統的、完善的網絡安全知識模型的構建將有助于復雜度的測量.
為便于度量網絡安全知識體系從而選擇適用于角色定位的知識圖譜,本文提出了基于“行業、崗位、人員”的三層三維知識模型,標識了各知識點間的關聯度,同時對網絡安全知識圖譜的復雜度給出了新的定義和函數表達式并做了推導驗證,闡述了一種基于信息粒度和模糊集的知識圖譜度量方法,從體系結構、復雜度、相似度等多個角度解決了目標知識圖譜的最優化選擇問題.
為方便構建更加系統、完善、針對性強的知識圖譜,本文從邏輯性角度提出了基于“行業、崗位、人員”的網絡安全知識模型,如圖1所示.根據行業對人員的網絡安全知識不同要求進行框架分類,再依照各自級別和所需掌握的網絡安全知識劃分崗位,以企業系統為例,將崗位分為普通員工、安全人員、項目經理、企業高管等等.如此,就將知識點精確到個人,構建了“行業-崗位-人員”的三層結構,具有極強的針對性.

圖1 基于“行業、崗位、人員”的網絡安全知識模型
在知識點的具體規劃上,采用“受攻擊目標-攻擊方法-預防難度級別”的三維體系.首先按照受攻擊目標分為相對范圍較大的類別,而后再進一步細致劃分.攻擊目標可大致分為以下五類:人腦、數據、軟件、設備、服務;攻擊手段根據網絡攻擊具體實施過程共計分為七大種類:信息收集型攻擊、欺騙型攻擊、權限獲取攻擊、拒絕服務攻擊、系統破壞攻擊、信息篡改型攻擊、社會工程攻擊.而針對目標的攻擊手段仍有強弱之分,于是采用“預防難度級別”對相應預防或化解攻擊的難易程度進行區分,利用Delphi方法根據多名領域專家對其評估且不斷改進從而最終判定其級別,采用5等分級表示,降序依次表示處理威脅的難易程度.
三維的知識模型,將單一知識固定在立方體模型中的一個點位,既保證了知識點的精確性,也提供了足夠的空間囊括當前所有的知識點,同時為將來的知識拓展預留端口.因此目標知識圖譜的構建只需要利用自動機根據崗位具體需求同知識點相組合,通過設置好知識點的權重后自動生成.
獨立的知識圖譜是由知識點、繼承流、功能等元素組成,元素相互聯系,父知識點包含子知識點的功能,原子知識點作為最小單位元素.這里參考知識網[5]的定義,對有窮的知識圖譜進行詮釋.
定義1.有窮集合KM(Knowledge Mapping)可定義為一個3元組:KM = {P,R,M}.
其中P={p1,p2,…,pn}是一個由n個知識點組成的有限知識點集合.R?P×P,R={r1,r2,…,rn}由n個復合聯系(繼承流)組成的有限復合聯系集,表示父子知識點間的繼承關系.M?P×P,M={m1,m2,…,mn}是除父知識點外的其余n個知識點的有限組合集.以知識點示例,根據用戶需求從知識庫中提取相應的知識點,映射的知識圖譜(集合KM)結構如圖2所示.
知識圖譜具有層次結構,將根知識點(圖中知識點A)所在層定義為第0層,將直接關聯的子知識點和繼承流等定義為第1層,與第一層直接聯系的子知識點和繼承流定義為第2層,如此類推,最后直至“原子知識點”(最底層的知識點,不可再次劃分),定義為m層,并用xij表示知識結構第i層的第j個知識點.
通過對KM做適當的和差運算,實現圖譜的自重構,因此知識圖譜K={x1,x2,…,xn}的多重集KM可利用KM={αixi|i∈[1,n]}表示,根據系數α的不同可實現集合重構,這是知識圖譜運算的基礎.

圖2 知識圖譜的結構示意圖
由于各知識點的取值類型和取值范圍各不相同,為將全部知識點均作為可以量化的數值,本文引入熵值理論,通過計算知識點的測度從而計算知識體系的復雜度.
定義2.假設λij(1≥λij≥0)表示知識點xij在多重集中的重要程度,其重要程度同λ值成正比關系.且多重集元素xij包含了系數αij,則xij的綜合測度可表示為:
(1)
為方便數值的比較和計算,現將綜合測度值歸一化處理:
(2)

根據香農的信息熵理論,I(xij)=-log2μ(xij),但在僅有唯一元素時I(xij)=0,不符合實際情況,故將公式改進為I(xij)=log2(μ(xij)-1+1).另根據μ(xij)公式,存在特殊情況μ(xij)=0時,I(xij)=+∞.
定義3.參考平均信息熵,可將知識圖譜內單個知識點的平均知識量表示為
H(xij)=μ(xij)I(xij)=μ(xij)log(1/μ(xij)+1)
(3)
且平均知識量H(xij)是μ(xij)的單調有界函數.
由于知識圖譜具有多重集特性,因此需要將信息熵進行改進和推廣,綜上給出知識圖譜復雜度的定義.
定義4.知識圖譜K的多重集KM的知識量函數,即為知識圖譜K的復雜度,復雜度度量函數有
(4)
性質1.G(KM)是元素數量和多重數的單增函數
證明:由公式(4)易知G(KM)是求和函數,隨層數i增加單調遞增.


Δ =G(KM)-G′(KM)



綜上Δ≤0,即G(KM)≤G′(KM),故對任意一層任意元素綜合測度的增加,G(KM)遞增.
基于上述假設,在知識圖譜第一層加入新元素x1(n+1),其綜合測度為c,則有
Δ=G(KM)-G′(KM)
≤0
綜上G(KM)≤G′(KM),可得結論:在知識圖譜的任意層次增加元素,G(KM)隨之遞增.
性質表明獨立的知識圖譜的元素數目越多、綜合測度越大,G(KM)值越大,也就意味著知識圖譜越復雜.復雜度(知識量)函數是關于系統結構、元素數目以及綜合測度的函數,該函數隨著各個參數的增加,復雜度也隨之增加.
性質2.任意一層的多個元素的合并將使復雜度函數G(KM)減小
證明:假設合并知識圖譜K中第一層的某兩個元素,可得出新的知識體系K′,則有
Δ=G(KM)-G′(KM)


性質3.在知識圖譜多重集的元素數目和綜合測度一定的情況下,知識圖譜復雜度G(KM)具有最大值,即∑pilog(n+1)≥G(KM)≥∑pilog2.
證明:由于pi/cij≥1,故

因為:


上述復雜度函數的性質,是多重集運算合并的基礎,證明了知識圖譜運算和選擇的可行性.為生成適應性強、匹配度高的知識圖譜,本文提出了基于模糊集[6,7]的圖譜選擇技術,為方便闡述,重新定義相似度[8]的概念如下:
定義5.存在知識圖譜K={x1,x2,…,xm}和知識圖譜W={w1,w2,…,wn},則有W關于K的相似度為
(5)
其中,T(·),s(·)分別表示是模糊集的t-模和s-模,采用“積”和“概率和”的形式將其具體化,即T(x,y)=xy,s(x,y)=x+y-xy.f(xi,W)是W關于xi的匹配度,μw(xi)表示知識體系W中與xi相匹配的元素完善度.g(K,W)是K相對于W的復雜性系數.ε為相似度調節系數,其作用是放大分子的計算數值便于相似度比較,權重ωi范圍在[0,1]之間,可利用聚類分析優化方法進行權重的優化.
匹配度[9]f(xi,W)是反映知識圖譜同需求的匹配程度,其范圍在[0,1]之間.當知識圖譜W中存在的知識點元素若與xi完全匹配時f(xi,W)=1;若與xi完全不匹配時f(xi,W)=0,匹配度通常實在知識量的基礎上進行對比分析.
完善度[9]μw(xi)是反映知識圖譜滿足用戶要求的程度,通常采用模糊集和定義其數值.將知識圖譜底層知識點{p1,p2…,pn}上的一個模糊集定義為μ(pi):P→[0,1],μ(pi)即為知識點pi的完善度.0表示該知識點不具有任何意義,數值越大表示該知識點信息越完善.
復雜性系數[9]g(K,W)是對知識圖譜復雜程度的比較,因為滿足用戶需求的知識圖譜不一定只存在1種,通過對比圖譜間的復雜度從而權衡選擇.

(6)
當W復雜于K時,g(K,W)>1;當K復雜度不小于W時,g(K,W)=1.
綜上,相似度sml(·)是綜合考慮知識圖譜在“質”(完善度)、“量”(匹配度)和復雜性三個方面,具有如下性質:相似度函數是完善度和匹配度單增函數,是復雜性系數的單減函數;在復雜性系數為1的條件下,子集、交集的相似度不大于原集合的相似度,并集的相似度不小于原集合的相似度.
根據相似度相關性質,以相似度為核心的基于模糊集的知識圖譜選擇算法如下:
1.根據行業規范要求對用戶需求知識進行層次化處理,并映射至需求知識圖譜R,又稱參考知識圖譜.例如,以Rij代表i層第j個需求,映射到參考知識圖譜的元素即為Rij.根據相關參數,計算R的復雜度G(R).

G(K)=
(7)
3.通過有監督學習的模糊關聯聚類生成目標知識圖譜Ki(i=1,2…),由于可能生成滿足要求的多個知識圖譜,則對生成的知識圖譜做相應的交并運算,生成組合的知識圖譜,再分別計算其復雜度,知識量和同R相比的相似度.
4.根據相似度計算公式,在保證目標知識圖譜相似于R的情況下,即生成的知識圖譜滿足用戶需求(sml值盡可能大),也可根據具體情況選擇知識量較少或復雜度的較低的知識圖譜,便于工程實現.
以政府系統內某非網絡安全管理基層崗位的培訓知識圖譜生成為例,系統利用信息熵度量知識結構,通過基于模糊集的知識圖譜選擇方法在工程實踐中得以具體應用.
首先根據網絡安全法、公務人員信息安全管理規范和相應的崗位職能需求層次(如表1所示)映射出相對恰當的的需求知識圖譜(如圖3所示的樹狀圖).

表1 需求層次表
根據參考知識圖譜,由自動機將知識模型中知識點按照層級由小至大,同一層級由左至右依次填充完成,由于可能存在同時多個知識圖譜滿足用戶需求,因此將會產生若干個不同的圖譜Ki(i=1,2…).據實例需求和現有的知識模型生成K1(預置的傳統方法生成),K2,K3三個不同的知識圖譜,為選擇符合要求的最優知識圖譜,將其組合運算并根據度量方法計算其相似度和知識量.

圖3 需求知識圖譜
根據需求和方便計算,取知識點權重λ21=0.7,λ25,λ27=0.65,λ23,λ24=0.6,其余各λ=0.5,則度量系統計算可得參考知識體系知識量為99.66,最大可能匹配的相似性為0.98,對不同知識體系的比較計算,其值如表2所示.

表2 知識體系的相似度和知識量表
根據選擇算法,K1+K2和K1+K2+K3相似度最高,基本滿足用戶需求,但由于知識體系多重數和數值累加,使得后者知識量遠大于前者.但是多重數不會增加體系的完善度,僅會提高體系復雜度,因此最適合的知識體系為K1+K2.通過本文所述算法選擇的知識圖譜明顯優于傳統方法生成的K1,由此可以認為基于信息熵和模糊集的網絡安全知識圖譜選擇技術可以生成更優的知識圖譜,從而提高個人的知識教育效果.
同時實驗表明,崗位需求層次及權重信息輸入越詳細,生成的的知識圖譜就越容易滿足用戶需求,其相似度也就越高.
網絡安全領域具有極強的邏輯性,這就使得原先的知識網度量和選擇算法[9,10]不能完全滿足要求,本文基于此做了相應的算法改進.提出的網絡安全知識圖譜選擇方法經過具體實例的分析表明,其測試結果符合實際.相比于傳統的計算方法、現有的知識網選擇方法和經驗論等度量技術,利用信息熵度量知識體系的復雜度和相似度則更加精確,據此提出的基于模糊集的知識圖譜選擇技術也更適用于現有的網絡安全領域.由于其計算復雜度可以根據參數進行降維,同時可應用于其他領域的知識圖譜或知識網絡的度量和選擇,具有很高的應用價值.
健全、完善的知識圖譜更便于教育機構針對專業崗位或個人提供定制化的、自適應的服務,根據圖譜可構建適應性更強的知識問答系統、知識考核和教育系統,進而更好的提高教學效果.知識圖譜的選擇技術也可應用于其他數據挖掘等領域,通過不斷逼近需求,即提高相似度,進而完善知識圖譜,為學科研究提供切實的、有價值的參考.