張 江,孫 治,徐 銳,陳劍鋒
(1.網絡空間安全四川省重點實驗室,四川 成都 610041;2.中國電科網絡空間安全技術重點實驗室,四川 成都 610041;3.中國電子科技網絡信息安全有限公司,四川 成都 610041)
網絡空間資源是指網絡空間中“載體”、“信息”、“主體”等各類要素的總和,不僅包括通信基礎設施、IP網絡、覆蓋網絡、應用支撐系統等互聯網基礎設施實體資源,還包括了承載在實體設施之上的信息內容、用戶等虛擬資源等[1]。
網絡空間資源測繪按照一定的方法、技術和標準,利用軟件或硬件工具,通過測試表征網絡空間各層次要素狀態、屬性和關系的多元指標來認知網絡空間的構成及發展規律的行為。
網絡空間資源測度是指一定標度下對網絡空間資源的可探測屬性的定量計算,而可探測屬性需要通過測繪技術實現,通過對網絡空間資源的探測、采集、分析、處理,可以根據網絡資源在網絡空間的分布,并結合地理和社會空間信息,以邏輯圖和地理信息圖的形式繪制出網絡資源實時分布的屬性狀態和發展趨勢。
通過網絡空間資源測繪能夠為各類網絡資產評估等提供數據和技術支撐,研究網絡空間資源測繪技術對于維護推動國民經濟發展具有十分重要的理論意義和應用價值[2],而通過網絡空間資源測度可以對網絡空間資源測繪技術進行量化評估,因此網絡空間資源測度技術可以對網絡空間資源測繪技術起到促進和推動作用。
網絡空間資源包括網絡空間的組成、結構、屬性、行為、特征、規律和趨勢等,測量獲取的信息構成一類典型的大數據,其內容格式多樣、結構復雜、變化迅速,為測繪信息的理解、交互、傳播帶來了較大困難。測繪的范圍可以是網絡空間局部,也可以是全域。現有測度方法又有多種,不同的測度方法各有優缺點。因此,在網絡資源測度的過程中需要綜合考慮,在對測度方法進行遴選與組合時需要遵循以下原則。
一種測度方法如果能夠被廣泛使用和發展,首先其科學性必須是受承認的,其科學性是已經得到了前人檢驗的。在眾多測度方法中進行選擇和組合,給出適合網絡空間資源測量效果的測度方法,由于不同的測度對象適用于不同的測度方法,因此測度方法的合理性是必須考慮的一個重要原則。合理性指所選擇的方法須遵循“三個是否”,即是否能客觀反映測度網絡空間資源測量的效果、是否能全面覆蓋網絡空間資源的各個方面、是否能突出網絡空間測量的特點與重點等。
適用性原則要求測度方法的選擇要考慮數據來源情況、測度對象本身的發展情況。網絡空間資源測量效果雖然屬于測量測度范疇,但是也有其特殊性。首先,它屬于宏觀范疇的測度,使得測度數據的來源必須具有公認的或官方認可的統計性;其次,網絡空間資源測量的效果測度從總體上看還處于探索階段,許多數據目前還無法獲取,有些數據只能部分獲取,一些數據無法判斷正確性。因此要考慮到數據來源的實際情況,選擇適用的測度方法。
有些方法看似非常嚴謹,然而在使用過程中缺乏可操作性,一些指標體系非常龐雜、涉及方方面面,但是由于數據的缺乏而無法實施。重要的是,由于事物之間的普遍聯系,某方面的數據可能與另一方面的數據之間存在同樣的揭示效果,如果指標體系過于龐雜、數據來源過多,反而會掩蓋實質而不利于測度。因此,指標體系不宜龐雜,指標體系的設計要考慮指標之間的相互關系,指標項的擬定要考慮數據的可獲取性等問題。
可擴展性指測度方法的可發展、可變化性。在網絡空間的效果測度中,可擴展性體現在兩個方面。一方面是指標體系的可擴展性,即要考慮網絡空間測繪發展的實際情況,在早期階段,指標體系可以適當粗略,反映網絡空間測量的主要方面;另一方面是指測度中使用指標的可擴展性。設計出來的指標體系可能是比較完備的,然而實施過程中可以選擇其中操作性強的指標進行調查與測度,在數據條件具備之后逐步擴展指標的數量。這一原則也符合網絡空間資源測度生命周期理論,即逐步深入、逐步增加測度的維度。
測度就是對多屬性體系結構描述的對象系統做出全局性、整體性的測度,即根據一個復雜系統同時受到多種因素影響的特點,依據多個有關指標對復雜系統進行總測度的方法。測度的結果需要通過比較來說明,有不同測繪方法之間的比較,也有同一測量方法不同時間的比較、不同區域的比較。比較的目的是為了更好地認識的網絡空間資源,分析其中的優劣勢,從而制定網絡空間測繪的對策。為了達到比較的目的,測度方法必須具備通用性、標準化特征,既可以用來測度不同網絡空間資源,又可以用來測度不同時期的網絡空間資源。
按照資源在網絡空間不同層次表現出來的狀態、結構和行為特征,將網絡空間資源測度劃分為實體資源測度和虛擬資源測度兩大類[3],分別用于測度資源在不同層次上的顯性和隱性特征。測度指標體系的確立是網絡空間資源測度工作中的首要環節,測度的指標體系原理圖如圖1所示。
實體資源根據設備用途可分為網絡基礎設施和接入設備;虛擬資源包括網絡虛擬人物、網絡虛擬社區等。在借鑒已有的信息經濟測度、城市發展測度[4]以及統計理論與方法的基礎上,通過對網絡空間資源測繪研究對象的分析研究,提出了分層分級的網絡空間資源測度體系制定指標體系,如表1所示。
該指標體系為三級測度指標體系,第一級2個指標,分別是實體資源測度和虛擬資源測度。第二級6個指標,分別是所屬機構信息測度、網絡拓撲測度、網絡節點測度、網絡服務測度、虛擬主體測度、投影實體測度。第三級有超過20個指標,這其中,網絡服務測度包括了服務共性測度和各類應用層協議對應的服務內容,包括超文本傳輸協議(HyperText Transfer Protocol,HTTP)、文件傳輸協議(File Transfer Protocol,FTP)等服務;虛擬主體測度包括了賬號測度、共性測度、群體測度;投影實體測度包括了共性測度、群體測度。

圖1 測度指標體系原理圖

表1 網絡空間資源測度指標體系
每一葉子層次的資源測度指標由測度指標名稱、測量數據類型、測量值域、歸一化測量值、主觀指標權值構成,而非葉子層次的資源測度指標則由測度指標名稱、測度數學符號、測度和主觀測度權值構成。
測度是指一定指標下對事物某種屬性的定量計算。而指標是根據人們對客觀事物觀察所取得的經驗來決定,它不是絕對一成不變的,因此要確定測度就必須先要按照指標體系進行指標確認,該過程需要通過大量的測量實現。
網絡測量的分類標準有多種,不同的分類方式有不同的分類結果。根據測量的方式可以分為主動測量和被動測量;根據測量點的多少又分為單點測量與多點測量;根據被測量者知情與否可分為協作式測量與非協作式測量;根據測量的對象可分為實體資源測量和虛擬資源測量,而實體資源測量包括所屬組織機構測量、拓撲測量、性能測量、網絡節點測量、網絡服務測量和安全測量,而虛擬資源測量包括虛擬主體測量和投影實體測量。由于測度指標體系關注的是網絡空間資源,屬于研究對象的范疇,因此下面針對網絡資源測量的主要對象展開論述。
在拓撲測量方面,網絡拓撲可以用分為自治域(Autonomous System,AS)級、路由器級和IP級。IP級網絡測量主要基于Traceroute的方式實現,由于傳統IP級探測會導致拓撲中存在大量的匿名路由器,拓撲完整性不夠等問題,文獻[5]提出了一種多協議的分布式IP級互聯網拓撲探測方法。路由器級拓撲測量方法包括基于協議的方法和基于Traceroute的方法。基于協議的方式通過簡單網絡管理協議(Simple Network Management Protocol,SNMP)獲取路由器的IP子網的路由信息表,從而恢復路由器級拓撲。而基于Traceroute的方法則是利用IP路徑數據通過別名解析等方式恢復網絡拓撲。總之,生成AS級拓撲圖的方法可采用基于邊界網關協議(Border Gateway Protocol,BGP)的路由信息方法、基于Traceroute的方法和基于互聯網路由注冊信息庫(Internet Routing Registry,IRR)的方法[6]。由于BGP的路由表和更新報文中都包含有AS路徑信息,采集器通過偵聽BGP路由表和更新報文獲取AS級拓撲信息來構造AS級拓撲圖。將通過Traceroute得到的IP地址映射到AS號的IP-AS技術將IP級拓撲映射為AS級拓撲。IRR作為全球化的分布式路由信息數據庫,用于受理IP和AS號申請和記錄ISP的BGP路由信息,因此也可以恢復部分AS級網絡拓撲。
在性能測量方面,測量內容主要包括帶寬、吞吐量、延遲、丟包率,并作網絡可靠性、穩定性、可達性等方面的分析[7]。帶寬測量主要包括兩種測量方式,一種是端到端帶寬測量,其又包括可用帶寬和瓶頸帶寬的測量[8];另外一種是逐跳帶寬測量,主要測量網絡路徑上各段鏈路的帶寬參數,重點在于測量逐跳鏈路的帶寬值。而延遲測量是指借助于全球定位系統(Global Positioning System,GPS)接收機或網絡時間服務(Network Time Protocol,NTP)來實現同步測量[9]。
網絡節點測量和網絡服務主要分為主動探測和被動監測。其中,主動探測主要包括設備端口開放性檢測、主機存活性檢測、Web框架偵察、系統指紋發現、服務指紋發現和漏洞掃描等;被動解析子模塊主要有高速流量獲取、協議識別和字段解析、入侵檢測系統日志匯聚等功能。
虛擬資源主要包括網絡虛擬人物、網絡虛擬社區,以及人物相關的文本、音視頻等信息內容。在虛擬資源測量方面,主要包括特定信息內容快速探測和話題發現技術、音視頻內容探測技術、網站自動探測技術等。
從數學的角度,測度論是實分析的一個分支,研究對象有σ代數、測度、可測函數和積分,它對一個給定集合的某些子集指定為一個數,這個數可以比作大小、體積、概率等。本方法給出測度的數學定義,以便引出網絡空間資源的測度定義。
測度μ(可列可加的正測度)是個函數。設A的元素是X的子集合,而且是一個σ-代數,μ在A上定義,取值范圍為[0,+∞],并且滿足以下性質:
(1)空集合的測度為零
μ(?)=0
(1)
(2)非負性
?E∈A,μ(E)≥0
(2)
(3)可數可加性
若可數個兩兩不相交集合的序列,則所有Ei的聯集的測度等于每個Ei的測度之和:
(3)
這樣的三元組(X,A,μ)稱為一個測度空間,而A中的元素稱為這個空間中的可測集合。
依據測度的數學定義,給出網絡空間資源的測度S的定義。定義網絡空間為T,存在某一網絡資源tp∈T,那么資源tp的屬性全集為X。定義對資源tp的n次測量結果為A={a1,a2,…,an},某次探測結果為ai∈A,S是網絡空間資源tp的測度。因此,網絡空間資源tp的測度空間為(X,A,S)。

(4)
當εji是數值且數值越大對認識網絡資源越有利時,采用正向指標計算方法,那么歸一化指標mji為:
(5)
當εji是數值且數值越小對認識網絡資源越有利時,采用負向指標計算方法處理,那么歸一化指標mji為:
(6)
綜上,歸一化指標mji的值域為[0,1]。由于網絡空間資源的測度指標有重要性區別,有些指標可以很好地表征該資源,而有些指標不是該資源的特征屬性,因此,有必要對測度指標的重要性進行評估,指標的重要性即為測度權值W。
確定指標權重的方法包括主觀賦權法和客觀賦權法兩類。主觀賦權法是指從評價者主觀角度出發來決定權重的方法,客觀賦權法是指根據各指標所提供的信息量來決定指標的權重。按照信息熵的理念,可以根據熵值大小,也即各項指標值的變異程度,計算出權重。
本方法中測度權值W的計算綜合考慮了主觀因素和客觀因素,測度指標的權值W等于主觀賦權(領域專家)乘以客觀賦權(信息熵)來確定測度指標的權重系數。其中,領域專家給出的權值表征了先驗知識,信息熵給出的權值表征了客觀測量結果。因此,測度指標的權值W等于:
W=Ws×Wo
(7)
式中Ws是主觀權重,由領域專家給出,取值范圍為Ws∈[0,1],且針對同一級測度指標Ws滿足:
(8)
以下給出客觀賦權Wo的計算過程。假定測量指標εm和εn是獨立隨機變量,滿足p(εm,εn)=p(εm)p(εn)。那么指標εj的信息熵為:
(9)
式中p(εji)表示指標εji在多次測量中出現的概率,顯然有0≤ej≤1。那么信息熵冗余度計算為:
dj=1-ej
(10)
綜上,客觀賦權Wo的計算公式為:
(11)
顯然,客觀賦權的值域范圍Wo∈[0,1],因此指標權重W∈[0,1]。那么按照指標體系分層,level 3層級的測度計算公式為:
(12)
顯然,測度Si的值域范圍為S∈[0,1]。同理level 1、level 2層級的測度計算公式為:
(13)
當前網絡空間資源測繪技術是一個全新的研究領域,研究其網絡空間資源的測度當屬于一個開創性研究。本文從滿足網絡資源測度的基本需求出發,提出了一種網絡空間資源的測度方法,包括測度標準的原則性要求、網絡空間資源測度的數學定義、網絡空間資源測度指標體系和網絡資源測量方法。該測度方法可應用于網絡空間資源測繪技術的評估,通過將抽象問題量化,能夠適應網絡空間資源的多樣性和動態變化的特性,對網絡空間資源測繪研究起到一定的指導和促進作用。