◆于佳華
(國家計算機網絡應急技術處理協調中心黑龍江分中心 黑龍江 150001)
從20世紀60年代美國的APPANet到今天的國際互聯網,網絡技術得到了迅猛發展,越來越多的組織和個人接入互聯網。包括網絡終端、網絡設備、網絡服務等在內的網絡資產已被廣泛應用于各類政府、企事業單位的日常業務工作,極大地提高了工作效率,促進了業務工作的發展,但也帶來了許多問題和隱患。隨著單位網絡規模的不斷擴大,網絡資產及其所包含的漏洞類型不斷增多,給單位網絡安全管理帶來了巨大壓力[1]。
網站是網絡資產中的一類特殊而重要的資產,互聯網上除了存在大眾所熟知的門戶網站、娛樂網站、購物網站外,更存在著大量的電子政務、自動化辦公、金融服務等網站,這些網站歸屬于不同的政府、企事業單位,掌握清楚這些網站的歸屬對于網絡安全工作,尤其是漏洞普查、漏洞通報、風險預警等具有重要的意義。
目前確定網站歸屬主要有網站備案信息判定和頁面信息判定兩種方法。
網站備案是根據國家法律法規要求,網站的所有者向國家有關部門申請的備案,主要有工信部 ICP備案和公安部聯網備案[2]。備案信息包括單位名稱、單位性質、網站名稱等。目前工信部 ICP/IP地址/域名信息備案管理系統、公安部全國互聯網安全管理服務平臺、站長之家等網站提供網站備案信息查詢服務,用戶輸入域名或備案號,可查詢到備案單位。
網站備案信息判定主要存在如下幾個問題,一是有的單位的門戶網站等主要網站進行了備案,但OA等次要網站未進行備案;二是很多未綁定域名的網站未進行備案;三是很多域名到期后,未進行備案撤銷,導致域名被其他單位或個人申請并綁定新的網站,出現備案單位與網站歸屬單位不一致的情況。
頁面信息判定主要是通過頁面上顯示的標題、版權等信息,判斷網站的歸屬。比如很多政府機關、高校、企業的網站都會在頁面顯著位置展現網站的歸屬及用途,這些信息可以準確識別網站的歸屬單位。
頁面信息判定方法主要存在如下幾個問題,一是很多通用網站如ERP管理系統、考勤系統、防火墻系統等,頁面上只顯示了廠商的信息,無歸屬單位信息;二是有些仿冒詐騙網站,頁面故意顯示所仿冒單位信息,給人誤導;三是某些單位為了避免監管機構通報,特意在頁面上隱去可識別本單位信息的內容。
綜上,目前網站歸屬領域常用的網站備案信息判定和頁面信息判定兩種方法,都存在某些情況下無法判定屬或者判定錯誤的問題。
本文將無監督聚類算法 DBSCAN[3]應用于互聯網網站歸屬判定領域,通過對網站的備案信息和頁面基本信息進行特征提取,分類別進行特征量化,再使用聚類算法進行分析,實現網站歸屬單位的自動化判定。方法的流程示意圖如圖1所示。

圖1 流程示意圖
對于待判定歸屬單位的網站URL集合,逐個網站進行如下計算。
首先是提取兩類網站基礎信息:
(1)頁面基本信息提取,提取網站的 IP、域名、標題、KEYWORDS、版權、備案ID等。本文使用自主編寫的爬蟲工具提取這些信息。
(2)網站備案信息查詢。通過工信部ICP/IP地址/域名信息備案管理系統、公安部全國互聯網安全管理服務平臺、站長之家等平臺查詢網站的備案單位信息。根據實踐只有通過域名查詢數據較為準確,因此只需對綁定域名的網站執行本步驟。
大部分網站不是上述所有類別信息都能提取到,提取過程遵循能提取盡量提取的原則,提取不到信息的特征用空字符串表示?;A信息提取完成后,對于任一網站會形成原始特征向量FOwebsite,由IP、域名、標題、KEYWORDS、版權、備案ID、備案單位等七類特征組成。

其中,IP特征為點分十進制的IP地址表示形式,域名特征為一組用點分隔的字符串,其他特征為文本特征。
對這七類特征分別進行特征量化,將每類特征轉化為可代表其特征的具體數值。
(1)IP特征量化
對IP原始特征FOip進行如下計算,得到IP量化特征FQip。

其中,wip為IP特征的權重向量,k為指數參數。FOipi為點分十進制IP地址的每一位數值。通過本算法實現IP地址越相鄰,計算后的IP量化特征值越相近。
(2)域名特征量化
對域名進行預處理,先將域名原始特征FOdomain通過 M ozilla Public Suffix List數據[4]過濾掉域名中的公共后綴字符串,再將域名進行逆序反轉,得到域名預處理特征FOPdomain。
將FOPdomain進行如下計算,得到域名量化特征FQdomain。

其中,wdomain為域名特征的權重向量,k為指數參數。FOPdomaini為預處理域名特征向量FOPdomain的每一位字符。通過本算法實現域名越相似,計算后的域名量化特征值越相近。
(3)文本特征量化
針對標題、KEYWORDS、版權、備案ID、備案單位這五類文本特征都采用相同方法進行特征量化,使用文本原始特征FOtext統一代表這些類特征的原始特征。
首先利用北京理工大學張華平博士的漢語分詞系統ICTCLAS[5],對這批網站的所有文本原始特征進行分詞,得到分詞庫WSL。

對文本原始特征FOtext依據分詞對文本特征進行如下計算,得到文本預處理特征FOPtext,為n維的特征向量,每一位取值為0或1,n為WSL的大小。

將文本預處理特征 進行如下計算,得到文本量化特征。FOPtext FQtext

經過以上三類特征的量化處理,得到該網站的量化特征向量FQwebsite。

再將各類特征值再映射到同一量綱下的[0,1]區間,本文使用python語言sklearn模塊的normalize函數來實現。最終得到該網站歸一化特征向量FNwebsite。

反復執行以上步驟,直到所有網站都生成一個歸一化特征向量,最終得到數據集合FNS。

DBSCAN是一個比較有代表性的基于密度的聚類算法,它將簇定義為密度相連點的最大集合,能夠把具有足夠高密度的區域劃分為簇,并可在噪聲的空間數據庫中發現任意形狀的聚類[2]。
本文對數據集合FNS使用DBSCAN算法進行聚類分析,通過調整關鍵參數掃描半徑Eps和最小包含點數MinPts對聚類效果進行調節,形成聚類簇,同一簇下的網站即歸屬同一單位。本文使用python語言sklearn模塊的DBSCAN函數來實現。聚類效果如圖2所示。

圖2 聚類效果圖
互聯網網站歸屬單位判定領域,目前還沒有權威機構數據集。本文以某機構2016年組織的某區域信息系統登記的數據為實驗數據集,該數據及包含黨政機關、能源、金融、醫療衛生、教育等多個行業的200個網站。
對同一數據集,分別以網站備案信息判定、頁面信息判定和DBSCAN算法判定三種方法進行網站歸屬的判定,準確率定義為某一方法可準確識別出歸屬單位的網站數目占數據集中網站總數目的比值。
實驗結果如表1所示,可以看出,本文提出的基于DBSCAN算法的互聯網網站歸屬判定方法可以較大提升網站歸屬單位判定的準確率。

表1 不同方法準確率對照表
本文提出的基于DBSCAN算法的互聯網網站歸屬判定方法,用于解決網絡資產探測領域中網站資產的歸屬單位判定問題,通過對網站的基礎信息進行量化特征提取,使用聚類分析算法實現網站歸屬的自動化判定,有效提升了歸屬單位判定準確率。