張帥帥,黃杰
〔1.東南大學網(wǎng)絡空間安全學院,江蘇南京 211189;2.網(wǎng)絡通信與安全紫金山實驗室,江蘇南京 211111;3.江蘇省計算機網(wǎng)絡技術重點實驗室,江蘇南京 211189;4.網(wǎng)絡空間國際治理研究基地(東南大學),江蘇南京 211189〕
近10年物聯(lián)網(wǎng)技術迅速發(fā)展,物聯(lián)網(wǎng)設備數(shù)量也急劇增加。根據(jù)國際知名調(diào)研機構Gartner[1]的報告,到2020年物聯(lián)網(wǎng)設備的數(shù)量將增加到200多億。日益發(fā)展的物聯(lián)網(wǎng)也存在巨大的安全隱患[2~3]。Liu等[4]人全面分析了物聯(lián)網(wǎng)設備在設計研發(fā)生產(chǎn)使用全過程的安全風險。
但是,物聯(lián)網(wǎng)設備具有海量和多樣的特點,很難進行統(tǒng)一的安全管理。所以,對物聯(lián)網(wǎng)設備進行識別和分類是進行安全管理的第一步。
物聯(lián)網(wǎng)設備識別就是通過主動或被動的方式,采集有效信息生成設備指紋,分為基于流量特征的指紋生成和基于標語的指紋生成。
主動探測是向目標設備發(fā)送探測包,對響應數(shù)據(jù)包進行分析提取特征。Nmap在探測目標設備的操作系統(tǒng)時,設定了16種畸形的TCP和UDP探測包,根據(jù)響應數(shù)據(jù)分析協(xié)議序號(ISN)的生成規(guī)則、系統(tǒng)的時鐘情況等信息,可以有效地識別出目標設備的操作系統(tǒng)[5,6]。
被動監(jiān)測是在網(wǎng)關處監(jiān)控設備的通信時長和頻率、數(shù)據(jù)大小等,來識別設備的不同行為模式。DEFT[7]分析DNS/HTTP/MQTT等多個協(xié)議的數(shù)字特征(均值、最大值和最小值),生成對應的數(shù)字指紋。對于具有無線功能的設備,可以將無線電的物理特征作為設備指紋[8,9]。
得到指紋后利用不同的學習算法進行設備分類。一般采用監(jiān)督學習和非監(jiān)督學習。Li等人[10]采用決策樹、SVM和BP神經(jīng)網(wǎng)絡等監(jiān)督學習方法,對攝像頭設備的正負樣本進行訓練來識別聯(lián)網(wǎng)攝像頭。無監(jiān)督學習則被用來解決無訓練數(shù)據(jù)時識別新出現(xiàn)的設備。
標語信息常出現(xiàn)在Telnet/HTTP等協(xié)議中,含有設備的品牌型號信息。如圖1所示,是HTTP文本的頭部關鍵標語信息。標語信息能夠直接顯示設備的品牌型號。但各個廠家的標語信息格式、位置、寫法都不相同,對有效標語信息的提取造成了很大的阻礙。Feng等人[11]提出了基于規(guī)則匹配和NLP的物聯(lián)網(wǎng)設備搜索引擎,標語提取后利用Google對標語信息進行拓展并建立設備的指紋庫。

圖1 HTTP頭部標語信息
不同品牌設備的頁面具有差異性。同時,界面代碼是被寫進硬件存儲中的,具有持久性。這兩點確保了本文方法的有效性。
Ren等[12]人利用信息增益模型從Web頁面提取關鍵詞信息,利用正反饋增強的PU學習方法進行分類器訓練。但這種基于特征字提取的方法,在遇到交互界面中缺少關鍵字,或者品牌型號信息都以圖片的形式顯示時,難以提取有效的特征信息。針對這個問題,本文提出了基于交互界面代碼結構的特征提取方法,該方法的優(yōu)勢是適用性廣、正確率高。
HTML是一種標簽語言,可以轉(zhuǎn)化成DOM樹。本文的設備指紋包含兩部分:標簽使用情況和DOM樹的層次結構信息。這些信息可以很好的代表一種品牌設備的頁面特征。
本文通過對其關鍵標簽的使用情況以及DOM樹結構的分析,提取了表1中的19種特征值。一個合法的HTML文本都包括了兩大部分,標簽
和標簽。標簽定義了HTML文檔的頭部,是各種頭部標簽元素的容器。標簽中的內(nèi)容定義了HTML文檔的各類屬性,腳本的調(diào)用等等配置信息。經(jīng)常在頭部出現(xiàn)的標簽有