劉 磊
(四川商務職業學院 科研處,成都 611131)
隨著移動設備的激增和網絡技術的快速發展,無線技術在現代計算機平臺和嵌入式系統中變得越來越關鍵。然而,無線網絡與有線網絡一樣有著很多漏洞,這些漏洞經常被用作大規模攻擊的墊腳石[1]。其中,移動無線設備易受黑客、反向編程等威脅,再加上無線網絡系統中安全管理機制較少,這大大增加了無線設備受攻擊的風險。因此,研究出簡單有效的方法來識別合法用戶,并檢測惡意用戶的潛在威脅,顯得尤為重要。很多基于密碼的方法[2]在無線網絡中都可以用于認證、數據保密和保持數據完整等。然而,這些技術在面對如干擾等的分布式拒絕服務(Distributed Denial of Service,DDoS)攻擊時就會顯得蒼白無力[3]。近些年,設備指紋識別技術[4]日趨成熟,并可以用來降低無線網絡受偽造節點或內部攻擊的風險[5]。其基本思想是主動或被動地在無線通信過程中從目標設備中提取獨一無二的特征。可提取并利用的特征,如物理層(Physical Layer,PHY)特征,媒體訪問控制層(Media Access Control,MAC)特征和上層特征[6]。有效的設備指紋識別必須滿足2個屬性:1)這些指紋識別必須很難或者無法被偽造;2)這些特征必須在環境變化和節點移動時保持一致。劉澤麗[7]選擇公開密鑰體系(Public Key Infrastructure,PKI)身份認證技術和指紋識別技術來達到用戶和系統的雙向認證,對其中一些算法步驟進行了優化。
雖然當今社會對無線設備指紋識別技術的發展潛力感興趣,但很少有文獻對該技術及關鍵部分進行綜合介紹。為此,本文提出一個詳細的技術報告,引入了一個可用于指紋識別技術的無線特征綜合分類系統。本文以特征生成所需的主動和被動協議棧層,以及這些特征作用的粒度為基礎將特征進行分類。
1.1.1 物理層
PHY的特征是從已接收的射頻(Radio Frequency,RF)光波陣型中獲得,通常分為2類:
1)位置相關特征:接收信號強度(Received Signal Strength,RSS)是最常用的位置相關特征,一般通過測量接收器的平均功率信號,并根據發送者的傳輸功率判斷信道的衰減。另一個位置相關的特征是接收者的信道狀態信息(Channel Status Information for Receiver,CSIR)[8]。即使有小尺度的衰落,或者接收者只移動一小段距離,CSIR也會有很大的不同。
2)位置不相關的特征(輻射測量):位置不相關的特征與個人設備(芯片組)的硬件相關。由于設備具有獨特的表征并形成設備指紋識別,使得各設備的表征及指紋識別差異很大[9]。
Kaur[10]發現無線電收發器的表征為信道的過渡導通部分。即使是同一個生產者生產出來的無線收發器,只要加入一些好的指紋識別,就能看見不同設備過渡行為之間的區別。只要這些過渡是分開的,就可以使用離散小波變換提取振幅、相位角和頻率作為特征[10-11]。
Polak等[12]利用功率放大器的瑕疵來識別無線設備。由于功率放大器是傳輸器RF鏈中的最后一個元素,攻擊者很難通過軟件修改它。本文用Volterra序列顯示對功率增大器的非線性特征進行建模。Volterra序列能夠捕捉到聯合增大器的I/O特征,并形成設備指紋識別[13]。
另外,Babu等[14]實施了一個名為PARADIS的系統,該系統利用了問題幀中的量級、相位錯、I/Q原點位移和同步相關性等特征。Rahman等[15]利用載波頻差(Carrier Frequency Difference,CFD)和相移差(Phase Shift Difference,PSD)在無線設備中實施指紋識別技術,另外,閆文君等[16]進一步聯合使用了二階循環平穩特征、PSD和CFD等識別采用了OFDM傳輸的設備。
1.1.2 MAC層
從MAC層中尋找特征也一直備受關注,因為這些特征提取時并不需要特定的硬件,因此相對簡單。從整體來看,使用MAC層特征實施指紋識別技術的細節沒有特定的標準,在實施過程中可由廠商自由發揮。因此,MAC層的特征通常是由廠商決定的。
Desmond等[17]將IEEE 802.11網絡中的主動式掃描過程作為循環,其中每個循環包括:1)零速爆發或ms范圍內的探索請求幀;2)幾十秒范圍內的探索請求幀。循環之間較大的延遲被定義為“突發流延遲”,可用于識別。Zheng等[18]根據主動式掃描中探索請求幀之間的到達時間頻率來提取特征。
為了能夠有效測出MAC地址侵入,Suman等[19]計算了IEEE 802.11時間同步功能中的一個AP發送時間戳到信標/探測響應幀時的時鐘偏移,并把它當作設備特征。Arackaparambil等[20]分析了這種方法的魯棒性,發現將合法AP應用到設備中時,該設備可以獲得與該AP一樣的時鐘偏移。因此,只單獨比較時鐘偏移時,可能無法檢測出假的AP。
Neumann等[5]評估了不同MAC層特征在802.11設備中的有效性,包括傳輸率、幀的尺寸、介質訪問時間、介質訪問時間(即退避機制)、傳輸時間以及幀的間隔到達時間。
1.1.3 網絡和上層特征
PHY和MAC層的特征較豐富,相比之下,其他層的特征相對較少。
Luo等[21]使用AP中的TCP或UDP數據包的間隔到達時間(Interval Time of Arrival,ITA)作為重要特征,來辨別AP的類型。特別指出的是,它收集了每個AP的多個數據包痕跡。計算ITA后,使用bin大小對時間序列進行采樣,采樣范圍為1~10 μs。選出最優的bin大小來使差異最大化,這樣就能找出不同AP的ITA。Ahmed等[22]使用起落線作為特征,認知無線電用戶在初始用戶的起落線進行聚類,這樣就能優化其傳輸策略。這種類似的觀念可以用于解決安全問題。
另一個可用于設備識別的高等級的特征就是瀏覽器特征。Eckersley[23]表示,當前的網絡瀏覽器可以根據請求提供網址的版本和配置信息,這些信息可用于追蹤瀏覽器。
由于有些指紋識別特征是供應商特定的,因此可能會改變模型和設備的固件版本。
PHY層的特征能夠利用單個芯片組在生產過程中的瑕疵,因此它們是設備特定的特征。然而,MAC層的特征主要是利用無線標準中的規范部分。因此,大多數MAC層的特征都是供應商特定的,除了文獻[15]提到的時鐘偏移,因為如果該時間戳是從本機振蕩器中生成的,那么這些時鐘偏移就是設備特定的特征。
將設備指紋識別進行分類的另一個方法是以提取法為基礎的。提取法有2種:被動法和主動法。
1.3.1 被動特征
以上所提的特征中,切換率、主動式掃描、時間同步功能戳中的時鐘偏移,各種不同的輻射特征、隨機回退時間、802.11數據和管理幀中的時間閾值,ITA等都是被動特征。由于被動法不向系統注入任何“刺激”,因此提取被動特征不會影響被監測的系統。其好處有2點:1)不會引起任何其他附屬介質之間的競爭或網絡擁堵;2)攻擊者不會檢測到防御機制。
1.3.2 主動特征
主動法能夠查詢不同種類數據包的節點,這些數據包的大小都不相同,有合法的也有畸形的。使用802.11聯合重定向機制提取的特征需要用不同的源地址傳輸聯合反應,因此它的屬性也是主動的。與被動法相比,主動特征的特征提取不那么隱蔽。然而,它能夠提取出其他方法無法提取的特征。
以上所提特征可根據它們所屬的網絡棧的層、提取特征時所采用的方式以及是否可用于設備或供應商識別等進行分類。表1給出了多種特征的比較,并詳細介紹了它們所屬的類別。

表1 不同維度中選擇出的部分特征的分布

在提取特征并生成設備指紋識別之后,最后一步也是最關鍵的一步就是開發指紋識別算法,以識別無線設備并檢測出不合法的設備。根據是否需要合法設備的先驗信息,可以將指紋識別算法分為2類:基于白名單的算法和基于無監督學習的算法。
已知一些合法設備的指紋識別,設備識別問題就變成了以指紋識別為基礎,確定某未知設備是否合法。如果每一個設備的指紋識別都用向量表示,一種簡單的方法就是計算新的指紋識別與已有特征之間的相似性。檢測向量之間相似性常用余弦相似度表示。即,給定2個向量a和b,它們的余弦相似度為:其中a·b是歐式內積,采用歐式距離度量。圖1給出了白名單指紋識別算法的基本步驟。本文將每1種類型或每1種NIC ID(用于識別個人設備)作為1類,這樣指紋識別問題就變成了一個典型的分類問題。即:給定一些已知類別和一些有類別標簽的訓練數據,怎樣將一個新加入的設備分類到這些不同類別中,本文分類實施的白名單指紋識別算法如圖2所示。首先,對合法設備提取指紋特征,對指紋信息進行基于實例的訓練,訓練的目的是對NIC類標簽進行準確分類;然后,對未知設備的指紋信息進行提取,通過學習到的先驗信息對未知指紋進行分類,分類器采用支持向量回歸(Support Vector Regression,SVR)以獲得設備的標志。

圖1 使用相似性測量的白名單指紋識別算法

圖2 提出的分類實施的白名單指紋識別算法
將所提方法與文獻[17,18,21]方法相比,其中,文獻[18]將探測請求之間的時間增量作為特征,通過迭代所有的bin并總結百分比之間的差別和平均差來計算相似度。識別精度根據bin的大小,從77%到97%不等。為了提取無線設備中的指紋識別,文獻[21]提出一種基于黑盒的被動技術,來識別不同類型的設備,提取IAT來作為特征。文獻[17]通過分析802.11探測請求幀中的時間特征,提出了一種指紋識別技術來區別不同的個人設備。
實驗測試中,每個設備的指紋識別都采用突發流延遲表示。為了比較這種類型的指紋識別,利用統計假設檢驗來確定捕捉到的不同通信軌跡是否來源于不同設備。通過識別率、漸變指紋識別率等指標進行評估,其結果如表2所示,設定的時間間隔為5~10 d。由表2可以看出,所提方法的整體識別率優于其他優秀方法,最高能提高6.65%的識別率,漸變指紋識別率達到100%。這表明所提白名單方法具有非常高的識別準確率和魯棒性。

表2 白名單指紋系列方法的比較
無監督學習是一種機器學習方法,可用于在無標簽數據中尋找隱藏的關系結構。在指紋識別技術中,基于無監督學習的算法能夠識別出有相似指紋識別的設備,然后將它們聚類在一起。由于缺乏合法設備信息,無監督的方法通常不能辨別合法設備和非法設備。然而,當有著不同指紋識別的多個設備使用相同的分類器(也可稱作偽裝攻擊)時,或1個設備使用多個分類器(也可稱作女巫攻擊)時,該方法能夠有效地檢測出這種身份侵入的存在。圖3給出了本文應用無監督學習算法來監測偽裝攻擊和女巫攻擊的過程。根據聚類數量,本文采用了2種不同的高斯混合模型進行聚類。當聚類的數量已知時,采用的是有限高斯混合模型(Finite Gaussian Mixture Model,FGMM);當聚類的數量未知或隨時間變化時,采用的是無限高斯混合模型(Infinite Gaussian Mixture Model,IGMM)。每1個聚類都與單一的物理設備連接起來,這樣聚類的數量就與活躍設備的數量一致。一般來說,不會控制活躍設備的數量,因此IGMM更適用。使用IGMM時,多個物理設備的指紋識別空間可建模成無線高斯混合模型,可以開發出非參數貝葉斯方法來進行無監督聚類,且混合數量不限。然后根據MAC地址進行辨識,如果具有相同MAC地址的2個或多個集群;或者具有相同簇的2個或多個MAC地址的情況,則發出網絡攻擊警報;最后,確定攻擊數量,更新黑名單。

圖3 無監督學習指紋識別算法應用到設備指紋識別
實驗與文獻[15,28]進行比較,其中,文獻[15]采用非參數貝葉斯分類器(Non-parametric Bayesian Classifier,NBC)實施指紋識別,NBC的優點在于,它能夠調整模型的復雜度(即聚類的數量),這樣可避免過度擬合或擬合不足等問題。文獻[28]提出在設備指紋識別技術中使用無監督式學習方法,使用了位置無關的特征和位置相關的特征。
表3給出了幾個無監督學習系列指紋識別結果的統計,其中,文獻[15]使用頻差與相移差進行設備指紋識別,使用Zigbee設備在可控環境下進行實驗,其成功檢測偽裝攻擊的概率為95.2%,成功檢測女巫攻擊的概率為96.3%。文獻[28]的偽裝攻擊的檢測概率為93.5%,女巫攻擊的檢測概率為92.1%。所提方法對2種網絡攻擊的成功檢測概率更高,這主要是因為根據聚類數量采用了不同的高斯混合模型進行聚類,使得聚類準確性更高。

表3 無監督學習系列指紋識別情況的統計
本文介紹了可用于指紋識別的分類系統,以及幾種指紋識別算法。本文所提方法的關鍵在于從無線設備及其所處環境的傳輸信號或幀中提取特征,以生成不可偽造的特征。然后將這些獨一無二的特征用于識別合法設備和惡意設備。另外,設備指紋識別法可與其他方法相結合,以減輕無線網絡的內部攻擊。
在使用設備指紋識別技術來保障無線安全時,依然存在一些待解決的問題。本文所提的特征分類方法可用于設備指紋識別技術,但依然存在一些硬件上的限制:1)如何確定提取最佳特征集;2)如何較好地結合設備指紋識別的特征。很多現有算法都是通過可控環境或使用模擬或合成數據分開評估。因此,很難客觀地比較它們的性能。隨著廣域數據網絡、銷售點終端系統以及定位系統等無線技術得到廣泛使用后,攻擊者很可能在非Wi-Fi無線設備和網絡中帶來嚴重的威脅。這些方面值得重點研究和關注。
未來研究和探索方向依然有很多,如:1)現有的設備指紋識別方法一般與提升檢測精度有關。這樣做的代價是數據收集器的計算復雜度普遍增加,能量消耗增加,如何降低計算復雜度和能耗將是一個研究重點;2)目前很多方法需要的觀測值很多,需要設計新的算法,使其觀測值盡可能少,以降低惡意用戶的負面影響。