(中國電子科技集團公司第五十四研究所 河北省電磁頻譜認知與管控重點實驗室,石家莊 050081)
在信息化極速發展的當今社會,無線通信技術已經普及到各群眾的生活中。無線技術已全面應用于商業、生活、金融及工作中。移動電話、語音通話、數字電視、網絡通信、數據交換等,都隨著無線通信技術的平臺繁衍而生。
隨著大眾網絡安全意識的穩步提升,對于數據保護的意識也愈加強烈。對于特定類型的流量,加密甚至已成為法律的強制性要求,數據加密儼然已經成為保護隱私的重要手段之一。根據最新統計報告截止到2019年,超過80%的企業網絡流量被加密,75%的網絡流量被加密。Barac預測到2020年,83%的流量將被加密。
雖然加密技術的推行旨在保護網絡通信的安全和隱蔽性,但這種隱蔽性同樣讓它成為了攻擊者隱藏部署惡意代碼、滲透、命令和控制等惡意行為的強大工具。Radware公司在2016年公開的年度全球應用與網絡安全研究報告中顯示已有 35%的惡意攻擊正在借助 SSL/TLS 協議進行C&C命令傳輸、惡意代碼傳輸等攻擊活動。在2017年5月,勒索軟件“想哭”(WannaCry)通過加密技術來逃避入侵檢測系統的檢測,致使該攻擊在網絡空間中如野火燎原之勢傳播。實現加密流量有效監管是互聯網流量識別和監管的重要組成部分。加密流量識別和管理可以有效防范惡意流量,保障計算機和終端設備安全運行,維護健康綠色的網絡環境。
目前國內外學者專家對于有線互聯網網絡加密流量分類識別的研究比較成熟,由于無線傳輸的介質是電磁波,相比于有線傳輸更易受到其他因素的干擾,而且易受相同或相近頻段的無線電波影響,降低信息傳輸速度。因此無線通信可能引發信號損耗,降低信號傳遞質量,出現數據包誤碼和丟包問題。而且通常情況下僅能收到單向流量。因此,對于無線傳輸條件下網絡加密流量分類識別的研究相對困難,研究成果較少。
由于有線網絡與無線網絡的工作頻段、傳輸媒介等條件不同,因此在物理層和數據鏈路層具有差異性。但是有線網和無線網在網絡層以上都遵循TCP/IP協議,因此在網絡層以上不具有差異性。
無線網絡和有線網絡都需要通過前導碼通知設備數據鏈路層幀的到達。有線網絡和無線網絡前導碼結構不同;有線網絡和無線網絡根據依據的標準不同,在物理層使用的技術也不同。無線網與有線網在物理層均通過前導碼(preamble)通知設備數據鏈路層幀的到達,不同的是無線網物理層前導碼包含兩個部分:sync和SFD。其中sync用于發現信道中是否存在數據幀,分為長和短兩個部分,一般直接稱為長前導碼和短前導碼。其中長前導碼是用于大范圍低速模式,短前導碼用于小范圍高速模式;SFD固定為0000 0101 1100 1111,用作幀起始標志。對于有線以太網而言,其前導碼為固定8個字節。根據依據的標準不同,無線網絡與有線網絡在物理層使用的技術也不同。
無線網絡與有線網絡在數據鏈路層層面的差異性主要在于實現的技術與流量的傳輸格式。在數據鏈路層實現技術中,有線網絡的集線器和中繼器設計中采用了CSMA/CD(Carrier Sense Multiple Access with Collision Detection,載波偵聽多路訪問/沖突檢測)技術。該技術早期是用來解決有線網絡中,共享介質下的多路網絡接入問題,仍然在當今的10M/100M半雙工網絡中使用。在更高的帶寬情況下,比如1 000 M網絡,則采用全雙工技術以取代CSMA/CD。無線網絡采用CSMA/CA(Carrier Sense Multiple Access with Collision Avoidance,載波偵聽多路訪問/沖突避免)協議搭配停止等待協議。無線信道的通信質量遠不如有線信道,因此無線站點每通過無線局域網發送完一幀后,要等到收到對方的確認幀后才能繼續發送下一幀。
無線網絡與有線網絡差異主要集中在物理層與數據鏈路層,在網絡層以上的層次中,二者并無區別,即無線網絡與有線網絡均使用TCP/IP架構中的網絡層、傳輸層、應用層。因此,對加密流量檢測、加密流量協議分類和加密流量業務識別,在網絡層以上的處理均與有線網絡無異。檢測要素則主要需要考慮物理層和數據鏈路層中的信息。
本文要對不同業務進行分類識別,因此需要構建出業務環境。目前本文選定了幾種業務,分別是文件下載業務、網頁瀏覽業務、郵件業務、即時通信業務、流媒體業務。
本文用兩臺計算機,一臺作為服務器,一臺作為客戶端,建立了FTP服務器、郵件服務器、流媒體服務器、即時通信服務器。本文利用兩臺計算機進行FTP文件下載業務,網頁瀏覽業務,郵件業務,流媒體業務,即時通信業務。

圖1 FTP文件下載業務

圖2 郵件業務

圖3 流媒體業務

圖4 即時通信業務
本文利用實驗室環境中的加密衛星通信系統,該系統是由一個主站和若干小站構成的,并且在數據鏈路層加密。作者利用其主站和兩個小站,兩個小站通過主站進行通信,兩個小站分別連接到計算機上即可采集加密數據。結合上節構建的業務環境,就完成了加密傳輸的環境,為后續加密數據采集作鋪墊。
由于加密數據的隱私性及衛星通信系統的特殊性,目前沒有公開的數據集,所以本文利用前文構建的加密環境和業務環境進行加密數據的采集。
1)文件下載業務:
文件傳輸業務主要基于文件傳輸協議FTP(file transfer protocol),它是由TCP/IP提供的用于從一個主機往另一個主機復制文件的標準機制。FTP是在兩個主機之間穿件了兩條連接,一條用于文件傳輸(通常端口20),另一條用于控制信息(通常端口21)。在整個FTP回話期間,控制連接端口都是開放的,用于在客戶端和服務器之間發送控制信息和客戶端命令。數據連接使用的是臨時端口來創建的。每當有文件要在客戶端和服務器之間傳輸時,就創建一個數據連接。FTP要求客戶端在請求文件傳輸之前,發送登錄名和密碼給服務器,來驗證自己。本文利用前文構建的業務模型中的FTP服務,配置好FTP服務器并設置好目錄及文件,用另一臺客戶端訪問FTP服務器地址,然后登陸FTP服務,訪問目錄并進行文件下載,并在登錄服務的同時采集數據。采集幾組相同文件下載的數據和幾組不同文件下載的數據來做對比。
2)電子郵件業務:
郵件業務主要基于簡單郵件傳輸協議SMTP(simple mail transfer protocol),它是一種用于從一個服務器往另一個服務器傳輸的E-mail協議。SMTP的特征包括郵件列表、回復接收和轉發。SMTP可以接收輸入的消息,并利用TCP把它發送給另一個服務器上的SMTP。SMTP的作用是利用本地電子郵件數據包把輸入消息存儲在用戶的收件箱中。一旦SMTP服務器標志出了接收者的E-mail服務器的IP地址,就將通過標準的TCP/IP路由過程發送消息。本文利用構建好的電子郵件服務,分別在連接到兩個小站的計算機上登錄配置好的郵件賬號,開啟數據采集設備,兩個賬戶之間互相發文字信息,互相傳送附件并下載。
3)流媒體業務:
流媒體業務主要基于實時傳輸協議RTP(Real-time transport protocol),它用來為網絡上的語音、圖像、傳真等多種需要實時傳輸的多媒體數據提供端到端的實時傳輸服務。RTP既不需要實現建立連接,也不需要中間節點的參與。在網絡帶寬充足的情況下,RTP具有一定的帶寬調控能力,保證端到端的多媒體流同步。在網絡帶寬不足時,RTP的帶寬調控能力將受到一定的限制。本文利用構建好的流媒體服務器VLC,在服務器端配置好串流視頻屬性,在客戶端配置好串流地址,開始進行數據采集。采集幾組同樣視頻的數據和不同視頻的數據來作對比。
4)即時通信業務:
即時通信業務主要是為用戶提供即時消息,語音,視頻,文件傳輸等多樣化服務。即時通信業務是一種基于Internet的通信技術,涉及到IP/TCP /UDP等多種技術手段。無論即時通信系統的功能多么復雜,它們大都基于相同的技術原理,主要包括客戶/服務器(C/S)和對等通信(P2P)模式。本文利用FeiQ在兩臺計算機之間進行通信,采集文字、圖片等消息的發送接收和文件的傳送等數據。
1)無線加密流量物理層與數據鏈路層特征:
無線網絡與有線網絡的主要差異在物理層和數據鏈路層中,因此本文對于無線加密流量進行特征提取的研究點也主要集中在物理層和數據鏈路層的協議特征提取中。
相較于有線信道,無線信道為了保證數據傳輸的安全性,有些情況在數據鏈路層就進行了加密處理。但是,與TLS等安全傳輸層加密協議類似,無線網絡兩個通信節點建立連接時,經歷了802.11相互發現過程、802.1X認證過程和4次握手過程,這些過程中會包含大量的伴生明文信息。而在正常通信過程中數據鏈路層中還存在一些未被加密的數據幀字段,這均可以作為無線加密流量的特征進行識別。由于這種加密通信大部分情況下需要手動進行配置(例如在路由器設置中手動開啟使用WPA2),這也有可能導致無線信道中可能存在未經加密的報文,靈活運用這些未被加密的報文,可以較為方便的對網絡層及以上的特征進行提取。
2)無線加密流量的網絡層與傳輸層特征:
由于無線網絡與有線網絡在網絡層及以上并無明顯差異,因此,在可以完整提取到網絡層及以上報文的前提條件下,無線網絡與有線網絡的網絡層與傳輸層特征并無太大差異。但是,如果使用TCP協議作為傳輸層協議以實現數據的嚴格按序傳輸,相較于有線網絡,無線網絡環境將面臨三點主要的問題:1)由于信號衰減等多種問題,無線信道的丟包率明顯較高;2)無線信道是不對稱的,主要體現在帶寬不對稱、丟包率不對稱與路由不對稱3個方面,這將導致測量結果產生偏差,進而無法正確設置TCP重傳定時器的超時時間;3)由于通信范圍的有限,無線網絡存在隱患終端和暴露終端問題,這將導致時隙資源的無序爭用,增加了報文碰撞的概率,進而增大了數據傳輸時延,嚴重影響網絡的吞吐量。因此無線網絡中存在比有線網絡更多的重傳報文,在對會話進行特征提取時需要對這些情況進行特別的識別與處理。
為了進行識別與分析,需要對無線加密流量的特征進行提取,本論文擬通過對無線網絡流量進行分析,歸納出無線加密流量的特征池,為后續的研究奠定基礎。
從無線信道中抓取到的數據幀有可能從數據鏈路層開始就已經得到加密處理,這樣將無法正常對網絡層及以上的特征進行獲取,這對加密流量識別產生了很大困擾。因此相較于有線網絡加密流量識別特征提取主要提取網絡層及以上特征,針對無線加密流量的特征提取來源更加廣泛。
由于有些無線通信系統物理層就是加密的,所以無法提取到上層的特征,必須對物理層的特征進行分析。通過對采集的大量數據的十六進制數據流進行分析,可以通過不加密的幀頭分離出業務幀與控制幀。
圖5是對文件下載業務的幀長統計,文件下載業務主要分為兩部分完成,包括FTP的登錄和文件的傳輸,FTP登錄時客戶端請求訪問需要將自己的登錄名和密碼發送給服務器來驗證。從圖中可以看出,0~50幀左右幀長度在100~600字節小幅波動,此時為FTP的登錄過程;在后續50~1 700幀為文件的傳輸過程,可以看出此時幀長度基本可以保持在最大值1 500字節,并且比較穩定。

圖5 文件下載業務幀長統計
圖6是對流媒體業務的幀長統計,從圖中可以看出,流媒體業務的幀長波動范圍很大,從100~1 500字節均有分布,但是基本都在200字節以上由圖可知,流媒體業務的幀長度波動幅度很大,最大幀長度可達到1 500字節。可以看出流媒體業務幀長波動幅度較大,最大幀長可達到1 525字節。

圖6 流媒體業務幀長統計
圖7是對郵件業務的幀長統計,從圖中可以看出,在0~30幀左右幀長在100~600字節波動,在30~120幀左右在100字節左右波動較小,在120~1 800幀左右在100~1 500字節波動但1 500字節占很大比例。通過分析發現,在0~30幀左右為郵件的登錄過程,在30~120幀左右為郵件發送文字業務,在120~1 800幀左右為郵件發送附件的業務,此時和文件下載業務類似。

圖7 郵件業務幀長統計
圖8是對即時通信業務的幀長統計,從圖中可以看出,在0~20幀左右幀長為100字節左右,可能為通信雙方交互過程;在20~30幀左右有一個較大值,可達到1500字節;在30~100幀基本維持在100字節左右,可能是保持通信的數據幀;在100~150幀有一段1 500字節的峰值,可能是消息通信;在150~350幀也有一段1 500字節的數據幀,可能是消息通信或者文件傳輸;在560~860幀有比較多的1 500字節的數據幀,可能是文件傳輸過程。

圖8 即時通信業務幀長統計
本論文利用K-means算法進行特征分類,該算法核心是通過設定參數作為個子集的中心點,將計算數據集中的點與中心點的相似性,將點歸入相似性最高的子集中,然后在每個子集中計算均值選擇中心點,重復以上步驟直至中心點不再變化。其中計算相似性使用最小化平方差來計算:
(1)
其中:E為數據集中所有點之間的均方差之和,xj為隨機選擇的數據集中非本輪中心點的某一點,cj為本輪選擇的中心點,K-means 算法是基于參數K預先設定,并且受包含與正常值差異較大的噪聲數據影響較大,算法的具體步驟如下:
輸入:聚類個數K和具有n個對象的數據集。
輸出:K個聚類中心點及其對象。
1)在包含n個對象的數據集中隨機選取K個對象作為中心點;
2)計算與中心點的距離,將數據集中剩余數據對象聚到與之距離最小的中心點的類簇中;
3)在每個類簇中重新計算得到n個中心點;
4)重復步驟2)和3)直至中心點不再發生變化;
5)輸出結果。
本文利用前文構建的加密傳輸環境得到的加密數據,結合上文提取的特征和方法,對文件下載業務、即時通信業務、流媒體業務和郵件業務進行分類識別,得到的結果如圖9所示。可以看出,每種業務的分類識別率都在85%以上。

圖9 業務分類識別率
現有針對網絡加密流量分類識別的研究主要是研究網絡層及以上加密數據,本文研究的是數據鏈路層加密數據。通過對4種業務的加密流量分類結果分析得出,本文提出的無線網絡數據鏈路層加密流量特征也可以對業務進行分類,并且由于加密層次在數據鏈路層,對于數據的要求更加廣泛,適用范圍更廣。但是加密層次低帶來的一個問題是數據中包含的信息相對于網絡層及以上包含的信息較少,由此帶來對于某些業務例如即時通信業務的某些特征會與其他業務的相似性較大造成識別率相對較低。本文進一步的研究方向是對流量特征進行更深層次的挖掘以尋找更多可用于分類的特征。
目前國內外學術界對專門無線通信網絡加密流的測量與識別還是一片空白,其主要研究著眼于無線通信網絡加密技術、無線網絡測量技術和非網絡環境相關的加密流量識別技術。國內除近幾年興起的加密流量識別與分析領域的研究外,其他領域的研究相較于國外而言相對落后。因此,國內亟需對無線通信加密網絡的安全通信進行研究,而無線通信網絡加密流的測量與識別則可以為未來無線通信加密網絡的安全通信奠定基礎。
本文創新性地面向無線通信數據準確識別的需求,考慮到實際無線通信網絡環境中存在的問題,研究針對無線通信網絡加密流的測量與識別技術,突破目前國內在無線通信網絡加密流測量與分析領域的空白,打破國際在該領域的技術壟斷,實現對無線網絡的有效監管,并反哺推動無線通信加密技術的發展,保障我國未來無線網絡通信的安全,為國家網絡安全保駕護航。