□ 文|檀 鵬 溫 暖
HTTPS協議是HTTP協議的安全版本,目前國內外互聯網網站企業均在大力推進其應用,由HTTP網站訪問改為HTTPS網站訪問。HTTPS協議在保護用戶隱私、保障傳輸數據完整性的同時,也給網站內容的安全管理帶來了巨大的挑戰。針對此網絡安全威脅,本文對HTTPS違規網站的識別進行了研究分析。
HTTPS全稱為Hyper Text Transfer Protocol over Secure Socket Layer,HTTPS協議是基于SSL或者TLS加密的HTTP消息交互協議,在HTTP的基礎上通過傳輸加密和身份認證保證了傳輸過程的安全性,是以安全為目標的HTTP 通道,被廣泛用于萬維網上安全敏感的通訊。
HTTPS協議具有加密、防篡改、身份認證等優點。2014年起,國外網站陸續啟用HTTPS協議。目前,谷歌、Facebook、Twitter等國外主流網站已全面應用HTTPS,國內百度、淘寶、京東等主流網站也已全面啟用HTTPS,實現網絡流量的加密傳輸,避免傳統HTTP網絡出現的用戶信息泄露、流量劫持行為的發生。
HTTPS加密網站傳輸的應用日趨普及,HTT PS網站流量占總流量的比例也越來越大。HTTPS網站傳輸的加密特性被一些不法分子利用,存在傳播違法違規內容的情況。由于傳輸的網站信息被加密,導致違規內容無法被流量還原等傳統的技術方式識別發現,具有巨大的危害性。開展HTTPS違規網站的識別,有利于發現網絡流量中隱藏的違法違規內容,找出潛在的網絡安全風險,保護人民群眾合法權益,具有重要意義。

本文的研究目的是通過研究HTT PS違規網站的特點,分析研究HTTPS網站加密傳輸過程的各個環節,發現HTTPS違規網站的傳輸域名,然后對網站內容進行下載,存儲在本地,通過文字、圖片等內容算法進行分析,最終發現HTTPS違規網站,為HTTPS違規網站治理提供技術思路方案,打擊HTTPS違規網站,保護未成年人身心健康,更好地維護人民群眾合法權益。
前期萬維網傳輸采用HTTP協議應用最廣泛,由于HTTP協議傳輸的內容是明文傳輸,對于HTTP協議傳輸的網站內容一般采用流量抓包,然后進行流量還原,把網站的文字、圖片等內容,從二進制流還原成為正常的文字、圖片,然后采用內容識別算法對圖片、文字中的違法違規內容進行識別,以此發現HTTP違規網站。
隨著技術的發展,萬維網的互聯網傳輸出現了加密的HTTP協議,即為HTTPS 協議。由于HTTPS協議對網站的傳輸內容進行了加密,流量不再是明文傳輸,抓取到的流量包全部被加密,無法采用傳統的流量還原方式進行內容還原,無法發現識別違法違規內容。亟需探討新的識別方式,發現HTTPS網站域名,并可以獲取到HTTPS網站傳輸的內容,進行違法違規內容識別,從而發現辨別HTTPS違規網站。
由于HTTPS網站采用了加密傳輸的方式,導致難于采用傳統的流量還原方式發現HTTPS域名及內容,加大了網絡安全威脅風險。
(1)難于發現違規HTTPS域名
互聯網網站啟用HTTPS協議后,流量被進行了端到端加密,在網絡中傳輸的域名也被加密,無法采用傳統的流量還原方式進行還原,難于發現HTTPS域名。
(2)難于識別違規內容
由于HTTPS網站流量被進行了端到端加密,在網絡上不再采用明文進行傳輸,傳統的流量還原方法無法還原網站內容信息,獲取不到網站內容,所以無法進行違規內容識別。
(3)網絡安全威脅風險大
對于加密傳輸的手機惡意軟件、僵木儒等無法進行有效識別,影響公共互聯網網絡安全威脅監測處置,使網絡安全威脅風險加大。
首先在HTTPS網站訪問未加密的三次握手階段,發現提取HTT PS網站的海量域名;然后用大數據過濾算法對海量域名進行計算,獲得疑似違規域名;再將網站內容下載到本地,通過內容識別算法,識別出違法違規內容,發現HTTPS違規網站。識別HTTPS違規網站流程圖如圖1所示。

圖1 識別HTTPS違規網站流程圖
(1)提取HTTPS域名
針對HTTPS網站的識別,直接對其加密流量進行還原,是無法做到的。但在HTTPS網站與訪問用戶交互初期,其流量是非加密、明文傳輸的。因此可以在網站流量出口,部署流量采集設備,從網站HTTS Hello交互過程中,采集、解析其訪問流程中Client Hello報文中的字段,提取HTTPS域名,將域名存儲下來,進行HTTPS網站違規信息識別。HTTPS網站初始訪問流程圖如圖2所示。

圖2 HTTPS網站初始訪問流程圖
(2)大數據過濾算法
提取到HTTPS域名之后,由于同時提取到的域名數量巨大,需要對域名進行處理,過濾掉重復的、沒必要識別的域名。首先進行去重處置,去掉重復的域名;然后采用黑名單、白名單過濾,去掉已經明確的不需要再次進行識別的域名;下一步采取域名關鍵字、特征等過濾算法,再次篩選疑似違規的域名。大數據算法過濾疑似違規域名流程圖如圖3所示。

圖3 大數據算法過濾疑似違規域名流程圖
(3)獲取網站內容
根據過濾的HTTPS 疑似違規域名,采用爬蟲等方式,對HTTPS網站的內容進行訪問,下載到本地存儲。爬蟲可以選擇爬一層,或者多層的方式,對文字、圖片、音頻、視頻等內容進行下載。
(4)違規內容識別
根據文字、圖片、視頻、音頻等內容識別算法,對下載的內容進行違規違規信息的識別,如果識別出違法違規內容,則可以判定HTTPS網站為違法違規網站,可以提交封堵,阻斷違法違規內容的傳播。
本文的研究方法可以應用在云計算中心、IDC企業建站、CDN內容引入等業務的流量清洗,發現HTTPS傳輸的違規內容,減少網絡安全風險,維護企業合法利益,保護人民群眾合法權益。
(1)云計算中心。云計算中心需對自己客戶的網站內容進行保護,可主動識別發現HTTPS流量中的違法違規內容,清查云服務器中的違規信息,幫助客戶發現HTTPS違規網站,通知客戶下線處置HTTPS違規內容,更好的維護企業的利益,發展更多的客戶,創造更大的價值。
(2)IDC企業建站業務。在機房出口部署設備,抓取HTTPS網站訪問三次握手的通訊,發現HTT PS網站,對IDC企業建站客戶的HTTPS流量進行清查,發現識別客戶網站的違規內容,通知客戶進行IDC企業網站清除內容。
(3)CDN 內容分發網絡業務。在機房出口部署設備,發現HTTPS網站域名,采用爬蟲方式下載內容,存儲內容進行違規內容的算法識別,發現HTTPS違規網站,通知CDN客戶進行內容清除,停止引入違規的HTTPS網站。
(1)能夠提取發現被加密的HTTPS網站域名。
通過在HTTPS網站流量被加密之前的三次握手通訊過程,發現HTTPS的網站域名,解決了HTTPS域名無法被發現的難題,為HTTPS網站違規內容識別做出了重要一步。
(2)能夠獲得HTTPS 網站內容
HTTPS違規內容被加密后,無法被流量還原。發現HTTPS域名后,必須能夠識別網站的內容,才能發現違規內容。本文采用爬蟲方式,將HTTPS網站內容下載下來,并進行存儲,解決了HTTPS網站內容獲取的問題。
(3)能夠識別HTTPS加密違規內容
下載下來的內容是非加密的,所以可以采用圖片、文字等違規內容識別算法,將違規的圖片、文字識別出來。那么對應的HTTPS網站即是違規的。
為打擊HTTPS違規網站,本文提出了一種識別HTTPS違規網站的方法。首先在HTTPS網站訪問的三次握手通訊過程,發現HTTPS域名,然后通過爬蟲方式,將HTTPS網站內容下載下來,最后使用文字、圖片等內容識別算法,將違規的文字、圖片識別出來,進而可以判斷HTTPS網站為違規網站。通過本方法可以更好地識別HTTPS違規網站,打擊加密傳輸的違規內容,維護人民群眾合法權益。
