一種識別HTTPS違規網站方法的研究

2022-05-11 12:31:48□文|檀鵬溫暖

互聯網天地 2022年4期

□ 文|檀鵬溫暖

0 引言

HTTPS協議是HTTP協議的安全版本，目前國內外互聯網網站企業均在大力推進其應用，由HTTP網站訪問改為HTTPS網站訪問。HTTPS協議在保護用戶隱私、保障傳輸數據完整性的同時，也給網站內容的安全管理帶來了巨大的挑戰。針對此網絡安全威脅，本文對HTTPS違規網站的識別進行了研究分析。

1 HTTPS協議概念

HTTPS全稱為Hyper Text Transfer Protocol over Secure Socket Layer，HTTPS協議是基于SSL或者TLS加密的HTTP消息交互協議，在HTTP的基礎上通過傳輸加密和身份認證保證了傳輸過程的安全性，是以安全為目標的HTTP 通道，被廣泛用于萬維網上安全敏感的通訊。

2 HTTPS協議應用情況

HTTPS協議具有加密、防篡改、身份認證等優點。2014年起，國外網站陸續啟用HTTPS協議。目前，谷歌、Facebook、Twitter等國外主流網站已全面應用HTTPS，國內百度、淘寶、京東等主流網站也已全面啟用HTTPS，實現網絡流量的加密傳輸，避免傳統HTTP網絡出現的用戶信息泄露、流量劫持行為的發生。

3 HTTPS違規網站識別意義

HTTPS加密網站傳輸的應用日趨普及，HTT PS網站流量占總流量的比例也越來越大。HTTPS網站傳輸的加密特性被一些不法分子利用，存在傳播違法違規內容的情況。由于傳輸的網站信息被加密，導致違規內容無法被流量還原等傳統的技術方式識別發現，具有巨大的危害性。開展HTTPS違規網站的識別，有利于發現網絡流量中隱藏的違法違規內容，找出潛在的網絡安全風險，保護人民群眾合法權益，具有重要意義。

4 HTTPS違規網站識別目的

本文的研究目的是通過研究HTT PS違規網站的特點，分析研究HTTPS網站加密傳輸過程的各個環節，發現HTTPS違規網站的傳輸域名，然后對網站內容進行下載，存儲在本地，通過文字、圖片等內容算法進行分析，最終發現HTTPS違規網站，為HTTPS違規網站治理提供技術思路方案，打擊HTTPS違規網站，保護未成年人身心健康，更好地維護人民群眾合法權益。

5 前期HTTPS違規網站識別理論和觀點

前期萬維網傳輸采用HTTP協議應用最廣泛，由于HTTP協議傳輸的內容是明文傳輸，對于HTTP協議傳輸的網站內容一般采用流量抓包，然后進行流量還原，把網站的文字、圖片等內容，從二進制流還原成為正常的文字、圖片，然后采用內容識別算法對圖片、文字中的違法違規內容進行識別，以此發現HTTP違規網站。

隨著技術的發展，萬維網的互聯網傳輸出現了加密的HTTP協議，即為HTTPS 協議。由于HTTPS協議對網站的傳輸內容進行了加密，流量不再是明文傳輸，抓取到的流量包全部被加密，無法采用傳統的流量還原方式進行內容還原，無法發現識別違法違規內容。亟需探討新的識別方式，發現HTTPS網站域名，并可以獲取到HTTPS網站傳輸的內容，進行違法違規內容識別，從而發現辨別HTTPS違規網站。

6 HTTPS網站識別存在的問題

由于HTTPS網站采用了加密傳輸的方式，導致難于采用傳統的流量還原方式發現HTTPS域名及內容，加大了網絡安全威脅風險。

（1）難于發現違規HTTPS域名

互聯網網站啟用HTTPS協議后，流量被進行了端到端加密，在網絡中傳輸的域名也被加密，無法采用傳統的流量還原方式進行還原，難于發現HTTPS域名。

（2）難于識別違規內容

由于HTTPS網站流量被進行了端到端加密，在網絡上不再采用明文進行傳輸，傳統的流量還原方法無法還原網站內容信息，獲取不到網站內容，所以無法進行違規內容識別。

（3）網絡安全威脅風險大

對于加密傳輸的手機惡意軟件、僵木儒等無法進行有效識別，影響公共互聯網網絡安全威脅監測處置，使網絡安全威脅風險加大。

7 解決方案

首先在HTTPS網站訪問未加密的三次握手階段，發現提取HTT PS網站的海量域名；然后用大數據過濾算法對海量域名進行計算，獲得疑似違規域名；再將網站內容下載到本地，通過內容識別算法，識別出違法違規內容，發現HTTPS違規網站。識別HTTPS違規網站流程圖如圖1所示。

圖1 識別HTTPS違規網站流程圖

（1）提取HTTPS域名

針對HTTPS網站的識別，直接對其加密流量進行還原，是無法做到的。但在HTTPS網站與訪問用戶交互初期，其流量是非加密、明文傳輸的。因此可以在網站流量出口，部署流量采集設備，從網站HTTS Hello交互過程中，采集、解析其訪問流程中Client Hello報文中的字段，提取HTTPS域名，將域名存儲下來，進行HTTPS網站違規信息識別。HTTPS網站初始訪問流程圖如圖2所示。

圖2 HTTPS網站初始訪問流程圖

（2）大數據過濾算法

提取到HTTPS域名之后，由于同時提取到的域名數量巨大，需要對域名進行處理，過濾掉重復的、沒必要識別的域名。首先進行去重處置，去掉重復的域名；然后采用黑名單、白名單過濾，去掉已經明確的不需要再次進行識別的域名；下一步采取域名關鍵字、特征等過濾算法，再次篩選疑似違規的域名。大數據算法過濾疑似違規域名流程圖如圖3所示。

圖3 大數據算法過濾疑似違規域名流程圖

（3）獲取網站內容

根據過濾的HTTPS 疑似違規域名，采用爬蟲等方式，對HTTPS網站的內容進行訪問，下載到本地存儲。爬蟲可以選擇爬一層，或者多層的方式，對文字、圖片、音頻、視頻等內容進行下載。

（4）違規內容識別

根據文字、圖片、視頻、音頻等內容識別算法，對下載的內容進行違規違規信息的識別，如果識別出違法違規內容，則可以判定HTTPS網站為違法違規網站，可以提交封堵，阻斷違法違規內容的傳播。

8 應用場景

本文的研究方法可以應用在云計算中心、IDC企業建站、CDN內容引入等業務的流量清洗，發現HTTPS傳輸的違規內容，減少網絡安全風險，維護企業合法利益，保護人民群眾合法權益。

（1）云計算中心。云計算中心需對自己客戶的網站內容進行保護，可主動識別發現HTTPS流量中的違法違規內容，清查云服務器中的違規信息，幫助客戶發現HTTPS違規網站，通知客戶下線處置HTTPS違規內容，更好的維護企業的利益，發展更多的客戶，創造更大的價值。

（2）IDC企業建站業務。在機房出口部署設備，抓取HTTPS網站訪問三次握手的通訊，發現HTT PS網站，對IDC企業建站客戶的HTTPS流量進行清查，發現識別客戶網站的違規內容，通知客戶進行IDC企業網站清除內容。

（3）CDN 內容分發網絡業務。在機房出口部署設備，發現HTTPS網站域名，采用爬蟲方式下載內容，存儲內容進行違規內容的算法識別，發現HTTPS違規網站，通知CDN客戶進行內容清除，停止引入違規的HTTPS網站。

9 創新點

（1）能夠提取發現被加密的HTTPS網站域名。

通過在HTTPS網站流量被加密之前的三次握手通訊過程，發現HTTPS的網站域名，解決了HTTPS域名無法被發現的難題，為HTTPS網站違規內容識別做出了重要一步。

（2）能夠獲得HTTPS 網站內容

HTTPS違規內容被加密后，無法被流量還原。發現HTTPS域名后，必須能夠識別網站的內容，才能發現違規內容。本文采用爬蟲方式，將HTTPS網站內容下載下來，并進行存儲，解決了HTTPS網站內容獲取的問題。

（3）能夠識別HTTPS加密違規內容

下載下來的內容是非加密的，所以可以采用圖片、文字等違規內容識別算法，將違規的圖片、文字識別出來。那么對應的HTTPS網站即是違規的。

10 結束語

為打擊HTTPS違規網站，本文提出了一種識別HTTPS違規網站的方法。首先在HTTPS網站訪問的三次握手通訊過程，發現HTTPS域名，然后通過爬蟲方式，將HTTPS網站內容下載下來，最后使用文字、圖片等內容識別算法，將違規的文字、圖片識別出來，進而可以判斷HTTPS網站為違規網站。通過本方法可以更好地識別HTTPS違規網站，打擊加密傳輸的違規內容，維護人民群眾合法權益。