肖波,鄧甜甜,周春光
(長沙學院網絡與現代教育技術中心,湖南長沙410022)
對于大型的社會團體、企事業單位,其官方網站以及多個二級部門的網站,通常建立在網站群平臺之上。網站群是以統一標準、統一規范、建立在統一技術架構基礎之上的若干個能夠相互共享信息、按照一定的隸屬關系組織在一起的統一管理的網站集合[1]。以某高校為例,其網站群包括1個學校官網、30多個二級學院或研究機構和20 多個行政部門的網站,網站群中每天發布的信息量近百條,自2010年以來,信息量累計超過20萬條。
在龐大的網站信息中,存在大量指向第三方網站的鏈接信息,這些鏈接可能隨時間的推移,指向的目標網站發生了變化,通常是域名注冊過期而被新的公司注冊使用,其網站的內容或性質發生了變化,甚至變成詐騙或黃賭毒等非法的網站。我們將這種指向第三方不良信息的網頁鏈接,稱為不良外鏈。如果對網站群中的外鏈不進行監管,不能預防和清理不良外鏈,將會誤導網站訪問者,助長不良信息的傳播,造成惡劣的社會影響,甚至有可能成為網絡安全事故。
第三方網站何時發生變化,網站群中的有效外鏈何時成為不良外鏈,這是不可控的。如何在有效外鏈變為不良外鏈之前進行預警和清理,是大型網站群平臺管理面臨的一項重大挑戰。
治理的方法,可以從管理角度出發,建立完善的外鏈監管機制,包括發布前對鏈接甄別、分類標識,內容發布時的審查,發布后的持續跟蹤,內容過期后的刪除,鏈接變化后的清除等。這些方法是將網站群的內容發布的流程更加規范化,信息管理更加精細化。其代價是需要網站管理員付出更多的時間和精力,甚至需要人工對若干年前發布的鏈接進行識別并清理,在實際操作中因各種原因并不能完全清理,治理的效果欠佳。
在實際中發現很多網站平臺將所有外鏈進行了統一跳轉,對列入黑名單的惡意域名進行了屏蔽,同時對訪問者點擊外鏈跳轉時進行了提醒,這種嚴苛的方式可能并不友好,使用戶迷惑。某些技術方法采用網絡爬蟲對目標網站的內容和關鍵詞進行分析[2-4],識別出不良外鏈進行清理。
在此基礎上,對于不良外鏈的分析判定,網絡爬蟲應該收集更多的關于目標網站的備案、注冊等信息,并結合外鏈在本網站群中使用的情況做出更準確的分析判斷。全面可靠的治理方法是采用自動化的程序,提取出網站群中的每一條鏈接,然后對鏈接按域名進行分類、可信度分析、持續跟蹤審查,及時識別出無效的、不可信的外鏈,盡早判定出不良外鏈并進行清理。這一治理方法,涵蓋了外鏈在網站群中從發布到撤銷的全生命周期的監管。
鏈接廣泛分布在網站群平臺的各個網站的各級頁面中,為了達到全面的治理效果,需要將鏈接全部提取出來,并對其進行分類,以便進一步處理。
鏈接的提取可采用網絡爬蟲抓取和讀取數據庫、文件的方式得到網頁內容,然后通過標簽查找或字符串匹配的方法提取其中的鏈接信息。
網絡爬蟲是一種自動化程序,通過不斷向Web服務器發送頁面請求來獲取網頁數據。為提高對網站群中鏈接信息的抓取效率,需將抓取范圍限定在本單位的域名范圍內,并結合網站群的層次結構、導航信息、欄目結構,根據網站群系統在頁面中的特定標簽值對爬蟲算法進行優化。在實踐中發現,不良外鏈通常存在于若干年前發布的信息中,這需要爬蟲的算法更多地關注網站中的歷史頁面,在網站的列表頁進行廣度優先的搜索。采用網絡爬蟲需要不斷地通過網絡與服務器進行交互,因網絡延遲和步驟的往復,其效率較低,耗費系統資源較多,并存在信息遺漏或延誤的情況。
讀取數據庫或文件的方法是直接從網站群系統的數據庫或文件中獲取信息。網站群系統,也是內容管理系統(CMS)[5],其前端頁面上展示的文字內容都存儲在后臺數據庫中,通過分析其數據庫的結構,可直接獲取到以HTML語言或純文本形式存在的信息。對于靜態網頁的網站,其網頁內容同時以文件形式存儲在Web服務器的網站主目錄中,可直接讀取這些網頁源代碼文件。該方法高效快捷,信息全面,但需要網站群廠商公開數據底層設計或提供查詢接口。
通過上述兩種方法獲取到網頁信息后,需進一步提取其中的鏈接信息。網頁中的鏈接信息通常以HTML 語言的A 標簽存在,少量鏈接以純文本、圖片中的文字、二維碼鏈接等形式呈現。鏈接的提取可分步進行,首先對HTML 語言進行處理,直接讀取A 標簽的HREF 屬性值即可得到鏈接。然后剔除所有HTML標簽得到頁面文字內容,和其他純文本信息一并進行處理,此時可采用正則表達式或其他字符串匹配查找的方法。在實際應用中,為了不遺漏鏈接,需制定比較寬泛的匹配規則。例如,在文本信息中查找鏈接,根據鏈接的URL規則,需將點號前后屬于URL字符范疇的內容組合起來,截止于空格或其他非URL 的字符,形成一條鏈接信息。對于圖片或二維碼鏈接,則采用圖像字符識別(OCR)、二維碼解析得到文本信息后再按純文本的鏈接提取方式進行處理。
為方便后續步驟,在提取鏈接時,需記錄其所處的網站、欄目、頁面內容的標題、發布時間、點擊數等信息。
對提取到的鏈接信息,再進行域名或主機頭的提取。域名是判定鏈接的合法性、區分內外鏈接的依據。根據URL語法規則,提取的方法是:找到鏈接中的“//”的位置,然后從它的下一個字符開始,如果沒有找到就從第一個非符號的字符開始,到后續的第一個“/”字符之前的字符結束。提取出來的信息為域名、主機頭或IP地址。根據提取的結果,可將鏈接分為無效鏈接、內部鏈接、外部鏈接。
無效鏈接:1)提取的信息為空值。實際中多源于A標簽的HREF值為“#”。2)提取的信息中不包含點號。通常是表示組織內部的主機名,在公共網絡中無法明確標識。3)點號分隔的數字字符,但不符合IP地址規則。一般來自上一步驟中提取到的用點號分隔表示的日期信息。4)點分字符的最后一段,不屬于頂級域名(Top-Level Domains) 的范疇。這類信息無法通過DNS進行解析。5)其他無法通過DNS解析的情況。
內部鏈接:1)無法提取到域名或主機頭信息。這類信息通常是省略了域名或主機頭表示相對路徑的鏈接。2)提取到的域名或IP地址,屬于本單位的域名或IP地址,或是內網IP地址。
其他的鏈接均為有效的外部鏈接,是需要重點關注的對象。
外鏈的可信度分析,是分析判定外鏈的有效性、域名的可靠性、目標網站的可信任程度,分析預測出不良外鏈。對于從網絡群中提取的大量外鏈,由自動化的程序收集相關信息對外鏈域名的可信度進行定性的判定或定量的評價。
根據外鏈的域名做可信度定性分析,可將其可信度劃分為三個等級:高可信、低可信和不可信。對有效、高可信度的外鏈,在網站群中可正常使用;對過期、可信度低、可疑的外鏈,須進行持續跟蹤,并根據后續的定量評價做出相應的處理;對發生改變、不可信、不良的外鏈,立即清除。域名可信度的定性判定的因素有以下5種。
1)域名的類型。如:政府、國防、教育機構的專屬域名gov.cn、mil.cn、edu.cn,屬于高可信度域名。而普通的.cn、.com、.net等域名屬于低可信域名。在實際應用中發現,不良外鏈均出自.com、.net域名。
2)域名所指首頁中的備案信息[6]。目前,國內具有高可信度的備案信息或標識主要有三種:黨政機關事業單位統一標識,其管理服務平臺為:http://bszs.conac.cn/;公安機關備案信息,其管理服務平臺為:http://www.beian.gov.cn/;工業和信息化部的備案信息,其管理服務平臺為:https://beian.miit.gov.cn/。在網站首頁中公開的備案信息越多,網站域名的可信度越高,備案信息可由網絡爬蟲抓取得到[7],并可在相應管理服務平臺查詢驗證。
3)域名所指網站首頁內容。根據網站的標題、關鍵字、內容等信息進行數據分析做出判定,如果包含敏感詞匯、不健康內容、非法信息,其域名判定為不可信或不良外鏈。
4)鏈接在網站群中的發布位置。例如,由黨政機關部門網站發布在政策法規欄目中的外部鏈接,其域名可信度要高于普通二級部門發布在通知公告、活動賽事、招聘信息等欄目中的外部鏈接。
5)各二級部門提供的可信域名列表。根據實際經驗,各二級部門均有對口的上級業務主管部門,或有業務往來的其他單位,這類外單位的域名信息可由各二級部門提供,屬于高可信度域名。
對于網站群內大量的低可信度的外鏈域名,需結合外鏈在本網站群內的使用情況進行量化計算,將外鏈按域名進行匯總,統計相關數據指標:域名在網站群中出現的次數、域名在網站群中出現的站點數、域名出現的時間跨度、域名被點擊的次數,域名最后一次在網站群中發布的時間離現在的間隔?;谶@些數據,構造如以下計算公式進行量化。

式中:V0表示初始可信度估計值,范圍1~10;C表示包含這一域名的外鏈在整個網站群中出現的次數;S表示包含這一域名的外鏈出現在整個網站群中的站點數;dm表示域名出現最晚時間和最早時間相差的月份數;P表示域名對應的鏈接被點擊的總次數;W表示包含這一域名的外鏈最后一次出現的時間離現在的周數。計算結果V值越大,可信度越高,這類域名需要持續跟蹤審查;若V值小于等于0,則視為不可信,需要對包含這一域名的外鏈進行清理。
以發布在某站點的招聘信息中某公司的首頁鏈接為例,根據上述計算模型,若該公司是一家普通公司,域名可信度初值設為5,該域名的鏈接僅在網站群中出現一次,自信息發布之日起到計算的時間點,時間間隔一年,其域名可信度降為0,視為不可信。若該公司是一家知名大公司,域名可信度初值設為10,如果該域名在該網站群多個站點多次發布,且點擊量高,域名可信度維持在較大數值,判定為可信。
因為第三方網站變化的不可預見性,需要對外鏈進行跟蹤審查,預測或發現變化。審查是從包含外鏈的信息發布之日起,至它被刪除的整個生命周期,適時進行跟蹤審查。對審查發現的問題域名或外鏈,協同站群管理平臺,進行警示或清理。
在發布外鏈信息時,要求發布者驗證外鏈的必要性、有效性、提供外鏈域名的可信度參考值、文章內容與目標網站內容的關聯情況、文章內容過期日期等信息。每一條新的域名外鏈發布時,由程序追蹤記錄域名對應的網站首頁的標題關鍵字等信息,記錄通過域名注冊信息查詢系統(WHOIS)反饋的域名的相關注冊信息。常見WHOIS 查詢服務地址有:中國互聯網絡信息中心(whois.cnnic.cn),阿里云中國萬網(whois.aliyun.com),站長之家(whois.chinaz.com) 等。這些初始信息作為跟蹤審查的依據。
跟蹤審查的時間頻度,根據可信度分析的結果來確定。高可信的域名,可每年執行一次跟蹤審查。由各部門提交的可信域名名單,須每年重新審核提交一次。對于低可信度的域名,根據量化計算的數值,其可信度值越低,審查的頻度越高,必要時做到每日審查一次。
跟蹤審查由自動化的程序進行,驗證外鏈是否有效、關聯的內容是否發生變化、目標域名首頁的標題關鍵字是否發生變化、目標網站首頁或目標頁面是否出現了敏感詞匯、根據WHOIS 系統查詢的注冊日期是否到期、注冊信息是否發生變化。隨著時間的推移,發布的內容是否還有效,是否過期,重新分析域名的可信度。
審查時,如果發現小的變化,可逐步記錄在案,在可接受的范圍內由程序繼續追蹤;出現大的變化,如關聯的內容發生重大的變化,域名注冊信息過期,頁面內容出現了敏感詞匯,則可判定為不良外鏈,程序聯動網站群平臺立即進行清理操作[8];如果出現可疑情況無法自動判定時,可發出警示,由人工干預進行審查。
清理是將外鏈從網站群中進行刪除,清理的前提條件是頁面內容已經過期,或第三方網站性質發生了改變,外鏈已經成為不良外鏈。根據實際情況可以只刪除頁面中的鏈接信息,也可以將整個頁面內容刪除。如果某個域名的網站已經成為不良網站,則需要將網站群中所有包含該域名的外鏈全部清理掉,通常情況下,需要網站群平臺協同處理,在網站群平臺的管理端執行批量操作。在實際應用中,為了減少不良外鏈出現的概率,可執行比較嚴格的清理措施,對于頁面內容過期的信息,可盡早進行撤稿處理,長期無人訪問的低可信外鏈,可將頁面中的鏈接刪除。
以上技術方法在某高校的網站群平臺進行初步試用,截至2022 年3 月,獲取到211186 條頁面內容信息,提取出鏈接26835條,其中外鏈7250條,外鏈域名總數1214個,分析整理出高可信域名256個,清理出不良外鏈127條,因內容過期而刪除的包含外鏈的信息483 條,主要源自招聘類活動類信息,其他低可信域名的外鏈,將對其進行持續跟蹤審查。
通過以上技術方法,采用自動化的程序提取網站群平臺中的鏈接,根據域名進行分類標識,按可信度對外鏈進行分類跟蹤處理,結合網絡群管理平臺,及時自動清理過期的、無效的、不良的外鏈,有效地防范了不良外鏈產生的負面影響,減輕了管理人員的工作壓力。對于不同的網站群平臺或組織環境,可參照以上技術方法對外鏈進行監管。對于外鏈域名的可信度分析,可結合更多平臺的共享數據進行分析,或調整參數增加權值以優化計算結果,這有待進一步研究。