李 敏
(作者單位:四川廣播電視監測中心)
隨著廣播電視融媒體的迅速發展,對網絡視聽持證機構和視聽類網站的監測也越來越受到相關部門尤其是宣傳管理部門的重視,視聽類網站承擔了越來越多重要時段的宣傳任務[1]。但現有監測系統的網站采集技術,仍是基于通用網絡信息采集技術(Web crawler),通過解析網頁源代碼或網頁關鍵詞來判斷網站是否為視聽類網站,并采集相關數據保存到本地集群存儲中。在經過大量監測任務的實踐后,筆者發現相對老化的采集識別技術明顯存在著很多問題,導致視聽網站的識別率較低,采集的可用數據率較差,主要問題如下:
由于現在網站技術的多元化,特別是非持證網站,網頁上存在大量欺騙性代碼,不僅能欺騙搜索引擎,使搜索引擎產生誤判,也會欺騙Web crawler,導致網站的誤識別,ICP備案號的獲取錯誤或無法獲取。對監測工作的影響主要體現在如果不定時對數據庫進行清理,那么數據庫的容量將會被無效數據無限占用,數據庫一直處于高利用率的運行狀態。系統占用的計算資源被無限增加,不僅加大了對系統運維的難度,也使得系統的監測效率低下。
因采集的可用數據率較差,在數據采集和分析過程中,消耗了大量的計算、存儲、網絡和數據庫資源,導致系統在運行時反應較慢、監測任務效率低下等,在日常的監測工作中,這給監測業務部門和運行維護部門帶來了較大的工作壓力。
基于以上問題,筆者迫切地需要探索出一套優化的監測系統網站數據庫構建模式,并尋求如何更加有效、準確地獲取視聽網站信息,以及如何設計和完善一套行之有效的自動巡檢監測機制。Web crawler的工作原理圖如圖1所示。

圖1 Web crawler工作原理圖
本技術方案旨在實現準確、有效地獲取視聽網站信息,優化本地視聽網站數據庫的構建模式和完善視聽網站巡檢機制。根據新的視聽網站數據庫構建模式,對巡檢監測機制進行重新設計和完善,并依據日常監測任務,嘗試創建重點視聽網站巡檢列表,對數據庫中的重點網站信息進行定期的智能巡檢,實現對網站類型的判定監測,網站視聽頁面的標題、視聽節目內容、文字簡介信息采集監測,網站失效性判定監測和網絡視聽節目內容監測等。
根據日常監測任務和監測數據,整理出一份重點監測對象和數據清單,以此創建一套固有模式的巡檢信息庫,對重點網站和重要數據進行定向、定期的巡檢監測。當每輪巡檢結束后,對巡檢信息庫和系統數據庫進行同步數據更新。利用有限的資源,完成采集日常絕大部分監測任務的數據,重點監測任務和臨時監測任務則通過其他系統模塊進行臨時性的調整應對,在日常工作時,不再過多占用系統資源[2]。在理論上,通過以上方式,可有效地減少系統占用的計算、存儲、網絡和數據庫資源,并在當前系統的暫無大規模升級更新的計劃下,臨時解決監測數據采集數據不完整、網站識別率低、采集效率低、漏監等問題。
本方案主要采用的技術有端口掃描(Port scanning)技術、網絡信息采集技術、視聽數據判定技術、數據庫技術等。
根據統計日常監測任務的類型和監測對象,重點監測網站主要分為兩類:一類是持有互聯網視聽節目服務許可證(AVSP)的網站(官方媒體網站),一類是國內互聯網頭部企業在四川省分支機構的網站(社會媒體網站)。官方媒體網站一般為電視臺、出版社、廣播電視網絡公司或政府機構的官網,該類型網站的主要職能是權威發布有關黨政機構的官方信息、熱門話題、熱點新聞的視頻節目等。社會媒體網站一般為互聯網企業開辦的視聽類服務網站,該類型網站的主要職能是轉載或發布熱點新聞、娛樂類的視頻節目。
通過整理和歸納,將網站信息同時寫入Web crawler程序和數據庫。將原有Web crawler程序的70%修改為定向Web crawler和深層Web crawler,定制化地采集指定網站、指定網頁和多層級網頁的數據;空余30%的通用Web crawler用于采集通用網頁的數據。利用1個月的時間,對反復采集的網頁數據進行無效性篩查、核驗,比對采集信息的一致性,并進行必要的修正,逐步完成網站數據庫的構建和完善巡檢監測清單(見圖2)。

圖2 重點監測網站發現流程圖
根據日常監測任務,對現有系統中的事件、人物、單位等關鍵詞庫進行重新歸納和整理,利用自動化渲染、特征提取等現有技術,將各類關鍵詞與事件、人物等進行關聯性連接。其中自動化渲染技術是采用服務器渲染完成對視聽網站的訪問動作,通過標簽化數據,達到快速訪問海量本地數據庫數據的目的;特征提取技術是將網站中包含視頻鏈接特征、視頻播放器特征、視頻圖像特征、視頻文本特征中的一種或多種特征加以標記,以實現視聽網站的判別和分類,最終形成本地視聽網站數據庫(見圖3)。

圖3 視聽網站數據庫構建圖
智能巡檢監測主要由判斷網站是否失效、網頁是否更新、視聽節目鏈接是否自動下載、視聽節目鏈接中的文本內容是否自動保存等系統行為組成。
利用視聽網站數據庫,定期對數據庫中的網站進行數據采集,若返回值為空值(null),則可判斷網站已失效或已過期;對網站進行采集時,發現網頁特性值發生變化時,即可認為是網站對網頁進行了更新,并將更新的鏈接自動寫入數據庫,記錄更新網頁數量;對涉嫌違反《互聯網視聽節目服務管理規定》相關要求的視聽節目,提取并下載該網頁的文本描述和視頻文件,通過特征提取技術,寫入數據庫。通過時間積累的數據和定期對Web crawler系統的更新維護,系統在反復循環此流程后,即可形成對視聽網站的精確智能巡檢監測。
因新媒體監測業務不能中斷,目前對系統只能進行補丁式的修改和技術探索分析。Web crawler是較為通用的一種網絡技術,利用空閑的服務器資源,即可搭建完成,并對原有Web crawler服務器的替換,在替換過程中,對業務不會產生影響[3]。
利用云平臺系統臨時劃分出兩臺虛擬機,針對四川省某新聞網站開展定向Web crawler和深層Web crawler系統的測試。通過對近一周的采集數據進行跟蹤和對比,筆者發現對特定網站的名稱、域名、鏈接、ICP備案號、AVSP證書號、文本等關鍵信息采集數據的準確性和采集率明顯提高。測試前,通用Web crawler在3月22日至24日對持證網站的有效信息采集率為89.7%、91.5%和91.3%(見表1)。測試時,定向Web crawler、深層Web crawler在4月8日至10日對指定網站的有效信息采集率達到了97.2%、95.8%和96.3%(見表2),對網站有效信息的采集率上平均提升了5.6%。通用Web crawler采用通用模板,一般網頁最多只能采集3層的網頁鏈接,而定向Web crawler、深層Web crawler采用定制化的網站模板后,能采集最高達7層的網頁鏈接(見表3)。

表1 通用Web crawler有效信息采集情況表

表2 定向Web crawler、深層Web crawler有效信息采集情況表

表3 定向Web crawler、深層Web crawler采用定制化網站模板后有效信息采集情況表
若以測試數據為基礎,優化視聽網站數據庫的構建和智能巡檢監測技術,系統不僅會更加智能化,更能提高網絡視聽節目的監測監管效率。
近年來,隨著互聯網各種視聽類業態的爆發式增長,視聽節目也呈現出多元化的業務形態,主管部門對網絡視聽行業傳播內容的監管要求也越來越明確,各系統的建設廠家對技術的敏感度很高,但對業務的敏感度相對會滯后。隨著各項網絡新媒體類的規章制度的發展和完善,監測部門在不斷探索監測業務的同時,更需了解和掌握互聯網前沿技術,在業務和技術上深入思考,將互聯網技術逐步轉變為實用性監測技術和監測手段,提升監測人員的監測能力,提高業務的智能化水平,為主管部門做好數據服務工作提供保障。