999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡新媒體視聽監測數據庫構架模式及巡檢監測的探析

2022-04-22 10:56:48
西部廣播電視 2022年3期
關鍵詞:數據庫信息系統

李 敏

(作者單位:四川廣播電視監測中心)

1 互聯網視聽網站監測系統采集識別技術存在的問題

隨著廣播電視融媒體的迅速發展,對網絡視聽持證機構和視聽類網站的監測也越來越受到相關部門尤其是宣傳管理部門的重視,視聽類網站承擔了越來越多重要時段的宣傳任務[1]。但現有監測系統的網站采集技術,仍是基于通用網絡信息采集技術(Web crawler),通過解析網頁源代碼或網頁關鍵詞來判斷網站是否為視聽類網站,并采集相關數據保存到本地集群存儲中。在經過大量監測任務的實踐后,筆者發現相對老化的采集識別技術明顯存在著很多問題,導致視聽網站的識別率較低,采集的可用數據率較差,主要問題如下:

1.1 視聽類網站識別率較低

由于現在網站技術的多元化,特別是非持證網站,網頁上存在大量欺騙性代碼,不僅能欺騙搜索引擎,使搜索引擎產生誤判,也會欺騙Web crawler,導致網站的誤識別,ICP備案號的獲取錯誤或無法獲取。對監測工作的影響主要體現在如果不定時對數據庫進行清理,那么數據庫的容量將會被無效數據無限占用,數據庫一直處于高利用率的運行狀態。系統占用的計算資源被無限增加,不僅加大了對系統運維的難度,也使得系統的監測效率低下。

1.2 消耗資源巨大

因采集的可用數據率較差,在數據采集和分析過程中,消耗了大量的計算、存儲、網絡和數據庫資源,導致系統在運行時反應較慢、監測任務效率低下等,在日常的監測工作中,這給監測業務部門和運行維護部門帶來了較大的工作壓力。

基于以上問題,筆者迫切地需要探索出一套優化的監測系統網站數據庫構建模式,并尋求如何更加有效、準確地獲取視聽網站信息,以及如何設計和完善一套行之有效的自動巡檢監測機制。Web crawler的工作原理圖如圖1所示。

圖1 Web crawler工作原理圖

2 總體思路

本技術方案旨在實現準確、有效地獲取視聽網站信息,優化本地視聽網站數據庫的構建模式和完善視聽網站巡檢機制。根據新的視聽網站數據庫構建模式,對巡檢監測機制進行重新設計和完善,并依據日常監測任務,嘗試創建重點視聽網站巡檢列表,對數據庫中的重點網站信息進行定期的智能巡檢,實現對網站類型的判定監測,網站視聽頁面的標題、視聽節目內容、文字簡介信息采集監測,網站失效性判定監測和網絡視聽節目內容監測等。

根據日常監測任務和監測數據,整理出一份重點監測對象和數據清單,以此創建一套固有模式的巡檢信息庫,對重點網站和重要數據進行定向、定期的巡檢監測。當每輪巡檢結束后,對巡檢信息庫和系統數據庫進行同步數據更新。利用有限的資源,完成采集日常絕大部分監測任務的數據,重點監測任務和臨時監測任務則通過其他系統模塊進行臨時性的調整應對,在日常工作時,不再過多占用系統資源[2]。在理論上,通過以上方式,可有效地減少系統占用的計算、存儲、網絡和數據庫資源,并在當前系統的暫無大規模升級更新的計劃下,臨時解決監測數據采集數據不完整、網站識別率低、采集效率低、漏監等問題。

3 方案設計

本方案主要采用的技術有端口掃描(Port scanning)技術、網絡信息采集技術、視聽數據判定技術、數據庫技術等。

3.1 重點監測網站

根據統計日常監測任務的類型和監測對象,重點監測網站主要分為兩類:一類是持有互聯網視聽節目服務許可證(AVSP)的網站(官方媒體網站),一類是國內互聯網頭部企業在四川省分支機構的網站(社會媒體網站)。官方媒體網站一般為電視臺、出版社、廣播電視網絡公司或政府機構的官網,該類型網站的主要職能是權威發布有關黨政機構的官方信息、熱門話題、熱點新聞的視頻節目等。社會媒體網站一般為互聯網企業開辦的視聽類服務網站,該類型網站的主要職能是轉載或發布熱點新聞、娛樂類的視頻節目。

通過整理和歸納,將網站信息同時寫入Web crawler程序和數據庫。將原有Web crawler程序的70%修改為定向Web crawler和深層Web crawler,定制化地采集指定網站、指定網頁和多層級網頁的數據;空余30%的通用Web crawler用于采集通用網頁的數據。利用1個月的時間,對反復采集的網頁數據進行無效性篩查、核驗,比對采集信息的一致性,并進行必要的修正,逐步完成網站數據庫的構建和完善巡檢監測清單(見圖2)。

圖2 重點監測網站發現流程圖

3.2 視聽網站數據庫的構建

根據日常監測任務,對現有系統中的事件、人物、單位等關鍵詞庫進行重新歸納和整理,利用自動化渲染、特征提取等現有技術,將各類關鍵詞與事件、人物等進行關聯性連接。其中自動化渲染技術是采用服務器渲染完成對視聽網站的訪問動作,通過標簽化數據,達到快速訪問海量本地數據庫數據的目的;特征提取技術是將網站中包含視頻鏈接特征、視頻播放器特征、視頻圖像特征、視頻文本特征中的一種或多種特征加以標記,以實現視聽網站的判別和分類,最終形成本地視聽網站數據庫(見圖3)。

圖3 視聽網站數據庫構建圖

3.3 智能巡檢監測

智能巡檢監測主要由判斷網站是否失效、網頁是否更新、視聽節目鏈接是否自動下載、視聽節目鏈接中的文本內容是否自動保存等系統行為組成。

利用視聽網站數據庫,定期對數據庫中的網站進行數據采集,若返回值為空值(null),則可判斷網站已失效或已過期;對網站進行采集時,發現網頁特性值發生變化時,即可認為是網站對網頁進行了更新,并將更新的鏈接自動寫入數據庫,記錄更新網頁數量;對涉嫌違反《互聯網視聽節目服務管理規定》相關要求的視聽節目,提取并下載該網頁的文本描述和視頻文件,通過特征提取技術,寫入數據庫。通過時間積累的數據和定期對Web crawler系統的更新維護,系統在反復循環此流程后,即可形成對視聽網站的精確智能巡檢監測。

4 運行測試

因新媒體監測業務不能中斷,目前對系統只能進行補丁式的修改和技術探索分析。Web crawler是較為通用的一種網絡技術,利用空閑的服務器資源,即可搭建完成,并對原有Web crawler服務器的替換,在替換過程中,對業務不會產生影響[3]。

利用云平臺系統臨時劃分出兩臺虛擬機,針對四川省某新聞網站開展定向Web crawler和深層Web crawler系統的測試。通過對近一周的采集數據進行跟蹤和對比,筆者發現對特定網站的名稱、域名、鏈接、ICP備案號、AVSP證書號、文本等關鍵信息采集數據的準確性和采集率明顯提高。測試前,通用Web crawler在3月22日至24日對持證網站的有效信息采集率為89.7%、91.5%和91.3%(見表1)。測試時,定向Web crawler、深層Web crawler在4月8日至10日對指定網站的有效信息采集率達到了97.2%、95.8%和96.3%(見表2),對網站有效信息的采集率上平均提升了5.6%。通用Web crawler采用通用模板,一般網頁最多只能采集3層的網頁鏈接,而定向Web crawler、深層Web crawler采用定制化的網站模板后,能采集最高達7層的網頁鏈接(見表3)。

表1 通用Web crawler有效信息采集情況表

表2 定向Web crawler、深層Web crawler有效信息采集情況表

表3 定向Web crawler、深層Web crawler采用定制化網站模板后有效信息采集情況表

若以測試數據為基礎,優化視聽網站數據庫的構建和智能巡檢監測技術,系統不僅會更加智能化,更能提高網絡視聽節目的監測監管效率。

5 結語

近年來,隨著互聯網各種視聽類業態的爆發式增長,視聽節目也呈現出多元化的業務形態,主管部門對網絡視聽行業傳播內容的監管要求也越來越明確,各系統的建設廠家對技術的敏感度很高,但對業務的敏感度相對會滯后。隨著各項網絡新媒體類的規章制度的發展和完善,監測部門在不斷探索監測業務的同時,更需了解和掌握互聯網前沿技術,在業務和技術上深入思考,將互聯網技術逐步轉變為實用性監測技術和監測手段,提升監測人員的監測能力,提高業務的智能化水平,為主管部門做好數據服務工作提供保障。

猜你喜歡
數據庫信息系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 在线观看免费黄色网址| 一本无码在线观看| 人妻免费无码不卡视频| 亚洲欧洲日韩国产综合在线二区| 最新加勒比隔壁人妻| 九九九精品视频| 99国产精品一区二区| 亚洲欧美另类色图| 熟女日韩精品2区| 91亚洲影院| 国产精品不卡片视频免费观看| 亚洲第一在线播放| 亚洲热线99精品视频| 天堂久久久久久中文字幕| 精品国产网站| 国产真实乱子伦视频播放| 亚洲aaa视频| 亚洲中文字幕久久精品无码一区| 国产裸舞福利在线视频合集| 亚洲无码91视频| www精品久久| 国产精品亚洲欧美日韩久久| 日本福利视频网站| 国产SUV精品一区二区6| 日韩一区二区三免费高清| 97青草最新免费精品视频| 色综合激情网| 国产成人1024精品下载| 久热re国产手机在线观看| 亚洲永久视频| 秋霞国产在线| 中文字幕无码电影| 色吊丝av中文字幕| 国产精品人莉莉成在线播放| 日本精品视频| 五月婷婷精品| 99免费视频观看| 精品国产福利在线| 国产在线观看人成激情视频| 免费看黄片一区二区三区| 91精品免费高清在线| 欧美日韩免费| 麻豆国产精品一二三在线观看| 国产成人欧美| 国产一区二区精品高清在线观看| 99999久久久久久亚洲| 久久综合婷婷| 久久精品人人做人人爽| 婷婷亚洲视频| 国产日产欧美精品| 91精品国产一区自在线拍| 亚洲欧美一区在线| 一级毛片免费观看久| 国产成年女人特黄特色大片免费| 911亚洲精品| 国产色网站| 国产无码高清视频不卡| 99久久精品无码专区免费| 午夜视频在线观看免费网站 | 1769国产精品视频免费观看| 中文字幕在线欧美| 国产综合精品日本亚洲777| 婷婷色在线视频| 秋霞午夜国产精品成人片| 色妞www精品视频一级下载| 欧美午夜性视频| 天天色综网| 毛片基地视频| 欧美自慰一级看片免费| 四虎在线观看视频高清无码| 国产99精品久久| 精品国产Av电影无码久久久| 日本黄色a视频| 日韩国产高清无码| 日韩国产 在线| 国产va欧美va在线观看| 亚洲国模精品一区| 国产日韩欧美精品区性色| 国产主播在线观看| 亚洲一区精品视频在线| 影音先锋亚洲无码| 亚洲成aⅴ人在线观看|