999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統(tǒng)一DPI實(shí)現(xiàn)大型數(shù)據(jù)中心網(wǎng)內(nèi)不良內(nèi)容信息監(jiān)測應(yīng)用的研究

2021-07-26 01:19:32張浩男包健張朝熙衛(wèi)宇航
關(guān)鍵詞:內(nèi)容信息系統(tǒng)

◆張浩男 包健 張朝熙 衛(wèi)宇航

(中國移動通信集團(tuán)內(nèi)蒙古有限公司 內(nèi)蒙古 010021)

1 引言

當(dāng)前,不良內(nèi)容信息泛濫已成為互聯(lián)網(wǎng)生態(tài)治理難題。社會聚焦、監(jiān)管行動也使得內(nèi)容安全成為電信運(yùn)營商的重點(diǎn)關(guān)注問題。為了營造良好網(wǎng)絡(luò)生態(tài),構(gòu)建天朗氣清的網(wǎng)絡(luò)空間,國家互聯(lián)網(wǎng)信息辦公室發(fā)布的《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》于2020年3月1日起正式施行。《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》以網(wǎng)絡(luò)信息內(nèi)容為主要治理對象,以建立健全網(wǎng)絡(luò)綜合治理體系、營造清朗的網(wǎng)絡(luò)空間、建設(shè)良好的網(wǎng)絡(luò)生態(tài)為目標(biāo),突出了企業(yè)參與網(wǎng)絡(luò)生態(tài)治理的主觀能動性。

隨著中國移動呼和浩特?cái)?shù)據(jù)中心業(yè)務(wù)的迅速發(fā)展,IDC 業(yè)務(wù)、云業(yè)務(wù)呈現(xiàn)爆發(fā)式增長趨勢。由于IDC 業(yè)務(wù)、云業(yè)務(wù)的企業(yè)客戶涉及各行各業(yè),在入網(wǎng)業(yè)務(wù)審核環(huán)節(jié)很難發(fā)現(xiàn)其未來搭建的業(yè)務(wù)是否包含不良內(nèi)容信息。而且數(shù)據(jù)中心網(wǎng)內(nèi)的互聯(lián)網(wǎng)網(wǎng)站、文本、圖片、視頻不計(jì)其數(shù),對暴恐和色情等不良內(nèi)容信息的排查和審核給電信運(yùn)營商帶來巨大挑戰(zhàn)。即使全部由人工審核,在時(shí)效性和準(zhǔn)確性上仍無法達(dá)到理想效果。

為了主動及時(shí)發(fā)現(xiàn)數(shù)據(jù)中心網(wǎng)內(nèi)出現(xiàn)的不良內(nèi)容信息,通過統(tǒng)一DPI 系統(tǒng),結(jié)合不良內(nèi)容審核引擎和人工審核服務(wù),對數(shù)據(jù)中心網(wǎng)內(nèi)對外提供訪問網(wǎng)站的文字、圖片、視頻進(jìn)行研判審核,對發(fā)現(xiàn)的不良內(nèi)容信息的URL、域名、IP 等進(jìn)行關(guān)停處置,防止不良內(nèi)容信息的傳播,實(shí)現(xiàn)對數(shù)據(jù)中心網(wǎng)內(nèi)可能在互聯(lián)網(wǎng)上傳播不良內(nèi)容信息等各類危害性不良信息的行為進(jìn)行即時(shí)有效的管控。

2 數(shù)據(jù)中心網(wǎng)絡(luò)系統(tǒng)現(xiàn)狀

目前中國移動呼和浩特?cái)?shù)據(jù)中心出口建設(shè)有一套統(tǒng)一DPI 系統(tǒng),實(shí)現(xiàn)對數(shù)據(jù)中心互聯(lián)網(wǎng)的網(wǎng)絡(luò)流量進(jìn)行雙向全量的監(jiān)測。通過統(tǒng)一DPI 系統(tǒng),可對網(wǎng)絡(luò)中http 協(xié)議流量的文字、圖片、視頻實(shí)現(xiàn)部分還原,進(jìn)行本地留存。

為了快速監(jiān)測數(shù)據(jù)中心網(wǎng)內(nèi)的淫穢色情、暴恐等不良內(nèi)容信息,通過與數(shù)據(jù)中心統(tǒng)一DPI 系統(tǒng)進(jìn)行對接獲取文字、圖片、視頻等內(nèi)容,進(jìn)行準(zhǔn)實(shí)時(shí)的不良內(nèi)容信息研判;同時(shí)為了彌補(bǔ)統(tǒng)一DPI 還原缺失的數(shù)據(jù),通過獲取DPI 系統(tǒng)捕捉的用戶上網(wǎng)的五元組信息(IP地址,源端口,目的IP 地址,目的端口和傳輸層協(xié)議),進(jìn)行篩選去重,再使用分布式網(wǎng)絡(luò)爬蟲對上網(wǎng)日志中的URL 內(nèi)容進(jìn)行爬取,對爬取的文字、圖片、視頻進(jìn)行準(zhǔn)實(shí)時(shí)的研判審核。

3 不良內(nèi)容信息監(jiān)測實(shí)現(xiàn)

3.1 業(yè)務(wù)邏輯架構(gòu)

不良內(nèi)容信息監(jiān)測系統(tǒng)通過與統(tǒng)一DPI 系統(tǒng)對接,獲取文本、圖片、視頻等內(nèi)容,同時(shí)通過爬蟲集群采集IDC/ISP 上網(wǎng)日志提取URL 的進(jìn)行內(nèi)容爬取,對獲取的文本、圖片、視頻進(jìn)行不良內(nèi)容信息研判,對系統(tǒng)自動研判產(chǎn)生的疑似不良內(nèi)容URL 進(jìn)行二次人工審核,對確認(rèn)的不良違規(guī)URL 及時(shí)通知數(shù)據(jù)中心運(yùn)維值班人員進(jìn)行處置。

3.2 技術(shù)邏輯架構(gòu)

不良內(nèi)容信息監(jiān)控系統(tǒng)在技術(shù)架構(gòu)主要分為5 層。

(1)第一層為資源層,主要為監(jiān)測資源的類型,該資源是統(tǒng)一DPI 還原文件和上網(wǎng)日志XDR 話單。

圖1 不良信息監(jiān)測示意圖

(2)第二層是采集層,主要是依托分布式爬蟲作為采集工具,對日志進(jìn)行圖片、文本、視頻的下載還原。

(3)第三層是數(shù)據(jù)清洗預(yù)處理層,主要對數(shù)據(jù)進(jìn)行過濾、去重、清洗、比對等操作。

(4)第四層是不良內(nèi)容識別模型層,主要使用AI 智能識別模型和機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)不良內(nèi)容信息的研判。

(5)第五層是UI 展現(xiàn)層,提供人工審核、日常管理和審核結(jié)果呈現(xiàn)等功能。

3.3 分布式爬蟲

根據(jù)現(xiàn)網(wǎng)測算,每天約有65 億條上網(wǎng)日志,按80%的比例去重,去重后的日志約13 億條,平均每秒需爬取1.51 萬條URL,需要使用分布式的爬蟲架構(gòu)才能滿足如此量級的爬蟲規(guī)模。通過對爬蟲相關(guān)資源的配置,包括爬取源信息,列表解析規(guī)則,詳情解析規(guī)則,爬蟲信息配置,爬取任務(wù)管理,各種爬取資源池的管理,保存到Mysql 數(shù)據(jù)庫中;

(1)調(diào)度程序從Mysql 數(shù)據(jù)庫中讀取需要執(zhí)行的爬蟲任務(wù),發(fā)送到Kafka 系統(tǒng)中,存放到待爬取列表隊(duì)列中;

(2)爬蟲監(jiān)聽Kafka 相應(yīng)的消息隊(duì)列,從中拿出待爬取的任務(wù),準(zhǔn)備執(zhí)行;

(3)爬取前,從Kafka 任務(wù)對象中解析出任務(wù)的相關(guān)配置并存放到Redis 緩存中,從Redis 集群中判斷待執(zhí)行的任務(wù)是否已經(jīng)被爬取(即是否已經(jīng)存在),如果存在則跳過此任務(wù),不存在就繼續(xù)執(zhí)行;

(4)爬蟲程序通過任務(wù)類別字段判斷任務(wù)的類型,從Redis 中獲取任務(wù)的相關(guān)配置,如各種規(guī)則,爬取頻率,任務(wù)需要用到的爬蟲插件等;

(5)爬蟲執(zhí)行列表爬取任務(wù),將爬取列表頁解析出來的明細(xì)URL發(fā)送到Kafka集群待爬取隊(duì)列中;并將已經(jīng)完成爬取的列表URL存儲到Redis 集群已完成任務(wù)集合中;

(6)爬蟲執(zhí)行明細(xì)爬取任務(wù),根據(jù)任務(wù)ID 從Redis 中獲取任務(wù)爬取解析的規(guī)則、需要用到的增強(qiáng)插件配置等,開始執(zhí)行任務(wù)的爬取工作。拿到爬取的結(jié)果后將爬取的內(nèi)容發(fā)送給內(nèi)容解析模塊,內(nèi)容解析模塊根據(jù)設(shè)定的解析規(guī)則,將解析出的數(shù)據(jù)由Flume 進(jìn)行收集發(fā)送給數(shù)據(jù)歸集模塊,由數(shù)據(jù)歸集模塊進(jìn)行數(shù)據(jù)的入庫;

(7)根據(jù)任務(wù)的參數(shù)配置,入庫可以將文件入庫到Hadoop 集群中,也可以對文件進(jìn)行分詞等分析處理后入庫到ES 集群中;

(8)集中配置模塊通過Zookeeper 來實(shí)現(xiàn)爬蟲的集中管理,所有爬蟲啟動時(shí)在ZK 上進(jìn)行注冊,基于ZK 的特性,有配置需要進(jìn)行下發(fā)的時(shí)候,ZK 會通知爬蟲進(jìn)行實(shí)時(shí)更新生效,可以監(jiān)控爬蟲程序的運(yùn)行及采集狀況。當(dāng)采集程序異常中止或由于其他原因無法處理待采集的任務(wù)時(shí),ZK 能夠自動探測,探測后可以通過其他的技術(shù)手段嘗試重啟爬蟲、將爬蟲的任務(wù)分發(fā)寫回采集隊(duì)列或進(jìn)行系統(tǒng)警告。

(9)通過Zabbix 來實(shí)現(xiàn)爬蟲集群服務(wù)器的監(jiān)控;

(10)通過Flume 收集爬蟲集群中的關(guān)鍵日志,實(shí)現(xiàn)對集群業(yè)務(wù)的監(jiān)控。

3.4 智能識別模型

不良內(nèi)容信息分類一般分為涉黃、涉政、涉爆、涉恐等多種類型。不良內(nèi)容信息監(jiān)測系統(tǒng)以AI 技術(shù)為核心,在畫面、圖片和文字層面進(jìn)行綜合型識別,通過人臉庫、敏感詞庫、敏感圖像視頻庫以及不良畫面模型,結(jié)合人工審核流程,組成不良內(nèi)容信息監(jiān)測系統(tǒng)。

3.5 人工審核

由于互聯(lián)網(wǎng)文化的多樣性和開發(fā)性,系統(tǒng)自動研判的疑似結(jié)果需要進(jìn)行人工審核作為最終的不良判定依據(jù)。人工審核采用初審、復(fù)審二次審核管理方式。

(1)疑似不良內(nèi)容信息初審。平臺發(fā)布待審信息內(nèi)容后,系統(tǒng)根據(jù)特征庫對其進(jìn)行違規(guī)類型標(biāo)識。內(nèi)容審核人員根據(jù)相關(guān)文件內(nèi)容和各類輿情通知,對待審信息內(nèi)容進(jìn)行人工審核,將違禁內(nèi)容予以刪除,反之予以通過;

(2)疑似不良內(nèi)容信息復(fù)審。內(nèi)容復(fù)審人員會對已審核處理后的內(nèi)容進(jìn)行質(zhì)量審核、跟蹤,將誤通過的信息內(nèi)容予以刪除,將誤刪除的信息內(nèi)容予以通過;

(3)對于人工審核確認(rèn)為不良違規(guī)的URL,實(shí)時(shí)下發(fā)工單給數(shù)據(jù)中心運(yùn)維值班人員進(jìn)行處理,運(yùn)維人員收到工單后會聯(lián)系客戶進(jìn)行處置,同時(shí)對相應(yīng)的URL 的進(jìn)行封堵。對于多次違規(guī)的域名進(jìn)行封堵,相應(yīng)IP 收回。

(4)同時(shí)為了驗(yàn)證不良違規(guī)URL 處置的有效性,數(shù)據(jù)中心運(yùn)維值班人員會定期對已處置的不良違規(guī)URL 進(jìn)行撥測驗(yàn)證,確保違規(guī)不良URL 的成功處置。業(yè)務(wù)流程如下:

①內(nèi)容撥測人員發(fā)現(xiàn)不良內(nèi)容信息并通知信息安全專員;

②信息安全專員轉(zhuǎn)發(fā)不良內(nèi)容信息給客戶經(jīng)理和業(yè)務(wù)維護(hù)人員并明確清理時(shí)間;

③業(yè)務(wù)維護(hù)人員在要求時(shí)間內(nèi)驗(yàn)證不良內(nèi)容信息并進(jìn)行清理,驗(yàn)證清理結(jié)果后將清理結(jié)果反饋值班人員;

④值班人員判斷不良內(nèi)容信息是否在要求時(shí)間內(nèi)完成清理并備案;

⑤內(nèi)容撥測人員定期撥測驗(yàn)證是否成功有效清理。

4 總結(jié)與展望

不良內(nèi)容信息監(jiān)測系統(tǒng)于2018年開始運(yùn)行,其是基于統(tǒng)一DPI文件還原和上網(wǎng)日志爬蟲方式對數(shù)據(jù)中心網(wǎng)內(nèi)不良內(nèi)容信息進(jìn)行監(jiān)測。到目前為止,不良內(nèi)容信息監(jiān)測系統(tǒng)平均每天監(jiān)測統(tǒng)一DPI 還原的文件240G 文本、2479G 張圖片、796G 視頻,通過上網(wǎng)日志平均每天爬取994 個(gè)URL,平均每天識別出疑似違規(guī)1.9 條文本、10張圖片、0.9 個(gè)視頻,關(guān)聯(lián)疑似URL 21 條;人工審核發(fā)現(xiàn)真實(shí)違規(guī)文本1 條、違規(guī)圖片10 條、違規(guī)視頻1 個(gè),關(guān)聯(lián)的違規(guī)URL 20 條。

從2018年開始實(shí)施不良信息監(jiān)測,截止至2020年12月,日均封堵約15 條不良信息,均為IDC 客戶產(chǎn)生,無自有系統(tǒng)不良信息安全事件,有效保障數(shù)據(jù)中心IDC 機(jī)房的信息安全管控能力,杜絕各類不良及有害信息傳播。后續(xù)可考慮將該能力包裝成服務(wù),向互聯(lián)網(wǎng)客戶輸出,在打擊違法犯罪、維護(hù)網(wǎng)絡(luò)環(huán)境同時(shí),也為公司創(chuàng)造收入和利潤。

猜你喜歡
內(nèi)容信息系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
內(nèi)容回顧溫故知新
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
主要內(nèi)容
臺聲(2016年2期)2016-09-16 01:06:53
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 国产成人av一区二区三区| 成年人免费国产视频| 看你懂的巨臀中文字幕一区二区 | 国产欧美日韩另类精彩视频| 久久福利片| 亚洲一级无毛片无码在线免费视频| 国产在线一二三区| 久久久无码人妻精品无码| 日韩无码真实干出血视频| 日韩色图区| 欧美va亚洲va香蕉在线| 国产精品香蕉在线| 精品91自产拍在线| 一级做a爰片久久免费| 青青久视频| 专干老肥熟女视频网站| 欧美午夜在线播放| 日本精品αv中文字幕| 亚洲中文字幕av无码区| 91精品亚洲| 黑色丝袜高跟国产在线91| 国产福利影院在线观看| 免费国产好深啊好涨好硬视频| 色综合中文综合网| 国产特一级毛片| 久久久久久久97| 伊人久久大香线蕉影院| 国产一级毛片yw| 亚洲人成网站在线观看播放不卡| 成人国产精品网站在线看| 综合网久久| 亚洲第一区精品日韩在线播放| 国产91视频免费| 熟妇丰满人妻av无码区| 91精品久久久久久无码人妻| 亚洲AV一二三区无码AV蜜桃| 色妞永久免费视频| 亚洲日本在线免费观看| 黄片一区二区三区| 国产成人1024精品| 成人综合在线观看| 国产v精品成人免费视频71pao| 一本无码在线观看| 亚洲第一中文字幕| 天天综合网色| JIZZ亚洲国产| 国产在线观看高清不卡| 国产成人8x视频一区二区| 午夜影院a级片| 国产精品亚洲专区一区| 欧美日韩中文国产| 国产成人免费视频精品一区二区 | 波多野结衣亚洲一区| 色综合久久久久8天国| 国产成人综合亚洲欧美在| 日本爱爱精品一区二区| 蜜臀AVWWW国产天堂| 国产精品漂亮美女在线观看| 成人免费一级片| 精品丝袜美腿国产一区| 在线观看av永久| 乱人伦99久久| 国产欧美精品午夜在线播放| 欧美激情一区二区三区成人| 亚洲精品老司机| 欧美精品一区在线看| 国产精品嫩草影院av| 亚洲无码视频喷水| 免费观看成人久久网免费观看| 国产拍在线| 四虎国产在线观看| 国产网站免费| 六月婷婷精品视频在线观看| 国产xx在线观看| 亚洲国产成人久久精品软件| 欧美国产日韩在线| 亚洲日韩第九十九页| 四虎AV麻豆| 国产麻豆精品久久一二三| 欧美a√在线| 一区二区在线视频免费观看| 国产大片喷水在线在线视频|