999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯的敏感信息識別方法研究

2021-07-16 06:45:24陸向艷蘇崇劉峻
關(guān)鍵詞:文本實驗信息

◆陸向艷 蘇崇 劉峻

(1.廣西大學(xué)計算機與電子信息學(xué)院 廣西 530004;2.廣西師范大學(xué)廣西多源信息挖掘與安全重點實驗室 廣西 54100)

互聯(lián)網(wǎng)經(jīng)過20 多年的發(fā)展,已經(jīng)深入滲透到社會生產(chǎn)、生活和學(xué)習(xí)等領(lǐng)域的各個方面,互聯(lián)網(wǎng)各種平臺上每天產(chǎn)生大量的文本信息,其中有些信息不加以辨別和控制會對政治、經(jīng)濟和道德等領(lǐng)域造成損害或影響。這些信息主要包括政治敏感信息、恐怖信息、色情信息、侮辱謾罵信息、惡意廣告信息等[1],被統(tǒng)稱為敏感信息。如果不及時識別和處理這些敏感信息,互聯(lián)網(wǎng)環(huán)境將不斷地遭受破壞,給社會穩(wěn)定、安全和文明等方面造成不利影響,識別并過濾敏感信息成為當(dāng)前凈化網(wǎng)絡(luò)環(huán)境的重要手段。由于互聯(lián)網(wǎng)信息量巨大,當(dāng)前主要采取自動化方法來識別敏感信息。自動識別敏感信息方法主要為基于機器學(xué)習(xí)的分類方法,當(dāng)前研究主要有基于SVM、決策樹、K 近鄰等[2-5]方法,本文提出一種基于樸素貝葉斯的敏感信息識別方法,旨在為敏感信息識別提供方法參考。

2 基于樸素貝葉斯的敏感信息識別方法

2.1 方法模型

基于樸素貝葉斯的敏感信息識別方法包括敏感信息標(biāo)記、文本分詞、樸素貝葉敏感詞訓(xùn)練、樸素貝葉斯敏感信息分類4 個步驟,方法模型如圖1 所示。

圖1 模型圖

2.2 敏感信息標(biāo)記

用爬蟲軟件收集文本數(shù)據(jù)集,取其中一部分進行文本敏感屬性標(biāo)記,將包含和不包含敏感信息的文本分開存放。將敏感數(shù)據(jù)集分成涉黃、涉政、涉恐、廣告、謾罵五個類別進行分類標(biāo)記。

2.3 文本分詞

用Word 分詞器的最大Ngram 分值算法對文本數(shù)據(jù)集進行分詞、去除停用詞后,將敏感信息與非敏感信息的分詞分開保存。

2.4 樸素貝葉敏感詞訓(xùn)練

對于訓(xùn)練集文本的每一個分詞,首先進行詞頻統(tǒng)計并計算分詞先驗概率,然后查看敏感詞庫是否已記錄該分詞,是則修正該詞語的概率,否則寫入敏感詞庫。敏感詞庫最后保留詞頻排序在前15%的詞匯。樸素貝葉敏感詞訓(xùn)練過程如圖2 所示。

圖2 訓(xùn)練過程

3 實驗和結(jié)果分析

實驗收集涉黃、涉政、涉恐、廣告、謾罵五個類別文本數(shù)據(jù)各500 個,每個類別分別取100 個文本進行標(biāo)記,300 個文本進行訓(xùn)練,100 個文本進行測試,驗證本文提出的基于樸素貝葉斯的敏感信息方法的有效性,實驗結(jié)果如表1 所示。

表1 實驗結(jié)果

對于實驗的五個類別數(shù)據(jù),算法正確檢出率都在87%以上,其中涉恐、涉黃和廣告文本正確檢出率在90%以上,相對較高,涉黃和謾罵文本正確檢出率相對較低,原因主要是因為樸素貝葉斯在計算各分詞概率時獨立計算,而涉黃和謾罵文本相對涉政、涉恐和廣告文本這三類文本其詞匯的上下文關(guān)聯(lián)更強。

4 結(jié)束語

識別網(wǎng)絡(luò)敏感信息,對凈化網(wǎng)絡(luò)環(huán)境具有重要意義。本文提出一種基于樸素貝葉斯的敏感信息識別方法。實驗結(jié)果表明本文方法能有效識別敏感文本信息。

猜你喜歡
文本實驗信息
記一次有趣的實驗
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲精品福利网站| 精品国产一区二区三区在线观看| 成年人福利视频| 91福利在线观看视频| 鲁鲁鲁爽爽爽在线视频观看| 日韩中文无码av超清| 精品久久久无码专区中文字幕| 久久青草精品一区二区三区| 精品人妻一区无码视频| 2022国产91精品久久久久久| 国产91精品最新在线播放| 亚洲欧洲国产成人综合不卡| 国产成人精品一区二区三在线观看| 国产精品精品视频| 熟女成人国产精品视频| 国产在线精品99一区不卡| 亚洲天堂成人| 最新国产成人剧情在线播放| 久久久久人妻一区精品| 伊在人亚洲香蕉精品播放| 一本色道久久88亚洲综合| 91欧美亚洲国产五月天| 国产精品视频久| 2021亚洲精品不卡a| 精品超清无码视频在线观看| 特级欧美视频aaaaaa| 欧美福利在线观看| 国产精品视频a| 国产欧美在线| 亚洲无码在线午夜电影| 91精品国产自产91精品资源| 99re热精品视频中文字幕不卡| 国产综合无码一区二区色蜜蜜| 国产清纯在线一区二区WWW| 久久精品女人天堂aaa| 好吊日免费视频| 欧美高清视频一区二区三区| 国产成人夜色91| 亚洲成a人片7777| 91啦中文字幕| 亚洲av片在线免费观看| 久久久久无码国产精品不卡| 蝴蝶伊人久久中文娱乐网| 天堂中文在线资源| 国产成人区在线观看视频| 亚洲资源在线视频| 9999在线视频| 欧美精品一区二区三区中文字幕| 91系列在线观看| 亚洲AV色香蕉一区二区| 精品超清无码视频在线观看| 亚洲愉拍一区二区精品| 免费a在线观看播放| 亚洲一道AV无码午夜福利| 国产在线观看高清不卡| 免费黄色国产视频| av天堂最新版在线| 久久91精品牛牛| 中文字幕无码电影| 任我操在线视频| 国产欧美日韩va另类在线播放| 久久亚洲高清国产| 老司机精品一区在线视频| 在线播放真实国产乱子伦| 久久永久视频| 另类专区亚洲| 中文字幕1区2区| 日韩成人在线一区二区| 国产区91| 国产精品嫩草影院av| 欧美成人免费| 精品久久久久成人码免费动漫| 国国产a国产片免费麻豆| 国产乱人免费视频| 日日噜噜夜夜狠狠视频| 欧美国产日韩在线| 国产乱视频网站| 无码福利日韩神码福利片| 欧美日韩午夜| 久操中文在线| 99久久精品免费看国产电影| 亚洲中文无码av永久伊人|