999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)頁敏感詞過濾與敏感文本分類系統(tǒng)設計

2020-05-13 14:15:23李偉
電腦知識與技術 2020年8期
關鍵詞:網(wǎng)絡安全

摘要:該文以主動匹配并過濾網(wǎng)頁中的敏感詞語為目標,研究了文本中敏感詞的檢索與匹配方法,實現(xiàn)了對網(wǎng)頁文本中的敏感詞進行主動匹配與過濾處理的過程,設計了一種基于字典樹的網(wǎng)頁敏感詞匹配及過濾方法。并使用決策樹方法對含有敏感詞的網(wǎng)頁文本進行分類。

關鍵詞:網(wǎng)絡安全;文本處理;信息過濾;敏感詞;決策樹

中圖分類號:TP391.1文獻標識碼:A

文章編號:1009-3044(2020)08-0245-03

21世紀以來,隨著互聯(lián)網(wǎng)應用的普及以及應用的日益完善,通過論壇、即時通訊軟件以及電子郵件等方式傳播敏感信息的網(wǎng)絡安全事件發(fā)生頻繁,在一定程度上嚴重威脅了社會秩序的穩(wěn)定和人民群眾的正常生活。以合理的技術方式阻止不健康的網(wǎng)絡信息在互聯(lián)網(wǎng)絡上肆意傳播具有非常積極的意義。

本研究以網(wǎng)頁中的文本部分為主要的研究對象,結合對網(wǎng)頁中敏感信息的分類,利用自然語言處理對文本的數(shù)據(jù)挖掘,構建一種基于字典樹的網(wǎng)頁文本敏感詞查找及匹配的模型和算法,并采用決策樹的方法對匹配到的敏感文本實現(xiàn)敏感類型的劃分。

1 系統(tǒng)結構

本系統(tǒng)主要的處理流程如下:(1)初始化抽取到的網(wǎng)頁中的文本數(shù)據(jù);(2)查找特定文本中的敏感信息,并做適當處理;(3)構建向量模型表示敏感文本,并得到向量的特征值;(4)構建文本的數(shù)據(jù)集;(5)構建決策樹算法。(6)劃分文本的敏感類型。如圖1所示。

2 文本內(nèi)容的獲取與分析

敏感詞隱藏于文本中,要抽取敏感詞,首先要獲取網(wǎng)站頁面中的文本部分的內(nèi)容。這個過程就是利用數(shù)據(jù)挖掘的方式,從頁面中獲取研究者感興趣數(shù)據(jù)的過程。網(wǎng)頁上的信息沒有嚴格的格式而言,一般沒有結構或者屬于半結構化的數(shù)據(jù)。要在這種無結構化的信息中挖掘其中的文本信息,可以采用DOM遍歷的方式來實現(xiàn)。

利用HTML標簽的定義可以將標準HTML網(wǎng)頁解析為一個樹形結構,這個樹形結構成為DOM(文檔對象模型),采用遍歷算法,結合文本信息包含在特定HTML標簽中的這一特點,確定文本信息所位于的樹的節(jié)點,并返回這些節(jié)點上的數(shù)值,即網(wǎng)頁中的文本信息內(nèi)容。DOM文檔對象模型可以利用ISO和WC3制定的HTML標準把任何一個網(wǎng)頁轉變?yōu)橐豢脴湫徒Y構。將DOM樹的葉子節(jié)點上的內(nèi)容進行提取,再對樹進行剪枝處理掉不需要的部分,得到所關心的文本數(shù)據(jù)。BeautifulSoup作為對中文支持更好的網(wǎng)頁解析工具,在文本提取方面更加方便。

3 字典樹算法

字典樹又稱為TIRE樹,和哈希表相比,它的查詢效率更高,適用在由所有關鍵詞構成的字典匯中查找某些特定關鍵詞語。它的由根節(jié)點開始,通過每條有向邊分別向下一層節(jié)點匹配,最后匹配到底層的葉子結點終止。敏感詞字典樹型結構如圖2所示:

3.1 敏感詞匹配過濾的實現(xiàn)

敏感詞的匹配實際上要把所有的敏感詞構建成一顆敏感詞樹,并遍歷該樹形結構,查看是否有從根節(jié)點到葉子結點的有效路徑,其匹配過程分為建樹和查找兩個過程。

建樹過程:從根節(jié)點的第一層節(jié)點開始對比要插入的字符,判斷當前字符是否存在,若存在則指向該節(jié)點。如不存在則創(chuàng)建該字符節(jié)點,重復該過程。在遇到字符串末尾結束符時停止該過程,指定末端節(jié)點為最后一個非\0字符對應的節(jié)點。

查找過程:將要插入字符串的第一個字符循環(huán)取出,從根節(jié)點的第一層開始,查找當前字符是否已經(jīng)存在,若存在則繼續(xù)該過程,如不存在則返回False。其算法如下所示。

struct Node

Node* child[n]

bool flag;

INSERT(S,Sensitive)

node= Sensitive.root

for i=0 to S.size

c= S[i] -p'

ifnode.child[c]==NULL

node.child[c]_ new Node

node= node.child[c]

node.flag= true

FIND(S,‘rrie)

node= Trie.root

for i=0 to S.size

c=S[i]一7p 7

ifnode.child[c]==NULL

return false

node= node.child[c]

returnnode.flag

3.2 敏感詞預處理及匹配算法設計

網(wǎng)頁文本中的敏感信息過濾與匹配步驟如下:

定義敏感詞的類別、統(tǒng)計敏感詞的數(shù)量,,根據(jù)敏感信息的類別劃分并記錄,根據(jù)敏感類型設定每種敏感信息的權重。建立敏感詞字典樹,建立root節(jié)點,每顆子樹即為敏感詞庫中的每個敏感詞,利用文本分詞技術可以將文本中的句子分成若干詞語,用這些詞語與敏感詞字典樹進行匹配,判斷是否存在敏感信息。為了避免算法過于復雜,結合中文分詞工具的一般,規(guī)定每個敏感詞的漢字數(shù)目不超過5個,即構建的字典樹的深度小于等于5。

4 敏感文本分類過程

文本分類的過程就是根據(jù)文本的特征值將他們劃分到規(guī)定好的類別中。在敏感詞構成的文本分類中,要根據(jù)敏感詞類別出現(xiàn)的頻率和數(shù)量來決定敏感文本的類型。

4.1 文本的預處理

分類之前要建立訓練和測試用的語料庫,如果要對敏感文本進行分類,就要建立不同敏感類型的文本庫。建立這里的預處理指的是建立敏感文本語料庫,由網(wǎng)站工作人員將敏感頁面的文本部分提取出來,根據(jù)文本的敏感類型,放入不同的類型目錄。可以將這些文本作為文本訓練集,并且以隨機抽取的方法在這些文件中抽取一定規(guī)模的文本作為測試集。

4.2 中文分詞

計算機理解不了文本中的句子,因為一般來說,句子是無結構化的數(shù)據(jù)。如果句子經(jīng)過分詞之后能用若干個關鍵詞來表示句子的意義,那計算機就容易理解。詞匯是一種結構化的數(shù)據(jù)。經(jīng)過分詞操作后,文本可以以詞匯的方式簡化其意義,變成了一種結構化的數(shù)據(jù)。

4.3 建立向量空間模型(VSM)

如果文本可以表示為一個空間向量,那么在文本分類時,不同類型文本之間的類別歸屬就可以抽象為不同向量之間的夾角,以向量的形式表示文本數(shù)據(jù),對文本建立向量空間模型,可以將文本分類問題轉化為一個數(shù)學問題,可以減少處理實際問題的復雜程度。

文本構成的VSM中,一個文本d可以看作由構成該文本的所有單詞構成的特征向量。

4.4 通過計算TF-IDF值得到文本集的權重矩陣

通過計算文本的TF-IDF值來確定文本之間的相似性,進而根據(jù)相似程度來進行文本分類。

TFIDF(w,d)=TF(w,d)×IDF(w)

(3)

上式計算的結果為詞w對于文本d的權重。根據(jù)這個權重可以建立一個二維矩陣,元素a[i][j]用來表示第j個敏感詞在第i個敏感類別中的IF-IDF值。依據(jù)同樣的方式建立測試及數(shù)據(jù)的TF-IDF詞向量空間模型。測試集和訓練集處在同一個詞向量空間中,測試集與訓練集數(shù)據(jù)具有不同的敏感詞權重矩陣。

4.5 敏感文本分類決策樹構建

4.5.1 分詞及文本向量的降維處理

在使用向量模型表示文檔時,必須要進行語句分詞處理。詞語本身是有一定意義的,他們組合在一起構成了句子,形式上而言,漢字是組成句子的最小單位,但是單個漢字的意義不明確,所以詞從意義表達上來說,是構成語句的最小單位。在敏感文本分類中詞語的權重是決定一個文本是否敏感的重要因素。為了降低文本向量的維度,需要去掉其中的語氣助詞、副詞、介詞等不具備特定意義的詞(除名詞與動詞之外的詞),進行向量降維,可以加快利用分類算法進行文本分類的速度與精度。

4.5.2 構建敏感詞檢索模型中的決策樹算法

1)計算每個文本中敏感特征詞在由敏感文本構成矩陣中的權重,根據(jù)權重的大小確定而對文本進行敏感類別的分類,即預測出這些文本屬于哪種具體的敏感類型。利用PYthon中的scikit-learn工具進行TF-IDF的處理,完成不同類型文本中每個敏感文本的向量化表示。

2)將多個具有m維特征向量的文本作為樣本訓練集(ij[I練數(shù)據(jù)),利用C4.5算法將其分類到相應的類別中間,以實現(xiàn)敏感文本的分類。

5 實驗

敏感文本分類實驗采用復旦中文文本分類庫,并添加部分其他類別的文本作為訓練集。訓練集樣本點的數(shù)目為測試集的3倍左右。經(jīng)過實驗驗證,采用決策樹對敏感文本的分類準確率能達到80%以上。

6 結束語

本文提出的方案為網(wǎng)頁敏感詞的主動檢索提供了新思路,對敏感文本分類提供了一種新的選擇。由于決策樹不能很好地處理對連續(xù)型屬性的量化、編碼,文本數(shù)據(jù)的完整性以及分詞算法的優(yōu)劣都會影響決策樹的生成,另外,對決策樹合理地進行剪枝能進一步提高決策樹分類算法的精確度、簡化算法的復雜度。合理的設定閾值并設置剪枝條件從而使建立的學習模型更加簡單是日后要關注的一個關鍵點。

參考文獻:

[1]丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機研究與發(fā)展,2014,51(4):691-706.

[2]袁曉曦.基于機器學習的Web文本自動分類[J].軟件導刊,2011,10(1):26-28.

[3]鄧一貴,伍玉英.基于文本內(nèi)容的敏感詞決策樹信息過濾算法[J].計算機工程,2014,40(9):300-304.

[4]李泰.大數(shù)據(jù)環(huán)境下海量多媒體信息過濾技術的改進[J].電子技術與軟件工程,2018(4):165.

[5]李全鑫,魏海平.基于聚類分類法的信息過濾技術研究[J]‘電子設計工程,2014,22(20):14-16,19.

[6]寧墨.信息過濾技術在網(wǎng)站信息監(jiān)管中的應用與研究[D].長春:吉林大學,2015.

[7]李偉.基于決策樹的網(wǎng)頁敏感詞過濾系統(tǒng)設計[D].楊凌:西北農(nóng)林科技大學,2018.

【通聯(lián)編輯:梁書】

收稿日期:2019-12-21

作者簡介:李偉(1977-),男,陜西寶雞人,講師,碩士,主要研究方向為計算機網(wǎng)絡安全。

猜你喜歡
網(wǎng)絡安全
網(wǎng)絡安全(上)
網(wǎng)絡安全知多少?
工會博覽(2023年27期)2023-10-24 11:51:28
新量子通信線路保障網(wǎng)絡安全
網(wǎng)絡安全
網(wǎng)絡安全人才培養(yǎng)應“實戰(zhàn)化”
上網(wǎng)時如何注意網(wǎng)絡安全?
網(wǎng)絡安全與執(zhí)法專業(yè)人才培養(yǎng)探索與思考
設立網(wǎng)絡安全專項基金 促進人才培養(yǎng)
網(wǎng)絡安全監(jiān)測數(shù)據(jù)分析——2015年12月
網(wǎng)絡安全監(jiān)測數(shù)據(jù)分析——2015年11月
主站蜘蛛池模板: 国产成人1024精品| 国产尤物jk自慰制服喷水| 中文无码精品A∨在线观看不卡 | 亚洲国产中文精品va在线播放| 国产精品美女免费视频大全| 欧美日韩国产成人高清视频| 国产人在线成免费视频| 88国产经典欧美一区二区三区| 五月婷婷亚洲综合| 久久久噜噜噜| 国产成人在线无码免费视频| 真实国产精品vr专区| 五月婷婷伊人网| 在线精品欧美日韩| 欧美在线一级片| 日本欧美午夜| 久草视频中文| 五月天丁香婷婷综合久久| 日韩精品无码不卡无码| 国产精品对白刺激| 国产久草视频| 欧美激情视频二区| 国产a网站| 91色老久久精品偷偷蜜臀| 亚洲AV无码久久精品色欲| 欧美日韩久久综合| 国产日产欧美精品| 992tv国产人成在线观看| 黄色成年视频| 91av成人日本不卡三区| 国产精品污污在线观看网站| 黄色网址免费在线| 成人午夜久久| www.日韩三级| 亚洲成肉网| 亚洲人妖在线| 免费在线国产一区二区三区精品 | 久久精品免费国产大片| 国产高清不卡视频| 国产精品香蕉在线| www.91在线播放| 国产欧美又粗又猛又爽老| 欧美日韩精品一区二区视频| 亚洲黄网在线| 欧美人在线一区二区三区| 91精品小视频| 女同久久精品国产99国| 一区二区偷拍美女撒尿视频| 女人18毛片久久| 国产精品九九视频| 亚洲综合第一页| 国产成人精彩在线视频50| 国产在线精品人成导航| 欧美成人综合视频| 色偷偷一区| 91麻豆国产视频| 99热线精品大全在线观看| 在线观看无码a∨| 日本道综合一本久久久88| 国产尤物在线播放| 久久亚洲国产视频| 毛片三级在线观看| 亚洲国产精品VA在线看黑人| 国产在线观看第二页| 国产精品久久久久久久久久久久| 九九这里只有精品视频| 精品视频免费在线| 天堂岛国av无码免费无禁网站 | 国产精品任我爽爆在线播放6080 | 在线视频一区二区三区不卡| 国产精品区视频中文字幕| 免费看黄片一区二区三区| 在线va视频| 91成人免费观看| 亚洲成人网在线观看| 国产精品不卡片视频免费观看| 亚洲福利片无码最新在线播放| 不卡的在线视频免费观看| 在线观看欧美精品二区| 久热精品免费| 国产精品免费露脸视频| 久久中文字幕2021精品|