999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

開放網絡環境下不良信息的識別

2017-04-23 00:54:20彭梅
電子技術與軟件工程 2017年5期
關鍵詞:數據挖掘互聯網

彭梅

摘 要 開放的互聯網可以為人們提供智能旅游、在線學習、電子商務、電子政務、金融證券等渠道,有效地實現了信息的傳輸和共享,被越來越多的人所關注和使用。但是,互聯網在為人們提供便捷信息傳輸的同時,也潛在帶來了許多的危害,比如淫穢色情信息、病毒木馬信息、暴力反動信息等,這些信息將會影響青少年的健康成長,也會破壞社會的良好秩序,甚至一些言論會危害到國家政府的安全,因此開放網絡環境下快速的、準確的識別和定位不良信息已經成為網絡輿情監控管理部門、科研院所的研究熱點。本文詳細地分析了開放網絡環境下不良信息的識別研究現狀,歸納了常用的不良信息識別算法,包括譜聚類算法、神經網路算法、信息論算法和K均值算法,同時針對K均值算法進行深入研究,提出了一個模糊K均值算法,以便能夠更加準確的識別不良信息,準確的獲取信息內容。

【關鍵詞】互聯網 不良信息 數據挖掘 K均值

1 引言

隨著移動通信、光纖通信等技術的快速發展,促進人們進入到“互聯網+”時代,也使得人們的言論、行為更加開發和自由。互聯網是一個擁有數億網民的精神、文化、工作和生活家園,也是人們信息傳輸、分享的重要途徑,方便快速的互聯網平臺可以幫助人們實現各類信息的獲取。因此,開放環境下,網絡具有覆蓋范圍廣、用戶數量多、使用開銷低和發展前景好等各種優點,其在為人們提供優良信息的同時,互聯網也逐漸成為不法分子散布反動、色情、暴力等不良信息的主要途徑,并且這些不良信息的傳播趨勢呈現出智能化、隱蔽化、迅速化等新型特點。據《國家互聯網管理辦公室》統計發布信息顯示,互聯網上的色情網站高達數百萬個,并且網站的數量每天都在增長,誘發了更多的社會問題,對于自控能力相對薄弱的青少年來講,這些不良信息的危害非常嚴重,導致花季、雨季少年不能夠生活在一個健康的社會環境中。360網絡安全管理公司統計報告顯示,垃圾郵件是一種毫無價值信息的文件,其在嚴重干擾用戶對互聯網信息的應用需求同時還攜帶了較多木馬和病毒,這些攻擊信息可以獲取人們的隱私信息,許多公司、個人為遏制垃圾郵件的傳播付出了非常高的代價,每年都需要花費數億元人民幣。因此,網絡上傳播的不良信息即可以危害人們的健康成長,同時也可以破壞社會的穩定秩序,甚至危害國家的安全,構建一個實時性、穩定性、可靠性較強的不良信息識別算法或系統具有重要的作用和意義,也逐漸成為政府機關或科研機構的研究熱點。

不良信息識別是指利用先進的模式識別、機器學習技術構建一個學習器,同時利用學習器針對數據內容進行分析,可以尋找隱藏的不良信息內容。不良信息識別操作模型主要有兩類,一種是描述型模型,另外一種是預測型。描述型的不良信息識別模型可以針對網絡上的數據進行相關性分析,這樣就可以識別不良信息相關內容;預測模型可以利用已經獲取的不良信息特征進行預測和推斷,從而可以獲取不良信息。

2 開放網絡環境下不良信息識別研究現狀

目前,經過多年的研究和識別,不良信息識別算法包括基于模板的不良信息識別方法、基于統計的不良信息識別方法和基于分塊的不良信息識別方法。

2.1 基于模板的網絡不良信息識別方法

網絡不良信息識別過程中,為了提高識別實時性和迅速性,可以構建一個模板,比如路徑抽取模板Xpath,能夠獲取網絡信息資源。采用模板的網絡不良信息識別算法最為耗費精力的就是制作和分析模板,這個過程非常的繁瑣和復雜,一旦網絡信息的結構發生了相關的變化,因此就需要重新構建一個網絡不良信息識別模板,需要花費較多的時間和成本,因此構建一個高效處理的網絡不良信息識別模板已經吸引了很多的人的研究。李強等人開發了一個強大的工具WIEN(Wrapper Induction Enviroment),可以增強網絡不良信息識別效率,該工具適用范圍比較廣泛,能夠處理所有的HTML網絡文檔數據,并且還可以處理HLRT網絡文檔數據,準確區分包含很多起止分隔符、左右分隔符,提取相關的不良信息實體。王亞飛等人開發了一個功能強大的網絡不良信息識別工具TSIMMIS,其能夠自動生成一個網絡不良信息識別規則,這個工具在使用過程中需要專業的人員進行操作和維護,因此如果應用背景較少,不能準確的的設計不良信息處理規則。徐根茂等人采用強大的C#程序開發可視化的網絡不良信息識別系統運行界面,可以更加完善和方便的設計程序開發規則,能夠最終形成一個網絡不良信息識別模板。

2.2 基于統計的不良信息識別方法

基于統計的不良信息識別方法可以使用統計學、概率論等數學知識針對網絡文檔中出現的詞語進行統計和分析,生成一個網絡用語密度矩陣,以便能夠將網絡中積極信息、不良信息的詞語進行劃分,獲取不良信息的內容。基于統計的不良信息識別方法可以有效的解決模板方法存在的問題,其不需要構建一個識別模板,僅僅需要構建一個不良信息詞庫即可,具有更強的自適應性和可操作性,但是對于不同類型的、中性的網絡信息識別準確度較低,存在較大的差異。余世文等人針對中文格式的網站新聞內容進行統計和分析,可以預先的互聯網正文中的詞語內容進行分析,針對位于Table節點內部的詞語建立一個DOM樹形架構模式,這樣就可以更好地刪除網絡文檔數據中的腳本文件、風格文件、注釋文件等內容,并且針對獲取的Table節點文件中的標簽,將這些標簽刪除,同時可以有效的統計表格中所有的文本字詞的數量,可以更加有效地結合中文網頁內容的關鍵特征,克服傳統的模板難以創建和設計的缺陷。

2.3 基于分塊的不良信息識別方法

基于分塊的不良信息識別方法可以將相關的網絡內容劃分為多個子塊,這些子塊之間可以包含許多的正文語義信息內容,利用遞歸的操作模式分析每一個模塊中的不良信息內容,最后可以將這些內容集成在一起,形成一個不良信息識別結果。董耀光等人分析了普通不良信息識別算法存在許多的問題,比如通用性不強、模板難以構造和維護等,提出了一種基于網絡文檔行塊分布的算法,其可以搜索網絡中文檔用語的相關字詞資源,將大塊的網絡內容進行劃分,接著可以針對每一個模塊繼續進行劃分,并發處理每一個模塊中的不良信息,這樣就可以提高識別速度和效率,在更短時間內完成不良信息識別和處理。吳敏等人經過認證和分析,認為網絡不良信息識別處理過程中,可以根據文本的長度和密度進行分塊,這樣就可以利用最小的單個字詞為原始節點,實現每一個字詞的情感分析,發現這些字詞是不良信息或健康信息,能夠利用字詞包含的信息量降低識別復雜度,從時間和空間上提高算法識別效率。李瑞民等人提出了一個TVPS網絡不良信息識別的分塊模式,根據網絡文檔資源分塊模式和索引模塊進行處理,按照網絡文檔數據資源實現信息標題的模式處理和分析,采用DOM樹結構中保存的表格針對標簽進行處理,將所有標簽合并成一個大型標簽集合,這樣就可以將所有的節點進行不良信息處理和分析,能夠根據網絡不良信息資源進行分塊處理,具有重要的作用和意義。

3 基于K-均值的不良信息識別算法研究

K均值一種無監督學習算法,其可以將網絡上的數以億計不良信息劃分為N個簇,每一個簇都包含一個簇心,用戶輸入相關的信息之后,可以計算該不良信息與N個簇心得距離,選擇一個距離最近的簇與不良信息合并到一起。K均值經過多年的應用,在不良信息挖掘中得到了極大的改進,比如引入模糊數學理論優化目標函數,提出了模糊K均值算法,將硬劃分模式改為軟劃分,這樣就可以更加準確的劃分文本類別;引入模擬退火思想,可以自行向下將所有的不良信息進行劃分,利用層次分析模式,構建一個樹型不良信息識別結構,具有重要的作用。

不良信息識別過程中,K均值算法首先將復雜的不良信息建模為一個矩陣S,假設該矩陣包括了h個不良信息,首先初始化矩陣S的m個特征值為不良信息的核心節點,也即是聚類中心,則h個不良信息的K均值算法矩陣如公式(1)所示:

其中,Sih表示類別h指標i的歸一化特征值,0≤Sih≤1。

在K均值算法聚類執行過程中,可以設置不同的特征權重,一般能夠優化突出較為重要的特征貢獻,特征權重向量如公式(2)所示:

通過分析,K均值算法聚類的目標函數如公式(3)所示:

在復雜的網絡不良信息識別過程中,K均值算法可以迭代執行,直到獲取最優解或次優解,滿足人們的需求。為了驗證本文算法的有效性,本文針對1500個網頁進行不良信息識別,并且與已經標注好的不良信息識別標注進行比較,同時與遺傳算法和支持向量機算法進行比較,發現本文采用的K均值算法不良信息識別準確度最高。通常情況下,不良信息識別采用準確度作為算法評價運行結果的標準,算法運行結果準確度評價公示如公式4所示。

其中,t∈T,其可以描述相關的數據對象;c∈C,其可以描述相關的類別號或簇標號;A1(c,T)可以描述相關的已經正確分配到c中的文檔或元組的數量;A2(c,T)可以描述相關的算法不正確的分配到c中的文檔或元組的數量;A3(c,T)可以描述相關的不正確的沒有分配到c中的文檔或元組的數量。通過觀察可以得知,在1500個網頁不良信息識別數據集上,本文算法可以很好地發現不良信息,準確度更高。算法運行結果如表1所示。

4 結束語

隨著互聯網的發展和普及,互聯網傳播的信息渠道、速度更快,因此構建一個完善的不良信息識別系統,可以更好地提高互聯網監控能力。目前,不良信息識別方法經過多年的研究和發展,已經引入了許多先進的方法,最為顯著的方法就是利用數據挖掘方法進行分析和識別,比如聚類算法、信息論算法、支持向量機算法、BP神經網絡算法和K均值算法,這些算法可以將不良信息從海量的數據中準確的識別出來,具有重要的作用和意義。

參考文獻

[1]鄧東豐,魏薇.基于免疫原理的網絡不良信息識別方法[J].現代電信科技,2014,11(09):52-58.

[2]劉劍,呂國瑛,孫迦.基于語義識別的不良傾向性信息過濾系統的設計與實現[J].信息網絡安全,2012,12(10):13-16.

[3]俞浩亮,王秋森,馮旭鵬,等.基于特征加權的網絡不良內容識別方法[J].現代電子技術,2016,458(03):76-79.

[4]崔鵬飛,裘玥,孫瑞.面向網絡內容安全的圖像識別技術研究[J].信息網絡安全,2015,11(09):154-157.

[5]李勇明,陳勃翰,王品.采用基于密度加權和偏好信息的K均值聚類的胸阻抗信號自動檢測算法[J].電子與信息學報,2015,37(04):824-829.

[6]許爽,葉愷,畢新煕.基于關鍵路徑優化交叉遺傳算法的掌紋識別[J].計算機應用與軟件,2014,31(07):195-197.

[7]紀凱,韓棟.基于支持向量機的信息檢索方法研究[J].吉林工程技術師范學院學報,2014,30(04):82-84.

猜你喜歡
數據挖掘互聯網
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
“互聯網+”環境之下的著作權保護
今傳媒(2016年9期)2016-10-15 22:15:57
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
從“數據新聞”看當前互聯網新聞信息傳播生態
今傳媒(2016年9期)2016-10-15 22:06:04
互聯網背景下大學生創新創業訓練項目的實施
考試周刊(2016年79期)2016-10-13 23:23:28
以高品質對農節目助力打贏脫貧攻堅戰
中國記者(2016年6期)2016-08-26 12:52:41
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 精品亚洲国产成人AV| 国产视频资源在线观看| 亚洲首页在线观看| 午夜性爽视频男人的天堂| 免费无码AV片在线观看国产| 国产精品蜜臀| JIZZ亚洲国产| 精品国产自| 国产亚洲欧美在线人成aaaa| 69av免费视频| 国产高清在线观看91精品| 丁香综合在线| 久久99国产精品成人欧美| 91亚瑟视频| 国产精品免费p区| 99视频精品在线观看| 亚洲h视频在线| 亚洲免费福利视频| 无码中文字幕精品推荐| 国产精品香蕉| 丰满少妇αⅴ无码区| 丝袜亚洲综合| 亚洲VA中文字幕| 亚洲狠狠婷婷综合久久久久| 欧美综合区自拍亚洲综合绿色 | 日本成人精品视频| www精品久久| 国产精品手机在线播放| 亚洲欧美成人影院| 久久久成年黄色视频| 国产精品美女自慰喷水| 亚洲高清在线天堂精品| a国产精品| 色综合五月| 专干老肥熟女视频网站| 亚洲中文无码h在线观看| 国产国拍精品视频免费看| 青青操国产| 一级毛片基地| 日韩欧美高清视频| 人妻丰满熟妇AV无码区| 亚洲国产在一区二区三区| 青青青国产视频| 99激情网| 国产亚洲欧美在线人成aaaa| 丁香六月激情婷婷| 伊人国产无码高清视频| 亚洲Av激情网五月天| 精品免费在线视频| 一本一道波多野结衣av黑人在线| 亚洲欧美极品| 色天天综合久久久久综合片| av尤物免费在线观看| 精品国产aⅴ一区二区三区| 国产国模一区二区三区四区| 日韩成人在线一区二区| 久久国产精品娇妻素人| 青青草原国产| 日韩精品高清自在线| 亚洲成人在线免费观看| 国产精品视频观看裸模| 少妇露出福利视频| 亚洲无码精彩视频在线观看| 伊人成人在线| 中文字幕永久在线看| 在线欧美日韩国产| 欧美日韩中文国产va另类| 日本不卡免费高清视频| 97se亚洲综合在线天天 | 高清久久精品亚洲日韩Av| 91国内在线观看| 国产剧情国内精品原创| 久久久久人妻精品一区三寸蜜桃| 91久草视频| 欧美日韩国产在线人成app| 九色综合视频网| 欧美劲爆第一页| 亚洲天堂网在线视频| 超碰免费91| 日韩欧美国产区| 成人第一页| 日韩在线1|