999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)頁正文提取方法在輿情監(jiān)控中的應(yīng)用探究

2018-01-18 09:13:26曹宇逢
關(guān)鍵詞:數(shù)據(jù)挖掘

曹宇逢

摘要:本文分析了網(wǎng)絡(luò)文檔內(nèi)容頁面分塊的提取方法,同時(shí)引入了一個(gè)層次化關(guān)鍵數(shù)據(jù)挖掘思想,自頂向下將網(wǎng)頁進(jìn)行劃分,這樣就可以劃分為多個(gè)物理模塊,從簡(jiǎn)單的分塊操作中獲取一個(gè)準(zhǔn)確的分塊決策方法,進(jìn)而進(jìn)一步提高分塊數(shù)據(jù)挖掘的準(zhǔn)確度。

關(guān)鍵詞:網(wǎng)絡(luò)文檔;分塊;數(shù)據(jù)挖掘

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)09-0231-01

人們通常采用的方法是到街頭巷尾實(shí)地考察,或通過問卷調(diào)查獲取相關(guān)信息。然而,民間輿論風(fēng)云變幻,毫無規(guī)律可言,政府很難掌握確切的情況,尤其是在過去通訊技術(shù)落后的時(shí)期。例如某一個(gè)地區(qū)出現(xiàn)突發(fā)事件,或是嚴(yán)重干擾社會(huì)秩序的群體事件,如果政府部門不能及時(shí)獲取相關(guān)信息,掌握民情民意,就不能采取有效措施加以治理。這不能有效發(fā)揮政府的作用,也會(huì)削弱政府的威信[1]。

1 研究背景

目前,隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算的應(yīng)用和發(fā)展,網(wǎng)絡(luò)輿情信息種類迅速增多,涉及的公安、消防、文化、科研、教育和金融等領(lǐng)域也越來越多,網(wǎng)絡(luò)輿情實(shí)時(shí)傳播速度很快為了提高輿論情報(bào)的監(jiān)督效率,國(guó)外許多的政府部門聯(lián)合軟件研發(fā)企業(yè)對(duì)輿情監(jiān)控問題不斷的進(jìn)行研究,引入了許多先進(jìn)的遺傳算法技術(shù)、BP神經(jīng)網(wǎng)絡(luò)技術(shù)、支持向量機(jī)技術(shù)等進(jìn)行數(shù)據(jù)挖掘和分析,更好地提升網(wǎng)絡(luò)文檔數(shù)據(jù)的挖掘分析能力。

2 網(wǎng)頁正文提取方法

2.1 基于模板的網(wǎng)頁正文提取方法

網(wǎng)頁正文提取又被人們稱為網(wǎng)絡(luò)文檔數(shù)據(jù)提取,最早提出的理論和方法是基于模板的算法,可以針對(duì)一個(gè)特別設(shè)計(jì)的網(wǎng)頁制作一個(gè)良好的數(shù)據(jù)提取模板,比如路徑抽取模板Xpath,能夠獲取網(wǎng)絡(luò)文檔的數(shù)據(jù)資源。網(wǎng)絡(luò)文檔抽取采用模板算法最為耗費(fèi)精力的就是模板制作和分析,這個(gè)過程非常的繁瑣,因此一旦網(wǎng)絡(luò)文檔的結(jié)構(gòu)發(fā)生了相關(guān)的變化,就需要構(gòu)建一個(gè)網(wǎng)絡(luò)文檔數(shù)據(jù)分析文檔,因此需要費(fèi)較高的成本,如何構(gòu)建一個(gè)高效處理的網(wǎng)絡(luò)文檔數(shù)據(jù)提取方法是非常重要的,已經(jīng)吸引了很多人的研究[2]。

2.2 基于統(tǒng)計(jì)的網(wǎng)頁正文提取方法

基于統(tǒng)計(jì)理論的網(wǎng)絡(luò)文檔數(shù)據(jù)提取方法可以使用數(shù)學(xué)思想針對(duì)網(wǎng)絡(luò)文檔的詞語進(jìn)行統(tǒng)計(jì)和分析,包括網(wǎng)絡(luò)文檔數(shù)據(jù)的長(zhǎng)度和密度,這些數(shù)值可以將相關(guān)的網(wǎng)絡(luò)正文文本數(shù)據(jù)信息和網(wǎng)絡(luò)噪聲數(shù)據(jù)區(qū)分開。這種方法可以有效的解決模板方法存在的問題,比如可以有效的構(gòu)造一個(gè)模板,并且能夠提高數(shù)據(jù)分析較難維護(hù)的問題,具有更加完善的可操作性和可適應(yīng)性。此外利用網(wǎng)絡(luò)文檔數(shù)據(jù)資源的標(biāo)簽密度能夠提取論文正文信息,并且能夠?qū)⑽臋n相關(guān)的標(biāo)簽密度進(jìn)行直方圖信息處理和操作,同時(shí)可將相關(guān)的網(wǎng)絡(luò)文檔數(shù)據(jù)資源擴(kuò)展成相關(guān)的模型,以區(qū)分網(wǎng)絡(luò)文檔的正文內(nèi)容和相關(guān)的非正文內(nèi)容,相關(guān)的操作方法可以更好的獲取多個(gè)類型的語言、多個(gè)類型的程序處理模式,具有非常好的通用處理性,但是需要經(jīng)過多重的繁瑣建模和聚類處理過程。

2.3 基于分塊的網(wǎng)頁正文提取算法

基于分塊的網(wǎng)絡(luò)文檔數(shù)據(jù)內(nèi)容獲取算法可以將相關(guān)的網(wǎng)絡(luò)內(nèi)容劃分為多個(gè)子塊,這些子塊之間包含了許多正文語義信息內(nèi)容,這樣就可以把相關(guān)的網(wǎng)絡(luò)內(nèi)容進(jìn)行有效的處理。與傳統(tǒng)的統(tǒng)計(jì)理論分析模型、模板模型的相關(guān)網(wǎng)絡(luò)文檔資源處理方法相比,采用分塊的網(wǎng)絡(luò)文檔處理模式更加具有通用性,并且能夠更好的滿足用戶的分塊操作模式,可以大大提升網(wǎng)絡(luò)文檔資源的處理效率,并且可以大大降低硬件實(shí)現(xiàn)的成本內(nèi)容,忽略網(wǎng)絡(luò)文檔資源處理的延遲現(xiàn)象,具有更加完美的操作效率。

2.4 層次分裂分塊算法原理

一般來說,同一個(gè)語義分塊中的內(nèi)容是緊密聯(lián)系的,在視覺上,瀏覽器渲染后的網(wǎng)頁正文集中在一塊區(qū)域,在HTML代碼結(jié)構(gòu)上,網(wǎng)頁正文代碼也集中在一起,所以在DOM樹中的分塊節(jié)點(diǎn)下的所有文本子節(jié)點(diǎn)中存在一個(gè)中心節(jié)點(diǎn),其他節(jié)點(diǎn)的DOM樹標(biāo)簽路徑與這個(gè)中心節(jié)點(diǎn)很相似,所有文本節(jié)點(diǎn)與這個(gè)中心節(jié)點(diǎn)的標(biāo)簽路徑平均相似度平方和稱為聚集度,以此來判斷節(jié)點(diǎn)是否為分塊節(jié)點(diǎn),從頂至下判斷節(jié)點(diǎn)聚集度是否大于某個(gè)閾值,如果是,則此節(jié)點(diǎn)為分塊節(jié)點(diǎn),否則繼續(xù)判斷其子節(jié)點(diǎn),直至遍布整個(gè)DOM樹。這個(gè)過程是一個(gè)按層次分裂判斷的過程,所以我們稱這種的分塊算法為層次分裂分塊算法。

3 話題檢測(cè)與追蹤

網(wǎng)絡(luò)文檔的話題追蹤和檢測(cè)功能又被許多學(xué)者稱為TDT(Topic Detection and Tracking)功能,這些資源可以更好的追蹤和檢測(cè)網(wǎng)絡(luò)文檔的話題內(nèi)容及資源內(nèi)容,并且能夠處理多種網(wǎng)絡(luò)文檔資源文本內(nèi)容,同時(shí)可以結(jié)合當(dāng)前網(wǎng)絡(luò)文檔數(shù)據(jù)資源的發(fā)展形勢(shì),采用語音形勢(shì)報(bào)道相關(guān)的新聞內(nèi)容,可以自動(dòng)化的識(shí)別、跟蹤、檢測(cè)和鎖定話題資源,可以根據(jù)用戶的處理性能實(shí)現(xiàn)多種語音的整合檢測(cè)、多樣化跟蹤服務(wù)[3]。在對(duì)網(wǎng)絡(luò)文檔數(shù)據(jù)資源的分析和構(gòu)建時(shí),充分利用這個(gè)繼承關(guān)系將相關(guān)的知識(shí)集成在一起,開發(fā)一個(gè)廣播領(lǐng)域的相關(guān)話題跟蹤系統(tǒng),可以跟蹤相關(guān)的熱點(diǎn)話題資源,實(shí)現(xiàn)網(wǎng)絡(luò)資源的檢測(cè)和分析[4]。目前,基于TDT的網(wǎng)絡(luò)文檔數(shù)據(jù)資源處理過程包括兩種常用的機(jī)器學(xué)習(xí)算法,分別是貝葉斯理論算法和BP神經(jīng)網(wǎng)絡(luò)算法。一些學(xué)者將BP神經(jīng)網(wǎng)絡(luò)算法引入到網(wǎng)絡(luò)輿情監(jiān)控信息管理過程中,分析輿情監(jiān)控關(guān)鍵詞分類中存在的問題,研究基于支持向量機(jī)的輿情監(jiān)控關(guān)鍵詞分類方法,該方法主要是情感詞典選擇、擴(kuò)充情感特征選擇,基于支持向量機(jī)進(jìn)行分類器訓(xùn)練,測(cè)試分類器的內(nèi)容,實(shí)現(xiàn)信息的處理和分類。

4 結(jié)語

本文主要了網(wǎng)頁正文內(nèi)容抓取的方法,這些方法包括基于模板的抓取方法、基于統(tǒng)計(jì)理論的抓取方法、基于分塊的抓取方法,并且從網(wǎng)絡(luò)文檔話題檢測(cè)與追蹤、網(wǎng)絡(luò)文檔主體模型分析方面闡述了相關(guān)技術(shù)理論,同時(shí)引入了一個(gè)層次分裂和模擬退火的關(guān)鍵數(shù)據(jù)挖掘思想,自頂向下將網(wǎng)頁進(jìn)行劃分,這樣就可以劃分為多個(gè)物理模塊,網(wǎng)頁分塊完成之后,可以針對(duì)相關(guān)的中文網(wǎng)頁內(nèi)容進(jìn)行特征提取,可以從簡(jiǎn)單的分塊操作中獲取一個(gè)準(zhǔn)確的分塊決策方法。

參考文獻(xiàn)

[1]王亨桂.電力行業(yè)輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息安全與技術(shù),2013,4(5):66-67.

[2]蔡洪民,陳鏗.校園網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)安全,2013,(2):51-54.

[3]陳彥舟,曹金璇.基于Hadoop的微博輿情監(jiān)控系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(4):18-22.

[4]吳建軍.網(wǎng)絡(luò)輿情的云計(jì)算監(jiān)測(cè)模式分析與實(shí)現(xiàn)[J].電訊技術(shù),2013,(4):476-481.

[5]方星星,魯磊紀(jì),徐洋.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[J].艦船電子工程,2014,34(9):104-107.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 青草娱乐极品免费视频| 成人在线综合| 久久99蜜桃精品久久久久小说| 亚洲欧美另类久久久精品播放的| 亚洲欧美日本国产专区一区| 91精选国产大片| 欧美日本在线一区二区三区 | 国产视频自拍一区| 国产精品自在线天天看片| 中文字幕日韩丝袜一区| 国产精品亚欧美一区二区| 99在线观看国产| 午夜精品一区二区蜜桃| 99九九成人免费视频精品| 国产男女免费完整版视频| 亚洲国产欧美国产综合久久| 亚洲视频在线青青| 成人免费黄色小视频| 国产欧美视频在线| 扒开粉嫩的小缝隙喷白浆视频| 精品国产欧美精品v| 天堂亚洲网| 国产本道久久一区二区三区| 久久国产精品波多野结衣| 本亚洲精品网站| 午夜无码一区二区三区在线app| 亚洲免费毛片| 日韩精品久久无码中文字幕色欲| 日本道中文字幕久久一区| 制服丝袜 91视频| 看国产毛片| 亚洲精品自拍区在线观看| 67194亚洲无码| 亚洲精品少妇熟女| 1769国产精品免费视频| 国产又黄又硬又粗| 久久亚洲高清国产| 亚洲aaa视频| 亚洲无码视频一区二区三区| 国产九九精品视频| 热99re99首页精品亚洲五月天| 色噜噜综合网| 亚洲女人在线| 国产成人精品一区二区不卡 | 国产精品无码AV中文| 5555国产在线观看| 人妻一本久道久久综合久久鬼色| 国产精品亚欧美一区二区三区| 国产在线观看91精品亚瑟| 91视频国产高清| 黄网站欧美内射| 亚洲综合香蕉| 成人精品在线观看| 欧美午夜在线观看| 一本久道热中字伊人| 人妖无码第一页| 欧美中文字幕一区| 91久久国产成人免费观看| 毛片免费在线视频| 国产女人在线观看| 成人日韩欧美| 青草娱乐极品免费视频| 亚洲人成影院在线观看| 国产综合网站| 国产成人久视频免费| 2024av在线无码中文最新| 国产69精品久久久久孕妇大杂乱| 欧美精品啪啪| 亚洲欧洲日韩综合| 99国产精品免费观看视频| 精品久久人人爽人人玩人人妻| 熟女成人国产精品视频| 国产精品女熟高潮视频| 在线观看国产精品第一区免费| 亚洲 欧美 偷自乱 图片| 日本欧美中文字幕精品亚洲| 国产福利一区二区在线观看| 久无码久无码av无码| 2021国产精品自产拍在线| 色偷偷综合网| 日韩 欧美 小说 综合网 另类| 欧美国产日本高清不卡|