999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校BBS輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2012-07-25 03:19:50陳立章陳曉鵬
微處理機(jī) 2012年1期
關(guān)鍵詞:系統(tǒng)

陳立章,李 斌,陳曉鵬

(哈爾濱工業(yè)大學(xué),威海264209)

1 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)為我國(guó)鍛造出一個(gè)全新的輿情傳播機(jī)制。截止到2010年底,我國(guó)互聯(lián)網(wǎng)網(wǎng)民學(xué)生總數(shù)占到總網(wǎng)民數(shù)的30.6%[1],對(duì)于這么一個(gè)龐大的一個(gè)高校大學(xué)生群體,他們對(duì)社會(huì)諸多現(xiàn)象、現(xiàn)實(shí)和問題等反映最為敏感,各種思潮交流相對(duì)活躍,喜歡通過BBS對(duì)一些社會(huì)焦點(diǎn)和熱點(diǎn)問題以及國(guó)際國(guó)內(nèi)的一些重大問題以及高校內(nèi)的一些事情展開討論,產(chǎn)生較大的影響,形成洶涌的網(wǎng)絡(luò)輿情越來越多。面向高校大學(xué)生的網(wǎng)絡(luò)輿情安全預(yù)警與控制手段的不足導(dǎo)致由高校為源頭而引發(fā)的重大網(wǎng)絡(luò)輿情事件激增,并有愈演愈烈的趨勢(shì),如2008年引起巨大轟動(dòng)的“學(xué)位門”事件等。因此有必要建設(shè)高校輿情監(jiān)測(cè)系統(tǒng),通過輿情監(jiān)測(cè)系統(tǒng),高校管理者可以準(zhǔn)確把握本校校園網(wǎng)整體輿情動(dòng)態(tài),及時(shí)了解輿情信息,密切關(guān)注校園網(wǎng)動(dòng)態(tài),敏銳捕捉一些苗頭性、傾向性、群體性問題,提出正確引導(dǎo)大學(xué)生輿論的對(duì)策建議,及時(shí)化解輿情危機(jī)。

2 高校BBS輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)

傳統(tǒng)的輿情熱點(diǎn)發(fā)現(xiàn)技術(shù),通常是通過網(wǎng)絡(luò)爬蟲爬取Web頁(yè)面,利用自然語言處理和數(shù)據(jù)挖掘技術(shù)對(duì)Web頁(yè)面進(jìn)行聚類分析,進(jìn)而在結(jié)果中識(shí)別熱點(diǎn)話題[2]。爬蟲開始設(shè)計(jì)的初衷,其目的是在給定爬行周期內(nèi),盡可能多地下載Web網(wǎng)頁(yè),并且需要消耗大量的系統(tǒng)資源和網(wǎng)絡(luò)帶寬,爬蟲策略的選取對(duì)于爬蟲的效率有很大的影響,同時(shí)爬蟲獲取網(wǎng)頁(yè)的實(shí)時(shí)性有一定限制,周期太短系統(tǒng)負(fù)擔(dān)太重,周期太長(zhǎng)獲取信息內(nèi)容滯后。通過改進(jìn)爬蟲策略算法進(jìn)行主題爬取,在一定程度上提高了爬蟲爬取網(wǎng)頁(yè)的質(zhì)量[3]。但是如果論壇中的帖子在爬行周期內(nèi)被論壇管理員或者作者本人刪除,爬蟲無法獲知這些內(nèi)容的具體信息。有些論壇還可以對(duì)某些討論主題加以權(quán)限要求,爬蟲由于權(quán)限的原因,也無法獲知討論主題的具體內(nèi)容。而通過旁路模式,可以監(jiān)控一切發(fā)表的主題內(nèi)容,不會(huì)因?yàn)橛捎谀承┬畔@取不到而導(dǎo)致輿情信息分析不周全。

系統(tǒng)在高校網(wǎng)絡(luò)的出入口處,通過旁路方式實(shí)時(shí)捕獲高校論壇的網(wǎng)絡(luò)流量,還原出用戶訪問高校論壇的Web內(nèi)容,用戶IP、論壇的版塊、主題、訪問時(shí)間、以及用戶提交的帖子內(nèi)容等相關(guān)信息,將分析出的帖子的URL作為輸入數(shù)據(jù)流,利用改進(jìn)型LC算法分析出當(dāng)前訪問最頻繁的網(wǎng)頁(yè),也就是高校學(xué)生訪問的關(guān)注重點(diǎn)內(nèi)容。系統(tǒng)將論壇用戶發(fā)表的帖子內(nèi)容還原出來,通過層次增量聚類算法進(jìn)行聚類,實(shí)時(shí)精準(zhǔn)地分析出高校論壇輿情熱點(diǎn)話題以及話題的關(guān)鍵詞集。系統(tǒng)還提供管理接口支持自定義關(guān)鍵字來控制論壇內(nèi)容的訪問范圍、訪問時(shí)間限制等,聚類出來的某些關(guān)鍵詞也可以動(dòng)態(tài)添加到系統(tǒng)中。

高校BBS輿情監(jiān)測(cè)系統(tǒng)主要由四大部分組成,數(shù)據(jù)采集、還原部分、數(shù)據(jù)分析挖掘部分以及系統(tǒng)管理部分。系統(tǒng)架構(gòu)及工作流圖如圖1所示。系統(tǒng)基于哈爾濱工業(yè)大學(xué)(威海)觀海聽濤論壇為研究基礎(chǔ),該論壇采用基于 php語言開發(fā)的開源系統(tǒng)Discuz,國(guó)內(nèi)許多高校論壇均采用此系統(tǒng)。

圖1 系統(tǒng)結(jié)構(gòu)圖

3 高校BBS輿情監(jiān)測(cè)系統(tǒng)的具體實(shí)現(xiàn)

3.1 數(shù)據(jù)采集模塊

由于高校學(xué)生教師人數(shù)眾多,有的高校同時(shí)在線用戶達(dá)到幾萬人,因此高校的網(wǎng)絡(luò)鏈路帶寬都比較大,來滿足校內(nèi)教職員工的上網(wǎng)需求,鏈路帶寬從100M-3G左右不等。系統(tǒng)采用旁路模式來進(jìn)行數(shù)據(jù)分析,這么大的流量如果采用傳統(tǒng)的捕包方式肯定不能滿足系統(tǒng)要求,傳統(tǒng)的報(bào)文捕獲方式是網(wǎng)卡從網(wǎng)絡(luò)上捕獲報(bào)文后,會(huì)通過中斷告知主機(jī)CPU,CPU會(huì)把報(bào)文拷貝到操作系統(tǒng)的協(xié)議棧,協(xié)議棧經(jīng)過層層分析,最后把報(bào)文提交給應(yīng)用程序,這個(gè)過程會(huì)消耗大量的CPU資源,在小包情況下,一般千兆網(wǎng)卡很難實(shí)現(xiàn)線速捕包。本系統(tǒng)采用了零拷貝技術(shù)[4],網(wǎng)卡收到的報(bào)文不再經(jīng)過操作系統(tǒng)協(xié)議棧的層層拷貝,而是直接DMA到應(yīng)用緩沖區(qū)中,避免了數(shù)據(jù)拷貝的開銷。系統(tǒng)通過更改網(wǎng)卡的驅(qū)動(dòng)程序,將網(wǎng)絡(luò)中的數(shù)據(jù)報(bào)文直接DMA到系統(tǒng)用戶區(qū),給上層應(yīng)用系統(tǒng)提供讀取接口,直接調(diào)用報(bào)文的具體內(nèi)容。

3.2 數(shù)據(jù)還原模塊

根據(jù)Discuz論壇的特點(diǎn),每一個(gè)討論板塊的鏈接地址:bbs.ghtt.net/forum-1-1.html,其中 bbs.ghtt.net表示站點(diǎn)名,forum表示板塊,第一個(gè)1表示板塊編號(hào)、第二個(gè)1表示對(duì)應(yīng)板塊的頁(yè)面編號(hào)。一個(gè)討論主題的連接地址:bbs.ghtt.net/thread-269118-1-1.html,其中thread表示帖子標(biāo)識(shí),269118表示帖子編號(hào),第一個(gè)1表示帖子的第一頁(yè),最后的1無實(shí)際意義。通過分析論壇的URL,可以很方便的得到用戶訪問的板塊編號(hào)、主題ID等等信息。

數(shù)據(jù)還原模塊調(diào)用數(shù)據(jù)捕獲模塊提供的接口,將網(wǎng)絡(luò)中的數(shù)據(jù)報(bào)文進(jìn)行TCP重組還原。通過HTTP協(xié)議分析、URL編解碼、字符集編解碼轉(zhuǎn)換等等步驟,將論壇中用戶發(fā)表的帖子內(nèi)容還原并保存。由于本系統(tǒng)主要處理文字相關(guān)的信息內(nèi)容,因此在保存之前還需要做一步數(shù)據(jù)凈化,過濾系統(tǒng)中用不到的數(shù)據(jù)部分,如圖像、視頻、聲音、樣式表等數(shù)據(jù),避免給系統(tǒng)產(chǎn)生干擾數(shù)據(jù)。數(shù)據(jù)過濾后,還原用戶訪問論壇的雙向數(shù)據(jù),上行數(shù)據(jù)處理部分主要包括獲取用戶名和密碼,發(fā)表帖子的內(nèi)容。根據(jù)主題、作者、作者的IP、發(fā)布時(shí)間、發(fā)布內(nèi)容等相關(guān)項(xiàng)生成xml格式的文件,文件名稱為論壇帖子的ID號(hào)。下行數(shù)據(jù)主要根據(jù)系統(tǒng)需要記錄訪問者IP地址、訪問頁(yè)面、訪問頁(yè)面的標(biāo)題、訪問時(shí)間、訪問頁(yè)面的內(nèi)容等等進(jìn)行存儲(chǔ),以供數(shù)據(jù)分析模塊使用。

3.3 數(shù)據(jù)分析模塊

數(shù)據(jù)分析模塊主要由三部分組成,高頻訪問分析模塊、高頻討論分析模塊、熱門話題分析模塊。這部分是系統(tǒng)的關(guān)鍵部分。高頻訪問分析模塊,主要分析出當(dāng)前用戶訪問最多的網(wǎng)絡(luò)頁(yè)面,高頻討論分析模塊主要分析當(dāng)前最熱門的討論話題,熱門話題分析模塊主要分析出當(dāng)前討論的主題熱門詞集。

3.3.1 高頻訪問分析模塊

如果將訪問高校論壇的網(wǎng)頁(yè)流看成數(shù)據(jù)流,將熱門的主題看作頻繁項(xiàng)。那么從實(shí)時(shí)的網(wǎng)絡(luò)流中可以發(fā)現(xiàn),高校論壇中大家訪問的熱門主題的問題本質(zhì)上就是數(shù)據(jù)流中的頻繁模式挖掘問題,訪問頁(yè)面的URL即是頻繁集中的數(shù)據(jù)流。

數(shù)據(jù)流頻繁模式挖掘指,給定支撐度閾值s∈[0,1],對(duì)輸入數(shù)據(jù)流 X=(x1,x2,……,xi,……),在任意時(shí)刻都能輸出當(dāng)前出現(xiàn)頻率超過s·n的數(shù)據(jù)項(xiàng)列表,其中n是當(dāng)前數(shù)據(jù)流的長(zhǎng)度。通常的挖掘策略有[5]:抽樣法、滑動(dòng)窗口法、直方圖法、哈希法、計(jì)數(shù)法和Sketch法。計(jì)數(shù)策略中的LC(Lossy Counting)[6]算法是目前最為有效的方法之一,Lossy Counting算法的基本思想是:在主存中維護(hù)數(shù)據(jù)流的一個(gè)樣本集合,每當(dāng)數(shù)據(jù)流到來一個(gè)數(shù)據(jù)項(xiàng),若其值已經(jīng)出現(xiàn)在樣本集合中,則將相應(yīng)的計(jì)數(shù)器加1;否則,將新到的數(shù)據(jù)項(xiàng)以及該數(shù)據(jù)項(xiàng)此前在數(shù)據(jù)流中出現(xiàn)頻率的上界(估計(jì)值)加入到樣本集合中.數(shù)據(jù)流每到來1/ε個(gè)數(shù)據(jù)項(xiàng),Lossy Counting算法對(duì)樣本集合進(jìn)行一次掃描,刪除其中頻率低于εN的樣本。Lossy Counting算法的空間復(fù)雜度為 O(1/εlogεN)[6]。本系統(tǒng)在 LC 算法基礎(chǔ)上,設(shè)計(jì)了改進(jìn)型LC算法,采用差值編碼的有序雙向鏈表,其中差值編碼雙向鏈表的數(shù)據(jù)結(jié)構(gòu)包括一張散列表和一條雙向鏈表。散列表中每個(gè)節(jié)點(diǎn)存儲(chǔ)一個(gè)計(jì)數(shù)器指針,雙向鏈表中每個(gè)節(jié)點(diǎn)包含兩部分:一部分存儲(chǔ)與前一節(jié)點(diǎn)計(jì)數(shù)差值,但首節(jié)點(diǎn)存儲(chǔ)實(shí)際計(jì)數(shù)值;另一部分存儲(chǔ)一條計(jì)數(shù)器隊(duì)列,且隊(duì)列中的計(jì)數(shù)器具有相等計(jì)數(shù)值。計(jì)數(shù)器按升序在鏈表中排列,頭結(jié)點(diǎn)的計(jì)數(shù)器存儲(chǔ)數(shù)據(jù)項(xiàng)實(shí)際出現(xiàn)的次數(shù),其他結(jié)點(diǎn)的計(jì)數(shù)器存儲(chǔ)和前一結(jié)點(diǎn)的計(jì)數(shù)器的差值,這樣只需要修改頭結(jié)點(diǎn)的計(jì)數(shù)器值就可以在常數(shù)時(shí)間內(nèi)將所有的計(jì)數(shù)器減1。從而整個(gè)算法的時(shí)間復(fù)雜性就變成了O(1),相比LC的O(log(εN)),有了極大地提升。算法描述如下:

把持續(xù)到來的數(shù)據(jù)流分成若干個(gè)桶,每個(gè)桶的大小相等w=「1/ε?,對(duì) bucket從1開始編號(hào),Bcurrent表示當(dāng)前桶編號(hào)。ε是預(yù)先定義的誤差界,s是用戶指定的支撐度閾值,n表示當(dāng)前數(shù)據(jù)流的長(zhǎng)度,f表示數(shù)據(jù)項(xiàng)e的計(jì)數(shù)器,fe表示e的真實(shí)頻率,(e,f)表示數(shù)據(jù)項(xiàng)e在內(nèi)存中的摘要數(shù)據(jù)結(jié)構(gòu),D為摘要數(shù)據(jù)結(jié)構(gòu)的集合。

Procedure改進(jìn)型LC

(1)初始化 D=φ,n=0,w=「1/ε?

(2)For(每一個(gè)數(shù)據(jù)項(xiàng)e){

(3)總數(shù)據(jù)長(zhǎng)度n加1

(4)If(數(shù)據(jù)項(xiàng)e在數(shù)據(jù)集合D中){

(5)數(shù)據(jù)項(xiàng)e的計(jì)數(shù)器f加1

(6)}Else{

(7)將數(shù)據(jù)項(xiàng)e加入到集合D中,e的計(jì)數(shù)器加1

(8)}

(9)If數(shù)據(jù)項(xiàng)長(zhǎng)度n與桶w大小相等){(10)數(shù)據(jù)集合D中每一個(gè)元素的計(jì)數(shù)器減1

(11)移除數(shù)據(jù)集合D中所有計(jì)數(shù)器為0的元素(12)}

(13)If(如果查詢集合中高頻元素){

(14)返回集合D中所有頻率f≥(s-ε)·n的元素

(15)}

(16)}

3.3.2 高頻討論分析模塊

高頻分析討論模塊調(diào)用數(shù)據(jù)分析還原模塊的生成的xml文件,按照自定義xml文件的格式,將用戶Ip、訪問時(shí)間、帖子主題、帖子內(nèi)容等等信息存入數(shù)據(jù)庫(kù)中。通過Mysql數(shù)據(jù)庫(kù)的觸發(fā)器和存儲(chǔ)過程可以從數(shù)據(jù)庫(kù)很方便的得出當(dāng)前論壇中一定時(shí)間周期如小時(shí)、天、周、月、年內(nèi)論壇用戶討論最積極的帖子編號(hào),回帖數(shù)目等等相關(guān)信息,以及發(fā)帖量最多的用戶,通過這些信息,高校的學(xué)生工作者可以很方便的得到當(dāng)前熱點(diǎn)討論話題、或者論壇上最活躍的用戶,來確定下一步需要重點(diǎn)跟蹤的話題或者用戶。

3.3.3 熱門話題分析模塊

熱門話題分析模塊主要由分詞部分和主題聚類兩部分組成。

分詞部分采用中科院的ICTCIAS(Institute of Computing Technology,Chinese Lexical Analysis System)分詞系統(tǒng)。ICTCLAS采用了層疊隱馬爾可夫模型[7](Hierarchical Hidden Markov Model),將漢語詞法分析的所有環(huán)節(jié)都統(tǒng)一到一個(gè)完整的理論框架中,該系統(tǒng)支持自定義詞典,為了讓系統(tǒng)的分詞系統(tǒng)分詞更加準(zhǔn)確,系統(tǒng)將學(xué)校的院系、教師、專業(yè)、地名等等信息加入自定義詞典。通過讀取數(shù)據(jù)還原部分生成的xml文件,將每個(gè)帖子的內(nèi)容進(jìn)行分詞和詞性標(biāo)記,并且通過對(duì)詞性的過濾,只保留名詞和動(dòng)詞,來盡可能縮小程序所占用的存儲(chǔ)空間,并且盡量保留原句的涵義,下一步對(duì)剩余詞語進(jìn)行分析。并且根據(jù)論壇帖子編號(hào)進(jìn)行索引文檔的建立,建立正序索引和倒序索引。

正序索引:帖子中出現(xiàn)詞語1帖子中出現(xiàn)詞語2……帖子中出現(xiàn)的詞語n。

倒序索引:詞語出現(xiàn)在帖子中的編號(hào)ID1、ID2。

然后通過增量層次聚類的方式將帖子中的詞語進(jìn)行聚類得到論壇中討論的熱門話題詞集。增量層次聚類算法描述如下。

(1)聚類部分算法描述

步驟一、通過對(duì)一部分固定帖子進(jìn)行聚類,產(chǎn)生聚類結(jié)果,并產(chǎn)生高頻詞集。同時(shí),存儲(chǔ)每個(gè)類別所產(chǎn)生的所有詞語和對(duì)應(yīng)詞頻,存儲(chǔ)到外存之中。

步驟二、增量獲取帖子內(nèi)容,放入待處理帖子集中。對(duì)待處理帖子集中的文本設(shè)置處理閾值,文本集中的文本數(shù)量到達(dá)閾值的時(shí)候,開始處理集合中的文本。首先,按照以往的模塊將文本預(yù)處理,包括分詞,詞性過濾等步驟。然后將每個(gè)帖子與已經(jīng)產(chǎn)生的類別的高頻詞集中的詞語進(jìn)行匹配。當(dāng)帖子與高頻詞集中部分或者全部詞語相匹配時(shí),計(jì)算匹配詞語的皮爾遜相似度。

假設(shè)帖子中的詞語(a1,……ai)與高頻詞集中的(b1,……bi)相匹配,它們對(duì)應(yīng)的詞頻值為(va1,……vai)和(vb1,……vbi),那么采用皮爾遜距離的相似度計(jì)算公式就是:

為其設(shè)定閾值為α,當(dāng)r≥α?xí)r,就要將該帖子放入已經(jīng)存在類別當(dāng)中,如果r<α,就要將其放入待聚類的集合中。

步驟三、當(dāng)匹配完所有的待處理帖子集合中的所有帖子之后,就可以來處理待聚類集合中的帖子。將這個(gè)集合中的帖子采用層次聚類算法進(jìn)行聚類,這樣會(huì)產(chǎn)生新的類別,同時(shí),將新產(chǎn)生的類別中的高頻集與之前類別的高頻詞集放在一起,完成本次增量聚類。

(2)更新部分算法描述

步驟一、將新加入該類別的帖子的詞語和高頻集合有序放入該類別原始的詞語權(quán)重集合中,如果符合高頻詞標(biāo)準(zhǔn)的詞語有變化,更新高頻詞集。

步驟二、對(duì)有帖子加入原始類別的,需要將新加入類別的貼子所有詞語和對(duì)應(yīng)詞頻加入到原始類別的詞語集合中,并按照高頻詞集選取的方法,更新原有的高頻詞集。

通過上述算法、就能夠得到討論話題對(duì)應(yīng)主題的高頻詞集。

3.4 系統(tǒng)監(jiān)控管理模塊

系統(tǒng)監(jiān)控管理模塊主要控制某部分主題的訪問范圍,達(dá)到話題裁剪的目的。

系統(tǒng)監(jiān)控管理模塊通過web界面提供人機(jī)交互界面,管理員可以自己添加自定義的關(guān)鍵字、也可以從聚類分析中分析出來的高頻詞中選擇,關(guān)鍵字內(nèi)容可以為網(wǎng)頁(yè)的URL、也可以為具體的詞語。由于論壇討論的主題具有時(shí)間性,系統(tǒng)可以通過關(guān)鍵字添加附加屬性如關(guān)鍵字生效的時(shí)間、生效的范圍(校內(nèi)或者校外)來限制帖子中包含有相關(guān)關(guān)鍵字內(nèi)容的訪問范圍。

為了能夠快速地在大流量的網(wǎng)絡(luò)數(shù)據(jù)中檢測(cè)出敏感信息,并且及時(shí)進(jìn)行限制或者阻斷敏感信息,系統(tǒng)采用多模快速的字符串匹配技術(shù),掃描一遍數(shù)據(jù)流就能判斷是否有敏感信息出現(xiàn),從而可以快速發(fā)送阻斷數(shù)據(jù)包,保證了限制帖子訪問的有效性。此管理模塊由協(xié)議分析還原模塊調(diào)用,系統(tǒng)在作分析還原時(shí)進(jìn)行關(guān)鍵字匹配。此模塊構(gòu)造了兩個(gè)自動(dòng)機(jī)匹配模塊,第一個(gè)是帖子的URL地址、主要用于對(duì)論壇進(jìn)行URL過濾;第二個(gè)是帖子中具體的關(guān)鍵字內(nèi)容,主要用于討論主題具體內(nèi)容過濾。當(dāng)系統(tǒng)匹配到敏感關(guān)鍵字時(shí)系統(tǒng)根據(jù)關(guān)鍵字預(yù)指定的策略采用相應(yīng)的措施,放行或阻止。并且記錄該行為的日志,可以通過這些日志分析出論壇中那些用戶訪問敏感信息最頻繁,那些主題信息被訪問頻繁,給管理員管理論壇提供更直觀的數(shù)據(jù),更好的管理好論壇數(shù)據(jù)。

4 系統(tǒng)運(yùn)行結(jié)果與分析

系統(tǒng)運(yùn)行的操作系統(tǒng)為Red Hat Enterprise5,機(jī)器配置,CPU為 P4雙核處理器,硬盤320G,內(nèi)存4G,數(shù)據(jù)庫(kù)為Mysql5.3,編程語言為C語言。

系統(tǒng)檢測(cè)環(huán)境為觀海聽濤論壇。系統(tǒng)在4月份開始運(yùn)行,能夠準(zhǔn)確分析出當(dāng)前論壇中討論的熱點(diǎn)話題,每天訪問討論的熱點(diǎn)話題。比如我校在4.26日宣布對(duì)院系進(jìn)行合并,主要關(guān)系到幾個(gè)院系的合并。接下來的兩三天,學(xué)校論壇討論的熱點(diǎn)話題都是圍繞院系合并來進(jìn)行。系統(tǒng)對(duì)這些天的帖子聚類結(jié)果為:Cluster 1:計(jì)算機(jī)學(xué)院/un、軟件學(xué)院/un、學(xué)位證/n、學(xué)費(fèi)/n、畢業(yè)證/n、排序/n、合并/v、廣電/un、計(jì)算機(jī)/un;

聚類結(jié)果跟實(shí)際主題中討論的內(nèi)容基本一致。系統(tǒng)能夠準(zhǔn)確發(fā)現(xiàn)每天論壇訪問的熱點(diǎn)主題和討論的最熱門主題,同時(shí)能夠聚類出討論的關(guān)鍵詞集。

對(duì)于系統(tǒng)管理部分,為了測(cè)試系統(tǒng)的管理功能,分別設(shè)置了50個(gè)過期頁(yè)面的URL和100個(gè)關(guān)鍵字、在學(xué)校內(nèi)部進(jìn)行了測(cè)試、對(duì)于URL的訪問、系統(tǒng)均能夠成功阻斷、阻斷率為97%左右,而對(duì)于關(guān)鍵字的阻斷由于系統(tǒng)工作于旁路模式、關(guān)鍵字在頁(yè)面中出現(xiàn)的位置以及網(wǎng)絡(luò)速度的影響,阻斷成功率在95%左右,說明系統(tǒng)管理模塊功能非常有效。阻斷成功后,用戶通常在瀏覽器看到的結(jié)果有:空白的頁(yè)面遲遲打不開、顯示連接被重置、顯示頁(yè)面無法打開等。

5 結(jié)束語

針對(duì)傳統(tǒng)采用爬蟲的高校BBS輿情發(fā)現(xiàn)技術(shù)實(shí)時(shí)性和精準(zhǔn)性差、開銷大的缺點(diǎn),提出了基于旁路模式分析還原BBS論壇帖子及URL數(shù)據(jù)作為論壇熱點(diǎn)發(fā)現(xiàn)數(shù)據(jù)源,設(shè)計(jì)了一套輿情監(jiān)測(cè)管理系統(tǒng),有效分析出論壇的熱點(diǎn)討論內(nèi)容。系統(tǒng)經(jīng)過試運(yùn)行,系統(tǒng)能夠準(zhǔn)確發(fā)現(xiàn)論壇中的熱點(diǎn)話題,并且有效控制主題的訪問范圍。如果系統(tǒng)稍作適當(dāng)修改,可以應(yīng)用到別的類型的論壇、微博、博客等系統(tǒng)的輿情分析和管理、具有一定的通用性。

[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第27次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:CNNIC,2011.http://www.cnnic.cn/research/bgxz/tjbg/201101/P020110221534255749405.pdf.

[2] Mark Levene,George Loizou.Zipf's Law for Web Surfers[J].Knowledge and Information Systems,2001(3):120-129.

[3] 葛玲,蔣宗禮.基于共現(xiàn)詞查詢的主題爬蟲研究[J].計(jì)算機(jī)工程,2010(4):286-288.

[4] 王佰玲,方濱興,云曉春.零拷貝報(bào)文捕獲平臺(tái)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)學(xué)報(bào),2005(1):46-52.

[5] 屠莉.流數(shù)據(jù)的頻繁項(xiàng)挖掘及聚類的關(guān)鍵技術(shù)研究[D].南京:南京航空航天大學(xué),2009:8-11.

[6] G S Manku,R Motwani.Approximate Frequency Counts Over Data Streams.Proceedings of the 28th International Conference on VLDB[C].Hong Kong,China,2002(8):346-357.

[7] Zhang Hua-Ping,Liu Qun,Cheng Xue-Qi,et al.Chinese lexical analysis using hierarchical hidden Markov model:Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17[C].Sapporo,Japan,2003.Association for Computational Linguistics,2003:63-70.

猜你喜歡
系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
基于PowerPC+FPGA顯示系統(tǒng)
基于UG的發(fā)射箱自動(dòng)化虛擬裝配系統(tǒng)開發(fā)
半沸制皂系統(tǒng)(下)
FAO系統(tǒng)特有功能分析及互聯(lián)互通探討
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統(tǒng) 德行天下
PLC在多段調(diào)速系統(tǒng)中的應(yīng)用
主站蜘蛛池模板: 亚洲午夜国产精品无卡| 国产超碰在线观看| 欧美精品亚洲二区| 国产精品久久久久婷婷五月| 久久这里只精品国产99热8| 性欧美久久| 8090成人午夜精品| 免费人欧美成又黄又爽的视频| 国产成人综合亚洲网址| 午夜福利无码一区二区| 另类重口100页在线播放| 国产精品女主播| 中文字幕人妻无码系列第三区| 久久午夜夜伦鲁鲁片不卡| 91在线无码精品秘九色APP| 亚洲国产av无码综合原创国产| 亚洲AV免费一区二区三区| 女人毛片a级大学毛片免费| 欧美日韩北条麻妃一区二区| 国产欧美中文字幕| 国产日韩精品欧美一区灰| 日韩欧美国产三级| 五月丁香在线视频| 国产农村妇女精品一二区| 高清久久精品亚洲日韩Av| 全午夜免费一级毛片| 亚洲一区二区三区中文字幕5566| 老熟妇喷水一区二区三区| 日韩在线播放中文字幕| 少妇极品熟妇人妻专区视频| 97视频精品全国免费观看| 国产女人水多毛片18| 福利视频一区| 91成人试看福利体验区| 国产免费人成视频网| 久久亚洲中文字幕精品一区| 国产精品久久久久久搜索| 亚洲品质国产精品无码| 中文字幕在线看| 日韩精品一区二区三区大桥未久| 亚洲欧洲日韩综合色天使| 久久香蕉国产线看观| 亚洲,国产,日韩,综合一区| 精品少妇人妻av无码久久| 小说区 亚洲 自拍 另类| 国产无码精品在线播放| 国模视频一区二区| 黄色在线不卡| 制服丝袜一区| 国产一区二区三区精品久久呦| 欧美精品黑人粗大| 中文字幕永久视频| 国产精品开放后亚洲| 2020最新国产精品视频| 青青操视频免费观看| 亚洲 成人国产| 日韩123欧美字幕| 成人福利视频网| 91青青草视频在线观看的| 国产丝袜第一页| 精品成人免费自拍视频| 99在线观看精品视频| 91一级片| 国产成人你懂的在线观看| 国产小视频网站| 午夜电影在线观看国产1区| 亚洲高清中文字幕在线看不卡| 91免费观看视频| 国产在线视频导航| 欧美亚洲综合免费精品高清在线观看 | 国产亚洲视频在线观看| 欧美视频在线不卡| 九九这里只有精品视频| av在线手机播放| 2021亚洲精品不卡a| 91福利一区二区三区| 又粗又硬又大又爽免费视频播放| 免费看的一级毛片| 亚洲无码免费黄色网址| 91视频区| 欧美第九页| 国产99视频在线|