999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)*

2014-10-10 07:33:18劉志兵
長沙大學(xué)學(xué)報(bào) 2014年5期

劉志兵

(長沙大學(xué)附屬中學(xué),湖南長沙 410022)

高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)*

劉志兵

(長沙大學(xué)附屬中學(xué),湖南長沙 410022)

立足于對(duì)高校網(wǎng)絡(luò)這一校內(nèi)主要輿論平臺(tái)的監(jiān)控的實(shí)際需要,結(jié)合中文信息處理領(lǐng)域中網(wǎng)絡(luò)爬蟲、網(wǎng)頁除噪、特征提取、文本分類等技術(shù),給出了一種高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方案,并通過實(shí)驗(yàn)驗(yàn)證了系統(tǒng)的有效性.

網(wǎng)絡(luò)輿情;數(shù)據(jù)挖掘;網(wǎng)絡(luò)爬蟲;聚類分析

2014年11月,CNNIC第33次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》表明,至2013年12月,我國網(wǎng)民已達(dá)到6.18億.在高校校園,網(wǎng)絡(luò)已經(jīng)成為在校大學(xué)生獲取信息、表達(dá)意見、參與社會(huì)事務(wù)的重要平臺(tái),是網(wǎng)絡(luò)社會(huì)的重要力量.在這一虛擬空間里,國內(nèi)外的一些重大突發(fā)事件以及高校內(nèi)的熱點(diǎn)問題都會(huì)在很短時(shí)間內(nèi)引發(fā)在校學(xué)生的關(guān)切,當(dāng)主題逐漸收斂為特定對(duì)象,就形成了網(wǎng)絡(luò)輿情現(xiàn)象.本文將基于網(wǎng)頁信息挖掘技術(shù),針對(duì)輿情監(jiān)控系統(tǒng)展開研究.

1 網(wǎng)絡(luò)輿情研究現(xiàn)狀

目前,在國內(nèi)學(xué)術(shù)界,針對(duì)于“網(wǎng)絡(luò)輿情”這一概念,還沒有形成統(tǒng)一的認(rèn)識(shí)[1].其中“網(wǎng)絡(luò)輿情是由各種社會(huì)群體構(gòu)成的公眾,在一定的社會(huì)空間內(nèi),對(duì)自己關(guān)心或與自身利益緊密相關(guān)的各種公共事務(wù)所持有的多種情緒、態(tài)度和意見交錯(cuò)的總和”這一表述較為普便認(rèn)同.

在國際上,網(wǎng)絡(luò)輿情的研究方向主要有兩個(gè):一是基于自然語言的處理,其關(guān)鍵技術(shù)有中英文分詞技術(shù)和未登錄詞鑒別.而就熱點(diǎn)發(fā)現(xiàn)的研究,基于論壇的信息、環(huán)境、目標(biāo)的共享等多種度量指標(biāo),則采用多維向量技術(shù)來度量話題活性的方法.二是利用數(shù)據(jù)挖掘技術(shù),研究熱點(diǎn)的發(fā)現(xiàn).利用網(wǎng)絡(luò)的復(fù)雜特性對(duì)內(nèi)容進(jìn)行分聚類.該技術(shù)基于網(wǎng)絡(luò)無尺度網(wǎng)絡(luò),即:Scale-Free,此類技術(shù)立足于Web特性和數(shù)據(jù)挖掘.

2 系統(tǒng)功能實(shí)現(xiàn)分析

為了測試系統(tǒng)功能的有效性,將本系統(tǒng)部署在湖南省長沙某高校校園網(wǎng)絡(luò)內(nèi),輿情分析監(jiān)控系統(tǒng)重點(diǎn)關(guān)校內(nèi)某學(xué)生論壇的輿情數(shù)據(jù).系統(tǒng)開發(fā)語言為JAVA;數(shù)據(jù)庫軟件為MySQL;開發(fā)工具為MyEclipes6;采用為B/S架構(gòu),主程序運(yùn)行在Linux 2.6.32環(huán)境中,中間件采用為Tomcat6.0.24,下圖1,為網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的工作流程和主要功能模塊.

2.1 信息采集模塊

信息采集模塊負(fù)責(zé)本系統(tǒng)的對(duì)校園網(wǎng)上各類網(wǎng)站論壇上頁面的數(shù)據(jù)抓取,并為此后進(jìn)行信息分析提數(shù)據(jù)來源.在校園網(wǎng)中的各類網(wǎng)站、論壇web頁中,蘊(yùn)涵了非常多的數(shù)據(jù)信息,且此類頁面以半結(jié)構(gòu)化或者是非結(jié)構(gòu)化形式存儲(chǔ)數(shù)據(jù),并處于時(shí)刻更新的狀態(tài),所以,系統(tǒng)就必須具備一個(gè)信息采集模塊,負(fù)責(zé)對(duì)輿情信息進(jìn)行有效收集,其工作流程如下圖2所示.

圖1 系統(tǒng)工作流程和主要功能模塊

圖2 系統(tǒng)采集模塊的工作流程

輿情信息采集是指對(duì)網(wǎng)頁的抓取和相關(guān)數(shù)據(jù)的存儲(chǔ),網(wǎng)頁抓取基于網(wǎng)絡(luò)爬蟲技術(shù).第一步,利用頁面數(shù)據(jù)采集器,從初始數(shù)據(jù)集開始,將此類URL鏈接信息都存儲(chǔ)在一個(gè)有序的、等待收集的隊(duì)列之中;第二步,根據(jù)順序獲取URL信息,定向的所指網(wǎng)頁,并返回得到頁面文件.第三步,通過分析已獲取的網(wǎng)頁鏈接信息,生成下一步需要采集的頁面的鏈接信息,并再次將其重新放入待采集的隊(duì)列中,通過不斷重復(fù)以上步驟,直到目標(biāo)網(wǎng)站所有頁面或者預(yù)設(shè)層級(jí)頁面被全部抓取.為了提高效率,系統(tǒng)設(shè)計(jì)了幾個(gè)信息采集器并行采集數(shù)據(jù),即多線程地爬行多個(gè)網(wǎng)頁并存儲(chǔ)網(wǎng)頁源碼.另外,為提高采集頁面效率,可使用基于特定主題的定向抓取技術(shù),如:主題網(wǎng)絡(luò)爬蟲.該技術(shù)是通過一定的web分析算法,先過濾掉和指定主題無關(guān)的URL,再將有用連接信息存入等待抓取的隊(duì)列之中,依據(jù)預(yù)設(shè)主題,對(duì)頁面連接與已下載內(nèi)容進(jìn)行分析,從而預(yù)測出,下步需要進(jìn)行抓取的連接以及當(dāng)前web頁的主題關(guān)聯(lián)性,確保爬蟲對(duì)于頁面下載的有效性.本系統(tǒng)模塊具體要求滿足兩類操作,一是對(duì)普通瀏覽網(wǎng)頁的抓取,二是對(duì)用戶信息的抓取,采用的技術(shù)主要是網(wǎng)絡(luò)爬蟲技術(shù).

(1)對(duì)網(wǎng)頁的爬取

本文系統(tǒng)利用網(wǎng)絡(luò)爬蟲技術(shù),根據(jù)網(wǎng)頁或者論壇頁面結(jié)構(gòu)進(jìn)行過濾爬取選定的URL所指頁面,分別存放在系統(tǒng)中的:forum、board、rootboard、post文件夾中.并為后續(xù)信息理提供基礎(chǔ)數(shù)據(jù).具體方法如下:

設(shè)置爬取深度“1”,對(duì)網(wǎng)站或者論壇頁面進(jìn)行爬取.URL過濾規(guī)則是依照對(duì)其鏈接進(jìn)行字符串鑒別.對(duì)符合規(guī)則的爬取下載頁面,按照時(shí)間分別存放到系統(tǒng)中相應(yīng)文件夾中.

(2)用戶信息爬取

用戶的信息爬取,必須模擬登陸后方能操作,具體分為模擬登陸和爬取信息兩個(gè)部分.爬取的注冊(cè)用戶信息格式如下形式:

2.2 信息預(yù)處理模塊

在已抓取的頁面之中,除了有用的正文信息外,還存在大量的其他無用信息內(nèi)容,如:菜單導(dǎo)航、網(wǎng)站版權(quán)、友情鏈接等,不同于結(jié)構(gòu)化數(shù)據(jù),web中的數(shù)據(jù)多為半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù),其形式非常復(fù)雜,所以,一般程序就難以對(duì)此類原始數(shù)據(jù)直接進(jìn)行分析和處理.而系統(tǒng)中的信息預(yù)處理模塊,其主要負(fù)責(zé)的工作,就是對(duì)網(wǎng)頁進(jìn)行無用信息的清洗除噪,并對(duì)內(nèi)容、特征以及關(guān)鍵詞等進(jìn)行提取工作,下圖3所示,即為此模塊的工作流程.

圖3 系統(tǒng)信息預(yù)處理模塊流程

(1)頁面除噪和內(nèi)容提取:如前所述,由于web頁中含有大量的除正文外的噪聲信息,另外,在頁面語義內(nèi)聚性上很難保證,一個(gè)網(wǎng)頁中,往往有若干個(gè)與語義無關(guān)內(nèi)容,因此首先進(jìn)行頁面除噪,將對(duì)后續(xù)的數(shù)據(jù)挖掘效果起到非常重要的作用.該項(xiàng)工作的目標(biāo)是從網(wǎng)頁里獲得更加精確的數(shù)據(jù)信息單位,過濾掉如:頁面導(dǎo)航、標(biāo)注、廣告等垃圾信息.在完成除噪后,通過內(nèi)容提取,系統(tǒng)將半結(jié)構(gòu)或者非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂薪Y(jié)構(gòu)化模式的,且可操作的信息.在本網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)里,內(nèi)容的提取,是依據(jù)以下兩步完成:第一步,web頁邏輯結(jié)構(gòu)的解釋;第二步,針對(duì)特定元素內(nèi)容的篩擇.

(2)特征和關(guān)鍵詞提取:特征提取,就是從文本分詞處理后的文檔當(dāng)中,獲取有效信息的技術(shù)方式.經(jīng)常使用的是:基于詞義、詞性特征的提取方法.本系統(tǒng)采用的就是基于詞性的特征提取.第一步,獲取文本內(nèi)容里的動(dòng)詞、名詞等,并將其定義為該文本1級(jí)特征詞,再通過計(jì)算此級(jí)別特征詞的文本頻數(shù)以及文檔頻數(shù),進(jìn)而得到其權(quán)重值.第二步,依據(jù)先前得到的特征詞的各權(quán)重值,對(duì)此類1級(jí)特征詞實(shí)施排序,并預(yù)設(shè)K,為閾值,然后在此類詞中,選出權(quán)重值較大的1級(jí)特征詞,K個(gè),作為核心特征詞,進(jìn)而生成表示該文本的特征向量.

2.3 輿情分析與預(yù)警模塊

輿情分析是本系統(tǒng)當(dāng)中最為關(guān)鍵的一個(gè)處理模塊,該模塊基于文本分類和聚類等方法,對(duì)先前預(yù)處理后的輿情數(shù)據(jù)進(jìn)行深入挖掘和分析,并以此提供“話題發(fā)現(xiàn)”和“熱點(diǎn)跟蹤”,下圖4,即為輿情分析模塊的工作流程.

圖4 輿情分析功能模塊流程

(1)話題發(fā)現(xiàn)與跟蹤:話題發(fā)現(xiàn)功能是將信息內(nèi)容歸入不同的話題,并在需要的時(shí)候建立新話題,等同于無指導(dǎo)的聚類;話題追蹤負(fù)責(zé)追蹤用戶選定興趣話題的后續(xù)發(fā)展,判斷出與之相關(guān)事件[4].此類功能的實(shí)現(xiàn)采用的是文本聚類分析技術(shù).聚類分析就參照一定規(guī)律要求對(duì)事物進(jìn)行區(qū)分的過程,把內(nèi)容相近的文檔進(jìn)行歸納.聚類分析,其數(shù)學(xué)描述如下[5]:

針對(duì)一個(gè)特定的數(shù)據(jù)樣本集合:

依照集合中數(shù)據(jù)點(diǎn)的相似程度,將數(shù)據(jù)的樣本集合分成若干個(gè)簇

的過程,我們就稱其為:聚類的分析.

典型應(yīng)用是作為一個(gè)獨(dú)立的工具透視數(shù)據(jù)分布.

基本步驟如下:

第一步,指定一個(gè)數(shù)據(jù)集合作為聚類.

第二步,選取文檔中的數(shù)據(jù)特征.

第三步,按照特征,聚合文檔到對(duì)應(yīng)類.

第四步,選擇關(guān)鍵詞,對(duì)聚類進(jìn)行標(biāo)記.

在實(shí)際應(yīng)用當(dāng)中,我們最為常見的文本聚類算法有基于網(wǎng)格的方法,還有層次型、分割型等聚類算法.

(2)敏感話題識(shí)別:此項(xiàng)功能,是用于分析特定主題在不同時(shí)段之中,被瀏覽者關(guān)注的程度.在互聯(lián)網(wǎng)里,話題往往會(huì)根據(jù)時(shí)間的推移,或者某類事件的發(fā)生,出現(xiàn)一定的規(guī)律變動(dòng).經(jīng)過研究,可以發(fā)現(xiàn),小規(guī)模話題,即使觀點(diǎn)對(duì)立度在一定時(shí)段中變化較快,但因?yàn)槿藗儏⑴c話題規(guī)模不大,無法代表多數(shù)人意見,故,在進(jìn)行敏感話題識(shí)別時(shí),就必須還要結(jié)合話題參與規(guī)模、網(wǎng)民觀注度這些要素,找出輿情在一定時(shí)段中的相關(guān)網(wǎng)頁數(shù)量,只有能夠都滿足參與規(guī)模數(shù)、觀點(diǎn)對(duì)立度兩個(gè)閾值,系統(tǒng)才可以啟動(dòng)預(yù)警.

(3)輿情預(yù)警:此模塊提供輿情監(jiān)控系統(tǒng)和用戶之間的各類交互操作,可以通過報(bào)表、圖型等方式,將經(jīng)過系統(tǒng)分析后的結(jié)果最終反饋給管理者.其中常見功能如:敏感話題趨勢、熱點(diǎn)話題排序等,系統(tǒng)通過此類直觀交互性展示信息,能使管理者對(duì)各類熱點(diǎn)敏感信息的進(jìn)行在線分析,及時(shí)把握輿情變化趨勢,必要時(shí),系統(tǒng)還能實(shí)現(xiàn)預(yù)警的自動(dòng)觸發(fā).而預(yù)警功能是檢驗(yàn)本系統(tǒng)實(shí)際應(yīng)用效果的一個(gè)關(guān)鍵指標(biāo)項(xiàng),為此本系統(tǒng)針對(duì)該模塊功能進(jìn)行了如下評(píng)價(jià)測試.

①評(píng)價(jià)標(biāo)準(zhǔn):輿情預(yù)警能對(duì)系統(tǒng)分析出的熱點(diǎn)詞匯、敏感詞匯等要素對(duì)獲取的網(wǎng)頁信息進(jìn)行二次處理,并有效提供管理者查詢分析使用.

②實(shí)驗(yàn)環(huán)境:系統(tǒng)針對(duì)特定敏感詞“聚會(huì)”,對(duì)從論壇下載的網(wǎng)頁進(jìn)行篩選,整理出符合條件的網(wǎng)頁信息結(jié)果.實(shí)驗(yàn)的硬件配置為戴爾PowerEdge T110塔式服務(wù)器,CPU:Xeon E3-1220,內(nèi)存:1GB,系統(tǒng)環(huán)境:Windows 2003.

③結(jié)果分析

圖5 輿情預(yù)警對(duì)敏感詞的篩選結(jié)果

以上結(jié)果可以看出,本系統(tǒng)輿情預(yù)警服務(wù)能針對(duì)熱詞、敏感詞、關(guān)鍵字進(jìn)行有效篩選,能為管理者及時(shí)提供預(yù)警信息幫助.

3 結(jié)語

加強(qiáng)高校校園網(wǎng)上網(wǎng)站、論壇BBS上的網(wǎng)絡(luò)輿情信息監(jiān)控,及時(shí)追蹤校園網(wǎng)上的輿情變化趨勢,對(duì)于分析在校大學(xué)生的思想行為特點(diǎn),指導(dǎo)學(xué)生身心健康發(fā)展,引導(dǎo)校園文化和輿論的正確走向都具有非常重要的積極作用.本文中涉及的輿情系統(tǒng)經(jīng)過前期的詳細(xì)論證、認(rèn)真設(shè)計(jì),以及后期的試運(yùn)行分析,已經(jīng)表明系統(tǒng)已具備一定的實(shí)用功效.但由于時(shí)間倉促,在系統(tǒng)的實(shí)際應(yīng)用過程中,我們也發(fā)現(xiàn)了一些問題,這也是我認(rèn)在今后需要進(jìn)行重點(diǎn)改進(jìn)的地方:

(1)系統(tǒng)的輿情分析功能有待加強(qiáng):經(jīng)過一段時(shí)間的運(yùn)行表明,本系統(tǒng)在一些基本功能方面都已具備,在今后的研究當(dāng)中,“文本傾向性分析”技術(shù)的應(yīng)用和優(yōu)化仍然需要重點(diǎn)進(jìn)行改進(jìn)的內(nèi)容.

(2)系統(tǒng)擴(kuò)展性有待加強(qiáng):本次工作中所設(shè)計(jì)實(shí)現(xiàn)的網(wǎng)絡(luò)輿情分析監(jiān)控系統(tǒng)主要還是針對(duì)高校普遍采用的論壇架構(gòu)體系而言,雖然能通過修改相關(guān)XML配置文件和類屬性可以實(shí)現(xiàn)對(duì)不同類型論壇的分析監(jiān)控,但針對(duì)其他如傳統(tǒng)網(wǎng)站、應(yīng)用日志、非HTTP下載應(yīng)用的信息獲取和分析功能還需要進(jìn)一步完善.

(3)系統(tǒng)部署通用性和兼容性:本系統(tǒng)主要部署在校內(nèi)服務(wù)器上,并基于Linux操作系統(tǒng)和Tomcat中間件發(fā)布,目前只應(yīng)用于校內(nèi)論壇的輿情信息的監(jiān)控,如需推廣應(yīng)用,系統(tǒng)就必須綜合考慮不同網(wǎng)絡(luò)環(huán)境、系統(tǒng)架構(gòu)下的兼容性和通用性.

[1]姚占雷,許鑫,趙路平.2005-2009年國內(nèi)網(wǎng)絡(luò)輿情文獻(xiàn)的計(jì)量分析[J].現(xiàn)代情報(bào),2010,(10):174-177.

[2]Franz M,Ward T,McCarley JS,et al.Unsupervised and supervised clustering for topic tracking[A].Proceedingsof the24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].2001.

[3]Alena N.Sematically distinct verb classes involved in sentiment analysis[A].IADIS International Conference Applied Computing[C].2009.

(作者本人校對(duì))

Realization of the Public Opinion M onitoring System of College Network

LIU Zhibing
(The Middle School Attached to Changsha University,Changsha Hunan 410022,China)

Based on the actualneeds of college campus network,amajormediamonitoring platform,and combined with Chinese information processing fields,such asWeb crawler,web noise removal,feature extraction and text classification techniques,this paper provides an implementation method of university network public opinion monitoring system,and verifies the effectiveness of the system through experiments.

network public opinion;datamining;crawlers;cluster analysis

TP391

A

1008-4681(2014)05-0056-03

2014-07-14

劉志兵(1986-),男,湖南長沙人,長沙大學(xué)附屬中學(xué)網(wǎng)絡(luò)工程師,碩士.研究方向:網(wǎng)絡(luò)工程.

主站蜘蛛池模板: 午夜福利视频一区| 日本三区视频| 欧洲av毛片| 国产精品免费入口视频| 青青草原国产av福利网站| 亚洲欧美日韩久久精品| 日韩精品无码一级毛片免费| 亚洲中久无码永久在线观看软件| 亚洲成人精品| 精品国产Ⅴ无码大片在线观看81| 欧美一区二区自偷自拍视频| 精品国产免费观看一区| 色综合五月婷婷| 国产精品美人久久久久久AV| 99久久无色码中文字幕| 欧美在线中文字幕| 香蕉eeww99国产在线观看| 91福利在线看| 综合五月天网| 国产成人综合网| 自拍欧美亚洲| 国产精品美女自慰喷水| 亚洲熟女偷拍| 91视频区| 色噜噜在线观看| 久久国产精品嫖妓| 国产在线精品美女观看| 国产91小视频在线观看| 99精品福利视频| 亚洲无码高清免费视频亚洲 | 欧美成人一级| 91青草视频| 久久亚洲欧美综合| 天天爽免费视频| 国产交换配偶在线视频| 波多野结衣中文字幕久久| 国产伦精品一区二区三区视频优播| 色综合中文字幕| 国产精品女同一区三区五区| 亚洲码一区二区三区| 四虎国产在线观看| 日韩毛片免费观看| 国产精品专区第1页| 欧美精品一区在线看| 国产成人精品在线| 免费人欧美成又黄又爽的视频| 亚洲第一区精品日韩在线播放| 91精品最新国内在线播放| 欧美日韩资源| 色成人综合| 99热6这里只有精品| 久久亚洲黄色视频| 午夜性刺激在线观看免费| 国产原创演绎剧情有字幕的| 97亚洲色综久久精品| 免费国产在线精品一区| 亚洲欧洲天堂色AV| 久久亚洲国产一区二区| 美女免费精品高清毛片在线视| 欧美激情二区三区| 99re热精品视频国产免费| 国产小视频a在线观看| 不卡视频国产| 五月天丁香婷婷综合久久| 欧美日韩成人| 无码精油按摩潮喷在线播放| 国产91透明丝袜美腿在线| 夜夜拍夜夜爽| 国产日本欧美在线观看| 一区二区理伦视频| 无码精油按摩潮喷在线播放| 日韩国产欧美精品在线| 黄色三级网站免费| 精品伊人久久久香线蕉| 四虎亚洲精品| 久久不卡精品| 亚洲精品无码久久毛片波多野吉| 久久精品丝袜| 国产成人综合久久精品尤物| 欧美一级高清视频在线播放| 中文字幕66页| 波多野结衣中文字幕一区二区 |