劉志兵
(長沙大學(xué)附屬中學(xué),湖南長沙 410022)
高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)*
劉志兵
(長沙大學(xué)附屬中學(xué),湖南長沙 410022)
立足于對(duì)高校網(wǎng)絡(luò)這一校內(nèi)主要輿論平臺(tái)的監(jiān)控的實(shí)際需要,結(jié)合中文信息處理領(lǐng)域中網(wǎng)絡(luò)爬蟲、網(wǎng)頁除噪、特征提取、文本分類等技術(shù),給出了一種高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方案,并通過實(shí)驗(yàn)驗(yàn)證了系統(tǒng)的有效性.
網(wǎng)絡(luò)輿情;數(shù)據(jù)挖掘;網(wǎng)絡(luò)爬蟲;聚類分析
2014年11月,CNNIC第33次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》表明,至2013年12月,我國網(wǎng)民已達(dá)到6.18億.在高校校園,網(wǎng)絡(luò)已經(jīng)成為在校大學(xué)生獲取信息、表達(dá)意見、參與社會(huì)事務(wù)的重要平臺(tái),是網(wǎng)絡(luò)社會(huì)的重要力量.在這一虛擬空間里,國內(nèi)外的一些重大突發(fā)事件以及高校內(nèi)的熱點(diǎn)問題都會(huì)在很短時(shí)間內(nèi)引發(fā)在校學(xué)生的關(guān)切,當(dāng)主題逐漸收斂為特定對(duì)象,就形成了網(wǎng)絡(luò)輿情現(xiàn)象.本文將基于網(wǎng)頁信息挖掘技術(shù),針對(duì)輿情監(jiān)控系統(tǒng)展開研究.
目前,在國內(nèi)學(xué)術(shù)界,針對(duì)于“網(wǎng)絡(luò)輿情”這一概念,還沒有形成統(tǒng)一的認(rèn)識(shí)[1].其中“網(wǎng)絡(luò)輿情是由各種社會(huì)群體構(gòu)成的公眾,在一定的社會(huì)空間內(nèi),對(duì)自己關(guān)心或與自身利益緊密相關(guān)的各種公共事務(wù)所持有的多種情緒、態(tài)度和意見交錯(cuò)的總和”這一表述較為普便認(rèn)同.
在國際上,網(wǎng)絡(luò)輿情的研究方向主要有兩個(gè):一是基于自然語言的處理,其關(guān)鍵技術(shù)有中英文分詞技術(shù)和未登錄詞鑒別.而就熱點(diǎn)發(fā)現(xiàn)的研究,基于論壇的信息、環(huán)境、目標(biāo)的共享等多種度量指標(biāo),則采用多維向量技術(shù)來度量話題活性的方法.二是利用數(shù)據(jù)挖掘技術(shù),研究熱點(diǎn)的發(fā)現(xiàn).利用網(wǎng)絡(luò)的復(fù)雜特性對(duì)內(nèi)容進(jìn)行分聚類.該技術(shù)基于網(wǎng)絡(luò)無尺度網(wǎng)絡(luò),即:Scale-Free,此類技術(shù)立足于Web特性和數(shù)據(jù)挖掘.
為了測試系統(tǒng)功能的有效性,將本系統(tǒng)部署在湖南省長沙某高校校園網(wǎng)絡(luò)內(nèi),輿情分析監(jiān)控系統(tǒng)重點(diǎn)關(guān)校內(nèi)某學(xué)生論壇的輿情數(shù)據(jù).系統(tǒng)開發(fā)語言為JAVA;數(shù)據(jù)庫軟件為MySQL;開發(fā)工具為MyEclipes6;采用為B/S架構(gòu),主程序運(yùn)行在Linux 2.6.32環(huán)境中,中間件采用為Tomcat6.0.24,下圖1,為網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的工作流程和主要功能模塊.
2.1 信息采集模塊
信息采集模塊負(fù)責(zé)本系統(tǒng)的對(duì)校園網(wǎng)上各類網(wǎng)站論壇上頁面的數(shù)據(jù)抓取,并為此后進(jìn)行信息分析提數(shù)據(jù)來源.在校園網(wǎng)中的各類網(wǎng)站、論壇web頁中,蘊(yùn)涵了非常多的數(shù)據(jù)信息,且此類頁面以半結(jié)構(gòu)化或者是非結(jié)構(gòu)化形式存儲(chǔ)數(shù)據(jù),并處于時(shí)刻更新的狀態(tài),所以,系統(tǒng)就必須具備一個(gè)信息采集模塊,負(fù)責(zé)對(duì)輿情信息進(jìn)行有效收集,其工作流程如下圖2所示.

圖1 系統(tǒng)工作流程和主要功能模塊

圖2 系統(tǒng)采集模塊的工作流程
輿情信息采集是指對(duì)網(wǎng)頁的抓取和相關(guān)數(shù)據(jù)的存儲(chǔ),網(wǎng)頁抓取基于網(wǎng)絡(luò)爬蟲技術(shù).第一步,利用頁面數(shù)據(jù)采集器,從初始數(shù)據(jù)集開始,將此類URL鏈接信息都存儲(chǔ)在一個(gè)有序的、等待收集的隊(duì)列之中;第二步,根據(jù)順序獲取URL信息,定向的所指網(wǎng)頁,并返回得到頁面文件.第三步,通過分析已獲取的網(wǎng)頁鏈接信息,生成下一步需要采集的頁面的鏈接信息,并再次將其重新放入待采集的隊(duì)列中,通過不斷重復(fù)以上步驟,直到目標(biāo)網(wǎng)站所有頁面或者預(yù)設(shè)層級(jí)頁面被全部抓取.為了提高效率,系統(tǒng)設(shè)計(jì)了幾個(gè)信息采集器并行采集數(shù)據(jù),即多線程地爬行多個(gè)網(wǎng)頁并存儲(chǔ)網(wǎng)頁源碼.另外,為提高采集頁面效率,可使用基于特定主題的定向抓取技術(shù),如:主題網(wǎng)絡(luò)爬蟲.該技術(shù)是通過一定的web分析算法,先過濾掉和指定主題無關(guān)的URL,再將有用連接信息存入等待抓取的隊(duì)列之中,依據(jù)預(yù)設(shè)主題,對(duì)頁面連接與已下載內(nèi)容進(jìn)行分析,從而預(yù)測出,下步需要進(jìn)行抓取的連接以及當(dāng)前web頁的主題關(guān)聯(lián)性,確保爬蟲對(duì)于頁面下載的有效性.本系統(tǒng)模塊具體要求滿足兩類操作,一是對(duì)普通瀏覽網(wǎng)頁的抓取,二是對(duì)用戶信息的抓取,采用的技術(shù)主要是網(wǎng)絡(luò)爬蟲技術(shù).
(1)對(duì)網(wǎng)頁的爬取
本文系統(tǒng)利用網(wǎng)絡(luò)爬蟲技術(shù),根據(jù)網(wǎng)頁或者論壇頁面結(jié)構(gòu)進(jìn)行過濾爬取選定的URL所指頁面,分別存放在系統(tǒng)中的:forum、board、rootboard、post文件夾中.并為后續(xù)信息理提供基礎(chǔ)數(shù)據(jù).具體方法如下:
設(shè)置爬取深度“1”,對(duì)網(wǎng)站或者論壇頁面進(jìn)行爬取.URL過濾規(guī)則是依照對(duì)其鏈接進(jìn)行字符串鑒別.對(duì)符合規(guī)則的爬取下載頁面,按照時(shí)間分別存放到系統(tǒng)中相應(yīng)文件夾中.
(2)用戶信息爬取
用戶的信息爬取,必須模擬登陸后方能操作,具體分為模擬登陸和爬取信息兩個(gè)部分.爬取的注冊(cè)用戶信息格式如下形式:

2.2 信息預(yù)處理模塊
在已抓取的頁面之中,除了有用的正文信息外,還存在大量的其他無用信息內(nèi)容,如:菜單導(dǎo)航、網(wǎng)站版權(quán)、友情鏈接等,不同于結(jié)構(gòu)化數(shù)據(jù),web中的數(shù)據(jù)多為半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù),其形式非常復(fù)雜,所以,一般程序就難以對(duì)此類原始數(shù)據(jù)直接進(jìn)行分析和處理.而系統(tǒng)中的信息預(yù)處理模塊,其主要負(fù)責(zé)的工作,就是對(duì)網(wǎng)頁進(jìn)行無用信息的清洗除噪,并對(duì)內(nèi)容、特征以及關(guān)鍵詞等進(jìn)行提取工作,下圖3所示,即為此模塊的工作流程.

圖3 系統(tǒng)信息預(yù)處理模塊流程
(1)頁面除噪和內(nèi)容提取:如前所述,由于web頁中含有大量的除正文外的噪聲信息,另外,在頁面語義內(nèi)聚性上很難保證,一個(gè)網(wǎng)頁中,往往有若干個(gè)與語義無關(guān)內(nèi)容,因此首先進(jìn)行頁面除噪,將對(duì)后續(xù)的數(shù)據(jù)挖掘效果起到非常重要的作用.該項(xiàng)工作的目標(biāo)是從網(wǎng)頁里獲得更加精確的數(shù)據(jù)信息單位,過濾掉如:頁面導(dǎo)航、標(biāo)注、廣告等垃圾信息.在完成除噪后,通過內(nèi)容提取,系統(tǒng)將半結(jié)構(gòu)或者非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂薪Y(jié)構(gòu)化模式的,且可操作的信息.在本網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)里,內(nèi)容的提取,是依據(jù)以下兩步完成:第一步,web頁邏輯結(jié)構(gòu)的解釋;第二步,針對(duì)特定元素內(nèi)容的篩擇.
(2)特征和關(guān)鍵詞提取:特征提取,就是從文本分詞處理后的文檔當(dāng)中,獲取有效信息的技術(shù)方式.經(jīng)常使用的是:基于詞義、詞性特征的提取方法.本系統(tǒng)采用的就是基于詞性的特征提取.第一步,獲取文本內(nèi)容里的動(dòng)詞、名詞等,并將其定義為該文本1級(jí)特征詞,再通過計(jì)算此級(jí)別特征詞的文本頻數(shù)以及文檔頻數(shù),進(jìn)而得到其權(quán)重值.第二步,依據(jù)先前得到的特征詞的各權(quán)重值,對(duì)此類1級(jí)特征詞實(shí)施排序,并預(yù)設(shè)K,為閾值,然后在此類詞中,選出權(quán)重值較大的1級(jí)特征詞,K個(gè),作為核心特征詞,進(jìn)而生成表示該文本的特征向量.
2.3 輿情分析與預(yù)警模塊
輿情分析是本系統(tǒng)當(dāng)中最為關(guān)鍵的一個(gè)處理模塊,該模塊基于文本分類和聚類等方法,對(duì)先前預(yù)處理后的輿情數(shù)據(jù)進(jìn)行深入挖掘和分析,并以此提供“話題發(fā)現(xiàn)”和“熱點(diǎn)跟蹤”,下圖4,即為輿情分析模塊的工作流程.

圖4 輿情分析功能模塊流程
(1)話題發(fā)現(xiàn)與跟蹤:話題發(fā)現(xiàn)功能是將信息內(nèi)容歸入不同的話題,并在需要的時(shí)候建立新話題,等同于無指導(dǎo)的聚類;話題追蹤負(fù)責(zé)追蹤用戶選定興趣話題的后續(xù)發(fā)展,判斷出與之相關(guān)事件[4].此類功能的實(shí)現(xiàn)采用的是文本聚類分析技術(shù).聚類分析就參照一定規(guī)律要求對(duì)事物進(jìn)行區(qū)分的過程,把內(nèi)容相近的文檔進(jìn)行歸納.聚類分析,其數(shù)學(xué)描述如下[5]:
針對(duì)一個(gè)特定的數(shù)據(jù)樣本集合:

依照集合中數(shù)據(jù)點(diǎn)的相似程度,將數(shù)據(jù)的樣本集合分成若干個(gè)簇

的過程,我們就稱其為:聚類的分析.

典型應(yīng)用是作為一個(gè)獨(dú)立的工具透視數(shù)據(jù)分布.
基本步驟如下:
第一步,指定一個(gè)數(shù)據(jù)集合作為聚類.
第二步,選取文檔中的數(shù)據(jù)特征.
第三步,按照特征,聚合文檔到對(duì)應(yīng)類.
第四步,選擇關(guān)鍵詞,對(duì)聚類進(jìn)行標(biāo)記.
在實(shí)際應(yīng)用當(dāng)中,我們最為常見的文本聚類算法有基于網(wǎng)格的方法,還有層次型、分割型等聚類算法.
(2)敏感話題識(shí)別:此項(xiàng)功能,是用于分析特定主題在不同時(shí)段之中,被瀏覽者關(guān)注的程度.在互聯(lián)網(wǎng)里,話題往往會(huì)根據(jù)時(shí)間的推移,或者某類事件的發(fā)生,出現(xiàn)一定的規(guī)律變動(dòng).經(jīng)過研究,可以發(fā)現(xiàn),小規(guī)模話題,即使觀點(diǎn)對(duì)立度在一定時(shí)段中變化較快,但因?yàn)槿藗儏⑴c話題規(guī)模不大,無法代表多數(shù)人意見,故,在進(jìn)行敏感話題識(shí)別時(shí),就必須還要結(jié)合話題參與規(guī)模、網(wǎng)民觀注度這些要素,找出輿情在一定時(shí)段中的相關(guān)網(wǎng)頁數(shù)量,只有能夠都滿足參與規(guī)模數(shù)、觀點(diǎn)對(duì)立度兩個(gè)閾值,系統(tǒng)才可以啟動(dòng)預(yù)警.
(3)輿情預(yù)警:此模塊提供輿情監(jiān)控系統(tǒng)和用戶之間的各類交互操作,可以通過報(bào)表、圖型等方式,將經(jīng)過系統(tǒng)分析后的結(jié)果最終反饋給管理者.其中常見功能如:敏感話題趨勢、熱點(diǎn)話題排序等,系統(tǒng)通過此類直觀交互性展示信息,能使管理者對(duì)各類熱點(diǎn)敏感信息的進(jìn)行在線分析,及時(shí)把握輿情變化趨勢,必要時(shí),系統(tǒng)還能實(shí)現(xiàn)預(yù)警的自動(dòng)觸發(fā).而預(yù)警功能是檢驗(yàn)本系統(tǒng)實(shí)際應(yīng)用效果的一個(gè)關(guān)鍵指標(biāo)項(xiàng),為此本系統(tǒng)針對(duì)該模塊功能進(jìn)行了如下評(píng)價(jià)測試.
①評(píng)價(jià)標(biāo)準(zhǔn):輿情預(yù)警能對(duì)系統(tǒng)分析出的熱點(diǎn)詞匯、敏感詞匯等要素對(duì)獲取的網(wǎng)頁信息進(jìn)行二次處理,并有效提供管理者查詢分析使用.
②實(shí)驗(yàn)環(huán)境:系統(tǒng)針對(duì)特定敏感詞“聚會(huì)”,對(duì)從論壇下載的網(wǎng)頁進(jìn)行篩選,整理出符合條件的網(wǎng)頁信息結(jié)果.實(shí)驗(yàn)的硬件配置為戴爾PowerEdge T110塔式服務(wù)器,CPU:Xeon E3-1220,內(nèi)存:1GB,系統(tǒng)環(huán)境:Windows 2003.
③結(jié)果分析

圖5 輿情預(yù)警對(duì)敏感詞的篩選結(jié)果
以上結(jié)果可以看出,本系統(tǒng)輿情預(yù)警服務(wù)能針對(duì)熱詞、敏感詞、關(guān)鍵字進(jìn)行有效篩選,能為管理者及時(shí)提供預(yù)警信息幫助.
加強(qiáng)高校校園網(wǎng)上網(wǎng)站、論壇BBS上的網(wǎng)絡(luò)輿情信息監(jiān)控,及時(shí)追蹤校園網(wǎng)上的輿情變化趨勢,對(duì)于分析在校大學(xué)生的思想行為特點(diǎn),指導(dǎo)學(xué)生身心健康發(fā)展,引導(dǎo)校園文化和輿論的正確走向都具有非常重要的積極作用.本文中涉及的輿情系統(tǒng)經(jīng)過前期的詳細(xì)論證、認(rèn)真設(shè)計(jì),以及后期的試運(yùn)行分析,已經(jīng)表明系統(tǒng)已具備一定的實(shí)用功效.但由于時(shí)間倉促,在系統(tǒng)的實(shí)際應(yīng)用過程中,我們也發(fā)現(xiàn)了一些問題,這也是我認(rèn)在今后需要進(jìn)行重點(diǎn)改進(jìn)的地方:
(1)系統(tǒng)的輿情分析功能有待加強(qiáng):經(jīng)過一段時(shí)間的運(yùn)行表明,本系統(tǒng)在一些基本功能方面都已具備,在今后的研究當(dāng)中,“文本傾向性分析”技術(shù)的應(yīng)用和優(yōu)化仍然需要重點(diǎn)進(jìn)行改進(jìn)的內(nèi)容.
(2)系統(tǒng)擴(kuò)展性有待加強(qiáng):本次工作中所設(shè)計(jì)實(shí)現(xiàn)的網(wǎng)絡(luò)輿情分析監(jiān)控系統(tǒng)主要還是針對(duì)高校普遍采用的論壇架構(gòu)體系而言,雖然能通過修改相關(guān)XML配置文件和類屬性可以實(shí)現(xiàn)對(duì)不同類型論壇的分析監(jiān)控,但針對(duì)其他如傳統(tǒng)網(wǎng)站、應(yīng)用日志、非HTTP下載應(yīng)用的信息獲取和分析功能還需要進(jìn)一步完善.
(3)系統(tǒng)部署通用性和兼容性:本系統(tǒng)主要部署在校內(nèi)服務(wù)器上,并基于Linux操作系統(tǒng)和Tomcat中間件發(fā)布,目前只應(yīng)用于校內(nèi)論壇的輿情信息的監(jiān)控,如需推廣應(yīng)用,系統(tǒng)就必須綜合考慮不同網(wǎng)絡(luò)環(huán)境、系統(tǒng)架構(gòu)下的兼容性和通用性.
[1]姚占雷,許鑫,趙路平.2005-2009年國內(nèi)網(wǎng)絡(luò)輿情文獻(xiàn)的計(jì)量分析[J].現(xiàn)代情報(bào),2010,(10):174-177.
[2]Franz M,Ward T,McCarley JS,et al.Unsupervised and supervised clustering for topic tracking[A].Proceedingsof the24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].2001.
[3]Alena N.Sematically distinct verb classes involved in sentiment analysis[A].IADIS International Conference Applied Computing[C].2009.
(作者本人校對(duì))
Realization of the Public Opinion M onitoring System of College Network
LIU Zhibing
(The Middle School Attached to Changsha University,Changsha Hunan 410022,China)
Based on the actualneeds of college campus network,amajormediamonitoring platform,and combined with Chinese information processing fields,such asWeb crawler,web noise removal,feature extraction and text classification techniques,this paper provides an implementation method of university network public opinion monitoring system,and verifies the effectiveness of the system through experiments.
network public opinion;datamining;crawlers;cluster analysis
TP391
A
1008-4681(2014)05-0056-03
2014-07-14
劉志兵(1986-),男,湖南長沙人,長沙大學(xué)附屬中學(xué)網(wǎng)絡(luò)工程師,碩士.研究方向:網(wǎng)絡(luò)工程.