張雅京 付軍 劉皓
中日友好環(huán)境保護(hù)中心
隨著網(wǎng)絡(luò)應(yīng)用的迅猛發(fā)展,互聯(lián)網(wǎng)已深入覆蓋并影響到當(dāng)今社會的各個(gè)領(lǐng)域。Web2.0上的話題往往具有突發(fā)性、直接性、豐富性、互動性、偏差性的特點(diǎn)。無論對于政府還是商業(yè)組織來說,這些數(shù)據(jù)蘊(yùn)含著非凡的價(jià)值。正確合理利用這些信息,可以有效地了解民情民意,配合處理一些突發(fā)性公共危機(jī)事件,從而促進(jìn)社會和諧。同時(shí),隨著互聯(lián)網(wǎng)的發(fā)展,逐步進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)的發(fā)展不僅使得通過互聯(lián)網(wǎng)獲取個(gè)人信息更加容易、可獲取的內(nèi)容也更多。在大數(shù)據(jù)時(shí)代,面對如此海量快速的信息,輿情的采集、分析、可視化呈現(xiàn)都將進(jìn)行相應(yīng)的轉(zhuǎn)變。目前國內(nèi)的輿情研究和應(yīng)用非常廣泛[1],有些研究專注于特定領(lǐng)域的輿情系統(tǒng)的研究和開發(fā)[2],有些研究則面向通用[3]。本文所設(shè)計(jì)和實(shí)現(xiàn)的系統(tǒng)屬于后者這一類,和其它已有的輿情系統(tǒng)相比,本系統(tǒng)具有信息覆蓋面廣、架構(gòu)靈活、智能分析等特點(diǎn)。
1.采集:互聯(lián)網(wǎng)規(guī)模大、媒體類型眾多、網(wǎng)民眾多、信息更新速度快。系統(tǒng)需要對網(wǎng)絡(luò)上的主要信息不遺漏,覆蓋論壇、博客、微博、新聞、新聞、境外等信息源,對信息源進(jìn)行實(shí)時(shí)采集。針對不同的信息源,可以方便的調(diào)整采集頻率,采集字段。
2.架構(gòu):考慮到數(shù)據(jù)量大和可擴(kuò)展性等特點(diǎn),需要采用基于云計(jì)算的構(gòu)架設(shè)計(jì)。系統(tǒng)以網(wǎng)頁形式展示給用戶。用戶只需要用瀏覽器登錄系統(tǒng)就可以使用全部功能。
3.個(gè)性化:為了滿足使用者的不斷變化的需求,需要系統(tǒng)能夠?qū)崿F(xiàn)個(gè)性化。系統(tǒng)能方便的調(diào)整和設(shè)置參數(shù)(比如關(guān)鍵詞、站點(diǎn)等)。用戶能通過簡便直觀的方法篩選出關(guān)心的數(shù)據(jù),并且能方便、直觀的進(jìn)行系統(tǒng)維護(hù)。
4.智能:為了降低用戶的設(shè)置,篩選重要信息的工作量,系統(tǒng)需要進(jìn)行智能分析,自動的對文章進(jìn)行過濾,分類,地域識別,情感分析等。
本系統(tǒng)采用跨平臺的JAVA技術(shù),使得采集系統(tǒng)可以運(yùn)行在各種操作系統(tǒng)上。圖一給出了系統(tǒng)的總體架構(gòu),其包含兩個(gè)部分。第一個(gè)部分是數(shù)據(jù)采集和分析模塊;第二部分是輿情信息收集研判管理系統(tǒng)模塊。圖二是輿情信息收集研判管理系統(tǒng)模塊的系統(tǒng)功能圖。這部分功能直接對接客戶。
(一)信息采集模塊。采集器不但可以采集普通采集器的所能實(shí)現(xiàn)的簡單的網(wǎng)頁采集,還可以執(zhí)行網(wǎng)頁上的動態(tài)腳本(例如javascript,ajax等)以得到普通采集方式通過抓取靜態(tài)頁面無法獲取的信息。越來越多的網(wǎng)站采用了動態(tài)頁面技術(shù)(即javascript,ajax等),典型的如博客,微薄等網(wǎng)站,通過普通的靜態(tài)頁面往往只能采集到部分信息,甚至根本采集不到真正的頁面內(nèi)容。本系統(tǒng)的采集器內(nèi)建了頁面動態(tài)構(gòu)建技術(shù),可以使采集到的頁面執(zhí)行頁面動態(tài)腳本而得到與普通瀏覽器能看到的完全一致的頁面內(nèi)容。
(二)信息分析模塊。信息分析模塊主要包括以下功能:垃圾文識別、自動排重、相似文計(jì)算、原創(chuàng)新聞計(jì)算、輿情傾向性分析、自動摘要提取、行業(yè)識別、傳播路徑分析、傳播軌跡圖。
(三)垃圾文識別。垃圾文包括廣告,無意義文章等。據(jù)分析,特別是論壇站點(diǎn),70%左右是此類文章。系統(tǒng)采用人工智能技術(shù),能夠有效識別此類垃圾文,大大增強(qiáng)輿情分析和處理的效率。對于系統(tǒng)未能自動識別的垃圾文,如果人工識別為垃圾文后,系統(tǒng)對后續(xù)采集同類文章能夠自動識別為垃圾文。
(四)自動排重。系統(tǒng)根據(jù)信息的各項(xiàng)屬性:信息的文本內(nèi)容,信息的發(fā)文站點(diǎn),版面,發(fā)文作者計(jì)算信息的hash值。通過判斷兩條信息的hash值是否相同,從而快速的判斷兩條信息是否重復(fù)。
(五)相似文計(jì)算。雖然互聯(lián)網(wǎng)上很多信息都是重復(fù)的,但是重復(fù)信息往往有少量的變化,這個(gè)模塊的目的是找到那些幾乎是重復(fù)的、但是又不完全相同的文章。相似文計(jì)算的方法參考了。由于系統(tǒng)所采集的數(shù)量巨大,所以不能針對所有文章進(jìn)行計(jì)算。由于相似文章的出現(xiàn)往往是在一個(gè)事件范圍內(nèi)集中出現(xiàn),因此對每一個(gè)新進(jìn)系統(tǒng)的文章,只計(jì)算最近2天的文章中是否有重復(fù)文章。
(六)原創(chuàng)新聞計(jì)算。原創(chuàng)新聞報(bào)道數(shù)量偵測系統(tǒng)主要包括兩部分功能,即轉(zhuǎn)載文章識別歸類和原創(chuàng)文章判定兩部分。轉(zhuǎn)載新聞往往含有發(fā)文網(wǎng)站的鏈接及“【轉(zhuǎn)】”等特征內(nèi)容,可通過建立模板識別大部分轉(zhuǎn)載文章。比對轉(zhuǎn)載文章及現(xiàn)有文章特征庫即可將相當(dāng)部分轉(zhuǎn)載文章濾除。對于不含轉(zhuǎn)載信息、通過更改原文個(gè)別關(guān)鍵詞的偽原創(chuàng)性文章,則需通過原創(chuàng)判別算法剔除。原創(chuàng)新聞判別算法核心在于語義分析和相似文章識別算法,本系統(tǒng)利用文本相似性算法,以文章主干或關(guān)鍵詞為基礎(chǔ),通過文章相似度算法,建立相似度聚類數(shù)據(jù)庫,為原創(chuàng)文章的識別提供依據(jù)。而后可通過以下三個(gè)步驟判別文章的原創(chuàng)性:提取文章內(nèi)關(guān)鍵詞結(jié)點(diǎn);將提取的關(guān)鍵詞結(jié)點(diǎn)進(jìn)行近義詞匹配。(搜索引擎有自己的近義詞庫);發(fā)現(xiàn)一篇文章中的節(jié)點(diǎn)于另外一篇文章中的節(jié)點(diǎn)超過某個(gè)點(diǎn),給予偽原創(chuàng)定義。
(七)輿情傾向性分析。系統(tǒng)能夠自動分析出文章的傾向性為正面,負(fù)面,或者中性,為輿情處理提供重要的分析依據(jù)。
(八)自動摘要提取。自動摘要提取算法包含兩類方法,即機(jī)械方法和語義方法,本系統(tǒng)將結(jié)合兩類方法。
機(jī)械方法需要對文本的物理信息進(jìn)行歸納:詞的頻率、標(biāo)題、詞的位置、句子的結(jié)構(gòu)和位置等。通常分為以下三個(gè)步驟:計(jì)算詞的權(quán)重,確定有效詞;通過詞和句子的位置、線索詞指示性短語等計(jì)算句子的權(quán)值;將句子排序,并按照原文順序整理輸出;
基于機(jī)械方法的摘要提取能夠?qū)ξ恼聝?nèi)容做一定的梳理,但其缺點(diǎn)主要體現(xiàn)在結(jié)構(gòu)不平衡、內(nèi)容冗余、缺乏連貫性等方面,因而需要結(jié)合語義方法對摘要做進(jìn)一步整理,語義方法包含:語法分析、語義分析、語用分析和信息提取等,此方法將文本整理成語法樹等形式,從而梳理文章主干,完成信息提取,將所得到內(nèi)容結(jié)合機(jī)械摘要得到最終結(jié)果。
(九)行業(yè)識別。對數(shù)據(jù)進(jìn)行行業(yè)分類,該模塊基于機(jī)器學(xué)習(xí)和自然語言處理領(lǐng)域最先進(jìn)的思想和算法,提供了常用的多個(gè)行業(yè)(包括環(huán)境、衛(wèi)生、渉警等)的分類。
(十)傳播路徑分析、傳播軌跡圖。對所有的微博消息,系統(tǒng)會采集內(nèi)容以及其轉(zhuǎn)播信息。對于需要做路徑分析的微博消息,根據(jù)微博轉(zhuǎn)播記錄和轉(zhuǎn)播微博的文本信息追本溯源的找到了這條微博的傳播路徑,并將傳播路徑上的各個(gè)節(jié)點(diǎn)的地理位置信息、個(gè)人信息等保存下來,最終形成了一棵信息傳播樹。
(一)輿情數(shù)據(jù)基礎(chǔ)管理。該系統(tǒng)能夠全面、及時(shí)監(jiān)測互聯(lián)網(wǎng)輿情。可定制采集,提供全面、及時(shí)的輿情信息。全面監(jiān)控微博、博客、新聞網(wǎng)站、論壇、貼吧、搜索引擎等互聯(lián)網(wǎng)內(nèi)容。通過輿情監(jiān)測系統(tǒng)實(shí)現(xiàn)對輿情管理和對輿情數(shù)據(jù)服務(wù)的有效支撐。
條件篩選:發(fā)文時(shí)間是一篇網(wǎng)絡(luò)文章最重要屬性之一。通過時(shí)間控制,就可以通過限定文章的發(fā)文時(shí)間,對文章進(jìn)行篩選。除了限定具體時(shí)間區(qū)間之外,系統(tǒng)還設(shè)置一些快捷按鈕,直接查詢“今天”、“昨天”、“本周”、“上周”、“本月”、“上月”和“全部”等時(shí)間范圍內(nèi)的文章。“類型”,可提供篩選“新聞”、“論壇”、“博客”等類型的文章,且可同時(shí)篩選如“新聞”或“論壇”的文章。“褒貶”,可提供篩選“正面”、“負(fù)面”、“中立”、“未知”等性質(zhì)的文章,且可同時(shí)篩選如“正面”或“中立”的文章。“地域”,可提供篩選包括“境內(nèi)”、“境外”的文章,當(dāng)只篩選了“境內(nèi)”范圍里的部分省時(shí),“境內(nèi)”為半藍(lán)顏色顯示;只有所有省份都被篩選時(shí),“境內(nèi)”為藍(lán)色顯示。“專題”,可提供篩選多個(gè)專題的文章,如專題為“城管城建”或“交通”的文章。
文章瀏覽:對于每一篇收錄進(jìn)系統(tǒng)的文章,列表將顯示如下信息:標(biāo)題、網(wǎng)站、信息類型、褒貶、地域、所屬專題、閱讀數(shù)、回復(fù)數(shù)、發(fā)表時(shí)間、操作。
文章操作:系統(tǒng)提供對每一篇文章的豐富的管理功能。對文章進(jìn)行查看全文信息、修改文章屬性、對文章進(jìn)行公告預(yù)警操作或者定向預(yù)警操作、刪除文章、分不同模式查看監(jiān)測列表內(nèi)容、導(dǎo)出文章(word或excel格式)。
(二)信息預(yù)警。提供實(shí)時(shí)信息預(yù)警機(jī)制,由輿情信息的重要性、緊急性及客戶約定需求決定。系統(tǒng)要將短時(shí)間內(nèi)發(fā)生的突發(fā)熱點(diǎn)事件以及敏感新聞通過系統(tǒng)通知、短信、電話、QQ、郵件等方式通知用戶。
(三)統(tǒng)計(jì)分析。統(tǒng)計(jì)分析包括“趨勢分析”、“媒體分析”、“地域分析”、“褒貶分析”、“熱點(diǎn)分析”、“熱詞分析”六大類;分別表示按“時(shí)間”、“媒體類型”、“地域分布”、“輿論褒貶性質(zhì)”、“熱點(diǎn)輿論、話題”、“最熱”要素來進(jìn)行對比分析出圖。
圖形化展示功能。對熱點(diǎn)新聞和事件發(fā)展趨勢進(jìn)行圖形化顯示,便于更加直觀地了解輿情發(fā)展態(tài)勢。提供多種基于Flash的圖表,包括全國地形圖、趨勢圖、金字塔圖、轉(zhuǎn)載傳播鏈等,具有更好的交互能力。
(四)熱點(diǎn)識別。熱點(diǎn)自動發(fā)現(xiàn)。輿情系統(tǒng)采用基于內(nèi)容相似的智能聚類技術(shù),能夠自動識別網(wǎng)絡(luò)上的熱點(diǎn)新聞事件,及時(shí)掌控論壇中的交互信息,發(fā)現(xiàn)網(wǎng)民的關(guān)注焦點(diǎn)和熱點(diǎn)。同時(shí)利用輿情分類信息,把用戶不關(guān)注的熱點(diǎn)信息過濾掉,提高熱點(diǎn)發(fā)現(xiàn)的準(zhǔn)確性。根據(jù)新聞熱點(diǎn)、關(guān)鍵詞、專題等信息進(jìn)行熱度分析,考慮了信息來源、所處網(wǎng)頁位置、轉(zhuǎn)載、點(diǎn)擊、評論、回復(fù)和報(bào)道率等關(guān)鍵因素,并能夠?qū)@些因素進(jìn)行綜合排名,并支持以半小時(shí)為間隔的任意時(shí)間段進(jìn)行統(tǒng)計(jì)分析,同時(shí)提供1天、3天、7天等時(shí)間序列的符合用戶精確度要求的分類熱點(diǎn)排行。
熱點(diǎn)自動追蹤。輿情系統(tǒng)可以對熱點(diǎn)信息做到持續(xù)追蹤,并通過趨勢分析圖和傳播鏈分析圖等技術(shù)幫助用戶了解熱點(diǎn)事件的報(bào)道趨勢以及來龍去脈,幫助用戶更好地對輿情進(jìn)行研判。
網(wǎng)絡(luò)熱詞自動挖掘。熱詞挖掘是從互聯(lián)網(wǎng)不斷更新的信息中尋找一定時(shí)期熱度高的那些短語,比如人名、地名、機(jī)構(gòu)名和其他常見短語,很多網(wǎng)絡(luò)熱詞是詞典中未收錄的新詞語。按領(lǐng)域可分為政治、經(jīng)濟(jì)、軍事、娛樂、體育、衛(wèi)生、科技、社會生活等各個(gè)領(lǐng)域的熱詞。
(五)報(bào)告生成。輿情分析系統(tǒng)提供有效的輿情簡報(bào)加工工具,可以輔助用戶生成各種類型的互聯(lián)網(wǎng)輿情簡報(bào)。報(bào)告的內(nèi)容可編輯修改,報(bào)告模板可靈活定制。支持日報(bào)、周報(bào)、及時(shí)報(bào)等多種簡報(bào)樣式。可以通過元搜索方式從百度新聞獲取統(tǒng)計(jì)信息,使得簡報(bào)的統(tǒng)計(jì)圖表具有更高的代表性和準(zhǔn)確性。提供可以在線生成和編輯WORD格式的簡報(bào),支持復(fù)雜格式的簡報(bào),提高了簡報(bào)的表現(xiàn)能力。
系統(tǒng)能夠?qū)崿F(xiàn)對專題給定時(shí)間范圍的文章進(jìn)行統(tǒng)計(jì),并生成統(tǒng)計(jì)報(bào)告。
(六)系統(tǒng)管理。個(gè)人信息管理:系統(tǒng)里可以管理用戶的個(gè)人信息,如用戶名、密碼、郵件、電話等。
用戶管理:提供系統(tǒng)用戶權(quán)限管理方面的配置,中青華云配備專人實(shí)時(shí)響應(yīng)更改用戶需求,如:通過申請可添加或變更系統(tǒng)管理員,設(shè)置系統(tǒng)管理員的權(quán)限,從而實(shí)現(xiàn)多用戶分權(quán)限管理。通過角色和權(quán)限配置,對系統(tǒng)中的各個(gè)功能進(jìn)行嚴(yán)格的權(quán)限管理,保證系統(tǒng)的安全性。
關(guān)鍵詞管理:可根據(jù)需要添加需要關(guān)注的文章的關(guān)鍵詞。也可以對已有關(guān)鍵詞作修改和刪除的操作。
網(wǎng)站管理:用戶可以在網(wǎng)站管理的頁面上點(diǎn)擊“申請?zhí)砑泳W(wǎng)站”,就可以申請?zhí)砑酉胍O(jiān)測的網(wǎng)站。
專題管理:可添加需要關(guān)注的文章的專題。可以對現(xiàn)有的專題進(jìn)行是否想要讓其顯示的操作,也可以對已有專題作修改和刪除的操作。
系統(tǒng)設(shè)置:系統(tǒng)設(shè)置能夠選擇“最新監(jiān)測”的文章的來源(“論壇”“博客”“新聞”“微博”)、和選擇關(guān)注的專題、是否顯示系統(tǒng)專題、是否僅顯示已歸檔文章。
(七)輿情檢索。輿情系統(tǒng)針對信息內(nèi)容管理和資源建設(shè)的新需求,實(shí)現(xiàn)包括Native XML,集群,Unicode,自然語言及智能擴(kuò)展檢索等功能,結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合查詢技術(shù),滿足客戶對專業(yè)搜索的廣泛需求。專業(yè)級搜索需要精確(查全和查準(zhǔn)兩者需要兼顧)和快速(數(shù)據(jù)一旦變化需要及時(shí)體現(xiàn)),而通用互聯(lián)網(wǎng)搜索引擎無法滿足精確和快速的目標(biāo)檢索需求。
(八)回收站和垃圾箱。可以對一些回收站和垃圾箱中的文章進(jìn)行管理。
本文提出的基于大數(shù)據(jù)技術(shù)的輿情信息收集研判管理系統(tǒng)是一個(gè)基于大數(shù)據(jù)技術(shù)的輿情信息高效采集與存儲系統(tǒng)。它能實(shí)現(xiàn)信息的全方位采集、更新和自動分析。在此基礎(chǔ)上,系統(tǒng)還給用戶提供了直觀、高效的使用界面,使用戶可以快速、精準(zhǔn)的在海量的互聯(lián)網(wǎng)數(shù)據(jù)中篩選出自己所關(guān)心的輿情信息。