摘要:現(xiàn)階段,網(wǎng)民對(duì)互聯(lián)網(wǎng)技術(shù)的發(fā)展情況十分關(guān)注,究其原因,主要是在互聯(lián)網(wǎng)高速發(fā)展的背景下,網(wǎng)絡(luò)熱點(diǎn)和焦點(diǎn)話題的傳播速度非常快,很容易被別有用心之人所利用,從而引發(fā)突發(fā)性問題。而互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn),可以對(duì)上述情況進(jìn)行預(yù)防和控制。本文以互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)為主要研究?jī)?nèi)容,首先介紹網(wǎng)絡(luò)輿情監(jiān)控相關(guān)技術(shù),然后對(duì)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)功能框架設(shè)計(jì)和詳細(xì)設(shè)計(jì)進(jìn)行分析,希望為相關(guān)行業(yè)提供借鑒。
關(guān)鍵詞:互聯(lián)網(wǎng);輿情監(jiān)控系統(tǒng);輿情預(yù)警
引言:在互聯(lián)網(wǎng)普及應(yīng)用的背景下,人人都是信息的制造者和傳播者,網(wǎng)絡(luò)也因此成為了眾多輿論事件的發(fā)源地,微博、BBS、貼吧就產(chǎn)生了大量的輿情信息,所造成的社會(huì)影響十分巨大。由于網(wǎng)絡(luò)輿情具有傳播速度快、傳播渠道多、異構(gòu)性和復(fù)雜性等特點(diǎn),因此對(duì)輿情信息正確性和傳播范圍進(jìn)行控制的難度非常之高,面對(duì)眾多輿情信息成為引發(fā)社會(huì)事件導(dǎo)火索的情況,應(yīng)通過互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)和應(yīng)用,從海量的輿情信息中挖掘有價(jià)值的數(shù)據(jù),為政府部門管理網(wǎng)絡(luò)輿情信息,提供技術(shù)方面的支持。在此背景下,對(duì)此項(xiàng)課題進(jìn)行研究,其意義十分重大。
一、網(wǎng)絡(luò)輿情監(jiān)控相關(guān)技術(shù)簡(jiǎn)介
網(wǎng)絡(luò)信息分類、網(wǎng)絡(luò)信息分析、網(wǎng)絡(luò)信息識(shí)別、網(wǎng)絡(luò)信息跟蹤等技術(shù)是互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)所運(yùn)用的技術(shù),這些技術(shù)均屬于計(jì)算機(jī)文本信息處理技術(shù)的范疇。接下來本文會(huì)對(duì)網(wǎng)絡(luò)信息提取識(shí)別技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行簡(jiǎn)單介紹:
(一)網(wǎng)絡(luò)輿情信息提取和識(shí)別技術(shù)
這項(xiàng)技術(shù)可以分析信息,這里所說的信息是指系統(tǒng)通過搜集所得到的網(wǎng)絡(luò)輿情信息,如果輿情信息類型為網(wǎng)絡(luò)新聞數(shù)據(jù),則需要找出信息中與新聞?dòng)嘘P(guān)的要素,主要包括時(shí)間、內(nèi)容和標(biāo)題。如果信息類型為網(wǎng)絡(luò)論壇數(shù)據(jù),所找出的內(nèi)容主要是用戶信息,比如:用戶的ID、回復(fù)用戶的ID等等,然后在信息數(shù)據(jù)庫(kù)中保存這些數(shù)據(jù)即可。
在查閱資料后得知,一種將模板和自動(dòng)機(jī)器識(shí)別相結(jié)合作為基礎(chǔ)的信息提取方法,是輿情信息提取分析的實(shí)現(xiàn)方式。這種方法需要將啟發(fā)式規(guī)則作為依據(jù),然后通過自動(dòng)識(shí)別的方式,對(duì)網(wǎng)絡(luò)文本中不同屬性輿論信息之間的分隔符進(jìn)行處理,與此同時(shí),在相應(yīng)的模板中進(jìn)行配置,并將模板作為依據(jù),對(duì)相同類型的輿論網(wǎng)頁(yè)信息加以分析和識(shí)別,最終以話題線索的方式保存即可。對(duì)網(wǎng)絡(luò)輿論相關(guān)數(shù)據(jù)信息的描述就是話題線索,比如:網(wǎng)頁(yè)點(diǎn)擊率、帖子回復(fù)數(shù)量等。相較于傳統(tǒng)提取技術(shù)而言,這種技術(shù)較為先進(jìn),在處理多結(jié)構(gòu)類型的網(wǎng)絡(luò)輿論網(wǎng)頁(yè)數(shù)據(jù)信息時(shí)的效果極為顯著。與此同時(shí),還能促進(jìn)輿論信息準(zhǔn)確率和效率的提升,且這一目標(biāo)的實(shí)現(xiàn)無需對(duì)算法進(jìn)行修改,有利于滿足不同用戶的需求,并為研究提供信息數(shù)據(jù)上的支持。
總而言之,提取到的輿論數(shù)據(jù)信息是輿情信息分析識(shí)別的主要對(duì)象,在內(nèi)容和行為識(shí)別的基礎(chǔ)上,對(duì)輿情信息是否為需求信息進(jìn)行判斷,將判斷結(jié)果作為依據(jù),開展有針對(duì)性的輿情數(shù)據(jù)分析,可以取得良好的效果[1]。
(二)網(wǎng)絡(luò)爬蟲技術(shù)
在互聯(lián)網(wǎng)技術(shù)高速發(fā)展的背景下,人們可以借助網(wǎng)絡(luò)獲取所需的各類信息,但有用信息僅占信息總量的少數(shù),再加上信息始終增加,導(dǎo)致信息獲取難度不斷提升,幾乎成為一件不可能的事情,在這種情況下,網(wǎng)絡(luò)爬蟲技術(shù)應(yīng)運(yùn)而生,實(shí)踐應(yīng)用結(jié)果表明,這項(xiàng)技術(shù)的應(yīng)用,可以降低有價(jià)值信息獲取的難度。
在本文所設(shè)計(jì)的輿情監(jiān)控系統(tǒng)之中,網(wǎng)絡(luò)爬蟲技術(shù)起到了關(guān)鍵性的作用,具體表現(xiàn)為運(yùn)用這項(xiàng)技術(shù)在網(wǎng)絡(luò)中抓下正在更新的數(shù)據(jù)信息,滿足輿情監(jiān)控系統(tǒng)對(duì)信息數(shù)據(jù)的需求,為下一階段工作的開展,創(chuàng)造有利的條件。
二、互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
(一)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)功能框架的設(shè)計(jì)
輿論數(shù)據(jù)信息采集、預(yù)處理和分析處理是監(jiān)控系統(tǒng)所具備的基礎(chǔ)功能。除基礎(chǔ)功能之外,系統(tǒng)還要對(duì)輿情信息未來發(fā)展趨勢(shì)、傳播方式和途徑進(jìn)行簡(jiǎn)單預(yù)測(cè),同時(shí),還能設(shè)置人工監(jiān)控點(diǎn),負(fù)責(zé)對(duì)重點(diǎn)區(qū)域的輿情信息事件進(jìn)行監(jiān)控,并在標(biāo)記預(yù)警信息后,對(duì)其進(jìn)行處理,處理措施包括跟蹤、識(shí)別、提取和報(bào)告。本文將現(xiàn)行技術(shù)和標(biāo)準(zhǔn)作為依據(jù),整理和歸納系統(tǒng),在此基礎(chǔ)上,設(shè)計(jì)出具有可行性的系統(tǒng)方案,使網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)功能框架設(shè)計(jì)需求得到明確。
網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)主要由四個(gè)功能模塊構(gòu)成,分別為采集系統(tǒng)、預(yù)處理系統(tǒng)、分析系統(tǒng)和應(yīng)用系統(tǒng)。各系統(tǒng)功能如下所述:
1 采集系統(tǒng):采集系統(tǒng)應(yīng)用了網(wǎng)絡(luò)爬蟲技術(shù),具備抓取和存儲(chǔ)網(wǎng)絡(luò)輿情信息數(shù)據(jù)的功能,且無需人工操作,可實(shí)現(xiàn)自動(dòng)抓取。
2 信息預(yù)處理系統(tǒng):以采集信息為對(duì)象,對(duì)其進(jìn)行去重、關(guān)鍵詞篩選和分析處理[2]。
3 監(jiān)控分析系統(tǒng):通過文本的方式對(duì)輿情數(shù)據(jù)進(jìn)行表示,同時(shí),還能識(shí)別和分析數(shù)據(jù)庫(kù)內(nèi)存儲(chǔ)的數(shù)據(jù),并在處理完成后向分析庫(kù)中傳遞分析結(jié)果。
4 應(yīng)用系統(tǒng):實(shí)現(xiàn)用戶交互功能。
(二)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)功能模塊的詳細(xì)設(shè)計(jì)
輿情監(jiān)控系統(tǒng)工作流就是所謂的數(shù)據(jù)流,由4個(gè)處理環(huán)節(jié)構(gòu)成:(1)采集子系統(tǒng)會(huì)在網(wǎng)絡(luò)中抓取輿情信息數(shù)據(jù),并存儲(chǔ)到本地?cái)?shù)據(jù)庫(kù)之中;(2)信息預(yù)處理子系統(tǒng)會(huì)對(duì)本地?cái)?shù)據(jù)庫(kù)中所存儲(chǔ)的數(shù)據(jù)進(jìn)行預(yù)處理,主要處理方法包括分析、識(shí)別和加工,簡(jiǎn)言之,就是將無用數(shù)據(jù)剔除,并通過建立索引的方式,降低后續(xù)處理難度;(3)將輿情監(jiān)控系統(tǒng)的特定需求作為依據(jù),分析和處理輿情信息和數(shù)據(jù);(4)在客戶端上呈現(xiàn)處理后的輿情數(shù)據(jù),設(shè)計(jì)流程如圖1所示。
1.信息采集功能的模塊設(shè)計(jì)
論壇、微博和貼吧等網(wǎng)站是輿情信息的主要來源,信息采集功能模塊在設(shè)計(jì)過程中,對(duì)API與網(wǎng)頁(yè)抽取相結(jié)合的方法進(jìn)行了應(yīng)用,通過采集和管理關(guān)鍵詞、話題語(yǔ)義、URL管理和過濾詞典管理等方式,使分類歸一管理的目標(biāo)達(dá)成。在數(shù)據(jù)采集完成后,會(huì)在HBase數(shù)據(jù)庫(kù)之中存儲(chǔ),采集存儲(chǔ)流程如下所述:首先網(wǎng)絡(luò)爬蟲技術(shù)會(huì)對(duì)網(wǎng)絡(luò)中輿情數(shù)據(jù)進(jìn)行抓取,同時(shí)將Dom作為依據(jù),實(shí)現(xiàn)數(shù)據(jù)解析和提取的目的,其中,數(shù)量眾多的爬蟲器和獲取器會(huì)在slaver機(jī)器上運(yùn)行,而調(diào)度器的所在位置是master機(jī)器,其中前者數(shù)量較多[3]。
2.信息預(yù)處理功能模塊設(shè)計(jì)
在獲取輿情數(shù)據(jù)信息之后,需要通過預(yù)處理的方式,剔除其中的無用信息,保留有價(jià)值的數(shù)據(jù)信息即可。無用信息包括網(wǎng)站導(dǎo)航、友情鏈接、索引等。就事實(shí)而言,網(wǎng)絡(luò)輿情數(shù)據(jù)信息以非結(jié)構(gòu)化數(shù)據(jù)為主,且在形式上具有復(fù)雜性的特點(diǎn),很難被直接應(yīng)用,如果直接分析和加工處理,不僅難度較大,且處理效果極為有限。而信息預(yù)處理功能模塊可以提前對(duì)輿情數(shù)據(jù)信息進(jìn)行清洗和去噪,為后續(xù)處理創(chuàng)造有利的條件。所謂的清洗和去噪,就是指分析和提取輿情數(shù)據(jù)信息的主要內(nèi)容和特征。
3.輿情分析功能子模塊設(shè)計(jì)
在輿情監(jiān)控系統(tǒng)之中,輿情分析功能子模塊的作用不言而喻,具有十分重要的功能,模塊應(yīng)用的關(guān)鍵技術(shù)包括兩種,一種是聚類技術(shù);另一種是分類技術(shù)。對(duì)輿情數(shù)據(jù)信息進(jìn)行深入分析和挖掘是模塊的主要功能,值得注意的是,這里所說的輿情信息數(shù)據(jù)是預(yù)處理后的數(shù)據(jù)信息,在分析和挖掘后,輿情數(shù)據(jù)信息就會(huì)成為滿足話題發(fā)現(xiàn)和熱點(diǎn)跟蹤需求的結(jié)構(gòu)化數(shù)據(jù)。接下來,筆者會(huì)對(duì)該模塊的主要功能進(jìn)行介紹:
(1)熱點(diǎn)信息話題的發(fā)現(xiàn)和分析。這項(xiàng)功能主要是指依據(jù)輿情信息數(shù)據(jù)內(nèi)容,對(duì)其進(jìn)行話題的劃分,如果內(nèi)容較為特殊,創(chuàng)新話題亦可。而追蹤是指跟蹤分析社會(huì)上的熱點(diǎn)話題,這項(xiàng)功能的實(shí)現(xiàn),所應(yīng)用的關(guān)鍵技術(shù)為文本聚類分析方法。將標(biāo)準(zhǔn)的格式規(guī)律作為依據(jù),歸納和區(qū)分信息內(nèi)容較為相似的文檔,這個(gè)過程就是所謂的聚類分析。
(2)社會(huì)網(wǎng)絡(luò)分析。社會(huì)網(wǎng)絡(luò)是復(fù)雜網(wǎng)絡(luò)的重要組成部分,存在一定的特殊性,比如:微博就是典型的社會(huì)網(wǎng)絡(luò),輿情監(jiān)控系統(tǒng)所采用的社會(huì)網(wǎng)絡(luò)分析法,能夠?qū)ξ⒉┯脩羲l(fā)布的信息數(shù)據(jù)進(jìn)行分析,在話題確定后,計(jì)算數(shù)據(jù)信息中粉絲數(shù)量和關(guān)注數(shù)量的出入度和聚類系數(shù),通過多個(gè)Map階段和Reduce階段的運(yùn)用,將計(jì)算結(jié)果存儲(chǔ)到分析庫(kù)之中,滿足客戶端可視化的使用需要。聚類系數(shù)在社會(huì)網(wǎng)絡(luò)分析法中作用較大,是對(duì)網(wǎng)絡(luò)集團(tuán)化程度的體現(xiàn),同時(shí),還能在一定程度上反映網(wǎng)絡(luò)內(nèi)聚。
4.輿情展示預(yù)警功能模塊設(shè)計(jì)
實(shí)現(xiàn)和管理者之間的實(shí)時(shí)交互操作,向管理者反饋系統(tǒng)分析后的結(jié)果,是該模塊的主要作用。其功能主要包括熱點(diǎn)話題排序、敏感話題趨勢(shì)。由于該模塊具有可視化功能,因此,管理者可以調(diào)用分析結(jié)果,對(duì)輿情數(shù)據(jù)信息的后續(xù)發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),并且,系統(tǒng)針對(duì)輿情信息的警示觸發(fā),具有自動(dòng)化的特點(diǎn)。從而為管理者提前采取預(yù)防和控制措施,應(yīng)對(duì)可能會(huì)出現(xiàn)的輿情事件,創(chuàng)造有利的條件。
結(jié)論:綜上所述,在互聯(lián)網(wǎng)技術(shù)高速發(fā)展的背景下,網(wǎng)絡(luò)輿情信息數(shù)據(jù)量不斷增加,如果不對(duì)其加以管控,這些輿情信息可能會(huì)成為引發(fā)社會(huì)性事件的導(dǎo)火索。而傳統(tǒng)監(jiān)控管理方式較為落后,需要使用大量的硬件設(shè)備,且監(jiān)控和管理效果極為有限。而本文設(shè)計(jì)的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可以實(shí)現(xiàn)云端硬件資源的共享,在應(yīng)用該系統(tǒng)后,用戶無需借助大量硬件設(shè)備即可挖掘數(shù)據(jù),從而節(jié)省了大量的費(fèi)用。與此同時(shí),云計(jì)算的集群處理能力也會(huì)得到充分地利用。實(shí)踐應(yīng)用結(jié)果表明,這種技術(shù)的應(yīng)用,能夠在節(jié)省管理成本的基礎(chǔ)上,提升工作效率,具有應(yīng)用的價(jià)值。
參考文獻(xiàn):
[1]劉小滿,王小輝.基于“互聯(lián)網(wǎng)+”的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2019,15(31):37-40.
[2]蘇鵬,楊文順.監(jiān)控互聯(lián)網(wǎng)輿情助推民族地區(qū)黨建工作智能化[J].云南民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2019,36(02):31-33.
[3]黃霄漢,馬兆豐.Android移動(dòng)互聯(lián)網(wǎng)輿情推送技術(shù)研究與實(shí)現(xiàn)[J].軟件,2017,37(12):26-31.
作者簡(jiǎn)介:
李建新,1977年10月,男,河北唐山人,本科,政工師,網(wǎng)絡(luò)輿情、黨務(wù)、融媒體中心建設(shè)、思想宣傳等方向