方茜
(四川大學(xué)計算機學(xué)院,成都610065)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)是人們獲取社會信息的重要途徑,已成為人們生活中不可缺少的一部分。他們通過各大網(wǎng)絡(luò)平臺發(fā)表個人觀點,討論各種新鮮話題,話題的類型層出不窮,涉及國計民生、關(guān)乎群眾利益的突發(fā)性新聞話題。網(wǎng)絡(luò)平臺的自由性和多樣性已經(jīng)具有了引導(dǎo)輿論,影響受眾的能力。網(wǎng)絡(luò)輿情成為社會輿情的重要組成部分,由于網(wǎng)絡(luò)的傳播的隨機性、突發(fā)性、高速性,使得一些虛假及不良信息迅速上升為熱點話題,引起公眾的恐慌和不滿情緒,擾亂社會秩序。網(wǎng)絡(luò)輿情系統(tǒng)的研究與開發(fā)已經(jīng)受到我國政府的高度重視,通過網(wǎng)絡(luò)輿情系統(tǒng)設(shè)置輿情監(jiān)測任務(wù),通過監(jiān)測與追蹤分析,對可能給社會帶來不利影響和風(fēng)險的事件或者話題事先預(yù)測,并進行預(yù)警,對這類事件或者話題預(yù)先處置,以防止危機爆發(fā)。
目前已有很多網(wǎng)絡(luò)輿情系統(tǒng)產(chǎn)品,比較有名有清博輿情、新浪輿情通、林克輿情、樂思輿情等,這些產(chǎn)品能夠時時監(jiān)測到當(dāng)前網(wǎng)絡(luò)中發(fā)生的一些熱門話題,但是這些產(chǎn)品還存在一定的缺陷,第一,無法提供實時話題或文章的預(yù)警,需要輿情工作者手動預(yù)警;第二,這些輿情產(chǎn)品未實現(xiàn)對輿情未來發(fā)展趨勢進行預(yù)測。一個網(wǎng)絡(luò)輿情系統(tǒng)主要包含以下幾個主要功能:輿情監(jiān)測功能、輿情預(yù)測功能、輿情預(yù)警功能。在這些功能中涉及很多計算機領(lǐng)域技術(shù)方法及研究,本文主要綜述網(wǎng)絡(luò)輿情系統(tǒng)中這三個功能中的話題追蹤技術(shù)、情感極性判斷技術(shù)、輿情預(yù)測技術(shù)以及預(yù)警技術(shù)目前的研究現(xiàn)狀。
輿情監(jiān)測是網(wǎng)絡(luò)輿情系統(tǒng)的重要組成部分,通過輿情監(jiān)測技術(shù)能夠檢測話題,發(fā)現(xiàn)話題,追蹤話題,同時可以分析檢測話題下的文章情感極性,為系統(tǒng)的預(yù)警做鋪墊。輿情信息的采集是通過爬蟲技術(shù)從各門戶網(wǎng)站各大平臺收集海量數(shù)據(jù),對這些海量數(shù)據(jù)進行預(yù)處理、分類、聚類、存儲、統(tǒng)計分析,從而提取網(wǎng)絡(luò)輿情系統(tǒng)中用戶關(guān)注的信息為用戶提供服務(wù)。在輿情監(jiān)測技術(shù)中,本節(jié)主要闡述輿情話題追蹤技術(shù)和輿情情感極性判斷所用到的技術(shù)。
輿情話題追蹤的任務(wù)是跟蹤已知話題下的后續(xù)文章,若已知話題沒有明確描述時,則需要由若干先驗的文章聚類得到的。傳統(tǒng)方法主要使用文本分類的方法或者相似性方法,通過話題已有的文章訓(xùn)練樣本得到分類器,當(dāng)出現(xiàn)新文章時放入分類器,判斷是否屬于該類別話題。另一種方法是自適應(yīng)話題追蹤方法,其在分類過程中加入了學(xué)習(xí)機制,每判定完一篇文章后,如果該文章符合話題訓(xùn)練集的某一標(biāo)準(zhǔn),就將該文章加入訓(xùn)練集用以訓(xùn)練話題模型,不斷更新和調(diào)整話題追蹤訓(xùn)練模型,防止出現(xiàn)話題跟蹤不準(zhǔn)確和話題漂移現(xiàn)象。

表1 話題追蹤技術(shù)總結(jié)
在傳統(tǒng)話題追蹤中,話題模型得到后就不在進行調(diào)整,從始用到終,然而隨著時間的發(fā)展,話題的側(cè)重點不斷發(fā)現(xiàn)變化,針對話題的演變,需要調(diào)整模型,才能更加準(zhǔn)確地進行話題追蹤;而自適應(yīng)話題追蹤實現(xiàn)這個功能,會利用自學(xué)習(xí)的方法更新模型,能夠提高話題追蹤的準(zhǔn)確率。
網(wǎng)絡(luò)輿情系統(tǒng)中,在向用戶展示監(jiān)測到的某一話題的文章列表中會表示出每篇文章的情感極性,用于輿情管理工作者在監(jiān)測過程中做相應(yīng)的判斷。目前已有的研究中對輿情情感分析的研究主要分為基于文本分類的方法,將輿情情感極性作為分類處理,分類的結(jié)果為正中負三極,主要取決于分類器的選擇;其次是基于語義規(guī)則的情感分析識別,提取文章語義模式特征,對所有特征中語義傾向值求和作為該文章語義傾向值,與閾值比較得到情感極性;再次是基于情感詞典的情感極性識別,根據(jù)詞匯的傾向值來度量文本的傾向值,詞匯的傾向值通過計算詞匯與情感詞典中基準(zhǔn)詞之間的關(guān)聯(lián)度獲得,再求和文本所有詞匯傾向值與閾值比較得出情感傾向;最后是基于深度學(xué)習(xí)的情感極性識別。

表2 情感極性分析方法總結(jié)
基于本文分類、語義規(guī)則、情感詞典的方法存在訓(xùn)練集需要人工標(biāo)注,耗時耗力,且目前還沒有實現(xiàn)自動抽取語義模式的方法,每個語義模式和語義傾向值需要人工完成,依賴專家知識,同時對情感詞典的選擇要求也較高;而基于深度學(xué)習(xí)的方法能夠自動提取特征,不依賴專家知識,但需要大量的訓(xùn)練樣本。
網(wǎng)絡(luò)輿情系統(tǒng)中通過話題預(yù)測趨勢,分析輿情未來趨勢才能做出合理的監(jiān)管和預(yù)警決策。網(wǎng)絡(luò)話題的傳播過程是一個基于時間序列的演化過程,其傳播呈現(xiàn)出不規(guī)則的趨勢,且在話題的發(fā)展過程中常出現(xiàn)一些不確定影響因素,難以量化。盡管輿情話題傳播不是典型的時間序列,也沒有固定的演化模式,但利用時間序列的研究方法對網(wǎng)絡(luò)話題傳播趨勢依舊是可行的。最早提出的預(yù)測模型是線性預(yù)測模型,但在線話題傳播是一個相對復(fù)雜的過程,不僅包含線性機制,同時還包含非線性機制,因此有研究者提出非線性模型。然而話題的傳播過程中存在明顯的混沌特性,且存在很多不確定因素,因此預(yù)測模型需要自適應(yīng)調(diào)整,又提出自適應(yīng)模型。自適應(yīng)模型是在前兩種方法的基礎(chǔ)中加入自適應(yīng)規(guī)則動態(tài)調(diào)整訓(xùn)練樣本,更新訓(xùn)練模型,有效地調(diào)整因輿情傳播過程中的隨機性和不確定性因素帶來的偏差,使得預(yù)測更加準(zhǔn)確。表3 列出目前對輿情話題預(yù)測的分類及每個分類下的方法。

表3 預(yù)測模型方法總結(jié)
網(wǎng)絡(luò)輿情系統(tǒng)實現(xiàn)預(yù)警功能的主要目的是為了持續(xù)監(jiān)測輿情信息,全面了解輿情的基本情況和發(fā)展態(tài)勢,發(fā)現(xiàn)潛在問題,做到危機事件爆發(fā)前對輿情進行及時跟蹤處理,維護社會秩序和穩(wěn)定。現(xiàn)有的輿情預(yù)警研究大部分以我國為主,主要有兩類研究:一種是通過不同層次的預(yù)警指標(biāo)體系,建立預(yù)警模型,得到預(yù)警分級;另一種是通過量化某些輿情數(shù)據(jù)的特征屬性(情感極性、態(tài)度等)進行建模實現(xiàn)網(wǎng)絡(luò)輿情未來發(fā)展趨勢的預(yù)測,并根據(jù)具體的預(yù)測結(jié)果進行預(yù)警分級。
輿情指標(biāo)體系的建立是輿情預(yù)警的關(guān)鍵步驟,通過預(yù)警指標(biāo)能夠發(fā)現(xiàn)網(wǎng)絡(luò)輿情的潛在問題,對輿情信息的判斷更加客觀。輿情指標(biāo)體系的建立主要有以下幾個組成:
(1)確定關(guān)鍵指標(biāo)的構(gòu)成
(2)指標(biāo)橫向維度
(3)指標(biāo)縱向?qū)哟?/p>
(4)指標(biāo)量化
在現(xiàn)有的研究中,確定關(guān)鍵指標(biāo)的構(gòu)成方法主要有專家問卷調(diào)查法和文獻法。而指標(biāo)量化中指標(biāo)權(quán)重的確定相對較多,主要有:①問卷法,在問卷法中大部分使用德爾菲法,有少數(shù)文章使用格柵法來為指標(biāo)打分;②層次分析法(AHP);③熵權(quán)法;④模糊德爾菲和模糊層次分析法。這些方法確定指標(biāo)權(quán)重具有較強的主觀性,主要依賴于專家知識,同時確實論證過程。第四種方法相對于前幾種加入模糊理論,引入一定的客觀性。如何去除指標(biāo)權(quán)重計算較強的主觀性和科學(xué)性是未來研究的方向。
預(yù)警模型的建立主要通過兩種方式,一種是通過指標(biāo)體系使用模糊理論建立預(yù)警模型,另一種是通過機器學(xué)習(xí)來建立預(yù)警模型,表4 列出目前的預(yù)警模型主要方法。

表4 預(yù)測模型方法總結(jié)
模糊理論建立的預(yù)警模型主要是建立隸屬度函數(shù),對各指標(biāo)因素進行評判確定其隸屬度,將其與預(yù)先設(shè)置好的預(yù)警等級閾值進行比較,得到相應(yīng)等級的預(yù)警。機器學(xué)習(xí)方法建立預(yù)警模型主要是通過將指標(biāo)量化,建立預(yù)警模型,輸入為量化后的指標(biāo),輸出為預(yù)警等級。目前針對輿情預(yù)警的研究相對較少,對輿情預(yù)警研究的主要來源于管理科學(xué)學(xué)科人員,極少部分來源計算機學(xué)科,將計算機領(lǐng)域知識運用的輿情預(yù)警的準(zhǔn)確性是輿情預(yù)警研究的未來方向。
網(wǎng)絡(luò)輿情系統(tǒng)的功能構(gòu)建關(guān)乎到能否對輿情信息進行監(jiān)測,實現(xiàn)準(zhǔn)確分析,在輿情危機爆發(fā)前對其進行處理,防止輿情危機爆發(fā),擾亂社會秩序,制造混亂。目前的網(wǎng)絡(luò)輿情系統(tǒng)還存在一定的缺陷,預(yù)測和預(yù)警不夠準(zhǔn)確。現(xiàn)有的研究中在輿情話題追蹤技術(shù)和情感極性分析技術(shù)相對較為成熟,而對預(yù)測和預(yù)警技術(shù)還需加大研究力度,從而實現(xiàn)功能更加完備準(zhǔn)確有效的網(wǎng)絡(luò)輿情系統(tǒng)。