陳 楠
(安徽大學藝術與傳媒學院,安徽 合肥 230000)
網絡熱點事件跟蹤技術研究
陳 楠
(安徽大學藝術與傳媒學院,安徽 合肥 230000)
對于網絡上發生的事件,我們可以選取一些樣本,既定的公式進行主題追蹤,以此來進行文本的計算與學習,利用增量聚類算法,從而發現并確定網絡熱點問題,并對其進行跟蹤與處理。
熱點事件;增量聚類算法;跟蹤技術
“熱點發現”主要針對的是以前未知的熱點,實際上,熱點發現的過程是聚類過程,而聚類的過程與方法是多種多樣的。“話題追蹤”主要針對的是已知話題,對與其相關的事件進行全面追蹤,而這一過程實際上是分類過程。在網絡輿情分析中,熱點發現與事件跟蹤是最核心的兩個功能,因此,本文對其進行重點研究。
熱點事件的發現實際上就是將輿情事件放入到網絡中,通過對網站內信息進行主題檢測而完成自動抓取[1]。通常情況下,用于事件檢測的網站主要有以下三種:其一,以人民網為代表的主流新聞網站;其二,以新浪網為代表的大型商業網站;其三,以BBS為代表的網絡社區。
1.1 輿情事件的類型
輿情事件可以大致分為以下四種類型:第一,新事件;第二,突發事件;第三和第四分別為熱點事件與焦點事件,兩者之間有一定的共同之處,因此放在一起論述。
1.2 增量聚類算法
一般而言,輿情分析系統獲取信息的方式通常是定期更新,在數據更新完成以后,以原情況為基礎的相關狀態也需要進行更新。普遍運用以下兩種方法來解決:其一,在更新以后的數據集上再次運用聚類算法;其二,針對更新完成以后的新增數據,可以運用增量式算法進行挖掘與更新[2]。在話題檢測與跟蹤測評過程中,一般運用Single-pass增量聚類法來實現檢測功能。
2.1 事件跟蹤技術的數學表達
進行事件跟蹤的主要目標是日益變化的信息流,對一個既定的主題事件進行追蹤,從而發現與該主題時間相關的全部信息。從定義上描述,時間跟蹤便是在依托于既定的追蹤體系,從文本內容出發,將與其相關的所有內容全部自動確定下來。從數學層面上看,事件追蹤實際上是一個映射過程,時間追蹤以既定主題為標準,將未注明主題的文檔對既定主題進行映射,這種映射過程可以是一對一的,也可以是一對多的,其原因在于一個未標明主題的文檔可以同時關聯多個主題。用數學公式進行表示為:f:A→B,該式中,A所表示的是將要對其進行追蹤的文本;B所表示的是追蹤體系中既定的主題。
進行主題追蹤需要遵循一定的映射規則,系統以主題所提供的典型樣本為追蹤信息,對追蹤的規律性進行總結,從而構建起與之相對應的判別規則以及公式,當遇到一個為表明主題的文本時,就可以依照已經構建起來的判別規則,對文本進行相關主題的確定。
2.2 事件跟蹤技術的分類算法
與傳統分類算法相比,事件跟蹤技術的分類算法更有優勢,可以將其看成是一種文本分類技術,需要遵循以下三方面約束條件:第一,進行訓練的樣本必須是與既定主題有聯系的報道;第二,針對既定主題,如果產生了新的新聞文本,跟蹤系統會針對這一文本給出一個肯定/否定的追蹤判定;第三,在訓練一個既定主題學習的過程中,系統會對其他無關的事件主題默認未知。
事件跟蹤的核心理念是:由人工選取一些報道當做訓練樣本,運用既定的公式進行主題追蹤,以此來進行文本的計算與學習。如果出現新的數據,需要以計算公式為基礎對新數據的分數進行計算,以事先設定好的閾值為依托,如果計算出來的分數比閾值大,便可以將該報道判定為與主題相關,也就是肯定判定;如果計算出來的分數比閾值小,便可以將該報道判定為與主題不相關,也就是否定判定。
2.3 1-NN增量分類算法
1-NN增量分類算法是一種比較常用的時間跟蹤算法,具體的思想有以下四個方面:
第一,選擇初始樣本。當前的主題追蹤系統在訓練樣本方面普遍是由用戶提供的,一般一到四篇不等,因為存在人為干預,樣本也會出現質量的不同,這會對跟蹤效果產生很大影響。如果系統中存在事件發現這一功能,無論既定主題還是訓練樣本便可以通過系統直接給出,但這樣一來樣本中的主題就有可能會轉移,出現多個跟蹤中心。
第二,初次訓練。傳統的計算方法一般運用的是余弦相似度方法,對任意一對樣本進行相似度計算,通過計算所有樣本的相似度平均值而獲取該樣本的分數。因為隨機樣本具有很大的不確定性,有可能會出現一些樣本之間相似度較高的情況,因此需要將一些重復樣本淘汰,保留與主題核心內容相關的樣本,這樣可以在提升樣本質量的基礎上,使分類準確率得到一定程度的提升,還減少了相似度比對的次數。
3.1 影響輿情的因素
現階段,分析輿情態勢的主要技術都是通過對話題熱度的簡單統計,再運用概率理論進行復雜性分析,這種方法沒有針對輿情本身進行深入研究。主題檢測與跟蹤技術雖然可以通過自動聚類對社會熱點與焦點內容進行追蹤,但分析模式還只局限于熱點與焦點,很難進行深化。
大體上看,可以從微觀角度與宏觀角度對輿情態勢進行分析。從微觀角度看,對輿情態勢造成影響的主要因數有:文章數量、參與人數、發言頻次、點擊率、回帖率、時間因子、話題內聚度等;從宏觀角度看,輿情重要程度主要運用熱點與焦點進行判斷,從深度分析的層面上看,影響輿情的主要因素還包括敏點、疑點、重點、難點、拐點等。根本上講,輿情態勢的宏觀方面是以若干個微觀方面為基礎產生的。因此,在輿情態勢的未來研究方向中,將會與多點關聯分析技術為主。
3.2 預警技術模型
突發事件最受重視的時期便是出現初期,這一時期對事件的關注人數與參與人數都會呈幾何方式倍增,網民的意見也最為活躍,但與此同時,這一時期也是網民情緒變化與積累比較頻繁的時期,需要特別關注與引導。所以,調查熱點信息討論時間是非常有必要的,對主要的活躍事件進行實時的趨勢分析,還需要制定出有針對性的預警機制。
本文主要對熱點發現技術、事件跟蹤技術以及輿情態勢與預警技術進行了分析。在熱點發現技術中運用了增量聚類算法,提升了聚類結果的準確率;事件法跟蹤技術中運用可1-NN增量分類算法,解決了主題轉移問題;預警技術中運用了 ARMA為基礎的單因素預測與多元線性回歸相結合的預警模型,提升了預警效果。
[1]余品銳,劉天楨.基于GARCH模型的網絡新聞與輿情的波動性分析[J].計算機與現代化.2010.06(11):176-178.
[2]邱立坤,龍志祎,程葳等.層次化話題發現與跟蹤方法及系統實現[J].廣西師范大學學報(自然科學版).2014.14(07):125-126.
Research on tracking technology of network hot spots
CHEN Nan
(Anhui university of art and media institute,Hefei Anhui 230000)
For events on the Internet,we can choose some samples,topic tracking,for given formula to calculate and study of the text,using the incremental clustering algorithm,to find and identify network hot spots,and carries on the track.
Hot issues; Incremental clustering algorithm; Tracking technology
:A
10.3969/j.issn.1672-7304.2016.01.062
1672–7304(2016)01–0133–02
課題《大數據環境下網絡輿情監測與預測研究》2015年安徽省高校人文社科研究一般項目。
(責任編輯:吳 芳)
陳楠(1981-)女,安徽蕪湖人,講師,研究方向:傳媒科技。