支丹萍 何鎵
摘 要:該文首先從宏觀和微觀兩個角度分析了當前網絡環境下輿情事件的特點,然后簡單分析了網絡輿情事件的熱點識別方法,詳細說明了幾種不同的輿情事件熱點算法,最后對幾種算法進行了對比分析,對實際網絡輿情事件的科學有效分析具有非常重要的意義。
關鍵詞:網絡輿情事件 熱點 發現算法 比較分析
中圖分類號:TP393 文獻標識碼:A 文章編號:1674-098X(2015)06(c)-0217-01
網絡輿情事件由于主要通過網絡傳播,而網絡也是一個公眾性極為突出的平臺,因此對于其發生的輿情事件的分析也能夠非常容易的通過數據運算實現。網絡輿情事件雖然傳播于網絡,但一般仍然是以現實社會為基礎所產生的,因此其現實意義也非常重要,通過對網絡上的輿情發生和走向分析,能夠從一定程度上反映出社會中的實際輿情走向。
1 網絡輿情事件分析
1.1 宏觀網絡輿情事件分析
宏觀角度分析輿情事件主要是指事件熱點或焦點程度,以及其在網絡輿論中造成的影響等。對網絡輿情事件的熱點數據分析,首先要明確宏觀性的輿情事件特點;其次有針對性的進行其具體熱點數據分析,實現對整個事件輿論狀態及發展走向的整體分析。
1.2 微觀網絡輿情事件分析
微觀角度分析網絡輿情事件主要就是根據網絡上的事件點擊、轉發、討論人數等具體信息進行數據的統計、計算和分析,這種分析更加注重實際的網絡數據,雖然其結果更加具體化,但由于網絡信息量的龐大,其分析工作量也是同樣巨大的。
2 網絡輿情事件熱點識別與檢測
在網絡輿情事件的識別與檢測中,識別是一項相對比較簡單的工作,根據具體的網絡事件熱度進行簡單分析就能夠判定出是否熱點事件,而輿情事件的熱點檢測是一項對具體數據要求較高的工作任務,因此需要有準確的數據統計、計算和對比分析才能實現。另外輿情事件最大的特點就是變化性強,根據不同時期事件的發展變化走向,需要進行同步信息和數據的掌握,才能夠隨時準確的反映事件的熱點程度,從而全面的掌握網絡輿情走向。同時根據事件的多面性也要針對不同的事件反映或討論結果進行多元化信息分析,對比結果或討論觀點的熱度走向等,進而做出相應的輿論干預策略。
3 網絡輿情事件熱點發現算法
3.1 single pass單程事件識別算法
這種算法是根據某一單獨事件或某一類事件進行的相應數據計算和分析,其分析所需要的數據有事件的關鍵字及其出現的頻率,有關事件的話題出現和查詢的頻率等。以Di表示某一話題,每個與話題相關的事件都作為一個向量,事件的熱點計算公式如下:
然后進行信息的預處理對各項數據分類、過濾、識別、匹配,再根據其中的熱點數據進行發現和運算,將運算結果作為未來的跟蹤對象,實施持續性的熱點數據統計與計算,最終完成對整個事件的熱點分析及評估。這種算法對于事件熱點的數據分析比較科學,同時算法也比較容易,是一種好操作的常用熱點事件計算方法之一。
3.2 KNN最鄰近事件分類識別算法
KNN最鄰近事件是指在某一熱點事件范圍內,所出現的不同角度的各種話題,這種通過分類和對比的方法進行的熱點事件運算能夠對當前熱點事件進行全面、準確的數據運算,同時客觀的反映出事件不同話題的熱點程度,掌握整個事件在網絡中的輿論狀態。首先根據事件相關的各個話題進行基本的搜尋;其次對不同的話題根據時間先后進行劃分,并針對不同時期話題所出現的關鍵字及其數量、頻繁、類型等信息進行統計分析,最終計算出其中最為相近的幾個話題,根據其熱點程度進行由重到輕的分類和排序,最終實現對各個話題的全面分析。
3.3 SVM支持向量機事件識別算法
這種算法一般是針對同一時期的不同熱點事件進行的熱點識別算法,由于網絡信息量的龐大,決定了在同一時間內不可能僅僅有一個事件是熱點,如何針對這些同一時間內的熱點事件進行識別與熱點運算,就是SVM算法能夠解決的問題。通過函數算法能夠將事件的熱點計算更加精確,但是算法相對復雜,普遍應用性稍差。
3.4 K-means平均值事件識別算法
根據網絡事件發生情況建立起K平均聚類的模型,計算不同話題與中心事件的距離為根本,來判定其熱點程度并根據結果實行相關的報道。具體的算法是,以某個話題中心為Di,以Ci表示不同事件,公式如下:
m是與話題相關事件文檔的數量。這種算法對于一些話題比較集中的熱點事件比較適用,難易程度相對較低,容易快速實現對事件的熱點數據分析。
3.5 SOM自組織映射事件識別算法
這種算法是一種非常容易實際運用的事件熱點計算方法。首先針對最先出現的熱點事件進行信息收集與提取,針對其熱點特征進行基本的分析;其次建立起以些熱點為基礎的映射事件組織,根據隨時出現的相關話題或報道與熱點事件的關系,及出現的時間先后進行事件的熱點分析和輿情走向分析,從而掌握事件的發展規律或發展方向。
4 網絡輿情事件熱點算法比較
single pass單程事件識別算法是最基本的事件熱點算法,它主要是針對網絡信息環境下事件不斷發展變化的特點所適合的熱點運算方法,同時能夠很好的反映出事件的變化情況。
KNN最鄰近事件分類識別算法雖然運算比較復雜,但其結果也是非常準確的,缺點是對不同事件的存儲需求較高,信息的輸入、讀取的運算復雜。
SVM支持向量機事件識別算法能夠以最安全、最精確的運算識別出不同事件的熱點程度,但其復雜的運算方法使其廣泛運用受到限制。
K-means平均值事件識別算法能夠根據事件的基本發展情況和話題狀態進行有效的數據分析,同時計算方法也比較簡便,在監測網絡輿情走向時有效性非常明顯。
SOM自組織映射事件識別算法所設計的映射類聚能夠根據各種事件或不同事件之間的關聯建立起完整的聚類,并進行相應的運算,在對比不同事件的熱點分析時能夠有效和準確的掌握具體的網絡輿情。
5 結語
針對不同的網絡輿情事件算法進行分析,要將網絡上的信息更加具體化,通過數據的形式來表現不同輿情事件所造成的影響,是一項非常直觀、易于研究的方式。
參考文獻
[1] 柳虹,徐金華.網絡輿情熱點發現研究[J].科技通報,2011(3):421-425.
[2] 曾潤喜,杜換霞,王君澤.網絡輿情指標體系、方法與模型比較研究[J].情報雜志,2014(4):96-101.