郭文強



摘要:支持向量機是一種基于統計學習理論的新的、非常有效的機器學習方法。針對當前網絡輿情研究發展的新需要,本文提出一種基于支持向量機(SVM)的網絡輿情信息采集、提取、識別、研判的方法,具有較好的泛化能力,在與神經網絡方法的比較中,該方法表現出較低的漏檢率、誤檢率和較好的魯棒性,在網絡輿情研判領域有深入研究的價值和良好的應用前景。
關鍵詞:支持向量機;信息特征識別;網絡輿情
中圖分類號:TP393.09 文獻標識碼:A 文章編號:1007-9416(2017)02-0119-02
1 引言
網絡輿情研判是有效掌控網絡、促進社會主義和諧社會建設的重要手段[1]。當前,信息處理領域內的一個重要的研究方向是網絡輿情研判,它具有非常深遠的實用價值。分類挖掘技術作為研究互聯網信息研究的一種新興統計學習理論,它能夠有效的從互聯網中獲取相關的輿情信息,通過分析后,最終達到監控和預警的目的,對監管部門管理和處置互聯網中的涉警輿情提供幫助[2-4]。本文將在計算動詞理論聚類算法中引入支持向量機技術,通過分析計算動詞決策樹的趨勢后,來對互聯網信息進行分類和挖掘,實現網絡中的輿情偵測、繼而探索輿情源頭、網絡輿情的接收者及特征,最終得到輿情在互聯網中的傳播方式,并對輿情帶來的影響進行評估及其發展趨勢做出研判。
3 基于支持向量機技術的網絡輿情信息動詞決策樹的趨勢分析
在互聯網分析中引入聚類分析,就是對互聯網數據進行歸類、分組、匯總,得出群體的聚類特征并形成屬性知識。而趨勢分析則是對前面會聯網數據聚類分析后所得到的屬性知識為研究對象,接著設計出解決此問題的決策樹,以揭示出問題發展的趨勢,為預測和把握未來發展方向提供幫助。計算動詞決策樹的過程是:首先從研究對象屬性類型的根節點選取,其次選取根節點的下一個葉子節點N,接著找到此節點N的最佳決策屬性,然后通過計算動詞增益和計算動詞熵來訓練節點,最后判斷是否把訓練樣本進行了最佳分類,得到就結束,否則繼續找最佳決策屬性。
4 基于支持向量機技術的網絡輿情研判方法
(1)在支持向量機技術的支持下,對新聞、論壇/BBS、博客、即時通信軟件等渠道傳播的網絡輿情進行采集,運用聚類分析、主題檢測與跟蹤、自動摘要等定向分析技術,可以得出網絡輿情傳播者的感情、想法、觀點、立場和意圖等主觀的特征表現。最終實現用關鍵字布控、語義分析來達到識別敏感話題的目的。(2)熱點話題、敏感話題瞄準與追蹤。目前國內外大多采用了文本聚類技術——文本關鍵字詞作為文本特征,分析新發表文章、貼子的話題是否與已有熱點或敏感主題相同,并對發表的話題和發信人發表的文章的觀點、傾向性進行分析與統計。(3)研究發現當前的網絡輿情的研判和預警效果并不理想。主要原因是缺乏統一全面的、全方位多層次的網絡輿情預警信息系統,無法滿足當前用戶所期望的需求;此外各大廠商之間缺乏合作和協調,難以形成有效的合力。所以網絡輿情分析及研判技術還有更大的發展空間。(4)除市場環境及用戶需求沒有邊界等特殊因素外,怎樣將計算技術與處理內容結合,怎樣設計具體的分析引擎和自動信息采集,怎樣構建輿情分析庫、屬性知識儲備庫,怎樣對收集的信息進行與判斷、篩選和預處理形成格式化信息,怎樣加強專家與系統結合、人機結合來提升輿情判斷的準確性等到都是當前解決問題的最重要環節。
5 結語
支持向量機理論建立在統計學習理論的VC維理論和結構風險最小原理基礎上,它作為一種新的機器學習方法,能夠依據有限的樣本信息,在模型的復雜性和學習能力之間尋求最佳折中,在解決模式分類問題上具有近似最優,而且在沒有問題域相關知識屬性時所設計的機器依然具有較好的性能。文中提出一種基于支持向量機技術的網絡輿情研判方法,具有突出的小樣本學習方法,借助它強大的泛化能力,實現了高效的從訓練樣本到預報樣本的“轉導推理”,在網絡輿情信息處理中具有良好的性能,即較低的誤檢率和漏檢率,這都充分表明了基于支持向量機技術對網絡輿情研判處理及相關問題有良好的應用前景。
參考文獻
[1]李敏.互聯網輿情監控系統設計與實現[D].上海:復旦大學,2009.
[2]王偉,許鑫.基于聚類的網絡輿情熱點發現及分析[J].現代圖書情報技術,2011(03):74-79.
[3]周黎明,邱均平.基于網絡的內容分析法[J].情報學報,2005(05):594-599.
[4]趙曙光.提高自媒體時代突發事件的輿論引導能力[J].政工研究動態,2012(15):22-24.
[5]Vapnik V著,張學工譯.統計學習理論的本質[M].北京:清華大學出版社,2000.
[6]王國勝,鐘義信,支持向量機的若干新進展[J].電子學報,2001(10):1397-1400.
[7]劉江華,程君實,陳佳品.支持向量機訓練算法綜述[J].信息與控制,2002(1):45-50.