趙立芳
摘 要 文章主要從大數據時代,如何對網絡數據進行分析并建立輿情監控和引導機制,找出了集中分析處理方法,并預測了未來大數據輿情研究方向及存在的問題。
關鍵詞 大數據;網絡輿情;發展;分析;機制
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2016)08-0035-02
隨著數據統計和采集的發展以及網絡背景下結構化數據的普及,“大數據”作為這一背景下新生的要素,給社會的各方面帶來了深遠的影響。輿情分析,是社會科學中一項較為經典的研究領域,對輿情分析的概念的劃分可以分為傳統輿情分析與網絡輿情分析兩個方面。傳統社會輿情分析立足于經典的方式方法與傳統信息傳播媒介,致力于研究社會熱點事件、新頒布的政策及法律條文對于社會輿論的影響,并試圖探索社會輿論與這些“關鍵事件”之間的關系;網絡輿情的研究則立足于計算機網絡這一個新生的信息傳播媒介下展開,其早期因為網絡普及度相對較低等原因,在研究中相對簡單粗放,而隨著網絡普及程度的提高,尤其是在類似于推特(Twitter)、飯否、Facebook、新浪微博、人人網等具有方便于海量個人用戶快速發布信息的功能的“自媒體(owned media)”平臺的建立與推廣,當前的研究轉向應對海量網絡數據下的輿情研究。
1 自媒體與社科研究
自媒體的普及與運用改變了人們的信息處理行為,將個體塑造成為傳播的核心。在這種根本性的轉變中,自媒體成為大數據時代自主生成優質數據的重要平臺,同時成為大數據運用的關鍵陣地,它具有以下2個較為突出的特點。
1)數據數量大,來源廣泛。大數據之所以被稱之為“大”,源于他的數量相對以前的研究數據來說較大,數據量大的結果便是數據加工與分析的難度遠遠大于以前的有限數量下的數據研究工作;而來源廣泛則是指的用來調查的數據不是從單一的某一個點進行獲取,而且擴大到面。
2)數據整體價值高,但單個數據有待進一步規范。在大數據時代,以微博、微信等為代表的“自媒體”中蘊含了大量的、具有不同的知識背景獨立個體,而相對“匿名”和不限定格式的表達方式,使得用戶得以很方便的表達出自己內心的實際
觀點。
2 基于自媒體的網絡輿情分析關鍵技術
如前所述,當前在社會科學領域對大數據的應用最為成功的即為網絡輿情分析研究。與傳統的基于調查等手段的社會輿情分析不同,大數據背景下所進行的網絡輿情調查因為網絡的普及等原因,所獲取的范圍更加廣闊,從而大大降低了傳統的基于調查的社會輿情分析中因為調查不全而造成的結論不準的情況,使研究成果更能反映真實的社會輿論情況。
當前基于自媒體網絡輿情分析的關鍵技術主要有以下幾種。
2.1 信息采集技術
進行網絡輿情分析,首要的工作就是進行信息采集。常見的信息采集流程包含數據的爬取、清洗與存儲等步驟。
所謂數據爬取,即通過網絡爬蟲(如比較著名的火車頭采集器)或是通過網站API接口獲取研究數據,當然如果數據相對較小且人員充足的話,也可以利用人工手動采集的原始方法。但是相比之下機器爬取的準確率和效率較高,可以有效縮短研究的時間,而且現在有足夠的開源爬蟲軟件可以輔助相關的數據抓取工作,因此在現有的研究中提倡使用程序自動爬取。
所謂數據清洗,即對所采集數據進行精簡處理,去除與研究無關或重復的數據。對于數據清洗,大致可以分為以下2個階段。
1)數據采集時期的一次清洗。主要的清除對象是無效鏈接、重復和無關數據。
2)數據分析時期的二次清洗。主要的清除對象是停用詞。
通過爬取所獲得的數據中含有大量的諸如HTML語言字段等對于研究來說是無效的數據,如不將其過濾將會因為其較高的重復率影響最終的分析結果。因此需要進行數據清洗工作來去除這些無效
數據。
2.2 網絡輿情熱點發現技術
所謂網絡輿情熱點發現,即通過對新聞與目標話題的識別與跟蹤,分析并繪制其發展軌跡,最終利用聚類的方式將結果推送給用戶。
該技術的技術依據為對關鍵詞或話題(標識標注為“#”號,英文稱為hash tag)的統計數量隨時間的變動情況,需要大量的數據進行支撐。
2.3 熱點評估與跟蹤技術
所謂“熱點評估與跟蹤”,即根據某一特定熱點事件中公眾的情感和行為反應,分析其對公眾輿論的影響,建立一套針對輿情變化的評分方案,并設定其中的各狀態極值。在這種研究中,常用的研究手段有詞頻統計與情感分類。詞頻統計,即對所采集并清洗后信息進行統計,然后對統計結果進行分析,從而得出結論的方法。情感分類,與前述的“數據清洗”方法類似,將數據與人工編輯成的情感詞詞典進行相似性比對,然后進行分類統計。
2.4 網絡輿情的分析處理技術
網絡輿情的分析處理技術,是大數據背景下社會科學領域的服務于決策管理層的技術。該技術包含針對網絡輿情事件的早期預警、現場引導、實際反饋以及評估與自我完善機制等諸多方面。
3 結束語
目前,大數據時代社會輿情的研究還處于探索中。在處理技術、分析構架等領域上還存在著很多的問題,具體體現在以下幾個方面。
1)針對海量非結構數據處理技術尚不夠成熟。
2)研究方向相對分散,缺乏協作。
3)輿情監控對決策支持相對簡單,時效性
不高。
結合當前研究,大數據背景下的公眾輿情研究將會有如下的發展。
1)行為分析與數據分析交叉驗證。
2)人工智能(AI)與心智模型相結合。
3)基于已有的研究成果構建具有學習功能的決策支持平臺。
參考文獻
[1]楊海龍.論大數據背景下的網絡輿情監測[J].情報探索,2015(10):132-135.
[2]張寧熙.大數據在突發公共事件網絡輿情信息工作中的應用[J].現代情報,2015,35(6):38-42.
[3]郭躍軍.論大數據時代網絡輿情監管機制的構建[J].山西農業大學學報,2015,14(6):640-644.