(遵義師范學院,貴州 遵義 563000)
大數據技術為人們日常生活與工作帶來很多便利,從當前我國社會發展可以看出,互聯網已經在全國范圍內得到普及。在網民的網絡生活中,微信以及微博成為其中的重要組成部分,而且還有很多網民會在社交網站以及論壇中,發表自身的看法與意見。百分之八十的網民,會討論社會中剛剛發生的新聞與熱點事件,這也在一定程度上說明,網絡已經成為人民群眾的思想文化聚集地,以及社會輿情的傳播地。基于此,本文將針對大數據技術下的網絡輿情分析系統相關內容進行闡述。
大數據技術主要是指數據量以及規模超過傳統,而且無法使用主流軟件對數據量進行整理與分析。政府部門及企業可以通過大數據技術對數據信息進行有效處理,并制定有效的經營發展方案以及管理方式等。大數據技術有著屬于自身的特點,比如:數量巨大、種類繁多、價值低、密度低以及流通速度快。國外的Hadoop平臺具有可靠性、高效性與可伸縮性特點,可以實現對數據的專門處理。這一平臺包含許多不同組件,比如多種存儲節點,即可以在一個節點中實現對不同節點數據信息的收集與處理。眾多的廉價計算機群可以在系統有需要的時候,增加處理節點。
網絡輿情通常情況下主要是指互聯網中的網民針對社會發生的熱點新聞事件,尤其是與網民自身切身利益相關的熱點事件、國家政策等,所表現出的情緒、觀點以及意見等,此類輿情具有一定傾向性特點,而輿情就是不同態度與觀點的總和[1]。具有以下幾個特點:廣泛性特點,輿情可以在全國范圍內迅速傳播;參與者類型廣泛且分布廣泛;突發性特點,如果在某個地區發生突發事件,那么該事件可能就是社會輿情的發源地;主觀性特點,主觀性特點主要是因為社會輿情中的內容以及觀點具有較強主觀性;多元化特點,多元化特點主要表現在社會參與者有著不同的態度與觀點,而且社會輿情的傳播方式與表達方式也存在一定不同。在如今社會發展中,社會輿情數量以及內容每年都在增多。怎樣盡早發現社會輿情,同時更好引導社會輿情,是如今政府部門面臨的一個重要問題。在此背景下,就要對大數據技術進行合理應用,更好地處理與解決網絡輿情相關問題。
在大數據技術背景下,網絡輿情分析系統的功能主要包含以下幾點。
2.1.1 數據采集功能
在網絡輿情分析系統中,數據采集功能是最為基本的功能模塊,主要工作就是對論壇、貼吧以及微信、微博中的輿情信息進行采集。在大數據背景下的網絡輿情分析系統,不僅要對傳統搜索引擎爬蟲進行合理應用,使得下載網頁全面性得到保障,同時還要利用聚焦爬蟲,提升采集信息的有效性與精準性。還可以利用設置黑名單與白名單的方式,將有效的URL鏈接保留,實現對新信息的有效搜索。在Web信息抓取過程中,最主要是對網頁中的兩種信息進行采集,分別是文章內容信息以及版塊列表信息。通過對信息的采集,為后續工作展開打下良好基礎。
2.1.2 預處理功能
在網絡輿情分析系統中,預處理功能模塊屬于數據信息的準備階段。該功能模塊的主要工作為對采集到的網頁信息進行去重處理、預處理與去噪預處理,然后得到相應文本向量集[2]。新聞網頁、論壇網頁以及微博網頁實際結構存在不同,因此,要將與文本無關的HTML源碼清洗,將與輿情相關的信息,比如:信息發布時間、內容摘要信息等保留。與此同時,能夠將沒有意義的網頁信息以及重復的網頁信息及時過濾,防止噪聲干擾問題出現,確保數據信息科學性。
對于網絡輿情分析系統中的關鍵技術,本文主要從以下幾點進行闡述與分析。
2.2.1 輿情數據采集技術
輿情數據采集技術主要對輿情主體進行明確,同時選擇采集起點,輿情數據采集技術是網絡輿情分析系統中的重要組成部分,可以為后續數據處理工作,以及數據分析工作打下良好基礎。輿情數據采集技術的主要工作原理就是,能夠從初始URL中,獲取其中的頁面信息,然后將頁面信息存儲到本地系統中,并對頁面結構以及頁面內容進行分析,實現對其中網頁鏈接提取,并將其作為新的URL[3]。目前所使用的網絡爬蟲有不同方式,比如:主題爬蟲、增量式爬蟲等,不同爬蟲方式有著屬于自身的特點與優勢,具體爬蟲技術的選擇要結合網絡輿情實際情況展開。
2.2.2 輿情數據預處理技術
在使用網絡爬蟲技術對網頁中的信息進行抓取過程中,實際頁面結構以及頁面內容存在很大不同,有很多數據信息根本達不到分析要求。在此背景下,就要對輿情數據預處理技術進行合理應用,為后續數據信息分析提供保障[4]。輿情數據預處理技術主要是對網頁信息進行有效處理,避免噪聲、重復等情況的出現,并在網頁中對正文信息進行有效處理,對于提取到的數據信息進行文本預處理以及文本向量化。比如,在文本預處理中,需要對中文分詞技術進行合理應用,對采集到的文本字符串進行有效切分,將其轉化為由不同單詞組成的詞集合。與此同時,可以將集合中包含的停用詞去除,對不同詞在文本中出現的頻率次數進行有效統計,這就是人們所熟知的詞頻,詞頻可以生成倒排索引文件,從而促使文本預處理工作能夠更好完成。
2.2.3 輿情智能分析技術
輿情智能分析技術是網絡輿情分析系統中的核心技術,主要工作就是對話題進行識別與跟蹤、發現熱點話題,同時對文本傾向進行分析。話題識別主要是通過對預處理模塊的應用,獲得相應文本向量集,并使用機器進行學習。將相同類型的事件匯總到文檔中,并識別其中的輿情話題。在這一過程中,可以使用Hadoop平臺,將文本向量集劃分成為不同的小塊,并與中心文件一同發送給Map函數,從而開展相應計算工作。Map能夠將小塊中的數據分配到距離最近的中心點中,通過鍵值對方式,向Reduce傳遞,從而展開規劃求均值工作,將最終結果作為全新的聚類中心[5]。話題跟蹤主要是指,對后續更新的向量化文本進行有效檢測,同時做好相似度計算工作,對與已經存在話題的相似度進行判斷。如果相似度已經達到規定值,那么可以將此類文本歸納到該話題當中。如果相似度沒有達到規定值,那么可以將其作為全新的話題進行歸類。在這一過程中,要對話題評論數量、轉載情況以及點贊情況進行分析,然后計算熱度指標,結合熱度指標做好排序工作,進而對熱點話題進行篩選。
2.2.4 輿情預測預警技術
輿情預測預警技術主要是將輿情智能分析結果展現出來,在對某一熱點新聞、事件或者輿情進行監督過程中,如果用戶達到設定的報警值,那么系統將會自動生成相應輿情報告,該輿情報告會通過郵件方式或者信息方式,通知工作人員。工作人員在接到通知后,可以對問題進行有效處理。
在具體的模型設計中,要注意以下幾點問題:(1)信息抓取要確保全面性。如今的網絡輿情有著屬于自身的特點,比如:規模大、類型多、網頁數量多等。因此,在實際模型設計中,要對信息的全面抓取進行考慮。確保能夠從網頁、音頻、圖片以及結構化數據、半結構化數據中,對信息進行有效抓取,并對存儲器以及網絡爬行器進行創新與優化。(2)確保應對輿情信息的時效性。從目前網絡的快速發展中可以看出,網絡輿情靈活多變,傳統輿情分析系統模型已經不適合,當今時代發展,尤其是網頁以及圖片中隱藏的信息,更是無法及時被發現與抓取[6]。基于此,在模型設計工作開展中,要考慮系統應對輿情信息的實效性,實現對其中隱藏信息的有效抓取,這樣才能實現對網絡輿情的有效引導。(3)保證分析有效性。有效的網絡輿情分析軟件,可以幫助企業以及政府部門盡快獲取網絡中的熱點事件以及相關信息。這樣在輿情爆發之前,能夠進行有效控制,同時將輿情影響控制在有效范圍之內。基于此,在模型設計過程中,要對輿情信息分析的有效性進行全面了解,確保模型設計的合理性。
綜上所述,網絡輿情分析系統對于網絡輿情分析,實現對網絡輿情有效引導具有重要作用。因此,為使得網絡輿情分析系統設計的科學性與合理性得到保障,在實際設計工作開展中,要對大數據技術進行合理應用。將技術優勢發揮出來,實現對不同數據的有效抓取,為網絡的健康穩定發展打下良好基礎。