徐建國 藺珍 張鵬


摘 要:從新聞網頁中自動獲取大量輿情數據,經過熱點提取算法劃分到不同話題簇中,并獲取網絡輿情最新熱點。通過網絡輿情變動周期把握輿情隨時間發展情況,利用中文分詞提取每篇新聞關鍵詞,并對網頁集合利用改進K-Means算法進行分析獲得熱點,從而獲取某事件由出現到消亡過程中的熱點遷移。改進的K-Means算法能有效分析獲取的熱點,有利于政府通過網絡輿情熱點掌握最新輿論動態,引導公眾正確看待問題,營造積極、健康的社會氛圍。
關鍵詞:網絡輿情;輿情熱點;K-means聚類;話題簇
DOI:10. 11907/rjdk. 182597
中圖分類號:TP312 文獻標識碼:A 文章編號:1672-7800(2019)005-0093-05
Abstract:This paper automatically obtains a large amount of public opinion data from the news webpages, and divides them into different topic clusters through the hotspot extraction algorithm, and obtains the latest hotspots of the network public opinion. The development of public opinion over time are grasped through the network public opinion change cycle, Chinese word segmentation is used to extract the keywords of each news, and the improved algorithm of K-Means algorithm is used for web page collection to obtain hotspots, so as to obtain an event from appearance to hotspot migration during the demise. The improved algorithm of K-Means algorithm can effectively analyze the hotspots obtained. It is beneficial for the government to grasp the latest public opinion dynamics through online public opinion hotspots, guide the public to correctly treat problems and create a positive and healthy social atmosphere.
Key Words: network public opinion; public opinion hotspots; K-means clustering; topic cluster
0 引言
隨著互聯網技術的飛速發展,網絡媒體已成為人們獲取信息的主要途徑。網絡輿情是指在互聯網上流行的對社會事件的不同網絡輿論,公眾可以暢所欲言,行使自己的監督權、知情權、表達權與參與權,從而在一定程度上影響了國家網絡安全。因此,需要對網絡輿情進行分析、監控與引導,以及時防范誤導性言論造成社會危害。
網絡輿情是指由于各種事件刺激產生的通過互聯網傳播的人們對于該事件所有認知、態度、情感與行為傾向的集合[1]。網絡輿情熱點獲取是指“對廣大網民關于網絡輿情的關注點以及后續發展關注度集合的掌控”。國內外研究者運用不同方法與技術實現網絡輿情熱點獲取,并對獲取過程中采用的相關算法進行研究。Manquan等[2]利用層次聚類算法,按時間順序對新聞語料進行分組,從而有效避免了將內容相似,但實際上是兩個完全不同話題的報道聚合在一起,而且通過組間聚類可以使時間跨度較大的話題合并成一個話題;Makkonen等[3]對TDT探索過程中出現的技術進行總結,如正文提取、檢索和過濾、文本分類等;Yang&Ault等采用K最近鄰算法與Rocchio進行話題跟蹤研究;Cui&Kitagawa提出一種基于文本到達率與文本相關度的話題活躍程度分析方法;Kleinberg認為話題報道數量會在不同水平之間躍遷,增長率突然升高的詞很可能會成為熱點話題的表征詞,因此提出突發檢測算法;Zheng等[4]利用 Aging Theory對論壇中的熱點話題進行識別,從而快速挖掘任意時間段內的熱點話題。
雖然國內在該領域的研究起步較晚,但很多學者對其進行了大量研究,也取得了較多成果。通過各種聚類算法對信息進行分類,已有算法包括:K-mean算法、PAM算法、ARHP算法、OPTICS算法、PDDP算法與DBSCAN算法等。黃敏、胡學鋼以輿情網絡為節點、以鏈接關系為邊搭建網絡輿情傳播網,采用PageRank與 Hits 算法挖掘網絡輿情熱點;韓晨靖[5]在已有聚類算法基礎上創新性地添加可從標題提取特征詞并改進文檔相似度的算法,以提高網絡輿情熱點獲取準確率;王宏偉[6]對新聞報道與網民評論進行研究,首先考慮新聞報道特點和話題的多中心性,對原有聚類算法進行改進;其次,修改網民發表評論的非正式人名,借助頻繁模式算法尋找評論出現的頻繁模式。專家學者們通過對網絡輿情的不斷深入研究,相關思想與技術日趨成熟,對于熱點的獲取也更加準確。
1 研究設計
1.1 數據來源與采集
鳳凰網新聞通常是對多個新聞網頁的整合,因此本文以鳳凰網為例進行分析,可獲得較為全面的信息。網絡輿情數據主要來自爬蟲采集[7],爬蟲采集是指利用種子鏈接向 Web 服務器發送 HTTP 請求,以獲取當前網頁內容,并分析得出其它所有鏈接,依據一定篩選標準從中選取某些鏈接加入下載隊列,重復以上過程直至達到停止條件。
1.2 數據預處理
數據預處理主要包括數據清理、數據集成和數據規約,本文主要進行數據清洗與數據存儲。首先通過爬蟲采集網頁元數據,然后進行相應處理如刪除原始數據集中無關數據、平滑噪聲數據等,最后將處理完的數據存入數據庫以備后續查找等[8]。
從新聞網頁上爬取的網絡輿情數據長短不同,如果對整篇文章進行處理會影響分析效率。但是每篇新聞主旨都能用幾個簡單的詞進行概括,因此只需提取能真實反映文章主旨的詞即可,這些詞稱為關鍵詞。經過中文分詞后,每篇新聞都能得到對應關鍵詞,然后利用Jieba分詞技術[9]根據詞頻對詞語進行排序。候選集特征向量是出現頻次更高的若干詞語,計算出每個詞語權重,將上述候選集用文本描述成由不重復詞組成的表,轉換成系統可處理的文本特征向量即轉換成功[10]。
系統構建SVM向量模型[11],在具體操作中,將每個網頁都采用一個散列映射表變量與之對應,由此形成詞、權重值的對應關系,其網頁i變量定義為:Hashmap< String,Double> page[i]= new Hash-map
從去除停用詞的n個特征詞中選取m個(m 根據抓取的熱點事件[14],對熱點詞隨時間的變遷進行分析,基本可以確定熱點事件變動周期[15]。該變動周期形式主要分為梯形、單峰型、波浪形或其組合形式[16]。 1.3 基于模糊粒度的K-means算法設計 通過對K-means聚類算法的分析發現:K值需要事先給定,初始中心點選取對聚類結果影響較大,且聚類結果對異常點較為敏感。針對中心點選取對聚類結果敏感的缺點,本文對K-means聚類算法進行改進,提出一種基于模糊粒度的K-means聚類算法[17]。 定義1:普通關系。設X、Y是兩個非空集合,X×Y的每一個子集R稱為X到Y的一個普通關系。 定義2:模糊關系。給定論域U和V,直積U×V={(u,v)|u∈u,v∈V}的每一個模糊子集R稱為U到V的模糊關系。 模糊關系R由其隸屬函數μR完全確定,對任意(μ0, υ0)∈U×V,μR(μ0,υ0)表示(μ0,υ0)具有關系R的程度。 模糊關系R是X×Y中的一個模糊子集。 設R為U上的一個模糊關系,若R滿足下列條件:①自反性,即μR(x,x)=1,x∈U;②對稱性,即μR(x,y)=μR(y,x),x,y∈U;③傳遞性,即R2?R。算法具體步驟如下: (1)信息采集與清洗[18]。根據分制算法將參數d所在理論區間劃分為較小區間,依據不同的d進行聚類,并去掉效果不好的區間。 (2)從數據集X中隨機選取k個數據對象,并將其設定為初始聚類中心,則形成初始聚類中心點C1,C2,…,Ck,數據集即可確定劃分成k類。 (3)分別計算數據集中剩下每個數據對象到k個初始中心點的距離,將每一數據對象根據距離就近劃分到最相近的類中,從而形成以k個初始中心點為中心的類。例如,數據對象Xp離中心點[Ci](i≤k)最近,因此將數據對象Xp劃分到[Ci]類中。 (4)根據公式[Ci=1nix=wiX],重新計算每一個聚類的中心點,即得到C*1,C*2,…,C*k。 (5)重復步驟(3)、(4),直到重新計算后的聚類中心點與計算前的聚類中心點相同,任何變化都未發生,說明聚類結果已達到收斂,輸出聚類結果。 根據K-means算法基本原理,下面給出基于模糊粒度的K-means聚類算法簡易流程,如圖1所示。 模糊粒度計算方法即先利用分治算法思想將參數值d所在理論區間分解成較小區間,在每一個小區間上選取一個距離空間數作為dθ值,依據不同dθ值分別對數據集進行聚類,去掉聚類效果不好的區間,然后利用連續屬性離散化思想對剩余區間進行離散。dθ取遍離散化后的區間端點值對數據集進行聚類,利用95%有序BWP指標值的均值衡量聚類結果,均值越大,說明聚類效果越好,最大均值對應最好的聚類結果。粒度值d由粗變細的過程便會產生動態聚類結果,粒度越粗,劃分區間越大,對異常點敏感問題則處理得越好,但同時數據失真度也越大;粒度越細,異常點對聚類結果影響越大,但數據真實度高。該改進算法解決了K-means聚類算法聚類數需要事先給定,以及對初始中心點選取與異常點較敏感的問題[19]。 將互聯網獲取的新聞網頁數據通過熱點提取算法劃分到不同話題簇中是網絡輿情熱點提取的主要模式,并可在需要時擴充新的話題簇[20]。該模式可幫助人們快速發現有用信息,并了解與監督網絡整體輿論情況。實驗需要準備的數據為包含n個數據對象的數據庫,即通過網頁分析獲得的網頁內容,以及滿足方差最小標準的k個聚類輸出,輸出的k個聚類即為k個熱點。 2 實驗與分析 本實驗以鳳凰網2016年11月1號-2017年5月1號的新聞為例,對網絡輿情獲取過程進行完整演示,并對結果進行分析。 首先通過關鍵詞“樸槿惠”、“崔順實”獲得所有相關新聞與帶有關鍵信息的URL,通過“查看網頁源代碼”可以找到網頁特點,標題存放在
中。
標題:
時間:2016-11-20 20:43:03
內容:
原標題:總理一句;煤亮子;鼓勵,山西官地礦工們變身;雙創;秀才
將每篇新聞的標題、時間、內容從標記中提取出來并導入數據庫,共獲得456條信息,作為網絡簇特征詞獲取的測試樣本,信息格式如圖2所示。
為了對數據庫中的網頁新聞集合特點進行分析,統計在某時間區間內出現的新聞主題報道數量,可以更清晰地看到公眾或媒體對于該主題的關注度變化情況,從而了解該主題出現、高潮、消亡的區間。如圖2所示,以“樸槿惠”、“崔順實”為主題的新聞從2016年10月26號開始出現,到2016年11月2日新聞數量達到67篇,其呈現的周期形式為單峰型;2016年11月2日-12月21日新聞數量有所減少,說明該事件沒有新的進展;2016年12月21日-1月11日平均每7天新增47篇報道,其呈現的周期形式為梯形,說明在此期間該事件可能激化了新的矛盾;之后新聞數量逐漸減少,意味著人們對該事件關注度下降,該事件已不能再稱為“熱點”[21]。
在對熱點整體發展情況進行預判之后,采用先整體后局部的方法進行分析。為了提高分析效率,在中文分詞之前將每條記錄中的content內容導出數據庫,用Jieba技術進行分詞并將結果寫入txt文本中,其中3篇新聞分詞如表2所示。獲得每篇新聞分詞結果后,需要對出現的詞語進行TF-IDF值計算[22],并建立向量矩陣[23],例如第一頁新聞的TF-IDF權重如表3所示。
對每篇網頁TD-IDF權重組成的矩陣作K-means聚類分析,為了避免難以選擇K-means聚類簇個數的缺陷,將k值從3~7測試一遍,從而找到最佳測試結果,并將結果進行可視化。
圖4表示未進行聚類分析的網絡輿情熱點情況,圖5、圖6分別顯示的是k=3、k=4的輿情熱點情況。
根據以上聚類結果導出新聞網頁關鍵詞如表4所示,這些關鍵詞TF-IDF的權重值大于0.4,代表了在討論樸槿惠、崔順實過程中公眾關注的其它熱點。
根據文本聚類可以看出,整個網頁集合的熱點主要是“樸槿惠、崔順實之間的親密關系是否對韓國造成影響”,其它小分支熱點是公眾關注此次事件其它涉案企業或人員所衍生出的。同時這些熱點可能朝著新的方向發展,網絡輿情也會隨之變化,如鄭尤拉走后門事件將引發公眾對其他富二代不公平入學事件的關注、樸槿惠下臺之后韓國公眾將重新投票選舉總統,以及經過彈劾事件后,公眾選擇標準可能會更關注下一任總統的清廉作風等。
3 結語
本文從網頁新聞采集入手,再對采集的網絡數據進行預處理,得到中文分詞矩陣進行降維,以便得到聚類分析需要使用的數據,最后對得到的網絡輿情話題進行分析。本文對該研究過程不斷改進,以獲得更加精確的熱點,取得了以下研究成果:
(1)通過對鳳凰網網頁內容的分析與凈化,提高了數據庫中導入新聞網頁的相關度和純凈度,保證了數據的全面性,不需要任何人工干預。同時,在具體聚類之前將數據庫中所有新聞網頁按時間順序進行統計,可以看出每個時間區間發布的新聞數量,從而對熱點發展過程產生初步了解。
(2)對網頁進行中文分詞,將本篇新聞出現次數較多的詞語作為新聞關鍵詞,并對所有新聞集合的關鍵詞進行K-means聚類,從中提取共同關鍵詞即是其所在簇的中心話題。
然而,本研究還有待完善,如何更加全面、準確地獲取輿情熱點,并對輿情情感進行分類仍需要未來作更深入研究。
參考文獻:
[1] 曾潤喜. 網絡輿情管控工作機制研究[J]. 圖書情報工作,2009(18):79-82.
[2] 王玉珍. 網絡輿情熱點發現綜述[J]. 內蒙古科技與經濟,2015(16):66-67,145.
[3] 張玉芳,萬斌候,熊忠陽. 文本分類中的特征降維方法研究[J]. 計算機應用研究,2012(7):2542-2543.
[4] 柳虹,徐金華. 網絡輿情熱點發現研究[J]. 科技通報,2011(3):421-425.
[5] 陳瑜,韓晨靖. 淺談文本聚類算法對網絡熱點發現精準度的影響[J]. 中國管理信息化,2017(17):194-195.
[6] 陳君. 互聯網隱式文本特征的提取[J]. 電子技術與軟件工程,2017(23):155-156.
[7] 程田. 網絡信息抓取技術大揭秘[J]. 課堂內外:科學Fans,2016(7):32-33.
[8] 于營. 面向微博的網絡爬蟲數據采集[J]. 信息系統工程,2017(12):36-37.
[9] 徐明磊,趙博文,諸葛福民. 高校網絡輿情獲取方法研究[J]. 軟件導刊,2018(17):48-50.
[10] 孫雪凡. 試論新形勢下網絡輿情的發展對思想政治教育載體的影響[J]. 法制博覽,2013(4):285-286.
[11] 梁永春,焦文強,田立勤. 基于大數據新聞網站文本挖掘的網絡輿情監測設計與實現[J]. 華北科技學院學報,2018(4):82-87.
[12] 鄧先均,楊雅茜,羅昭,等. 網絡輿情熱點話題檢測聚類算法研究[J]. 數字技術與應用,2018(5):146-149.
[13] 陳珂,藍鼎棟,柯文德,等. 基于Java的新浪微博爬蟲研究與實現[J]. 計算機技術與發展,2017(9):191-196.
[14] 梁喜濤,顧磊. 中文分詞與詞性標注研究[J]. 計算機技術與發展,2015(2):175-180.
[15] 張世軍,程國勝,蔡吉花,等. 基于網絡輿情支持向量機的股票價格預測研究[J]. 數學的實踐與認識,2013(24):33-40.
[16] 薛可,許桂蘋,趙袁軍. 熱點事件中的網絡輿論:緣起、產生、內涵與層次研究[J]. 情報雜志,2018(8):78-83.
[17] 張霞,王素貞,尹怡欣,等. 基于模糊粒度計算的K-means文本聚類算法研究[J]. 計算機科學,2010(2):209-211.
[18] 康鯤鵬. 基于大數據的數據清洗研究[J]. 江西科學,2018(4):654-657.
[19] 費賢舉,劉金碩,田國忠. 基于模糊近似空間組合度量的特征選擇算法[J]. 計算機工程與設計,2018(7):1911-1916.
[20] 龍志祎,程葳. 基于詞聚類的熱點話題檢測算法[J]. 計算機工程與設計,2011(6):2214-2217.
[21] 張一文,齊佳音,方濱興,等. 非常規突發事件網絡輿情熱度評價指標體系構建[J]. 情報雜志,2010(11): 71-75,117.
[22] 于韜,王洪巖. 基于TF-IDF算法的文本信息提取[J]. 科技視界,2018(16):117-118.
[23] 張宸,韓夏. 大數據環境下基于SVM-WNB的網絡輿情分類研究[J]. 統計與決策,2017(14):45-48.
(責任編輯:黃 健)