顧 俊
(貴州師范大學數學與計算機科學學院,貴州 貴陽 550001)
?
基于關鍵句的K-means算法在熱點發現領域的研究與應用
顧俊
(貴州師范大學數學與計算機科學學院,貴州貴陽550001)
摘要:由于“互聯網+”提出的,網絡信息呈現爆炸的趨勢。面對海量數據如何準確找到熱點事件成了網民關注的話題。文章從實際應用出發,首先對每一篇文本選取5句話作為該文本關鍵句,然后用TF-IDF計算特征詞值,特征向量選擇時不考慮單個字的權重,再用K-means算法進行聚類。以新浪新聞為例,將環境、住房和違法三類話題共322篇文本作為測試語料進行聚類,聚類準備率達到70 %以上,說明選取關鍵句比將整個文本作為聚類對象的聚類效果好。
關鍵詞:文本挖掘,TF-IDF,聚類,K-means
0引言
隨著互聯網+的出現,網絡數據迅速增長,面對海量數據,如何快速有效地發現熱點信息成了人們日益關注的話題。網絡輿情[1][2]已經對社會的穩定和網民造成一定的影響。與一般輿情不同,網絡輿情具有傳播速度快、涉及范圍廣且不易被發現等特點,因此實現網絡輿情的實時監控有一定的難度。本文利用k-means聚類[3]算法,充分發揮文本中關鍵句的作用,從而達到熱點發現[4]的目的,為輿情監控提供可能。
1相關研究
文本聚類的研究方法比較多,但相對來講這些方法主要用于實驗室研究階段,在實際商業應用中還是一些簡單大眾的方法。目前的聚類方法分為是基于語義相似度[5]聚類的研究和基于關系聚類[6]的研究。
基于語義相似度聚類[7]的研究方法主要有兩種:一種是利用語義詞典將相關詞放在一個樹形結構中來計算其權重;……