王路路,鄭濤,程倩倩,姬東鴻
武漢大學計算機學院,武漢 430072
基于語義共現圖的中文微博新聞話題識別
王路路,鄭濤,程倩倩,姬東鴻
武漢大學計算機學院,武漢 430072
提出一種在大規模微博短文本數據集中自動發現新聞話題的方法。該方法在微博數據預處理之后,綜合TF-IDF、文檔頻率增長率和命名實體識別等幾個因素抽取微博數據中的主題詞。根據主題詞之間的語義關系來構建主題詞的語義共現圖,計算出語義共現圖的連通子圖,把每個不連通的簇集看成一個新聞話題。在新浪微博數據集上進行實驗,實現了對微博中新聞話題的識別。該方法能較好檢測出當前時間的熱門話題,能夠在一定程度上有效地避免錯誤傳播,實驗結果驗證了該方法的有效性。
微博;主題詞;語義共現圖;新聞話題識別
微博客(微博)是一個基于用戶關系的信息分享、傳播及其獲取平臺。用戶可以通過Web、Wap以及各種客戶端組建個人社區,以140字左右的文字更新信息,并實現及時分享。隨著互聯網的快速發展,微博改變了人們獲取信息的方式,能夠讓普通網民更快更準確地了解當前的社會動態。如何從海量微博數據中檢測出當前的熱門新聞話題,對于輿情監控、民意調查、行業調研等都有著十分重要的意義。
微博具有傳播快、數量大、語言簡練等特點,對輿情分析提出了更高的要求。如何對微博文本進行分析、聚類,是發現熱點話題的關鍵,很多研究者在這方面做了嘗試:閆瑞等[1]提出了一種面向短文本的動態組合分類算法,獲得了較好的準確率和召回率。彭澤映等[2]提出了一種大規模短文本的不完全聚類算法,可以有效地提高短文本的聚類性能。Liu等[3]提出了一種基于part-ofspeech和How Net的方法來擴展詞匯的詞義特征,增加文本特征向量的維度,進而改進聚類效果。王樂等[4]針對即時短語消息關鍵詞數量少甚至是隱藏的這一特性,提出了WR-KMeans短語消息聚類方法。
微博短文本用詞精煉,敘事簡潔,傳統的基于詞共現的聚類算法[5-8]忽視了微博的語義關系,不能達到很好的聚類效果,從而難以識別出微博中描述的熱門話題。鑒于微博文本的短小和主題詞分布的稀疏性,基于模型的話題識別方法[9-12]訓練周期較長、數據標注困難,很難達到滿意的準確率。如何計算微博之間的語義關系,對微博文本進行語義層面的聚類,是微博話題識別的一個大膽嘗試。例如,有如下兩條微博:
(1)噢,本來我工資不高,可這個月餅貴,所以我繳納了月餅稅~
(2)中秋將至,不少單位把月餅當做福利發給員工。今日,地稅部門也接到市民電話咨詢企業發放月餅及其代金券給員工,應該如何代扣個人所得稅。
上述兩條微博相似度較高,因此可以將之劃分為同一類別。但是從字符串角度判斷除了共有的一個詞“月餅”,很難判斷兩條微博屬于同一類別。
在實驗過程中,還發現傳統的基于詞共現的聚類算法很容易導致“錯誤傳播”。例如,一個微博話題描述“章子怡出席電影節”,其相關的主題詞為:[章子怡、上海、電影節、紅毯];另一個微博話題描述“章子怡和汪峰密戀”,其相關的主題詞為:[章子怡、汪峰、紐約、酒店、密戀]。由于詞“章子怡”在兩個話題中出現的頻率都很高,基于詞共現的聚類算法很難區分這兩個微博話題。
針對微博數據稀疏性、實時性、不規范性的特點,本文提出了一種語義共現圖模型。首先將微博短文本按照特定的時間窗口進行劃分,綜合TF-IDF,主題詞文檔頻率增長率和命名實體等因素,來提取主題詞。然后構建了一個語義集合,把微博主題詞進行語義層面的聚類,從而識別出新聞話題。實驗表明,本文中的方法能夠降低“錯誤傳播”發生的概率,比較準確地識別新聞話題。
2.1 方法思想和基本框架
從大規模的短文本微博客中識別新聞話題,需要克服兩個難點:(1)如何從短文本中提取有效的能直接反映話題內容的主題詞;(2)如何對主題詞準確聚類,以便發現新聞話題。
本文提出的方法框架可以用圖1來表示。

圖1 微博中發現新聞話題的整體框架圖
下面將依次介紹上面提出的3個步驟。
2.2 數據預處理
在進行主題詞抽取之前,首先用中科院張華平等開發的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[13]的分詞工具進行分詞,然后進行詞性過濾、停用詞過濾等。預處理之后便可對得到的文本數據抽取主題詞。預處理的過程如圖2所示。

圖2 預處理過程
2.3 主題詞的抽取
(1)TF-IDF
一個與話題相關的主題詞,相對于其他詞匯,通常是非常熱門的,即主題詞出現的頻率相對較高。TF-IDF是一種統計方法,用于評估一字詞對于一個文件集或者一個語料庫中的其中一份文件的重要度。TF表示詞條在文檔d中出現的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區分能力。在微博數據集中TF可以衡量該微博描述新聞話題的廣泛性,而IDF可以衡量其典型性。本文中采用歸一化的TF-IDF函數,將一個詞對新聞話題識別貢獻度進行量化:

式中,Tij是詞匯i相對于文檔j的TF-IDF值,fij是詞匯i在j時間窗口的頻率,Docnumber是文檔數目,這里指有效的微博條數。dfij表示詞匯i在j時間窗口的文檔頻率。M為文檔j中包含的詞語個數。
(2)文檔頻率的增長率
一個與話題相關的詞,在某個時間窗口內出現的頻次會明顯增加,即主題詞在某個窗口內相對于其之前窗口的頻次明顯增多。這種詞頻的變化率在一定程度上意味著它和當前一些比較新的新聞話題關聯。文檔頻率增長率能夠客觀衡量主題詞的典型性,因此本文使用文檔頻率增長率進行量化。

式中,Gij表示詞匯i在j時間窗口內文檔頻率增加率,dfij表示詞匯i在j時間窗口內的文檔頻率。
對微博數據進行分詞,詞性過濾,詞頻過濾,命名實體標注等預處理之后,有選擇地留下有意義的動詞和名詞,并對名詞進行更細粒度的劃分為時間、地點、人物、機構等,在此基礎上考察TF-IDF和詞頻增加率兩個方面的復合權值來評價一個特征詞的權重W:

式中,Wij值表示特征詞的權重,權重越大說明該詞匯是主題詞的概率越大;λ參數用來調節TF-IDF和詞頻增加率的比重關系。TF-IDF主要用來控制主題詞匯的廣泛性,文檔頻率增加率主要用來調節主題詞匯的典型性。
對每個時間窗口內的詞計算其Wij值,按照閾值T選取出其中權值最大的特征詞得到一個主題詞表。根據主題詞表,就可以對這些主題詞進行語義共現分析來構建語義共現圖,進而實現新聞話題識別。
2.4 微博新聞話題識別
2.4.1 主題詞共現圖的構建
詞的共現分析是自然語言處理技術在信息檢索領域的成功應用之一,它的核心思想是詞與詞之間的共現頻率在某種程度上反映了詞與詞之間的語義關聯。為了從理論上進一步地闡述詞共現理論在微博新聞話題識別的原理,給出了下面的定義。
定義1詞匯x與詞匯y的共現度定義如下:

故有C(x,y)=C(y,x)。式中,f(x,y)為單位時間段窗口內詞x與詞y在同一條微博中共同出現的次數。f(x)為詞x在單位時間段窗口內出現的次數。
按照詞共現原理,當2個主題詞經常出現在同一條微博中,則可以認為這兩個主題詞在意義上相互關聯,表述同一個潛在的主題信息。計算每一對主題詞之間的共現度,得到一個詞共現度矩陣M:

式中,keyi表示由主題詞抽取算法抽取的第i個主題詞。C(keyi,keyj)是由公式(2)計算得到的主題詞的共現度。
考慮微博語義層面的相似度,計算任意兩個主題詞的語義相似度,得到主題詞語義相似度矩陣N:

式中,keyi表示由主題詞抽取算法抽取的第i個主題詞。S(keyi,keyj)是由參考文獻[16]的語義計算公式計算得到的主題詞的語義相似度。
2.4.2 微博新聞話題識別
為了提升主題詞聚類的效果,進而引入集合的概念。為此把矩陣M、N每行均按照公式(5)做歸一化處理得到矩陣M',N'。

其中Yij為歸一化之后的值,Xij為矩陣M和N中的元素第i行和第j列的元素,mini、maxi分別為矩陣M和N中第i行的最小值和最大值。
在聚類之前,根據矩陣M'和N'為每一個主題詞抽取了共現度最高的k個詞構成該主題詞的候選語義集合,標記為KEYi={ki1,ki2,…,kik}。k值的大小直接影響主題詞聚類的效果,從而調控“錯誤傳播”發生的概率。k值過大會造成本來不屬于同一語義集合的詞匯信息也融入到計算中,會使實驗結果產生一定的偏差;k值太小會漏掉同一語義集合中詞匯的信息,從而造成實驗結果精度缺失。k值由實驗調參得到,本文中取k為4。
為描述方便,引入如下公式:

其中,Sim1描述兩個語義集合詞詞素共現的信息,Sim2描述兩個語義集合語義層面共現的信息。
語義集合更直觀、準確地反映了兩個主題詞匯之間的語義關系,在本文中使用如下公式對主題詞進行聚類:

即,第i個主題詞應該歸入使上式最大化的主題詞j的集合KEYj。
最后根據矩陣M'和N',把同一語義集合內的主題詞之間連邊,并把孤立點去除之后得到語義共現圖。共現圖中可能包含多個簇,也就意味著該時間窗口中包含多個熱點話題,簇的大小也直觀地反映了該話題的熱度。
本文提出的算法不是單純地考慮兩個主題詞之間的共現度,而是對微博進行了語義計算,從而構建語義共現圖。實驗證明,本文采用的方法能夠有效地降低“錯誤傳播”的風險,提升主題詞匯聚類的正確率。
3.1 數據準備
為了本文的研究,使用由武漢大學自然語言處理實驗室共享的新浪微博話題檢測數據集。該數據集包括2013年4月16日到2013年4月24日,共9天約150萬條的實時微博數據。除去停用詞之后,將長度小于5的微博刪除,剩下的微博作為有效的微博。有效微博的分布情況如圖3。

圖3 有效微博文本分布圖
3.2 評測主題詞的抽取
為了評估主題詞的抽取效果,把2013-04-16到2013-04-24共9天的微博數據分成了9組(以天為單位),對該時間段內的微博數據進行人工標注。該時間段內微博熱議的主要新聞話題有“復旦投毒案”、“波士頓爆炸”、“黃金暴跌”、“雅安地震”等事件。對每個時間窗口中的數據按照前面所述的主題詞抽取算法進行主題詞抽取,考慮到每天新聞話題的數量及其主題詞的分布,實驗中設定閾值T為100,即權重最高的100個詞作為主題詞。為了評估主題詞抽取的質量,人工計算該100個主題詞與當前標注的新聞話題相關的主題詞數,最后求平均值。實驗中λ依次從0.1取到0.9,比較λ對相關主題詞數的影響,如圖4所示。

圖4 λ對相關主題詞的影響
實驗表明,當λ取0.4時,主題詞的抽取效果達到最佳,此時前100個主題詞中有64個是相關主題詞。
3.3 評測話題識別
為了評估主題詞聚類的效果,選取了若干熱門話題,u依次從0.1取到0.9,比較u對這些話題相關主題詞數的影響,如圖5所示。實驗表明,當u取0.6時,主題詞的聚類效果達到最佳。

圖5 u對話題質量的影響
圖6給出了本文方法抽取的4月26日的熱門話題,可以看出,本文方法不僅檢測出了熱門的新聞話題,“黃金暴跌”、“國防部公布海陸空力量”這樣的新聞話題也被檢測出來,這說明本文的方法具備一定的靈敏性,能夠識別出盡可能多的新聞話題。

圖6 主題詞共現圖
表1是若干天的實驗結果(僅列出最熱門的一個話題)。從實驗結果中可以看出,使用詞共現方法檢測的話題“波士頓爆炸”和“雅安地震”都存在“錯誤傳播”。原因是波士頓爆炸期間襄樊某地發生了火災,爆炸案和火災二者詞共現的頻率較高,但是二者沒有語義上的關聯。“雅安地震”話題的錯誤傳播是由于巴基斯坦和雅安先后發生過地震,而二者屬于兩個不同的熱門話題。從對比實驗可以看出,本文提出的基于語義共現的方法在一定程度上解決了“錯誤傳播”的問題,抽取出來的話題的質量更高。

表1 若干天的熱門話題
微博熱點新聞話題的識別研究有著重要的應用背景,本文提出了一種基于語義共現圖的微博新聞話題識別的方法。該方法通過預處理、抽取主題詞、構建語義共現圖等步驟來識別微博新聞話題。實驗結果證明了本文方法的有效性、靈敏性。本文充分利用了微博主題詞之間的語義關系,從而能夠在一定程度上避免“錯誤傳播”,較準確地區分出當前的熱門話題。
本文仍有可以改進之處。一方面,分詞破壞了詞之間的語義關系,尤其對于微博這樣的短文本。避開分詞,直接提取短語或者詞串能夠更直觀地反應一個新聞話題。另一方面本文只考慮了新浪微博一個數據源,而熱門的新聞話題往往廣泛分布在不同的數據源中(比如騰訊微博、網易微博等)。整合多個數據源的信息,進而進行熱門話題的識別能夠保證話題的廣泛性和公正性,也是將來工作的方向。
[1]閆瑞,曹先彬,李凱.面向短文本的動態組合分類算法[J].電子學報,2009,37(5):1019-1024.
[2]彭澤映,俞曉明,許洪波,等.大規模短文本的不完全聚類[J].中文信息學報,2011,25(1):54-59.
[3]Liu Zitao,Yu Wenchao,Chen Wei,et al.Short text feature selection for microblog mining[C]//The 4th International Conference on Computational Intelligence and Software Engineer,Wuhan,China,2010:1-4.
[4]王樂,田李,賈焰,等.擴展向量空間上的短語消息聚類[J].計算機研究與發展,2007(2).
[5]路榮,項亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發現研究[C]//第六屆全國信息檢索學術會議論文集.北京:中國中文信息學會,2010.
[6]Yan X,Zhao H.Chinese microblog topic detection based on the latent semantic analysis and structural property[J]. Journal of Networks,2013,8(4):917-923.
[7]Sun Q,Wang Q,Qiao H.The algorithm of short message hot topic detection based on feature association[J]. Information Technology Journal,2009,8:236-240.
[8]鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測的方法[J].計算機科學,2012,39(1):138-141.
[9]周振宇.基于LDA的微博與傳統媒體的話題對比研究[D].上海:上海交通大學,2013.
[10]聶恩倫,陳黎,王亞強,等.基于K近鄰的新話題熱度預測算法[J].計算機科學,2012,39(S6):257-260.
[11]趙愛華.面向網絡新聞的話題檢測技術研究[D].濟南:山東師范大學,2013.
[12]林雪能,陳光,朱帥,等.基于語義框架的新聞話題檢測[EB/OL].(2012-12-27).http://www.paper.edu.cn/releasepaper/content/201212-1055.
[13]張華平,劉群.計算所漢語詞法分析系統ICTCLAS[EB/OL].(2010-08-25).http://www.nlp.org.cn/project/project.php.
[14]Wartena C,Brussee R.Topic detection by clustering keywords[C]//19th International Workshop on Database and Expert Systems Application,2008:54-58.
[15]Chen K Y,Luesukprasert L,Chou S.Hot topic extraction based on timeline analysis and multidimensional sentence modeling[J].IEEE Transactions on Know ledge and Data Engineering,2007,19(8):1016-1025.
[16]劉群,李素建.基于《知網》的詞匯語義相似度計算[J].中文計算語言學,2002,7(2):59-76.
WANG Lulu,ZHENG Tao,CHENG Qianqian,JI Donghong
School of Computer,Wuhan University,Wuhan 430072,China
A method of new s topics detection from large-scale short posts of microblogs is proposed.The TF-IDF,the document frequency increase rate and the named entity recognition are considered to extract new keywords from microblogs after pretreatment.A semantic co-occurrence graph is build by co-occurrence degrees of keywords,each unconnected cluster in a semantic co-occurrence graph is taken as a new s topic.Experiments are taken on Sina microblogs data sets and the experimental results show the proposed method works well.
microblog;keywords;semantic co-occurrence graph;new s topic detection
WANG Lu lu,ZHENG Tao,CHENG Qianqian,et al.Discovering new s topics from microb logs based on semantic co-occurrence.Computer Engineering and Applications,2014,50(17):150-154.
A
TP391.1
10.3778/j.issn.1002-8331.1312-0102
國家自然科學基金重點項目(No.61133012);國家自然科學基金面上項目(No.61173062)。
王路路(1989—),男,碩士生,研究領域為社交網絡數據挖掘、個性化推薦等;鄭濤(1992—),男,碩士生,研究領域為信息檢索等;程倩倩(1989—),男,碩士生,研究領域為機器學習、數據挖掘等;姬東鴻(1968—),男,博士,博士生導師,研究領域為自然語言處理、語義網技術、機器學習、數據挖掘等。E-mail:wang_uu89@163.com
2013-12-09
2014-01-07
1002-8331(2014)17-0150-05
能夠準確地描述一個新聞話題,主題詞的抽取效果直接影響著新聞話題識別的效果。根據文獻[14-15],一般新聞話題中的主題詞有兩個重要的特性:(1)廣泛性,一個話題的出現的短期內,會引起大量的關注,從而與該話題相關的主題詞將廣泛分布在微博中;(2)典型性,新聞話題一般內容新穎,之前很少出現相似的內容,在某個特定時間段內忽然出現。本文把TF-IDF和文檔頻率增長率作為抽取主題詞的2個主要影響因素。