趙文清,侯小可
(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院,河北保定071003)
隨著微博的飛速發(fā)展,微博作為一種通過(guò)關(guān)注機(jī)制分享簡(jiǎn)短實(shí)時(shí)信息的廣播式的社交網(wǎng)絡(luò)平臺(tái),吸引了越來(lái)越多的網(wǎng)民參與.微博改變了人們獲取信息的方式,是一種能夠觀察和了解中國(guó)正在發(fā)生什么的實(shí)時(shí)民意調(diào)查系統(tǒng).中國(guó)微博由一種單純的社交工具,變成輿論監(jiān)督的利器,參與并且影響著整個(gè)世界.因此從海量微博數(shù)據(jù)中檢測(cè)出當(dāng)前熱點(diǎn)新聞話題,并對(duì)新聞話題進(jìn)行情感分析,及時(shí)把握人們普遍關(guān)心的問(wèn)題以及人們對(duì)熱點(diǎn)新聞話題的看法,對(duì)事件監(jiān)測(cè)、民意調(diào)查、行業(yè)調(diào)研等都有重要作用.
傳統(tǒng)的針對(duì)普通網(wǎng)絡(luò)信息(如新聞網(wǎng)頁(yè)和博客等長(zhǎng)文本信息)新聞話題識(shí)別的研究較早且相對(duì)成熟[1-2].一般將長(zhǎng)文本中的詞視為特征,首先利用特征向量來(lái)表示文本,并采用TF-IDF方法度量向量每一維(即每個(gè)特征)的權(quán)重;然后采用一定的聚類方法,將敘述相同或相似新聞話題的長(zhǎng)文本聚類到同一類中[3].但對(duì)于微博來(lái)說(shuō),其文本長(zhǎng)度短、信息量少,特征關(guān)鍵詞不足以表示文本.而現(xiàn)有的文本聚類算法都是基于向量空間模型,利用詞向量表示文本特征,文本相似度量依賴于2個(gè)文本中詞語(yǔ)重疊的數(shù)量.當(dāng)2個(gè)文本較長(zhǎng)時(shí),其重疊的詞語(yǔ)可能足夠描述文本的內(nèi)容;但是當(dāng)文本比較短時(shí),文本間匹配的詞數(shù)減少即相關(guān)詞集規(guī)模較小,不足以準(zhǔn)確描述文本內(nèi)容,使得相似度發(fā)生漂移,大大地影響短文本聚類效果.
針對(duì)微博數(shù)據(jù)的稀疏性問(wèn)題研究者們做了很多方法的嘗試.路榮等利用LDA模型對(duì)微博數(shù)據(jù)集進(jìn)行隱主題建模,進(jìn)而通過(guò)隱主題模型計(jì)算文本之間的相似度,處理微博數(shù)據(jù)稀疏的特點(diǎn)[3].LDA模型的缺點(diǎn)是它的計(jì)算量很大,這是因?yàn)樾枰MDirichlet process對(duì)主題反復(fù)抽樣,導(dǎo)致速度較慢.Liu等提出基于part of-speech和HowNet來(lái)擴(kuò)展單詞的語(yǔ)義特征,進(jìn)而改進(jìn)分類和聚類效果[4].金春霞等針對(duì)短文本相似度漂移問(wèn)題,提出了一種基于HowNet擴(kuò)充相關(guān)詞集來(lái)構(gòu)建動(dòng)態(tài)文本向量的方法,利用動(dòng)態(tài)向量計(jì)算中文短文本的內(nèi)容相似度,進(jìn)而發(fā)現(xiàn)短文本之間的內(nèi)在關(guān)聯(lián),從而緩解特征詞詞頻過(guò)低、存在變形詞以及新詞對(duì)聚類的影響,實(shí)驗(yàn)表明該算法的聚類效果較好[5].鄭斐然為了提取出新聞主題詞綜合考慮短文本中的詞頻和增長(zhǎng)速度而構(gòu)造復(fù)合權(quán)值,用以量化詞語(yǔ)是新聞詞匯的程度,在話題構(gòu)造中使用了上下文的相關(guān)度模型來(lái)支撐增量式聚類算法,相比于語(yǔ)義相似度模型,其更能適應(yīng)該問(wèn)題的特點(diǎn)[6].楊震等將每個(gè)短文本文檔看成一個(gè)由文字、數(shù)字和標(biāo)點(diǎn)構(gòu)成的字符串,并基于字符串自身的特性直接計(jì)算其相似性,在此基礎(chǔ)上進(jìn)行短文本層次化聚類,進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)[7].由于這種方法不使用特征提取和文本表示過(guò)程,在一定程度上避免了傳統(tǒng)方法在短文本表示時(shí)特征向量稀疏的不足,較好地解決來(lái)了短文本的聚類問(wèn)題.
針對(duì)微博數(shù)據(jù)稀疏性、實(shí)時(shí)性、不規(guī)范性的特點(diǎn),本文給出一套完整的微博數(shù)據(jù)處理和新聞話題識(shí)別方法.在向量空間模型的基礎(chǔ)上,從微博主題詞的時(shí)域分布中篩選出信息量最大的新聞主題詞;根據(jù)微博的主題詞共現(xiàn)度構(gòu)建詞共現(xiàn)圖,以詞共現(xiàn)圖為基礎(chǔ),把不連通的簇集看成一個(gè)新聞話題,進(jìn)而完成微博新聞話題識(shí)別.
雖然主流微博都提供了API接口供第三方訪問(wèn),但所有微博服務(wù)商都不會(huì)無(wú)條件將完整API開(kāi)放給普通用戶,通常API服務(wù)商對(duì)用戶的API接口調(diào)用頻率與查詢范圍也會(huì)根據(jù)用戶權(quán)限的不同有所限制,因此使用API的方式并不能完全解決微博數(shù)據(jù)獲取問(wèn)題.為了本文的研究工作,采用自然語(yǔ)言處理與信息檢索共享平臺(tái)公開(kāi)共享的NLPIR微博內(nèi)容語(yǔ)料庫(kù)[8](23萬(wàn)條數(shù)據(jù))作為本文的實(shí)驗(yàn)數(shù)據(jù),該語(yǔ)料庫(kù)是由張華平博士從新浪和騰訊兩大主流微博中公開(kāi)采集并抽取而獲得.
在進(jìn)行主題詞抽取之前,需要對(duì)微博數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理主要包括文本分詞、詞性過(guò)濾、停用詞過(guò)濾等,本文把停用詞過(guò)濾放在詞頻統(tǒng)計(jì)之后,過(guò)濾掉詞頻很高但作用很小的詞語(yǔ).預(yù)處理完之后便可對(duì)得到的文本數(shù)據(jù)抽取主題詞.預(yù)處理的過(guò)程如圖1所示.

圖1 預(yù)處理過(guò)程Fig.1 Preprocessing process
本文的實(shí)驗(yàn)數(shù)據(jù)已經(jīng)剔除了大量的冗余數(shù)據(jù),可以直接進(jìn)行分詞.本文采用中科院張華平等開(kāi)發(fā)的 ICTCLAS[9](Institute of Computing Technology,Chinese lexical analysis system)分詞工具,它的主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別,是目前文本處理中經(jīng)常使用且分詞效果最好的中文分詞軟件之一.
每條微博經(jīng)過(guò)分詞之后,并不是所有詞都可以作為主題特征詞,有許多的詞包含的信息量很少,將它們包含進(jìn)來(lái)不僅不能提高反而會(huì)降低正確率,所以只考慮對(duì)新聞話題識(shí)別作用較大的詞.詞性的不同對(duì)主題的表達(dá)是有區(qū)別的,名詞描述性較強(qiáng),故能更好地表達(dá)主題,動(dòng)詞也可以作為衡量標(biāo)準(zhǔn);因此,根據(jù)分詞的詞性標(biāo)注,在詞性過(guò)濾時(shí)對(duì)名詞和動(dòng)詞保留,其他詞性的詞全部過(guò)濾,這樣可以降低計(jì)算的復(fù)雜度,為下文的主題詞匯抽取做準(zhǔn)備.
統(tǒng)計(jì)詞頻時(shí),先將微博消息按正文發(fā)布時(shí)間劃入不同的時(shí)間窗口.如按照天進(jìn)行劃分,然后對(duì)同一窗口中的詞頻進(jìn)行統(tǒng)計(jì),得到一個(gè)該時(shí)間窗口內(nèi)的總的詞語(yǔ)列表.根據(jù)文獻(xiàn)[10-11],在一段時(shí)間窗口的微博詞語(yǔ)具有長(zhǎng)尾現(xiàn)象,即絕大多數(shù)的詞只出現(xiàn)了很少的次數(shù),只有少數(shù)詞語(yǔ)有較高的出現(xiàn)頻率.將列表按詞頻排序,按比例保留頻率最高的詞語(yǔ)用于主題詞抽取,而把長(zhǎng)尾部分去掉.當(dāng)然,并非所有的高頻詞都是有用的詞,例如“圖片”一詞,很多微博中都包含圖片;所以在微博中該詞出現(xiàn)的頻率很高,但對(duì)新聞話題識(shí)別貢獻(xiàn)很小,并不適合作為主題詞.因此,在經(jīng)過(guò)分詞后的文本中適當(dāng)減少停用詞,可顯著提高主題詞的密度,讓微博中的主題詞更加突出.
通常新聞話題的形成有一定的特點(diǎn),它的時(shí)域性較強(qiáng),且影響力較大,也就是說(shuō)新聞話題討論的內(nèi)容在某個(gè)時(shí)間窗口之前出現(xiàn)的概率很小,而在一個(gè)時(shí)間窗口中突然大量出現(xiàn),從而能夠引起社會(huì)的高度關(guān)注.根據(jù)新聞話題的這個(gè)特點(diǎn),判斷一個(gè)詞語(yǔ)是否為新聞話題中的主題詞.本文把相對(duì)詞頻和詞頻增加率作為抽取主題詞的2個(gè)影響因素.
1)相對(duì)詞頻.
當(dāng)一個(gè)詞匯在某時(shí)間段內(nèi)頻繁出現(xiàn),且出現(xiàn)的頻率比該時(shí)間段內(nèi)其他的詞匯明顯更大,一定程度上意味著它和當(dāng)前一些關(guān)注度較大的熱點(diǎn)話題相關(guān)聯(lián).因此采用相對(duì)詞頻的方法,對(duì)主題詞的詞頻貢獻(xiàn)度進(jìn)行量化:

式中:Tij是詞匯i在j時(shí)間窗口的相對(duì)詞頻,fij是詞匯i在j時(shí)間窗口的頻率,fmax表示當(dāng)前時(shí)間窗口的最高詞頻.
2)詞頻增加率.
當(dāng)一個(gè)詞匯在某時(shí)間段內(nèi)頻繁出現(xiàn),且出現(xiàn)的頻率要比上一個(gè)時(shí)間段內(nèi)明顯增加,則在一定程度上意味著它和當(dāng)前一些比較新的新聞話題關(guān)聯(lián).

式中:Gij表示詞匯i在j時(shí)間窗口的增加率,fi(j-1)是詞匯i在 j-1時(shí)間窗口(即上一個(gè)時(shí)間窗口)的頻率.
對(duì)微博數(shù)據(jù)進(jìn)行分詞、詞性過(guò)濾、詞頻過(guò)濾等預(yù)處理之后,有選擇性地留下那些有意義的動(dòng)詞和名詞,在此基礎(chǔ)上考察相對(duì)詞頻和詞頻增加率2個(gè)方面的復(fù)合權(quán)值來(lái)評(píng)價(jià)一個(gè)特征詞的主題表現(xiàn)力Wij:

式中:Wij值越大說(shuō)明該特征詞是主題詞的概率越大;α和β參數(shù)用來(lái)調(diào)節(jié)相對(duì)詞頻和詞頻增加率的比重關(guān)系,α一定時(shí),β越大則詞頻增加率起主要作用,相反β一定時(shí),α越大則相對(duì)詞頻優(yōu)先考慮.
對(duì)每個(gè)時(shí)間窗口內(nèi)的詞計(jì)算其Wij值,按照閾值T選出其中權(quán)值較大的特征詞得到一個(gè)主題詞表.這個(gè)主題詞表的特點(diǎn)是其中的詞語(yǔ)在當(dāng)前時(shí)間窗口出現(xiàn)次數(shù)較多,并且在之前的時(shí)間窗口出現(xiàn)次數(shù)較少.選出主題詞之后,就可以對(duì)這些主題詞進(jìn)行詞共現(xiàn)分析來(lái)構(gòu)建詞共現(xiàn)圖,通過(guò)對(duì)圖的劃分來(lái)實(shí)現(xiàn)新聞話題識(shí)別.
詞的共現(xiàn)分析是自然語(yǔ)言處理技術(shù)在信息檢索中的成功應(yīng)用之一,它的核心思想是詞與詞之間的共現(xiàn)頻率在某種程度上反映了詞之間的語(yǔ)義關(guān)聯(lián).最早有學(xué)者利用詞共現(xiàn)來(lái)計(jì)算文檔的相似性[12],也有利用詞共現(xiàn)模型來(lái)計(jì)算詞之間的相關(guān)度[13].耿煥同等提出了一種基于詞共現(xiàn)圖的文檔自動(dòng)摘要算法,他們先運(yùn)用詞共現(xiàn)圖的主題提取技術(shù)得到各個(gè)主題,然后根據(jù)各個(gè)主題的重要性來(lái)提取主題詞、主題句、生成摘要[14].常鵬等提出一種基于詞共現(xiàn)的文檔聚類算法,利用文檔集上的頻繁共現(xiàn)詞建立文檔主題向量表示模型,從而準(zhǔn)確地反映文檔之間的主題相關(guān)關(guān)系[15].
所有詞共現(xiàn)的研究都基于這樣一個(gè)假設(shè):如果在一個(gè)大規(guī)模文本語(yǔ)料中,2個(gè)詞頻繁出現(xiàn)在同一窗口單元中(例如一句話、一個(gè)自然段、一篇文檔等),就可以認(rèn)為這個(gè)詞匯組合是比較穩(wěn)定的,在意義上相互關(guān)聯(lián),并且共現(xiàn)的頻率越高,其相互關(guān)聯(lián)越緊密.它們表示了一定的語(yǔ)義概念,表達(dá)了某個(gè)潛在的主題信息.
為了從理論上進(jìn)一步闡述基于詞共現(xiàn)圖的微博新聞話題識(shí)別的原理,參考文獻(xiàn)[16]給出了下面的定義.
定義1 詞匯wx相對(duì)于詞匯wy的相對(duì)共現(xiàn)度R(wx|wy)定義為

式中:f(wxwy)為單位時(shí)間段窗口中詞wx與詞wy在同一條微博中共同出現(xiàn)的次數(shù),f(wy)為詞wy在單位時(shí)間窗口中出現(xiàn)的次數(shù).可知,R(wx|wy)通常不等于R(wy|wx).
定義2 詞匯wx與詞匯wy之間共現(xiàn)度則定義如式(3):

故有 C(wx,wy)=C(wy,wx).
按照詞共現(xiàn)原理,當(dāng)2個(gè)主題詞經(jīng)常出現(xiàn)在同一條微博中,則認(rèn)為這2個(gè)主題詞在意義上相互關(guān)聯(lián),表達(dá)了某個(gè)潛在的主題信息,與當(dāng)前微博中的新聞話題有一定關(guān)聯(lián).本文根據(jù)主題詞之間的共現(xiàn)度構(gòu)建詞共現(xiàn)圖,在詞共現(xiàn)圖的基礎(chǔ)上,將每個(gè)連通的子圖看成一個(gè)簇集,簇集內(nèi)部是連通的,而不同的簇集之間是不連通的,此時(shí)每個(gè)不連通的簇集對(duì)應(yīng)微博中一個(gè)新聞話題,通過(guò)對(duì)詞共現(xiàn)圖中簇集的劃分來(lái)完成微博新聞話題的識(shí)別.根據(jù)上述思想,下面給出識(shí)別微博新聞話題的基本步驟.
1)主題詞共現(xiàn)圖中點(diǎn)集NS的生成.根據(jù)上文的分詞、停用詞過(guò)濾、復(fù)合權(quán)值計(jì)算后最終得到主題詞表,將主題詞表中的主題詞作為詞共現(xiàn)圖G的點(diǎn)集,如圖2~3中那些黑色的實(shí)心圓點(diǎn).

圖2 單連通圖GFig.2 Single-connected graph

圖3 多連通圖GFig.3 Multiple connectee graph
2)對(duì)詞共現(xiàn)圖中的點(diǎn)集連邊.根據(jù)點(diǎn)集NS中2個(gè)詞之間的共現(xiàn)度值的大小決定是否進(jìn)行連邊,如果與結(jié)點(diǎn)相對(duì)應(yīng)的2個(gè)詞之間的共現(xiàn)度達(dá)到一定閾值,那么就對(duì)它們進(jìn)行連邊.
3)基于詞共現(xiàn)圖的各個(gè)微博新聞話題的確定.若詞共現(xiàn)圖G是一個(gè)單連通圖,表示該時(shí)間窗口的微博消息中只包含一個(gè)熱點(diǎn)話題(例如圖2).如果詞共現(xiàn)圖G是非單連通圖,那就相當(dāng)于把圖G分割為多個(gè)連通區(qū)域,即構(gòu)成簇(例如圖3中的2個(gè)簇),每個(gè)簇與一個(gè)熱點(diǎn)話題對(duì)應(yīng).
4)基于詞共現(xiàn)圖的各個(gè)微博新聞話題表示.如果一個(gè)詞匯與越多的詞匯形成共現(xiàn)詞組合,則這個(gè)詞匯具有較為積極的主題意義,它很可能是某個(gè)主題的領(lǐng)域詞匯.同樣,在詞共現(xiàn)圖中,一個(gè)主題詞連的邊越多,那么它包含的信息量越大,能更好地表示潛在的主題信息.利用式(4)來(lái)計(jì)算每個(gè)簇中主題詞的信息量大小,其表示對(duì)簇集的貢獻(xiàn)程度大小.

式中:E(G)是圖G中的邊集;通過(guò)對(duì)主題詞wi的信息量G(wi)進(jìn)行排序,選出K個(gè)對(duì)話題簇貢獻(xiàn)度較大的主題詞,作為該新聞熱點(diǎn)話題的表示.
實(shí)驗(yàn)采用自然語(yǔ)言處理與信息檢索共享平臺(tái)公開(kāi)的NLPIR微博內(nèi)容語(yǔ)料庫(kù)[8](23萬(wàn)條數(shù)據(jù))作為本文的實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)中將時(shí)間窗口的長(zhǎng)度設(shè)定為1 d,并對(duì)2012-02-01—02-09的微博數(shù)據(jù)進(jìn)行人工標(biāo)注,該時(shí)間段內(nèi)微博熱議的主要新聞話題有“吳英案”、“香港雙非問(wèn)題”等事件.
為了評(píng)估式(1)中的參數(shù)對(duì)主題詞抽取結(jié)果的影響,把2012-02-01—02-09共9天的微博數(shù)據(jù)分成8組(其中有4天的微博數(shù)據(jù)較少不予考慮),對(duì)每個(gè)時(shí)間窗口中的數(shù)據(jù)進(jìn)行主題詞抽取,然后找出每組閾值T較大的前100個(gè)詞中與當(dāng)前標(biāo)注的主要新聞話題相關(guān)的主題詞數(shù),最后求平均值.其中設(shè)定α為1.0,比較β取不同值時(shí)對(duì)相關(guān)主題詞數(shù)的影響,如圖4所示.

圖4 β對(duì)相關(guān)主題詞數(shù)的影響Fig.4 Effect of β on the quantity of related keywords
當(dāng)β取0時(shí),此時(shí)只考慮詞頻對(duì)主題詞的作用,閾值T排在前100的主題詞中平均有38個(gè)是相關(guān)主題詞;當(dāng)β取到1.2左右時(shí),閾值T較大的前100個(gè)主題詞中平均有52個(gè)相關(guān)主題詞.從圖4中可以看出,如果詞頻增加率的比重足夠大時(shí)(即β較大)相關(guān)主題詞數(shù)反而下降,甚至少于只考慮詞頻時(shí)的情況.
對(duì)NLPIR微博內(nèi)容語(yǔ)料庫(kù)中2012-02-01的1 432條微博數(shù)據(jù)進(jìn)行話題識(shí)別,首先經(jīng)過(guò)預(yù)處理及詞頻統(tǒng)計(jì)后,對(duì)微博數(shù)據(jù)進(jìn)行主題詞抽取,其中抽取主題詞的參數(shù)α取1.0,β取1.2,從而得到滿足合適閾值的主題詞表;然后采用1.4節(jié)的基于詞共現(xiàn)圖識(shí)別新聞話題的步驟來(lái)完成新聞話題識(shí)別,這其中需要用到式(2)~(3)來(lái)計(jì)算主題詞之間的共現(xiàn)度.本文列出了部分主題詞間的共現(xiàn)度,如表1所示.

表1 部分詞共現(xiàn)度Table 1 Some keywords co-occurrence degrees
對(duì)共現(xiàn)度足夠大的主題詞結(jié)點(diǎn)之間連邊,并把孤立點(diǎn)(也就是沒(méi)有連邊的點(diǎn))去除之后得到詞共現(xiàn)圖,如圖5所示.

圖5 主題詞共現(xiàn)圖Fig.5 Keywords co-occurrence graph
通過(guò)圖5可以發(fā)現(xiàn)詞共現(xiàn)圖中包括多個(gè)簇,也就意味著當(dāng)前時(shí)間窗口中包括多個(gè)熱點(diǎn)話題,當(dāng)然最大的熱點(diǎn)新聞話題也就是包含節(jié)點(diǎn)最多的簇.通過(guò)式(4)可以得到每個(gè)簇中信息量最大的K個(gè)主題詞用來(lái)表示新聞話題,本文K取5.表2顯示了實(shí)驗(yàn)中2012-02-01當(dāng)天的熱點(diǎn)話題.通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),其中“吳英案”是當(dāng)天最大的熱點(diǎn)話題,實(shí)驗(yàn)結(jié)果表明本文提出的基于詞共現(xiàn)圖的劃分識(shí)別微博新聞話題的方法是有效的.

表2 2012年2月1日當(dāng)天熱點(diǎn)話題表示Table 2 Keywords represent news topics on February 1,2012
微博熱點(diǎn)新聞話題的識(shí)別研究有著重要的應(yīng)用背景,本文在分析了一些短文本熱點(diǎn)話題發(fā)現(xiàn)研究的基礎(chǔ)上,結(jié)合微博數(shù)據(jù)本身的特點(diǎn)提出了一種基于詞共現(xiàn)圖的微博新聞話題識(shí)別的方法.該方法通過(guò)預(yù)處理、抽取主題詞、構(gòu)建詞共現(xiàn)圖等步驟來(lái)識(shí)別微博中的新聞話題.實(shí)驗(yàn)結(jié)果證明了提出的方法是有效的,而且該方法簡(jiǎn)單,易于實(shí)現(xiàn).同時(shí),在接下來(lái)的工作中將進(jìn)一步對(duì)詞共現(xiàn)圖的微博話題識(shí)別的方法進(jìn)行優(yōu)化和提高,在此基礎(chǔ)上開(kāi)始對(duì)微博中的熱點(diǎn)新聞話題進(jìn)行情感分析的研究.
[1]MORI M,MIURA T,SHIOYA I.Topic detection and tracking for news web pages[C]//Proceedings of the 2006 ACM International Conference on Web Intelligence.Washington,DC,USA,2006:338-342.
[2]ALLAN J,CARBONELL J,DODDINGTON G,et al.Topic detection and tracking pilot study:final report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop.San Francisco,USA:Morgan Kaufmann Publisher Inc,1998:194-218.
[3]路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)[J].模式識(shí)別與人工智能,2012,25(3):382-387.LU Rong,XIANG Liang,LIU Mingrong,et al.Discovering news topics from microblogs based on hidden topics analysis and text clustering[J].Pattern Recognition and Artificial Intelligence,2012,25(3):382-387.
[4]LIU Zitao,YU Wenchao,CHEN Wei,et al.Short text feature selection for microblog mining[C]//The 4th International Conference on Computational Intelligence and Software Engineering.Wuhan,China,2010:1-4.
[5]金春霞,周海巖.動(dòng)態(tài)向量的中文短文本聚類[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(33):156-158.JIN Chunxia,ZHOU Haiyan.Chinese short text clustering based on dynamic[J].Computer Engineering and Applications,2011,47(33):156-158.
[6]鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測(cè)的方法[J].計(jì)算機(jī)科學(xué),2012,39(1):138-141.ZHENG Feiran,MIAO Duoqian,ZHANG Zhifei,et al.News topic detection approach on Chinese microblog[J].Computer Science,2012,39(1):138-141.
[7]楊震,段立娟,賴英旭.基于字符串相似性聚類的網(wǎng)絡(luò)短文本輿情熱點(diǎn)發(fā)現(xiàn)技術(shù)[J].北京工業(yè)大學(xué)學(xué)報(bào),2010,36(5):669-673.YANG Zhen,DUAN Lijuan,LAI Yingxu.Online public opinion hotspot detection and analysis based on short text clustering using string distance[J].Journal of Beijing University of Technology,2010,36(5):669-673.
[8]張華平.NLPIR微博內(nèi)容語(yǔ)料庫(kù)—23萬(wàn)條[EB/OL].(2012-02-14)[2012-05-20]
.http://www.nlpir.org/?action-viewnews-itemid-231.2012,02,14/2012,02,18.
[9]張華平.ICTCLAS2012版本SDK發(fā)布(u0106版本修正了UTF8下的 bug)[EB/OL].(2011-12-31)[2012-05-20].http://www.nlpir.org/?action-viewnews-itemid-229.2011,12,31/2012,02,18.
[10]彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學(xué)報(bào),2011,25(1):54-59.PENG Zeying,YU Xiaoming,XU Hongbo,et al.Incomplete clustering for large scale short texts[J].Journal of Chinese Information Processing,2011,25(1):54-59.
[11]常鵬,馬輝.高效的短文本主題詞抽取方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(20):126-128,154.CHANG Peng,MA Hui.Efficient short texts keyword extraction method analysis[J].Computer Engineering and Applications,2011,47(20):126-128,154.
[12]TRIVISON D.Term co-occurrence in cited/citing journal articles as a measure of document similarity[J].Information Processing& Management,1987,23(3):183-194.
[13]喬業(yè)男,齊勇,侯迪.一種高穩(wěn)定性詞匯共現(xiàn)模型[J].西安交通大學(xué)學(xué)報(bào),2009,43(6):24-27.QIAO Yenan,QI Yong,HOU Di.A highly stable term cooccurrence model[J].Journal of Xi'an Jiaotong University,2009,43(6):24-27.
[14]耿煥同,蔡慶生,趙鵬,等.一種基于詞共現(xiàn)圖的文檔自動(dòng)摘要研究[J].情報(bào)學(xué)報(bào),2005,24(6):651-656.GENG Huantong,CAI Qingsheng,ZHAO Peng,et al.Research on document automatic summarization based on word co-occurrence[J].Journal of The China Society for Scientific and Technical Information,2005,24(6):651-656.
[15]常鵬,馮楠,馬輝.一種基于詞共現(xiàn)的文檔聚類算法[J].計(jì)算機(jī)工程,2012,38(2):213-214,220.CHANG Peng,F(xiàn)ENG Nan,MA Hui.Document clustering algorithm based on word co-occurrence[J].Computer Engineering,2012,38(2):213-214,220.
[16]耿煥同,蔡慶生,于琨,等.一種基于詞共現(xiàn)圖的文檔主題詞自動(dòng)抽取算法[J].南京大學(xué)學(xué)報(bào):自然科學(xué),2006,42(2):156-162.GENG Huantong,CAI Qingsheng,YU Kun,et al.A kind of automatic text keyphrase extraction method based on word co-occurrence[J].Journal of Nanjing University:Natural Sciences,2006,42(2):156-162.