999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向新聞評論的短文本增量聚類算法*

2018-06-19 06:10:56劉曉琳曹付元梁吉業(yè)
計算機與生活 2018年6期
關鍵詞:文本模型

劉曉琳,曹付元,梁吉業(yè)+

1.山西大學 計算機與信息技術學院,太原 030006

2.山西大學 計算智能與中文信息處理教育部重點實驗室,太原 030006

1 引言

隨著Web2.0技術的快速發(fā)展,民眾獲取新聞信息的方式已經(jīng)轉移到了網(wǎng)絡媒體。互聯(lián)網(wǎng)成為新聞的輿論源頭,新聞評論成為網(wǎng)民自發(fā)聚集的輿論平臺。新聞的議論話題雖然龐雜,但是網(wǎng)民對新聞的關注點卻非常集中,其態(tài)度有時也表現(xiàn)出一致性。從新聞評論中總結出網(wǎng)民的觀點,為政府和相關部門提供決策參考,具有非常重要的意義。因此,如何有效地從評論中發(fā)現(xiàn)網(wǎng)絡輿情話題,即對新聞評論進行快速準確的聚類,是輿情分析領域面臨的重要問題。

受新聞評論篇幅限制,新聞評論常以短文本的形式出現(xiàn),短文本特征稀疏,描述信息能力較弱,因此很難準確提取主題信息。針對這一問題,通常的做法是對短文本進行語義概念擴展和關聯(lián)[1]。一種有效的方法是借助外部資源,比如語義詞典等[2],對短文本進行語義擴充,豐富短文本的特征語義,但這種方法嚴重依賴于知識庫的質量,計算量大,計算復雜度高[3-4]。另一種方法是使用基于關聯(lián)規(guī)則的頻繁詞集文本表示模型,在大規(guī)模語料中,如果兩個詞經(jīng)常共同出現(xiàn)在文本同一窗口單元,則認為這兩個詞在意義上相互關聯(lián),頻繁詞集反映了特征項之間的關聯(lián)性,包含更多潛在語義的同時還起到降維的作用,但該模型在聚類質量上并沒有得到明顯改善[5]。近年來,隨著主題模型的廣泛使用,Blei等人在2003年提出了隱含狄利克雷分布(latent Dirichlet allocation,LDA)主題模型[6],可以深度挖掘文本內部語義知識和隱含話題[7-8],但從大量離散短文本中發(fā)現(xiàn)話題的效果不佳,因為大規(guī)模短文本的詞數(shù)量很大,表示潛在結構矩陣的維度非常大。另外,如果只用文檔的主題分布作為特征,特征粒度較粗,對于短文本的主題刻畫比較模糊。

新聞評論話題發(fā)現(xiàn)的主要方法是對新聞評論的主題進行聚類,國內外研究者多采用基于劃分的K-means聚類算法和基于層次的聚類算法對文本進行聚類[9]。李勝東等人[10]利用基于劃分的K-means聚類算法實現(xiàn)話題監(jiān)測,但是對于網(wǎng)絡話題的捕捉,難以事先確定待劃分類簇數(shù)目,不能保證聚類結果是最優(yōu)解,而且K-means算法本身對噪聲數(shù)據(jù)較為敏感,因此K-means算法對流數(shù)據(jù)的話題監(jiān)測存在一定的局限性。Gao等人[11]利用報道內容的時間和地點信息度量文本間的相似度,基于組平均距離的凝聚層次聚類算法對大規(guī)模新聞報道進行話題監(jiān)測,但層次一旦確定就不能更改,有新的數(shù)據(jù)到來時必須重新計算當前整個文本集合,無法滿足實時話題監(jiān)測的需求。因此,傳統(tǒng)的聚類算法已經(jīng)不能適應網(wǎng)絡信息增量式文本挖掘的需求,適應增量式數(shù)據(jù)輸入的聚類算法漸漸得到學者的廣泛關注。典型的增量式聚類算法為Single-Pass算法,也是話題發(fā)現(xiàn)中最常用的聚類算法,其在動態(tài)聚類和速度上表現(xiàn)良好。該算法按數(shù)據(jù)輸入的順序每次處理一個數(shù)據(jù),因此可以實現(xiàn)流式數(shù)據(jù)的增量聚類。不足之處主要表現(xiàn)在該算法具有輸入次序依賴特性,即對于同一聚類對象按不同的次序輸入,會出現(xiàn)不同的聚類結果。近年來,國內相關學者對此算法進行了改進,取得了不錯的結果。稅儀冬等人[12]提出一種周期性分類和Single-Pass聚類結合的話題識別和跟蹤方法,為解決Single-Pass的順序敏感問題,在聚類階段引入“代”的概念,對文本不再是一次一個地輸入,而是按批次添加,并且在每一批數(shù)據(jù)到來時先進行初步聚類,然后再將初步聚類結果與已有話題類簇進行Single-Pass聚類,一定程度上緩解了算法本身的缺點,但是初步聚類算法的選擇會影響最終的聚類效果。

本文針對新聞評論文本表示與文本聚類兩方面開展研究。首先,構建一種多特征組合的短文本表示模型,從而比較全面地包含短文本主題信息。其次,在已有研究基礎上,提出一種基于待定循環(huán)策略的增量聚類算法(uncertain cyclic Single-Pass,UCSP),有效避免因文本輸入順序對聚類結果產生影響,以此整合網(wǎng)絡上大量輿論觀點,達到自動發(fā)現(xiàn)話題的目的。在爬取的5個騰訊新聞評論數(shù)據(jù)集上進行實驗,并與傳統(tǒng)的文本表示模型和聚類算法進行對比分析,結果表明,本文算法能更有效地提高聚類質量。

2 面向新聞評論的短文本表示模型

2.1 基于TF-IDWF特征權重向量空間模型

短文本聚類的首要任務就是將非結構化的文本數(shù)據(jù)表示成計算機容易處理的結構化數(shù)據(jù)。Salton等人提出的向量空間模型(vector space model,VSM)[13]常被應用于文本建模。現(xiàn)將一條新聞評論作為一個文本,該模型將文本中包含的詞項作為表示文本的基本單位,將文本數(shù)據(jù)表示成向量空間中的一個向量,建模過程如下所示:

其中,Vvsm(di)為文本di的特征權重向量表示;wij表示文本di的第j個特征項tij所對應的權重,即文本話題表達的貢獻度,文本的特征項互不相同,且無順序關系;n為文本di特征項的個數(shù)。

如果將文本中所有詞項作為特征項來表示文本內容,會造成特征空間維度災難,因此需對文本進行特征選擇。傳統(tǒng)特征選擇算法是Salton等人提出的TF-IDF(term frequency/inverse document frequency)[14],其主要思想為:假設某個詞項在一個文本中出現(xiàn)的頻率高,在其他文本中出現(xiàn)的頻率低,就認為該詞項對文本有較強的區(qū)分性,計算公式如式(2)所示:

其中,tfij表示詞項tij在文本di中出現(xiàn)的絕對詞頻(term frequency,TF);idfij表示詞項tij的倒排文檔頻度(inverse document frequency,IDF),常見的計算公式如式(3)所示:

其中,N表示集合中文本的總數(shù);nj表示包含詞項tij的文本數(shù)。

TF-IWF(inverse word frequency)算法[15]是在TFIDF算法的基礎上由Basili等人提出的,TF-IWF算法中用特征頻率倒數(shù)的對數(shù)平方值IWF代替IDF,如式(4)所示:

其中,ntj表示詞項tij在文本集合中出現(xiàn)的次數(shù);∑ntj表示所有詞項頻數(shù)之和。

事實上,兩種方法在確定特征項權重時都存在不足。TF-IDF雖然表現(xiàn)出詞項在文本中的重要程度,又能有效區(qū)別其他文本,但是IDF函數(shù)沒有考慮詞項在整個文本集合中分布的情況,認為詞項在不同文本中出現(xiàn)一次和出現(xiàn)多次的計算效果相同,這顯然不夠準確。TF-IWF方法中IWF函數(shù)雖然考慮了詞項在整個文本集合的分布情況,但是忽略了詞項頻繁出現(xiàn)在一個文本和稀疏出現(xiàn)在整個文本集合的差異,這也是片面的。因此,針對新聞評論語言特點,本文提出了一種新的計算公式,如式(5)所示:

為了使不同長度的文本具有可比性,對文本長度進行歸一化處理,刪除文本中出現(xiàn)頻率較低的詞項,從而實現(xiàn)特征選擇,計算公式如式(6)所示:

2.2 基于神經(jīng)網(wǎng)絡的文本語義詞向量模型

隨著深度學習的發(fā)展,基于神經(jīng)網(wǎng)絡訓練的詞向量模型越來越受到業(yè)界研究者的廣泛關注,Mikolov等人在2013年提出了一種詞向量計算工具——word2vec,作為谷歌一款基于深度學習的開源工具,word2vec利用語料庫中的上下文信息,將每個詞轉化成一個固定維數(shù)的向量,語義越相似的詞在向量空間中越相近[16]。

通過借鑒Bengio等人提出的NNLM(neutral network language model)[17]和 Hinton 等人提出的 Log_Linear模型[18],Mikolov等人提出的word2vec主要有CBOW(continuous bag-of-words model)和Skip-gram(continuous Skip-gram model)兩種模型[19]。

本文首先使用2.1節(jié)提出的方法對文本建模,然后使用Skip-gram模型在大規(guī)模無標注新聞評論語料中學習特征項的語義表示,將其訓練成200維實數(shù)向量,并計算每條評論的句向量,計算公式如下所示:

其中,V(tij)表示特征項tij的詞向量;vij k(k=1,2,…,200)表示tij詞向量的第k維;Vw2v(di)表示第i條評論的語義句向量;Ji表示di中特征詞的個數(shù)。

2.3 基于多特征組合的短文本表示模型

由于詞匯是構成句子的基本單元,受短文本篇幅所限,細粒度的詞匯可以對文本信息表達產生較大的貢獻,特征權重向量空間模型重點考慮詞頻、詞性、權重等淺層信息,因此Vvsm(di)是淺層詞匯級特征向量;其次,詞匯所蘊含的義項對于文本的整體語義具有重要影響,利用神經(jīng)網(wǎng)絡訓練得到的詞向量,涵蓋了特征項的語義信息,因此Vw2v(di)是深層語義級特征向量。為全面度量兩個短文本之間的相似度,將兩種向量表示進行組合,Vmerge(di)即多特征組合的短文本特征向量表示模型,多特征組合的短文本表示如式(9)所示:

3 面向新聞評論的增量聚類算法

傳統(tǒng)的Single-Pass算法又稱單通道法或單遍法,是流式數(shù)據(jù)聚類經(jīng)典算法之一。對于依次到達的數(shù)據(jù),該算法按輸入順序每次處理一條數(shù)據(jù),依據(jù)當前數(shù)據(jù)與已有類簇的相似度,判斷該數(shù)據(jù)屬于已有類或自成新類,從而實現(xiàn)流式數(shù)據(jù)增量聚類。傳統(tǒng)的Single-Pass聚類算法簡單,運行速度快,滿足動態(tài)聚類的需求,但是對文本的輸入順序敏感。本文在傳統(tǒng)Single-Pass聚類算法的基礎上,提出了一種面向新聞評論的UCSP增量聚類算法。

噪聲評論,即離群節(jié)點的錯誤聚類,會導致話題中心發(fā)生漂移。觀點模糊評論是指介于兩個類簇之間的數(shù)據(jù),如果對這些數(shù)據(jù)進行硬劃分會直接影響最終的聚類結果。噪聲話題,即內部節(jié)點個數(shù)極少的少數(shù)類,一般定義所含節(jié)點個數(shù)少于所有評論總數(shù)0.25%的類簇,表明該話題不具有普遍性。本文提出的基于待定循環(huán)策略的增量聚類算法,引入待定列表機制,在聚類過程中,極大地消除由數(shù)據(jù)輸入順序對聚類結果產生的影響,同時對噪聲簇進行篩選,避免新聞評論話題聚類出現(xiàn)類別長尾現(xiàn)象。

在網(wǎng)絡輿論的形成過程中,意見領袖的影響非常重要,局部觀點在意見領袖的引導下也會演化成為輿論話題,針對新聞評論這一特殊的輿論平臺,意見領袖的觀點往往能極大地概括網(wǎng)民的群體意見,也能潛移默化地影響其他網(wǎng)民的觀點向自己靠攏,因此具有強大的觀點代表性。現(xiàn)考慮意見領袖對話題簇的影響,將騰訊新聞評論定義的熱門評論視為意見領袖,在增量聚類實現(xiàn)話題發(fā)現(xiàn)的過程中,將意見領袖權重設置為0.6,從而動態(tài)強化類簇所表達的話題。

本文使用如式(10)~(12)的3個相似度計算公式。

Vi=(vi1,vi2,…,vik,…,vin)和Vj=(vj1,vj2,…,vjk,…,vjn)表示兩個向量,則兩個向量間的相似度定義為:

Vmerge(d)=(Vvsm(d),Vw2v(d))表示一條新聞評論,則兩個短文本間的相似度計算公式如式(11)所示:

給定一個話題類ck={d1,d2,…,d|ck|},則文本di與話題類ck之間的加權平均相似度計算公式如式(12)所示:

其中,fd*p為話題類ck中dp的意見權重,意見領袖的值為0.6,一般評論的值為0.4。

算法UCSP增量聚類算法

輸入:文本集合D;相似度對比閾值T1、T2、T3。

輸出:話題類簇集合CT。

初始化:i=2,MaxSim=0,SecSim=0,L=0,L′=0,maxIndex=0,創(chuàng)建簇c1=? ,創(chuàng)建類簇集合CT=? ,創(chuàng)建待定列表LoopList=? 。

步驟1輸入d1,c1=c1?{d1},CT=CT?{c1}。

步驟 2輸入di,di∈D,計算(Csim(di,ck)),返回當前k值,maxIndex=k,新建臨時簇 集 合

步驟3判斷:

若MaxSim≤T1,將di視為噪聲數(shù)據(jù),LoopList=LoopList?{di},i=i+1;

若MaxSim>T1&&MaxSim

若MaxSim≥T2&&MaxSim-SecSim≥T3,則將di加入與其相似度最大的類簇cmaxIndex=cmaxIndex?{di},i=i+1;

若MaxSim≥T2&&MaxSim-SecSim≤T3,di視為觀點模糊數(shù)據(jù),LoopList=LoopList?{di},i=i+1。

步驟4若i≤ ||D,轉至步驟2。

步驟5待定列表集合LoopList,?dg∈LoopList,計算返回當前k值,maxIndex=k,新建臨時簇集合

步驟6L′=|LoopList|,判斷:

若MaxSim>T1&&MaxSim

若MaxSim≥T2&&MaxSim-SecSim≥T3,cmaxIndex=cmaxIndex?{dg},LoopList=LoopList-{dg},L=|LoopList|。

步驟7若L′≠L,轉至步驟5。

步 驟 8 ?ck∈CT,若 |ck|<|D|×0.25%,CT=CT-{ck},即過濾噪聲評論簇。

步驟9輸出CT集合,算法結束。

4 實驗過程及結果分析

4.1 數(shù)據(jù)采集

本文采用JSON頁面解析技術爬取新聞評論數(shù)據(jù)。通過輸入騰訊新聞評論頁面的請求鏈接,獲取JSON字符串數(shù)據(jù),利用Java版本的Gson工具,解析字符串并采用正則表達式匹配規(guī)則獲取所需數(shù)據(jù)集。解析并提取到的新聞評論數(shù)據(jù)結構如表1所示。

Table 1 Data structures of news comments表1 新聞評論的數(shù)據(jù)結構

鑒于單條評論所包含的上下文信息及語義信息匱乏,本文將當前評論與其跟帖評論進行合并,從而擴充文本內容。本文實驗所采用的數(shù)據(jù)集均為騰訊熱門新聞下的評論數(shù)據(jù),如表2所示。

4.2 數(shù)據(jù)預處理

新聞評論口語化嚴重,包含大量干擾性的特殊字符,可以采用啟發(fā)式規(guī)則匹配的方法過濾噪聲數(shù)據(jù)。本文采用中科院張華平等人開發(fā)的漢語詞法分析系統(tǒng)NLPIR(ICTCLAS2016版)對文本數(shù)據(jù)進行分詞,并添加用戶詞典,導入分詞系統(tǒng)切分不準確的網(wǎng)絡新詞。

Table 2 Data sets of news comments表2 新聞評論數(shù)據(jù)

為提高分詞的準確性和特征選擇的有效性,本文提出一種兩階段去除停用詞的方案。首先構建虛詞停用詞表,在分詞處理之前對新聞評論進行第一次清洗,經(jīng)驗表明,分詞前去除虛詞的方法可以有效提高分詞的準確性;分詞處理之后,構建實詞停用詞表,并人工添加網(wǎng)絡不規(guī)范用語產生的新停用詞,從而進一步提高分詞的準確性。

4.3 評價指標

本文采用無監(jiān)督聚類算法,因此使用內部評價指標緊密性和間隔性來評價聚類結果[20]。

集合CT表示所有話題簇的集合;ck為CT中第k個話題簇的文本集合,ck中的每條文本dckp均為基于多特征組合的短文本表示

ck類的中心向量表示為計算類內平均相似度越大意味類內相似度越大,聚類效果越好,重新定義,計算公式為:

其中:

SP計算類間平均相似度,SP越小意味類間相似度越小,聚類效果越好,重新定義----SP,計算公式為:

其中:

為了使不同的文本表示模型和聚類算法具有可比性,定義Ratio為的比值,計算公式為:Ratio越大說明聚類效果越好。

4.4 實驗設置

為驗證本文方法的有效性,設計了兩類對比實驗:使用相同聚類算法,比較不同短文本表示模型對聚類效果的影響;使用相同短文本表示模型,比較不同聚類算法的結果。另外,考慮相似度閾值對聚類算法的影響,進行了閾值分析實驗。

實驗1對比實驗。

表3是基于UCSP聚類算法采用不同文本表示模型的實驗結果,語義表示模型和多特征組合表示模型設置閾值T1=0.3,T2=0.55,T3=0.07。由于向量空間模型特征稀疏,設置相似度閾值T1=0.1,T2=0.25,T3=0.005,以確保與多特征組合的文本表示的聚類個數(shù)基本一致。

通過對比表3中Ratio的值可以看出,基于特征權重向量空間模型的聚類效果最好,但是該模型沒有結合語義信息,會產生大量噪聲類,并且造成相同話題的評論分至不同類的現(xiàn)象。例如:兩條關于家庭教育的評論“有些當家長的溺愛孩子!不明白當父母的怎么教育孩子的!”和“教育不當,關心不夠!家庭教育做人其實是重中之重”,雖然評論主題相同,卻被劃分至不同類簇。基于神經(jīng)網(wǎng)絡構建的表示模型雖然結合了語義信息,但是大部分評論圍繞新聞內容闡述,語義空間下相似度十分接近,Ratio值最小,聚類效果略差。本文提出的基于多特征組合的短文本表示模型,將兩種模型優(yōu)勢互補,總體來說,更符合話題發(fā)現(xiàn)的要求。

Table 3 Clustering results of different representation models for short texts using UCSP clustering algorithm表3 基于UCSP聚類算法在不同短文本表示模型上的聚類結果

綜上所述,本文提出的基于多特征組合的短文本表示模型具有一定的可行性與有效性,因此在采用該模型對新聞評論進行表示的基礎上,對3種聚類算法UCSP、K-means和Single-Pass進行了實驗對比,其中將UCSP算法自動生成的類簇個數(shù)作為K-means聚類算法的預設K值。

由表4的實驗數(shù)據(jù)可知,本文提出的UCSP增量聚類算法類內平均相似度最高,類間平均相似度最低,Ratio比值最大,聚類結果最好。

實驗2閾值對聚類算法的影響。

本文對多個數(shù)據(jù)集進行了相似度閾值分析實驗,以新聞“17歲高中生刀砍老師后被老師群毆搶救無效死亡”的數(shù)據(jù)為例,在不考慮觀點模糊數(shù)據(jù)的情況下(即T3=0),在[0.15,0.35]范圍內,以步長0.05選取T1,在[0.35,0.60]范圍內,以步長0.05選取T2,進行實驗。

T1為判定噪聲評論的閾值,T1設置太小,起不到過濾噪聲評論的目的,設置太大,將導致一般評論錯誤劃分;T2為判斷評論是否歸入相似類簇的閾值,T2設置太小,導致聚類質量不高,設置太大,導致聚類劃分過于詳細。

由表5和表6的實驗數(shù)據(jù)可知,T1在0.3±0.05的范圍內,聚類效果最好;T2≥0.55時,聚類效果趨于穩(wěn)定。因此,本文選取T1=0.3,T2=0.55。

T3為區(qū)分模糊觀點評論的閾值,本文在[0.001,0.01]范圍內,以步長0.001選取T3,進行實驗。

Table 4 Clustering results of different algorithms by using improved texts representation model表4 基于改進的文本表示模型使用不同算法的聚類結果

Table 5 Influence ofT1andT2to the value of 表5 T1和T2對的影響

Table 5 Influence ofT1andT2to the value of 表5 T1和T2對的影響

?

Table 6 Influence ofT1and T2to the value of表6 T1和T2對的影響

Table 6 Influence ofT1and T2to the value of表6 T1和T2對的影響

?

Fig.1 Effect ofT3on clustering result圖1 T3對聚類效果的影響

Fig.2 Effect ofT3on clustering result圖2 T3對聚類結果的影響

由圖1和圖2的實驗數(shù)據(jù)可知,隨著T3的增大,簇個數(shù)由多變少,并趨于穩(wěn)定,被過濾的文本個數(shù)增多,類內平均相似度----CP逐漸增大,類間平均相似度逐漸減小。綜合圖1和圖2的實驗結果,T3=0.07時簇個數(shù)穩(wěn)定,被過濾的文本個數(shù)小于評論總數(shù)10%差值最大,聚類效果最好。

通過對多個數(shù)據(jù)集的閾值進行實驗分析,T1=0.3,T2=0.55,T3=0.07時多個數(shù)據(jù)集聚類效果表現(xiàn)良好,說明不同的新聞評論話題分布是相似的。

4.5 結果可視化展示

聚類算法結束之后,得到的是一個文本簇,并不能直觀地獲得類內主題,針對這一問題,本文采用基于TextRank[21]的關鍵詞抽取算法,自動生成主題詞概述類內主題,并使用開源工具Tagxedo生成詞云,將主題詞可視化展示。

以新聞“17歲高中生刀砍老師后被老師群毆搶救無效死亡”為例,抽取其中有代表性的5個類簇將主題詞可視化展示。由圖3可以直觀地看出,網(wǎng)民的觀點主要圍繞在:嚴懲兇手,社會風氣,家庭教育,法理人情和傳統(tǒng)道德等幾方面。因此,通過智能化的信息處理,政府對互聯(lián)網(wǎng)建立網(wǎng)絡民意的監(jiān)測、匯集、分析、反饋和吸納機制,及時回應與疏導,對于提高政府回應與決策能力,提高決策的科學性和準確性,實現(xiàn)開放型、服務型、責任型政府具有重要意義。

Fig.3 Visual representations of clustering results圖3 聚類效果展示

5 結束語

本文針對新聞評論主題聚類過程中主題提取困難的問題,首先提出了一種基于多特征組合的短文本表示模型,由淺入深、由粗到細地挖掘多層次、多粒度的特征表示,從而比較全面地包含短文本的主題信息。針對傳統(tǒng)的主題增量聚類算法對文本輸入順序敏感的缺點,本文提出了一種UCSP增量聚類算法,可以有效地處理噪聲數(shù)據(jù)和觀點模糊數(shù)據(jù),聚類效果明顯提升。本文所實現(xiàn)的是離線式的增量聚類算法,如何將算法應用于在線實時發(fā)現(xiàn)話題,將是未來的重點研究方向。

[1]Xiao Yonglei,Liu Shenghua,Liu Yue,et al.Semantic concept linking and extension for social media short texts[J].Journal of Chinese Information Processing,2014,28(4):21-28.

[2]Zhu Xinhua,Ma Runcong,Sun Liu,et al,Word semantic similarity computation based on HowNet and CiLin[J].Journal of Chinese Information Processing,2016,30(4):29-36.

[3]Batet M.Ontology-based semantic clustering[J].AI Communications,2011,24(3):291-292.

[4]Xun Guangxu,Gopalakrishnan V,Ma Fenglong,et al.Topic discovery for short texts using word embeddings[C]//Proceedings of the 16th IEEE International Conference on Data Mining,Barcelona,Dec 12-15,2016.Piscataway:IEEE,2016:1299-1304.

[5]Peng Min,Huang Jiajia,Zhu Jiahui,et al.Mass of short texts clustering and topic extraction based on frequent itemsets[J].Journal of Computer Research and Development,2015,52(9):1941-1953.

[6]Blei D M,Ng AY,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[7]Wang Zhongyuan,Cheng Jianpeng,Wang Haixun,et al.Short text understanding:a survey[J].Journal of Computer Research and Development,2016,53(2):262-269.

[8]Xu Jiajun,Yang Yang,Yao Tianfang,et al.LDA based hot topic detection and tracking for the forum[J].Journal of Chinese Information Processing,2016,30(1):43-49.

[9]Peng Zeying,Yu Xiaoming,Xu Hongbo,et al.Incomplete clustering for large scale short texts[J].Journal of Chinese Information Processing,2011,25(1):54-59.

[10]Li Shengdong,Lv Xueqiang,Shi Shuicai,et al.Adaptive incrementalK-means algorithm for topic detection[J].Journal of Chinese Information Processing,2014,28(6):190-193.

[11]Gao Ni,Gao Ling,He Yiyue,et al.Topic detection based on group average hierarchical clustering[C]//Proceedings of the 2013 International Conference on Advanced Cloud and Big Data,Nanjing,Dec 13-15,2013.Washington:IEEE Computer Society,2013:88-92.

[12]Shui Yidong,Qu Youli,Huang Houkuan.A new topic detection and tracking approach combining periodic classification and Single-Pass clustering[J].Journal of Beijing Jiaotong university,2009,33(5):85-89.

[13]Salton G,Wong A,Yang C S.A vector space model for automatic indexing[M]//Jones S K,Willett P.Readings in Information Retrieval.San Francisco:Morgan Kaufmann Publishers Inc,1997:273-280.

[14]Salton G.The SMART retrieval system:experiments in automatic document processing[M].Upper Saddle River:Prentice Hall,1971.

[15]Zong Chengqing.Statistical natural language processing[M].Beijing:Tsinghua University Press,2008.

[16]Zhang Dongwen,Xu Hua,Su Zengcai,et al.Chinese comments sentiment classification based on Word2Vec and SVMperf[J].Expert Systems with Applications,2015,42(4):1857-1863.

[17]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.

[18]Mnih A,Hinton G E.Three new graphical models for statistical language modelling[C]//Proceedings of the 24th International Conference on Machine Learning,Corvallis,Jun 20-24,2007.New York:ACM,2007:641-648.

[19]Mikolov T,Sutskever I,Chen Kai,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems,Lake Tahoe,Dec 5-8,2013:3111-3119.

[20]Liu Yanchi,Li Zhongmou,Xiong Hui,et al.Understanding of internal clustering validation measures[C]//Proceedings of the 10th IEEE International Conference on Data Mining,Sydney,Dec 14-17,2010.Washington:IEEE Computer Society,2010:911-916.

[21]Li Peng,Wang Bin,Shi Zhiwei,et al.Tag-TextRank:a Webpage keyword extraction method based on tags[J].Journal of Computer Research and Development,2012,49(11):2344-2351.

附中文參考文獻:

[1]肖永磊,劉盛華,劉悅,等.社會媒體短文本內容的語義概念關聯(lián)和擴展[J].中文信息學報,2014,28(4):21-28.

[2]朱新華,馬潤聰,孫柳,等.基于知網(wǎng)與詞林的詞語語義相似度計算[J].中文信息學報,2016,30(4):29-36.

[5]彭敏,黃佳佳,朱佳暉,等.基于頻繁項集的海量短文本聚類與主題抽取[J].計算機研究與發(fā)展,2015,52(9):1941-1953.

[7]王仲遠,程健鵬,王海勛,等.短文本理解研究[J].計算機研究與發(fā)展,2016,53(2):262-269.

[8]徐佳俊,楊飏,姚天昉,等.基于LDA模型的論壇熱點話題識別和追蹤[J].中文信息學報,2016,30(1):43-49.

[9]彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學報,2011,25(1):54-59.

[10]李勝東,呂學強,施水才,等.基于話題檢測的自適應增量K-means算法[J].中文信息學報,2014,28(6):190-193.

[12]稅儀冬,瞿有利,黃厚寬.周期分類和Single-Pass聚類相結合的話題識別與跟蹤方法[J].北京交通大學學報,2009,33(5):85-89.

[15]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2008.

[21]李鵬,王斌,石志偉,等.Tag-TextRank:一種基于Tag的網(wǎng)頁關鍵詞抽取方法[J].計算機研究與發(fā)展,2012,49(11):2344-2351.

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 97免费在线观看视频| 国产一区二区三区在线观看视频| 成人午夜免费视频| 成人一区在线| 香蕉伊思人视频| 在线观看国产网址你懂的| 欧美精品高清| 国产无码精品在线播放| 欧美激情视频二区三区| 91亚洲精选| 亚洲成在线观看| 欧美成人亚洲综合精品欧美激情| 中文国产成人精品久久| 狠狠干欧美| 搞黄网站免费观看| 激情午夜婷婷| 高清无码一本到东京热| 亚洲天堂777| 亚卅精品无码久久毛片乌克兰| 国产成人永久免费视频| 精品久久久久久中文字幕女| 色噜噜狠狠色综合网图区| 欧美成人怡春院在线激情| 国产精品女人呻吟在线观看| 国产精品视频猛进猛出| 国产一级毛片网站| 欲色天天综合网| 色亚洲成人| 激情综合激情| 美女无遮挡被啪啪到高潮免费| 亚洲欧洲一区二区三区| 国产区在线观看视频| 国产91在线免费视频| 91视频青青草| 国产精品伦视频观看免费| 91网址在线播放| 免费国产无遮挡又黄又爽| 四虎成人在线视频| 香蕉伊思人视频| 国产乱子伦精品视频| 十八禁美女裸体网站| 666精品国产精品亚洲| 成人字幕网视频在线观看| 久久不卡国产精品无码| 日韩人妻少妇一区二区| 久久婷婷国产综合尤物精品| 欧美激情视频在线观看一区| 日本爱爱精品一区二区| 精品亚洲麻豆1区2区3区| 欧美日韩成人在线观看| 91成人精品视频| 久久这里只有精品8| 亚洲中文字幕日产无码2021| 免费国产一级 片内射老| 日本不卡在线视频| 亚洲人成电影在线播放| 久久午夜夜伦鲁鲁片无码免费| 精品国产免费第一区二区三区日韩| 91无码视频在线观看| 69免费在线视频| 制服丝袜在线视频香蕉| P尤物久久99国产综合精品| 国产成人高清精品免费软件| 欧美性久久久久| 亚洲αv毛片| 免费在线观看av| 亚洲天堂视频在线观看免费| 97青草最新免费精品视频| 中国毛片网| 亚洲永久视频| 久久免费视频播放| 亚洲日韩每日更新| 久久国产精品无码hdav| 国产午夜福利亚洲第一| 欧美啪啪网| 亚洲视频在线观看免费视频| 久久国产精品影院| 国产www网站| 国产精品熟女亚洲AV麻豆| 亚洲水蜜桃久久综合网站| 日韩人妻精品一区| 无码国产伊人|