999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向中文新聞話題檢測的多向量文本聚類方法

2016-06-27 08:16:46李欣雨
鄭州大學學報(理學版) 2016年2期
關鍵詞:實驗方法模型

李欣雨 , 袁 方 , 劉 宇 , 李 琮

(1.河北大學 計算機科學與技術學院 河北 保定071000;學 數學與信息科學學院 河北 保定071000)

面向中文新聞話題檢測的多向量文本聚類方法

李欣雨1, 袁 方2, 劉 宇2, 李 琮1

(1.河北大學 計算機科學與技術學院 河北 保定071000;學 數學與信息科學學院 河北 保定071000)

基于多向量模型,給出一種將話題主題信息與話題文本信息相結合的多向量話題表示方式,使用較低的維度來準確表示一個話題.針對傳統TFIDF方法在文本分類問題中對特征項在各個類中分布情況考慮不充分的問題,給出了一種TFIDF改進方法.在TDT4的中文語料上,與傳統向量空間模型進行了對比實驗.實驗結果表明,給出的話題表示方法和TFIDF改進算法能夠在較低的維度上,使聚類的準確率得到較大提升.

話題檢測; 多向量模型; TDT4; 改進TFIDF算法

0 引言

隨著互聯網的快速發展,網絡已逐漸成為人們獲取信息的一個主要媒體.網絡新聞作為互聯網媒體中最重要的信息類型之一,是人們獲取新聞消息的一個重要途徑.但由于網絡上的新聞繁雜冗余,依靠人工來查找新聞話題的工作量巨大,人們希望能夠通過計算機自動獲取新聞話題,話題檢測技術即是自動獲取新聞話題的技術.

話題檢測的主要任務是在缺乏話題先驗知識的前提下,檢測出未知的話題,這是一種無監督學習過程[1-2].聚類算法是實現話題檢測的一個關鍵點.一般可以分為基于層次的聚類算法、基于密度的聚類算法、基于平面劃分的聚類算法等[3-4].基于層次的聚類算法通常可以達到較高的精度,因此本文采用凝聚層次聚類算法進行聚類.

話題檢測的另一個關鍵點在于話題的向量化表示,表示模型及其使用方法的好壞通常會對整個系統的性能產生較大影響[5].常用的表示模型可以分為概率模型和向量空間模型(vector space model,VSM).一種典型的概率模型如LDA(latent Dirichlet allocation)模型[6],是由文本空間到語義空間的映射.通過LDA模型的迭代過程,可以將文本表示成主題向量,但通常LDA模型中的主題,與最終需要的話題是不同的.這一不同,主要體現在語義的粒度上,LDA得到的主題,通常具有較大的語義粒度,因此并不能精確地表示一篇文檔[7-8].使用由文本直接得到的VSM表示文檔時,向量維度通常會非常高[9],使計算耗時增加.為了減少時間消耗,通常會選用信息量豐富的詞,如:地點詞、人物詞、事件的代表詞等.然而如果僅使用這些重要信息來表示文檔,其攜帶的文本語義信息過少,對文本的表示精度仍然不能滿足要求[10-11].

1 多向量模型

多向量模型[5]是由多個子向量組合而成的向量模型,用MV表示n維多向量,SVi表示其子向量,則有:MV={SV1,SV2,…,SVn}.在計算兩個多向量的相似度時,通常會分別計算每個子向量的相似度,然后采用某種策略對各個子向量的相似度進行綜合,從而得到多向量間的相似度.例如,對于兩個n維多向量MV1和MV2,即有

(1)

其中:Sim(·,·)表示計算相似度函數.利用多向量模型,將主題模型和向量空間模型結合.這樣做的目的是使這兩種模型能夠進行優勢互補:主題模型為向量空間模型補充其語義上的不足,向量空間模型可以提高主題模型的精度.為了進一步提高多向量的表示精度,將文中的地點和人物提取出來,作為多向量中的一個子向量.最后,文本會被表示為3個子向量:主題子向量、地點人物子向量和關鍵詞子向量.在判斷給定兩篇文檔的話題相似性時,直觀上可以理解為對于兩篇文檔,如果它們的語義相近,并且提到相似的地點人物,又具有相似的關鍵字,那么兩篇文檔極有可能是在討論同一話題.通過與基準方法的對比試驗表明,本文給出的這種多向量模型能夠提升話題檢測的性能.

2 基于多向量的話題檢測方法

在基準方法和多向量方法中均使用基于簇中心的凝聚層次聚類方法,初始時每篇文章單獨作為一個簇,選擇全局最近的兩個簇進行合并,更新合并后的簇中心,然后繼續選取全局最近的兩個簇進行合并,直到所有文章合并為一個簇時,聚類停止.

2.1 基準方法

使用中科院分詞工具ICTCLAS對文檔進行分詞,基于停用詞表(509個停用詞)刪除文檔中的停用詞,只保留文檔中的名詞、動詞、形容詞和副詞[12],計算每篇文檔中詞的TFIDF分值,并保留分值較高的詞.以TFIDF分值作為VSM向量的權值,構造出各篇文檔的VSM向量.使用凝聚層次聚類方法進行聚類.其中,凝聚層次聚類方法使用簇中心表示法,簇中心由簇中所有文檔的VSM向量進行向量加和運算得到.使用兩個簇中心VSM向量的cosin值作為簇中心的相似度.

2.2 本文使用的方法

本文給出的方法是基于多向量的聚類算法,文檔的表示向量是由3個子向量組成的多向量.3個子向量分別是:主題子向量、地點人物子向量和關鍵詞子向量,每個子向量都設有維度上限值,分別為Lt、Lp和Lk.在凝聚層次聚類方法中使用簇中心表示方法,每個簇的簇中心向量同樣由上述多向量表示.兩個簇的相似度通過計算這兩個簇的簇中心相似度得到,簇中心的相似度為其3個對應子向量的cosin相似度值之和.用Ci表示簇i,Ti,Pi,Ki分別代表Ci中的主題子向量、地點人物子向量和關鍵詞子向量,則有:

Sim(C1,C2)=wt1×cosin(T1,T2)+wt2×cosin(P1,P2)+wt3×cosin(K1,K2),

(2)

2.2.1 主題子向量的構造與更新方法 本文的主題子向量使用的是由LDA模型得到的主題向量.LDA模型是一種3層貝葉斯生成的概率模型[13],模型表示如圖1所示[6].M代表所有文檔個數;H代表所有隱含主題個數;N代表一篇文檔中詞的個數;α和β是超參數;θ表示文檔的主題分布;φ表示主題的詞分布;z代表一個主題h(h∈{1,2,…,H});w代表文檔的一個詞.該模型假設每篇文檔均包含全部H個隱含主題,而每個主題均包含所有文檔的不重復詞,并通過隱含主題來將文檔和詞匯進行關聯.這一模型生成文檔的過程可用圖2表示.

根據圖2,在生成第m篇文檔時,先根據超參數α生成第m篇文檔的θm,然后根據θm生成第m篇文檔的第n個詞的主題zm,n,不妨假設zm,n=h,接著根據超參數β生成的φh來生成第m篇文檔的第n個詞wm,n.LDA模型中應用了詞袋模型[14],這表明LDA模型假設文檔中詞的順序是可交換的,同時LDA模型中假設各篇文檔獨立,因此各篇文檔之間的順序也是可交換的.LDA模型在初始時對所有文檔中的詞進行隨機主題賦值,然后通過不斷隨機抽樣迭代,最終可以得到每篇文檔的主題分布的估計向量θ,本文使用這一向量作為多向量的主題子向量.

圖1 LDA模型Fig.1 LDA model

圖2 LDA模型生成文檔的過程
Fig.2 Process of generating documents using LDA model

主題向量θ是表示文檔的主題分布情況的向量,其含意可解釋為,當人們在寫一篇文檔時,會通過在文檔中安排各個主題寫多少來表達自己的語義,例如:現有3篇文檔和3個主題,這3篇文檔分別對應3個主題分布θ1=(0.8,0.1,0.1),θ2=(0.7,0.2,0.1),θ3=(0.1,0.2,0.7),則可以看到,θ1所屬文檔主要通過主題1表達語義,θ2中主要通過主題2表達語義,θ3主要通過主題3表達語義,則通常可以認為θ1與θ2語義相近.將θ1和θ2對應維度值進行加和求平均,得到θ′=(0.75,0.15,0.1).用θ′來近似表示θ1和θ2共同表達的語義,可以理解為:θ′代表為了表達某一特定語義而對各個主題的平均使用率.因此,簇中心的主題子向量采用如下方式進行更新:簇中各篇文檔的主題子向量的對應維度值加和求平均,得到的平均θ′向量作為簇中心的主題子向量.

2.2.2 地點人物子向量的構造與更新方法 地點人物子向量使用由中科院分詞工具ICTCLAS分詞結果中的人名詞和地名詞組成.地點人物子向量只保留具有較高文檔內相對詞頻的地點詞和人名詞.考慮到部分文檔中可能包含的地點詞與人名詞非常少,造成在計算多向量的相似度時,地點人物子向量無法提供與主題子向量和關鍵詞子向量對等的信息量.因此,進行相似度計算時,在使用公式(2)中設定的子向量權值wt2之前,首先采用公式(3)對地點人物子向量相似度進行動態加權:

(3)

其中:weight(i,j)表示簇i與簇j的地點人物子向量的動態權重;Pi表示第i個簇的地點人物子向量; dim(Pi,Pj)表示簇i和簇j的地點人物子向量組成的VSM向量的維度;Limit表示地點人物子向量的維度上限.

當兩個簇進行合并時,相同詞的相對詞頻相加,不同詞則直接并入向量,然后按相對詞頻對所有詞進行排序,保留其中具有較高相對詞頻的詞.用Ci表示簇i,Pi表示Ci的地點人物子向量,合并C1、C2,得到新簇C′及其地點人物子向量P′,P′=(P1∪P2).對C′中的地點詞和人名詞進行排序,保留相對詞頻較高的地點詞和人名詞.當P′中的詞數量超過Limit時,以維度上限值的一半作為地點詞和人名詞的維度警戒線Lm,若地點詞和人名詞的個數均超過Lm,則各自保留相對詞頻較高的Lm個詞;若它們其中一個的數量超過了Lm,則通過舍去數量較多一方的具有較低相對詞頻的詞來保證P′的詞數量在Limit以內.

2.2.3 關鍵詞子向量的構造與更新方法 文檔的關鍵詞子向量是對文檔分詞、去停用詞進行詞性保留,再去掉文中的人名詞和地名詞后,對各篇文檔剩余詞語進行TFIDF計算,最后各篇文檔選出其TFIDF分值較高的一部分詞作為其關鍵詞子向量.

傳統TFIDF算法在計算時,沒有充分考慮特征項在各個類中的分布情況.當某一特征項在某個類內大量出現,而在其他類中出現較少時,這樣的特征項是具有較強分類能力的,但傳統的TFIDF算法無法賦予這樣的特征項較高權值.因此本文在傳統TFIDF權值的基礎上,通過統計類內某一特征的分布情況,將其與其他類中該特征的平均分布情況進行比較后,對原有TFIDF計算分值進行修正.若該特征在當前類內分布廣泛,而在其他類中分布較少,則加大其TFIDF分值;若該特征在當前類內分布較少,在其他類中分布較多,則減少其TFIDF分值;若該特征在當前類內的分布與其他類中分布接近,則其TFIDF分值保持不變.根據上述思想,給出計算方法:

(4)

其中:NewTFIDF(t)表示文檔中的特征項t新的TFIDF加權值;TF為特征項t的相對詞頻;IDF為特征項t的逆文檔頻率;本文定義聚類中文檔數量大于1的簇為一個類(也即一個話題),n代表當前系統中類的個數;Ri(t)表示文檔所在類i中,特征項t出現的文檔數在類i所含文檔中占有的比例,即

(5)

在對兩個簇進行合并時,首先使用上述公式對兩個簇中所有文檔的關鍵詞子向量進行更新,即重新計算兩個簇內所有文檔詞的權重,然后每篇文檔保留權值最高的一部分詞作為新的關鍵詞;再用更新后的簇中所有文檔的關鍵詞組成VSM向量,得到的加權VSM向量作為各篇文檔的新關鍵詞子向量,至此簇中文檔的關鍵詞子向量更新完成;再將簇中所有文檔的關鍵詞子向量的對應維度值進行加和求平均,并按求得的平均值進行排序,保留值較高的一部分詞.由這些關鍵詞組成的向量作為合并后新簇中心的關鍵詞子向量.

3 評價方法與數據集

使用查全率Rec、查準率Pre以及F值來對實驗結果進行評價[15].其中,查全率的定義為:被正確分類的文檔數和被測試文檔中各類別文檔總數的比值;查準率的定義為:被正確分類的文檔數與識別出的類別文檔總數的比值.計算公式為:

其中:Ce表示在聚類前屬于TDT標記的類i,且聚類后仍屬于類i的文檔個數;Tr1表示聚類前,TDT標記的各個類所包含的總文檔數;Tr2表示聚類后獲得的所有類包含的全部文檔數.本文規定最小類應包含至少2篇文檔.

采用TDT4的中文語料作為實驗數據集.在TDT4語料中,共有兩套不重復的話題標注:TDT4-2002話題標注和TDT4-2003話題標注.TDT4-2002是語言數據聯盟(linguistic data consortium,LDC)在2002年的話題檢測與追蹤(topic detection and tracking,TDT)評測中標注并使用的話題,TDT4-2003是LDC在2003年的TDT評測中標注并使用的話題.這兩套話題標注之間,不存在話題的重復,也不存在文檔的重復,即TDT4-2003的話題不包含TDT4-2002的任何話題,且TDT4-2003標記的文檔也不包含TDT4-2002標記的任何文檔.在這兩套話題標注中,具有明確話題標注的中文語料在TDT4-2002中有723篇,共涉及40個話題;在TDT4-2003中有580篇,共涉及33個話題.TDT4的語料標注存在少數一篇文檔對應多個話題的情況;一篇文檔只對應一個話題的語料占多數.其中,一篇文檔僅對應一個話題的文檔,在TDT4-2002中有657篇,涉及37個話題,TDT4-2003中有564篇,涉及31個話題.用Tpc1,Doc1和Tpc2,Doc2分別表示TDT4-2002和TDT4-2003的話題、文檔集合,則有Tpc1∩Tpc2=Φ,Doc1∩Doc2=Φ,因此可以將TDT4-2002與TDT4-2003的話題和文檔合并,使用Tpc′=Tpc1∪Tpc2,Doc′=Doc1∪Doc2作為實驗數據集,共1 221篇文檔總計68個話題.其中,若一個話題只有一篇文檔,則認為該話題的文檔是孤立點,不再當作一個話題,這些文檔仍然保留在數據集中,但其話題不再計入話題總數,最終得到61個話題,共計1 221篇文檔.

4 實驗與分析

4.1 基準方法聚類實驗

在由TDT4-2002與TDT4-2003共同組成的語料集上,使用基準方法,按如下過程進行實驗:聚類開始,直到只剩下3個簇時,聚類停止,然后對聚類過程中的每一次聚類結果計算出F值,將其中的最大F值及其對應的召回率和準確率作為實驗結果.再用NewTFIDF方法替換基準方法中的傳統TFIDF方法,按前述過程再次進行實驗.使用兩種不同權值計算方法得到的實驗結果如表1所示.

表1 傳統TFIDF與NewTFIDF的實驗結果

通過表1的實驗結果可以看到,本文給出的NewTFIDF加權算法與傳統TFIDF算法相比,聚類結果的召回率提高了2.51個百分點,準確率提高了0.36個百分點,最后F值提高了1.48個百分點,表明本文給出的在傳統TFIDF算法基礎上引入特征的類內分布情況統計量的方法能夠在一定程度上解決傳統算法中存在的問題.

4.2 基于多向量模型方法實驗

在本文使用的多向量中,每個簇的3個子向量維度上限均取20維.3個子向量的權值設置為:wt1=wt2=wt3=1/3. 在獲取主題子向量時,LDA主題模型的主題數H設為20,α和β取經驗值分別為0.5和0.01,迭代次數取200次.由于從LDA主題模型獲取的主題子向量具有隨機性,因此本文進行了10次聚類實驗,每次實驗重新構造主題子向量,取每次實驗能夠獲得的最高F值對應的召回率和準確率作為當次實驗的結果,然后對10次實驗獲得的10組召回率和準確率進行加和求平均,再通過計算出的平均召回率和平均準確率計算出平均F值,這3個分值一同作為最終聚類評價分數.

將基準方法的 VSM向量分別與傳統TFIDF和NewTFIDF加權方法進行組合,再用本文給出的多向量分別與傳統TFIDF和NewTFIDF加權方法進行組合.這4組方法分兩次在TDT4-2002與TDT4-2003語料上各進行一次實驗.實驗結果如表2所示.

表2 4組方法在兩個語料庫上的聚類結果

通過4組實驗數據的對比,可以得到,與傳統的VSM和TFIDF組合方法相比,多向量模型的使用以及NewTFIDF算法使得在TDT4-2002語料上,聚類結果的召回率提高了4.08個百分點,準確率提高了5.54個百分點,F值提高了4.77個百分點;在TDT4-2003語料上,聚類結果的召回率提高了3.31個百分點,準確率提高了5.2個百分點,F值提高了4.19個百分點.實驗表明,本文給出的多向量模型和NewTFIDF加權方法使話題檢測的性能得到提升.

5 總結

本文通過對話題表示模型的分析,給出了一種基于多向量模型的話題表示方法,將話題表示為主題子向量、地點人物子向量和關鍵詞子向量.同時針對傳統TFIDF加權算法存在的不足,給出了一種改進的TFIDF算法,將特征項在各個類中的文檔分布信息引入到TFIDF權值計算當中.通過實驗表明,本文給出的方法能有效提高話題檢測的召回率和準確率.

[1] 洪宇,張宇,劉挺,等.話題檢測與跟蹤的評測及研究綜述[J].中文信息學報,2007,21(6):71-87.

[2] 李勝東,呂學強,施水才,等.基于話題檢測的自適應增量K-means算法[J].中文信息學報,2014,28(6):190-193.

[3] 金建國.聚類方法綜述[J].計算機科學,2014,41(S2):288-293.

[4] 王祥斌,楊柳,鄧倫治.一種利用高斯函數的聚類算法[J].河南科技大學學報(自然科學版),2014,35(5):33-36.

[5] 張曉艷,王挺,陳火旺.基于多向量和實體模糊匹配的話題關聯識別[J].中文信息學報,2008,22(1):9-14.

[6] JORDAN M I,BLEI D M,NG A Y.Latent dirichlet allocation[J].Journal of machine learning research,2003,3:993-1022.

[7] 張曉艷,王挺,梁曉波.LDA模型在話題追蹤中的應用[J].計算機科學,2011,S1:136-139.

[8] 李湘東,巴志超,黃莉.基于LDA模型和HowNet的多粒度子話題劃分方法[J].計算機應用研究,2015,32(6):1625-1629.

[9] 謝林燕,張素香,戚銀城.基于層疊模型的話題檢測方法研究[J].鄭州大學學報(理學版),2012,44(2):43-47.

[10]王振宇,吳澤衡,唐遠華.基于多向量和二次聚類的話題檢測[J].計算機工程與設計,2012,33(8):3214-3218.

[11]常寶嫻,陳瑋瑋,李素娟.一種基于分布式rough本體的語義相似度計算方法[J].揚州大學學報(自然科學版),2014,17(1):60-62.

[12]冀俊忠,貝飛,吳晨生,等.詞性對新聞和微博網絡話題檢測的影響[J].北京工業大學學報,2015,41(4):526-533.

[13]王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類[J].電子學報,2012,40(11):2346-2350.

[14]蔣玲芳,張偉,司夢.基于詞袋模型的電子報圖像分類方法研究[J].信陽師范學院學報(自然科學版),2013,26(1):124-127.

[15]張小明,李舟軍,巢文涵.基于增量型聚類的自動話題檢測研究[J].軟件學報,2012,23(6):1578-1587.

(責任編輯:王浩毅)

A Multi-vector Text Clustering Method for Chinese News Topic Detection

LI Xinyu1, YUAN Fang2, LIU Yu2,LI Cong1

(1.CollegeofComputerScienceandTechnology,HebeiUniversity,Baoding071000,China;2.CollegeofMathematicsandInformation,HebeiUniversity,Baoding071000,China)

A multi-vector topic representation method combined with topic information and topic text information was proposed, to accurately represent a topic in a lower dimension. The traditional TFIDF method, during text classification, couldn’t fully cover the distribution of the feature items in each class, so an improved TFIDF method was proposed. Compared with traditional vector space model, the topic representation method and the TFIDF algorithm could effectively improve the accuracy of clustering.

topic detection; multi-vector model; TDT4; improved TFIDF

2015-11-19

河北省軟科學研究計劃項目(13455317D,12457206D-11).

李欣雨(1989—),男,河北秦皇島人,碩士研究生,主要從事數據挖掘研究,E-mail:lixinyudm@163.com;通訊作者:袁方(1965—),男,河北安新人,教授,博士,主要從事數據挖掘、社會計算研究,E-mail:yuanfang@hbu.edu.cn.

李欣雨,袁方 ,劉宇,等. 面向中文新聞話題檢測的多向量文本聚類方法[J]. 鄭州大學學報(理學版),2016,48(2):47-52.

TP391.1

A

1671-6841(2016)02-0047-06

10.13705/j.issn.1671-6841.2015277

猜你喜歡
實驗方法模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 日本久久网站| 国产麻豆永久视频| 二级毛片免费观看全程| 欧美日韩国产在线人成app| 一边摸一边做爽的视频17国产| 色综合中文综合网| 国产自在线播放| 亚洲成人精品| 亚洲成aⅴ人在线观看| 国产高清无码麻豆精品| 午夜高清国产拍精品| 国产后式a一视频| 国产真实乱了在线播放| 国产成人高清精品免费5388| 亚洲人成成无码网WWW| 日韩毛片视频| 欧美午夜在线观看| 99久久精品国产自免费| swag国产精品| 久久性视频| 91美女视频在线| 十八禁美女裸体网站| 老司国产精品视频| 欧美一区二区福利视频| 亚洲午夜18| 欧美a级完整在线观看| 97久久超碰极品视觉盛宴| 中国一级特黄大片在线观看| 国产一级片网址| www.国产福利| 亚洲AⅤ无码国产精品| 婷婷伊人五月| 无码国内精品人妻少妇蜜桃视频| 国产成人高清精品免费| 老司机午夜精品视频你懂的| 伊人久久大线影院首页| 国产成年无码AⅤ片在线 | 在线观看免费国产| 久久毛片网| 免费一级全黄少妇性色生活片| 日韩专区欧美| 网友自拍视频精品区| 日本黄色不卡视频| 欧美一区二区三区香蕉视| 免费看的一级毛片| 日韩二区三区| 久久久久久久蜜桃| 在线国产91| 久久亚洲国产最新网站| 任我操在线视频| 久久久亚洲国产美女国产盗摄| 不卡无码h在线观看| 深夜福利视频一区二区| 亚洲品质国产精品无码| 伊人福利视频| 久久精品91麻豆| 免费人成网站在线观看欧美| 视频二区中文无码| 热re99久久精品国99热| 99在线国产| 亚洲色图欧美在线| 亚洲午夜国产片在线观看| 55夜色66夜色国产精品视频| 亚洲中文字幕久久无码精品A| 99热这里只有精品在线观看| 91在线无码精品秘九色APP| 欧美国产另类| 国产精品吹潮在线观看中文| 国产精品黑色丝袜的老师| 天天综合网色| 国产高清在线观看| 国产91成人| 欧美一区二区啪啪| 9啪在线视频| 精品免费在线视频| 伊大人香蕉久久网欧美| 9久久伊人精品综合| 亚洲精品第一在线观看视频| 天天婬欲婬香婬色婬视频播放| 99精品在线看| 草逼视频国产| 国产成人无码AV在线播放动漫|