卜天然(安徽商貿職業技術學院,安徽蕪湖 241002)
基于WLabeled-LDA模型的文本分類研究
卜天然
(安徽商貿職業技術學院,安徽蕪湖 241002)
Labeled-LDA模型引入了類別標簽信息,較傳統的LDA主題模型改進了強制分配主題的問題,但Labeled-LDA模型仍存在一些問題,例如Labeled-LDA在訓練主題模型之前沒有去除無用詞,在訓練過程中沒有考慮詞與各類別的關聯度,且Labeled-LDA模型獲得的主題分布傾向于高頻詞,導致主題的表達能力降低等問題。本文提出WLabeled-LDA模型,在訓練主題模型之前使用卡方特征來選出好的特征詞,訓練主題模型時用獲得的詞對類別的卡方值進行主題模型加權,并使用高斯密度函數對特征詞加權來降低高頻詞對主題表達能力的影響。實驗結果顯示,此方法能使分類的準確率和召回率得到一定的提高,說明其具有更好的分類效果。
文本分類;隱含狄利克雷分配(LDA);卡方統計;特征選擇;加權主題模型
近年來,互聯網上文本數據急劇增長,自動文本分類成為有效分析并利用這些文本信息的有效方法,現已被應用到搜索引擎﹑信息檢索﹑信息推送等領域。自動文本分類是指對未知類別的文本通過某種分類方法,自動將其判定為相應的類別。
文本表示是文本分類研究的重要內容。向量空間模型[1](VSM-Vector Space Model)是一種經典的文本表示模型,但VSM特征維度往往較大,且不能對語義問題進行建模。一些新的模型引入統計思想來挖掘文本的主題信息,能較好地解決語義問題,且能降低文本的表示維度。Deerwester和Dumais等提出的隱含語義索引(LSI-Latent Semantic Indexing)[2]模型并不是真正的主題模型,只通過矩陣的奇異值分解來選擇部分特征,起到降維的作用。經過一系列的研究,針對LSI模型的理論基礎不夠清晰,Thomas Hofmann發展了PLSI(Probability Latent Semantic Indexing)模型[3],PLSI的降維效果較顯著,但模型的參數空間隨著訓練數據規模的增長而增大,導致過度擬合的現象,不適合對動態增長或規模較大的數據集進行主題建模。針對這些問題,Blei等在PLSI的基礎上提出了LDA(Latent Dirichlet Allocation)模型[4-5],得到一個更為完整的概率生成主題模型,LDA模型參數簡單且不會產生過度擬合的現象,但LDA存在強制分配問題。李文波提出LDA的變形Labeled-LDA模型[6],通過引入類別標簽信息,在各類別上協同計算主題的分配量,從而克服傳統LDA模型強制分配主題的問題。
但Labeled-LDA模型仍存在一些缺陷,例如在訓練主題模型之前沒有去除分類價值較小的無用詞,在訓練過程中沒有考慮詞與各類別的關聯度,不能區分不同的詞對主題的貢獻度的不同,且Labeled-LDA模型獲得的主題分布傾向于高頻詞導致主題的表達能力受高頻詞的影響而降低。本文在Labeled-LDA的基礎上提出WLabeled-LDA模型,在訓練主題模型前使用卡方特征選擇[7-8]來選出好的特征詞,在訓練主題模型的統計過程中將卡方特征選擇計算獲得的詞通過類別的卡方值對主題模型加權,以區分不同詞貢獻度的大小,并使用高斯密度函數對特征詞加權來降低高頻詞對主題表達能力的影響,提高主題的表達能力,實驗結果表明,上述改進的模型能獲得較好的分類效果。
1.1 卡方特征選擇方法
卡方檢驗是數理統計中一種檢驗兩個變量獨立性的方法,假設兩個變量是相互獨立的,再比較實際值與理論值(兩個變量在獨立性條件下應該有的值)的偏差,如果偏差足夠小,就認為誤差是由樣本的偶然性造成的,則兩個變量相互獨立的假設成立;如果偏差大到一定程度,則認為產生誤差的原因不是樣本偶然性,推翻原假設,認為兩個變量之間是相關的,并且卡方統計的值越大,兩者的相關性越大?,F考察詞t與類別c的卡方值CHI(t,c)。

表1 關于詞t對類別c的文本數量統計
其中,N是訓練集中文檔的總數,A是包含詞w且屬于類c的文檔數量,B是包含詞w但不屬于類c的文檔數量,C是不包含詞w且屬于類c的文檔數量,D是不包含詞w且屬于類c的文檔數量。根據詞t與類別c相獨立的原假設,類別c中包含詞t的文檔比例應與整個訓練集中包含詞t的文檔比例相同。這樣得到A的理論值如式(1)所示[7-8]。
(1)
于是得到樣本觀察值與理論值的偏差如式(2)所示[7-8]。
(2)
同理可以得到DB,DC,DD。于是得到詞t對類別c的卡方值如式(3)所示[7-8]。
(3)
式(3)是針對一個類別的情況,如果對于多類別的問題,先按式(3)計算特征t與每個類別的卡方值,再計算特征t對整個系統的卡方值,有兩種計算方式分別如式(4)和式(5)所示[7-8]。
(4)
(5)
1.2 LDA模型
LDA[4-5]是對離散數據集建模的主題模型,具有清晰的三層貝葉斯結構(圖1),即文檔-主題-特征詞三層結構,一篇文檔可以看成若干個主題構成的,以不同的概率分布在各個主題上,主題是由若干個特定詞匯所構成,每個詞以一定的概率出現在該主題下。LDA模型挖掘文本的主題信息能夠分析深層的語義知識,常見的語義現象包括一詞多義和一義多詞,比如說文檔A中的“蘋果”與文檔B中的“香蕉”這兩個詞都與主題“水果”相關,這可以理解為一義多詞;詞匯“蘋果”不僅與主題“水果”相關,還與“電子產品”這個主題相關,這是一詞多義。

圖1 LDA文檔結構圖


圖2 LDA有向生成概率圖
所謂生成過程,可以理解為一篇文檔的每個詞都是通過“以一定概率選擇某個主題,再從該主題中以一定概率選擇某個詞”這樣一個過程得到。LDA概率主題模型生成文本集的算法過程[4]如下:



(6)
(7)
(8)

1.3 Labeled-LDA模型
傳統的LDA模型對文本集合建模時,集合中的所有文本只討論一組隱含主題,這樣會導致文本在不屬于自己的類別上進行生成,從而產生主題強制分配問題。為此Labeled-LDA[6]模型在LDA的基礎上引入了類別標簽的信息,Labeled-LDA的文檔結構如圖3所示,Labeled-LDA的有向概率生成模型如圖4所示。

圖3 Labeled-LDA文檔結構圖

圖4 Labeled-LDA有向生成概率圖
Labeled-LDA模型描述文本集合時,將文本按照類別劃分,每一類別分別挖掘若干個主題,這樣就將類別標簽附加到主題,嵌入了類別標簽信息。傳統的LDA模型參數α與β只有一組,而Labeled-LDA模型參數α與β按照類別被分為C組,即α=(α1,…,αc,…,αC),β=(β1,…,βc,…,βC),參數(αC,βC)決定了類別c中的那組隱含主題,這就使用了類別標簽對每個隱含主題進行了標記,αC和βC是類別c的先驗分布參數。θ=(θ1,…,θc,…,θC),其中θC表示文本在類別c的那組隱含主題分布,φ=(φ1,…,φc,…,φC),φC表示類別c中主題的詞分布。
Labeled-LDA針對LDA模型存在強制分配主題問題作出改進,但仍存在以下缺陷:第一,對Labeled-LDA模型訓練前沒有進行特征詞選擇,一些分類價值較小的詞或者噪聲詞會對模型的主題模型的訓練產生干擾,從而影響模型的效果,并且在模型訓練時會有較大的時間開銷。第二,Labeled-LDA在模型訓練時沒有考慮詞與類別的關聯度,例如“跑步”與類別標簽“體育”的關聯度比“礦泉水”更加緊密,這可以用卡方特征選擇計算的CHI(t,c)來區分不同詞與類別的關聯度的差異。第三,Labeled-LDA模型在訓練過程中根據詞出現的頻次來統計主題的分布,這就導致主題模型的主題分布傾向于高頻詞,最終導致主題表達能力削弱。
對于傳統Labeled-LDA模型存在的缺點,本文對其進行了相應的改進,提出一種新的主題模型WLabeled-LDA。
首先,WLabeled-LDA在訓練主題模型之前采用卡方特征選擇方法選擇分類價值較大的特征詞,同時起到降維的作用,卡方特征選擇方法見1.4節所述。
其次,WLabeled-LDA在訓練主題模型時,將卡方特征選擇計算得到的卡方值CHI(t,c)對主題模型加權,以區分不同的詞與類別的關聯度的差異,例如“跑步”與類別“體育”的卡方值為0.6,“礦泉水”與類別“體育”的卡方值為0.2,則表明“跑步”與“體育”的關聯度更大。Gibbs采樣過程中θ和φ新的計算公式如式(9)和式(10)所示。
(9)
(10)
再次,由于WLabeled-LDA在對主題分布的統計過程中傾向于高頻詞,降低了低頻詞的表達作用,為此引入高斯密度函數來降低高頻詞的作用,高斯密度函數圖像如圖5所示,當詞頻較高時,它的函數值并沒有一直在增大,這就降低了詞頻過高所產生的影響。在Gibbs采樣過程中用高斯密度函數值對詞進行加權,權重計算方法如式(11)所示。
(11)

于是得到GIbbs采樣過程中θ和φ的計算如式(12)和(13)所示。
(12)
(13)

圖5 高斯密度函數圖像
3.1 實驗數據
語料庫選用的是復旦大學中文語料庫,在藝術﹑歷史﹑空間﹑計算機﹑環境五個類別中分別選擇訓練文本300篇﹑測試文本200篇構成實驗數據集。
3.2 相似度計算
文本被表示成主題之后成為一個主題向量,兩個文本的相似度采用向量余弦夾角[9]來度量,分類算法采用經典的K最臨近算法(KNN-K-NearestNeighbor)[9]。余弦夾角的計算如式(14)所示。
(14)
3.3 評價指標
采用宏觀準確率Macro_P[10]和宏觀召回率Macro_R[10]作為評價指標,Macro_P和Macro_R的計算分別如式(15)和式(16)所示。
(15)
(16)
3.4 實驗過程
實驗選用中科院分詞系統ICTCLAS2015,在myecl-ipse2014開發環境中編寫java程序,在同樣的數據集上分別針對LDA、Labeled-LDA、WLabeled-LDA三種模型進行文本分類實驗,實驗流程設計如圖6所示。

圖6 文本分類流程圖
3.5 實驗結果對比
采用LDA、Labeled-LDA、WLabeled-LDA三種模型并結合KNN[9]分類算法進行文本分類的準確率如圖7所示,可以看出主題數為115時WLabeled-LDA方法的準確率達到最大值84.74%,主題數大于115時分類的準確率略微下降并趨于穩定,較LDA方法提高5.8%,較Labeled-LDA提高3.42%,從數據的比較可以看出WLabeled-LDA方法的分類準確率高于LDA和Labeled-LDA,說明其具有更好的分類效果。

圖7 準確率
采用三種模型進行文本分類的召回率如圖8所示。在主題數為95時WLabeled-LDA方法達到最大值88.56%,主題數為115時LDA、Labeled-LDA方法的召回率分別達到最大值81.79%和84.33%。比較數據得知,WLabeled-LDA具有更好的分類效果,說明該改進方法的有效性。

圖8 召回率
主題模型在對文本建模時引入了深層語義的知識,降低了文本表示的緯度,這對文本分類結果起重要作用,但LDA及關于LDA改進的主題模型在主題挖掘時對語義的理解仍然存在一些問題,它們只能分析一義多詞和一詞多義這兩種情形,并不能對詞的順序不同產生的語義進行較好的分析,例如“父母愛你嗎”與“你愛父母嗎”這兩句話包含的詞完全相同,只是因為詞的順序不同導致這兩句話的意思大不相同,主題模型并不能分析出這種語義,這需要結合詞法方面知識對語義進行更深層次的分析,這是下一步工作的重點。
[1]SaltonG,WongA,YangCS.Avectorspacemodelforautomaticindexing[J].CommunicationsoftheACM,1975(18): 613-620.
[2]DeerwesterS,DumaisT.Indexingbylatentsemanticindexing[J].JournaloftheAmericanSocietyforInformationScience,1990(6):391-407.
[3]ThomasHofmann.Probabilisticlatentsemanticindexing[C].ProceedingsoftheSIGIR.Berkeley,CA,USA,1999: 50-57.
[4]BleiD,NgA,JordanM.Latentdirichletallocation[J].JournalofMachineLearningReasearch,2003(3): 993-1002.
[5]GregorHeinrich.Parameterestimationfortextanalysis[R].VsonixvsonixGmbHandUniversityofLeipzig,2008.
[6]李文波,孫樂,張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計算機學報,2008(4):620-627.
[7]陳亮,龔儉.基于卡方統計的應用協議流量行為特征分析方法[J].軟件學報,2010(11):2852-2865.
[8]劉健,張維明.基于互信息的文本特征選擇方法研究與改進[J].計算機工程與應用,2008(10):135-137.
[9]YaoBin,LiFeifei,KumarP.KnearstneighborqueriesandkNN-Joinsinlargerelationaldabase(almost)forfree[C].IEEE,InternationalConferenceonDataEngineering,2010:4-15.
[10]李艷嬌,蔣同海.基于改進權重貝葉斯的維文文本分類模型[J].計算機工程與設計,2012(12):4726-4730.
[11]GfiffithsTL.SteyversM.Findingscientifictopics[C].ProceedingoftheNationalAcademyofSciences,2004:5228-5235.
Research on Categorization of Chinese Text Based on WLabeled-LDA Model
BU Tian-ran
(Anhui Business College, Wuhu Anhui 241002, China)
Labeled-LDA model integrates the class label information,it improves the problem of compulsive allocation compared with the traditional LDA model.However,Labeled-LDA dosen’t remove the useless words before the training topic model,it dosen’t consider the relevance between the words and the categories in the process of training,and the distribution of topics is inclined to high frequency words so that it reduces the expressive ability of topics.An improved model of WLabeled-LDA is proposed in this paper.It uses CHI-square feature selection algorithm to select feature words before training.When topic model is trained,it’s weighted by CHI-square value and feature words are weighted by Gauss function to reduce the effects of high frequency words.The experimental results show that the method above is more effective in terms of precision and recall.
text categorization;Latent Dirichlet Allocation(LDA);CHI-square statistic; feature selection;weighting topic model
2017-01-07
安徽省省級自然科研一般項目“基于Nutch的節能減排垂直搜索引擎設計與應用研究”(KJSM201601);安徽商貿職業技術學院院級科研項目“基于Hadoop平臺的文本聚類算法研究”(2016KYZ05)。
卜天然(1981- ),男,講師,碩士,H3C網絡高級工程師,從事虛擬網絡計算與數據挖掘研究。
TP18
A
2095-7602(2017)04-0006-07