基于LDA特征擴展的短文本分類方法研究

2018-03-26 02:14:46胡朝舉徐永峰

軟件導刊 2018年3期

胡朝舉　徐永峰

摘要：

針對短文本信息篇幅短、信息量少、特征稀疏的特點，提出一種基于LDA（Laten Dirichlet Allocation）主題模型特征擴展的短文本分類方法。該方法利用LDA模型得到文檔的主題分布，然后將對應主題下的詞擴充到原來短文本的特征中，作為新的部分特征詞，最后利用SVM分類方法進行分類。實驗結果表明，相比于傳統(tǒng)的基于VSM模型的分類方法，基于LDA特征擴展的短文本分類方法克服了特征稀疏的問題，在各個類別上的查準率、查全率和F1值都有所提高，充分驗證了該方法對短文本分類的可行性。

關鍵詞：

短文本分類；隱含狄利克雷分布（LDA）；特征擴展；SVM

DOIDOI：10.11907/rjdk.172295

中圖分類號：TP301

文獻標識碼：A文章編號文章編號：16727800（2018）003006304

英文摘要Abstract：This paper presented a short text classification method based on LDA （Laten Dirichlet Allocation） theme model for short text information， short message， and sparse features. This method used the LDA model to obtain the subject distribution of the document， and then extended the word under the corresponding topic into the characteristics of the original short text as a new part of the feature word. Finally， SVM classification method was used to classify. The experimental results show that the short text classification method based on the LDA feature extension overcomes the problem of sparseness of features， and the precision， recall and F1 values are improved in all categories compared with the traditional classification method based on VSM model. It is proved that the method is feasible for short text classification.

英文關鍵詞Key Words：short text classification； Laten Dirichlet Allocation （LDA）； feature expansion； SVM

0引言

隨著互聯(lián)網(wǎng)的快速發(fā)展，手機、平板電腦等移動終端的普及，手機短信息、微博、網(wǎng)絡評論、論壇發(fā)帖回帖等短文本形式的信息不斷涌入人們的生活中。面對大量短文本信息，如何快速而準確地從中獲取所需的關鍵信息，成為眾多研究者關注的熱點問題。近年來，短文本處理技術也應用于輿情分析[1]和搜索引擎[2]等領域。

目前對于文本信息的處理，如文本分類，已經(jīng)有了可用性比較高的技術，然而對于篇幅較短的文本，還沒有比較成熟的方法。當前常用的文本分類方法主要有樸素貝葉斯算法、K近鄰算法、支持向量機算法等，這些方法要求足夠的詞頻共現(xiàn)信息，適用于長文本分類。但是短文本具有篇幅短、信息量少、特征稀疏等特點，相關方法直接應用于短文本分類并不能取得良好效果，其主要困難在于短文本的特征稀疏問題[3]。

對于短文本分類方法的研究，近年來主要有基于語義和基于規(guī)則兩種方法。基于語義的方法主要是借助外部知識庫獲取短文本中的語義信息，該方法可以發(fā)現(xiàn)大部分詞之間存在的語義關系，但是對庫中不存在的詞則不起作用；基于規(guī)則的方法是利用各類詞語之間相關聯(lián)的規(guī)則進行分類，比如基于搜索引擎的方法，利用搜索引擎的查詢結果對短文本進行擴展，該方法對搜索質量要求較高，且比較耗時，影響短文本分類的實時性。針對短文本的分類問題，Quan[4]、宋志理[5]、王細薇等[6]都從不同方面對短文本分類方法進行了研究。經(jīng)過對已有各種方法的研究比較，本文使用LDA模型對短文本特征進行擴展，以克服其特征稀疏的缺點，具有良好的分類效果。

1相關技術

1.1向量空間模型

向量空間模型（Vector Space Model，VSM）[7]由Saltor等提出，是當前最常用的文本表示模型。該模型將文檔d看作向量空間中的一個n維向量，形如：

d=（（t1，w1），（t2，w2），…，（tn，wn））

其中t1，t2，…，tn表示文本的n個特征項；w1，w2，…，wn表示這n個特征項的權重值，一般使用詞頻-逆文檔頻率（TF-IDF）進行計算：

wn=tf×lnMdf（1）

其中tf表示某個特征在一篇文本中出現(xiàn)的次數(shù)，M表示文檔總數(shù)，df表示包含該特征詞的文檔總數(shù)。

1.2信息增益

信息增益[8]主要是衡量某個特征為分類系統(tǒng)帶來的信息量，信息越多，該特征越重要。信息增益采用信息熵作為衡量信息量的準則，對于某個特征，系統(tǒng)包含它和不包含它時的信息量差就是它帶給系統(tǒng)的價值，也即增益，計算公式如下：

IG（t）=Entropy（S）-Expected.Entropy（st）=-∑mi=1p（ci）logp（ci）+p（t）∑mi=1P（ci|t）logp（ci|t）+

p（t-）∑mi=1p（ci|t-）logp（ci|t-）（2）

其中，m代表文檔類別數(shù)，p（ci）代表ci類中包含的文檔數(shù)占總文檔數(shù)的概率，p（t）代表包含特征t的文檔數(shù)占總文檔數(shù)的概率，p（ci|t）代表文檔中出現(xiàn)特征t時屬于ci類的概率，t-代表t不出現(xiàn)。

1.3LDA主題模型

隱含狄利克雷分布（Laten Dirichlet Allocation，LDA）[9]由Blei等于2003年提出，是一種主題生成模型，也是一個三層Bayes概率模型。LDA模型如圖1所示。該模型引入兩個超參數(shù)α、β，使“文檔—主題”和“主題—詞”分別服從θ和φ的多項分布，而θ和φ又是由α和β兩個參數(shù)從Dirichlet先驗分布中采樣得到的。模型各參數(shù)符號含義如表1所示。

成過程如下：

（1）輸入一個文檔集W。

（2）對于文檔m，首先選擇 Nm，Nm服從Poisson（ζ）分布。

（3）對文檔集中的每個文檔按概率生成“文檔—主題”分布θ。

（4）對每個主題按概率生成“主題—詞”分布φ。

（5）對某文檔m中詞項w的生成過程為：①從文檔m的θ分布中選擇一個主題z；②從主題z的φ分布中選擇一個詞項w。

不斷重復上述過程完成M篇文檔的生成。該過程的圖形描述如圖1所示，根據(jù)LDA的圖模型，可以寫出所有變量的聯(lián)合分布：

P（wm→，zm→，m→，Φ|α→，β→）=∏Nmn=1p（wm，n|φ→zm，n）p（zm，n|→m）·p（→m|α→）·p（Φ|β→）（3）

通過對→m和Φ積分以及zm，n求和，可以求得wm，n→的分布：

p（→m|α→）·p（Φ|β→）·∏Nmn=1p（wm，n|→m，Φ）dΦd→m（4）

整個文檔集W的分布為：

p（W|α→，β→）=∏Mm=1p（wm→|α→，β→）（5）

1.4Gibbs抽樣

直接估計LDA的參數(shù)十分困難，為此，解決方案是使用近似估計方法，如最大期望算法（EM）和Gibbs抽樣。Gibbs抽樣[10]是MCMC算法的一種，由于其運行速度快、容易理解且易于實現(xiàn)，本文用它對LDA主題進行估計。其推斷主題概率公式如下：

p（zi=k|zi→，wi→）=n（t）k，i+βt∑Vt=1n（t）k，i+βt·n（t）k，i+αk∑Kk=1n（k）m+αk-1（6）

其中n（t）k，i表示第k個詞被歸結到第t個主題的次數(shù)?！芕t=1n（t）k，i表示第k個主題中包含的詞語個數(shù)，∑Kk=1n（k）m表示第m個文檔中的詞語個數(shù)，以上參數(shù)均是除了zi=k的這次迭代。

Gibbs抽樣算法的過程如下：①初始時為每個文檔的每個詞項隨機選擇一個主題zi；②統(tǒng)計每個主題zi下每個詞wi的主題概率p（zi|zi→，wi→）；③循環(huán)迭代第二步，直到發(fā)現(xiàn)“文檔—主題”分布θ和“主題—詞”分布φ收斂時，停止迭代，得到待估計的參數(shù)θ和φ，同時也得到每個詞對應的主題zmn。

θ和φ的推導公式如下：

φk，t=n（t）k+βt∑Vt=1n（t）k+βt（7）

m，k=n（k）m+αk∑Kk=1n（k）m+αk（8）

2基于LDA特征擴展的短文本分類

2.1分類框架

由于短文本長度短，包含信息量少，過濾掉停用詞后剩下的信息更加稀少，使用VSM模型表示文本會使文檔矩陣特別稀疏。基于此，本文提出基于LDA模型的特征擴展的短文本分類方法，具體分類框架如圖2所示。

2.2文本預處理

文本預處理是文本分類的基礎，包括中文分詞和去停用詞，本文選用結巴分詞工具進行分詞，分詞完畢后去停用詞，包括語氣詞、連接詞、副詞、介詞和大量重復出現(xiàn)的詞等，根據(jù)文檔集文本的特點生成一個停用詞表。最終每個短文本都是由兩個字或兩個字以上的詞組成。

2.3特征選擇

在進行文本表示之前，首先進行特征選擇。將預處理后的文本構建一個詞典，詞典信息包括詞的信息、詞出現(xiàn)的總次數(shù)、每一類中出現(xiàn)的次數(shù)。再利用公式（2）計算出每個詞的增益，然后降序排列，選擇前k個詞作為該類的特征詞。對訓練集里的每個類都作同樣處理，最后把這8個類的特征詞進行合并，形成一個特征詞典并且進行唯一編號。對于測試集的數(shù)據(jù)處理方法相同，只是依然將訓練集得到的特征詞典中的詞作為測試集特征。

2.4文本表示

文本表示是指將短文本信息表示成計算機可以識別的形式，使用VSM將訓練集數(shù)據(jù)向量化。最后使用LIBSVM工具進行文本分類，文檔轉換的數(shù)據(jù)格式為（lable 1：value 2：value…），lable為類別標識，1、2為特征詞序號即特征詞典編號，value為特征詞的特征值即tfidf值，利用公式（1）進行計算。對于測試集數(shù)據(jù)，經(jīng)過文本預處理后，對比短文本中是否包含特征詞典中的詞，若包含，則計算該特征的特征值。介于短文本的特征稀疏性，特征向量矩陣特別稀疏，無法直接利用SVM進行分類，所以進行特征擴展。

2.5特征擴展

由于短文本的特征稀疏性，本文基于LDA主題模型進行短文本特征擴展。具體過程為：首先使用訓練集數(shù)據(jù)訓練LDA模型，得到“主題—詞”分布矩陣；然后用訓練好的LDA模型預測測試集文檔的主題，得到“文檔—主題”分布矩陣；將概率最大主題下的詞語擴展到短文本初始特征中，并把該主題中詞的概率值設為特征值，從而形成新的特征向量。因為LDA生成一篇文檔的過程中，文檔以一定概率選擇某一主題，并且從選擇的主題中以一定概率選擇某個詞語，所以這些詞及其概率可以很好地表示文檔特征。LDA特征擴展具體步驟如下：①輸入訓練集語料庫；②得到“文檔—主題”分布矩陣；③預測測試集文檔主題，選擇文檔對應概率最大的主題；④查詢主題下所對應的詞；⑤比較需要添加的詞和原始特征詞，若存在，則無需添加，否則將相應的詞和概率值擴充到原始特征向量右邊。

3實驗結果與分析

3.1實驗環(huán)境與語料庫

實驗環(huán)境操作系統(tǒng)為Windows 8.1，開發(fā)工具為MyEclipse，使用JGibbLDA開發(fā)包，進行LDA模型的訓練和預測。本文數(shù)據(jù)來源于搜狗實驗室提供的新聞數(shù)據(jù)，共分為8類，包括財經(jīng)、軍事、科技、旅游、體育、醫(yī)療、招聘、教育。從各類中選取1 000個文本，共8 000個文本作為訓練集數(shù)據(jù)；篩選了各類500個短文本，共4 000個短文本作為測試集數(shù)據(jù)。

3.2分類器

構造分類器使用的算法是支持向量機，SVM在文本分類中表現(xiàn)出良好的分類效果。開發(fā)包選用臺灣林智仁教授開發(fā)的LIBSVM工具包。 LIBSVM是一套基于支持向量機的庫，該工具包運算速度快，并且是開源的，易于擴展，適用于模式識別和回歸分析。

3.3實驗評估

本文采用傳統(tǒng)的文本分類評估方法，利用查準率Pr和查全率Re以及兩者的綜合評價指標F1值：

F1=2×Pr×RePr+Re（9）

3.4實驗結果

經(jīng)過文本預處理后，使用信息增益計算出每類詞語的增益值，選擇每一類的前500個詞作為特征，然后合并為特征詞典，并且把訓練集和測試集的短文本轉換為向量空間模型。為了確定LDA主題數(shù)，采用Gibbs抽樣算法進行主題抽取。將LDA的主題數(shù)設置在10～100之間（間隔為10），通過實驗發(fā)現(xiàn)，隨著主題數(shù)增加，效果越來越好，但在主題數(shù)50之后效果提升不是很明顯。所以最終選取主題數(shù)T=50。根據(jù)經(jīng)驗值設定超參數(shù)α=50/T，β=0.01。設置每個主題下的主題詞為100個，循環(huán)迭代次數(shù)為1 000次。實驗結果如表2所示。

從表2的實驗結果可以看出，本文所采用的VSM+LDA+SVM分類方法優(yōu)于直接采用VSM+SVM方法，在各個類上無論是查準率還是查全率都有很大提高。由于體育類、軍事類的特征詞比較明顯，所以分類準確率較高。實驗結果F1值對比如圖3所示。

如圖3所示，VSM+LDA+SVM方法的F1值也高于VSM+SVM方法，充分驗證了本文利用LDA模型進行特征擴展的短文本分類方法是有效、可行的。

4結語

短文本分類是文本分類中的重要研究方向之一，應用領域也比較廣泛，尤其在輿情分析、搜索引擎領域發(fā)揮著重要作用。針對短文本數(shù)據(jù)的特點，本文從短文本分類的文本表示方面著手，基于LDA主題模型對原始短文本進行特征擴展，豐富了短文本的語義信息，解決了短文本數(shù)據(jù)長度短、信息弱的問題，從而克服了采用傳統(tǒng)向量空間模型（VSM）表示短文本特征稀疏的問題。通過對實驗結果的分析，在各個類別上的查準率Pr、查全率Re和F1值都有所提高，驗證了本文方法在短文本分類中是有效可行的。

參考文獻參考文獻：

[1]李太白.短文本分類中特征選擇算法的研究[D].重慶：重慶師范大學，2013.

[2]PARK E K， RA D Y， JANG M G. Techniques for improving web retrieval effectiveness[J]. Information Processing & Management， 2005，41（5）：12071223.

[3]張虹.短文本分類技術研究[D].大連：遼寧師范大學，2015.

[4]QUAN X，LIU G，LU Z，et al.Short text similarity based on probabilistic topics[J].Knowledge and Information Systems，2010，25（3）：473491.

[5]姚全珠，宋志理，彭程.基于LDA模型的文本分類研究[J].計算機工程與應用，2011（13）：150153.

[6]王細薇，樊興華，趙軍.一種基于特征擴展的中文短文本分類方法[J].計算機應用，2009（3）：843845.

[7]SALTON G，WONG A，YANG C S.A vector space model for automatic indexing[J].Communications of the ACM，1975，18（11）：613620.

[8]徐燕，李錦濤，王斌，等.文本分類中特征選擇的約束研究[J].計算機研究與發(fā)展，2008（4）：596602.

[9]BLEI D M，NG A Y，JORDAN M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research，2003，3（3）：9931022.

[10]QIU Z， WU B， WANG B， et al.Collapsed Gibbs sampling for latent dirichlet allocation on spark [J] . Journal Machine Learning Research， 2014，36：1728.

責任編輯（責任編輯：黃?。?