基于Word2fea模型的文本建模方法

2016-02-23 07:53:15韓立新夏建華

計算機技術與發展 2016年2期

關鍵詞：分類文本方法

衛華，韓立新，夏建華

(河海大學計算機與信息學院，江蘇南京 211100)

基于Word2fea模型的文本建模方法

衛華，韓立新，夏建華

(河海大學計算機與信息學院，江蘇南京 211100)

文本聚類在數據挖掘和機器學習中發揮著重要作用，該技術經過多年的發展，已產生了一系列的理論成果。傳統向量空間模型的文本建模方法存在維度高、數據稀疏和缺乏語義信息等問題，然而僅僅引入詞典的文本建模部分解決了語義問題卻又受限于人工詞典詞量少、人工耗力大等多種問題。文中借鑒主題模型的思想，提出一種以word2vec算法得到詞向量為基礎，詞聚類的類別為主題，結合文本中主題的頻率、分布范圍、位置因子等特征以獲得文本在類別空間上的特征向量，完成文本建模的方法word2fea。將其與兩種文本建模方法VSM和word2vec_base進行比較，實驗結果表明該方法能夠明顯提高文本分類準確率。

word2vec；文本建模；文本分類；word2fea

0 引言

隨著互聯網信息的飛速增長，計算機信息處理已然進入大數據時代。文本形式是互聯網信息呈現的主要方式，而對互聯網信息的挖掘主要涉及兩方面的問題：一是文本信息的挖掘，二是文本信息的組織。可見，文本挖掘是進行文本信息融合的前提與基礎。

文本建模是文本挖掘的基石，在文本聚類，分類，信息檢索，自動問答系統，自動摘要等場景中均有著重要的地位。其中最流行的是基于向量空間模型(VSM)[1]，但是存在中文詞維數大，稀疏度高，同義詞、多義詞等語義問題。基于詞項語義來考察文本相似度的方法利用外部詞典，如知網、同義詞詞林等[2-3]，雖然解決了部分語義問題，但又存在詞典詞數小、詞典構建困難等問題。在主題模型LSI、PLSI和LDA等[4-6]提出以后，以其可以發現潛在主題等優勢，被廣泛地用于文本主題挖掘[7-9]，彌補了前兩種問題的不足。然而這三種模型均需要大量訓練樣本學習，訓練難度大并且非常耗時，學習到的隱含主題有噪聲。基于word2vec模型和tf-idf進行文本建模[10]，在文本分類中，對效率和準確率都有所提升，但是未考慮文本結構特性。

文中通過主題模型對文本進行建模，首先通過word2vec對詞向量進行聚類的主題分布，利用文本的上下文統計信息，有效降低文本向量維度，同時解決同義詞、多義詞以及錯別字問題。其次，針對文本結構特性，以主題的頻率、分布范圍、位置等因素對主題進行特征提取并進行建模,命名為word2fea算法。在復旦中文語料庫進行測試，結果表明在文本分類效果上有所提高。

1 word2fea算法對文本建模

1.1 神經網絡語言模型

神經網絡語言模型(Neural Network Language Model)由Bengio于2003年提出[11]，利用神經網絡訓練語言模型的思想最早由徐偉提出[12],使用一個三層神經網絡來構建語言模型，并且假設這種語言遵循n-gram語言模型。該模型采用的是詞向量(DistributedRepresentation)，即將每個英文單詞表示成一個浮點向量，模型見圖1。

圖1 神經網絡語言模型結構示意圖

目標是要學到的n-gram模型如式(1)：

(1)

需要滿足的約束如公式(2)、(3)：

(2)

(3)

(4)

最后使用隨機梯度下降法將模型優化。優化結束之后，訓練得到詞向量，進而得到語言模型。Softmax模型使得概率取值為(0,1)，因此不會出現概率為0的情況，也就是自帶平滑，無需傳統n-gram模型中那些復雜的平滑算法。實驗也表明神經網絡語言模型比帶有平滑算法的n-gram模型的算法效果要好。

word2vec是Google開源的用于計算詞向量的工具，主要有模型CBOW(ContinuousBag-Of-Wordsmodel)和Skip-gram(continuousSkip-grammodel)兩種[13]，基本思想來自于神經網絡語言模型。word2vec通過對大批文本進行訓練，將文本中的詞轉化為N維向量空間中的詞向量，而向量空間上的相似度可以用來計算詞或文本等語義上的相似度。因此，word2vec輸出的詞向量可以被用來做很多與自然語言處理相關的工作，比如聚類、找同義詞、自動翻譯等等。

1.2 Skip-gram模型

Skip-gram模型的網絡結構見圖2，包括三部分：輸入層、投影層、輸出層。

圖2 Skip-gram模型結構示意圖

輸入層：只含當前樣本的中心詞w的詞向量V(w)。

投影層：恒等投影，把V(w)投影到V(w)。

輸出層：對應一棵哈夫曼樹，以語料中的詞作為葉子節點，每個詞在語料中出現的次數作為權值構造的哈夫曼樹，在這個哈夫曼樹中，葉子節點數對應這詞典中的詞數。

1.3 word2fea文本建模方法

word2fea的文本建模方法主要包含4部分：預處理、主題聚類、文本主題特征計算、文本向量化。其流程如圖3所示。

圖3 word2fea文本建模算法流程圖

首先對文本庫進行預處理，主要包括中文分詞、去除停用詞等，分詞系統使用中科院的ICTCLAS[14]，并將另存處理后的文本庫以一篇文檔的形式用于word2vec工具訓練詞向量。

在主題聚類中，采用word2vec中的Skip-gram對本文進行詞向量訓練，將訓練后的詞向量使用K-means進行聚類，聚類數K即為主題數，K的取值范圍為50～400，間隔為50。經過聚類后的詞袋即代表不同的主題。

最后對每篇文檔進行主題特征計算，將文本的主題特征轉化為文本向量。使用LibSVM[15]作為分類器，對語料庫進行訓練，并預測分類準確率。

1.4 文本主題特征計算

對于主題權重的定義，唐曉麗等[10]統計每個詞所屬的類別，對同一類別下所有特征詞的tf-idf值求和并進行歸一化。文中在tf-idf之外，綜合考慮文本中不同主題出現的頻率、范圍和位置等特征，主要從3個方面對主題權重進行定義：

Dt,d=loct,d+fret,d+scat,d

(5)

(1)主題詞語在文本出現的頻率。頻率越大表明該主題對該文本貢獻越大。定義式(6)：

(6)

其中，Nt為主題t的頻次；Nd為文檔d的頻次。

(2)主題詞語出現的范圍。若該主題詞語在某一類中頻繁出現，則認為它在此類文本中價值較大，即該主題詞語在此類中出現頻率不僅高且范圍較小。定義式(7)：

(7)

其中，St為主題t在語料庫中所有出現的類別數；Sd為語料庫中總的類別數。

(3)主題詞語位置因子。主題詞語在文本出現的位置不同貢獻也有所不同，出現在段首和段尾中的主題詞語要比在內容中的貢獻大。定義式(8)：

(8)

其中，段首的權重最高為0.5，段尾為0.3，段中為0.2。

1.5 文本向量化

將詞向量聚類為主題后，并通過1.4為每篇文檔進行主題特征計算，將每篇文檔主題分布的特征轉化為向量的形式如式(9):

(9)

其中，Doci為第i篇文檔的向量表示形式；Dti,i為第i篇文檔中主題i的權重，其中共有n個主題。

2 實驗設計與分析

2.1 數據集與度量標準

文中在中文語料上進行了實驗，采用復旦中文語料庫，挑選其中10個類別，分別是“環境”“交通”“計算機”“教育”“經濟”“軍事”“體育”“醫藥”“藝術”“政治”，每個類別挑選200篇文本作為語料集，每個類均按照4:1的比例劃分，80%作為訓練集，20%作為測試集。實驗采用SVM分類器對訓練集進行訓練，用測試集驗證最終分類結果，實驗采用分類準確率P作為最終的評測指標。

2.2 實驗結果分析

從圖4中可知，當主題數選擇300時，準確率達到最高值。選擇最優主題數之后就得到基于word2fea模型進行文本建模的分類結果。從圖5中可以看出，文中方法比基于VSM和word2vec_base的分類準確率有明顯提升。

圖4 不同主題數K下的分類結果

圖5 VSM,word2vec_base與word2fea對比結果圖

3 結束語

文中將word2vec模型應用到文本建模中。利用了word2vec模型的詞向量高效性，加入了文本的深層語義知識，從而使分類更加精準。利用隱主題映射文本主題空間，在文本主題特征計算中，綜合考慮文本主題頻次、范圍以及位置因子，提高了分類效果。實驗結果表明，文中所采用的方法是一種能夠有效提高文本分類準確率的方法。

由于word2vec非常容易擴展，后續研究將在word2vec模型的基礎上繼續探討文本建模方法以及基于其上的文本挖掘，如文本分類、相似項挖掘等。

[1]SaltonG,OthersA.Avectorspacemodelforautomaticinde-xing[J].Communications of the ACM,1975,18(10):613-620.

[2] 李峰,李芳.中文詞語語義相似度計算-基于《知網》2000[J].中文信息學報,2007,21(3):99-105.

[3] 梅家駒,竺一鳴,高蘊琦,等.編纂漢語類義詞典的嘗試-《同義詞詞林》簡介[J].辭書研究,1983(1):133-138.

[4] Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JASIS,1990,41(6):391-407.

[5] Hofmann T.Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on research and development in information retrieval.[s.l.]:ACM,1999:50-57.

[6] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[7] 張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計算機應用,2013,33(6):1587-1590.

[8] 王振振,何明,杜永萍.基于LDA主題模型的文本相似度計算[J].計算機科學,2013,40(12):229-232.

[9] 孫昌年.基于主題模型的文本相似度計算研究與實現[D].合肥:安徽大學,2012.

[10] 唐曉麗,白宇,張桂平,等.一種面向聚類的文本建模方法[J].山西大學學報：自然科學版,2014,37(4):595-600.

[11] Bengio Y,Schwenk H,Senécal Jean-Sébastien,et al.Neural probabilistic language models[J].Studies in Fuzziness & Soft Computing,2006,16(3):137-186.

[12] Xu W,Rudnicky A.Can artificial neural network learn language models?[C]//Proc of international conference on statistical language processing.Beijing,China:[s.n.],2000.

[13] Mikolov T.Statistical language models based on neural networks[D].Brno:Brno University of Technology,2012.

[14] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展,2004,41(8):1421-1429.

[15] Chang C C,Lin Chih-Jen.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems & Technology,2001,2(3):389-396.

Text Modeling Method Based on Word2fea Model

WEI Hua,HAN Li-xin,XIA Jian-hua

(College of Computer and Information,Hohai University,Nanjing 211100,China)

Text classification plays an important role in data mining and machine learning,which has produced a series of theory after years of development.The traditional text modeling method of vector space model has the problems of high dimension,sparse data,and the lack of semantic.However,the text modeling introduced the artificial dictionary is constrained by quantity of words,artificial power consumption and other problems.By referencing the idea of topic model,a text modeling method word2fea was presented which based on the model of word2vec for the topic clusters with the word vectors,meanwhile combined with the frequency,distribution and location of the topic on documents to obtain the feature of the text.Compared with two text modeling methods,VSM and word2vec_base,the experimental results show that this method can significantly improve the accuracy of text classification.

word2vec;text modeling;text classification;word2fea

2015-04-24

2015-07-28

時間：2016-01-04

中央高校基本科研業務費專項資金(2014B33014)

衛華(1991-)，男，碩士研究生，研究方向為信息檢索、數據挖掘；韓立新，教授，博士生導師，研究方向為信息檢索、模式識別、數據挖掘。

http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1505.040.html

TP301

1673-629X(2016)02-0165-03

10.3969/j.issn.1673-629X.2016.02.037

基于Word2fea模型的文本建模方法

0 引 言

1 word2fea算法對文本建模

2 實驗設計與分析

3 結束語

0 引言