999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2fea模型的文本建模方法

2016-02-23 07:53:15韓立新夏建華
計算機技術與發展 2016年2期
關鍵詞:分類文本方法

衛 華,韓立新,夏建華

(河海大學 計算機與信息學院,江蘇 南京 211100)

基于Word2fea模型的文本建模方法

衛 華,韓立新,夏建華

(河海大學 計算機與信息學院,江蘇 南京 211100)

文本聚類在數據挖掘和機器學習中發揮著重要作用,該技術經過多年的發展,已產生了一系列的理論成果。傳統向量空間模型的文本建模方法存在維度高、數據稀疏和缺乏語義信息等問題,然而僅僅引入詞典的文本建模部分解決了語義問題卻又受限于人工詞典詞量少、人工耗力大等多種問題。文中借鑒主題模型的思想,提出一種以word2vec算法得到詞向量為基礎,詞聚類的類別為主題,結合文本中主題的頻率、分布范圍、位置因子等特征以獲得文本在類別空間上的特征向量,完成文本建模的方法word2fea。將其與兩種文本建模方法VSM和word2vec_base進行比較,實驗結果表明該方法能夠明顯提高文本分類準確率。

word2vec;文本建模;文本分類;word2fea

0 引 言

隨著互聯網信息的飛速增長,計算機信息處理已然進入大數據時代。文本形式是互聯網信息呈現的主要方式,而對互聯網信息的挖掘主要涉及兩方面的問題:一是文本信息的挖掘,二是文本信息的組織。可見,文本挖掘是進行文本信息融合的前提與基礎。

文本建模是文本挖掘的基石,在文本聚類,分類,信息檢索,自動問答系統,自動摘要等場景中均有著重要的地位。其中最流行的是基于向量空間模型(VSM)[1],但是存在中文詞維數大,稀疏度高,同義詞、多義詞等語義問題。基于詞項語義來考察文本相似度的方法利用外部詞典,如知網、同義詞詞林等[2-3],雖然解決了部分語義問題,但又存在詞典詞數小、詞典構建困難等問題。在主題模型LSI、PLSI和LDA等[4-6]提出以后,以其可以發現潛在主題等優勢,被廣泛地用于文本主題挖掘[7-9],彌補了前兩種問題的不足。然而這三種模型均需要大量訓練樣本學習,訓練難度大并且非常耗時,學習到的隱含主題有噪聲。基于word2vec模型和tf-idf進行文本建模[10],在文本分類中,對效率和準確率都有所提升,但是未考慮文本結構特性。

文中通過主題模型對文本進行建模,首先通過word2vec對詞向量進行聚類的主題分布,利用文本的上下文統計信息,有效降低文本向量維度,同時解決同義詞、多義詞以及錯別字問題。其次,針對文本結構特性,以主題的頻率、分布范圍、位置等因素對主題進行特征提取并進行建模,命名為word2fea算法。在復旦中文語料庫進行測試,結果表明在文本分類效果上有所提高。

1 word2fea算法對文本建模

1.1 神經網絡語言模型

神經網絡語言模型(Neural Network Language Model)由Bengio于2003年提出[11],利用神經網絡訓練語言模型的思想最早由徐偉提出[12],使用一個三層神經網絡來構建語言模型,并且假設這種語言遵循n-gram語言模型。該模型采用的是詞向量(DistributedRepresentation),即將每個英文單詞表示成一個浮點向量,模型見圖1。

圖1 神經網絡語言模型結構示意圖

目標是要學到的n-gram模型如式(1):

(1)

需要滿足的約束如公式(2)、(3):

(2)

(3)

(4)

最后使用隨機梯度下降法將模型優化。優化結束之后,訓練得到詞向量,進而得到語言模型。Softmax模型使得概率取值為(0,1),因此不會出現概率為0的情況,也就是自帶平滑,無需傳統n-gram模型中那些復雜的平滑算法。實驗也表明神經網絡語言模型比帶有平滑算法的n-gram模型的算法效果要好。

word2vec是Google開源的用于計算詞向量的工具,主要有模型CBOW(ContinuousBag-Of-Wordsmodel)和Skip-gram(continuousSkip-grammodel)兩種[13],基本思想來自于神經網絡語言模型。word2vec通過對大批文本進行訓練,將文本中的詞轉化為N維向量空間中的詞向量,而向量空間上的相似度可以用來計算詞或文本等語義上的相似度。因此,word2vec輸出的詞向量可以被用來做很多與自然語言處理相關的工作,比如聚類、找同義詞、自動翻譯等等。

1.2 Skip-gram模型

Skip-gram模型的網絡結構見圖2,包括三部分:輸入層、投影層、輸出層。

圖2 Skip-gram模型結構示意圖

輸入層:只含當前樣本的中心詞w的詞向量V(w)。

投影層:恒等投影,把V(w)投影到V(w)。

輸出層:對應一棵哈夫曼樹,以語料中的詞作為葉子節點,每個詞在語料中出現的次數作為權值構造的哈夫曼樹,在這個哈夫曼樹中,葉子節點數對應這詞典中的詞數。

1.3 word2fea文本建模方法

word2fea的文本建模方法主要包含4部分:預處理、主題聚類、文本主題特征計算、文本向量化。其流程如圖3所示。

圖3 word2fea文本建模算法流程圖

首先對文本庫進行預處理,主要包括中文分詞、去除停用詞等,分詞系統使用中科院的ICTCLAS[14],并將另存處理后的文本庫以一篇文檔的形式用于word2vec工具訓練詞向量。

在主題聚類中,采用word2vec中的Skip-gram對本文進行詞向量訓練,將訓練后的詞向量使用K-means進行聚類,聚類數K即為主題數,K的取值范圍為50~400,間隔為50。經過聚類后的詞袋即代表不同的主題。

最后對每篇文檔進行主題特征計算,將文本的主題特征轉化為文本向量。使用LibSVM[15]作為分類器,對語料庫進行訓練,并預測分類準確率。

1.4 文本主題特征計算

對于主題權重的定義,唐曉麗等[10]統計每個詞所屬的類別,對同一類別下所有特征詞的tf-idf值求和并進行歸一化。文中在tf-idf之外,綜合考慮文本中不同主題出現的頻率、范圍和位置等特征,主要從3個方面對主題權重進行定義:

Dt,d=loct,d+fret,d+scat,d

(5)

(1)主題詞語在文本出現的頻率。頻率越大表明該主題對該文本貢獻越大。定義式(6):

(6)

其中,Nt為主題t的頻次;Nd為文檔d的頻次。

(2)主題詞語出現的范圍。若該主題詞語在某一類中頻繁出現,則認為它在此類文本中價值較大,即該主題詞語在此類中出現頻率不僅高且范圍較小。定義式(7):

(7)

其中,St為主題t在語料庫中所有出現的類別數;Sd為語料庫中總的類別數。

(3)主題詞語位置因子。主題詞語在文本出現的位置不同貢獻也有所不同,出現在段首和段尾中的主題詞語要比在內容中的貢獻大。定義式(8):

(8)

其中,段首的權重最高為0.5,段尾為0.3,段中為0.2。

1.5 文本向量化

將詞向量聚類為主題后,并通過1.4為每篇文檔進行主題特征計算,將每篇文檔主題分布的特征轉化為向量的形式如式(9):

(9)

其中,Doci為第i篇文檔的向量表示形式;Dti,i為第i篇文檔中主題i的權重,其中共有n個主題。

2 實驗設計與分析

2.1 數據集與度量標準

文中在中文語料上進行了實驗,采用復旦中文語料庫,挑選其中10個類別,分別是“環境”“交通”“計算機”“教育”“經濟”“軍事”“體育”“醫藥”“藝術”“政治”,每個類別挑選200篇文本作為語料集,每個類均按照4:1的比例劃分,80%作為訓練集,20%作為測試集。實驗采用SVM分類器對訓練集進行訓練,用測試集驗證最終分類結果,實驗采用分類準確率P作為最終的評測指標。

2.2 實驗結果分析

從圖4中可知,當主題數選擇300時,準確率達到最高值。選擇最優主題數之后就得到基于word2fea模型進行文本建模的分類結果。從圖5中可以看出,文中方法比基于VSM和word2vec_base的分類準確率有明顯提升。

圖4 不同主題數K下的分類結果

圖5 VSM,word2vec_base與word2fea對比結果圖

3 結束語

文中將word2vec模型應用到文本建模中。利用了word2vec模型的詞向量高效性,加入了文本的深層語義知識,從而使分類更加精準。利用隱主題映射文本主題空間,在文本主題特征計算中,綜合考慮文本主題頻次、范圍以及位置因子,提高了分類效果。實驗結果表明,文中所采用的方法是一種能夠有效提高文本分類準確率的方法。

由于word2vec非常容易擴展,后續研究將在word2vec模型的基礎上繼續探討文本建模方法以及基于其上的文本挖掘,如文本分類、相似項挖掘等。

[1]SaltonG,OthersA.Avectorspacemodelforautomaticinde-xing[J].Communications of the ACM,1975,18(10):613-620.

[2] 李 峰,李 芳.中文詞語語義相似度計算-基于《知網》2000[J].中文信息學報,2007,21(3):99-105.

[3] 梅家駒,竺一鳴,高蘊琦,等.編纂漢語類義詞典的嘗試-《同義詞詞林》簡介[J].辭書研究,1983(1):133-138.

[4] Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JASIS,1990,41(6):391-407.

[5] Hofmann T.Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on research and development in information retrieval.[s.l.]:ACM,1999:50-57.

[6] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[7] 張志飛,苗奪謙,高 燦.基于LDA主題模型的短文本分類方法[J].計算機應用,2013,33(6):1587-1590.

[8] 王振振,何 明,杜永萍.基于LDA主題模型的文本相似度計算[J].計算機科學,2013,40(12):229-232.

[9] 孫昌年.基于主題模型的文本相似度計算研究與實現[D].合肥:安徽大學,2012.

[10] 唐曉麗,白 宇,張桂平,等.一種面向聚類的文本建模方法[J].山西大學學報:自然科學版,2014,37(4):595-600.

[11] Bengio Y,Schwenk H,Senécal Jean-Sébastien,et al.Neural probabilistic language models[J].Studies in Fuzziness & Soft Computing,2006,16(3):137-186.

[12] Xu W,Rudnicky A.Can artificial neural network learn language models?[C]//Proc of international conference on statistical language processing.Beijing,China:[s.n.],2000.

[13] Mikolov T.Statistical language models based on neural networks[D].Brno:Brno University of Technology,2012.

[14] 劉 群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展,2004,41(8):1421-1429.

[15] Chang C C,Lin Chih-Jen.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems & Technology,2001,2(3):389-396.

Text Modeling Method Based on Word2fea Model

WEI Hua,HAN Li-xin,XIA Jian-hua

(College of Computer and Information,Hohai University,Nanjing 211100,China)

Text classification plays an important role in data mining and machine learning,which has produced a series of theory after years of development.The traditional text modeling method of vector space model has the problems of high dimension,sparse data,and the lack of semantic.However,the text modeling introduced the artificial dictionary is constrained by quantity of words,artificial power consumption and other problems.By referencing the idea of topic model,a text modeling method word2fea was presented which based on the model of word2vec for the topic clusters with the word vectors,meanwhile combined with the frequency,distribution and location of the topic on documents to obtain the feature of the text.Compared with two text modeling methods,VSM and word2vec_base,the experimental results show that this method can significantly improve the accuracy of text classification.

word2vec;text modeling;text classification;word2fea

2015-04-24

2015-07-28

時間:2016-01-04

中央高校基本科研業務費專項資金(2014B33014)

衛 華(1991-),男,碩士研究生,研究方向為信息檢索、數據挖掘;韓立新,教授,博士生導師,研究方向為信息檢索、模式識別、數據挖掘。

http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1505.040.html

TP301

A

1673-629X(2016)02-0165-03

10.3969/j.issn.1673-629X.2016.02.037

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产在线观看一区二区三区| 久久频这里精品99香蕉久网址| 一级毛片免费高清视频| 国产亚洲精| 国产成熟女人性满足视频| 日韩第九页| 久久成人国产精品免费软件| 女人天堂av免费| 亚洲另类第一页| 久久人体视频| 伊人91在线| 多人乱p欧美在线观看| 亚洲伊人久久精品影院| 国产老女人精品免费视频| 91久久偷偷做嫩草影院电| 亚洲无码视频喷水| 亚洲av无码久久无遮挡| 极品性荡少妇一区二区色欲| 日韩午夜伦| 国产迷奸在线看| 日韩免费成人| 国产免费久久精品99re不卡| 日韩久久精品无码aV| 久久久精品久久久久三级| 日本伊人色综合网| 日韩在线影院| 91福利一区二区三区| 毛片一区二区在线看| 欧美日韩北条麻妃一区二区| 重口调教一区二区视频| 久久久久亚洲AV成人网站软件| 日韩天堂网| 又爽又大又光又色的午夜视频| 欧美亚洲国产日韩电影在线| 在线免费观看AV| 在线观看精品自拍视频| 国产自无码视频在线观看| 亚洲色欲色欲www在线观看| 99热最新网址| 97久久超碰极品视觉盛宴| 国产在线一区视频| 亚洲av日韩综合一区尤物| 国产精品女人呻吟在线观看| 国产正在播放| 欧美日本激情| 成人精品区| 国产黄色免费看| a在线亚洲男人的天堂试看| 婷婷色丁香综合激情| 亚洲精选无码久久久| 国产丝袜无码精品| 国产jizz| 亚洲高清国产拍精品26u| 国产成人三级| 国产精品自在在线午夜| 免费又黄又爽又猛大片午夜| 日韩欧美亚洲国产成人综合| 欧美国产在线看| 无码区日韩专区免费系列| 国产一区二区三区夜色| 国产精品视频第一专区| 国产成人精品18| 99热这里只有精品5| 国产午夜在线观看视频| 性视频一区| 国产亚洲精品自在线| 久久频这里精品99香蕉久网址| 日韩性网站| 成年人国产网站| 久久成人免费| 伊人色婷婷| 亚洲最大福利视频网| 亚洲成aⅴ人在线观看| 全部免费毛片免费播放| 欧美一级夜夜爽www| 久久精品这里只有国产中文精品| 人妻无码中文字幕第一区| 波多野结衣亚洲一区| 日韩毛片基地| 久久久久青草大香线综合精品| 亚洲综合在线最大成人| 福利片91|