999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的短文本分類研究

2016-10-21 08:40:12王海林張雅君
中國管理信息化 2016年19期
關(guān)鍵詞:分類實驗方法

王海林,張雅君

(山西財經(jīng)大學(xué) 信息管理學(xué)院,太原 030006)

基于主題模型的短文本分類研究

王海林,張雅君

(山西財經(jīng)大學(xué)信息管理學(xué)院,太原030006)

分本分類作為文本挖掘的分支,得到了廣泛的關(guān)注和迅速的發(fā)展。基于主題模型,針對短文本分類進行研究,選取LDA和BTM主題模型和SVM、Bagging和AdaBoost分類方法進行短文本分類實驗,并對實驗結(jié)果進行評價。

主題模型;短文本分類;LDA;BTM

1 引言

隨著信息技術(shù)的快速發(fā)展和網(wǎng)絡(luò)的廣泛使用,互聯(lián)網(wǎng)中產(chǎn)生的信息顯著增加。大量非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為網(wǎng)絡(luò)數(shù)據(jù)的主力軍,可以占到總數(shù)據(jù)量的90%[1],短文本更是在社交網(wǎng)站中隨處可見。主題模型作為特征選擇的一種方法,常用于文本分類中。使用不同的分類方法,對比LDA和BTM模型對于短文本特征選擇的效果。

2 主題模型

2.1主題模型思想

主題模型是一種層次結(jié)構(gòu)的模型,用概率來表示各層之間的關(guān)系,常見的有 PLSA[2]、LDA[3]和 BTM[4]等,PLSA即潛在語義分析,是最早的主題模型,它使用條件概率描述單詞和潛在類別間的關(guān)系,并使用最大期望的方法訓(xùn)練潛在類別。

2.2 LDA模型

由于PLSA模型的不完備和容易出現(xiàn)過擬合等缺陷[4],Blei等人提出了LDA模型,用概率來表示文檔集合層、文檔層和詞語層之間的關(guān)系。

在LDA模型中:

(1)每篇文檔主題詞的個數(shù)N~Possion(ξ);

(2)文檔中先驗概率θ~Dir(α);

(3)每篇文檔的第n個主題詞wn:

主題Zn~Multinomial(θ);

主題詞wn~Multinomial(wn|Zn,β)。

所以,LDA模型可以表示為:

其中P(φ|β),代表主題概率,P(w|φ)P(z|θ)代表主題詞概率,P(w|φ)P(z|θ)P(θ|φ)代表文檔概率。

參數(shù)估計:

2.3 BTM模型

BTM是另一種三層貝葉斯結(jié)構(gòu)模型,與LDA不同的是它用“詞對”來代替詞,從而克服了短文本中詞少所帶來的困難。BTM和LDA均使用Gibbs抽樣方法進行參數(shù)估計。LDA的Gibbs updating rules為:

BTM的Gibbs updating rules為:

BTM模型參數(shù)估計:

3 實驗數(shù)據(jù)及評價

3.1實驗數(shù)據(jù)及預(yù)處理

實驗數(shù)據(jù)集來源于SODA上海開放數(shù)據(jù)創(chuàng)新應(yīng)用大賽公開數(shù)據(jù),數(shù)據(jù)集名稱為網(wǎng)格化管理數(shù)據(jù),該數(shù)據(jù)集用來統(tǒng)計城市居民對于市容市貌現(xiàn)象的反映,其中描述這個屬性是對反映內(nèi)容的簡單敘述,平均字數(shù)少于100,類別是指反映現(xiàn)象所屬類別。經(jīng)過對數(shù)據(jù)的篩選,最終有988條數(shù)據(jù),類別為暴露垃圾、跨門營業(yè)和占道無證經(jīng)營。

3.2實驗環(huán)境

分詞處理:中科院中文分詞系統(tǒng)ICTCLAS;

主題模型:Windows下的 JGibbs和 Ubuntu下的 BTM-master;

文本分類:Weka中的libsvm、Bagging和AdaBoost方法。

3.3實驗及結(jié)果評價

選取 LDA和 BTM為主題模型,使用 libsvm、Bagging和 AdaBoost分類方法,將它們兩兩組合,同樣的分類方法設(shè)置相同的參數(shù),最終進行6次實驗,并對實驗結(jié)果進行評價。

以精確度 (Precision rate)、召回率 (Recall)和F值 (F-measure)為評價指標,BTM+libsvm最高,均為 0.967,LDA+ AdaBoost最低,分別為0.804、0.811和0.795。因此,對于短文本,BTM比LDA有更強的適用性,而對于分類,SVM更適合處理高維數(shù)據(jù)。

4 總結(jié)

從實驗結(jié)果可以看出,對于短文本的分類,使用BTM作為主題模型,SVM作為分類方法,得到的效果最佳。當然,由于數(shù)據(jù)集的局限性,實驗結(jié)果具有一定的片面性,未來的工作可以進一步選取多個實驗數(shù)據(jù)集,以得到更普遍的結(jié)論。

主要參考文獻

[1]Limeng Cui,F(xiàn)an Meng,Yong Shi,etal.A Hierarchy Method Based on LDA and SVM for News Classification[C]//Proceedings of the 2014 IEEE International Conference on Data MiningWorkshop,2014:60-64.

[2]THofmann.Probabilistic L atent S emantic I ndexing[C]//Annual International SIGIRConference,1999.

[3]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research.2003(3):993-1022.

[4]董文.基于LDA和Word2Vec的推薦算法研究[D].北京:北京郵電大學(xué),2015.

10.3969/j.issn.1673-0194.2016.19.098

TP311

A

1673-0194(2016)19-0174-02

2016-08-25

王海林(1962-),男,山西大同人,山西財經(jīng)大學(xué)副教授,碩士研究生導(dǎo)師,主要研究方向:數(shù)據(jù)建模、大數(shù)據(jù)、分布式系統(tǒng)、數(shù)據(jù)可視化。

猜你喜歡
分類實驗方法
記一次有趣的實驗
分類算一算
做個怪怪長實驗
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产精品手机视频一区二区| 亚洲国产91人成在线| 高清精品美女在线播放| 亚洲天天更新| 国产成人久久777777| 国内精品小视频福利网址| 午夜免费视频网站| jizz在线观看| 亚洲电影天堂在线国语对白| 国产xx在线观看| 在线观看无码av免费不卡网站| 狠狠色成人综合首页| 福利视频久久| 中文字幕日韩视频欧美一区| 久久婷婷色综合老司机| 99re热精品视频国产免费| 又猛又黄又爽无遮挡的视频网站| 一本大道AV人久久综合| 国产网友愉拍精品视频| 亚洲乱码精品久久久久..| 国产精品一区二区不卡的视频| 日韩欧美国产另类| 亚洲国产日韩视频观看| 国内精自线i品一区202| 女人18毛片久久| 18禁黄无遮挡网站| 亚洲无码视频一区二区三区| 国产极品粉嫩小泬免费看| 久久夜夜视频| 国产一区二区影院| 成人年鲁鲁在线观看视频| 精品无码人妻一区二区| 日韩资源站| 91成人在线免费观看| 久久a级片| 在线国产综合一区二区三区| 国产另类视频| 成人毛片免费观看| 男女猛烈无遮挡午夜视频| 欧美视频二区| 尤物视频一区| 色欲国产一区二区日韩欧美| 国产天天射| 欧美视频在线不卡| 精品亚洲国产成人AV| 人人妻人人澡人人爽欧美一区| 亚亚洲乱码一二三四区| 亚洲电影天堂在线国语对白| 中文天堂在线视频| 久久免费成人| 中文字幕在线永久在线视频2020| 亚洲中文精品久久久久久不卡| 午夜福利亚洲精品| 国产波多野结衣中文在线播放| 亚洲国产成人综合精品2020| 91久久国产成人免费观看| 在线中文字幕网| 成人国产小视频| 国产91特黄特色A级毛片| 亚洲欧洲综合| 日本一区中文字幕最新在线| 欧美日韩中文国产| 精品久久香蕉国产线看观看gif| 日本精品视频| 亚洲黄网在线| 久久99国产综合精品女同| 91在线日韩在线播放| 国产爽爽视频| 久久精品这里只有国产中文精品| 九色免费视频| 国产在线精品人成导航| 亚洲人成网站在线观看播放不卡| 欧美全免费aaaaaa特黄在线| 成人看片欧美一区二区| 啪啪永久免费av| 亚洲一区二区视频在线观看| 国产在线精品网址你懂的| 国产在线一区二区视频| 亚洲精品无码AV电影在线播放| 国产网友愉拍精品| 伊人久久大线影院首页| 区国产精品搜索视频|