999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的文本分類與觀點挖掘

2017-03-27 10:54:49李晨曦
電子技術與軟件工程 2017年4期
關鍵詞:機器學習

李晨曦

摘 要 得益于信息技術的飛速發(fā)展,信息的傳遞效率不斷提高,網(wǎng)絡信息數(shù)量也呈現(xiàn)爆炸性增長趨勢,這些信息大多文本的方式存在并且各種類別混雜在一起。使用人工方式對于分類并提取其中有用的觀點信息效率低下并且浪費大量的人力資源,因此通過自動分析和提取的方式發(fā)展觀點挖掘的新方法有著一定的研究意義,LDA主題模型作為無監(jiān)督機器學習模型的典型應用有著快速、高效的特點而被眾多學者廣泛研究。

【關鍵詞】LDA模型 機器學習 觀點信息

1 引言

第38次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截至2016年6月,中國網(wǎng)民規(guī)模達7.10億,互聯(lián)網(wǎng)普及率達到51.7%。互聯(lián)網(wǎng)已經(jīng)成為現(xiàn)代人生活中的必需品,借助互聯(lián)網(wǎng)的快速發(fā)展,信息的傳遞方式與效率日新月異。觀點挖掘是指通過相關技術分析文本中表達的觀點與情感極性,幫助用戶快速地獲取有用信息。當前國內外學者針對觀點挖掘進行的相關研究工作聚集在以下兩個方面:

(1)文本分類;

(2)觀點抽取。

文本分類的主要任務是判定文本描述事物特征所屬類別,觀點抽取則是提取文本特征下對應的具體觀點信息,其中根據(jù)情感的褒貶性又可以分為以下三類,正向表示情感傾向為褒義,負向表示情感傾向為貶義,而中性則表示沒有明顯的褒貶傾向。

當前觀點挖掘領域主要有三種研究方法:基于規(guī)則、基于語言學和基于機器學習。基于規(guī)則與基于語言學的方法存在著依賴語法規(guī)則與領域適用度不高等缺陷,基于機器學習的方法由于具有很強的領域適應性和跨語言性,LDA主題模型作為機器學習模型在觀點挖掘領域有著重要應用。

標準LDA模型由于采用詞袋結構,割裂了詞語的位置以及上下文的語義關系,另外LDA主題模型在進行觀點挖掘研究時通常選擇相同類別的文檔形成一個語料庫來保證觀點挖掘效果,多類別文檔混合時則必須選取其他方式進行文本分類。鑒于以上兩點,本文對標準LDA模型進行改進提出了Document classification LDA模型(DC-LDA,文本自分類LDA模型),將文本分類模塊引入后進行觀點挖掘研究。

2 模型描述

DC-LDA模型圖如圖1所示。

模型中參數(shù)列表如表1所示。

如圖1所示,LDA模型是一個三層結構,完成了文檔-主題-單詞的三層映射,通過狄利克雷分布與多項式分布為每個單詞選取一個特定的主題,同樣的本文在文檔層的基礎上添加類別這一概念,將標準LDA模型擴展為四層結構,類別-文檔-主題-單詞,以此來完成文本分類的過程,在對語料庫進行觀點挖掘,同時為了克服詞袋模型的缺陷,本文以句子為單位來采樣主題標簽,認為同一句子下的單詞隸屬于相同主題。

Document classification LDA模型的生成過程描述如下:

(1)對一個語料庫:①由先驗參數(shù)λ得到語料庫下領域分布Ω~Dir(λ);②由先驗參數(shù)β獲得每個領域下的單詞分布Φf,t~Dir(β)(其中f表示領域,取值1......F,t表示主題,取值1......T);

(2)對語料庫中每一篇文檔d:①為文檔選擇對應領域標簽,gd~Multinomial(Ω);②得出對應領域下文檔的主題分布θfd~Dir(αf);

(3)對每一篇文檔d中的第m個句子:選擇對應領域下的主題zd,m,其中zd,m~ Multinomial(θfd);

(4)對句子m中每個詞n(wd,m,n):選擇具體的單詞,wd,m,n~Multinomial(Φf,t)。

3 實驗

本實驗使用來自sougou實驗室提供的中文語料庫,使用的版本為SougouC .Mini,其包括汽車、財經(jīng)、IT、健康、體育等10個類別的相關內容,每個類別下包含1990篇文檔。

在進行實驗之前先將語料庫進行去停用詞處理,本文采用中國科學院計算技術研究所提供的漢語詞法分析系統(tǒng)ICTCLAS,其有著速度快、準確率高的特點因此在中文信息處理領域得到了廣泛應用。

本實驗以語料庫中的IT、體育、健康、教育、旅游、軍事這6個區(qū)分明顯的類別進行類別采樣分析,每個類別中選取800篇文檔作為訓練語料,再抽取200篇作為測試語料,本文對領域判別精度定義如下:

在DC-LDA模型中為每一篇文檔采樣領域標簽時本文考慮到了高詞頻的單詞對文檔所在領域的貢獻,在采樣公式中取詞頻最高的前n個單詞隨著n取值的變化領域區(qū)分的精確度也會變化,對每個n的取值進行十次重復試驗,結果如圖2所示。

語料庫觀點抽樣結果如表3所示。

參考文獻

[1]http://www.cnnic.net.cn/

[2]Pang B,Lee L.Opinion mining and sentiment analysis[J].Foundations and trends in information retrieval,2008,2(1-2):1-135.

[3]Inui T.and Okumura M.A survey of sentiment analysis[J].Journal of natural language processing,2006,13(03):201-241.

[4]Li J.Summary of product reviews opinion mining[J].Modern Computer,2013(05):11-16.

[5]孫艷,周學廣,付偉.基于主題情感混合模型的無監(jiān)督文本情感分析[J].北京大學學報:自然科學版,2013,49(01):102-108.

[6]http://www.sogou.com/labs/

作者單位

1.湖北省孝感高中 湖北省孝感市 432100

2.湖北省襄陽四中 湖北省襄陽市 441000

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網(wǎng)中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 亚洲国产精品无码AV| 第一页亚洲| 九九这里只有精品视频| 国产欧美精品专区一区二区| 国模粉嫩小泬视频在线观看| 久操中文在线| 野花国产精品入口| 国产在线拍偷自揄观看视频网站| av一区二区三区高清久久| 亚洲第一色网站| 日韩经典精品无码一区二区| 超碰免费91| 亚洲午夜福利精品无码| 欧美亚洲国产日韩电影在线| 亚洲精品自拍区在线观看| 夜精品a一区二区三区| 亚洲午夜天堂| 伊人丁香五月天久久综合| 成人a免费α片在线视频网站| AV不卡在线永久免费观看| 亚洲av无码久久无遮挡| 成人精品区| 亚洲天堂久久新| 亚洲无码熟妇人妻AV在线| 91精品国产一区| 欧美a在线看| 国产人人乐人人爱| 精品无码一区二区在线观看| 成人自拍视频在线观看| 精久久久久无码区中文字幕| 国产电话自拍伊人| 欧美中文字幕第一页线路一| 亚洲av无码专区久久蜜芽| 中文字幕亚洲电影| 人妻中文久热无码丝袜| 国产麻豆va精品视频| 一区二区无码在线视频| 中美日韩在线网免费毛片视频| 又爽又大又光又色的午夜视频| 亚洲三级色| 在线看片中文字幕| 久草视频福利在线观看| 国产男人的天堂| 欧美激情首页| 国产又黄又硬又粗| 国产福利拍拍拍| 婷婷色婷婷| 亚洲三级片在线看| 亚洲人成影院午夜网站| 国产乱人伦精品一区二区| 国产极品粉嫩小泬免费看| 欧美黑人欧美精品刺激| 乱人伦99久久| 黄片在线永久| 999在线免费视频| 精品国产免费第一区二区三区日韩| 国产一区二区网站| 丝袜亚洲综合| 99这里只有精品免费视频| 日韩av高清无码一区二区三区| 中文毛片无遮挡播放免费| 最新精品久久精品| 欧美a在线视频| 亚洲成人网在线播放| 在线欧美日韩国产| 免费久久一级欧美特大黄| A级全黄试看30分钟小视频| 午夜福利视频一区| 国产一级小视频| 久久综合干| 欧美国产成人在线| 四虎精品黑人视频| 午夜无码一区二区三区在线app| 香蕉久久国产精品免| 狠狠色狠狠色综合久久第一次| 伊人网址在线| 亚洲—日韩aV在线| 国产午夜精品鲁丝片| 日韩高清欧美| 欧美日韩中文国产| 国产在线日本| 99精品免费欧美成人小视频|