基于LDA模型的文本分類與觀點挖掘

2017-03-27 10:54:49李晨曦

電子技術與軟件工程 2017年4期

李晨曦

摘要得益于信息技術的飛速發(fā)展，信息的傳遞效率不斷提高，網(wǎng)絡信息數(shù)量也呈現(xiàn)爆炸性增長趨勢，這些信息大多文本的方式存在并且各種類別混雜在一起。使用人工方式對于分類并提取其中有用的觀點信息效率低下并且浪費大量的人力資源，因此通過自動分析和提取的方式發(fā)展觀點挖掘的新方法有著一定的研究意義，LDA主題模型作為無監(jiān)督機器學習模型的典型應用有著快速、高效的特點而被眾多學者廣泛研究。

【關鍵詞】LDA模型機器學習觀點信息

1 引言

第38次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示，截至2016年6月，中國網(wǎng)民規(guī)模達7.10億，互聯(lián)網(wǎng)普及率達到51.7%。互聯(lián)網(wǎng)已經(jīng)成為現(xiàn)代人生活中的必需品，借助互聯(lián)網(wǎng)的快速發(fā)展，信息的傳遞方式與效率日新月異。觀點挖掘是指通過相關技術分析文本中表達的觀點與情感極性，幫助用戶快速地獲取有用信息。當前國內外學者針對觀點挖掘進行的相關研究工作聚集在以下兩個方面：

（1）文本分類；

（2）觀點抽取。

文本分類的主要任務是判定文本描述事物特征所屬類別，觀點抽取則是提取文本特征下對應的具體觀點信息，其中根據(jù)情感的褒貶性又可以分為以下三類，正向表示情感傾向為褒義，負向表示情感傾向為貶義，而中性則表示沒有明顯的褒貶傾向。

當前觀點挖掘領域主要有三種研究方法：基于規(guī)則、基于語言學和基于機器學習。基于規(guī)則與基于語言學的方法存在著依賴語法規(guī)則與領域適用度不高等缺陷，基于機器學習的方法由于具有很強的領域適應性和跨語言性，LDA主題模型作為機器學習模型在觀點挖掘領域有著重要應用。

標準LDA模型由于采用詞袋結構，割裂了詞語的位置以及上下文的語義關系，另外LDA主題模型在進行觀點挖掘研究時通常選擇相同類別的文檔形成一個語料庫來保證觀點挖掘效果，多類別文檔混合時則必須選取其他方式進行文本分類。鑒于以上兩點，本文對標準LDA模型進行改進提出了Document classification LDA模型（DC-LDA，文本自分類LDA模型），將文本分類模塊引入后進行觀點挖掘研究。

2 模型描述

DC-LDA模型圖如圖1所示。

模型中參數(shù)列表如表1所示。

如圖1所示，LDA模型是一個三層結構，完成了文檔-主題-單詞的三層映射，通過狄利克雷分布與多項式分布為每個單詞選取一個特定的主題，同樣的本文在文檔層的基礎上添加類別這一概念，將標準LDA模型擴展為四層結構，類別-文檔-主題-單詞，以此來完成文本分類的過程，在對語料庫進行觀點挖掘，同時為了克服詞袋模型的缺陷，本文以句子為單位來采樣主題標簽，認為同一句子下的單詞隸屬于相同主題。

Document classification LDA模型的生成過程描述如下：

（1）對一個語料庫：①由先驗參數(shù)λ得到語料庫下領域分布Ω～Dir（λ）；②由先驗參數(shù)β獲得每個領域下的單詞分布Φf，t～Dir（β）（其中f表示領域，取值1......F，t表示主題，取值1......T）；

（2）對語料庫中每一篇文檔d：①為文檔選擇對應領域標簽，gd～Multinomial（Ω）；②得出對應領域下文檔的主題分布θfd～Dir（αf）；

（3）對每一篇文檔d中的第m個句子：選擇對應領域下的主題zd，m，其中zd，m～ Multinomial（θfd）；

（4）對句子m中每個詞n（wd，m，n）：選擇具體的單詞，wd，m，n～Multinomial（Φf，t）。

3 實驗

本實驗使用來自sougou實驗室提供的中文語料庫，使用的版本為SougouC .Mini，其包括汽車、財經(jīng)、IT、健康、體育等10個類別的相關內容，每個類別下包含1990篇文檔。

在進行實驗之前先將語料庫進行去停用詞處理，本文采用中國科學院計算技術研究所提供的漢語詞法分析系統(tǒng)ICTCLAS，其有著速度快、準確率高的特點因此在中文信息處理領域得到了廣泛應用。

本實驗以語料庫中的IT、體育、健康、教育、旅游、軍事這6個區(qū)分明顯的類別進行類別采樣分析，每個類別中選取800篇文檔作為訓練語料，再抽取200篇作為測試語料，本文對領域判別精度定義如下：

在DC-LDA模型中為每一篇文檔采樣領域標簽時本文考慮到了高詞頻的單詞對文檔所在領域的貢獻，在采樣公式中取詞頻最高的前n個單詞隨著n取值的變化領域區(qū)分的精確度也會變化，對每個n的取值進行十次重復試驗，結果如圖2所示。

語料庫觀點抽樣結果如表3所示。

參考文獻

[1]http：//www.cnnic.net.cn/

[2]Pang B，Lee L.Opinion mining and sentiment analysis[J].Foundations and trends in information retrieval，2008，2（1-2）：1-135.

[3]Inui T.and Okumura M.A survey of sentiment analysis[J].Journal of natural language processing，2006，13（03）：201-241.

[4]Li J.Summary of product reviews opinion mining[J].Modern Computer，2013（05）：11-16.

[5]孫艷，周學廣，付偉.基于主題情感混合模型的無監(jiān)督文本情感分析[J].北京大學學報：自然科學版，2013，49（01）：102-108.

[6]http：//www.sogou.com/labs/

作者單位

1.湖北省孝感高中湖北省孝感市 432100

2.湖北省襄陽四中湖北省襄陽市 441000