基于正文和標題文本分類的主題建模

2017-09-23 03:03:44于秀開徐啟南

計算機應用與軟件 2017年9期

關鍵詞：分類文本模型

鄭誠于秀開徐啟南

(安徽大學計算智能與信號處理重點實驗室安徽合肥 230039) (安徽大學計算機科學與技術學院安徽合肥 230601)

基于正文和標題文本分類的主題建模

鄭誠于秀開徐啟南

(安徽大學計算智能與信號處理重點實驗室安徽合肥 230039) (安徽大學計算機科學與技術學院安徽合肥 230601)

特征稀疏是對傳統文本分類的一個巨大的挑戰。基于LDA模型，提出一種特征擴展的短文本分類模型。該模型在正文語料的基礎上加入標題語料的主題分布，并進行整合，得到每個文本的主題分布。使用SVM分類器進行分類。實驗結果表明，與正文語料進行文本分類相比，所提模型對文本分類效果較好。

文本分類 LDA 特征擴展主題分布 SVM

0 引言

隨著Web的發展，人民群眾可以在網上發布言論和意見，政府部門可以答復人民群眾反映的問題。所以許多省、市部門單位都在積極努力做好這項工作。安徽省的各個地級市的政府網站都開通了這一項功能，比如合肥市的12345政府服務直通車(http://www.hefei.gov.cn/hdjl/)。在該網站中，人民群眾可以向政府相關部門表達自己的意愿，反映自己在生活中遇到的困難，并向政府尋求幫助，也可以對政府不滿意的地方，提出意見、建議，甚至舉報。在網站中人民群眾更愿意表達自己真實的情況和情感，這樣政府就可以真正地了解人民群眾的所感所想，更有利于為人民服務，例如表1是合肥市民一條反饋信息。通過觀察表1的信息，我們可以發現上面的文本主要包括主題(在后文稱為標題)，信件內容，回復內容。而且文本較短，對于短文本通常它們的信息特征是：信息量少、特征稀疏、語義依賴上下文等情況[1]。而對于短文本處理的難處就是特征非常稀疏，而傳統的文本分類算法有Baycs、SVM、KNN等這些直接應用在短文本分類上效果不佳。

表1 市民反饋信息

1 相關工作

對于短文本的分類處理，主要有兩種方法，第一種是增加外部知識域。Wang等[2]在處理短文本分類中，利用一個大的分類知識庫，為每個類別建立概念模型，并為每個短文本定義一組概念，通過概念相似性，對短文本進行分類。寧亞輝等[3]提出基于領域詞語本體的短文本分類方法，抽取領域高頻詞作為特征詞，借助語義方面將特征詞擴展為概念和義元，通過計算不同概念所包含相同義元的信息量來衡量詞的相似度，進行文本分類。但是這種借助外部知識域的方法，對于沒有在知識域出現的詞，效果不佳。另一種是通過為短文本加入更多相關的文本，擴展文本特征進行文本分類。Sriram等[4]為微博文本增加作者的配置文件，提出一種文本分類方法。饒高琦等[5]中通過LDA主題模型獲得短文本主題分布，把主題中的詞作為短文本的特征，擴充到原短文本中，進行文本分類。Godin等[6]和Mehrotra等[7]利用LDA和微博的標簽等特性，進行微博文本分類。基于以上考慮，為了便于本文的描述，文本將正文語料定義為用戶的來信內容和回復內容，因為回復內容是政府工作人員回復信息，信息比較充分具體，標題語料定義為用戶來信的標題語料。本文將改進LDA主題模型將正文語料和標題語料進行主題整合加權，得到每個文本的主題分布。

2 基于正文和標題短文本分類模型

2.1 命名實體識別

本文是對正文和標題的短文本分類進行建模，實驗語料是以合肥政府直通車文本為例，因此在語料中會有大量當地特用的命名實體[8]，例如當地市區道路名稱、小區名稱、公交站名稱等。為了提高分詞階段的準確性，因此本文在分詞階段引入了用戶詞典。從百度地圖中獲取當地城市特用的命名實體，加入用戶詞典中，然后基于詞典匹配的方法進行分詞，以此來提高分詞的準確性。見表2是149路公交站的部分命名實體。

表2 149公交部分命名實體

2.2 LDA主題模型

LDA主題模型[9]是由Blei等提出的，是一個“文本-主題-詞”的三層貝葉斯產生式模型，每篇文本表示為主題的混合分布，而每個主題則是詞上的概率分布。LDA模型產生一篇文檔的過程如下：

(1) 從先驗參數α產生一篇文檔的主題θ的多項式分布。

(2) 從θ的多項式分布產生一個詞的主題Ζ。

(3) 從先驗參數β產生詞主題φ的多項式分布。

(4) 由詞主題分布Ζ和詞多項式分布φ產生一篇文檔的一個詞w。

下面給出LDA生成模型如圖1所示。

圖1 LDA圖生成模型

關于LDA的詳細介紹和參數請詳見文獻[9]。

2.3 基于正文和標題短文本分類模型

在各大網站、社團、BBS中，用戶在提交自己想法與網友交互時，網站通常要求用戶輸入問題的標題，為了充分利用標題的信息，本文提出了基于正文和標題的文本分類主題建模。下面給出基于LDA主題擴展的短文本分類的流程圖如圖2所示。

圖2 基于LDA主題擴展的短文本分類流程圖

2.3.1 預處理

在特征選擇之前，本文先要進行文本分詞，本文使用的分詞工具為張華平博士等開發的ICTCLAS分詞工具進行分詞。由于本文語料為合肥市政府直通車平臺文本，是面向合肥本地人群的意見和建議，所以文本中有大量的合肥當地的命名實體。為了增加分詞的準確性，本文加入大量的命名實體作為文本分詞的用戶詞典。在該詞典中，加入合肥當地城市的300條主要道路名稱，111條公交路線所有公交站名稱，150個小區名稱等。實驗結果如圖3所示。本文在最佳主題數35下進行實驗，實驗中使用命名實體進行分詞和未使用命名實體進行分詞進行實驗。結果表明，在使用命名實體中準確率、召回率和F值都有所提升。

圖3 使用命名實體進行分詞結果

2.3.2 正文和標題分類模型表示

根據本文文本的特點，包含正文語料和標題語料，文本以直通車文本為例，LDA是基于詞袋進行吉布斯采樣和訓練模型。本文在使用正文語料詞袋庫進行訓練LDA時，引入標題標題語料的詞袋庫，根據調和參數的不同，即標題信息采樣比例不同，獲得每篇文本的最佳的主題分布。本文會根據正文語料得到正文語料的主題分布θ1，通過調和參數γ，在LDA中加入標題主題分布θ2，最終獲得每一篇文本的最終主題分布θ。解釋過程如下：

(1) 從先驗參數α產生一篇文檔正文文檔的主題θ1的多項式分布。

(2) 從先驗參數α產生一篇文檔標題文檔的主題θ2的多項式分布。

(3) 通過γ整合θ1、θ2為θ多項式分布。

(4) 從θ多項式分布產生一個詞的主題分布Ζ。

(5) 從先驗參數β產生詞主題φ的多項式分布。

(6) 由詞的主題分布Ζ和詞的多項式分布φ產生一篇文檔的一個詞w。

下面是文本正文和標題模型的表示和表達式，如圖4所示。

圖4 擴展模型表示

在此給出本模型的參數估計，如圖4的概率模型中，M為文檔總數，N為一個文檔的所有詞的個數，α是每個文檔主題的狄利克雷的先驗參數，β是每個主題下詞的狄利克雷的先驗參數，Z表示一篇文檔中詞的主題。θ1是隱含變量表示一篇文檔的正文的主題分布，θ2是隱含變量表示一篇文檔的標題的主題分布，φ表示一個主題下詞的分布。利用調和參數γ，使：

θ=γ×θ1+(1-γ)×θ2γ∈(0,1)

(1)

在語料具有正文和標題的文本中，在對正文語料進行主題建模的過程中，引入標題語料的信息并進行整合，獲得整篇文本的主題分布，通過公式推導可以得到新的文本主題分布的Gibbs采樣公式，通過對比LDA模型發現，由于引入標題語料的主題因子，文本的主題分布如下：

(2)

(3)

根據式(2)、式(3)，最終得到聯合概率分布函數如下式：

(4)

根據吉布斯采樣過程，反復迭代，對標題和正文中詞的每個主題進行抽樣，直到結果收斂，輸出文檔下的主題分布θmk和主題下詞的分布φkt。

3 實驗

3.1 實驗語料

本文基于正文和標題的文本分類建模，以合肥政府直通車文本為例，使用爬蟲軟件，從合肥政府直通車網站爬取了包含拆遷規劃、房產、公積金、公交交通、社保就業、環境衛生、教育、物業、治安、公共事業等10大類語料。其中社保就業2 322條，公積金1 006條，環境衛生2 636條，教育1 632條，拆遷規劃400條，房產509條，公共事業793條，治安203條，公交交通1 639條，物業3 301條。

3.2 對比試驗、評估方法和分類器

本文的對比實驗設置是正文語料的LDA模型，正文語料的BTM模型，BTM主題模型是晏小輝教授在2013年的會議上提出的一個優秀的主題模型[10]。為了評判與其他模型文本分類算法的性能，本文的評估方法為傳統文本分類的標準：準確率P、召回率R和F值。

(5)

本文使用的分類器為SVM分類器，驗證使用十字交叉法。

3.3 實驗結果

文本在確定LDA主題模型的主題數時，設置主題數從10～70(間隔為5)進行實驗驗證，實驗結果如圖5所示。從圖中可以發現在主題數為35時，LDA、BTM和本文模型的F值都達到了平穩狀態，當主題數大于35時，F值波動不大，所以文本的最佳主題數為35。根據經驗這里把先驗參數α設置為0.5、β設置為0.01，迭代次數為1 000次。

圖5 主題參數的確定

本文通過使用調和參數γ將正文語料的主題分布和標題語料的主題分布整合為一篇文檔的最終主題分布。為了得到調和參數γ最優解，本文在分類數據集中，根據不同主題，調和參數的變化，得到各個主題下F值，通過F值的變化，確定γ的最優解。實驗結果如圖6，橫坐標表示調和參數，縱坐標表示F值，曲線是每個主題下F值隨調和參數的變化曲線，通過實驗結果發現，在各個主題下，當調和參數γ=0.7時，F值最佳，所以文本的調和參數設為0.7。

圖6 γ參數的確定

為了驗證文本模型可以利用標題文本信息的作用，本文使用政府直通車的標題語料和正文語料應用在基于正文和標題文本分類的主題模型中。正文語料上應用LDA模型即只考慮正文的作用，沒有利用標題的信息因子，BTM模型使用正文語料。實驗結果如表3所示。本文方法在準確率、召回率和F值都優于LDA和BTM模型，證明本文模型可以充分利用標題信息對文本進行分類。

表3 實驗對比結果

4 結語

特征稀疏文本一直是短文本分類的問題，現在文本分類大多基于內容，往往忽略標題信息的作用。為了提高分類的效果，本文利用網站語料的特點，加入了標題語料的主題分布，提出了基于正文和標題的文本分類的主題建模，對文本特征進行擴展。以政府直通車語料為例，實驗表明當加入標題語料的信息后，分類效果比只基于正文內容所提升，本文模型對于具有標題和正文的語料分類效果較為明顯。另外本文為了解決分詞作用的困難，加入了大量的命名實體，增加了分詞的正確性。最后本文僅僅是將文本進行分類，下面的工作將引入時間序列因素進一步提高分類效果。

[1] 賀濤,曹先彬,譚輝.基于免疫的中文網絡短文本聚類算法[J].自動化學報,2009,35(7):896-902.

[2] Wang F,Wang Z,Li Z,et al.Concept-based short text classification and ranking[C]//Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:1069-1078.

[3] 寧亞輝,樊興華,吳渝.基于領域詞語本體的短文本分類[J].計算機科學,2009,36(3):142-145.

[4] Sriram B,Fuhry D,Demir E,et al.Short text classification in twitter to improve information filtering[C]//Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval.ACM,2010:841-842.

[5] 饒高琦,于東,荀恩東.基于自然標注信息和隱含主題模型的無監督文本特征抽取[J].中文信息學報,2015,29(6):141-149.

[6] Godin F,Slavkovikj V,De Neve W,et al.Using topic models for twitter hashtag recommendation[C]//Proceedings of the 22nd International Conference on World Wide Web.ACM,2013:593-596.

[7] Mehrotra R,Sanner S,Buntine W,et al.Improving lda topic models for microblogs via tweet pooling and automatic labeling[C]//Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval.ACM,2013:889-892.

[8] 趙軍.命名實體識別、排歧和跨語言關聯[J].中文信息學報,2009,23(2):3-17.

[9] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.

[10] Yan X,Guo J,Lan Y,et al.A biterm topic model for shorts texts[C]//Proceedings of the 22nd international conference on World Wide Web.International World Wide Web Conferences Steering Committee,2013:1445-1456.

TOPICMODELINGFORTEXTCLASSIFICATIONBASEDONTEXTANDTITLE

Zheng Cheng Yu Xiukai Xu Qi’nan

(KeyLaboratoryofICSP,MinistryofEducation,AnhuiUniversity,Hefei230039,Anhui,China) (SchoolofComputerScienceandTechnology,AnhuiUniversity,Hefei230601,Anhui,China)

The sparse feature is a huge challenge for the traditional text classification. We propose a short text classification model based on the LDA model. The model integrated the text with the title on the basis of corpus and obtained topic distribution of each text. We used SVM classifier for classification. The test results demonstrate that our model performs better than traditional text classification based on the text.

Text classification LDA Feature extension Topic distribution SVM

TP391.1

10.3969/j.issn.1000-386x.2017.09.016

2016-11-17。安徽省高校自然科學基金重點項目(KJ2013A020)。鄭誠，副教授，主研領域：信息檢索，自然語言處理。于秀開，碩士。徐啟南，碩士。

基于正文和標題文本分類的主題建模

0 引 言

1 相關工作

2 基于正文和標題短文本分類模型

3 實 驗

4 結 語

0 引言

3 實驗

4 結語