朱艷輝, 張永平, 杜 銳, 徐葉強
(1.湖南工業大學 計算機學院 湖南 株洲 421001; 2.廣州索答信息科技有限公司 廣東 廣州 510663)
基于LDA與評價對象的微博觀點摘要
朱艷輝1, 張永平1, 杜 銳2, 徐葉強2
(1.湖南工業大學 計算機學院 湖南 株洲 421001; 2.廣州索答信息科技有限公司 廣東 廣州 510663)
針對微博話題觀點摘要問題,提出一種基于LDA與評價對象相結合的微博觀點摘要方法.首先,利用LDA模型得到話題的詞分布矩陣和文檔的話題分布矩陣,把兩個矩陣的乘積作為各個詞在句子中的權重分布矩陣,再利用詞頻與詞權重分布矩陣的乘積作為詞的重要度;然后,通過詞的詞性標注規則從句子中選擇候選評價對象,再計算句子中候選評價對象的穩定性;最后,把句子中所有詞的重要度與句子中所有候選評價對象的穩定性的總和作為句子權重,并從大到小排序,再進行觀點句識別,并去除相似性較大的句子,抽取前20個句子作為話題觀點摘要.實驗結果表明,此方法可以有效地抽取微博觀點摘要.
微博觀點摘要; LDA; 評價對象
隨著互聯網的飛速發展,越來越多的用戶喜歡在網絡中發表自己對某些事件的看法.微博作為重要的自媒體平臺,是用戶對熱點事件發表評論和表達觀點的主要途徑,因此,研究如何快速準確地獲取熱點微博話題的觀點摘要具有重要意義.自動摘要的抽取方法主要分為兩大類:抽取式(extractive)和理解式(abstractive)[1].目前基于抽取式的文摘是主流方法.文獻[2]在對文檔進行聚類的基礎上,加入句子位置、長度等特征對句子進行權重計算,從而抽取出權重較高的句子作為摘要.文獻[3-5]基于LDA模型中主題的概率分布和句子的概率分布來計算句子的主題相似性,并結合句子長度、位置等特征抽取文檔摘要.
以上方法都在文摘研究上取得一定效果,但是針對微博話題形成的文本,長度、位置等特征并不能取得很好的效果;且微博文本帶有一定的觀點性,抽取出具有觀點性的句子作為摘要更合適.因此,本文提出了一種基于LDA和評價對象相結合的微博觀點摘要抽取方法,以微博幾個話題下的評論作為研究對象,把某個話題下的評論每20條一組作為一個文檔.首先,根據LDA模型得到話題的詞分布矩陣和文檔的話題分布矩陣,并把這兩個矩陣相乘,得到各個詞在句子中的權重分布矩陣,詞的權重分布矩陣再與詞頻相乘得到詞的重要度;然后,通過詞的詞性標注規則從句子中抽取候選評價對象,隨后計算句子中候選評價對象的穩定性;最后,計算出一個句子中所有詞的重要度,再計算出句子中所有候選評價對象的穩定性,把兩個結果的和作為句子的權重,按權重從大到小對句子進行排序,并判斷句子的觀點傾向,抽取具有觀點性的前20個句子作為觀點摘要.
LDA(latent Dirichlet allocation)是一種概率主題模型,通過使用聯合分布來計算在給定觀測變量下隱藏變量的條件分布的概率模型,其中觀測變量為詞的集合,隱藏變量為主題.在已知語料和話題個數的情況下,可以通過LDA模型計算出話題的詞分布矩陣和文檔的話題分布矩陣,因此,我們通過這兩個分布矩陣的乘積來定義句子中詞權重分布矩陣,并把這個矩陣與詞頻向量相乘,所得結果作為詞的重要度矩陣.
根據LDA的定義,文檔生成過程中對應的觀測變量和隱藏變量的聯合分布為
(1)

在LDA模型中,最重要的就是文檔的主題分布概率θd和主題的詞分布概率βK,這兩個參數在給定語料和已知話題K的情況下可以用Gibbs sampling[6]公式訓練得到,算法如下:
Step 1 隨機初始化,對語料中每篇文檔的每個詞w,隨機賦一個topic編號z;
Step 2 重新掃描語料庫,對每個詞w,按照Gibbs sampling公式重新采樣它的topic,在語料中進行更新;
Step 3 重復以上語料庫的重新采樣過程直到Gibbs sampling收斂;
Step 4 統計語料庫話題下詞的分布矩陣,該矩陣就是LDA的模型.
在得到話題的詞分布矩陣之后,可以計算出相應的文檔的話題分布矩陣.
根據LDA的概念,一篇文檔的話題分布概率為
(2)
其中:Tj為第j個話題;Di為文檔i,則文檔的話題分布矩陣為
(3)
同理,話題下的詞分布概率為
(4)
其中:Tj為第j個話題;Wk為詞k,則話題的詞分布矩陣為
(5)
把矩陣X和Y相乘則可以得到詞在句子中的權重分布度矩陣,記為Z.雖然Z已經體現了句子中詞的重要度,但微博語料中一個文檔由約20個評價句組成,詞頻較高的詞往往是討論熱點,所以計算文檔的詞頻向量f,則所有詞組成的重要度矩陣可以表示為
(6)
通過公式(6)就可以算出一個句子的重要度了.
在微博語料中,一個話題下句子所討論的對象越多,則表達的內容也就越多,句子在文檔中權重也就越大,基于此思想,我們通過詞性規則抽取句子中的詞組作為候選評價對象,然后分別計算各個候選評價對象的穩定性,最后計算句子中候選評價對象的穩定性之和.
2.1 候選評價對象的抽取

表1 詞性規則(部分)
根據句子中詞語的詞性標注出現的規則對候選評價對象進行抽取,規則選用文獻[7]所總結的30組規則,部分規則見表1.
2.2 候選評價對象的穩定性計算
定義1 評價對象object通常是由多個詞(w1w2…wn)組成,用各個詞之間的緊密耦合程度,來衡量object的穩定性.本文采用公式(7)來計算評價對象的穩定性:

(7)
其中:object表示某個候選評價對象;f(object)表示object在文檔中出現的頻率;f(wi)表示組成object的詞wi在文檔中出現的頻率;m表示組成該object的詞個數;S(object)表示評價對象的穩定性.若S(object)的值越接近1,則object是一個評價對象的概率就越大.
則句子中所有候選評價對象之和為

(8)
其中:n表示句子中候選評價對象的個數;S(objecti)表示第i個候選評價對象的穩定性.
根據公式(6)和(8),則一個句子的權重計算公式為
Weight(sentence)=WeightLDA(sentence)+Weightobject(sentence),
(9)
通過公式(9)計算出話題下每個句子的權重后對句子進行觀點識別,具體步驟是:首先,選用知網[8]的情感詞典和評價觀點詞典合并去重,得到觀點詞庫8 746個,采用文獻[9]的方法對詞典進行擴建,最后得到觀點詞14 064個;然后,判斷句子中是否包含觀點詞;最后,把包含觀點詞的句子按照句子權重從大到小排序,并選出前40個句子.
在經過了觀點句識別之后,句子按照權重從大到小排序.這些排序的句子中有可能出現前幾個句子所描述的意思相近,這就需要對這些句子進行相似性排除.本文的句子相似性排除算法如下:
Step 1 選擇權重最高的句子并抽取候選評價對象;
Step 2 將剩下的所有句子也抽取出各自的候選評價對象;
Step 3 把各個句子的候選評價對象與Step 1中的候選評價對象進行對比,若相同的個數越多,則懲罰越大,計算公式為
(10)
其中:m是句子中候選評價對象相同的個數,并且m≤10,若m>10,則s=0;
Step 4 根據公式(10)把句子進行重新排序,從40個觀點句中選擇前20個句子作為微博摘要.
4.1 實驗語料及評價指標
本文采用COAE2016任務1發布的10個微博話題語料,每個話題由約20個文檔組成,每個文檔由約20個評論句組成.
評價指標采用COAE2016任務1制定的評價指標[9],該評價指標采用評測工具ROUGE,廣泛應用于DUC(document understanding conference)的摘要評測任務中,挑選其中的3個指標:R_1、R_2、R_SU4,每個指標又分別有召回率、準確率和F值,分別為:R_1_R、R_1_P、R_1_F、R_2_R、R_2_P、R_2_F、R_SU4_R、R_SU4_P和R_SU4_F共9個指標.
R_N的計算公式為

(11)
在本次實驗中N的取值為1和2,即R_1和R_2.在公式(11)中,S表示候選摘要組成的集合;n表示n-gram的長度;referenceSummaries是候選摘要;Countmatch(gramn)表示同時出現在一篇候選摘要和參考摘要的n-gram個數;Count(gramn)表示參考摘要中n-gram的個數.
R_SU4的計算公式為

(12)
其中:skip2(A,B)表示候選摘要A與參考摘要B的skip-bigram匹配次數;C(m,2)的計算公式為

(13)
其中:m表示skip-bigram的最長跳躍距離,COAE2016任務1選擇的跳躍距離為4.
4.2 語料預處理
預處理過程為:先用文獻[5]的方法對語料進行分詞標注,然后過濾停用詞、符號、網址等噪聲,最后建立詞袋模型.
4.3 實驗結果
本文共做了兩組實驗,一組是本文提出的方法,另一組是文獻[3]的方法.實驗結果見表2和表3.
表2中,topic ID從1~10分別是:“58同城”、“起亞K5”、“捷豹XFL”、“盜墓筆記”、“封神演義”、“郭德綱”、“iphone7”、“梅西退出國家隊”、“姚明”和“支付寶”.
從表2可以看出,本文方法在各個話題中的結果都比文獻[3]要好很多,特別在話題“封神演義”中,本文方法的R_1_P值達到0.447 37,在話題“姚明”中,本文方法的R_1_R、R_1_P和R_1_F值分別是0.412 44、0.343 70和0.374 95.表3的平均結果中,本文方法都優于文獻[3].實驗結果表明,本文方法可以有效識別出微博話題下的觀點摘要.
本文以COAE2016任務1提供的微博話題語料進行研究,提出了一種基于LDA和評價對象的微博話題觀點摘要抽取方法.實驗結果表明,將評價對象作為特征加入文本摘要中能提高實驗效果,但本文的不足在于對句子相似性的排除不是很理想,這也是今后我們努力的方向.
[1] XU Y D. Multi-document automatic summarization technique based on information fusion[J]. Chinese journal of computers, 2007, 30(11):2048-2054.
[2] 林立, 胡俠, 朱俊彥. 基于譜聚類的多文檔摘要新方法[J]. 計算機工程, 2010, 36(22):64-65.
[3] 吳登能, 袁貞明, 李星星. 基于組合特征LDA的文檔自動摘要算法[J].計算機科學與應用, 2013,3(2):145-148.
[4] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of machine learning research, 2003(3):993-1022.
[5] 于江德, 王希杰, 樊孝忠. 基于最大熵模型的詞位標注漢語分詞[J]. 鄭州大學學報(理學版),2011,43(1):70-74.
[6] SHONKWILER R W, MENDIVIL F. Introduction to monte carlo methods[M].New York:Springer, 2011.
[7] 徐葉強, 朱艷輝, 王文華,等. 中文產品評論中評價對象的識別研究[J]. 計算機工程, 2012, 38(20):140-143.
[8] 中國知網. 《知網》情感分析詞語集:Beta版 [EB/OL].(2007-10-22)[2016-11-01].http://www.keenage.com.
[9] 杜銳, 朱艷輝, 魯琳,等. 基于SVM的中文微博觀點句識別算法[J]. 湖南工業大學學報(自然科學版),2013, 27(2):89-93.
(責任編輯:王浩毅)
Micro-blog View Summary Based on LDA and Evaluation Object
ZHU Yanhui1, ZHANG Yongping1, DU Rui2, XU Yeqiang2
(1.SchoolofComputerScience,HunanUniversityofTechnology,Zhuzhou421001,China;2.SUMMBA,Guangzhou510663,China)
A micro-blog view summarization method based on LDA and evaluation object was proposed for micro-blog topic. Firstly, the importance of words was calculated by multiplying word frequency and word weight matrix of each word, and the weight matrix was calculated by multiplying the doc-topic matrix and the topic-word matrix which obtained from LDA model.Secondly, the cadidate evaluation objects were extracted before the stability of a candidate object was calculated by a defined formula; Finally, the topic summary was extracted from the sentences which had more evaluation objects and high score of word weight. This method was proved to be effective with experiments.
view summarization; LDA; evaluation object
2016-11-10
國家自然科學基金項目(61402165);國家社會科學基金項目(12BYY045);湖南省教育廳重點項目(15A049).
朱艷輝(1968—),女,湖南湘潭人,教授,主要從事自然語言處理研究,E-mail: swayhzhu@163.com;通訊作者:張永平(1989—),男,貴州遵義人,碩士研究生,主要從事自然語言處理研究,E-mail:780235260@qq.com.
TP391.4
A
1671-6841(2017)01-0045-05
10.13705/j.issn.1671-6841.2016333