融合Log睱ikelihood與TextRank的關鍵詞抽取研究

2018-03-26 02:14:46徐曉霖

軟件導刊 2018年3期

關鍵詞：文本

徐曉霖

摘要：

為了解決TextRank算法的初始值賦權問題，提高關鍵詞抽取準確率，引入LogLikelihood算法。通過與參考語料庫詞頻進行對比，為詞條的初始權重賦值，將不需要外部語料的TextRank和需要外部語料的LogLikelihood進行融合、計算。實驗結果表明，融合后的TextRankLL算法優于TextRank算法。

關鍵詞：

關鍵詞抽取；TextRank算法；LogLikelihood算法；TextRankLL算法；圖模型

DOIDOI：10.11907/rjdk.172527

中圖分類號：TP312

文獻標識碼：A文章編號文章編號：16727800（2018）003008703

英文摘要Abstract：In order to solve the initial value of TextRank algorithm， we can improve the accuracy of keyword extraction. The LogLikelihood algorithm is introduced to compute the initial weight of the term by comparing with the observed word frequency of the corpus. The TextRank without external corpus and the LogLikelihood which requires external corpus are merged and calculated. Experimental results show that the fusion TextRankLL algorithm is superior to the TextRank algorithm.

英文關鍵詞Key Words：keyword extraction；TextRank；LogLikelihood；TextRankLL；graph model

0引言

文本關鍵詞抽取是指從文本中快速提取出使用者認為具有重要意義的短語或詞組。文本關鍵詞抽取是文本分析的前沿工作，對于后續文本相似度對比、文本語義理解等都具有十分重要的作用。所以，只有關鍵詞的抽取更加快速、準確，才能提高文本分析等工作效率。文本關鍵詞抽取之前已進行了大量研究，對不同的數學模型進行組合可提高抽取準確度[12]。目前對關鍵詞的抽取主要有兩類方法：有監督和無監督。

TFIDF算法是最經典的關鍵詞抽取算法，簡單、快速，且適用范圍廣。TFIDF即將TF與IDF相乘計算。TF詞頻指詞條在該文檔中出現的頻率，IDF逆向文件頻率指詞條在其它文檔中出現頻率的倒數。但TFIDF算法只能根據頻率劃分重要性，而未考慮詞條位置、詞條長度、詞條上下文等。針對TFIDF算法的改進，學者們進行了大量研究。如鄧丹君[3]提出特殊符號后權值加強的改進，對于特殊符號如@后表示提到的重點人，權值加重。該方法對于微博等文本提取算法提升較顯著，但不適用于所有文本。

TextRank[4]算法是無監督關鍵詞抽取的經典算法，是基于PageRank的文本關鍵詞抽取算法。PageRank將整個網絡假想成一張有向圖譜，各個網站A、B等是圖中的點，如果存在A到B的鏈接，則在圖譜上畫一條A到B的有向線。而TextRank算法將PageRank中對網頁的計算改為對詞條的計算，但是TextRank算法有一個十分明顯的不足：詞語的初始權重設置為1，從而使每個詞條的重要性相同，但在每個句子中，不同詞條有著不同的重要程度。針對TextRank的不足，很多學者都提出改進算法。夏天[5]提出了根據詞語位置不同、頻率不同等構建影響率轉移矩陣與TextranK進行融合；顧益軍[6]提出將LDA模型和Textrank算法進行有效融合，當數據集呈現較強的主題分布時，可以顯著改善關鍵詞抽取效果。

因此，為了提高文本關鍵詞抽取效果，本文將Loglikelihood算法與TextRank算法相結合，對TextRank算法加以改進。

1算法介紹

1.1LogLikelihood算法

對數似然比（LogLikelihood）是一種頻率差異檢測方法，是語料庫語言學研究中比較常用的統計檢測方法之一[78]。同一詞條在不同文章中出現頻率相同，也不能說明該詞條對于兩篇文章的重要程度相同。對數似然比是指某詞條在文本總量為m1的文檔中出現頻率為k1，在文本總量為m2的文檔中出現頻率為k2，則兩個文本的分布不同（相同）。計算公式為：

LL=logL（p1，k1，m1）L（p2，k2，m2）L（p1，k1，m1）L（p2，k2，m2）（1）

pi=kimi，p=（k1+k2）（m1+m2），L（p，k，n）=pk（1-p）m-k（2）

對數似然比在語言學中有著很多應用，設置觀察語料庫和參照語料庫。在關鍵詞抽取問題上具體如下：觀察語料庫為想要抽取的關鍵詞文本，而參考語料庫則是一個足夠大的、與想要抽取的關鍵詞文本同一類型的文本。只有參考語料庫足夠大，語料庫里的詞條頻率在與觀察語料文本進行對比時才會更加真實。當觀察語料庫中的詞條頻率大于同類型參考語料庫中的該詞條頻率時，說明該詞條在該篇文章中相對于同類文章更加重要。

由于LL算法需要與外部語料庫進行對比，因此可以和TextRank不需要外部語料庫的優勢進行互補，從而更有效地提升現有算法的應用效果。

1.2TextRank算法

TextRank一般模型可以表示為一個有向有權圖G=（V， E），由點集合V和邊集合E組成，E是V×V的子集。圖中任兩點Vi、Vj之間邊的權重為wji，對于一個給定的點Vi，In（Vi）為指向該點的點集合，Out（Vi）為點Vi指向的點集合。點Vi的得分定義如下：

S（Vi）=（1-d）+d×∑j∈In（Vj）1|Out（Vj）|S（Vj）（3）

其中，d為阻尼系數，取值范圍為0～1，代表從圖中某一特定點指向其它任意點的概率，一般取值為0.85。上述公式表示當前節點Vi的值為：所有指向Vi的節點Vj給予的值的和。使用TextRank算法計算圖中各點得分時，需要給圖中的點指定任意初值，并遞歸計算直到收斂，即圖中任意一點的誤差率小于給定的極限值時即可達到收斂，一般該極限值取0.000 1。

2算法描述

Textrank的初始權值都為1，如圖1所示。由節點A到達其它節點的轉移概率相同，但是其它節點在文章中的重要性不同，所以轉移概率也應該不同，所以對兩點轉移概率即兩點間的有向實線進行權值設置。

其中w代表轉移概率，兩個詞條之間的權重即代表跳轉概率，在這里通過似然對數比對詞條之間進行權重賦值。如果LL值很高，說明該詞條在本文出現的頻率遠高于同類文本中該詞條出現的頻率，則該詞條越重要。參考張莉婧[9]和夏天[10]的賦值方法，用Loglikelihood進行權值計算如下：

Wi=LLiLLmax（4）

將權值公式（4）帶入公式（3）后，新的計算公式為：

S（Vi）=（1-d）*LLiLLmax+d*LLiLLmax∑Vi∈Out（Vj）

Wij∑Vi∈Out（Vj）WjkS（Vi）（5）

算法具體實現如下：

（1）設置參考語料庫。參考語料庫最好是能夠與測試文本類型相同的大量語料，以計算出詞頻表。在這里使用兩種語料庫進行對比，一種為《現代漢語語料庫分詞類詞頻表》，另一種為自己爬蟲的1 000篇相同類型的文獻，進行詞頻表計算。

（2）文本處理。使用jieba分詞工具對文本進行處理，去除停止詞等不需要的詞匯，將文本分為詞條組，并統計每種詞條的頻率，以便于進行LogLikelihood計算[11]。

（3）獲得參考語料庫詞頻以及觀察語料庫詞頻后通過公式（1）、（4）進行計算，獲得權重。

（4）構建加權的TextRank圖模型，通過公式（5）計算至收斂后進行排序，獲得關鍵詞。

3實驗分析

3.1實驗數據來源

本實驗選擇的實驗數據為：①以搜狐新聞為目標，爬取1 000篇社會欄目新聞，并且包含關鍵詞，保存為xml格式。以此為參考語料庫進行詞頻統計，生成詞頻表。以相同欄目的100篇文章為測試語料庫；②參考語料庫為《現代漢語語料庫分詞類詞頻表》。將兩種不同語料庫進行對比，更能體現出語料庫的作用以及對TextRank算法的提升。

3.2實驗環境

融合LogLikelihood和TextRank算法的關鍵詞抽取算法使用Python2.7實現，分詞以及頻率的統計采用jieba分詞工具，利用Python2.7實現。jieba分詞工具準確率高、速度快。使用Macbook pro機器，內存16G，系統為OS。

3.3實驗結果

實驗主要是測試改進后的算法對于TextRank算法是否有所提升。將從搜狐新聞爬取的1 000篇社會類新聞進行語料庫生成，計算出頻率詞條集，用時30min。所爬取的文本所帶關鍵詞大多為3個，即將關鍵詞的個數設置為3，選擇窗口大小為5。

目前關鍵詞抽取算法效果評判標準有準確率P、召回率R以及F值，計算公式如下：

P=抽取結果中與文本自帶關鍵詞相同的個數文本自帶關鍵詞總數

R=抽取結果中與文本自帶關鍵詞相同的個數抽取關鍵詞總數

Fmeasure=2PR（P+R）

通過對100篇測試語料文本進行抽取實驗，算法對比如圖3所示，對其進行深入分析并得出如下結論：

TextRankLL算法對于TextRank算法有一定程度的改進，關鍵詞抽取準確率得到提升。

以現代漢語分詞頻率表為參考預料庫的提升遠小于以同類文本為基礎生成的文本詞頻表的提升，所以參考語料庫對于該改進算法有一定影響，越是與測試語料庫同類的文本庫生成的詞頻表，對于TextRank的提升越多。

融合了LogLikelihood和TextRank算法的關鍵詞抽取即TextRankLL算法，便于Loglikelihood的參考語料庫與測試語料庫的詞頻對比，提升了抽取準確率，但也存在一些不足，因此本文提出如下改進：①使用大量訓練文檔進行訓練，從而使參考語料庫的詞條頻率表更加準確；②訓練文檔的選取能夠和測試文檔相關，最好為同類，詞條頻率才會更加穩定和準確；③通過Hadoop集群計算提高速度。

綜上所述，融合了LogLikelihood算法和TextRank算法的文本關鍵詞抽取算法的主要優勢是結合了前者需要和外部文檔進行比較以及后者的獨立性，使其在準確率、召回率、Fmeasure值上都有一定程度提高，但是提高不是很明顯，比較適合有大量同類型文本作參考語料庫時的文本關鍵詞抽取。同時，其對于時間的消耗也有所上升。本文的結果以及算法對關鍵詞抽取技術的研究有一定借鑒意義，但仍有很大提升空間。

4結語

本文基于LogLikelihood算法進行參考文本與觀察文本之間的詞頻關系計算，以改進TextRank算法的詞條初始權重問題。實驗結果表明，參考語料庫文本的數量和類型對于準確率等有一定影響，在提高抽取準確率的同時也造成了時間消耗增加。所以，下一步的研究方向是如何確定更加合理的參考語料庫以及如何縮短時間。

參考文獻參考文獻：

[1]MIHALCEA R， TARAU P. TextRank： bringing order into texts[C].Conference on Empirical Methods in Natural Language Processing， EMNLP， 2004：404411.

[2]FRANK E， PAYNTER G W， WITTEN I H， et al. Domainspecific keyphrase extraction[C]. ACM CIKM International Conference on Information and Knowledge Management， Bremen， Germany，1999：283284.

[3]鄧丹君，姚莉.基于改進TFIDF的微博短文本特征詞提取算法[J].軟件導刊，2016，15（6）：4850.

[4]MIHALCEA R， TARAU P. TextRank： bringing order into texts[J]. Unt Scholarly Works， 2004：404411.

[5]夏天.詞語位置加權TextRank的關鍵詞抽取研究[J].現代圖書情報技術，2013，29（9）：3034.

[6]顧益軍.融合LDA與TextRank的關鍵詞抽取研究[J].現代圖書情報技術，2014，30（7）：4147.

[7]姬弘飛.基于TextRank與LogLikelihood的Chrome瀏覽器中文詞云插件的設計與開發[D].北京：北京外國語大學，2015.

[8]李國臣.文本分類中基于對數似然比測試的特征詞選擇方法[J].中文信息學報，1999，13（4）：1722.

[9]張莉婧，李業麗，曾慶濤，等.基于改進TextRank的關鍵詞抽取算法[J].北京印刷學院學報，2016，24（4）：5155.

[10]夏天.詞向量聚類加權TextRank的關鍵詞抽取[J].數據分析與知識發現，2017（2）：2834.

[11]MIKOLOV T， CHEN K， CORRADO G， et al. Efficient estimation of word representations in vector space[J]. Computer Science， 2013.

責任編輯（責任編輯：黃健）