姚堯
(四川大學計算機學院,成都 610065)
自動關鍵短語抽取綜述
姚堯
(四川大學計算機學院,成都 610065)
自動關鍵短語抽取是知識抽取和信息檢索等信息技術的關鍵步驟,當前已經被廣泛研究多年,但是和許多自然語言處理任務的性能相比,現有抽取算法的性能依然很低下。對自動關鍵短語抽取方法進行綜述,并對其未來研究發展進行展望,為進一步自動抽取高質量的關鍵短語提供良好借鑒。
自動關鍵短語抽取;自然語言處理;抽取算法;性能
文檔的關鍵短語可以保證對大規模的文檔進行快速和精確的查詢,并廣泛應用于文本摘要[1]、文本分類[2]、情感挖掘[5]、文檔索引等自然語言處理(NLP)和信息檢索(IR)任務。但實際中很少有文檔標注了關鍵短語,手工去添加關鍵短語是一項很繁重的工作。因此需要一種方法去自動抽取關鍵短語。
自動關鍵短語抽取是從文檔中自動抽取具有重要性和主題性的短語。因為關鍵短語的重要性,自動關鍵短語抽取受到了很大的關注。但是,其任務離真正解決還有很長的距離。相比于許多的核心自然語言處理任務,當前自動關鍵短語抽取方法的性能仍然很低下。本文的目標是對自動關鍵短語抽取方法進行綜述,分析各方法的優缺點,并討論目前遇到的挑戰。
一個通用的關鍵短語抽取系統主要分為2步:①利用一些啟發式方法抽取多個詞或者短語作為候選關鍵短語;②利用有監督或者無監督方法判斷候選關鍵短語是否是正確的關鍵短語。
如上所述,候選關鍵短語通過啟發式規則抽取。設計這些規則用來避免錯誤的候選和保持候選數目最小。典型的啟發式方法包括:①利用停用詞表來去除停用詞;②利用特有的詞性標簽來作為候選關鍵短語,例如名詞、形容詞、動詞;③抽取出現在維基百科條目標題中的N元組來作為候選關鍵短語;④抽取滿足預定義詞匯模板的N元組或者名詞短語。
早期的有監督方法把關鍵短語抽取當做一個二分類問題[11]。目標是從標注好關鍵短語的文檔中訓練一個分類器來判斷一個候選短語是否是關鍵短語。關鍵短語和非關鍵短語分別用于生成正例和負例。不同的學習算法可以用來訓練該分類器,包括樸素貝葉斯、決策樹、最大熵和支持向量機等分類算法。
劉玲玲等人[4]提出了一種利用決策樹訓練分類器解決關鍵短語抽取的方法。將文檔中詞的詞性、首位置、詞語頻次作為決策樹分類的特征。并加入了詞在文檔中出現的位置信息,對詞的權重進性調整。最后采用十折交叉驗證和Bagging重采樣技術進行決策樹關鍵短語的抽取。部分匹配的F值達到了54.49%。
單純地把關鍵短語抽取當做二分類問題有一定的缺陷。關鍵短語抽取的目標是識別文檔中最具代表性的短語。但是二分類器在分類時單獨考慮每個候選關鍵短語,導致無法比較候選關鍵短語之間的好壞。受這種發現的啟發,Jiang[7]等人提出了一種關鍵短語抽取的排序方法,利用TF-IDF、短語長度、首次出現位置以及是否出現在標題作為特征,使用Rank_SVM學習一個排序器對兩個候選關鍵短語排序。這種值對排序方法表現了候選短語之間的比較,并且其結果比KEA[8]有明顯的提高。
存在的無監督關鍵短語抽取方法可以分為2類:基于圖的排序方法和基于主題的聚類方法。
4.1 基于圖的排序方法
基于圖的方法的基本思想是從輸入文檔中建立一個圖,然后利用基于圖的排序方法根據頂點的重要性對它排序,圖的每個頂點相當于文檔中的候選關鍵短語,圖的每條邊連接2個相關的候選。邊的權重相當于相互連接的候選之間的語義相關度。TextRank[6]是一種關鍵短語抽取中比較著名的基于圖的方法。圖中每個節點的得分根據當前節點的鄰居節點的得分遞歸得到,然后選擇圖中排名高的候選作為輸入文檔的關鍵短語。
夏天[3]基于TextRank的思想,在此基礎上引入了頻度影響力、覆蓋影響力和位置影響力來計算短語之間的影響力轉移矩陣,然后不斷迭代得到候選構建短語的分值,選取前N個短語作為關鍵短語。實驗結果表明,在TextRank上進行短語位置加權的方法優于傳統的TextRank方法。
但是基于圖的方法忽略了一個關鍵短語抽取中的重要概念,文檔中的一組關鍵短語應該覆蓋文檔中提及的主要主題,但是該方法并沒有關注這個問題,所有的主題并沒有被抽取的關鍵短語代表。盡管有這種缺點,但是基于圖代表文本的思想還是被很多的方法采用,并提出了不同的計算兩個候選之間相似度的算法。
4.2 基于主題的聚類方法
基于主題的聚類方法是把文檔中的候選關鍵短語聚合成主題,每個主題由所有和該主題相關的候選關鍵短語組成。采用基于主題的聚類方法有很多動機:①抽取的關鍵短語的綜合語義應該覆蓋文檔中所有主要的主題。②一個關鍵短語應該和文檔中提及的一個或多個主要主題相關。Liu等人[9]提出了一種KeyCluster系統,利用維基百科和共現來聚類語義相似的候選關鍵短語。每個聚類對應于一個文檔中的主題,然后選取靠近每個聚類中心的候選關鍵短語作為關鍵短語。實驗結果顯示KeyCluster性能優于TextRank,但是Key-Cluster有個潛在的缺點,在從每個主題聚類中抽取關鍵短語時,該系統賦予了每個主題相同的重要性。實際上,文檔中具有某些并不重要的主題,這些不重要的主題不應該被關鍵短語代表。Grineva等人[10]提出了一種利用社區發現的關鍵短語抽取系統,該系統給更重要的主題賦予了更多的權重,利用維基百科建立了語義圖,然后通過社區發現算法挖掘語義圖中的社區聚類,最后從有價值的社區聚類中抽取所有的候選關鍵短語作為文檔的關鍵短語。該方法相比于TF-IDF,TextRank方法在不損失精確率的情況下,得到了更高的召回率。
本文主要對當前的自動關鍵短語抽取進行綜述,介紹了具有代表性的有監督和無監督方法,并分析它們的優缺點,盡管目前自動關鍵短語抽取取得了較大的進展,但是依舊面臨著較多的挑戰。針對長文檔自動關鍵短語抽取精確率低的問題需要設計更好的算法;在有監督模型訓練時,存在正例與反例數量不平衡的問題,如何解決需要作進一步工作;當前很多方法都只關注算法的改進,如何引入背景知識也是需要解決的問題。
[1] 江開忠,李子成,顧君忠.自動文本摘要方法[J].計算機工程,2008,34(1):221~223
[2] 羅杰,陳力,夏德麟,等.基于新的關鍵詞提取方法的快速文本分類系統[J].計算機應用研究,2006,23(4):32~34
[3] 夏天.詞語位置加權TextRank的關鍵詞抽取研究[J].現代圖書情報技術,2013,29(9):30~34
[4] 劉玲玲,梁穎紅,張永剛等.基于決策樹的關鍵短語抽取[J].江南大學學報(自然科學版),2010,9(1)
[5] Berend G.Opinion Expression Mining by Exploiting Keyphrase Extraction[C].IJCNLP.2011:1162~1170
[6] Mihalcea R,Tarau P.TextRank:Bringing Order Into Texts[C].Association for Computational Linguistics,2004
[7] Jiang X,Hu Y,Li H.A Ranking Approach to Keyphrase Extraction[C].Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2009:756~757[8] Frank E,Paynter G W,Witten I H,et al.Domain-Specific Keyphrase Extraction[J],1999
[9] Liu Z,Li P,Zheng Y,et al.Clustering to Find Exemplar Terms for Keyphrase Extraction[C].Association for Computational Linguistics, 2009:257~266
[10] Grineva M,Grinev M,Lizorkin D.Extracting Key Terms from Noisy and Multitheme Documents[C].ACM,2009:661~670
[11] Turney P D.Learning Algorithms for Keyphrase Extraction[J].Information Retrieval,2000,2(4):303~336
Overview of Automatic Keyphrase Extraction
YAO Yao
(School of Computer Science,Sichuan University,Chengdu 610065)
Automatic keyphrase extraction is a key step knowledge extraction and information retrieval of information technology,the current has been extensively studied for many years,but many properties as compared to natural language processing tasks,the performance of existing extraction algorithm remains low down.Reviews phrase for automatic extraction methods,and prospects for its future research and development,to provide a good reference for further automatically extract keyphrases of high quality.
Automatic Keyphrase Extraction;Natural Language Processing;Extraction Algorithm;Performance
1007-1423(2015)04-0013-03
10.3969/j.issn.1007-1423.2015.04.003
姚堯(1990-),男,重慶人,在讀碩士研究生,研究方向為數據挖掘
2014-12-02
2014-12-18