楊祎,萬琪
(四川大學計算機學院,成都 610065)
自動關鍵詞抽取在中文專利文本中的研究綜述
楊祎,萬琪
(四川大學計算機學院,成都 610065)
隨著知識經濟的快速發展,對專利文本的分析與研究可以幫助人們了解新技術,推測技術的發展方向。自動關鍵詞抽取在中文專利文本的分析與研究中有著至關重要的意義。介紹一些目前已有的自動關鍵詞抽取技術成果,包括有監督方法和無監督方法,并對關鍵詞抽取的評價指標做簡單的介紹。
專利文本;關鍵詞抽取;有監督方法;無監督方法;評價指標
專利文獻是人類社會技術信息的重要載體,它包含了全世界90%的最新技術信息,專利文獻的數量也伴隨著技術的發展而快速地增長。隨著社會知識經濟的深入發展,知識產權也日益成為國家和企業發展的戰略性資源和核心競爭力[1]。而中國對于知識產權還的保護還不夠重視,在專利文本方面的研究也落后于其他國家。因此,從龐大的專利文本中分析和挖掘出信息顯得尤為重要,通過分析專利中的詳細技術信息、類型與發展趨勢,我們可以推測出新的技術發展方向和方法,甚至開發出新的技術應用領域。
然而,專利文本的數據結構相對復雜,而且大部分篇幅很長,關鍵詞作為表達文章主題和意思的短語,可以幫助人們在大量的文本集中快速而又精確查找一篇文章并了解文章的主要內容,在提升許多自然語言處理和信息檢索任務中有著顯著的效果,如文本摘要、文本分類聚類,觀點挖掘、文檔索引等。考慮到關鍵詞的重要性,自動關鍵詞抽取受到很多的關注,但是,結合現有的研究,關鍵詞抽取的性能仍然低于很多其他的自然語言處理任務[2,10]。本文主要介紹了最新的專利文本關鍵詞抽取方法和現有系統的主要問題。
相比于現有的其他類型的語料,如新聞、微博、郵件等,專利文本語料主要有著以下特點:
領域廣泛性:專利文本里的詞匯涉及領域很廣,擁有大量專業術語,而且隨著新技術的發展以及新領域的產生,還會不斷出現新的術語。例如“人工智能”、“大數據”等都是隨著信息技術領域的發展而出現的新的專業詞匯。
領域相關性:專利文本中的詞匯有時會具有極強的專業性,即某詞匯在某個特定領域內經常被使用,在其他領域或者是普通文本內則很少被使用。例如“疫苗株”、“抗原”等詞,在醫學領域的專利文獻中經常會被使用,而在其他領域的專利文獻或者是普通文本中卻極少出現。
規則性:因為國家對于專利申請有一定的規范,所以專利文本中的詞匯用詞嚴謹,遵循一定的規則,通常很少會有歧義的用語。
一般關鍵詞抽取分為兩個步驟:(1)利用一些啟發式規則抽取詞或短語集充當取候選關鍵詞;(2)檢測候選關鍵詞是否正確,有監督方法和無監督方法兩種。
2.1 抽取候選
用一些啟發式規則,去除掉錯誤的詞。規則包含:(1)去除停用詞;(2)詞性標注候選;(3)允許出現在維基百科標題中的N元語法成為候選短語;(4)N元語法滿足預定義詞匯-句法的模式[3]。
2.2 有監督方法
在早期,有監督方法將關鍵詞抽取任務看做是一個二分類問題,方法的主要目標就是訓練一個分類器判斷候選短語是否是關鍵詞,常用的分類器如,樸素貝葉斯、決策樹分類、最大熵模型、多層感知機和支持向量機等[4]。分類隱含的假設候選短語之間條件獨立,因此,通過分類不能比較兩個候選之間的優先級。另一種是基于排序的方法,解決了將關鍵詞抽取看做是分類問題的缺點,該方法學習一個排序器對兩個候選短語進行排序,排序后越靠前的候選越可能是關鍵詞[5]。
2.3 無監督方法
(1)基于圖的排序TextRank算法
從輸入文本建立一個圖G={V,E}并利用基于圖的排序方法根據重要性對節點進行排序[6]。其中節點V=(w1,w2,…,wn)代表候選短語的集合,N為候選短語節點的個數,E=(wi,wj)表示節點相連的邊的集合,Text Rank的打分思想依然是從PageRank的迭代思想衍生過來的,候選短語的得分由公式(1)計算。

其中:

上述的公式中e(wj,wi)為候選短語節點wj→wi邊上的權重,表示兩個候選短語之間的語義相似性,λ是平滑因子,V表示節點的集合。
一個關鍵詞序列應該覆蓋文章中所討論的主題,但是,基于圖的排序算法不能保證抽取的關鍵詞能代表所有的主題。
(2)基于主題聚類Topical PageRank算法
為了解決基于圖的排序算法的缺點,提出了基于主題的聚類的Topical PageRank方法,將候選短語通過主題進行分組,每一個主題都是由主題相關的候選短語組成?;谥黝}聚類方法的動機:關鍵詞應該與文章中討論的一個或多個主題相關聯、抽取關鍵詞應該從意義上綜合覆蓋文章中的所有主題[7]。該方法對文檔多次運行PageRank,通過對每一個主題運行PageRank保證抽取的關鍵詞能覆蓋文章中的所有主題。
Topical PageRank算法步驟如圖1所示:

圖1 關鍵詞抽取Topical PageRank算法
候選短語的得分通過每一個主題得分與主題在文章中的概率加權和來計算[8],公式如(3):

其中:

上述的公式中e(wj,wi)為候選短語節點wj→wi邊上的權重,表示兩個候選短語之間的語義相似性,λ是平滑因子,pz(wi)表示詞在主題中的隨機游走概率。
(3)基于語言模型的方法(Language Modeling)
許多現在的方法分步進行關鍵詞抽取,在關鍵詞排序或抽取之前先采用一些啟發式規則抽取候選關鍵詞,因此,提出了一種結合兩步的關鍵詞抽取方法[9],該方法基于兩種特征對候選關鍵詞打分,這兩種特征分別是phraseness(一個詞序能被當做是短語的程度)和informativeness(一個詞序能表達它在其中出現的文檔的中心思想的程度),根據兩種特征值的和對候選短語進行排序。
總而言之,LMA(Language Modeling Approach)用語言模型而不是啟發式規則判斷短語,它使得我們能夠發現在文檔中tf*idf值低的關鍵詞。
關鍵詞抽取常用的評價指有precision精確率、recall召回率和F-score(F值)[11],由公式(4)、(5)和(6)計算得到。

關鍵詞抽取作為一個重要的研究領域在自然語言處理和信息檢索任務中有著很重要的作用,隨著新技術的提出和完善,這一研究方向的工作也越來越成熟,但是,最新的關鍵詞抽取系統的性能還遠遠低于其他自然語言處理任務,因此,我們需要更多的研究者們深入研究關鍵詞抽取,這不僅僅是挑戰,也是機遇。
[1]于正河,李娜.論知識產權化.東方論壇,2009(5).
[2]Zhi-yuan Liu,Wen-yi Huang,Ya-bin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.
[3]Chau Q.Nguyen,Tuoi T.Phan.Anontology-Based Approach for Key Phrase Extraction,2009.
[4]Peter Turney.Learning Algorithms for Keyphrase Extraction,2000.
[5]Chen Wang,Su-jian Li.CoRankBayes:Bayesian Learning to Rank under the Co-Training Framework and Its Application in Keyphrase Extraction,2011.
[6]Adrien Bougouin,Florian Boudin,B'eatrice Daille.Topicrank:Graph-Based Topic Ranking for Keyphrase Extraction,2013.
[7]Zhi-yuan Liu,Chen Liang,Mao-song Sun.Topical Word Trigger Model for Keyphrase Extraction,2012.
[8]Zhi-yuan Liu,Wen-yi Huang,Ya-bin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.
[9]Takashi Tomokiyo,Matthew Hurst.A Language Model Approach to Keyphrase Extraction,2003.
[10]Kazi Saidul Hasan,Vincent NgAutomatic Keyphrase Extraction:A Survey of the State of the Art,2014.
[11]Su Nam Kim,Timothy Baldwin,Min-Yen Kan.Evaluating N-gram Based Evaluation Metrics for Automatic Keyphrase Extraction,2010.
Survey of Automatic Keyphrase Extraction for Patent Text
YANG Yi,WAN Qi
(College of Computer Science,Sichuan University,Chengdu 610065)
With the rapid development of the knowledge economy,the analysis and research on patent text is useful for to comprehend the state of the art and prediction the development direction of the technology.Automatic keyword extraction is significant for the analysis and Research of the patent text.Presents a survey of current commonly automatic keyword extraction techniques that including supervised methods and unsupervised methods,and briefly introduces the evaluation metrics of keyword extraction.
PatentText;Keyphrase Extaction;Supervised Approaches;Unsupervised Approaches;Evaluation Metrics
1007-1423(2017)02-0029-03
10.3969/j.issn.1007-1423.2017.02.007
楊祎(1993-),女,四川南充人,碩士研究生,研究方向為自然語言處理
2016-11-01
2016-12-28
萬琪(1991-),男,湖北荊門人,碩士研究生,研究方向為自然語言處理