999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自動關鍵詞抽取在中文專利文本中的研究綜述

2017-02-23 06:48:40楊祎萬琪
現代計算機 2017年2期
關鍵詞:排序監督文本

楊祎,萬琪

(四川大學計算機學院,成都 610065)

自動關鍵詞抽取在中文專利文本中的研究綜述

楊祎,萬琪

(四川大學計算機學院,成都 610065)

隨著知識經濟的快速發展,對專利文本的分析與研究可以幫助人們了解新技術,推測技術的發展方向。自動關鍵詞抽取在中文專利文本的分析與研究中有著至關重要的意義。介紹一些目前已有的自動關鍵詞抽取技術成果,包括有監督方法和無監督方法,并對關鍵詞抽取的評價指標做簡單的介紹。

專利文本;關鍵詞抽取;有監督方法;無監督方法;評價指標

0 引言

專利文獻是人類社會技術信息的重要載體,它包含了全世界90%的最新技術信息,專利文獻的數量也伴隨著技術的發展而快速地增長。隨著社會知識經濟的深入發展,知識產權也日益成為國家和企業發展的戰略性資源和核心競爭力[1]。而中國對于知識產權還的保護還不夠重視,在專利文本方面的研究也落后于其他國家。因此,從龐大的專利文本中分析和挖掘出信息顯得尤為重要,通過分析專利中的詳細技術信息、類型與發展趨勢,我們可以推測出新的技術發展方向和方法,甚至開發出新的技術應用領域。

然而,專利文本的數據結構相對復雜,而且大部分篇幅很長,關鍵詞作為表達文章主題和意思的短語,可以幫助人們在大量的文本集中快速而又精確查找一篇文章并了解文章的主要內容,在提升許多自然語言處理和信息檢索任務中有著顯著的效果,如文本摘要、文本分類聚類,觀點挖掘、文檔索引等。考慮到關鍵詞的重要性,自動關鍵詞抽取受到很多的關注,但是,結合現有的研究,關鍵詞抽取的性能仍然低于很多其他的自然語言處理任務[2,10]。本文主要介紹了最新的專利文本關鍵詞抽取方法和現有系統的主要問題。

1 專利文本

相比于現有的其他類型的語料,如新聞、微博、郵件等,專利文本語料主要有著以下特點:

領域廣泛性:專利文本里的詞匯涉及領域很廣,擁有大量專業術語,而且隨著新技術的發展以及新領域的產生,還會不斷出現新的術語。例如“人工智能”、“大數據”等都是隨著信息技術領域的發展而出現的新的專業詞匯。

領域相關性:專利文本中的詞匯有時會具有極強的專業性,即某詞匯在某個特定領域內經常被使用,在其他領域或者是普通文本內則很少被使用。例如“疫苗株”、“抗原”等詞,在醫學領域的專利文獻中經常會被使用,而在其他領域的專利文獻或者是普通文本中卻極少出現。

規則性:因為國家對于專利申請有一定的規范,所以專利文本中的詞匯用詞嚴謹,遵循一定的規則,通常很少會有歧義的用語。

2 關鍵詞抽取方法

一般關鍵詞抽取分為兩個步驟:(1)利用一些啟發式規則抽取詞或短語集充當取候選關鍵詞;(2)檢測候選關鍵詞是否正確,有監督方法和無監督方法兩種。

2.1 抽取候選

用一些啟發式規則,去除掉錯誤的詞。規則包含:(1)去除停用詞;(2)詞性標注候選;(3)允許出現在維基百科標題中的N元語法成為候選短語;(4)N元語法滿足預定義詞匯-句法的模式[3]。

2.2 有監督方法

在早期,有監督方法將關鍵詞抽取任務看做是一個二分類問題,方法的主要目標就是訓練一個分類器判斷候選短語是否是關鍵詞,常用的分類器如,樸素貝葉斯、決策樹分類、最大熵模型、多層感知機和支持向量機等[4]。分類隱含的假設候選短語之間條件獨立,因此,通過分類不能比較兩個候選之間的優先級。另一種是基于排序的方法,解決了將關鍵詞抽取看做是分類問題的缺點,該方法學習一個排序器對兩個候選短語進行排序,排序后越靠前的候選越可能是關鍵詞[5]。

2.3 無監督方法

(1)基于圖的排序TextRank算法

從輸入文本建立一個圖G={V,E}并利用基于圖的排序方法根據重要性對節點進行排序[6]。其中節點V=(w1,w2,…,wn)代表候選短語的集合,N為候選短語節點的個數,E=(wi,wj)表示節點相連的邊的集合,Text Rank的打分思想依然是從PageRank的迭代思想衍生過來的,候選短語的得分由公式(1)計算。

其中:

上述的公式中e(wj,wi)為候選短語節點wj→wi邊上的權重,表示兩個候選短語之間的語義相似性,λ是平滑因子,V表示節點的集合。

一個關鍵詞序列應該覆蓋文章中所討論的主題,但是,基于圖的排序算法不能保證抽取的關鍵詞能代表所有的主題。

(2)基于主題聚類Topical PageRank算法

為了解決基于圖的排序算法的缺點,提出了基于主題的聚類的Topical PageRank方法,將候選短語通過主題進行分組,每一個主題都是由主題相關的候選短語組成?;谥黝}聚類方法的動機:關鍵詞應該與文章中討論的一個或多個主題相關聯、抽取關鍵詞應該從意義上綜合覆蓋文章中的所有主題[7]。該方法對文檔多次運行PageRank,通過對每一個主題運行PageRank保證抽取的關鍵詞能覆蓋文章中的所有主題。

Topical PageRank算法步驟如圖1所示:

圖1 關鍵詞抽取Topical PageRank算法

候選短語的得分通過每一個主題得分與主題在文章中的概率加權和來計算[8],公式如(3):

其中:

上述的公式中e(wj,wi)為候選短語節點wj→wi邊上的權重,表示兩個候選短語之間的語義相似性,λ是平滑因子,pz(wi)表示詞在主題中的隨機游走概率。

(3)基于語言模型的方法(Language Modeling)

許多現在的方法分步進行關鍵詞抽取,在關鍵詞排序或抽取之前先采用一些啟發式規則抽取候選關鍵詞,因此,提出了一種結合兩步的關鍵詞抽取方法[9],該方法基于兩種特征對候選關鍵詞打分,這兩種特征分別是phraseness(一個詞序能被當做是短語的程度)和informativeness(一個詞序能表達它在其中出現的文檔的中心思想的程度),根據兩種特征值的和對候選短語進行排序。

總而言之,LMA(Language Modeling Approach)用語言模型而不是啟發式規則判斷短語,它使得我們能夠發現在文檔中tf*idf值低的關鍵詞。

3 評價指標

關鍵詞抽取常用的評價指有precision精確率、recall召回率和F-score(F值)[11],由公式(4)、(5)和(6)計算得到。

4 結語

關鍵詞抽取作為一個重要的研究領域在自然語言處理和信息檢索任務中有著很重要的作用,隨著新技術的提出和完善,這一研究方向的工作也越來越成熟,但是,最新的關鍵詞抽取系統的性能還遠遠低于其他自然語言處理任務,因此,我們需要更多的研究者們深入研究關鍵詞抽取,這不僅僅是挑戰,也是機遇。

[1]于正河,李娜.論知識產權化.東方論壇,2009(5).

[2]Zhi-yuan Liu,Wen-yi Huang,Ya-bin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.

[3]Chau Q.Nguyen,Tuoi T.Phan.Anontology-Based Approach for Key Phrase Extraction,2009.

[4]Peter Turney.Learning Algorithms for Keyphrase Extraction,2000.

[5]Chen Wang,Su-jian Li.CoRankBayes:Bayesian Learning to Rank under the Co-Training Framework and Its Application in Keyphrase Extraction,2011.

[6]Adrien Bougouin,Florian Boudin,B'eatrice Daille.Topicrank:Graph-Based Topic Ranking for Keyphrase Extraction,2013.

[7]Zhi-yuan Liu,Chen Liang,Mao-song Sun.Topical Word Trigger Model for Keyphrase Extraction,2012.

[8]Zhi-yuan Liu,Wen-yi Huang,Ya-bin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.

[9]Takashi Tomokiyo,Matthew Hurst.A Language Model Approach to Keyphrase Extraction,2003.

[10]Kazi Saidul Hasan,Vincent NgAutomatic Keyphrase Extraction:A Survey of the State of the Art,2014.

[11]Su Nam Kim,Timothy Baldwin,Min-Yen Kan.Evaluating N-gram Based Evaluation Metrics for Automatic Keyphrase Extraction,2010.

Survey of Automatic Keyphrase Extraction for Patent Text

YANG Yi,WAN Qi

(College of Computer Science,Sichuan University,Chengdu 610065)

With the rapid development of the knowledge economy,the analysis and research on patent text is useful for to comprehend the state of the art and prediction the development direction of the technology.Automatic keyword extraction is significant for the analysis and Research of the patent text.Presents a survey of current commonly automatic keyword extraction techniques that including supervised methods and unsupervised methods,and briefly introduces the evaluation metrics of keyword extraction.

PatentText;Keyphrase Extaction;Supervised Approaches;Unsupervised Approaches;Evaluation Metrics

1007-1423(2017)02-0029-03

10.3969/j.issn.1007-1423.2017.02.007

楊祎(1993-),女,四川南充人,碩士研究生,研究方向為自然語言處理

2016-11-01

2016-12-28

萬琪(1991-),男,湖北荊門人,碩士研究生,研究方向為自然語言處理

猜你喜歡
排序監督文本
排序不等式
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
恐怖排序
在808DA上文本顯示的改善
節日排序
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 中文字幕在线免费看| 狠狠亚洲五月天| 亚洲伊人电影| 亚洲天堂精品在线| 538精品在线观看| 色精品视频| 国产欧美综合在线观看第七页| 成人免费视频一区| 国产一级在线播放| 中文字幕啪啪| 天天综合色网| 福利在线免费视频| 亚洲国产日韩一区| 2022精品国偷自产免费观看| 久久国产精品无码hdav| 欧美日韩福利| 少妇人妻无码首页| 国产精品人莉莉成在线播放| 国产精品蜜芽在线观看| 精品福利视频导航| 奇米精品一区二区三区在线观看| 色婷婷亚洲综合五月| 国产国语一级毛片在线视频| 99国产在线视频| 人妻丝袜无码视频| 亚洲美女视频一区| 国产成人高清亚洲一区久久| 在线观看国产小视频| 狠狠做深爱婷婷久久一区| 国产精品漂亮美女在线观看| 久久婷婷综合色一区二区| a天堂视频| 香蕉久久国产超碰青草| 啪啪永久免费av| 国产精品一区二区无码免费看片| 伊人久久精品亚洲午夜| 99热国产在线精品99| 日韩成人午夜| 欧美激情综合| 丝袜亚洲综合| 欧美视频二区| 91人人妻人人做人人爽男同 | 国产AV毛片| 美女被操黄色视频网站| 欧美a在线视频| 人与鲁专区| 内射人妻无套中出无码| 亚洲精品高清视频| 日韩精品专区免费无码aⅴ| 高清不卡一区二区三区香蕉| 欧美成人午夜视频免看| 91在线无码精品秘九色APP| 99伊人精品| 成人国产一区二区三区| 国产欧美日韩在线一区| 最新亚洲人成无码网站欣赏网| a毛片免费在线观看| 伊人网址在线| 91口爆吞精国产对白第三集| 欧美第九页| 久久99蜜桃精品久久久久小说| 欧美激情福利| 免费无码又爽又刺激高| 青青青视频免费一区二区| 国产女人在线视频| 亚洲天堂成人在线观看| 国产激情影院| 亚洲精品黄| 久久77777| 极品国产一区二区三区| 永久免费无码成人网站| 亚洲热线99精品视频| 中文字幕久久波多野结衣| 国产在线精品人成导航| 国产传媒一区二区三区四区五区| 91精品啪在线观看国产91九色| 永久免费精品视频| 日韩精品久久久久久久电影蜜臀| 青草91视频免费观看| 色综合五月婷婷| av在线无码浏览| 欧美成人精品在线|