999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自動關鍵詞抽取在中文專利文本中的研究綜述

2017-02-23 06:48:40楊祎萬琪
現代計算機 2017年2期
關鍵詞:排序監督文本

楊祎,萬琪

(四川大學計算機學院,成都 610065)

自動關鍵詞抽取在中文專利文本中的研究綜述

楊祎,萬琪

(四川大學計算機學院,成都 610065)

隨著知識經濟的快速發展,對專利文本的分析與研究可以幫助人們了解新技術,推測技術的發展方向。自動關鍵詞抽取在中文專利文本的分析與研究中有著至關重要的意義。介紹一些目前已有的自動關鍵詞抽取技術成果,包括有監督方法和無監督方法,并對關鍵詞抽取的評價指標做簡單的介紹。

專利文本;關鍵詞抽取;有監督方法;無監督方法;評價指標

0 引言

專利文獻是人類社會技術信息的重要載體,它包含了全世界90%的最新技術信息,專利文獻的數量也伴隨著技術的發展而快速地增長。隨著社會知識經濟的深入發展,知識產權也日益成為國家和企業發展的戰略性資源和核心競爭力[1]。而中國對于知識產權還的保護還不夠重視,在專利文本方面的研究也落后于其他國家。因此,從龐大的專利文本中分析和挖掘出信息顯得尤為重要,通過分析專利中的詳細技術信息、類型與發展趨勢,我們可以推測出新的技術發展方向和方法,甚至開發出新的技術應用領域。

然而,專利文本的數據結構相對復雜,而且大部分篇幅很長,關鍵詞作為表達文章主題和意思的短語,可以幫助人們在大量的文本集中快速而又精確查找一篇文章并了解文章的主要內容,在提升許多自然語言處理和信息檢索任務中有著顯著的效果,如文本摘要、文本分類聚類,觀點挖掘、文檔索引等。考慮到關鍵詞的重要性,自動關鍵詞抽取受到很多的關注,但是,結合現有的研究,關鍵詞抽取的性能仍然低于很多其他的自然語言處理任務[2,10]。本文主要介紹了最新的專利文本關鍵詞抽取方法和現有系統的主要問題。

1 專利文本

相比于現有的其他類型的語料,如新聞、微博、郵件等,專利文本語料主要有著以下特點:

領域廣泛性:專利文本里的詞匯涉及領域很廣,擁有大量專業術語,而且隨著新技術的發展以及新領域的產生,還會不斷出現新的術語。例如“人工智能”、“大數據”等都是隨著信息技術領域的發展而出現的新的專業詞匯。

領域相關性:專利文本中的詞匯有時會具有極強的專業性,即某詞匯在某個特定領域內經常被使用,在其他領域或者是普通文本內則很少被使用。例如“疫苗株”、“抗原”等詞,在醫學領域的專利文獻中經常會被使用,而在其他領域的專利文獻或者是普通文本中卻極少出現。

規則性:因為國家對于專利申請有一定的規范,所以專利文本中的詞匯用詞嚴謹,遵循一定的規則,通常很少會有歧義的用語。

2 關鍵詞抽取方法

一般關鍵詞抽取分為兩個步驟:(1)利用一些啟發式規則抽取詞或短語集充當取候選關鍵詞;(2)檢測候選關鍵詞是否正確,有監督方法和無監督方法兩種。

2.1 抽取候選

用一些啟發式規則,去除掉錯誤的詞。規則包含:(1)去除停用詞;(2)詞性標注候選;(3)允許出現在維基百科標題中的N元語法成為候選短語;(4)N元語法滿足預定義詞匯-句法的模式[3]。

2.2 有監督方法

在早期,有監督方法將關鍵詞抽取任務看做是一個二分類問題,方法的主要目標就是訓練一個分類器判斷候選短語是否是關鍵詞,常用的分類器如,樸素貝葉斯、決策樹分類、最大熵模型、多層感知機和支持向量機等[4]。分類隱含的假設候選短語之間條件獨立,因此,通過分類不能比較兩個候選之間的優先級。另一種是基于排序的方法,解決了將關鍵詞抽取看做是分類問題的缺點,該方法學習一個排序器對兩個候選短語進行排序,排序后越靠前的候選越可能是關鍵詞[5]。

2.3 無監督方法

(1)基于圖的排序TextRank算法

從輸入文本建立一個圖G={V,E}并利用基于圖的排序方法根據重要性對節點進行排序[6]。其中節點V=(w1,w2,…,wn)代表候選短語的集合,N為候選短語節點的個數,E=(wi,wj)表示節點相連的邊的集合,Text Rank的打分思想依然是從PageRank的迭代思想衍生過來的,候選短語的得分由公式(1)計算。

其中:

上述的公式中e(wj,wi)為候選短語節點wj→wi邊上的權重,表示兩個候選短語之間的語義相似性,λ是平滑因子,V表示節點的集合。

一個關鍵詞序列應該覆蓋文章中所討論的主題,但是,基于圖的排序算法不能保證抽取的關鍵詞能代表所有的主題。

(2)基于主題聚類Topical PageRank算法

為了解決基于圖的排序算法的缺點,提出了基于主題的聚類的Topical PageRank方法,將候選短語通過主題進行分組,每一個主題都是由主題相關的候選短語組成?;谥黝}聚類方法的動機:關鍵詞應該與文章中討論的一個或多個主題相關聯、抽取關鍵詞應該從意義上綜合覆蓋文章中的所有主題[7]。該方法對文檔多次運行PageRank,通過對每一個主題運行PageRank保證抽取的關鍵詞能覆蓋文章中的所有主題。

Topical PageRank算法步驟如圖1所示:

圖1 關鍵詞抽取Topical PageRank算法

候選短語的得分通過每一個主題得分與主題在文章中的概率加權和來計算[8],公式如(3):

其中:

上述的公式中e(wj,wi)為候選短語節點wj→wi邊上的權重,表示兩個候選短語之間的語義相似性,λ是平滑因子,pz(wi)表示詞在主題中的隨機游走概率。

(3)基于語言模型的方法(Language Modeling)

許多現在的方法分步進行關鍵詞抽取,在關鍵詞排序或抽取之前先采用一些啟發式規則抽取候選關鍵詞,因此,提出了一種結合兩步的關鍵詞抽取方法[9],該方法基于兩種特征對候選關鍵詞打分,這兩種特征分別是phraseness(一個詞序能被當做是短語的程度)和informativeness(一個詞序能表達它在其中出現的文檔的中心思想的程度),根據兩種特征值的和對候選短語進行排序。

總而言之,LMA(Language Modeling Approach)用語言模型而不是啟發式規則判斷短語,它使得我們能夠發現在文檔中tf*idf值低的關鍵詞。

3 評價指標

關鍵詞抽取常用的評價指有precision精確率、recall召回率和F-score(F值)[11],由公式(4)、(5)和(6)計算得到。

4 結語

關鍵詞抽取作為一個重要的研究領域在自然語言處理和信息檢索任務中有著很重要的作用,隨著新技術的提出和完善,這一研究方向的工作也越來越成熟,但是,最新的關鍵詞抽取系統的性能還遠遠低于其他自然語言處理任務,因此,我們需要更多的研究者們深入研究關鍵詞抽取,這不僅僅是挑戰,也是機遇。

[1]于正河,李娜.論知識產權化.東方論壇,2009(5).

[2]Zhi-yuan Liu,Wen-yi Huang,Ya-bin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.

[3]Chau Q.Nguyen,Tuoi T.Phan.Anontology-Based Approach for Key Phrase Extraction,2009.

[4]Peter Turney.Learning Algorithms for Keyphrase Extraction,2000.

[5]Chen Wang,Su-jian Li.CoRankBayes:Bayesian Learning to Rank under the Co-Training Framework and Its Application in Keyphrase Extraction,2011.

[6]Adrien Bougouin,Florian Boudin,B'eatrice Daille.Topicrank:Graph-Based Topic Ranking for Keyphrase Extraction,2013.

[7]Zhi-yuan Liu,Chen Liang,Mao-song Sun.Topical Word Trigger Model for Keyphrase Extraction,2012.

[8]Zhi-yuan Liu,Wen-yi Huang,Ya-bin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.

[9]Takashi Tomokiyo,Matthew Hurst.A Language Model Approach to Keyphrase Extraction,2003.

[10]Kazi Saidul Hasan,Vincent NgAutomatic Keyphrase Extraction:A Survey of the State of the Art,2014.

[11]Su Nam Kim,Timothy Baldwin,Min-Yen Kan.Evaluating N-gram Based Evaluation Metrics for Automatic Keyphrase Extraction,2010.

Survey of Automatic Keyphrase Extraction for Patent Text

YANG Yi,WAN Qi

(College of Computer Science,Sichuan University,Chengdu 610065)

With the rapid development of the knowledge economy,the analysis and research on patent text is useful for to comprehend the state of the art and prediction the development direction of the technology.Automatic keyword extraction is significant for the analysis and Research of the patent text.Presents a survey of current commonly automatic keyword extraction techniques that including supervised methods and unsupervised methods,and briefly introduces the evaluation metrics of keyword extraction.

PatentText;Keyphrase Extaction;Supervised Approaches;Unsupervised Approaches;Evaluation Metrics

1007-1423(2017)02-0029-03

10.3969/j.issn.1007-1423.2017.02.007

楊祎(1993-),女,四川南充人,碩士研究生,研究方向為自然語言處理

2016-11-01

2016-12-28

萬琪(1991-),男,湖北荊門人,碩士研究生,研究方向為自然語言處理

猜你喜歡
排序監督文本
排序不等式
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
恐怖排序
在808DA上文本顯示的改善
節日排序
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 免费人成网站在线观看欧美| 久草视频精品| 亚瑟天堂久久一区二区影院| 国产天天射| 2021亚洲精品不卡a| igao国产精品| 国产精品第一区| 国产欧美日韩18| 国产幂在线无码精品| 久久精品66| 国产成人无码久久久久毛片| www.91在线播放| 亚洲成a人片| 亚洲视频二| 九九九国产| 最新亚洲人成网站在线观看| 麻豆国产精品一二三在线观看| 国产成人精品午夜视频'| 久久夜夜视频| 91麻豆国产视频| 精品伊人久久久久7777人| 91久久偷偷做嫩草影院免费看| 无码日韩人妻精品久久蜜桃| 丁香五月亚洲综合在线| 亚洲视屏在线观看| 亚洲天堂视频在线观看免费| 在线看免费无码av天堂的| 国产草草影院18成年视频| 99精品福利视频| 欧美综合激情| 999国产精品| 久久香蕉国产线看观看亚洲片| 国产自无码视频在线观看| 亚洲最大福利网站| 久久a毛片| 国产精品免费p区| 好吊色妇女免费视频免费| 国产成人亚洲精品色欲AV| 日本精品影院| 国产成人精品一区二区| 欧美激情一区二区三区成人| 精品一区二区三区水蜜桃| 久久黄色视频影| 区国产精品搜索视频| 国产欧美日韩视频怡春院| 欧美日韩国产在线播放| 永久成人无码激情视频免费| 国产玖玖视频| 亚洲成a人片77777在线播放| 久久精品娱乐亚洲领先| 日韩欧美中文在线| 国产三级韩国三级理| 在线永久免费观看的毛片| 99精品国产电影| 亚洲午夜18| 亚洲综合18p| 啊嗯不日本网站| 香蕉久人久人青草青草| 日韩成人高清无码| 日韩a级片视频| 精品国产一区91在线| 国产欧美视频在线| 亚洲伊人久久精品影院| 国产成人福利在线视老湿机| 亚洲久悠悠色悠在线播放| 成人欧美日韩| 黄色网站在线观看无码| 不卡色老大久久综合网| 欧美高清日韩| 最新无码专区超级碰碰碰| 中文字幕永久在线看| 日韩高清成人| 亚洲熟女中文字幕男人总站| 国产在线高清一级毛片| 久久精品丝袜高跟鞋| 宅男噜噜噜66国产在线观看| av天堂最新版在线| 国产女人在线视频| 999国内精品久久免费视频| 1024国产在线| 亚洲成人动漫在线观看| 精品亚洲欧美中文字幕在线看|