999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關鍵短語抽取研究現狀

2017-02-23 06:48:48李珊珊周耘立
現代計算機 2017年2期
關鍵詞:排序關鍵監督

李珊珊,周耘立

(四川大學計算機學院,成都 620065)

關鍵短語抽取研究現狀

李珊珊,周耘立

(四川大學計算機學院,成都 620065)

在這個信息爆炸的社會,如何從大量的文本快速瀏覽讀取重要信息,已經變得越來重要。關鍵短語抽取就是從文本中自動抽取文本中重要的并且能夠代表文章主題的短語。關鍵短語可以幫助讀者快速并且準確地了解文本信息內容。關鍵短語抽取方法可以分為無監督方法和有監督方法兩種,下面分別對關鍵短語抽取的兩種方法進行介紹。

關鍵短語抽取;候選關鍵短語;有監督方法;無監督方法

0 引言

關鍵短語是文本中代表主題的詞和短語,關鍵短語抽取在信息檢索任務和自然語言處理任務中都有著重要的作用,關鍵短語同樣也是文本總結、觀點挖掘、文本分類和檢索索引等的基本任務[1]。盡管關鍵短語抽取已經做了許多研究工作,但是相比其他的自然語言處理研究工作,關鍵短語抽取仍然存在很大的挑戰[2]。隨著網絡信息的發展,網絡文本信息越來越多,如何從這些錯綜復雜的網絡文本信息中快速瀏覽關鍵信息顯得無比重要。因此關鍵短語抽取具有重大的現實意義。本文將對現有的關鍵短語抽取方法進行分析總結。

1 關鍵短語

關鍵短語是對文本內容的簡單總結,關鍵短語對文本主題具有概括性的功能。關鍵短語有以下幾個特點[3]:

覆蓋性:關鍵短語應該是那些重要性程度高并且頻繁出現的短語。如果不是一個頻繁出現的候選短語,即使它的其他特征得分高,也不能作為關鍵短語抽取出來。

純度:關鍵短語是只在一個主題下頻繁出現的候選短語,而不是在整個文檔中都頻繁的候選短語。

短語性:當一個詞與其他詞構成候選短語共同出現的次數超過預期的標準值時,也就是它們同現頻率大于一定的閾值時,候選短語才有可能成為關鍵短語。

完整性:抽取出來的關鍵短語應該是詞語集合的全集而不是詞語集合的某個子集。

關鍵短語抽取方法分為兩步:第一步是利用一些啟發式規則先抽取詞,然后利用以上幾個特征將詞組合成短語作為候選短語;第二步是利用無監督方法或者有監督方法計算候選短語成為關鍵短語的得分,無監督的方法是最終選取得分前N的候選短語作為關鍵短語,有監督的方法是當得分超過某個閾值時,候選短語作為關鍵短語被抽取出來。

2 關鍵短語抽取有監督方法

關鍵短語抽取有監督方法是把關鍵短語抽取任務作為一個二分類任務。有監督方法是利用已標注的數據集訓練一個分類器,對將來來的數據利用已經訓練好的分類器進行關鍵短語的抽取。訓練數據集中如果候選短語是標注的關鍵短語則作為正例,如果候選短語不是標注的關鍵短語則作為負例,這樣產生的正例和負例一起進行訓練,得到最終的分類器。不同的學習算法都可以用來訓練分類器,包括樸素貝葉斯、決策樹、bagging、boosting、多層感知器和支持向量機等分類算法[4]。

關鍵短語有監督抽取方法需要利用特征訓練分類器,有監督方法利用的特征主要有兩大特征:文本本身特征和文本之外的特征。

文本本身特征是只利用訓練數據集的知識計算,包括:

統計特征:此特征從訓練集里獲得的統計信息,包括TF-IDF[5]、短語第一出現的相對位置、短語在訓練數據集出現的次數等。

結構特征:表示短語出現在文章中的章節和段落特征。

句法特征:表示候選短語的句法模式,例如詞性標注序列等。

文本之外的特征是利用除了訓練數據集自己的知識之外其他的信息,例如詞匯知識庫(Wikipedia[6])信息、網絡Web信息、相似文本的信息[7]、引文網絡信息[8]等。

3 關鍵短語抽取無監督方法

由于關鍵短語抽取有監督方法需要大量的標注數據,但是獲取帶標注的語料很困難,所以研究者們提出了關鍵短語抽取無監督的方法。關鍵短語抽取無監督方法可以分為三類:基于圖的排序方法、KeyCluster方法和基于主題的圖的排序算法。

3.1 基于圖的排序方法

傳統上,一個候選短語的重要性經常被定義與文本中的其他候選短語的相關程度[9],如果某個候選短語與其他的候選短語相關高,并且其相關的候選短語重要性得分很高,那么這個候選短語的重要性得分也相對較高。研究人員計算候選短語之間的關聯性使用同現頻率和語義相似度,并從文檔中收集的關聯性信息表示成一個圖[10]。

基于圖的排序方法是為每個文本建立一個圖,圖的每個頂點是候選短語,圖的邊作為兩個候選短語的連接,其中邊的權值是兩個候選短語共同出現的次數。然后通過遞歸算法獲得每個候選短語的得分,最后抽取前N個候選短語作為關鍵短語。

3.2 KeyCluster方法

由于基于圖的排序方法沒有考慮主題對關鍵短語的影響,導致抽取的關鍵短語對主題的概括性差,所以研究者們提出了KeyCluster方法[11]。該方法是利用維基百科和基于共同出現的統計信息對候選短語進行聚類,然后抽取聚類簇中心的幾個候選短語作為該主題下的關鍵短語。該方法可以選取所有主題下的關鍵短語,使得抽取出的關鍵短語能夠概括所有主題。

3.2 基于主題的圖的排序算法

KeyCluster方法雖然可以使抽取的關鍵短語具有主題更廣發的概括性,但是卻假設一篇文本的所有主題都是同等概率的,這顯然是不合理的。所以研究者們提出了基于主題的圖的排序算法,該方法在基于圖的排序算法基礎上加上主題對每個候選短語的影響[12],并且一篇文本的每個主題有不同的概率。基于主題的圖的排序算法在保證抽取的關鍵短語能夠覆蓋文本的所有主題的同時,又為每個主題賦予不同的概率,實驗效果優于KeyCluster方法。

4 性能評價

在關鍵短語抽取領域,一般采用召回率(Recall)、準確率(Precision)和F值來衡量關鍵短語抽取效果[13]。召回率又稱查全率是指機器抽取正確關鍵短語個數占人工抽取關鍵短語總數的比率。準確率是機器抽取正確關鍵短語個數占機器抽取關鍵短語總數的比率。

令A表示機器抽取為關鍵短語且人工也抽取為關鍵短語的詞語集合;B表示機器抽取為關鍵短語而人工抽取為非關鍵短語的詞語集合;C表示機器抽取為非關鍵短語而人工抽取為關鍵短語的詞語集合;D表示機器抽取為非關鍵短語且人工也抽取為非關鍵短語的詞語集合。

召回率Recall由公式(1)計算得到。

精確率Precision由公式(2)計算得到。

綜合考慮召回率Recall和精確率Precision的情況下,提出了F值,由(3)計算得到。

5 結語

本文對現有的關鍵短語抽取方法進行了分析總結,介紹了關鍵短語抽取無監督方法和關鍵短語抽取有監督方法的幾個典型算法,并闡述了它們不足之處。盡管關鍵短語抽取方法已經做了大量的研究[14],但是相比較其他的自然語言處理任務仍有很大的不足和提升的空間。

[1]Florian Boudin.Reducing Over-Generation Errors for Automatic Keyphrase Extraction Using Integer Linear Programming,2015.

[2]Su Nam Kim,Olena Medelyan,Min-Yen Kan,Timothy Baldwin.Semeval-2010 task 5:Automatic Keyphrase Extraction from Scientific Articles,2010.

[3]M.Danilevsky,C.Wang,N.Desai,J.Guo,J.Han.Automatic Construction and Ranking of Topical Keyphrases on Collections of Short Documents,2014.

[4]K.S.Hasan,V.Ng.Automatic Keyphrase Extraction:A Survey of the State of the Art.2014.

[5]Gerard Salton,Christopher Buckley.Termweighting Approaches in Automatic Text Retrieval,1988.

[6]Olena Medelyan,Eibe Frank,and Ian H.Witten.Human-competitive Tagging using automatic Keyphrase Extraction,2009.

[7]Wan,X.,Xiao,J.Single Document Keyphrase Extraction Using Neighborhood Knowledge,2008.

[8]Caragea,Bulgarov,Godea,and Gollapalli.Citation-Enhanced Keyphrase Extraction from Research Papers:A Supervised Approach. 2014.

[9]Yutaka Matsuo,Mitsuru Ishizuka.Keyword Extraction from a Single Document Using Word Co-occurrence Statistical Information.2004. [10]Rada Mihalcea and Paul Tarau.TextRank:Bringing Order into Texts,2004.

[11]Zhi-yuan Liu,Chen Liang,Mao-song Sun.Topical Word Trigger Model for Keyphrase Extraction,2012.

[12]Zhi-yuan Liu,Wen-yi Huang,Yabin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.

[13]肖根勝.改進TF-IDF和譜分割的關鍵詞自動抽取方法研究[D],2012.

[14]姚堯.自動關鍵短語抽取綜述[J].現代計算機(專業版),2015.

Research Status of Keyphrase Extraction

LI Shan-shan,ZHOU Yun-li

(College of Computer Science,Sichuan University,Chengdu 610065)

In the society with information explosion,it is more important to scan and read significance information from the vast amounts of text. Keyphrase extraction is automatically extracted from the text on behalf of the topics of article and the important phrases.Kephrase can help the reader to understand the information of the text fast and exact.The method of keyphrase extraction is divided into supervised and unsupervised way,introduces two kinds of methods of extracting keyphrases.

Extract Keyphrases;Candidate Keyphrases;Supervised Method;Unsupervised Method

1007-1423(2017)02-0039-03

10.3969/j.issn.1007-1423.2017.02.010

李珊珊(1989-),女,江蘇徐州人,碩士研究生,學生,研究方向為數據挖掘

2016-11-15

2017-01-05

周耘立(1990~),男,四川浦江人,碩士研究生,學生,研究方向為數據挖掘

猜你喜歡
排序關鍵監督
排序不等式
高考考好是關鍵
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
獲勝關鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 国产激情国语对白普通话| 中文字幕日韩视频欧美一区| 久久久久夜色精品波多野结衣| 18禁影院亚洲专区| 四虎永久免费地址| 色综合色国产热无码一| 亚洲无码免费黄色网址| 国产剧情国内精品原创| 欧美精品一二三区| 国产不卡在线看| 青青青伊人色综合久久| 国产在线精品99一区不卡| 欧美日韩亚洲国产| 亚洲婷婷在线视频| 好吊色妇女免费视频免费| 久久精品中文字幕少妇| 99久久国产自偷自偷免费一区| 尤物视频一区| 午夜毛片免费观看视频 | 国产呦视频免费视频在线观看| 免费中文字幕在在线不卡| 色婷婷在线影院| 玖玖精品在线| 久草青青在线视频| 日本福利视频网站| 免费a级毛片18以上观看精品| 热伊人99re久久精品最新地| 国产精品白浆在线播放| 欧美69视频在线| 免费日韩在线视频| 亚洲中文无码h在线观看| 亚洲欧美在线综合图区| 国产精品刺激对白在线| 亚洲天堂视频在线播放| 亚洲综合精品第一页| 亚洲婷婷丁香| 在线观看欧美国产| 人妻21p大胆| 综合人妻久久一区二区精品| 青青草一区| 亚洲男人的天堂在线观看| 国产91久久久久久| 国产浮力第一页永久地址| 中文成人在线视频| 三级国产在线观看| 四虎影视无码永久免费观看| 精品无码人妻一区二区| 亚洲欧美另类中文字幕| 91无码人妻精品一区| 国产精品偷伦在线观看| 精品视频一区二区观看| 国产精品偷伦在线观看| 欧美综合中文字幕久久| 国产视频只有无码精品| 国产嫖妓91东北老熟女久久一| 亚洲精品视频网| 亚洲国产成人麻豆精品| 无码视频国产精品一区二区| www精品久久| 久久五月视频| 精品乱码久久久久久久| 亚洲国产成人久久精品软件 | 成人在线观看一区| 亚洲欧美成aⅴ人在线观看| 欧美亚洲一二三区| 国产一区二区丝袜高跟鞋| 99视频精品在线观看| 日本爱爱精品一区二区| 国产午夜小视频| 经典三级久久| 亚洲国产一区在线观看| 国模极品一区二区三区| 久久久久无码国产精品不卡| 色久综合在线| 欧美精品啪啪一区二区三区| 国产色图在线观看| 尤物亚洲最大AV无码网站| av在线5g无码天天| 亚洲中文字幕97久久精品少妇| 中文字幕佐山爱一区二区免费| 内射人妻无套中出无码| 少妇被粗大的猛烈进出免费视频|