999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自動關鍵短語抽取綜述

2015-02-23 03:27:25姚堯
現代計算機 2015年4期
關鍵詞:排序關鍵監督

姚堯

(四川大學計算機學院,成都 610065)

自動關鍵短語抽取綜述

姚堯

(四川大學計算機學院,成都 610065)

自動關鍵短語抽取是知識抽取和信息檢索等信息技術的關鍵步驟,當前已經被廣泛研究多年,但是和許多自然語言處理任務的性能相比,現有抽取算法的性能依然很低下。對自動關鍵短語抽取方法進行綜述,并對其未來研究發展進行展望,為進一步自動抽取高質量的關鍵短語提供良好借鑒。

自動關鍵短語抽取;自然語言處理;抽取算法;性能

0 引言

文檔的關鍵短語可以保證對大規模的文檔進行快速和精確的查詢,并廣泛應用于文本摘要[1]、文本分類[2]、情感挖掘[5]、文檔索引等自然語言處理(NLP)和信息檢索(IR)任務。但實際中很少有文檔標注了關鍵短語,手工去添加關鍵短語是一項很繁重的工作。因此需要一種方法去自動抽取關鍵短語。

自動關鍵短語抽取是從文檔中自動抽取具有重要性和主題性的短語。因為關鍵短語的重要性,自動關鍵短語抽取受到了很大的關注。但是,其任務離真正解決還有很長的距離。相比于許多的核心自然語言處理任務,當前自動關鍵短語抽取方法的性能仍然很低下。本文的目標是對自動關鍵短語抽取方法進行綜述,分析各方法的優缺點,并討論目前遇到的挑戰。

1 關鍵短語抽取方法

一個通用的關鍵短語抽取系統主要分為2步:①利用一些啟發式方法抽取多個詞或者短語作為候選關鍵短語;②利用有監督或者無監督方法判斷候選關鍵短語是否是正確的關鍵短語。

2 候選關鍵短語選擇

如上所述,候選關鍵短語通過啟發式規則抽取。設計這些規則用來避免錯誤的候選和保持候選數目最小。典型的啟發式方法包括:①利用停用詞表來去除停用詞;②利用特有的詞性標簽來作為候選關鍵短語,例如名詞、形容詞、動詞;③抽取出現在維基百科條目標題中的N元組來作為候選關鍵短語;④抽取滿足預定義詞匯模板的N元組或者名詞短語。

3 有監督方法

早期的有監督方法把關鍵短語抽取當做一個二分類問題[11]。目標是從標注好關鍵短語的文檔中訓練一個分類器來判斷一個候選短語是否是關鍵短語。關鍵短語和非關鍵短語分別用于生成正例和負例。不同的學習算法可以用來訓練該分類器,包括樸素貝葉斯、決策樹、最大熵和支持向量機等分類算法。

劉玲玲等人[4]提出了一種利用決策樹訓練分類器解決關鍵短語抽取的方法。將文檔中詞的詞性、首位置、詞語頻次作為決策樹分類的特征。并加入了詞在文檔中出現的位置信息,對詞的權重進性調整。最后采用十折交叉驗證和Bagging重采樣技術進行決策樹關鍵短語的抽取。部分匹配的F值達到了54.49%。

單純地把關鍵短語抽取當做二分類問題有一定的缺陷。關鍵短語抽取的目標是識別文檔中最具代表性的短語。但是二分類器在分類時單獨考慮每個候選關鍵短語,導致無法比較候選關鍵短語之間的好壞。受這種發現的啟發,Jiang[7]等人提出了一種關鍵短語抽取的排序方法,利用TF-IDF、短語長度、首次出現位置以及是否出現在標題作為特征,使用Rank_SVM學習一個排序器對兩個候選關鍵短語排序。這種值對排序方法表現了候選短語之間的比較,并且其結果比KEA[8]有明顯的提高。

4 無監督方法

存在的無監督關鍵短語抽取方法可以分為2類:基于圖的排序方法和基于主題的聚類方法。

4.1 基于圖的排序方法

基于圖的方法的基本思想是從輸入文檔中建立一個圖,然后利用基于圖的排序方法根據頂點的重要性對它排序,圖的每個頂點相當于文檔中的候選關鍵短語,圖的每條邊連接2個相關的候選。邊的權重相當于相互連接的候選之間的語義相關度。TextRank[6]是一種關鍵短語抽取中比較著名的基于圖的方法。圖中每個節點的得分根據當前節點的鄰居節點的得分遞歸得到,然后選擇圖中排名高的候選作為輸入文檔的關鍵短語。

夏天[3]基于TextRank的思想,在此基礎上引入了頻度影響力、覆蓋影響力和位置影響力來計算短語之間的影響力轉移矩陣,然后不斷迭代得到候選構建短語的分值,選取前N個短語作為關鍵短語。實驗結果表明,在TextRank上進行短語位置加權的方法優于傳統的TextRank方法。

但是基于圖的方法忽略了一個關鍵短語抽取中的重要概念,文檔中的一組關鍵短語應該覆蓋文檔中提及的主要主題,但是該方法并沒有關注這個問題,所有的主題并沒有被抽取的關鍵短語代表。盡管有這種缺點,但是基于圖代表文本的思想還是被很多的方法采用,并提出了不同的計算兩個候選之間相似度的算法。

4.2 基于主題的聚類方法

基于主題的聚類方法是把文檔中的候選關鍵短語聚合成主題,每個主題由所有和該主題相關的候選關鍵短語組成。采用基于主題的聚類方法有很多動機:①抽取的關鍵短語的綜合語義應該覆蓋文檔中所有主要的主題。②一個關鍵短語應該和文檔中提及的一個或多個主要主題相關。Liu等人[9]提出了一種KeyCluster系統,利用維基百科和共現來聚類語義相似的候選關鍵短語。每個聚類對應于一個文檔中的主題,然后選取靠近每個聚類中心的候選關鍵短語作為關鍵短語。實驗結果顯示KeyCluster性能優于TextRank,但是Key-Cluster有個潛在的缺點,在從每個主題聚類中抽取關鍵短語時,該系統賦予了每個主題相同的重要性。實際上,文檔中具有某些并不重要的主題,這些不重要的主題不應該被關鍵短語代表。Grineva等人[10]提出了一種利用社區發現的關鍵短語抽取系統,該系統給更重要的主題賦予了更多的權重,利用維基百科建立了語義圖,然后通過社區發現算法挖掘語義圖中的社區聚類,最后從有價值的社區聚類中抽取所有的候選關鍵短語作為文檔的關鍵短語。該方法相比于TF-IDF,TextRank方法在不損失精確率的情況下,得到了更高的召回率。

5 結語

本文主要對當前的自動關鍵短語抽取進行綜述,介紹了具有代表性的有監督和無監督方法,并分析它們的優缺點,盡管目前自動關鍵短語抽取取得了較大的進展,但是依舊面臨著較多的挑戰。針對長文檔自動關鍵短語抽取精確率低的問題需要設計更好的算法;在有監督模型訓練時,存在正例與反例數量不平衡的問題,如何解決需要作進一步工作;當前很多方法都只關注算法的改進,如何引入背景知識也是需要解決的問題。

[1] 江開忠,李子成,顧君忠.自動文本摘要方法[J].計算機工程,2008,34(1):221~223

[2] 羅杰,陳力,夏德麟,等.基于新的關鍵詞提取方法的快速文本分類系統[J].計算機應用研究,2006,23(4):32~34

[3] 夏天.詞語位置加權TextRank的關鍵詞抽取研究[J].現代圖書情報技術,2013,29(9):30~34

[4] 劉玲玲,梁穎紅,張永剛等.基于決策樹的關鍵短語抽取[J].江南大學學報(自然科學版),2010,9(1)

[5] Berend G.Opinion Expression Mining by Exploiting Keyphrase Extraction[C].IJCNLP.2011:1162~1170

[6] Mihalcea R,Tarau P.TextRank:Bringing Order Into Texts[C].Association for Computational Linguistics,2004

[7] Jiang X,Hu Y,Li H.A Ranking Approach to Keyphrase Extraction[C].Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2009:756~757[8] Frank E,Paynter G W,Witten I H,et al.Domain-Specific Keyphrase Extraction[J],1999

[9] Liu Z,Li P,Zheng Y,et al.Clustering to Find Exemplar Terms for Keyphrase Extraction[C].Association for Computational Linguistics, 2009:257~266

[10] Grineva M,Grinev M,Lizorkin D.Extracting Key Terms from Noisy and Multitheme Documents[C].ACM,2009:661~670

[11] Turney P D.Learning Algorithms for Keyphrase Extraction[J].Information Retrieval,2000,2(4):303~336

Overview of Automatic Keyphrase Extraction

YAO Yao
(School of Computer Science,Sichuan University,Chengdu 610065)

Automatic keyphrase extraction is a key step knowledge extraction and information retrieval of information technology,the current has been extensively studied for many years,but many properties as compared to natural language processing tasks,the performance of existing extraction algorithm remains low down.Reviews phrase for automatic extraction methods,and prospects for its future research and development,to provide a good reference for further automatically extract keyphrases of high quality.

Automatic Keyphrase Extraction;Natural Language Processing;Extraction Algorithm;Performance

1007-1423(2015)04-0013-03

10.3969/j.issn.1007-1423.2015.04.003

姚堯(1990-),男,重慶人,在讀碩士研究生,研究方向為數據挖掘

2014-12-02

2014-12-18

猜你喜歡
排序關鍵監督
排序不等式
高考考好是關鍵
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
獲勝關鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 国产无码网站在线观看| 91精品国产自产在线老师啪l| 国产男人的天堂| 中文字幕无码中文字幕有码在线| 亚洲中文字幕在线观看| 国产网站免费看| 国产va欧美va在线观看| 国产在线第二页| 日本欧美中文字幕精品亚洲| 午夜视频免费一区二区在线看| 综合网天天| 五月婷婷综合在线视频| 精品人妻系列无码专区久久| 在线一级毛片| 国产精品尤物铁牛tv | 人妖无码第一页| 99久久精品免费看国产电影| 青青草久久伊人| 亚洲av无码牛牛影视在线二区| 欧美日韩精品一区二区在线线| 久久久久久国产精品mv| 国产毛片不卡| 久久久久久尹人网香蕉| 波多野结衣一区二区三区AV| 欧美亚洲一二三区| 熟妇无码人妻| 一区二区午夜| 久久a级片| 国产主播在线一区| 波多野结衣无码视频在线观看| 性欧美久久| 亚洲午夜福利精品无码不卡| 免费一级成人毛片| 无码高潮喷水专区久久| аv天堂最新中文在线| 国产第一页亚洲| 亚洲天堂日韩在线| 91在线中文| 亚洲无码精彩视频在线观看| 欧美中文一区| 色欲综合久久中文字幕网| 日韩欧美中文字幕一本| 亚洲成A人V欧美综合| 国产成人精品18| 亚洲视频欧美不卡| 国产v精品成人免费视频71pao| 欧美一区二区福利视频| 久久久精品国产SM调教网站| 亚洲欧洲日产国码无码av喷潮| 91精品国产自产在线老师啪l| 亚洲国产成人综合精品2020 | 九九热视频在线免费观看| 亚洲综合第一区| 亚洲欧美日韩综合二区三区| 国产清纯在线一区二区WWW| 激情综合网址| 欧美狠狠干| 在线国产你懂的| 午夜a级毛片| 国产不卡网| 久久一色本道亚洲| 国产小视频网站| 国产自在线播放| 亚洲日韩精品欧美中文字幕| 国产成人福利在线| 亚洲aⅴ天堂| 老司国产精品视频91| 久久久噜噜噜久久中文字幕色伊伊 | 日韩精品一区二区三区视频免费看| 日韩午夜福利在线观看| 欧美精品亚洲精品日韩专区| 99热这里只有精品免费| 女人18一级毛片免费观看| 99热这里只有精品免费| 99热这里只有免费国产精品| 女人av社区男人的天堂| 草草影院国产第一页| 天天综合网色中文字幕| 精品一區二區久久久久久久網站| 在线精品欧美日韩| 久操中文在线| 91精品网站|