999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征和Ranking SVM的微博新聞自動摘要研究

2017-04-17 01:24:30李孟爽昝紅英賈會貞
鄭州大學學報(理學版) 2017年2期
關鍵詞:排序特征文本

李孟爽, 昝紅英, 賈會貞

(鄭州大學 信息工程學院 河南 鄭州 450001)

基于多特征和Ranking SVM的微博新聞自動摘要研究

李孟爽, 昝紅英, 賈會貞

(鄭州大學 信息工程學院 河南 鄭州 450001)

提出了面向微博應用的新聞文本自動摘要研究方法.利用互信息對新聞文本中詞語和句子之間的語義特征進行計算,根據其關聯度對句子進行主題劃分,賦予主題句較高的權重,同時從文本中抽取多種組合特征,利用Ranking SVM對句子進行排序,從而得到自動摘要.在NLP&CC2015面向微博中文新聞自動摘要評測數據集上進行對比實驗,取得了良好效果,證明該方法的有效性.

互信息; 語義特征; 主題句; Ranking SVM; 新聞文本自動摘要

0 引言

文獻[1]顯示,截至2015年7月,中國網民微博用戶規模達2.04億,手機微博用戶規模達1.62億.當社會媒體用戶需通過這個平臺轉發自己喜歡的新聞時,微博允許用戶發布的文本長度一般不能超過140字,用戶發布該新聞的簡要內容,然后附上整條新聞的URL鏈接.這樣在方便發布者的同時也節省他人時間.因此,針對微博新聞文本的自動摘要研究具有深遠的意義.本文提出了基于多特征和Ranking SVM的自動摘要方法,具體過程為:

1) 對原始文本進行預處理,除去不會作為摘要句的疑問句和否定句.

2) 抽取文本的詞頻、句子位置、與標題相似度、指示性詞語及句子長度等統計特征.

3) 利用互信息抽取文本的語義特征,對其進行主題劃分,賦予主題句較高的權重.

4) 綜合文本的統計特征和語義特征,利用訓練數據訓練Ranking SVM模型,然后用得到的模型對句子進行排序.

5) 選出得分最高的句子加入摘要句,如果所選句子與摘要句相似則移除,直至摘要句長度140字停止.

1 相關工作

自動摘要是指自動地從原始文章中提取一個簡短的能夠全面反映原文內容的摘要.自動摘要分兩種類型:一種是基于抽取的摘要,即從原始文章中抽取一些具有代表性的句子作為摘要句;另一種是基于篇章理解的摘要,即先理解原始文章內容,再通過自然語言生成來產生摘要.

1.1 基于抽取的摘要

基于抽取的自動摘要是根據句子的各種特征計算句子的總權重,然后根據句子的總權重給句子排序,選取排序靠前的句子作為摘要句.文獻[2]提出一種基于高頻詞給句子打分得到摘要句.文獻[3]提出把句子位置和線索詞等特征應用到自動摘要研究中.文獻[4]綜合使用句子長度、句子位置、句子與文章標題的相似度等以提高摘要句子的準確性.文獻[5]提出基于詞頻、句子位置、句子長度及句子與標題相似性等特征的4種不同的加權方法,解決了基于微博新聞文本的自動摘要問題.文獻[6]提出一種基于圖的迭代強化方法,在一個框架下同時處理兩個任務,表達句子與詞之間的各種二元關系.文獻[7]提出了一種新的基于超圖的協同抽取方法,以句子作為超邊,以詞作為結點構建超圖,在一個統一的超圖模型下同時利用句子與詞之間的高階信息來生成摘要和關鍵詞.文獻[8-9]提出面向微博的自動摘要方法Hybrid TF-IDF和詞語加強(phrase reinforement, PR)方法.上述一系列方法都在一定程度上提高了摘要句抽取的召回率.

1.2 基于篇章理解的摘要

基于篇章理解的自動摘要方法是基于對自然語言的理解發展起來的,它需要利用語言學和領域知識對句子進行結構分析和語義的判斷、推理,最后根據句子語義生成自動摘要.文獻[10]研發出基于知識理解的SCSIOR系統.文獻[11]在文本物理結構的基礎上,利用漢語復句研究理論、RST理論和各種漢語語言特征的融合方法獲取摘要句.文獻[12]系統地描述了不同層面上文本單元之間的相互關系,并且提出了文檔的修辭結構框架.基于篇章理解生成的摘要質量好、簡潔全面以及可讀性好,解決了基于抽取的摘要質量差的問題.

本文總結上述方法及微博新聞文本特點,提出了互信息主題劃分、多種統計特征和Ranking SVM模型相結合的策略來獲取微博新聞文本的自動摘要.

2 自動摘要

本文把自動摘要任務分成兩個階段,即基于文本的特征提取和文本摘要句提取.針對微博新聞文本給出各個特征的提取方法,摘要句提取部分則是采用有監督的Ranking SVM模型,來對上一過程得到的各種特征進行排序,得到排序靠前的句子作為摘要句.

2.1 特征提取

在對新聞文本提取特征之前,首先判斷每一句話是否為否定句和疑問句,這兩類句子一般不會作為摘要句出現,所以先去除這類句子,以減少后面的處理工作.

2.1.1 詞頻 詞頻作為最能反映文本信息的統計特征,可以通過多種計算方式得到,用公式(1)來計算文本中每個單詞的頻率,句子作為詞語的集合形式,出現在其中的所有詞語的頻率之和反映了該句子的重要性,用公式(2)來計算每個句子的詞頻權重.

(1)

其中:n代表新聞文本詞語的總個數;mi代表詞語在文本中出現的次數;分母表示所有的詞語在文本中出現的總次數.

(2)

其中:seni表示新聞文本中第i個句子,w代表句子中的一個詞語,tf(w)的值可由公式(1)計算得到.

2.1.2 句子位置 句子位置是反映新聞文本的一個重要特征.每篇新聞文本都可以看作是句子的線性組合,往往第一個句子涵蓋整篇文本的重要信息,因此,用Posi=(1+n-pi)/n來計算句子的位置特征.其中:pi代表新聞文本中第i個句子的位置;n代表新聞文本中總的句子數目.

2.1.3 與標題相似度 標題一般情況下是文本信息的濃縮體現,能很好地反映文本的主題,因此與標題具有很高相似度的句子較容易被選為摘要句,本文采用余弦相似度來衡量每個句子與標題的相似度.具體的計算公式為

其中:Simi表示第i個句子與標題的相似度;s和t是句子和標題的向量表示;n表示向量的維數;sj和tj分別表示向量的第j維的值.

2.1.4 指示性詞語 文章中常有一些特殊的短語、字串,即指示性短語,它們對文章主題有明顯的提示作用,例如“這篇文章的意義是”、“本文的目的是”、“我們認為”等.基于提示性短語句子si權重的加權規則為

2.1.6 主題句 一篇新聞通常可能包含一個以上的主題,每個主題句包含的相應信息較多,因此選取摘要句時應賦予主題句較高的權重.本文利用互信息對文本中詞語、句子之間的關聯程度進行計算,根據其關聯程度將其劃分為包含不同主題的較小單元,并根據句子權重計算公式進行主題句提取,是主題句賦值為1,否則為0[13].

2.2 摘要句提取

在摘要提取這部分,本文采用Ranking SVM 對句子進行排序,根據排序結果選出摘要句.Ranking SVM模型是由文獻[14]提出的一種排序算法.文獻[15]將該模型用于文檔檢索任務.文獻[16-17]提出了基于pairwise的數據標注方法,并且給出了免費工具SVMRank.

Herbrich等人將上述的排序學習問題看做基于實例對的分類學習問題.首先設定一個線性函數f.f(x;w)=,其中:w表示一組權重向量;“,”表示向量的內積. 通過S′和函數f可得

>0?f(x(1);w)>f(x(2);w).

(3)

將公式(3)轉換為二值分類問題,則可以表示為:

對于給定的訓練數據S,本文以此構造一個新的包含l個向量的訓練數據集合S′,將S′中的數據作為分類數據構造SVM模型,對任意一組向量X(1)和X(2)賦以分類類別,其中z =+1 代表正樣例,z=-1 代表負樣例.

根據上述特征組,利用訓練數據訓練RankingSVM模型,然后用該模型對測試文本做預測,具體過程見表1的算法1.

3 實驗

3.1 實驗數據

實驗所用數據是由第四屆自然語言處理與中文計算會議(NLP&CC2015)提供,NLP&CC2015評測數據來自新聞文本,包含訓練數據140篇,測試數據250篇,并且每篇新聞文本都提供兩個人工摘要分別記為a和b.

3.2 實驗評估指標

采用ROUGE工具(1.5.5版)[19],通過計算待評價摘要與人工摘要在 n-gram 上的重疊度來衡量模型生成摘要的質量.其中基于1-gram 的 ROUGE 分數(ROUGE-1)被公認為和人工摘要的結果最接近.此外,由于摘要長度限定在140字以內,因此我們在實驗時使用了“-l”命令.

3.3 實驗結果及分析

采用兩種基線方法,分別是參與NLP&CC2015取得不錯結果的CIST-SUMM團隊和獲得最佳結果的NLP@WUST團隊.CIST-SUMM團隊同時采用基于規則和基于機器學習的句子排序方法,所用特征包括句子覆蓋率、和標題相似度、句子位置、關鍵詞、命名實體和通過LDA獲得的新特征.NLP@WUST團隊則是使用詞頻、句子位置、句子長度、和標題的相似度4個特征的線性組合.具體結果如表2所示.

由表2可知,本文所選取的特征在新聞文本自動摘要中很具有代表性,并取得了不錯的結果.CIST-SUMM團隊的結果是參加評測團隊中結果相對較好的,與CIST-SUMM團隊相比,本文首先利用互信息對文本進行關聯度計算,即通過計算文本中詞與詞、句子與句子、段落與段落之間的互信息值量化文本段落之間的關聯度,從而確定文本的主題句,進一步提高了摘要句提取效果、采用基于多特征的、監督的Ranking SVM排序算法很好地融合文本多個統計特征和語義特征,證明了本文所用的排序方法在新聞文本自動摘要領域的有效性.

表1 算法設計

表2 NLP&CC2015整體結果的ROUGE值對比

4 結論

本文通過對新聞文本自動摘要的研究與實驗,分析了研究中的問題,并提出了可行的研究方法、解決路線及技術框架.借助自然語言處理的開源工具進行數據預處理和各個特征提取.基于Ranking SVM模型的文本自動摘要,從最初的新聞文本中選取多語義特征,對文本中每一個句子進行排序,最終選取得分最高的句子作為文本摘要句.

[1] 中國互聯網信息中心. 第36次中國互聯網絡發展狀況統計報告[R].北京:中國互聯網信息中心,2015.

[2] LUHNHP.The automatic creation of literature abstraets[J].IBM journal of research and development,1958,2(2):159-165.

[3] EDMUNDSON H P. New methods in automatic extracting [J]. Journal of the ACM (JACM),1969,16(2):264-285.

[4] LIN C Y,HOVY E. Identifying topics by position [C]// Proceedings of the 5th Applied Natural Language Processing Conference.New Jersey, 1997:283-290.

[5] LIU M F, WANG L M, NIE L Q. Weibo-oriented chinese news summarization via multi-feature combination[C]//The Conference on Natural Language Processing and Chinese Computing.Nanchang,2015:581-589.

[6] WAN X, YANG J, XIAO J. Towards an iterative reinforcement approach for simultaneous document summarization and keyword extraction[C]//Annual Meeting-Association for Computational Linguistics. Prague, 2007:552-559.

[7] 莫鵬,胡珀,黃湘冀,等.基于超圖的文本摘要與關鍵詞協同抽取研究[J].中文信息學報,2015,29(6):135-140.

[8] SHARIFI B, INOUYE D, KALITA J.Summarization of twitter microblogs [J].The computer journal,2014,57(3):378-402.

[9] SHARIFI B, HUTTION M, KALITA J. Experiments in microblog summarization[C]//Proceedings of the 2nd International Conference on Social Computing. Minneapolis,2010:49-56.

[10]SJACOBS P, FRAU L.Scisor:extracting information from online news[J].Communications of the ACM,1990,33(11):88-97.

[11]BAE J H J, LEE J H. Another investigation of automatic textsummarization :a reader-oriented approach[C]//Proceedings of the Austrilian and New Zealand Intelligent Information System.Brisbane,1994:472-476.

[12]張美娜,亓超,遲呈英,等. 基于漢語篇章結構的自動摘要方法研究[J]. 情報雜志,2007,26(8):34-36.

[13]蘭希. 基于篇章修辭結構的多文檔自動文摘系統的設計與實現[D].廈門:廈門大學,2014.

[14]劉星含,霍華. 基于互信息的文本自動摘要[J]. 合肥工業大學學報(自然科學版),2014,37(10):1198-1203.

[15]HERBRICH R, GRAEPEL T, OBERMAYER K. Large margin rank boundaries for ordinal regression[C]//Advances in Neural Information Processing Systems 12.Colorado:Denver,1999: 115-132.

[16]CAO Y, XU J, LIU T Y, et al. Adapting ranking SVM to document retrieval[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Washington, 2006: 186-193.

[17]JOACHIMS T. Optimizing search engines using clickthrough data[C]//Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Alberta:Edmonton, 2002: 133-142.

[18]DILL S, EIRON N, GIBSON D, et al. Semtag and seeker: bootstrapping the semantic web via automated semantic annotation[C]//Proceedings of the 12th International Conference on World Wide Web.Philadelphia, 2003: 178-186.

[19]LIN C Y, HOVY E. Automatic evaluation of summaries using n-gram co-occurrence statistics[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Edmonton, 2003: 71-78.

(責任編輯:方惠敏)

Micro-blog-oriented Chinese News Summarization Based on Multi-feature and Ranking SVM Algorithm

LI Mengshuang, ZAN Hongying, JIA Huizhen

(SchoolofInformationEngineering,ZhengzhouUniversity,Zhengzhou450001,China)

A Micro-Blog-oriented Chinese news automatic summarization algorithm was proposed.Mutual information was used to compute semantic feature among words and sentences in the Chinese news text.Then different topics were divided according to the correlation among the sentences,and a higher weight was gaven to topic sentences. Various combined features were extracted from the text,and sentences were ranked by Ranking SVM algorithm.The result of this algorithm demonstrated the effectiveness of the method.

mutual information; semantic feature; topic sentences; Ranking SVM; Chinese news automatic summarization

2016-09-19

國家自然科學基金項目(61402419);國家社會科學基金項目(14BYY096);國家高技術研究發展863計劃項目(2012AA011101);國家重點基礎研究發展計劃 973 課題(2014CB340504).

李孟爽(1993—),女,河南周口人,碩士研究生,主要從事自然語言處理研究,E-mail:limengguan@foxmail.com;通訊作者:昝紅英(1966—),女,河南焦作人,教授,主要從事自然語言處理研究,E-mail:iehyzan@zzu.edu.cn.

TP391

A

1671-6841(2017)02-0043-05

10.13705/j.issn.1671-6841.2016239

猜你喜歡
排序特征文本
排序不等式
恐怖排序
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
節日排序
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 2021最新国产精品网站| 少妇精品网站| 中文字幕第4页| 无码高潮喷水专区久久| 色成人亚洲| 中字无码av在线电影| 5555国产在线观看| 欧美精品v欧洲精品| 日本成人精品视频| 久久黄色一级视频| 国产精品尹人在线观看| 亚洲一道AV无码午夜福利| 国产欧美中文字幕| 波多野结衣在线一区二区| 熟妇人妻无乱码中文字幕真矢织江| 久草国产在线观看| 亚洲欧洲日产国码无码av喷潮| 国产精品毛片一区视频播| 五月天综合婷婷| 久久男人资源站| 日韩中文欧美| 99人妻碰碰碰久久久久禁片| 九色免费视频| 一级片一区| 国产精品自在线天天看片| 亚洲人成网址| 国产精品亚欧美一区二区| 久久夜色精品国产嚕嚕亚洲av| 97在线公开视频| 国产精品久久精品| 色成人亚洲| 欧美a在线| 亚洲AV电影不卡在线观看| www.狠狠| 婷婷亚洲综合五月天在线| 国产真实乱了在线播放| 久久午夜夜伦鲁鲁片无码免费 | 青草精品视频| 国产精品自拍合集| 亚洲福利网址| 好紧太爽了视频免费无码| 亚洲αv毛片| 真人高潮娇喘嗯啊在线观看| 亚洲最大综合网| 国产成人一区免费观看| 五月婷婷伊人网| 综1合AV在线播放| 国产美女视频黄a视频全免费网站| 青青草国产一区二区三区| 在线国产毛片手机小视频| 国产99热| 人妻精品久久无码区| 少妇人妻无码首页| 最新国语自产精品视频在| 不卡午夜视频| 成人福利在线观看| 国产毛片一区| 精品国产福利在线| 国产在线观看人成激情视频| 亚洲 日韩 激情 无码 中出| 40岁成熟女人牲交片免费| 韩国v欧美v亚洲v日本v| 成人年鲁鲁在线观看视频| 国产精品视频导航| 国产99在线观看| 亚洲精品免费网站| 萌白酱国产一区二区| 欧美一区二区丝袜高跟鞋| 18禁不卡免费网站| 久久a级片| 91伊人国产| 亚洲一区色| 国产又大又粗又猛又爽的视频| 国产成人超碰无码| 国产黑人在线| 国产一区三区二区中文在线| 免费一级无码在线网站| 9丨情侣偷在线精品国产| 国产麻豆福利av在线播放| 久久国产拍爱| 欧美曰批视频免费播放免费| 不卡无码网|