999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于事件圖的新聞標題生成研究

2017-06-08 05:50:39孫銳
樂山師范學院學報 2017年4期
關鍵詞:詞匯方法

孫銳

(樂山師范學院 計算機科學學院,四川 樂山 614000)

基于事件圖的新聞標題生成研究

孫銳

(樂山師范學院 計算機科學學院,四川 樂山 614000)

為新聞自動生成標題是一個極具挑戰的任務。文章基于事件圖,提出一種有效的無監督標題生成方法。給定一篇新聞文檔,首先為其構造事件圖以表示整個篇章,然后采用圖排序方法以計算每個事件的顯著性得分。隨后為排序后的多個事件,抽取其在文中的依存片段作為候選標題,最后設計一個目標優化函數以搜索最終的標題。在英文和中文數據集上的實驗結果表明,文章提出的方法能有效地學習顯著性事件并能較好地生成標題。

事件抽取;互增強原則;標題生成

0 引言

文本標題能幫助讀者快速地從新聞報道中抓住主旨和感興趣的內容。例如,Google新聞報道Ukraine Delays Announcement of New Government,讀者可直觀地了解該報道為烏克蘭延遲新政府成立宣告。然而,標題的生成和評估都是非常有挑戰性的,其原因是在長度受限的情況下標題應要求包含重要信息,同時也要具備可讀性。

表1 新聞片段示例

觀察Google News不同時段的新聞標題,超過95%的標題包含至少一個事件,且正文大多圍繞事件來組織。根據報道者書寫習慣的不同,主旨事件可能在正文的不同位置出現(通常出現在首句),而其他相關事件通過公共角色或實體與主旨事件產生聯系。表1給出的新聞片段,描述了一個名叫Chris Scott Gilliam的恐怖主義者想殺掉每個人。容易看出,文中有大量與殺人相關的事件,如“sending mail bombs”“arresting”和“testifying”等。此外,該新聞的主角參與了包括主旨事件在內的大多數事件。因此,從文中學習主旨事件對標題生成是有意義的。一方面,主旨事件中的詞或短語可以確保標題的信息度;另一方面,事件可以為各個短語提供語義上的約束。

本文工作旨在為單篇新聞文檔從事件出發生成標題。因此,如何學習主旨事件是關鍵研究環節。首先,從文中提取詞匯鏈和事件以構造事件圖,該圖可以看作是文章的壓縮表示。不同于傳統事件圖[1],本文事件圖并不描述事件間的因果或時序關系,而是論元間的語義關系。其次,利用圖的排序方法來習得事件的顯著性。最后將事件所在的依存片段作為候選標題并利用優化算法來搜索最終的標題。

本文利用結構化事件來生成標題,并對比了多種排序方法來學習顯著性事件。在中英文兩種語料上的實驗結果表明本文方法能取得有效的性能。

1 標題生成

本文方法主要分為三個步驟:1)基于詞匯鏈和事件集合來構建文章的事件圖,該圖描述了文章的篇章大意;2)采用圖的排序方法學習顯著性事件;3)抽取事件依存片段并搜索最終標題。

1.1 事件圖構建

圖1 篇章事件圖示例

如圖1所示,本文的事件圖可以抓住新聞的主旨,從圖中直觀地發現新聞主角以及其參與的事件集合。圖中,每個結點表示文檔中的一條詞匯鏈,邊則表示事件中成分間的關系。因此,在事件圖構建前需進行詞匯鏈和事件的抽取。

本文詞匯鏈的抽取采用以下原則:1)詞干化后形態相同的詞被視為同一個詞;2)擁有相同頭詞的短詞應在同一鏈中;3)代詞應根據其同指關系加入相應詞匯鏈;4)在詞典中處于同一語義集合的詞匯須在同一鏈中。根據以上原則,表1可生成詞匯鏈:{Chris Scott Gilliam_3_2,he_5_2, He_2_3,Gilliam_10_7,Gilliam_4_9,Gilliam_4_11,Gilliam_8_13,Gilliam_3_14},鏈中第一次提及可視為代表詞,即Chris Scott Gilliam。對詞匯鏈初始權重的度量可使用兩個特征:詞匯鏈的長度和所跨行數。即采用如下公式計算:

其中t表示詞匯鏈,函數len和span分別表示詞匯鏈長度和所跨行數,分別反映了詞匯鏈中詞的出現頻率及分布。

本文事件采用三元組形式的定義。不同于標準事件抽取方法,本文采用一種簡單且有效的方法進行事件抽取。該方法基于依存分析的結果,利用nsubj和dobj等動詞依存關系。事件的論元是細粒度的。如表1中語句S14,“someone should kill the FBI sniper”可由依存關系“nsubj(kill-10,someone-8)”和“dobj(kill-10,sniper-13)”,組合成事件“someone kill snipper”。

一旦所有事件抽取完成后,即可構建篇章事件圖。每個結點表示一條詞匯鏈,每條有向邊代表觸發詞與其論元間的關系。因此,一個事件至多可以對應圖中的兩條邊。如圖1所示,圖中從主語到賓語的一條路徑代表一個事件。不同于傳統的篇章表示,篇章事件圖并不關注語句元間的語義關系,而關注于篇章事件的分析,其事件間的關系通過公共的事件論元來呈現。

1.2 顯著事件學習

直觀地,類似于PageRank或HITS的傳統圖排序方法可用于在事件圖中抽取最重要的事件。結點的權重與其在圖中的度有關。本文首先采用一種類似于PageRank的方法在事件圖中進行事件排序。不同地,結點權重不需要分散到其他結點。結點度越大,其權重越大。一個事件包含一個觸發詞和至多兩個論元,因而事件權重可通過累加事件元素的權重獲得,即:

其中t表示事件e中每個元素,函數dg(.)表示圖中結點n的度。該方法為GraphR。

GraphR中主要考慮了詞匯鏈對事件權重計算的貢獻,但事實上,事件對詞匯鏈的權重也應同時考慮。因此,本文引入互增強原則來同時學習事件和詞匯鏈的權重。互增強模型的關鍵是如何度量事件和詞匯鏈的關系。

給定一篇新聞文檔,假設有n個事件{e1,e,...,en}和m條詞匯鏈{t1,t2,...,tn}。各自的權重分別定義為[w(e1),w(e2),...,w(en)]和[w(t1),w(t2),...,w(tn)]。關系矩陣r用于描述事件ei和詞匯鏈tj間的關系。以往的研究表明多數標題出現在文章的開始,相應地出現在文章開始的事件也越重要,因而出現在ei的詞匯的頻率及事件的位置信息可用于度量事件和詞匯的關系。關系矩陣定義如下:

其中w(tj)可用式1計算,t表示事件中的詞匯鏈;line和N分別表示事件所在行號和文章總行數。因此,可定義迭代算法按下式來計算權重:

其中K表示最大迭代次數。從初始w(t)0開始,重復迭代過程直至權重向量移民定。參數在開發集上調節,當w(t)0和K分別設置為1.0和10時權重向量趨于穩定。

1.3 事件擴展

直觀地,排序算法得到的顯著事件更可能出現在標題中。觀察顯著事件所在語句的依存樹,可發現如下一些現象。首先,事件論元中的指代須用相應詞匯鏈的頭詞替換;第二,與事件論元有著語義關系的重要詞匯可能因依存錯誤而丟失;第三,與標題直接相關的事件不一定能得到更高的排名。

因此,每個顯著性事件需要擴展為一個依存片段。每個片段可視為一個候選標題,標題生成的過程即為搜索過程,目標函數可作如下定義:

其中,I為候選標題數目,而ci和CS分別表示第i個候選和候選集合。Fit(.)函數可從兩個方面度量。一是候選所包含的詞匯鏈權重,另一個是該候選的排名。因而,該函數可定義如下:

具體地,每個事件候選的生成采用如下方法生成:1)構建詞匯池,初始時包含了事件的所有論元;2)搜索所有與池中詞匯有著直接語義關系的詞,將權重最高的詞匯加入到池中;3)如詞匯池已滿或沒有詞匯再被選中則結束,否則返回第2步;4)池中的所有詞匯按其在文中出現的位置形成候選標題。以上過程是一種貪心的策略。如表中語句3,事件“he kill everybody”可擴展為片段“Chris Scott Gilliam wanted to kill everybody”。最后得分最高的候選即可作為最終的標題,本文方法為MutualR。

2 實驗

2.1 實驗設置

實驗在中英文兩個數據集上進行。英文語料為DUC04任務1標準評估語料,包括500篇文章。中文語料為新華社人民日報語料,包括800篇文章。DUC07語料中前100篇文章作為開發集。統計結果表明,測試集中有低于5%的抽象程度較高的標題,每篇文章約50個事件,由此可見本文方法在這些數據集上是適用且有意義的。

表2 中英文語料上不同方法的性能評估

系統評估采用Rouge方法[2],其中Rouge1和Rouge2用于評估標題的信息度和流暢度。因為需要進行中文數據集的評估,我們基于同義詞詞林擴展版重現了Rouge1和Rouge2的計算。

2.2 基線系統

TopWords:Lead10[3]方法簡單地從首句中提取前10個詞作為標題。盡管該方法簡單,但它在標準評測數據上超過了以往了一些機器學習方法。

FirstSent:為驗證事件擴展的有效性,直接在文章首句上執行了本文相同的實驗。

2.3 結果

由表2所示的實驗結果可見,MutualR在兩個數據集上均取得比基線系統更好的性能。First-Sent方法總體性能和TopWords方法相當,驗證了事件擴展可以有效地找回丟失信息。由于新聞報道中大多在篇章開始處直接呈現主題,主流的標題生成方法均將第一條語句作為候選標題。但英文數據集上的實驗結果表明數據集中約30%的標題并不是直接來源于首句。如表1中示例的標題來源于語句S3。因此,標題生成任務更應該被視為篇章分析任務。如圖2所示,MutualR方法總體效果均高于GraphR,由此可見基于互增強的排序方法優于傳統方法。其主要原因在于GraphR簡單地考慮了結點權重,而忽略了詞和事件間的相互關系。此外,基于主旨事件的擴展既能抓住重要信息,也能在一定程度上保障標題的語法。

圖2 GraphR和MutualR在英文數據上的性能比較

3 分析和討論

實驗結果證明了方法的有效性。從事件圖中習得的主旨事件能抓住篇章主旨。表3呈現了中英文語料上的一些生成結果。

從第一個示例可以看出參考標題和機器生成標題從語義上是大體相似且與篇章語義緊密相關的,然而,評估得分卻因為缺乏共同詞匯而并不理想。顯然,采用能從語義推理進行標題生成評估的方法更符合實際。觀察第二個示例可見,參考標題中并沒有特定的事件,此時本文的方法僅能通過事件論元來提升信息度得分。統計結果表明,極端情況下評估得分為零。此類現象在中文中出現較多。因為中文依存分析性能的影響,特別是指代消解等問題,事件抽取結果存在一些論元丟失或錯誤的情況。故在中文標題生成領域仍有許多工作需要開展。

表3 中英文語料上不同方法的標題生成結果示例

為進一步評估基于圖的排序方法的性能,也進行了事件顯著性學習比較的實驗。候選事件的個數I分別從1變化到15。圖3給出了實驗的結果。顯然,候選越多,得分應趨近于一個極值。當I等于 15時,Rouge得分分別達到 0.4717和0.2404。近似地,互增強模型中,91%的主旨事件出現在前5位,98%的事件出現在前10位,因而這種基于事件圖的方法仍有很大的上升空間。

圖3 不同候選個數下英文數據集的性能比較

4 相關工作

新聞標題生成的方法大體分為兩類:抽取式和生成式。抽取式方法采用自頂向下的策略,在重要語句上實施語句壓縮技術以達到標題長度的要求。Dorr等[4]利用語言學的策略,提出了Hedge算法。Zajic等[5]則在Hedge算法的基礎上利用無監督的主題發現方法組合了文檔的一個或多個主題詞。這些方法不需要過多的語言分析,一些重要的語法成分可能被錯誤的刪除掉。

生成式方法通常分為兩個階段:內容選擇和標題合成。首先識別出能反映篇章主題的候選詞或短語,然后再利用語句合成技術將這些候選成果組合成一條滿足語法規則且連貫的標題。Woodsend等[6]基于偽同步語法提出了一種聯合模型。該模型中使用整數線性規則以優化內容選擇和語句生成。受自然語言生成技術的影響,基于短語和詞的合成仍無法確保語句的可讀性。Alfonseca等[7]首先基于現有知識庫Freebase生成事件模板,再利用“噪聲或”模型為一組相類新聞文檔集合生成標題。受該工作的啟發,本文從事件的角度出發為單篇新聞生成標題。顯著性事件組合了一些顯著性詞匯或短語,并且事件的擴展基于依存關系進行,因而能為標題生成提供一定的性能保障。

5 結論

本文基于事件圖來學習篇章主旨事件,并在事件的基礎上,設計了優化函數以生成最終的標題。該方法無需標注數據和背景知識,是一個輕量級的生成方法。實驗結果表明該方法是有效且有潛力的。然而,在某些情況下,單個事件仍不足以表達篇章主題,尤其是在中文領域。因此,基于事件的融合是未來需要深入研究的目標。

[1]ARNOLD H.Buss.Modeling with event graphs[C].Proceedings of the 1996 Winter Sirnulation Conference,1996:153-160.

[2]LIN Chin-Yew.Rouge:A package for automaticevaluation of summaries[C].Text SummarizationBranckes Out:Proceedings of the ACL-04 Workshop,2004:74-81.

[3]SORICUT R.MARCU D.Abstractive headlinegeneration using WIDL-expressions[J].Information Processing and Management,2007:43(6),1536-1548.

[4]DORR B,ZAJIC D,SCHWARTZ R.Hedge trimmer:A parse-and-trim approachto headline generation[C].Proceedings of the HLT-NAACL 03 on Text summarization workshop,2003,5:1-8.

[5]ZAJIC D,DORR B,SCHWARTZ R.Headline generation for written and broadcast news[R].lamp-tr-120,cs-tr-4698,2005.

[6]WOODSEND K,FENG Y S,LAPATA M.Title generation with quasi-synchronousgrammar[C].Proceedings of the 2010 Conferenceon Empirical Methods in Natural Language Processing,2010:513-523.

[7]ALFONSECA E,PIGHIN D,GARRIDO G.HEADY:News headline abstractionthrough event pattern clustering[C].Proceedings ofthe 51st Annual Meeting of the Association for ComputationalLinguistics,2013:1243-1253.

Research on News Headline Generation Based on Event Graph

SUN Rui

(School of Computer Sciences,Leshan Normal University,Leshan Sichuan 614000,China)

Automatically generating news headline is a challenging task.This paper proposes an effective unsupervised method for this task based on event graph.Given a news report,firstly,a discourse event graph is constructed for it,and then graph ranking algorithms are used to compute the salient score for each event.Then,the dependency fragment in the text as the candidate title is extracted,and a target optimization function is designed to search the final headline.Experimental results on English and Chinese datasets demonstrate that the proposed method can effectively learn the salient events based on the discourse event graph and generate headlines.

Event Extraction;Mutual Reinforcement Principle;Headline Generation

TP391

A

1009-8666(2017)04-0042-05

10.16069/j.cnki.51-1610/g4.2017.04.009

[責任編輯、校對:王興全]

2017-01-16

孫銳(1977—),男,四川眉山人。樂山師范學院計算機科學學院講師,博士,研究方向:自然語言處理。

猜你喜歡
詞匯方法
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
學習方法
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
本刊可直接用縮寫的常用詞匯
主站蜘蛛池模板: 美女国内精品自产拍在线播放| 亚洲美女操| 国产小视频a在线观看| 欧美性猛交一区二区三区| 国产丝袜第一页| 久久久噜噜噜久久中文字幕色伊伊| 在线人成精品免费视频| 在线高清亚洲精品二区| 欧洲精品视频在线观看| 亚洲第一成人在线| 依依成人精品无v国产| 亚洲色图欧美在线| 国内老司机精品视频在线播出| 国产精品成人啪精品视频| 波多野结衣爽到高潮漏水大喷| 永久在线播放| 欧美日韩国产精品va| 欧美日韩国产系列在线观看| 女人一级毛片| 色天天综合| 天天激情综合| 国产精品人成在线播放| 国产SUV精品一区二区6| 国产乱人伦偷精品视频AAA| 婷婷综合亚洲| 国产主播一区二区三区| 99久久精品免费看国产电影| 欧美一区精品| 国产成人综合在线视频| 2020最新国产精品视频| 欧美一区中文字幕| 亚洲欧美日韩中文字幕在线一区| 国产小视频在线高清播放| 高清乱码精品福利在线视频| 国产喷水视频| 无码'专区第一页| 亚洲一区二区三区麻豆| 高潮爽到爆的喷水女主播视频| 久久精品亚洲热综合一区二区| 欧美一级在线看| 在线无码av一区二区三区| av色爱 天堂网| 国产精品欧美激情| 日韩无码黄色网站| 黄色三级网站免费| 色网站免费在线观看| 91麻豆国产视频| 色婷婷啪啪| 欧美国产精品不卡在线观看| 91伊人国产| 国产精品久久国产精麻豆99网站| 国产欧美日韩va| 免费播放毛片| 国产极品美女在线播放| 精品乱码久久久久久久| 97精品国产高清久久久久蜜芽| 国产欧美日本在线观看| 国产成人亚洲日韩欧美电影| 综合色88| 欧美日在线观看| 精品少妇人妻无码久久| 亚洲乱伦视频| 欧美午夜性视频| 国产精品任我爽爆在线播放6080| 免费在线a视频| 国产尤物jk自慰制服喷水| 国产无码在线调教| 久久精品亚洲中文字幕乱码| 亚洲国产清纯| 激情视频综合网| 精品人妻一区无码视频| 久久青草精品一区二区三区| 久久男人视频| 中文字幕在线一区二区在线| 91av国产在线| 91视频精品| 日韩AV无码一区| 久久人体视频| 国产精品漂亮美女在线观看| 免费高清自慰一区二区三区| 欧美一级在线看| 亚洲色欲色欲www在线观看|