黃鑫池
摘要 隨著近些年的移動互聯網的高速發展,網絡中的新聞資源急速增長,而讀者希望能夠快速有效的獲取新聞中的關鍵信息,篩選適合自己喜好的新聞進行閱讀。因此為新聞生成一條簡潔全面并且有吸引力的標題會極大的提升讀者的閱讀體驗,特別是在移動新聞客戶端中,用戶往往僅根據推送消息中的簡短的標題中的內容決定這條新聞是否符合他的喜好,從而決定是否閱讀,標題直接影響了在移動新聞客戶端中的一條新聞的閱讀量。具體來說,新聞標題是一則新聞的內容的概括,旨在用最簡短的語言最大限度的呈現新聞中的關鍵信息,同時還要足夠新穎,能夠吸引讀者的注意,同時也應該避免標題內容夸大事實引起讀者反感。
【關鍵詞】神經網絡 生成摘要 漢語新聞標題
1 新聞標題生成技術的相關研究
1.1 新聞標題生成技術
在實際應用中,由于新聞資源過多,使用新聞標題生成技術為新聞自動生成一個準確、流暢且有吸引力的標題很有必要。事實上新聞標題生成是自動文本摘要技術的一個分支,自動文本摘要技術是從一篇或多篇原始文本中提取出文本中的關鍵內容,并且要求摘要的長度不大于或遠小于原始文本的長度,其廣泛應用于自動報告生成,搜索結果預覽,論文摘要生成等。盡管實際應用中對于自動文本摘要技術有著巨大的需求,但是自動文本摘要技術的發展仍然十分緩慢,其要求計算機能夠對原始文本中的關鍵信息進行識別,篩選,重新組合,同時還要兼顧生成摘要的語義連貫性和流暢性,特別的對于新聞標題生成任務而言還需要考慮標題的新穎程度。
1.2 自動文本摘要技術
自動文本摘要技術種類按照實現的方式大致可分為抽取式和摘要式兩種。抽取式要求計算機根據原始文本中的句子或者其中的某些詞的重要程度,選取一些詞或句子將他們重新排序,生成一段流暢的摘要。摘要式并不要求生成的摘要中的句子或者詞完全來自于原始文本,而是要求計算機根據原始文本的語義信息通過復雜的自然語言處理技術產生一段能夠準確代表這段文本的語義信息摘要,這一過程更加接近人類對文本進行摘要的過程,同時也更加復雜。對于抽取式文本摘要由于其相對簡單,且易于理解。
人們很早就對抽取式自動文本摘要進行了研究。1958年,Luhn等人提出了一種基于特征得自動文本摘要方法他們加設原始文本中得高頻詞可以代表文本的主題因此選取涵蓋文本中高頻詞得句子并加以組合生成摘要,在此基礎上Edumdson等人綜合考慮了線索此,標題詞和句子所在位置以及關鍵詞詞頻等因素,選取最有可能成為摘要的句子組合成為摘要。隨著統計自然語言處理技術的發展,Aone等人于1995年提出了一種基于統計的自動摘要生成系統,該系統基于樸素貝葉斯模型計算原始文本中每個句子屬于摘要的概率,并根據概率排序選取概率較高的句子組合成為摘要。隨后Osbonre等人提出了一種基于對數線性模型的自動摘要生成系統,相比較于樸素貝葉斯模型其性能有較大提升。以上這些工作都是只是局限于抽取式方法,而摘要式由于需要理解原始文本的語義,長久以來摘要式生成方法沒有得到較大的發展,然而今年來人工神經網絡特別是循環神經網絡在自然語言處理領域的廣泛應用使得摘要式方法成為可能。
2015年Rush等人首先將人工神經網絡和注意力機制應用于自動文本摘要領域并在DUC-2004和Gigaword上取得了優異的成績,隨后Chopra將循環神經網應用于這一問題在此基礎上Nallapati又引入了分層神經網絡,明顯的提升了自動文本摘要系統的性能思維。
2 模型的選取應用與實驗
2.1 選取模型進行實驗
由Abigail See和Peter J Liu等人所提出的結合覆蓋機制的指針生成網絡,在英語的自動文本摘要領域取得了很好的成績。所以實驗選取了以下幾個模型進行實驗:
(l)帶注意力機制的序列到序列網絡。
(2)指針生成網絡。
(3)覆蓋機制。
2.2 實驗具體實驗過程如下
實驗方面:由于時間有限,沒有基線系統,只有一次實驗結果,并不一定是最佳結果。語料處理方面:本次實驗所使用的漢語新聞語料來自于搜狗實驗室其包含了來自若干新聞站點2012年6月-7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞數據,提供URL和正文信息。獲取得到中文新聞語料共計1143520條。在預處理時采用了Stanford Core NLP進行分詞。為了加快模型訓練速度,本次實驗選取的詞表大小為50000,從訓練數據的分詞結果中選取出現頻率最高的50000個詞作為詞表,其余詞標記為UNK。模型參數:模型采用服從正態分布的方式進行隨機初始化。模型使用Adam算法作為模型的優化算法,學習率為0.15,初始累加器值為0.1。為了避免梯度梯度爆炸問題,這里采用了梯度裁剪技術,正則項系數為2在訓練時,我們將新聞內容分為小段,每個小段不超過400個詞,每個標題限定為不超過100個詞。模型訓練迭代輪次為300000輪,批次大小設置為16。單次訓練使用Titan Xp GPU訓練需要3天10小時。
2.3 實驗結果分析
實驗結果測試數據為從測試集數據中隨機選取得到的100個生成摘要及其參考摘要。在隨機抽取的文章中提取一篇如下:“中廣網遂川6月13日消息(記者胡嘯、通訊員梁路峰、劉會平)6月11日,江西遂川縣公安局在開展打擊侵財性犯罪專項行動中,偵案民警通過千里追蹤,數夜蹲守,在南昌縣抓獲4名涉嫌詐騙的犯罪嫌疑人,繳獲作案車輛2輛,破獲系列“撿錢分錢”詐騙案。
2011年11月份以來,遂川縣發生多起“撿錢分錢”詐騙案,受害人達10余人,涉案金額近10萬余元,且受害人多為中老年人,受害人群中,不僅財物受到損失,精神也受到損傷,嚴重影響了人民群眾的安全感。
6月4日,遂川縣泉江鎮銀川大道發生一起“拾錢分錢”詐騙案,案件發生后,刑警大隊迅速展開偵查,發現一輛車牌號為“贛M83702”的五菱面包車和一輛車牌號為“贛M76903”的長安面包車納入偵查員的視線,該局情報信息研判科迅即跟蹤偵查,通過信息研判、調查取證,一個由幾名南昌縣八一鄉籍的犯罪分子組成的詐騙團伙浮出水面。
因這幾名犯罪嫌疑人都是南昌縣人.且該團伙人員大都是南昌縣八一鄉某村人,該村民風彪悍,給抓捕工作造成巨大的困難。
6月5日,侵財性案件專項行動組民警不顧前一夜通宵工作未眠之勞累,由刑警大隊副大隊長劉會平立即帶領王強偉、劉海平、李晨三名刑警又前往南昌開展抓捕工作,經過細致摸排數夜蹲守,在南昌市警方的大力協助下,于6月8日成功抓獲4名犯罪嫌疑人,并繳獲作案車輛2輛。
當晚,專案組民警連夜將這4名犯罪嫌疑人帶回遂川突審。4名犯罪嫌疑人在鐵一般的證據和事實面前,主動交代其所犯下的犯罪事實。
目前,4名犯罪嫌疑人都已刑事拘留,案件在進一步審理中。
作者胡嘯梁路峰劉會平”
在此文中,生成的摘要為“江西、遂川縣、警方、破獲、系列、撿錢分錢、詐騙案”,而本文的參考摘要為:“江西、遂川、系列、撿錢分錢、詐騙案、警方、破獲”。通過對實驗結果的分析可以發現生成的摘要語義與參考摘要相近,并且生成摘要可以很好的概括輸入文本中的關鍵信息。
3 總結
通過運用不同的模型進行實驗,以及對其實驗結果的分析可以發現自動生成的摘要語義與人工摘要相近,并且系統生成的摘要相比人為摘要,更加省時省力,同時也可以很好的概括文章中的關鍵信息。
參考文獻
[1] Manning.
Chris topher D., MihaiSurdeanu, John Bauer, Jenny Finkel,Steven J. Bethard, and DavidMcClosky. The Stanford CoreNLPNatural Language, 2014.
[2] Abigail See, Peter J. Liu.Christopher D. Manning. Get To ThePoint: Summarization with Pointer-Generator Networks [C]. ACL. 2017.
[3]Marc' Aurelio Ranzato. SumitChopra, Michael Auli, WojciechZaremba. Sequence level trainingwith
recurrent
neural
ne tworks[C].International Conference on LearningRepresentations. 2016.