林晶
(懷化學院計算機科學與工程學院,湖南懷化418008)
一種基于混合神經網絡的抽取式文本摘要方法
林晶
(懷化學院計算機科學與工程學院,湖南懷化418008)
能夠幫助人們快速瀏覽和理解文檔或文檔集,傳統抽取式摘要方法高度依賴于人工特征,本文設計了一種基于混合神經網絡(FNN)的文檔摘要方法,它包含了一個分層文檔編碼器及一個基于關注的抽取器,能夠不依賴于人工特征自動抽取句子產生摘要.實驗結果表明,該方法效果較好.
文本摘要;句子抽取;混合神經網絡
電子商務是一種新的商業渠道,伴隨其發展也導致大量產品與服務的評論網站出現.如何從其海量資訊中高效地獲取有用信息成為人們的迫切需要.從關于特定商品實體及其屬性的文本中挖掘并總結觀點形成摘要,能夠幫助消費者做出購買決定,幫助商家更好地監控市場聲譽、了解市場需求.文本摘要的任務就是生成一個有限長度的文摘,能夠幫助人們快速瀏覽和理解文檔內容,自動摘要技術是提供這類服務的有效途徑.
自動文摘首次提出至今,在六十年來的研究與發展中誕生了許多摘要方法.總的來說,這些方法可分為抽取式和生成式兩大類[1].摘要任務在自然語言處理和信息檢索領域有著廣泛研究,以前大多關注從新聞文檔集合中直接抽取句子形成摘要.典型的多文檔摘要方法包括基于中心的方法、整數線性規劃、基于句子的LDA、子模函數最大化、基于圖的方法以及基于監督學習的方法[2].
大文檔-摘要語料的開放為使用統計文本生成技術產生生成式摘要提供了可能.與所有抽取技術進行對比,有專家提出支持生成式摘要的論據,并進一步研究了使用統計機器翻譯作為生成文本摘要技術的可能性[3].生成式摘要包含通過重寫給定文本內容生成摘要的技術,而不是簡單抽取重要句子.但多數生成式摘要技術仍然采用句子抽取作為任務的第一步.
相比生成式摘要技術,文本摘要的抽取技術受到長期研究的重點關注.在過去幾十年中,特別是DUC和TAC會議出現之后,開發了大量的抽取式摘要技術.
鑒于文檔摘要的重要意義與實用價值,吸引了大量研究人員致力于摘要技術研究.單文檔摘要基本上可以通過句子選擇來完成.被摘要的文檔被分解為句子集,接著摘要程序選擇句子子集作為摘要.作為在商業環境下提供更好信息訪問的關鍵技術,單文本摘要受到了大量關注.財經時代及CNN為吸引用戶在他們的網站上提供文章摘要,它已被Yahoo采用,在互聯網上提供自動文章摘要服務.考慮到人工摘要的高成本,通過構建能夠達到人類摘要質量的自動摘要程序將極大提升互聯網用戶對信息的訪問.McDonald(2007)指出,單文檔摘要可以形式化為著名的組合優化問題,即背包問題.給定一組句子及其長度與價值,摘要程序將它們選入摘要以使得總價值盡可能大但總長度小于等于給定的最大摘要長度.
為了模仿人工書寫的摘要,連貫性是一個重要方面.為獲得連貫摘要,Hitoshi等提出基于隱半馬爾科夫模型的摘要方法.它具有流行的單文檔摘要模型與隱馬爾科夫模型兩者的特性,隱馬爾科夫模型在選擇句子時通過決定句子上下文考慮摘要連貫性[4].
在單文檔摘要中產生連貫摘要有兩類方法:基于樹的方法[5]及基于序列的方法[6].前者依靠基于修辭結構理論(RST)的文檔的樹表示,通過利用句子間的“中心-衛星”關系修剪文檔樹表示.基于RST方法的優點是能夠利用文檔的全局信息,缺點是過分依賴所有的分析樹.與利用文檔全局結構相反,基于序列的方法依賴和使用句子的局部連貫性.對比基于樹的方法,基于序列的方法不需要類似RST分析器的工具,因此更加魯棒.
Shen等通過使用條件隨機場(CRF)擴展基于HMM的方法獲得區分度[6].CRF能夠基于大量特征來識別句子重要性并展示其有效性.這類模型的缺點是只能把句子分為2類,不能直接考慮輸出長度.這一不足有很大問題,因為實際應用中摘要長度是有限的.因此,摘要器應該能夠控制輸出長度.相比于這些方法,本文采用一種混合神經網絡的摘要方法,在對文檔進行自動摘要時,自然地考慮了最大長度約束.

圖1 混合神經網絡摘要模型
3.1 問題形式化
給定文檔D,包含句子序列{S1,…,Sn},選擇k(k 3.2 系統摘要模型 如圖1所示,摘要模型關鍵部分包括基于神經網絡的文檔讀取器和基于關注的內容抽取器.模型分層反映了文檔由詞、句、段組合而成的本質.所以采用反映相同結構的表示框架,能夠發現全局信息,保持局部信息,可以產生最小信息損失并能靈活選擇較長上下文內的重要句子,最終依據摘要長度限制產生摘要. 3.3 文檔讀取程序 每個句子被看作1個詞序列,讀取程序從句子中推導文檔的意義表示.先通過單層神經卷積網絡(CNN)獲取句子的表示向量,然后使用標準并行神經網絡(RNN)遞歸地組合句子生成文檔表示.在分層方式下,詞級別的CNN獲得句子表示,用作RNN的輸入以獲取文檔表示. 句子編碼程序采用卷積神經網絡表示句子.因為,單層卷積神經網絡可以有效訓練并已成功用于句子分類任務.設d表示詞向量的維數,s是包含詞序列(w1,…,wm)的句子,可表示為一個列矩陣w∈Rmxd.使用W和K∈Rfxd之間的寬度為f的卷積如下: 其中,⊙表示Hadamard積(對應元素相乘),b表示偏差表示第i個特征的第k個元素. 文檔編碼程序的任務是由RNN把句向量組合成文檔向量.RNN的隱狀態可看作部分列表表示,這些列表一起構成了文檔表示.設文檔d={s1,…,sn},ht是t時刻的隱狀態,按以下公式[7]調整: 其中,⊙表示對于元素相乘,Wi,Wf,bi,bf為語義組合的自適應選擇與刪除的歷史向量和輸入向量.Wr∈Rlh×(lh+loc),br∈Rlh,lh和loc分別是隱向量和句子向量的維數. 3.4 句子抽取程序 讀取句子后,由句子抽取程序應用關注直接抽取句子.該抽取程序也是一個RNN,同時考慮句子的相關性及冗余性.設t時刻編碼程序的隱態為(h1,…,hm),抽取程序的隱態為(h1,…,hm),通過當前譯碼狀態與對應編碼狀態的關聯,譯碼器關注第t個句子: 其中,MLP是一個多層神經網絡,以t時刻隱態與狀態的連接ht:ht為輸入.dt-1表示抽取程序認為應該抽取和存儲前一個句子的程度. 表1 DUC2005評測結果 表2 DUC2006評測結果 表3 以柬埔寨政治危機為主題的自動摘要實例 本文實驗選擇DUC的標準數據集和評測方法實施實驗,以評估本文在第3節和第4節介紹的方法.評估方法進以DUC2005語料作為測試集,DUC2006語料作為開發集.DUC2005數據集包含約1300篇文檔. DUC2006數據集包含1250篇文檔. 首先對數據集進行預處理,然后利用斯坦福大學自然語言處理研究小組開發的開源工具包CoreNLP對預處理后的文本進行句子切分、詞性標注、命名實體識別、依存分析,以及指代消解等處理,借助組合語義的思想利用詞向量表示句子向量. 同眾多主流方法一樣選擇LexRank[8]和Centroid[9]作為DUC2005的基準系統,選擇NIST-baseline作為DUC2006的基準系統.實驗結果如表1、2所示. 在與主流摘要方法的對比中,我們的方法也取得了不錯的成績.在DUC2005、DUC2006數據集的評測中,本文方法領先于基于相同數據集評測的基線方法.本文方法在整體表現上都很優秀,這也充分說明了混合神經思想在生成式摘要上的可行性. 由于抽取式方法易于機器實現,所以在過去的研究中,主要摘要方法基本上都采用抽取式的思想.表3展示了一篇關于柬埔寨政治危機文章的自動抽取式摘要的實驗結果.表格第一欄是包含179個英文句子的短文片段,粗體字部分是自動抽取的摘要句.第二欄是人工編寫的參考摘要句.對比來看,自動抽取的摘要句基本上涵蓋了人工摘要句1)、3)、5)所要表達的含義,且與主題“柬埔寨政治危機”相吻合. 本文設計了反映文檔詞、句、段結構本質的表示框架,先通過單層神經卷積網絡獲取句子的表示向量,然后使用標準并行神經網絡遞歸地組合句子生成文檔表示.它能夠發現全局信息,保持局部信息,產生最小信息損失,并能靈活選擇較長上下文內的重要句子生成摘要.實驗表明,本文方法效果較好. [1]Hahn U,Mani I.The challenges of automatic summarization[J]. Computer,2000,33(11):29-36. [2]Xiaojun Wan,Tianming Wang.Automatic Labeling of Topic Models Using Text Summaries[C]//Proceedings of the 54th Annual Meetingofthe Association for Computational Linguistics,2016:2297-2305. [3]Parth Mehta.From Extractive to Abstractive Summarization:A Journey[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics-Student Research Workshop,2016:100-106. [4]Hitoshi Nishik awa1,Kazuho Arita1,Katsumi Tanaka,et al. Learning to Generate Coherent Summary with Discriminative Hidden Semi-MarkovModel[C]//Proceedings ofCOLING 2014,the 25th International Conference on Computational Linguistics:Technical Papers,2014:1648-1659. [5]Hitoshi Nishikawa,Takaaki Hasegawa,Yoshihiro Matsuo,et al. Opinionsummarizationwithintegerlinearprogramming formulation for sentence extraction and ordering[C]//.International Conference on Coling,2010:910-918. [6]Dou Shen,Jian-Tao Sun,Hua Li,et al.Document summarization using conditional random fields[C]//.In Proceedings of the 20th international joint conference on Artifical intelligence(IJCAI),2007:2862-2867. [7]Duyu Tang,Bing Qin,Ting Liu.Document Modeling with Gated Recurrent Neural Network for Sentiment Classification[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1422-1432. [8]Erkan G,Radev D R.LexRank:Graph-based lexical centrality as salience in text summarization[J].Journal of Artificial Intelligence Research,2004:457-479. [9]RadevDR,JingH,BudzikowskaM.Centroid-based summarizationofmultipledocuments:sentenceextraction,utility-based evaluation,and user studies[C]//Proceedings of ACL,2000:21-30. On Extractive Summarization Via Hybrid Neural Networks LIN Jing A document or a set of documents are easy for readers to read and understand fast by their summaries. But traditional extractive summarization relies heavily on human-engineered features.Hence in this work a summarization approach was proposed based on hybrid neural networks(FNN).Our model includes a neural network-based hierarchical document reader or encoder and an attention-based content extractor.The proposed approach can automatically generate summary by extracting salient sentences from documents.Experiments show that our model outperforms previous state-ofthe-art methods. text summarization;sentences extraction;hybrid neural networks TP391 A 1671-9743(2017)05-0071-04 2017-02-22 湖南省重點實驗室項目“武陵山區生態農業農情摘要關鍵技術研究”(No.ZNKZ2014-8). 林晶,1970年生,男,湖南邵陽人,副教授,研究方向:自然語言處理、大數據分析、信息安全.






4 實驗結果及分析
5 結語
(School of Computer Science and Engineering,Huaihua University,Huaihua,Hunan 418008)