999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于C-R神經網絡的生成式自動摘要方法*

2020-03-04 05:12:50
計算機與數字工程 2020年1期
關鍵詞:文本方法模型

王 瑋

(軍事科學院研究生院 北京 100091)

1 引言

文本摘要也是一個傳統與新興技術并存的研究領域。文本摘要從20世紀50年出現以來,出現了很多經典的方法,比如基于詞頻統計的方法[1],基于詞典詞庫的TD-IDF方法[2],基于機器學習的統計方法[3]。在不斷涌現的新技術中,很多可以用于文本自動摘要,但與人工生成的摘要相比,效果可能總是不盡人意的。但隨著深度學習和大數據技術的發展,為實現自動文本摘要的智能化提供了很好的技術基礎。當然傳統方法結合深度學習和大數據也是研究的重要方向[4]。

文本摘要是指用單個或多個文檔中較少的文字,產生可傳達原文本主要信息的一段文本。文本自動摘要是一種利用計算機自動生成文本摘要的理論方法和技術[5~7]。自動摘要的出現一方面是為解決海量情報信息過載問題,另一方面原因是人工摘要的成本較高。自動文本摘要(Auto Text Summarization)是NLP中較難的問題,至今依然沒有很成熟的技術來解決這個問題,包括單文檔和多文檔摘要技術,后者較于前者會更加復雜一些。搜索引擎是ATS應用之一,基于查詢的自動摘要會幫助用戶盡快找到感興趣的內容。

自動摘要一般兩種解決思路。一種是抽取式,就是按照一定權重,從原文中找到關鍵句子,組合成一篇摘要。抽取式摘要目前已經比較成熟,但是抽取質量及內容流暢度均差強人意;另外一種是生成式,是計算機在理解整篇文章含義的基礎上,自動生成的摘要。伴隨著深度學習的研究,生成式摘要的質量和流暢度都有很大的提升。因此依靠自然語言處理理論來自動生成文本摘要是近幾年來重要研究方向之一。

文獻[8]首次將深度學習模型應用于多文本抽取式摘要,提出了一個計算架構,采用RBM受限玻爾茲曼機作為深度學習網絡,并用實驗進行了驗證。文獻[9]首次提出了將CNN應用到文本摘要中,利用CNN進行文檔編碼,用BP反饋網絡生成摘要。文獻[10]提出了序列到序列的方法,就是利用RNN循環神經網絡作為解碼器來進行文本摘要,效果提升比較明顯。文獻[11]中將RNN的注意力機制用到RNN解碼器,效果比單純的RNN好。本文認為,利用深度學習模型來進行文本摘要生成比傳統方法效果是有大幅提升的。目前需要考慮地是深度學習模型如何能更好地應用于文本摘要問題,考慮將深度學習模型進行組合運用,是值得探討的研究方向。

本文對生成式自動摘要方法進行了綜述,提出了基于卷積深度神經和循環神經網絡的生成式自動摘要方法,對方法的主要思路、評價方法進行了描述,并通過實例對算法進行了驗證,與其他自動摘要方法進行了對比,說明了改進方法的先進性。

2 生成式自動摘要方法綜述

生成式文本摘要是更接近于人類思考方式的摘要生成方法,具有更強的生成、理解、表征文本的能力。近年深度神經網絡方法表現出強大的表征(Representation)能力,生成式自動文本摘要依賴深度神經網絡方法獲得了令人矚目的發展。生成式神經網絡模型的基本結構是由編碼和解碼器組成,如下圖1所示。

圖1 生成式基本模型結構

深度神經網絡結構已經可以實現生成式文本摘要。2014年由谷歌大腦(Google Brain)團隊提出了Sequence-to-Sequence序列(以下簡稱Seq2Seq),開始了利用端到端網絡來研究NLP的先河。Seq2Seq序列又稱為編解碼器(Encoder、Decoder)架構,編碼器負責將輸入文本編碼成一個向量,作為原文本的表征,該向量包含了文本的上下文信息。而解碼器從該向量提取重要信息,并進行剪輯加工,生成文本摘要,這套架構就是Seq2Seq。該方法被廣泛應用于存在輸入和輸出序列的場景,Seq2Seq架構中的編碼器和解碼器通常由時間遞歸神經網絡(RNN)或卷積神經網絡(CNN)實現。

2.1 基于RNN的生成式結構

“序列到序列”方法在很多文本處理中有很好的效果。從序列角度看,自動摘要為從原始文本序列到摘要文本序列的映射,使用序列到序列建模來處理是可行之法。不同之處在于,摘要長度并不依賴于原文本長度,而且相對于原文摘要必然有信息損失。很多專家已經在這方面取得了很好的研究成果,比如Chopra等使用遞歸神經網絡(RNN)作為解碼器,大大提高了摘要效果[10]。

基于RNN模型本身的序列特性,將其用于實現Seq2Seq架構處理文本任務是順其自然的想法。典型的基于RNN生成式基本模型結構如圖2所示。

圖中編碼器和解碼器分別由四層RNN的變種LSTM(長短期記憶網絡)組成。圖中的向量編碼了輸入文本信息,解碼器獲得這個向量依次解碼生成目標文本。上述模型也可以自然地用于自動文本摘要任務,這時的輸入為原文本(如新聞),輸出為摘要(如新聞標題)。

2.2 基于CNN的生成式結構

Seq2Seq同樣也可以通過CNN實現。不同于遞歸神經網絡可以直觀地應用到時序數據,CNN最初只被用于圖像任務。CNN是通過卷積核從圖像中提取特征(Features),間隔地對特征進行最大池化(Max Pooling)作用,從而得到不同層次的、由簡單到復雜的特征(如線、面、復雜圖形模式等),如圖3所示。

圖2 基于RNN的生成式基本模型結構

圖3 圖像中提取特征示意圖

CNN的算法優勢是可以提取出層次特征,并可以高效并行地進行卷積運算,根據其特點,可將CNN應用到相關文本任務中,但原生態的文本字符串無法進行計算,需將文本表示為分布式向量(Distributed Representation/Word Embedding)。可以用一個實數矩陣或向量表示一句話或一個詞,經過分布式向量表示后,既可以在文本任務中應用CNN。

圖4 基于CNN的文本特征提取示意圖

如圖4所示,原來的文本由實數矩陣表示,矩陣可以類比為圖像的像素矩陣,卷積神經網絡可以像讀取圖像一樣讀取文本,學習并提取文本特征。但CNN提取的文本特征,并不能如圖像特征那樣,有明顯的可解釋性和可視性。CNN抽取的文本特征可以類比自然語言處理中的分析樹(Syntactic Parsing Tree),如圖5代表句子的語法層級結構。

圖5 語法層級結構

基于CNN的自動文本摘要模型中的比較著名的是Facebook公司提出的ConvS2S模型[3],由CNN實現編碼器和解碼器,同時加入了注意力機制,嘗試將該模型用于自動文本摘要。實驗結果顯示,基于CNN的Seq2Seq模型也能在文本摘要任務中達到接近完美的表現。ConvS2S的成功之處不僅在于創新的結構,還在于細致入微的小技巧。在ConvS2S中對參數使用了非常仔細的初始化和規范化(Normalization),穩定了方差和訓練過程。這個模型的成功證明了CNN同樣能應用到文本任務中,通過層級表征長程依賴(Long-Range Dependency)。同時,由于CNN具有可高度并行化的特點,所以CNN的訓練比RNN更高效。比起RNN,CNN的不足是有更多的參數需要調節。

2.3 基于Attention的生成式結構

編碼器將原文編碼為向量V,而解碼器從向量V中提取信息、獲取語義、生成文本摘要。但由于“長距離依賴”問題,RNN最后一個時間步輸入單詞時,會丟失了很多信息,編碼生成的語義向量V也丟失了大量信息,導致生成的摘要不夠準確。Google團隊2017年6月宣布不用CNN和RNN單元,使用自注意力(Self-Attention)和編解碼器注意力(Encoder-Decoder Attention),來完全實現端到端任務[12]。由于采用并行計算模式,模型訓練和生成速度也有所提升。自注意力模型更加關注句子內部結構,即Word-Pairs的信息。模型單獨學習目標端句子內部結構信息,利用編解碼器注意力建立源文本和目標文本的對應關系。自注意力在第一層便巧妙地建立了詞和整個句子的聯系,其思想可用于文本摘要自動生成任務[13]。

3 基于C-R神經網絡的生成式自動摘要方法

基于深度學習的自動摘要方法是目前效果較好的方法,也是下一步研究的熱點。本文提出一種結合了CNN和RNN神經網絡(C-R)的復合模型方法,來完成自動摘要的生成。CNN+RNN編碼器負責將輸入文本編碼成一個中間向量,作為原文本的表征,該向量包含了文本的上下文信息。而RNN解碼器從該向量提取重要信息,并進行剪輯加工,生成文本摘要。

3.1 方法思路

摘要模型包括基于CNN+RNN神經網絡的編碼器和基于RNN的文本生成器。模型分層反映了文檔是由詞、句、段組合而成的本質,可以有效地對文檔的局部和全局信息進行把握,對長句和重要句子的信息損失較小,能夠更加全面地保留文檔的主旨含義,保證產生的摘要更加人性化[14]。基于C-R神經網絡的生成式自動摘要方法模型總體結構圖,如圖6。

圖6 基于C-R神經網絡的摘要模型

3.1.1 詞向量輸入

首先,利用Word Embedding中的CBOW訓練模型,生成文本的詞向量。CBOW訓練模型是一個前饋神經網絡模型,共有輸入層、映射層和輸出層三層結構。先對文本分詞后得到詞典D,訓練模型的初始輸入是隨機浮點數矩陣,其大小為|D|*d。|D|是詞典D中的詞語數量,d是詞向量的維度。經過大規模數據集的訓練,并不斷更新詞向量矩陣中,預測詞的前后文所包含的詞語的向量,從而可以獲得詞典D中各個詞的向量表示,而后輸入到編碼器中。

3.1.2 語句向量編碼

每個句子被看做是一個詞序列,先通過卷積神經網絡(CNN)獲取句子的表示向量,用作RNN的輸入以獲取文檔表示。對輸入的文本詞向量卷積操作之后,可以將鄰近詞語的特征組合表示出來,這些特征組合表示在進行局部最大池化操作之后,能夠比較強地表征詞特征的組合會被挑選出來,在進行若干次的卷積和最大池化操作之后,就可以生成原始語句的向量表示,該向量的維度是固定的。

采用CNN網絡表示語句編碼,設語句S可用詞表示為{w1,w2,…,wn},利用每個詞 w 的詞向量構成n*d(d表示向量維度)的語句矩陣。為了計算便捷,要求導入系統的句子長度要一致,所以對較短的語句,文中采用以添加“占位符”的形式進行補全到最大語句長度,“占位符”是相同維數的全“0”向量。如此反復,隨著卷積和最大池化的層數逐漸增多,最終原始語句就可被表示成固定維度向量。當詞向量進行卷積操作后,其原來的向量表示數量明顯減少,由于語句的長度不一致而給語句學習的表示過程所造成的影響,將會得到有效的改善;通過最大池化操作,詞語之間比較差的組合表示可以被刪掉,而僅將比較好的組合表示提取出來,進行后續的訓練學習,從而提高實驗效率。

3.1.3 文檔向量編碼

文檔向量編碼的任務,借鑒參考文獻[6]提出文檔向量表示Doc2Vec框架融合RNN模型實現,在該文檔向量表示框架中,每篇文檔的每個句子均由唯一的向量表示,通過將RNN將句子向量首尾鏈接形成文檔向量[15]。RNN本身是序列結構,它的隱含層是由結構相似的序列構成,由序列來完成文檔的向量表示。

為了預測下一個詞語,采用串聯結合向量的方法,將詞向量和文檔向量進行連接操作。詞向量和文檔向量采用誤差梯度下降法進行訓練,每次循環,固定長度的上下文可以從文檔中抽樣出來,通過計算誤差梯度不斷更新模型參數。如果數據集包含N篇文檔,詞匯表含有M個詞,文檔向量為d1維,詞向量為d2維,則該模型共有N*d1+M*d2個參數。當N很大時,模型的參數數量也很大,但由于訓練中的參數更新比較少,保證了訓練過程的高效性。

3.2 摘要評價

對文檔摘要的質量進行評估是比較困難的。對于相同的文檔,雖然有關于語法正確性、語言流暢性、關鍵信息完整度等標準,但一定程度上評判還必須依賴人的主觀判斷。自20世紀90年代末開始,一些會議或組織致力于制定摘要評價標準,比較著名的會議或組織有SUMMAC、DUC(Document Understanding Conference)、TAC(Text Analysis Conference)等,其中DUC的摘要任務被廣泛研究,大多數抽取式摘要模型在DUC-2004數據集上進行測試。

摘要評價要基于語法和連貫性來評價摘要的可讀性。目前評估文本摘要質量主要有兩種方法:人工評價方法和自動評價方法。為了更高效地評估文本摘要,自動評價方法會選定一個或若干指標,基于指標對生成的摘要與參考摘要(人工撰寫,被認為是正確摘要)進行自動評價。目前最常用、最受到認可的指標是Lin提出的ROUGE(Re-call-Oriented Understudy for Gisting Evaluation)[16],包括一些衍生的指標,最常用的有ROUGE-n,ROUGE-L,ROUGE-SU。

ROUGE-n:該指標旨在通過比較生成的摘要和參考摘要的N-Grams(連續的n個詞)評價摘要的質量。常用的有ROUGE-1,ROUGE-2,ROUGE-3。

ROUGE-L:不同于ROUGE-n,該指標基于最長公共子序列(LCS)評價摘要。如果生成的摘要和參考摘要的LCS越長,那么認為生成的摘要質量越高。該指標的不足之處在于,它要求N-Grams一定是連續的。

ROUGE-SU:該指標綜合考慮Uni-Grams(n=1)和Bi-Grams(n=2),允許Bi-Grams的第一個字和第二個字之間插入其他詞,比ROUGE-L更靈活。

作為自動評價指標,ROUGE和人工評定的相關度較高,在自動評價摘要中能給出有效的參考。但另一方面,從以上對ROUGE指標的描述可以看出,ROUGE基于字的對應而非語義的對應,生成的摘要在字詞上與參考摘要越接近,那么它的ROUGE值將越高。但是,如果字詞有區別,即使語義上類似,得到的ROUGE值就會變低。換句話說,如果一篇生成的摘要恰好是在參考摘要的基礎上進行同義詞替換,改寫成字詞完全不同的摘要,雖然這仍是一篇質量較高的摘要,但ROUGE值會呈現相反的結論。從這個極端但可能發生的例子可以看出,自動評價方法所需的指標仍然存在一些不足。目前,為了避免上述情況的發生,在Evaluation時,通常會使用幾篇摘要作為參考和基準,這有效地增加了ROUGE的可信度,也考慮到了摘要的不唯一性。對自動評價摘要方法的研究和探索也是目前自動文本摘要領域熱門的研究方向。

4 實驗驗證

4.1 數據集處理

本文采用搜狐新聞數據(SogouCS),來自搜狐新聞2012年6月到7月期間國內,國際等多個頻道的新聞數據,提供URL和正文信息。

對數據進行預處理很關鍵,處理質量會直接影響編碼器編碼階段輸出摘要的質量。要讀部分信息進行替換和處理:一是去除特殊字符,如:“「,」,¥,…”;二是去掉如表情符內容:三是替換日期標簽為TAG_DATE變量,替換超鏈接URL為標簽TAG_URL,替換全角英文為標簽TAG_NAME_EN,替換數字為TAG_NUMBER。

圖7 數據集樣例

本文設定的輸入序列,是新聞的正文,待預測的目標序列是新聞的標題。為了訓練的效果正文部分不宜過長,設正文分詞個數到最大長度為120個詞。標題部分最大分詞個數為30,即生成標題(等效為摘要)不超過30個詞。

4.2 程序實現

2016年Google開源了TensorFlow中的自動摘要模塊Textsum,基于深度學習模型自動生成新聞標題,利用了“Seq2Seq”思想,摘要效果近似于人工。利用TensorFlow的TextSum庫,使用Python語言可以實現本文提出的基于C-R神經網絡的生成式自動摘要方法。

4.2.1 輸入詞向量計算

SogouCS數據集的原文內容輸入CBOW模型的進行模型訓練,用以生成文本詞向量。輸入模型的文本形式是把每篇分詞(用前文研究過的基于Bi-LSTM網絡的六詞位標注算法的中文分詞方法)后的原文以行存儲,設定詞向量維數為200,模型訓練過程中的滑動窗口的大小設置為5,并將詞頻小于5的詞直接過濾掉,最終得到的輸入詞向量,其部分截圖如圖8所示。

圖8 詞向量部分截圖

4.2.2 程序實現

部分實現代碼如下:

#Encoder:Multi-Layer RNN,Output:encoder_outputs

for layer_i in xrange(hps.enc_layers):

with tf.variable_scope(‘encoder%d’%layer_i),tf.de-vice(

self._next_device()):

cell_fw=tf.nn.rnn_cell.RnnCell(

hps.num_hidden,

initializer=tf.random_uniform_initializer( -0.1,0.1,seed=123),

state_is_tuple=False)

cell_bw=tf.nn.rnn_cell.RnnCell(

hps.num_hidden,

initializer=tf.random_uniform_initializer( -0.1,0.1,seed=113),

state_is_tuple=False)

(emb_encoder_inputs,fw_state,_)=tf.nn.bidirectional_rnn(

cell_fw,cell_bw,emb_encoder_inputs,dtype=tf.float32,

sequence_length=article_lens)

encoder_outputs=emb_encoder_inputs

4.2.3 結果輸出

表1 自動生成摘要示例

4.3 結果分析

實驗將本文方法與其它摘要生成方法來進行對比實驗。

1)基于TF-IDF特征統計的自動文摘方法。該方法通過計算文檔中關鍵詞的特征值,將特征值組合計算,得到每句話的權重表示,選取權重高的語句作為文摘句。該方法將每句話用離散特征空間表示,提取了若干關鍵詞,但是忽略了詞與詞之間的相關性掉,實現起來相對簡單。

2)基于LDA模型的自動文摘方法。考慮了文章詞語相關性的算法,改模型主題數、特征的選擇,將直接影響最終的實驗結果,對比分析選取實驗效果最好的特征數,并將得到的結果作為比較基線。為了確定最佳主題數,選擇了相同的500篇驗證集來進行實驗以選取最佳主題數,對比分析結果如圖9所示。在本實驗中,設主題數為5來進行測試。

圖9 LDA模型不同主題數的實驗對比

從表2中可以看出,對于傳統的文摘方法,將詞之間的相關性考慮在內的LDA方法實現的文摘效果,要明顯高于簡單地基于特征統計的TF-IDF方法,而基于深度學習的方法實現的文摘效果又高于傳統方法。

表2 不同摘要方法的實驗結果對比

基于TF-IDF的統計方法對文本的表示具有局限性,中文中存在一詞多義和多詞一義現象,如果忽略了文本內容中前后文語境,僅用各自獨立的特征來表示文本,得到的文摘效果必然不佳。基于LDA模型的方法克服了統計方法的缺點,通過大規模語料庫的統計和分析計算,提取和推斷詞語的預期語境間的關系,所以獲取的摘要質量有一定改進。

而基于C-R網絡的生成式自動摘要方法在對句子進行建模時,充分考慮了句子的結構信息,在多層卷積和池化以及序列化的過程中,可確保句子的語義信息和特征保留。C-R網絡摘要生成方法將文檔和文檔中的句子進行語義上的匹配,將句子和文檔整體的語義信息考慮在內,會得到較好的實驗結果。

總得來說,傳統文摘方法實現起來簡單,所用模型也很直觀,但在獲取文摘的過程中,沒有將詞語的位置及在文本中的次序等語法信息進行充分考慮,在文本語義表達上還存在一定的欠缺,需要人工選擇大量的特征,當面對大規模的數據集時會十分費時費力;而基于深度學習模型的自動文摘方法,一方面,它通過對大規模語料庫的學習,可以得到詞或句子的連續的空間表示,將詞語之間的相關性和語法信息考慮在內,在文本的語義表示方面具有很大的優勢;另一方面,在學習過程中,所有的特征都是通過對語料庫的學習自動獲得,不需要人的額外參與,通過對數據集的不斷學習來自動獲取文章的摘要。

5 結語

本文提出了基于卷積神經網絡和循環神經網絡(C-R)的生成式自動摘要方法,提出了方法的主要思路和實驗所需軟硬件環境,對實驗結果評測指標的選取做了描述,接著對完成的各實驗結果進行對比分析。分析表明基于C-R網絡的自動文摘方法能通過大規模數據集的訓練,得到文本的語義表示,通過對文檔和句子的語義匹配進行打分,將匹配度高的句子輸出構成文本的摘要,相較傳統的自動文摘方法,獲取文本摘要的智能性及質量有了很大提高。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国精品91人妻无码一区二区三区| 久久国产亚洲偷自| 久久天天躁狠狠躁夜夜躁| 國產尤物AV尤物在線觀看| 天堂亚洲网| 91无码视频在线观看| 国产美女在线观看| 亚洲黄色成人| 亚洲精品天堂自在久久77| 亚洲国产AV无码综合原创| 香蕉国产精品视频| 亚洲精品大秀视频| 欧洲高清无码在线| 青青草91视频| 无码中文字幕加勒比高清| 久久久久国产一级毛片高清板| 国产精品jizz在线观看软件| 午夜色综合| 国产激爽大片在线播放| 国产欧美日韩一区二区视频在线| 亚洲国产欧美自拍| 好吊色国产欧美日韩免费观看| 亚洲首页国产精品丝袜| 欧美日韩专区| 伊人久久综在合线亚洲2019| 国产精品入口麻豆| 亚洲色图在线观看| 亚洲精选无码久久久| 国产精品偷伦视频免费观看国产| 色网站在线视频| 婷婷亚洲最大| 欧美成人在线免费| 在线不卡免费视频| 8090午夜无码专区| 国产无码网站在线观看| 97成人在线视频| 国产午夜在线观看视频| 天天综合亚洲| 欧美一级高清片欧美国产欧美| 亚洲男人的天堂久久香蕉网| 亚洲三级成人| 国产乱论视频| av在线人妻熟妇| 欧美成人午夜视频| 夜夜拍夜夜爽| 国产视频自拍一区| aa级毛片毛片免费观看久| 99久久国产精品无码| 欧美v在线| 国产激爽爽爽大片在线观看| 亚洲国产欧美中日韩成人综合视频| 欧美日韩动态图| 免费可以看的无遮挡av无码| 日韩无码视频播放| 国产二级毛片| 欧美成a人片在线观看| 国产00高中生在线播放| 亚洲精品欧美日本中文字幕| 2020久久国产综合精品swag| 最新亚洲av女人的天堂| 亚洲精品视频免费看| 国产h视频免费观看| 国产一区二区网站| 国产成人综合在线观看| 精品国产成人av免费| 成人va亚洲va欧美天堂| 亚洲香蕉在线| 91精品情国产情侣高潮对白蜜| 91精品视频播放| 免费看美女自慰的网站| 欧美激情福利| 欧美天天干| 五月天久久婷婷| 亚洲三级影院| 尤物精品视频一区二区三区| 在线观看亚洲天堂| 成人91在线| 在线播放真实国产乱子伦| 国产91av在线| 亚洲色欲色欲www在线观看| 看av免费毛片手机播放| 成人免费网站在线观看|