999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合文本分類的多任務學習摘要模型

2021-04-29 03:20:58周偉梟藍雯飛
計算機工程 2021年4期
關鍵詞:單詞分類文本

周偉梟,藍雯飛

(中南民族大學計算機科學學院,武漢 430074)

0 概述

文本摘要是自然語言處理(Natural Language Processing,NLP)的重要分支[1],其將源文本壓縮成短文本且包含了源文本中的主要信息。抽取式摘要方法[2]通過從源文本中抽取句子組成摘要,具體為對句子重要性打分并按分數排序選取句子[3]。生成式摘要方法[4]通過重新組織源文本的主要內容形成摘要,摘要過程與人工撰寫類似。現有生成式摘要模型本質上都是基于編碼器-解碼器架構的單任務模型,文獻[5]指出此類模型雖然能夠生成流暢的摘要,但在準確性方面表現較差,甚至可能與源文本的中心思想相悖。

多任務學習(Multi-Task Learning,MTL)共享相關任務之間的表征,能使摘要模型更好地概括文本主要內容。文獻[6]提出一對多、多對一、多對多三種多任務學習方法。文獻[7]將情感分類定義為特殊類型的摘要任務,將文本以標簽方式進行概括。受文獻[6]研究工作的啟發,本文根據文本分類和文本摘要的相關性,提出一種多任務學習摘要模型。通過一對多的形式關聯主要任務和輔助任務,借助文本分類改善摘要模型的生成質量,使用K-means 聚類算法構建文本分類數據集,并利用基于統計分布的判別法全面評價摘要準確性。

1 相關工作

近年來,深度學習技術在文本摘要領域得到廣泛應用。文獻[8]提出基于注意力機制的端到端模型,并將其應用于文本摘要任務。文獻[9]將注意力機制應用于自然語言處理領域。文獻[10]提出指針網絡,將解碼器中固定規模的詞匯表擴展至可變規模的詞匯表。文獻[11]提出CopyNet 模型,并在文本摘要任務上驗證了CopyNet 模型相較傳統模型具有顯著優勢。摘要任務與翻譯任務不同,其數據集中參考摘要的長度遠短于源文本,導致傳統模型和CopyNet 模型無法很好地對源端文本以及參考摘要進行對齊。文獻[12]指出對齊問題導致解碼器容易重復生成冗余的單詞或句子,針對此問題,該文獻提出在解碼器中引入覆蓋度機制協助調整未來時間步的注意力。文獻[13]提出Pointer-Generator(Coverage),緩解了集外詞(Out of Vocabulary,OOV)和重復生成問題。

隨著深度學習技術的發展,研究人員通過多任務學習提高模型生成摘要的準確性。文獻[14]將問題生成作為輔助任務,提出基于多層編碼器-解碼器模型的多任務學習架構。文獻[15]指出翻譯任務與摘要任務具有較強的相關性,使用機器翻譯可提高摘要模型的生成性能。文獻[16]提出基于多任務學習的深層神經網絡框架,通過同時學習人的注視行為以及文檔中的詞性和句法屬性來預測輸入文檔中表達的整體情緒。與文獻[14-16]研究工作不同,本文將文本分類作為輔助任務,使得摘要模型能夠學習到更抽象的信息。文獻[17]在文獻[13]的基礎上定義了一個內容選擇器來確定源文本中哪些短語一定包含在摘要模型中,該模型是關鍵詞識別與文本摘要的混合模型。文獻[18]將多模態注意力機制引入摘要模型中,輸入源文本、參考摘要和參考圖片進行訓練。多模態注意力機制同時關注摘要和圖片中的信息以生成質量更高的摘要,該模型是文本摘要與圖片識別的混合模型。此外,文獻[19-21]從不同角度研究多模態摘要模型。

針對編碼器-解碼器架構的改進,文獻[22]將單獨的編碼器劃分為多個協作編碼器,使用深度通信代理表示這些協作編碼器,并在不同代理間實現數據共享,摘要模型通過提高編碼質量間接提高生成摘要的質量。文獻[23]提出Transformer 模型,其相比循環神經網絡(Recurrent Neural Network,RNN)序列具有更優的并行化處理能力和特征提取能力,逐漸被應用于文本摘要領域。

2 多任務學習摘要模型

2.1 總體框架

多任務學習將相關任務放入同一框架中進行訓練,一般分為一個主要任務和若干個輔助任務。文本分類是對不同文本中的重要信息進行區分,文本摘要是從文本中識別出重要的信息并進行提取,類別標簽是更抽象的摘要表示。多任務學習摘要模型的總體框架如圖1所示,由共享編碼器(Shared Encoder)、分類器(Classifier)和摘要解碼器(Summarization Decoder)構成。

圖1 多任務學習摘要模型的總體框架Fig.1 The overall framework of summarization model with multi-task learning

共享編碼器與分類器構成分類模型,與摘要解碼器構成摘要模型。編碼器采用硬共享機制,來自兩個任務的梯度信息直接通過共享參數傳遞,強制所有任務使用公共空間表示。在訓練編碼期間,摘要任務與分類任務交替運行,隨機輸入相應任務數據集中的源文本。在訓練解碼期間,分類器或摘要解碼器進行標簽類別預測或摘要生成,相對于真實標簽或參考摘要計算損失,反向傳播并更新模型參數。在測試編碼期間,編碼器接收摘要測試集作為輸入。在測試解碼期間,摘要解碼器使用集束搜索預測下一時刻的單詞輸出并選擇概率最高的單詞序列作為生成的摘要。

2.2 共享編碼器

RNN 通常用來處理時間序列數據,能夠很好地提取文本單元之間的前后關聯信息。RNN 變體包括長短時記憶(Long Short-Term Memory,LSTM)網絡[24]和門控循環單元(Gated Recurrent Unit,GRU)[25]。LSTM在RNN 的基礎上引入了遺忘門、輸入門和輸出門,前向傳播公式如下:

其中,xt為LSTM 的輸入,ht-1、ct-1分別為上一時刻的隱藏狀態和細胞狀態,ht、ct分別為當前時刻的隱藏狀態和細胞狀態。

GRU 將LSTM 的3 個門簡化為更新門和重置門。在邏輯架構中,GRU 沒有細胞狀態c,直接將隱藏狀態h傳遞給下一個單元,前向傳播公式如下:

本文使用雙向LSTM(Bi-directional LSTM,Bi-LSTM)和雙向GRU(Bi-directional GRU,Bi-GRU)作為多任務學習摘要模型的編碼器以更好地捕捉雙向語義依賴關系。給定源文本D={w1,w2,…,wn},每個單詞wi被嵌入K維向量,Bi-LSTM 或Bi-GRU 對其雙向編碼,輸出兩個隱藏狀態序列。在具體實現中,源文本通過數據塊的方式進入編碼器,在變長序列中進行補零操作來處理長度變化。

2.3 摘要解碼器

2.3.1 Pointer-Generator 解碼器

摘要解碼器與文獻[13]提出的Pointer-Generator解碼器類似,其生成的單詞可以來源于源文本或指定的詞匯表。摘要解碼器架構如圖2 所示。

圖2 摘要解碼器架構Fig.2 Summarization decoder architecture

Pointer-Generator 解碼器接收共享編碼器輸出的隱藏狀態序列,并將源文本表示為兩者的級聯:

在每一時刻t,單層LSTM 或GRU 接收單詞的嵌入達到新的解碼器狀態st,通過注意力機制計算注意力分數、注意力分布at和上下文向量ct。計算公式如下:

其中:v、Wh、Ws、ba為可優化的參數;tanh 為激活函數;at為源文本單詞上的概率分布,指導解碼器重點關注某些單詞。

傳統基于注意力機制的編碼器-解碼器模型從當前解碼器狀態st和上下文向量ct中生成詞匯表概率分布Pvocab,而Pointer-Generator 解碼器定義pgen,由當前解碼器狀態st、當前時刻輸入單詞嵌入向量et和上下文向量ct共同決定,計算公式如下:

其中:wc、ws、we、bpgen表示可優化的參數;σ表示sigmoid函數;pgen表示從詞匯表中生成單詞的概率,(1-pgen)表示通過從注意力分布at中抽取源文本單詞的概率。拓展后的詞匯表概率分布計算公式如下:

其中,w表示某個單詞。與Pointer-Generator 相比,傳統編碼器-解碼器模型被限制在容量有限的詞匯表中。

2.3.2 覆蓋度機制

本文在摘要解碼器中引入覆蓋度機制[13]緩解重復生成的問題。覆蓋度向量covt表示時刻t前所有解碼的注意力分布at?的總和,計算公式如下:

其中,covt可解釋為源文本單詞上的非規范化分布,表示在當前時刻這些單詞從注意力機制中獲得的覆蓋程度。若將covt作為注意力向量的額外輸入,則式(4)改寫為:

其中,v、Wh、Ws、Wc、ba是可優化的參數。覆蓋度機制通過總結已有決策避免重復注意相同的位置。摘要解碼器在時刻t的損失被定義為復合損失函數,計算公式如下:

2.4 分類器

文本分類作為輔助任務幫助摘要模型學習到更加抽象的信息,提高解碼器生成摘要的準確性。分類器架構如圖3 所示。

圖3 分類器架構Fig.3 Classifier architecture

其中,hf和hb分別表示正向、反向編碼的文本表示,hs表示最終文本表示。

前饋神經網絡(Feedforward Neural Network,FNN)將hs映射為與文本類別數量相同的維度。使用Log_Softmax 函數計算類別標簽的概率分布,計算公式如下:

其中,exp 表示以e 為底的指數函數。本文結合Log_Softmax 函數與負對數似然損失計算預測類別與真實類別的損失,該損失等價于預測類別與真實類別的交叉熵。

3 數據集構建

3.1 文本摘要數據集

CNNDM(CNN/Daily Mail)[26]是摘要領域的基準數據集之一,源文本和參考摘要分別來源于在線新聞文章和人工撰寫。本文使用CNNDM 的匿名版本,其中包含286 896 組訓練集、11 489 組測試集和13 368 組驗證集。

3.2 文本分類數據集

在多任務學習中,多個數據集原始特征如果有一定相似性,則可以提高摘要任務的性能。本文通過無監督算法獲取CNNDM 源文本的類別標簽,文本分類數據集的構建流程如圖4 所示,具體步驟如下:

1)剔除CNNDM 訓練集中的參考摘要,保留源文本。

2)對抽取出的源文本進行分詞、去停用詞和去低頻詞,避免停用詞和低頻詞對有效信息造成的噪聲干擾。

3)使用TF-IDF 特征提取方法將預處理后的源文本向量化,TF-IDF 特征提取方法的主要思想為評估某個詞相對于數據集中某份文件的重要程度。

4)應用K-means 聚類算法對向量化后的文本進行聚類操作。

5)得到類別數量分別為2、10、20 的3 個文本分類數據集,將其分別稱作Cluster-2、Cluster-10、Cluster-20,為研究不同類別數量的文本分類數據集參與訓練對模型生成摘要準確性的影響提供數據集支撐。

圖4 文本分類數據集的構建流程Fig.4 Construction process of text classification datasets

4 評價指標與判別法

4.1 ROUGE 評價指標

ROUGE[27]是文本摘要領域的基準評價指標,基于摘要中n元詞(n-gram)的共現信息來評價摘要的準確性。ROUGE-N和ROUGE-L 計算公式如下:

其中,n表示n?gram 的長度,{RS} 表示參考摘要,Countmatch(gramn)表示參考摘要與待測摘要中相同的n?gram 個數,Count(gramn)表示參考摘要中出現的n?gram 個數。

ROUGE-L 中的L 即為最長公共子序列(Longest Common Subsequence,LCS),計算公式如下:

其中,LCS(X,Y)表示參考摘要與待測摘要最長公共子序列的長度,m表示參考摘要的長度。

4.2 基于統計分布的判別法

ROUGE 對比參考摘要與待測摘要來判定摘要準確性,但是忽略了摘要句子在源文本中出現的位置信息。本文提出一種基于統計分布的判別法,從總體分布的角度判斷待測摘要的準確性。基于統計分布的判別流程如圖5 所示。

圖5 基于統計分布的判別流程Fig.5 Discriminant process based on statistical distribution

本文將待測摘要表示為S={s1,s2,…,sn}、si={e1,e2,…,em},參考摘要表示為G={g1,g2,…,gn}、gi={t1,t2,…,tp},源文本表示為D={d1,d2,…,dn}、di={c1,c2,…,cq},其中,s、g、d分別表示S、G、D中的文本,e、t、c分別表示s、g,d中的句子,n表示測試集數據量,m、p、q分別表示s、g、d的句子數量。計算s1與d1的位置向量的具體步驟如下:1)定義雅卡爾相似系數,該系數通常用來判斷句子之間是否冗余,計算公式如下:

其中,r、o分別表示ei、cj中非冗余單詞的集合,∩表示交集,len 函數計算集合的大小。

2)雅卡爾相似系數越高,cj替代ei的能力越強,尋求ei對應最高雅卡爾相似系數的cj。

5 實驗與結果分析

5.1 實驗設置

本文使用深度學習框架PyTorch實現6種單任務基線模型和6種多任務學習摘要模型,各個摘要模型基本架構及配置如表1所示,其中,Attention、Coverage分別表示注意力機制、覆蓋度機制,Cluster表示使用文本分類數據集,Pointer-Generator默認使用注意力機制和指針網絡。

表1 摘要模型基本架構及配置Table 1 Basic architecture and configuration of summarization models

在訓練和測試期間,截斷輸入文本至400 個單詞以內,限制生成摘要長度至120 個單詞以內。所有模型的隱藏狀態維度均設置為256 維,單詞嵌入向量維度設置為128 維。本文沒有使用預訓練詞向量,所有模型詞匯表大小設置為50 000,所有模型的摘要任務采用Adagrad 優化器[28],初始化學習率設置為0.15,累加器的起始值設置為0.1,梯度剪裁閾值設置為2。文本分類任務使用Adam[29]優化器,初始學習率設置為0.001。所有模型均在單個GeForce GTX TITAN X 12 GB 顯存GPU 上訓練。在訓練期間,設置數據塊大小為16,防止多任務學習導致GPU 顯存波動引起顯存溢出。在測試期間,設置數據塊大小為100,所有模型的摘要解碼器的集束搜索尺寸設置為4。

5.2 結果分析

本文使用files2rouge 包測評所有模型生成摘要的ROUGE-1、ROUGE-2、ROUGE-L 在95%置信區間的標準分數,測試文本為CNNDM 測試集。6 種單任務基線模型的ROUGE 標準分數如表2 所示,結果顯示Pointer-Generator 架構的性能優于傳統Encoder-Decoder 架構,特征提取器(LSTM 和GRU)的選擇對基線模型生成摘要準確性的影響較小。

表2 單任務基線模型性能對比Table 2 Performance comparison of single task baseline models

多任務學習摘要模型的ROUGE 標準分數如表3 所示,結果顯示:在ROUGE-1、ROUGE-L 指標上,6 種多任務學習摘要模型均能生成更準確的摘要,Multi-task(GRU,Cluster-10)相較于強基線模型Pointer-Generator(GRU,Coverage)分別在3個ROUGE指標上提高了0.23、0.17 和0.31 個百分點;在ROUGE-2 指標上,Cluster-10 參與訓練后的模型優于性能最好的單任務基線模型。使用GRU 作為特征提取器的模型在部分指標上的提升略高于LSTM,這可能是數據集較大所致。文本分類數據集的選取對模型的生成性能影響較大。在ROUGE 指標上,使用Cluster-10 訓練后的模型均生成了最準確的摘要。本文認為出現該結果的主要原因為:過大的類別數量影響文本分類的效果從而影響生成摘要的質量,過小的類別數量使得引入的抽象信息不夠從而干擾摘要模型。

表3 多任務學習摘要模型性能對比Table 3 Performance comparison of summarization models with multi-task learning

本文將測試集參考摘要的分布向量作為基準,統計并對比3 種摘要模型生成待測摘要的分布向量,同時計算不同分布向量間的余弦相似度,具體結果如表4 所示。

表4 摘要模型的分布向量與余弦相似度統計Table 4 Distribution vector and cosine similarity statistics of summarization models

本文設置域的數量X=6 并過濾源文本句子數量小于X的樣本。分析表4 數據可知,參考摘要共有43 656 個句子在源文本中找到替代句,在不同域中的分布呈現急速下降趨勢,表明CNNDM 數據集中源文本頭部的信息量較大。3 種模型生成的待測摘要分別有34 279、29 883、32 408 個句子能夠找到替代句。與測試集參考摘要相比,模型生成的摘要更加傾向于頭部信息提取。Pointer-Generator(LSTM,Coverage)生成摘要的句子數量少于Pointer-Generator(LSTM),其主要原因為覆蓋度機制的引入緩解了重復生成問題。Multi-task(LSTM,Cluster-10)生成的摘要句子數量介于Pointer-Generator(LSTM,Coverage)和Pointer-Generator(LSTM)之間,本文認為這是因為多任務學習摘要模型學習到了分類數據集中的抽象信息,其在保證句子數量的前提下更加集中于第3 個和第4 個域中信息的提取,其生成摘要與測試集參考摘要最接近。

5.3 樣例分析

本文通過樣例分析以驗證多任務學習摘要模型學習到了分類數據集中的抽象信息。測試集參考摘要與模型生成摘要的樣例如下:

1)測試集參考摘要:

“shelley dufresne was arrested in september when a student at the high school she taught at started bragging about sleeping with two teachers.it was later revealed that the 16-year-old had sex with both dufresne and his former english teacher,24-year-old rachel respess.dufresne,32,pleaded not guilty to charges in november,but changed course on thursday when she admitted having sex with the teen.in a forgiving plea deal,dufresne will only have to attend a 90-day therapy program,stay away from the victim and turn in her teacher’s license.in exchange,the charge of carnal knowledge of a child will be dropped after her probation and she won’t have to register as a sex offender.however,dufresne is still awaiting an arraignment on charges for having a threesome with the same student and respess in a different parish.”

2)Pointer-Generator(LSTM):

“shelley dufresne,32,was arrested in september when a student at destrehan high school started bragging to friends at the st charles parish courthouse on thursday.she was arrested in september when a student at destrehan high school started bragging that he was sleeping with both of them.dufresne,32,was arrested in september when a student at destrehan high school started bragging that he was sleeping with both of them.”

3)Pointer-Generator(LSTM,Coverage):

“shelley dufresne,32,was arrested in september after the teen in question started bragging to friends at the st charles parish,louisiana school that he had slept with two teachers.an investigation later revealed that the unidentified teen had sex with both his current english teacher at the time,dufresne,and his english teacher from the prior year,24-year-old rachel respess-including an alleged a threesome with both at respess’s house.”

4)Multi-task(LSTM,Cluster-10):

“shelley dufresne confessed in court thursday to having sex with a 16-year-old student in exchange for a plea deal that gets her out of prison time.an investigation later revealed that the unidentified teen had sex with both his current english teacher at the time,dufresne,and his english teacher from the prior year.respess taught the same student english the year prior.though she originally pleaded not guilty to a count of obscenity,the original charge of carnal knowledge of a juvenile will be held for the three years dufresne is under probation for obscenity.”

對比樣例顯示,Pointer-Generator(LSTM)存在重復生成的問題(“dufresne,32,was arrested in september when a student at destrehan high school started bragging”出現了兩次),Pointer-Generator(LSTM,Coverage)避免了此問題。但上述兩種模型忽略了測試集參考摘要中“交換條件”的基本事實(“in exchange,the charge of carnal knowledge of a child will be dropped after her probation and she won’t have to register as a sex offender”),Multi-task(LSTM,Cluster-10)生成的摘要包括“交換條件”的事實(“in exchange for a plea deal that gets her out of prison time”)。在對部分研究樣例進行比對分析后,本文發現多任務學習摘要模型更容易學習到時間點信息以及比較隱蔽的邏輯信息。

6 結束語

本文結合文本分類輔助任務,提出一種多任務學習摘要模型,使用K-means 聚類算法構建Cluster-2、Cluster-10 和Cluster-20 文本分類數據集,利用基于統計分布的判別法計算待測摘要與測試集參考摘要的分布向量在向量空間中的余弦相似度,從總體分布的角度判斷待測摘要的準確性。實驗結果表明,與現有摘要模型相比,該模型生成的摘要更準確。由于Transformer 模型架構具有優越的并行化序列處理能力以及特征提取能力,因此后續可將Transformer模型架構和其他相關任務引入多任務學習摘要模型中,進一步提升其在不同摘要數據集中的摘要生成質量。

猜你喜歡
單詞分類文本
分類算一算
單詞連一連
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品私拍99pans大尺度 | 污视频日本| 国产va免费精品观看| 久久久黄色片| 高清无码手机在线观看| 永久在线播放| 亚洲免费人成影院| 第一页亚洲| 手机在线国产精品| 特级做a爰片毛片免费69| 久久黄色免费电影| 天天综合网色中文字幕| 野花国产精品入口| 亚洲精品视频免费| 国内精品自在自线视频香蕉| 精品国产中文一级毛片在线看| 久久女人网| 中国一级特黄大片在线观看| 欧美精品啪啪| 干中文字幕| 国产自视频| 美女被狂躁www在线观看| 欧美成a人片在线观看| 99精品在线看| 国产一区免费在线观看| 国产 在线视频无码| 欧美三級片黃色三級片黃色1| 91精品国产丝袜| 无码高潮喷水专区久久| 精品国产免费人成在线观看| 日韩高清一区 | 小说区 亚洲 自拍 另类| 色欲综合久久中文字幕网| 久久九九热视频| 日韩一级二级三级| 国产99欧美精品久久精品久久| 97视频在线精品国自产拍| 91免费精品国偷自产在线在线| 国产激爽大片高清在线观看| 91在线精品麻豆欧美在线| 在线精品自拍| 久久久久国产一级毛片高清板| 色哟哟国产精品一区二区| 高h视频在线| 亚洲国产第一区二区香蕉| 一级一级一片免费| 国产打屁股免费区网站| 日韩在线视频网| 亚洲成a∧人片在线观看无码| 无码国内精品人妻少妇蜜桃视频| 国产不卡网| 亚洲天堂精品在线观看| 成人在线不卡视频| 亚洲AV电影不卡在线观看| 亚洲国产理论片在线播放| 波多野结衣一二三| 亚洲精品视频免费看| 91外围女在线观看| 无码高潮喷水专区久久| 国产女同自拍视频| 亚洲精品第五页| 国产第二十一页| 免费啪啪网址| 亚洲综合久久一本伊一区| 国产欧美日韩在线在线不卡视频| 伦精品一区二区三区视频| 老色鬼欧美精品| 精品免费在线视频| 欧美97色| 亚洲成人动漫在线| 久久久久九九精品影院| 2020国产在线视精品在| 色综合国产| 国产正在播放| 国产精品精品视频| 欧美三级自拍| 国产在线欧美| 国产欧美视频在线| 青青草综合网| 欧美在线视频不卡| 国产精品自在在线午夜| 亚洲AⅤ综合在线欧美一区|