999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERTScore 指導的文本摘要技術(shù)

2022-12-01 06:00:26劉高軍王一如王昊
電子設計工程 2022年23期
關(guān)鍵詞:詞匯文本內(nèi)容

劉高軍,王一如,王昊

(1.北方工業(yè)大學信息學院,北京 100144;2.CNONIX 國家標準應用與推廣實驗室,北京 100144)

從文本的大量內(nèi)容中提取出核心摘要具有重要意義[1],根據(jù)提取方式的不同,其主要分為生成式文本摘要和抽取式文本摘要[2]。對于生成式文本摘要,很多非神經(jīng)系統(tǒng)通過使用選擇并壓縮的方法[3]提高摘要結(jié)果的事實準確性[4],通過使用序列到序列模型生成最終摘要,以上方法得到的結(jié)果可能存在語法錯誤[5],甚至出現(xiàn)與原文相悖的內(nèi)容[6]。對于抽取式文本摘要,通過對整篇文章進行句子抽取并排序得到最終摘要[3],利用分類器決定是否抽取出文本中的某個句子[7],以上提到的抽取方法會出現(xiàn)過度抽取的情況,并且通常詞級別的抽取式文本摘要得到的結(jié)果可讀性較差[8]。

為解決上述問題,文中使用了基于BERTScore反饋的強化學習模型將兩種摘要方法相融合。首先為降低文本中干擾信息的影響,利用卷積模型以及Bihop 注意力機制抽取出文本的重要信息,其抽取結(jié)果在生成摘要階段結(jié)合注意力機制進行壓縮,在訓練過程中計算壓縮結(jié)果與參考摘要的BERTScore 值,該值作為反饋指導模型更新策略梯度參數(shù)和當前狀態(tài),進而指導下一步抽取行為,以此不斷提升模型在抽取階段的性能。使用BERTScore 能夠處理其他基于N-gram 的評估指標對表示相同含義的不同詞匯評分低的問題,進而保證了摘要結(jié)果的多樣性并增強了整個模型的健壯性和對語義的重視程度。同時,文中的模型中加入了Gumbel-Softmax 可微再參數(shù)化技術(shù),改善了模型不可微的情況。

1 模型設計

文中先用抽取式模型過濾原文本中的干擾信息,然后用生成式方法對抽取出的內(nèi)容壓縮,得到精簡摘要,完整模型如圖1 所示。模型使用基于策略梯度的強化學習將兩種摘要方式相融合,并利用BERTScore 作為強化學習的反饋調(diào)整策略梯度參數(shù)和當前狀態(tài),該狀態(tài)將作為下一步抽取行為的依據(jù)。BERTScore 更關(guān)注文本內(nèi)容,得到的摘要結(jié)果也更為準確,因此文中的模型在提升了篩選重要信息能力的同時,得到了與原文內(nèi)容更相符的摘要結(jié)果。Gumbel-Softmax 可微再參數(shù)化技術(shù)的加入用于解決抽取式模型不可微的情況。

圖1 完整模型圖

1.1 句子的表示與抽取

首先利用時序卷積模型得到文本中每個句子的表示,再由BERT 預訓練的詞向量矩陣Wemb得到每個詞的分布向量表示,并經(jīng)過一維單層卷積過濾器獲得詞與前后內(nèi)容的依賴關(guān)系。使用由LSTM-RNN 訓練的指針網(wǎng)絡從已得到句子矩陣表示的文本內(nèi)容中篩選出重要句子,如式(1)所示:

整個網(wǎng)絡中結(jié)合了Bi-hop 注意力機制,其中第一層注意力機制用于確定包含重要信息的句子,第二層用于計算每個句子被抽取的概率,以上步驟如圖2 所示。

圖2 句子的表示及抽取過程

1.2 摘要的生成

由于在抽取階段已過濾文本中的干擾信息,生成摘要階段是對上一階段抽取出的包含重要內(nèi)容的句子進行分析與壓縮,因此該部分使用結(jié)合注意力機制的seq2seq 模型就可得到準確且精簡的摘要結(jié)果。文中模型加入了結(jié)合雙線性乘法注意力機制的編碼器-解碼器結(jié)構(gòu),如式(2)所示。針對生成式文本摘要會出現(xiàn)的OOV(Out-of-Vocabulary)問題,模型中使用了copy 機制。

其中,hi是結(jié)合了上下文內(nèi)容的句子向量,zj是抽取出的句子,Wattn是注意力權(quán)重矩陣。

1.3 結(jié)合BERTScore的強化學習模型

1.3.1 BERTScore計算

當前的文本摘要研究任務中常根據(jù)評估指標Rouge 的情況微調(diào)模型,該指標在評估摘要結(jié)果時只考慮句子表層詞匯的匹配情況,并未考慮句子內(nèi)容,導致摘要結(jié)果的事實準確性不可控。文獻[8]提出的從文本內(nèi)容的角度評估翻譯結(jié)果精確性的方法可改善翻譯任務中與上述問題相似的情況,因此文中的模型加入了結(jié)合BERTScore 的強化學習模型,將抽取式文本摘要與生成式文本摘要相融合,即利用actor-critic 策略梯度將句子級別的BERTScore 評估結(jié)果作為反饋指導抽取行為,并學習句子的顯著性特征。模型的整個過程與馬爾可夫決策過程(MDP)相似:抽取器作為強化學習的agent,在每一步(t)抽取之前先觀察當前狀態(tài),并將上一步(t-1)的摘要評估結(jié)果作為反饋,指導當前的抽取行為。

模型中計算預測摘要與參考摘要匹配情況的BERTScore 更加注重語言的多樣性,能夠關(guān)注到表示相同語義的相似詞匯。文獻[10]的研究表明,此評估方式的結(jié)果與人工判斷有很高的一致性。BERTScore包括的Recall(RBERT)、Precision(PBERT)和F1(FBERT)均通過計算文本向量的余弦相似度得到:

1.3.2 反饋值的計算

模型中首先直接用BERTScore 評估預測摘要與參考摘要的內(nèi)容匹配情況,并將該值作為強化學習模型的反饋指導抽取行為,同時考慮到基于N-gram的評估指標Rouge 常用于評估文本摘要的詞匯匹配度,故文中嘗試將兩種評估方式相結(jié)合,從詞匯匹配情況以及內(nèi)容匹配角度共同評估預測摘要的效果,從而更全面地考量模型的性能,并更好地指導抽取行為,聯(lián)合反饋值計算公式如下:其中,λ是BERTScore 和Rouge 的調(diào)和參數(shù)。

2 可微再參數(shù)化技術(shù)

針對模型抽取器部分不可微的情況,文中使用了Gumbel-Softmax 函數(shù)替換計算抽取概率的Softmax函數(shù),公式如下:

式中,x表示抽取出的句子,θ是訓練參數(shù)。Gumbel-Softmax 函數(shù)是為解決模型不可微問題的可微再參數(shù)化技術(shù),它允許通過轉(zhuǎn)化Gumbel 分布的樣本選擇變量值,該函數(shù)可表示為:

3 訓練和實驗

針對CNN/DailyMail 的驗證集,對實驗中的參數(shù)均進行了調(diào)整,文中使用了32 個樣本的小批量數(shù)據(jù)進行所有的訓練,Adam 優(yōu)化器的學習率在機器學習階段為0.001,在強化學習階段為0.000 1。文中首先訓練抽取器和生成器直到二者均收斂于極大似然函數(shù)的目標,然后使用強化學習訓練上述訓練好的子模塊。在用到LSTM-RNNs 的部分均使用了256 個隱藏單元,對于模型中的極大似然訓練模型,文中使用BERT 預訓練語言模型取代由Word2vec[11-12]初始化的詞向量矩陣,并且該詞向量矩陣將根據(jù)訓練情況更新。

3.1 實驗數(shù)據(jù)

文中使用的數(shù)據(jù)集是包含了美國有線新聞網(wǎng)(CNN)以及每日郵報(Daily Mail)共約一百萬條新聞語料的CNN/Daily Mail。實驗中使用的是該數(shù)據(jù)集的未匿名版本,并對該數(shù)據(jù)進行適當?shù)奶幚恚渲邪擞柧毼谋尽Ⅱ炞C文本和測試文本。

3.2 評價指標

結(jié)合文本摘要任務通用的評價指標[13],文中使用Rouge-1(R-1)、Rouge-2(R-2)、Rouge-L(R-L)評估預測結(jié)果的質(zhì)量??紤]到文中將BERTScore 評估函數(shù)加入到模型中,因此為體現(xiàn)該評估函數(shù)對模型效果的影響,將FBERT作為評價指標評估摘要內(nèi)容質(zhì)量。

3.3 實驗結(jié)果及分析

3.3.1 模型總實驗

為了驗證文中模型在文本摘要任務的優(yōu)良性,將其與不同摘要方法進行對比,表1 為各不同模型的實驗結(jié)果對比情況。

表1 各模型在CNN/DailyMail的實驗結(jié)果

1)抽取式文本摘要

表1 中第一部分是抽取式文本摘要實驗結(jié)果對比,其中Lead-3 算法得到的摘要是文本的前三句。SUMO[14]是以樹歸納的角度得到的抽取式文本摘要,證明了文檔結(jié)構(gòu)對抽取式文本摘要有重要作用。

2)生成式文本摘要

表1 中第二部分是生成式文本摘要實驗對比結(jié)果,MASS[15]提出了基于文本摘要源句中單詞的中心度為指導的復制機制,因此更關(guān)注源句中的單詞。BERTSUMABS[16]證明了篇章級編碼對任務的重要性并且沒有使用其他機制就得到了較好的實驗結(jié)果。

3)抽取式與生成式相結(jié)合

表1 中第三部分是將抽取式文本摘要與生成式文本摘要相結(jié)合的實驗結(jié)果對比,并且對比的模型均是使用強化學習優(yōu)化整個模型,差別在于使用的反饋不同,ext+abs+RL(learned)[17]使用損失函數(shù)計算反饋值,由于計算反饋值的過程不是基于N-gram 的方式,且此實驗結(jié)果受Rouge 評估方式影響,因此得到的Rouge 結(jié)果不理想。使用Rouge 作為反饋的ext+abs+RL[3]模型得到了相比上述模型更好的結(jié)果,而使用文中提出的以BERTScore 作為反饋的模型得到的摘要結(jié)果,相比于Rouge 作為反饋的模型,其基于N-gram 評估的角度分值較低,這是由于生成式文本摘要根據(jù)對句子的理解生成新的句子,該句子中可能包括原句中沒有的詞匯。文中以BERTScore 作為反饋考量的是文本內(nèi)容的匹配情況,而并非只考量句子表層詞匯的匹配情況,因此文中模型在評價指標FBERT角度得到的分值要高于上述模型,這也與人工總結(jié)文本的結(jié)果更相似。以BERTScore 和Rouge 共同作為反饋的模型(λ=0.5)既考慮了句子表層的詞匯匹配情況,又考慮了文本內(nèi)容的匹配情況,因此得到的摘要結(jié)果在Rouge 方面有一定的提升(與ext+abs+RL(Rouge))相比,在評估指標Rouge 角度提升效果為R-1:+0.46;R-2:-0.02;R-L:+0.63,與ext+abs+RL(BERTScore)相比,在評估指標Rouge 角度提升效果為R-1:+0.53;R-2:+0.11;R-L:+1.96。在評估指標FBERT方面,與ext+abs+RL(Rouge)相比,提高了2.35,由此可見,將Rouge與FBERT聯(lián)合作為強化學習的反饋能夠優(yōu)化整個模型,并得到與參考摘要更相近的結(jié)果。

3.3.2 對比實驗

為了驗證文中模型使用結(jié)合BERTScore 的強化學習模型的有效性,針對上文提到的調(diào)和參數(shù)λ值設置對比實驗,評估指標avg 由R-1、R-2、R-L和FBERT三者計算均值得到,對比實驗中λ分別取值為0、0.25、0.5、0.75、1,與各取值相對應的實驗結(jié)果如圖3所示。

圖3 參數(shù)對比實驗

其中,λ為式(6)中BERTScore 和Rouge 的調(diào)和參數(shù),avg 為評估指標R-1、R-2、R-L和FBERT的均值。

由圖3 中對比實驗結(jié)果可看出,當λ=0.5 即均衡考慮詞匯匹配情況和內(nèi)容匹配情況時,生成的摘要效果最好,因此,當模型使用BERTScore 和Rouge 共同作為強化學習的反饋進行實驗時,取λ=0.5。

4 結(jié)束語

文中在利用強化學習將抽取式與生成式兩種摘要方法相融合的基礎上,使用BERTScore 評價指標作為模型的反饋,避免了使用Rouge 評價指標忽略不同詞匯表示相同語義的情況,并且文中嘗試將BERTScore 和Rouge 聯(lián)合作為反饋,以最大化理解文本內(nèi)容的同時權(quán)衡詞匯匹配度,得到了與人工總結(jié)盡可能相似的文本摘要。文中使用Gumbel-Softmax可微再參數(shù)化技術(shù)優(yōu)化了模型中抽取器不可微的問題。未來,仍需要繼續(xù)探索文本摘要的評價方法以及加強對文本內(nèi)容的重視,以得到效果更好的文本摘要。

猜你喜歡
詞匯文本內(nèi)容
內(nèi)容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
主要內(nèi)容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
本刊一些常用詞匯可直接用縮寫
主站蜘蛛池模板: 国产精品成| 国产欧美日韩va另类在线播放| 伊人蕉久影院| 六月婷婷激情综合| 伊人久久婷婷五月综合97色| 久久久久久久97| 91精品啪在线观看国产91九色| 青青草国产精品久久久久| 久久99精品久久久大学生| 喷潮白浆直流在线播放| 国产二级毛片| 免费aa毛片| 91免费观看视频| 91蝌蚪视频在线观看| 国产va视频| 2022国产无码在线| 一级黄色网站在线免费看| 欧亚日韩Av| 国产91全国探花系列在线播放| 91精品国产自产在线观看| 亚洲国内精品自在自线官| 99热最新在线| 精品少妇人妻一区二区| 日韩a在线观看免费观看| 精品自拍视频在线观看| 亚洲男人的天堂在线观看| 嫩草影院在线观看精品视频| 欧日韩在线不卡视频| 国产网站免费看| 久久精品电影| 中文字幕有乳无码| 无码精品国产dvd在线观看9久| 在线国产91| 麻豆AV网站免费进入| 亚洲欧美日韩视频一区| 久久人午夜亚洲精品无码区| 成人国产精品视频频| 国产精品19p| 久热精品免费| 99在线视频网站| 精品自窥自偷在线看| 久热99这里只有精品视频6| 人妻夜夜爽天天爽| 日韩AV无码免费一二三区| 欧美成人综合视频| 亚洲av片在线免费观看| 中字无码av在线电影| 日本一本正道综合久久dvd| 成年人久久黄色网站| 亚洲成年网站在线观看| 国产精品亚洲欧美日韩久久| 九九热这里只有国产精品| 欧美三级不卡在线观看视频| 精品偷拍一区二区| 亚洲精品片911| 91美女视频在线| 中文字幕日韩欧美| 欧美性天天| 动漫精品啪啪一区二区三区| 久久久久免费看成人影片| 激情无码字幕综合| 一本综合久久| 欧美一级专区免费大片| 国产一区二区福利| 真人免费一级毛片一区二区| 激情综合网址| 日韩国产高清无码| 日韩精品一区二区三区swag| 日韩欧美国产区| 国产91高跟丝袜| 久久精品人妻中文系列| 超碰色了色| 香蕉久人久人青草青草| 精品视频福利| 超碰精品无码一区二区| 久久99国产精品成人欧美| 亚洲国产成人精品无码区性色 | 国产传媒一区二区三区四区五区| 亚洲欧美激情另类| 免费欧美一级| 毛片国产精品完整版| 中文字幕免费在线视频|