999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多樣性文本生成方法研究

2021-11-22 10:09:05徐楊
現(xiàn)代計(jì)算機(jī) 2021年7期
關(guān)鍵詞:語義文本優(yōu)化

徐楊

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

0 引言

目前各種智能應(yīng)用出現(xiàn)在不同領(lǐng)域,例如:問答系統(tǒng)、對話系統(tǒng)等,這些應(yīng)用幾乎都涉及文本生成任務(wù),該任務(wù)是自然語言處理領(lǐng)域的研究熱點(diǎn)之一。文本生成旨在通過機(jī)器自動(dòng)生成符合語法規(guī)范、滿足特定任務(wù)目標(biāo)的文本,例如:在問答系統(tǒng)中機(jī)器根據(jù)源文本及問題查詢,生成簡潔且相關(guān)的答案;在對話系統(tǒng)中機(jī)器利用對話歷史產(chǎn)生對當(dāng)前對話的回復(fù)。然而,隨著智能應(yīng)用的發(fā)展,人機(jī)交互體驗(yàn)更加受到重視,為了增加智能應(yīng)用的趣味性與可互動(dòng)性,生成的文本要求表現(xiàn)多樣性。例如:針對某些相似對話,聊天機(jī)器人如果只能產(chǎn)生特定的回答,將顯得枯燥無味,不利于聊天持續(xù)進(jìn)行。因此,多樣性文本生成是文本生成研究的重點(diǎn)問題之一。目前多樣性文本生成研究以神經(jīng)網(wǎng)絡(luò)的方法為主,利用Seq2Seq(Sequence-to-Sequence)模型對源文本編碼,然后再解碼產(chǎn)生目標(biāo)文本。本文第一部分對多樣性文本生成任務(wù)中面臨的問題及其主要原因進(jìn)行介紹與分析,第二部分重點(diǎn)介紹現(xiàn)階段各類解決多樣性文本生成問題的相關(guān)工作,尤其是變分自編碼方法。

1 問題描述及原因分析

1.1 問題描述

多樣性文本生成任務(wù)要求機(jī)器根據(jù)給定的文本信息自動(dòng)生成符合語法規(guī)范的、多樣的、相關(guān)的文本。Seq2Seq 模型在眾多文本生成任務(wù)[1-3]中均取得顯著效果,但該模型對輸入的相同源文本只能產(chǎn)生固定的輸出文本。例如:在聊天機(jī)器人中,向機(jī)器發(fā)送相同或相似的對話,機(jī)器只能產(chǎn)生固定的回復(fù),這使機(jī)器顯得呆板、枯燥。此外,模型還傾向于產(chǎn)生數(shù)據(jù)集中較高頻的通用型文本,例如:總產(chǎn)生類似“I don’t know.”、“Me too.”的對話回復(fù)。以上兩方面問題顯示了Seq2Seq 模型并不直接適用于多樣性文本生成任務(wù)。

1.2 原因分析

普通的Seq2Seq 模型主要由兩部分構(gòu)成:編碼器與解碼器。首先編碼器接收輸入的源文本信息,將源文本信息編碼為特定的語義向量,然后解碼器利用該語義向量解碼出目標(biāo)文本。通常將一個(gè)單向Recurrent Neural Network(RNN)作為解碼器,每一解碼時(shí)刻生成一個(gè)詞,逐步產(chǎn)生詞序列作為輸出文本。從上述Seq2Seq 模型工作過程看出:在測試階段由于模型參數(shù)固定,向模型輸入相同源文本時(shí),編碼器將源文本編碼為相同的語義向量,此時(shí)解碼器只能產(chǎn)生固定的輸出文本。因此,Seq2Seq 模型對于相同輸入只能得到相同輸出,不能直接產(chǎn)生多樣性文本。另外,在Seq2Seq 模型中廣泛使用最大似然作為優(yōu)化目標(biāo),讓模型在訓(xùn)練過程中能盡可能地?cái)M合標(biāo)注的目標(biāo)文本。然而,個(gè)別標(biāo)注目標(biāo)文本大量重復(fù)出現(xiàn)在數(shù)據(jù)集中,出現(xiàn)頻率遠(yuǎn)高于其他文本,因此在最大似然優(yōu)化過程中模型自然會(huì)更加傾向于生成頻率高的文本。

綜合上述分析,導(dǎo)致Seq2Seq 模型生成文本多樣性較差的原因主要是:①模型結(jié)構(gòu)方面,模型只能將輸入源文本編碼為確定的語義向量,經(jīng)解碼后僅能生成相同文本;②優(yōu)化目標(biāo)方面,采用最大似然方法優(yōu)化模型參數(shù),模型傾向于生成較高頻的通用型文本,缺乏多樣性。

2 多樣性文本生成方法

基于前文對Seq2Seq 模型生成多樣性文本面臨問題的分析,現(xiàn)有相關(guān)工作主要從以下兩方面展開:重新構(gòu)造模型優(yōu)化目標(biāo)函數(shù)、改變Seq2Seq 模型結(jié)構(gòu)。

2.1 重新構(gòu)造優(yōu)化目標(biāo)

Seq2Seq 模型損失函數(shù)通常定義為交叉熵,其損失的計(jì)算要求訓(xùn)練階段生成的文本必須與標(biāo)注文本一致,一旦不一致就懲罰,但實(shí)際上對于給定的源文本并非只有訓(xùn)練數(shù)據(jù)中的標(biāo)注目標(biāo)文本才能作為輸出,換句話說,交叉熵?fù)p失函數(shù)的懲罰側(cè)重于字面上的擬合,未進(jìn)一步度量生成文本語義與源文本語義相關(guān)性等,所以出現(xiàn)了一系列重新構(gòu)造優(yōu)化目標(biāo)的工作,其中最大互信息方法被廣泛使用。

Li 等人[4]利用最大互信息替代原最大似然優(yōu)化方法,兩者的主要區(qū)別在于最大化互信息除了考慮到對標(biāo)注目標(biāo)文本的最大似然優(yōu)化之外,還進(jìn)一步考慮了標(biāo)注目標(biāo)文本自身出現(xiàn)的概率大小,對于那些高頻的標(biāo)注文本施加更大的懲罰,以緩解模型傾向于生成高頻文本問題。然而計(jì)算互信息需要等文本生成結(jié)束,在生成過程中每個(gè)解碼時(shí)刻都涉及對詞表采樣,但離散詞表的采樣過程對模型參數(shù)是不可導(dǎo)的。為了解決此參數(shù)優(yōu)化問題,Li 等人[5]利用強(qiáng)化學(xué)習(xí)延遲回報(bào)特性,借助策略梯度方法將互信息作為回報(bào)的一部分反饋給模型進(jìn)行優(yōu)化。雖然不少工作證明了最大互信息的有效性,但其優(yōu)化過程也較為復(fù)雜,后續(xù)工作中提出了更為簡單、有效的啟發(fā)式方法。

Nakamura 等人[6]統(tǒng)計(jì)數(shù)據(jù)集語料后發(fā)現(xiàn)越高頻的詞越容易出現(xiàn)在通用型標(biāo)注文本中,他們在原始交叉熵?fù)p失函數(shù)中考慮利用詞自身頻率的倒數(shù)加權(quán),降低了高頻詞占損失的比例,讓模型關(guān)注到更多較低頻的詞。該方法優(yōu)點(diǎn)在于簡單直觀,但其啟發(fā)式規(guī)則可能會(huì)受不同數(shù)據(jù)集的影響。

除了上述兩大類方法,不少工作考慮引入強(qiáng)化學(xué)習(xí)方法,基于各文本生成任務(wù)特點(diǎn)設(shè)計(jì)不同的回報(bào)函數(shù)對生成文本進(jìn)行評(píng)分,設(shè)計(jì)的回報(bào)函數(shù)避免了交叉熵?fù)p失函數(shù)嚴(yán)格懲罰生成文本字面擬合的問題。從原理上看,強(qiáng)化學(xué)習(xí)方法更適合于文本生成任務(wù),但在實(shí)際應(yīng)用中強(qiáng)化學(xué)習(xí)面臨著較多優(yōu)化問題,例如:每次決策時(shí)面臨的候選動(dòng)作詞表空間較大,很難有效探索到高質(zhì)量樣本,此外,回報(bào)函數(shù)極大地影響了模型性能,合適的回報(bào)函數(shù)較難確定。

2.2 改進(jìn)Seq2Seq模型結(jié)構(gòu)

當(dāng)Seq2Seq 模型參數(shù)固定時(shí),編碼器只能將輸入的相同源文本編碼為確定的向量表達(dá),最終解碼器生成相同文本。從編碼角度看,編碼器的編碼方式限制了源文本語義表達(dá)的多樣性。為此,變分自編碼(VAE,Variational AutoEncoder)方法[7-9]被引入到文本生成任務(wù)中。與普通Seq2Seq 編碼方式不同,VAE 引入潛變量刻畫源文本語義分布,利用編碼器將輸入的源文本編碼為語義分布(通常假設(shè)為相互獨(dú)立的多元高斯分布),而不是特定的語義向量。解碼器在生成文本前需從語義分布中采樣出語義向量解碼。語義分布蘊(yùn)含了更具多樣性的語義表達(dá),為解碼器提供了可變的源文本語義向量。因此,變分自編碼方法通過改進(jìn)Seq2Seq 模型結(jié)構(gòu),注入了更多樣的源文本語義。

Bowman 等人[10]較早將VAE 引入文本生成任務(wù),他們發(fā)現(xiàn)直接將VAE 用于文本生成任務(wù)會(huì)出現(xiàn)KL 損失降為0 問題(KL 消失),即:優(yōu)化目標(biāo)中KL 項(xiàng)損失降為0。當(dāng)VAE 優(yōu)化目標(biāo)中的KL 損失降為0 后,VAE模型逐漸退化為普通Seq2Seq 模型,此時(shí)生成文本的多樣性依舊有限。他們還指出原因在于RNN 解碼器在當(dāng)前時(shí)刻會(huì)依賴之前解碼時(shí)刻及上一時(shí)刻的標(biāo)注詞,這種較強(qiáng)的依賴關(guān)系使當(dāng)前解碼時(shí)刻更多關(guān)注到之前時(shí)刻的狀態(tài)信息與當(dāng)前時(shí)刻輸入的標(biāo)注詞信息,忽略了引入的潛變量,所以注入到潛變量中的多樣性語義不起作用。Bowman 等人提出了兩個(gè)啟發(fā)式方法改變模型的訓(xùn)練過程,首先在訓(xùn)練開始時(shí)將優(yōu)化目標(biāo)中的KL 損失項(xiàng)權(quán)重置為0,隨著訓(xùn)練進(jìn)行再逐漸增加KL 項(xiàng)權(quán)重至1,然后在解碼過程中隨機(jī)遮蔽一定比例的標(biāo)注詞,盡量削弱解碼器各解碼時(shí)刻間的依賴關(guān)系,迫使當(dāng)前解碼時(shí)刻能更多關(guān)注到來潛變量提供的語義信息。雖然以上兩種啟發(fā)式方法能在一定程度上提高生成文本的多樣性,但實(shí)際效果受超參數(shù)影響較大,例如:當(dāng)遮蔽比率過大時(shí),模型擬合性能下降;反之則起不到遮蔽效果。此后,不少工作進(jìn)一步針對VAE 在文本生成中存在的KL 消失問題展開了進(jìn)一步研究與分析。

Bahuleyan 等人[11]研究發(fā)現(xiàn)當(dāng)直接傳遞源文本信息到RNN 解碼器會(huì)更容易出現(xiàn)KL 消失問題,因?yàn)楫?dāng)解碼器能夠直接訪問到源文本信息后,會(huì)逐漸繞開潛變量,使后續(xù)解碼過程忽視潛變量。普通的注意力機(jī)制本質(zhì)上是對源文本信息的一種加權(quán),此時(shí)解碼器通過注意力機(jī)制得到的上下文向量同樣相當(dāng)于直接訪問源文本信息,所以容易出現(xiàn)KL 消失問題。Bahuleyan 等人提出了變分注意力機(jī)制緩解解碼器繞過潛變量的問題,將原來確定的上下文向量轉(zhuǎn)化為潛變量分布,讓解碼器訪問源文本信息時(shí)不能繞過潛變量。

原始VAE 是作為自編碼方法,后續(xù)研究進(jìn)一步提出了針對給定源文本情況下目標(biāo)文本生成概率的建模方法——條件變分自編碼方法(CVAE,Conditional Variational Autoencoder)[12]。CVAE 與VAE 的主要區(qū)別在于兩者建模過程中學(xué)習(xí)的分布不同以及模型輸入不同。VAE 模型的輸入只有源文本,而CVAE 需同時(shí)輸入源文本與標(biāo)注目標(biāo)文本,因CVAE 需建模一個(gè)后驗(yàn)分布,并從后驗(yàn)分布中采樣參與解碼器訓(xùn)練。此外,CVAE 還需學(xué)習(xí)一個(gè)條件先驗(yàn)分布,該分布未直接參與解碼器訓(xùn)練過程。由于CVAE 訓(xùn)練過程中直接將標(biāo)注目標(biāo)文本作為輸入,而測試階段沒有標(biāo)注文本,所以測試階段無法直接使用后驗(yàn)分布,而是從條件先驗(yàn)分布中采樣生成文本。因此,CVAE 模型在訓(xùn)練和測試階段分別從不一致的分布中采樣,使模型性能在測試階段明顯下降。

之后,不少基于CVAE 的方法被提出來解決多樣性文本生成問題,例如:Zhang 等人[13]為了增強(qiáng)解碼器與潛變量之間的關(guān)聯(lián),引入了一個(gè)標(biāo)簽網(wǎng)絡(luò),學(xué)習(xí)了標(biāo)注目標(biāo)文本的自編碼表達(dá),然后利用均方誤差損失懲罰潛變量與標(biāo)注文本自編碼表達(dá)的距離。雖然該工作在一定程度上提升了生成文本的多樣性,但依然面臨CVAE 訓(xùn)練階段與測試階段間的非一致性采樣過程。

上述VAE/CVAE 方法主要改進(jìn)Seq2Seq 模型結(jié)構(gòu),引入潛變量對源文本語義分布建模,為解碼器提供了更多樣的源語義表達(dá),解決了原編碼器僅能將源文本編碼為確定語義向量的問題。變分編碼方法作為目前用于多樣性文本生成任務(wù)的流行方法,提高了生成文本的多樣性,但不可否認(rèn)此類方法在優(yōu)化過程中依舊面臨挑戰(zhàn),現(xiàn)有緩解KL 消失問題的方法大多從是問題表面出發(fā)的或者啟發(fā)式的,仍缺乏理論上的分析與論證,因此,對于KL 消失的根本原因還值得深入研究。

3 結(jié)語

本文首先描述了多樣性文本生成任務(wù)的研究背景與意義,然后分析了多樣性文本生成任務(wù)中面臨的問題及主要原因(編碼器只能將源文本編碼為確定的語義向量、模型傾向于生成數(shù)據(jù)集中高頻的文本),接著分別以上述兩原因?yàn)榍腥朦c(diǎn),重點(diǎn)介紹了從重新構(gòu)造模型優(yōu)化目標(biāo)、改變Seq2Seq 模型結(jié)構(gòu)兩角度解決多樣性文本生成問題的現(xiàn)有工作,其中重點(diǎn)分析了目前基于VAE/CVAE 的相關(guān)工作。VAE/CVAE 引入潛變量對源語義分布建模,Seq2Seq 方法注入不同的源語義表達(dá),提高了生成文本的多樣性,然而此類方法仍面臨優(yōu)化挑戰(zhàn)(KL 消失問題)。雖然現(xiàn)有工作提出方法在一定程度上緩解了KL 消失問題,但仍缺乏理論上的分析與論證,如何從根本上解決KL 消失問題依然是待攻克的難題。

猜你喜歡
語義文本優(yōu)化
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 日本高清在线看免费观看| 色九九视频| 国产性爱网站| 国产午夜不卡| 国产成熟女人性满足视频| 2022国产91精品久久久久久| 日韩在线播放欧美字幕| 9966国产精品视频| 国产欧美另类| 国产综合另类小说色区色噜噜| 成人福利免费在线观看| 97国产在线观看| 精品视频在线观看你懂的一区| 在线欧美一区| 国产欧美日韩精品综合在线| 精品无码专区亚洲| 亚洲bt欧美bt精品| 在线欧美国产| 色亚洲成人| 另类欧美日韩| 91久久精品日日躁夜夜躁欧美| 一本久道久综合久久鬼色| 欧美午夜小视频| 国产欧美日韩视频一区二区三区| 视频一本大道香蕉久在线播放| 久久网综合| 婷婷亚洲天堂| 国产精品理论片| 91视频国产高清| 久草网视频在线| jizz在线观看| 日韩区欧美国产区在线观看| 欧美日韩在线观看一区二区三区| 在线观看免费人成视频色快速| 一级毛片免费高清视频| 国产在线拍偷自揄观看视频网站| 无码精品国产dvd在线观看9久| 亚洲精品视频在线观看视频| 国产精品区视频中文字幕| 国产九九精品视频| 国产打屁股免费区网站| 亚洲国产欧美中日韩成人综合视频| 拍国产真实乱人偷精品| 国产福利观看| julia中文字幕久久亚洲| 亚洲综合久久成人AV| 91年精品国产福利线观看久久| 91精品日韩人妻无码久久| 国产啪在线| 蜜桃臀无码内射一区二区三区| av午夜福利一片免费看| 国产成人成人一区二区| 亚洲日本一本dvd高清| 91最新精品视频发布页| 特级做a爰片毛片免费69| 欧美一区二区三区不卡免费| 日本不卡在线播放| 在线观看亚洲精品福利片| 亚洲欧美精品在线| 久久国产精品麻豆系列| 国产95在线 | 国产91小视频在线观看| 一本综合久久| 久久永久精品免费视频| 欧美伦理一区| 国产日韩精品一区在线不卡| 日本午夜在线视频| 亚洲无码免费黄色网址| 超碰精品无码一区二区| 在线观看亚洲人成网站| 国产成人高清亚洲一区久久| 国产超薄肉色丝袜网站| 亚洲六月丁香六月婷婷蜜芽| 久久毛片基地| 91久久偷偷做嫩草影院精品| 在线播放精品一区二区啪视频| 国产国语一级毛片| 免费国产黄线在线观看| 91无码人妻精品一区| 视频一本大道香蕉久在线播放| 91免费片| 亚洲一区网站|