999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于變分信息瓶頸的半監督神經機器翻譯

2022-08-01 01:42:08于志強余正濤黃于欣郭軍軍高盛祥
自動化學報 2022年7期
關鍵詞:機制信息方法

于志強 余正濤 黃于欣 郭軍軍 高盛祥

自端到端的神經機器翻譯(Neural machine translation)模型[1?2]提出以來,神經機器翻譯得到了飛速的發展.基于注意力機制[2]的神經機器翻譯模型提出之后,更使得神經機器翻譯在很多語言對上的翻譯性能超越了傳統的統計機器翻譯(Statistical machine translation)[3],成為自然語言處理領域的熱點研究方向[4],也因此促進了很多神經網絡方法在其上的遷移與應用,變分方法[5?6]即是其中一種重要方法.變分方法已證明能夠顯著提升神經機器翻譯的性能[7],但是由于數據驅動特性,其性能較依賴于平行語料的規模與質量,只有當訓練語料規模達到一定數量級時,變分方法才會體現其優勢.然而,在低資源語言對上,不同程度的都面臨平行語料缺乏的問題,因此如何利用相對容易獲取的單語語料、實現語料擴充成為應用變分方法的前提.針對此問題,本文采用能夠同時利用平行語料和單語語料的半監督學習方式展開研究.半監督神經機器翻譯(Semi-supervised neural machine translation) 主要通過兩種方式對單語語料進行利用:1)語料擴充?再訓練:利用小規模平行語料訓練基礎翻譯模型,在此模型基礎上利用回譯[8]等語料擴充方法對大規模單語語料進行翻譯,形成偽平行語料再次參與訓練;2)聯合訓練:利用自編碼[9?10]等方法,以平行語料和單語語料共同作為輸入,進行聯合訓練.本文重點關注語料擴充后的變分方法應用,因此采用語料擴充?再訓練方式.

目前被較多采用的語料擴充方法為:首先利用小規模平行語料訓練基礎翻譯模型,在此基礎上通過回譯將大規模單語語料翻譯為偽平行語料,進而組合兩種語料進行再次訓練.因此,基礎翻譯模型作為任務的起始點,它的性能直接影響后續任務的執行質量.傳統提升基礎翻譯模型性能的手段限于使用深層神經網絡和在解碼端最高層網絡應用注意力機制.然而,由于深層神經網絡在應用于自然語言處理任務中時,不同層次的神經網絡側重學習的特征不同:低層網絡傾向于學習詞法和淺層句法特征,高層網絡則傾向于獲取更好的句法結構特征和語義特征[11].因此,很多研究者通過層級注意力機制,利用神經網絡每一層編碼器產生的上下文表征指導解碼.層級注意力機制使高層網絡的特征信息得以利用的同時,也挖掘低層網絡對輸入序列的表征能力.然而,上述研究多采用層內融合方式實現層級注意力機制,其基本方式為將k?1 層上下文向量融入第k層的編碼中.事實上在低資源環境中,受限的語料規模易導致模型訓練不充分,在此情況下引入層級注意力,可能會加重網絡復雜性,造成性能下降.因此,本文設想通過融入跨層注意力機制,使低層表征能夠跨越層次后對高層表征產生直接影響,既能彌補因網絡復雜性增加帶來的性能損失,又能更好地利用表征信息提升翻譯效果.除此以外,由于在基礎模型的訓練過程中缺少雙語監督信號,導致利用其產生的偽平行語料中不可避免的存在大量的數據噪聲,而在增加使用層級注意力機制后,并不能減少噪聲,相反,噪聲隨著更多表征信息的融入呈正比例增長[12?13].在隨后的再訓練過程中,雖然語料規模能夠滿足變分方法的需求,但含有較多噪聲的語料作為編碼器的輸入,使訓練在源頭就產生了偏差,因此對整個再訓練過程均造成影響.針對上述問題,本文提出了一種融入變分信息瓶頸的神經機器翻譯方法.首先利用小規模平行語料訓練得到基礎翻譯模型,在其基礎上利用回譯將大規模單語語料翻譯為偽平行語料,進而合并兩種平行語料,使語料規模達到能夠較好地應用變分方法的程度.在此過程中,針對基礎翻譯模型的訓練不充分問題,通過引入跨層注意力機制加強不同層次網絡的內部交互,除了通過注意力機制學習高層網絡編碼器產生的語義特征之外,也關注低層網絡產生上下文表征的能力和對高層表征的直接影響.隨后,針對生成的語料中的噪聲問題,使用變分信息瓶頸[12]方法,利用其信息控制特性,在編碼端輸入(源語言x)與解碼端輸出(目標語言y)之間的位置引入中間表征,通過優化中間表征的分布,使通過瓶頸的有效信息量最大,從而最大程度放行重要信息、忽略與任務無關的信息,實現噪聲的去除.

本文的創新點包括以下兩個方面:1)通過融入跨層注意力機制加強基礎翻譯模型的訓練,在增強的基礎翻譯模型上利用回譯產生偽平行語料、增大數據規模,使其達到能夠有效應用變分方法的程度.2)首次將變分信息瓶頸應用于神經機器翻譯任務,在生成的語料的基礎上,利用變分特性提升模型的性能,同時針對生成語料中的噪聲,利用信息瓶頸的控制特性進行去除.概括來說,方法整體實現的是一種語料擴充?信息精煉與利用的過程,并預期在融合該方法的神經機器翻譯中取得翻譯效果的提升.在IWSLT 和WMT 等數據集上進行的實驗結果表明,本文提出的方法能顯著提高翻譯質量.

1 相關工作

1.1 層級注意力機制

注意力機制的有效性得到證明之后,迅速成為研究者們關注的熱點.很多研究者在神經網絡的不同層次上應用注意力機制構建層級注意力模型,在此基礎上展開訓練任務.Yang 等[14]將網絡劃分為兩個注意力層次,第一個層次為“詞注意”,另一個層次為“句注意”,每部分通過雙向循環神經網絡(Recurrent neural network)結合注意力機制實現文本分類.Pappas 等[15]提出了一種用于學習文檔結構的多語言分層注意力網絡,通過跨語言的共享編碼器和注意力機制,使用多任務學習和對齊的語義空間作為文本分類任務的輸入,顯著提升分類效果.Zhang 等[16]提出一種層次結構摘要方法,使用分層結構的自我關注機制來創建句子和文檔嵌入,通過層次注意機制提供額外的信息源來獲取更佳的特征表示,從而更好地指導摘要的生成.Miculicich 等[17]提出了一個分層關注模型,將其作為另一個抽象層次集成在傳統端到端的神經機器翻譯結構中,以結構化和動態的方式捕獲上下文,顯著提升了結果的BLEU (Bilingual evaluation understudy)值.Zhang 等[18]提出了一種深度關注模型,模型基于低層網絡上的注意力信息,自動確定從相應的編碼器層傳遞信息的閾值,從而使詞的分布式表示適合于高層注意力,在多個數據集上驗證了模型的有效性.研究者們通過融入層級注意力機制到模型訓練中,在模型之上直接執行文本分類、摘要和翻譯等任務,與上述研究工作不同的是,本文更關注于跨層次的注意力機制,并期待將融入跨層注意力機制的基礎翻譯模型用于進一步任務.

1.2 單語語料擴充

如何在低資源場景下進行單語語料的擴充和利用一直是研究者們關注的熱點問題之一.早在2007年,Ueffing 等[19]就提出了基于統計機器翻譯的語料擴充方法:利用直推學習來充分利用單語語料庫.他們使用訓練好的翻譯模型來翻譯虛擬的源文本,將其與譯文配對,形成一個偽平行語料庫.在此基礎上,Bertoldi 等[20]通過改進的網絡結構進行訓練,整個過程循環迭代直至收斂,取得了性能上的進一步提升.Klementiev 等[21]提出了一種單語語料庫短語翻譯概率估計方法,在一定程度上緩解了生成的偽平行語料中的重復問題.與前文不同,Zhang 等[22]使用檢索技術直接從單語語料庫中提取平行短語.另一個重要的研究方向是將基于單語語料庫的翻譯視為一個解密問題,將譯文的生成過程等同于密文到明文的轉換[23?24].

以上的單語語料擴充方法主要應用于統計機器翻譯中.隨著深度學習的興起,神經機器翻譯成為翻譯任務的主流方法,探索在低資源神經機器翻譯場景下的語料擴充方法成為研究熱點.Sennrich 等[8]在神經機器翻譯框架基礎上提出了語料擴充方法.他們利用具有網絡結構普適性的兩種方法來使用單語語料.第1 種方法是將單語句子與虛擬輸入配對,然后在固定編碼器和注意力模型參數的情況下利用這些偽平行句對進行訓練.在第2 種方法中,他們首先在平行語料庫上訓練初步的神經機器翻譯模型,然后使用該模型翻譯單語語料,最后結合單語語料及其翻譯構成偽平行語料,第2 種方法也稱為回譯.回譯可在不依賴于神經網絡結構的情況下實現平行語料的構建,因此廣泛應用于半監督和無監督神經機器翻譯中.Cheng 等[25]提出一種半監督神經機器翻譯模型,通過將回譯與自編碼進行結合重構源與目標語言的偽平行語料,取得了翻譯性能上的提升.Skorokhodov 等[26]提出了一種將知識從單獨訓練的語言模型轉移到神經機器翻譯系統的方法,討論了在缺乏平行語料和計算資源的情況下,利用回譯等方法提高翻譯質量的幾種技術.Artetxe 等[27]利用共享編碼器,在兩個解碼器上分別應用回譯與去噪進行聯合訓練,實現了只依賴單語語料的非監督神經機器翻譯.Lample 等[28]提出了兩個模型變體:一個神經網絡模型和一個基于短語的模型.利用回譯、語言模型去噪以及迭代反向翻譯自動生成平行語料.Burlot 等[29]對回譯進行了系統研究,并引入新的數據模擬模型實現語料擴充.與上述研究工作不同的是,本文同時關注于偽平行語料生成所依賴的基礎翻譯模型的訓練.在訓練過程中,不僅利用注意力機制關注高層網絡中對句法結構和語義信息的利用,同時也關注低層網絡信息對高層網絡信息的直接影響.

1.3 變分信息瓶頸

為了實現信息的壓縮和去噪,Tishby 等[30]提出基于互信息的信息瓶頸(Information bottleneck)方法.深度神經網絡得到廣泛應用后,Alemi 等[12]在傳統信息瓶頸的基礎上進行改進,提出了適用于神經網絡的變分信息瓶頸(Variational information bottleneck),變分信息瓶頸利用深度神經網絡來建模和訓練,通過在源和目標之間添加中間表征來進行信息過濾.

在神經機器翻譯中,尚未發現利用變分信息瓶頸進行噪聲去除的相關研究工作,但是一些基于變分的方法近期已經在神經機器翻譯中得到應用,有效提高了翻譯性能.Zhang 等[7]提出一個變分模型,通過引入一個連續的潛在變量來顯式地對源語句的底層語義建模并指導目標翻譯的生成,能夠有效的提高翻譯質量.Eikema 等[31]提出一個雙語句對的深層生成模型,該模型從共享的潛在空間中共同生成源句和目標句,通過變分推理和參數梯度化來完成訓練,在域內、混合域等機器翻譯場景中證明了模型的有效性.Su 等[32]基于變分遞歸神經網絡,提出了一種變分遞歸神經機器翻譯模型,利用變分自編碼器將隨機變量添加到解碼器的隱藏狀態中,能夠在不同的時間步長上進一步捕獲依賴關系.

2 模型

本節首先介紹傳統基于注意力機制的基礎翻譯模型,接著介紹了融入跨層注意力機制的基礎翻譯模型.區別于傳統的基礎翻譯模型,本文通過融入跨層注意力機制,除關注高層編碼器產生的上下文表征向量之外,也關注低層編碼器產生的上下文表征向量對高層編碼的直接影響.最后介紹了變分信息瓶頸模型,展示了利用該模型對回譯方法生成的偽平行語料中的噪聲進行去除的過程.

2.1 傳統注意力機制模型

傳統方法中,最初通過在解碼端最高層網絡引入注意力機制進行基礎翻譯模型的訓練.如圖1 所示的2 層編解碼器結構中,它通過在每個時間步長生成一個目標單詞yt來進行翻譯.給定編碼端輸入序列x(x1,x2,···,xn)和已生成的翻譯序列y(y1,y2,···,yt?1),解碼端產生下一個詞yt的概率為

圖1 傳統作用于最高層網絡的注意力機制融入Fig.1 Model with traditional attention mechanism based on top-layer merge

其中,g是非線性函數,st為在時間步t時刻的解碼端隱狀態向量,由下式計算得到

其中,f是激活函數,ct是t時刻的上下文向量,其計算式為

其中,et,j是對st?1和hj相似性的度量,其計算式為

通過在最高層網絡引入注意力機制來改善語義表征、輔助基礎翻譯模型的訓練,能夠有效地提升翻譯性能,但僅利用最高層信息的方式使得其他層次的詞法和淺層句法等特征信息被忽略,進而影響生成的偽平行語料質量.針對此問題,能夠利用每層網絡上下文表征的層級注意力機制得到關注,成為眾多翻譯系統采用的基礎方法.這些系統往往采用層內融合方式的層級注意力機制,如圖2 所示的編解碼器結構中,第k層的輸入融合了k ?1 層的上下文向量和隱狀態向量.具體計算式為

圖2 層內融合方式的層級注意力機制融入Fig.2 Model with hierarchical attention mechanism based on inner-layer merge

其中,f為激活函數,r為神經網絡層數.

2.2 跨層注意力機制模型

層內融合方式加強了低層表征利用,但難以使低層表征跨越層次對高層表征產生直接影響.因此,本文設想利用跨層融合,在利用低層表征的同時促進低層表征對高層表征的直接影響.通過融入跨層注意力機制,使各層特征信息得到更加充分的利用.如圖3 所示,模型通過注意力機制計算每一層的上下文向量在最高層r對它們進行拼接,得到跨層融合的上下文向量ct

圖3 跨層融合方式的層級注意力機制融入Fig.3 Model with hierarchical attention mechanism based on cross-layer merge

同樣,通過跨層拼接操作得到st,隨后通過非線性變換得到pt,pt用于輸入到 softmax 函數中計算詞表中的概率分布

2.3 變分信息瓶頸模型

在基礎翻譯模型的訓練中,通過融入不同層次的上下文向量來改善語義表征,但也因此帶來更多的噪聲信息.針對此問題,本文通過在編解碼結構中引入適用于神經網絡的變分信息瓶頸方法來進行解決.需要注意的是,編解碼結構中,編碼端的輸入通過編碼端隱狀態隱式傳遞到解碼端.變分信息瓶頸要求在編碼端輸入與解碼端最終輸出之間的位置引入中間表征,因此為了便于實現,將變分信息瓶頸應用于解碼端獲取最終輸出之前,以納入損失計算的方式進行模型訓練,其直接輸入為解碼端的隱狀態,以此種方式實現對編碼端輸入中噪聲的過濾.具體流程為:在給定的X到Y的轉換任務中,引入Z作為源輸入X的中間表征,構造從的信息瓶頸RIB(θ),利用Z實現對X中信息的篩選和過濾.計算過程為

其中,I(Z,Y;θ)表示Y和Z之間的互信息量.變分信息瓶頸的目標是以互信息作為信息量的度量,通過學習編碼Z的分布,使的信息量最小,強迫模型讓最重要的信息流過信息瓶頸而忽略與任務無關的信息,從而實現噪聲的去除.

其中,P(y|x;θ) 是的翻譯模型,θ為模型的參數集合.訓練過程中,尋求極大化似然概率等價于尋求損失的最小化

本文引入信息瓶頸zf(x,y

同時加入約束,目標為P(z|x;θ) 的分布與標準正態分布Q(z) 的KL 散度(Kullback-Leibler divergence)最小化,在引入變分信息瓶頸之后,訓練過程的損失函數為

其中,λ為超參數,實驗結果表明,λ設置為 10?3時取得最優結果.

圖4 融入變分信息瓶頸后的神經機器翻譯模型Fig.4 NMT model after integrating variational information bottleneck

表1 語料組合結構示例Table 1 Examples of the combined corpus structure

3 實驗設置

3.1 數據集

本文選擇機器翻譯領域的通用數據集作為平行語料來源,表2 顯示了平行語料的構成情況.為觀察本文方法在不同規模數據集上的作用,采用不同規模的數據集進行對比實驗.小規模訓練語料中,英?越、英?中和英?德平行語料均來自IWSLT15數據集,本文選擇tst2012 作為驗證集進行參數優化和模型選擇,選擇tst2013 作為測試集進行測試驗證.大規模訓練來自WMT14 數據集,驗證集和測試集分別采用newstest2012 和newstest2013.

表2 平行語料的構成Table 2 The composition of parallel corpus

表3 顯示了單語語料的構成情況,英?越和英?中翻譯中,英文和中文使用的單語語料來源于GIGAWORD 數據集,越南語方面為互聯網爬取和人工校驗結合處理后得到的1 M 高質量語料.IWSLT和WMT 上的英?德翻譯任務中,使用的單語語料來源于WMT14 數據集的單語部分,具體由Europarl v7、News Commentary 和News Crawl 2011組合而成.本文對語料進行標準化預處理,包括詞切分、過長句對過濾,其中,對英語、德語還進行了去停用詞操作.本文選擇BPE 作為基準系統,源端和目標端詞匯表大小均設置為30 000.

表3 實驗使用的單語語料的構成,其中越南語使用本文構建的單語語料Table 3 The composition of monolingual corpus,in which Vietnamese was collected by ourselves

3.2 參數設置

本文選擇以下模型作為基準系統:

1) RNNSearch 模型:編碼器和解碼器分別采用6 層雙向長短期記憶網絡(Bi-directional long short-term memory,Bi-LSTM)和長短期記憶網絡(Long short-term memory,LSTM)構建.隱層神經元個數設置為1 000,詞嵌入維度設置為620.使用Adam 算法[33]進行模型參數優化,dropout 率設定為0.2,批次大小設定為128.使用集束寬度為4 的集束搜索(Beam search)算法進行解碼.

2) Transformer 模型:編碼器和解碼器分別采用默認的6 層神經網絡,頭數設置為8,隱狀態和詞嵌入維度設置為512.使用Adam 算法進行模型參數優化,dropout 率設定為0.1,批次大小設置為4 096.測試階段使用集束搜索算法進行解碼,集束寬度為4.

利用IWSLT15 數據集進行的小規模平行語料實驗中,本文參考了Sennrich 等[34]關于低資源環境下優化神經機器翻譯效果的設置,包括層正則化和激進dropout.

3.3 評價指標

本文選擇大小寫不敏感的BLEU 值[35]作為評價指標,評價腳本采用大小寫不敏感的multi-bleu.perl.為了從更多角度評價譯文質量,本文另外采用RIBES 進行輔助評測.RIBES (Rank-based intuitive bilingual evaluation score)是另一種評測機器翻譯性能的方法[36],與BLEU 評測不同的是,RIBES 評測方法側重于關注譯文的詞序是否正確.

4 實驗結果分析

本節首先通過機器翻譯評價指標對提出的模型進行量化評價,接著通過可視化的角度對模型效果進行了分析.

4.1 BLEU 值評測

本文提出的方法和基準系統在不同翻譯方向上的BLEU 值如表4 所示,需要注意的是,為了應用變分信息瓶頸、實現對源端噪聲信息進行去除,最終翻譯方向與基礎翻譯模型方向相反(具體原因見第2.3 節中對表1 的描述).表4 中RNNSearch 和Transformer 為分別在基線系統上,利用基礎模型進行單語語料回譯,接著將獲得的組合語料再次進行訓練后得到的BLEU 值.表4 同時展示了消融不同模塊后的BLEU 值變化,其中CA、VIB 分別表示跨層注意力、變分信息瓶頸模塊.

表4 BLEU 值評測結果(%)Table 4 Evaluation results of BLEU (%)

通過實驗結果可以觀察到,本文提出的融入跨層注意力和變分信息瓶頸方法在所有翻譯方向上均取得了性能提升.以在IWSLT15 數據集上的德→英翻譯為例,相較Transformer 基準系統,融入兩種方法后提升了0.69 個BLEU 值.同時根據德英翻譯任務結果可以觀察到,BLEU 值的提升幅度隨著語料規模的上升而減小.出現該結果的一個可能原因是在低資源環境下,跨層注意力的使用能夠挖掘更多的表征信息、使低層表征對高層表征的影響更為直接.而在資源豐富的環境下,平行語料規模提升所引入的信息與跨層注意力所挖掘信息在一定程度上有所重合.另一個可能原因是相對于資源豐富環境,低資源環境產生的偽平行語料占組合語料的比例更大,變分信息瓶頸進行了更多的噪聲去除操作.

上述實驗證明了本文所提方法可以融入不同框架使用,同時適用于資源豐富環境和低資源環境,尤其在平行語料匱乏的低資源環境下,能夠通過充分利用神經網絡各層信息來加大信息量,同時通過去噪改善信息的質量,在某種程度上與增加高質量平行語料具有同類效果.

為了觀察單獨或共同融入跨層注意力和變分信息瓶頸后在不同翻譯方向上BLEU 值的提升效果,本文采用消融方式單獨或組合使用兩種方法并在表4 中報告了實驗結果.以IWSLT15 數據集上的英→越翻譯為例,相對于Transformer 基準系統,單獨使用跨層注意力在測試集上獲得了0.33 個BLEU 值的提升,而單獨使用變分信息瓶頸提高了0.76 個BLEU 值,結合使用兩種方法后則提高了0.97 個BLEU 值.

消融實驗結果表明,本文所提兩種方法既可以獨立地應用于翻譯框架中,也可以結合使用.單獨融入時均能帶來一定的翻譯性能上的提升,而結合使用兩種方法后,則獲得了進一步的提升.因此我們認為,結合使用跨層注意力和變分信息瓶頸能夠在有效加大信息量的同時提升翻譯質量.

此外,將本文所提方法與Zhang 等[38]提出的基于回譯的半監督聯合訓練方法進行了對比實驗.該方法以聯合學習方式,在每步迭代中首先利用回譯得到偽平行語料,將其投入訓練后通過極大似然估計交替優化源到目標和目標到源的翻譯模型,實現了翻譯性能的較大提升.為保持標準一致,實驗語料和訓練參數均沿用該文設置:平行語料為WMT14英德訓練集(4.5 M),單語語料截取自News Crawl 2012 (8 M);選取RNNSearch 為基礎模型,隱層神經元個數設置為1 024,詞嵌入維度設置為256,批次大小設定為128.本文方法中,同時使用了跨層注意力和變分信息瓶頸機制.

通過表5 的實驗結果可以觀察到,相較于對比方法,本文所提方法在英?德和德?英方向上取得了1.13 和0.67 個BLEU 值的提升.

表5 與其他半監督方法的比較(en-de)Table 5 Comparison between our work and different semi-supervised NMT approach (en-de)

4.2 RIBES 值評測

本文利用RIBES 方法對IWSLT 數據集中2個語言對評測結果如表6 所示,其中基準模型為實現層內注意力機制的Transformer 模型.從表中可以觀察到,相較基準系統,融入跨層注意力機制后在所有翻譯任務上均取得了RIBES 值的提升,其中英→越翻譯任務上,提升了最高的0.69 個RIBES值,在此基礎上使用變分信息瓶頸模型,則獲得了1.45 個RIBES 值的提升.因此實驗結果表明,相較基準系統,融入跨層注意力機制可完善譯文的句子結構信息,起到了詞序優化的作用.在此基礎上結合使用變分信息瓶頸方法,生成的譯文則具有更佳的詞序.

表6 RIBES 值評測結果(%)Table 6 Evaluation results of RIBES (%)

4.3 句子結構缺失問題

為了更直觀地驗證融入跨層注意力機制是否更能促進高層網絡的句法結構信息完善,同時驗證融入變分信息瓶頸是否具有噪聲信息去除的作用,本文在中?英翻譯結果中隨機選取了300 句譯文,并對譯文質量進行分析.

表7 展示了一個翻譯實例(TA、CA、CA+VIB分別表示傳統注意力、跨層注意力、跨層注意力加變分信息瓶頸方法):給定中文源句“火車被發現已經開走了”,作為基準系統的傳統注意力模型產生的譯文為“Found that the train had gone”,句中缺少形式主語造成句子結構并不完整.而融入跨層注意力機制后的譯文為“It was found that the the train had left away”,缺失的形式主語被補全,句子結構得到了完善.通過對全部300 句譯文進行分析發現,融入跨層注意力機制后產生的譯文,其結構完整性普遍增強.因此,實驗證明,使用跨層注意力機制,在學習到低層網絡所產生的詞法和淺層句法特征同時,對學習高層網絡所產生的句法結構特征也具有促進作用,有助于提升句子結構的完整性.

表7 中?英翻譯實例Table 7 Chinese-English translation examples

4.4 過度翻譯問題

神經機器翻譯中,源端語料中的噪聲信息會導致過度翻譯問題.在本文討論的低資源場景下,利用回譯構建偽平行語料實現語料擴充,但由于在過程中缺乏足夠的監督信號,導致語料規模擴充的同時產生了噪聲信息,進而引發過度翻譯問題.通過第4.3 節的實驗發現,融入跨層注意力機制可以緩解句子結構缺失問題,但未能消除句子中存在的噪聲信息.通過表7 中的示例可以觀察到:利用傳統方法得到的譯文中,“the”被重復翻譯了一次,而在使用跨層注意力后,重復的“the”并沒有被消除;同時雖然“gone”被翻譯為更合理的“left”,但也產生了多余的譯文“away”.因此,跨層注意力機制雖然能夠通過使用更多的特征信息來提升句子的完整性,但并未解決的噪聲信息問題.針對該問題,本文在融入跨層注意力機制后應用變分信息瓶頸模型,并對結果進行可視化處理.如圖5 所示,可以觀察到圖5(a)中冗余的“the”和“away”在圖5(b)中被去除.除此以外,在圖5(a)中,由于噪聲信息“the”和“away”的出現,使得“train”和“left”等譯文的關注度相對分散;而通過圖5(b)可以觀察到,在消除了噪聲信息后,譯文的關注更加集中.

圖5 翻譯效果可視化Fig.5 Example of translation effects

4.5 譯文長度

本文將測試集中的源語言句子按長度分為8組,然后評測翻譯產生的相應譯文的長度.英?越翻譯任務的譯文長度評測結果如圖6 所示,從圖6(a)中觀察到,英→越翻譯方向上,只使用跨層注意力機制(CA)后,基礎翻譯模型所產生的譯文長度優于作為基準系統的傳統模型(TA).而在此基礎上應用變分信息瓶頸后(CA+VIB),在區間[10,60]內的譯文長度高于基準系統,在其余長度區間內低于基準系統.實驗表明,跨層注意力機制通過引入多層特征,能有效地提升譯文句長.而在應用變分信息瓶頸模型進行噪聲信息過濾后,譯文長度下降,但在譯文的常規分布區間[10,60]內仍優于基準系統.

圖6 英?越翻譯任務的譯文長度評測Fig.6 Translation length evaluation of English-Vietnamese translation task

4.6 參數對模型的影響

變分信息瓶頸中的超參數λ對損失的求解產生直接的影響,因此本文在表4 所示的不同的翻譯方向展開實驗,分析了λ取不同值時的翻譯效果,圖7展示了在英→越翻譯上λ對BLEU 值的影響.綜合考慮所有翻譯任務,λ取0.001 時的翻譯質量最好.

圖7 λ 參數對模型的影響Fig.7 Influence of λ parameter on the model

5 結束語

傳統的回譯模型側重于關注產生的偽平行語料規模,在生成基礎翻譯模型時,缺乏對神經網絡跨層次信息的重視.在使用深層神經網絡進行初步模型訓練時,僅局限于利用最高層或各層內部的語義信息作為上下文表征,忽略了低層網絡對高層網絡表征的直接促進作用,因此對句法結構等信息表征不足,造成偽平行語料生成過程中的信息缺失.針對此問題,本文首先通過引入跨層注意力機制加強對各層網絡信息的利用,隨后基于此基礎訓練模型進行語料擴充,使語料在規模上能夠滿足變分方法的應用需求.然而,跨層注意力機制在加強特征信息利用、改善基礎翻譯模型的同時,會進一步引入噪聲信息,針對此問題,本文通過引入變分信息瓶頸來進行噪聲的消除.在多個翻譯數據集上的實驗結果表明,相較基準系統,本文提出的方法在有效提高譯文質量的同時保持了譯文句長,并在一定程度上解決了傳統神經機器翻譯中出現的過度翻譯問題.

猜你喜歡
機制信息方法
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲精品第一页不卡| 免费看a毛片| 国产99久久亚洲综合精品西瓜tv| 亚洲精品不卡午夜精品| 无码福利日韩神码福利片| 欧美另类第一页| 亚洲一道AV无码午夜福利| 在线a网站| 欧美a级在线| 97综合久久| 久久婷婷国产综合尤物精品| 不卡视频国产| 九九精品在线观看| 在线免费不卡视频| 国产视频自拍一区| 久久综合一个色综合网| 国产91视频观看| 亚洲区第一页| 99视频精品在线观看| 国产日产欧美精品| 国产黑丝视频在线观看| 色老头综合网| 久无码久无码av无码| 国产尤物在线播放| 中文字幕乱码中文乱码51精品| 精品第一国产综合精品Aⅴ| 亚洲国产成人麻豆精品| 国产精品极品美女自在线看免费一区二区| 无码又爽又刺激的高潮视频| 自偷自拍三级全三级视频| 天堂成人在线| 成年人视频一区二区| 亚洲欧美日本国产综合在线| 狠狠v日韩v欧美v| 色综合成人| 午夜日本永久乱码免费播放片| 久久精品娱乐亚洲领先| 在线观看欧美国产| 18禁影院亚洲专区| 青草娱乐极品免费视频| 18禁影院亚洲专区| 99一级毛片| 成年午夜精品久久精品| 亚洲一区二区在线无码| 成人国产精品一级毛片天堂| 久久久久国产一区二区| 伊人五月丁香综合AⅤ| 亚洲人成网址| 色综合网址| 韩日免费小视频| 国产69囗曝护士吞精在线视频| a免费毛片在线播放| 午夜日b视频| 97国产精品视频人人做人人爱| 亚洲综合久久成人AV| 欧美人人干| av无码久久精品| 婷婷亚洲综合五月天在线| 人人91人人澡人人妻人人爽| 国产欧美日本在线观看| 亚洲小视频网站| 麻豆精品视频在线原创| 91亚洲国产视频| 99热精品久久| 无码高潮喷水在线观看| 亚洲色图欧美激情| 久久久精品国产亚洲AV日韩| 激情六月丁香婷婷四房播| 亚洲中文字幕在线一区播放| 国产9191精品免费观看| 久久精品aⅴ无码中文字幕| 久久中文无码精品| 欧美日韩v| 99久久国产综合精品2023| 国产激情影院| 国产欧美视频一区二区三区| 99久久国产综合精品2023| 亚洲精品少妇熟女| 久久成人免费| 少妇极品熟妇人妻专区视频| 青青青国产视频手机| 久久国产高清视频|