999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合翻譯知識的機器翻譯質量估計算法研究

2021-01-12 00:33:21
數字通信世界 2021年4期
關鍵詞:單詞質量模型

(太原理工大學國際合作處,山西 太原 030024)

0 引言

在經濟全球化的大背景下,大量的國際交流合作帶來了機器翻譯的極大需求,這對于機器翻譯的質量也就有了更高的要求。顯然,如何提升機器翻譯的質量是一項重要的研究內容,這就需要對機器翻譯質量進行客觀合理的評價。而目前的機器翻譯評價指標存在著對譯文評分效果較差的情況,因此,有必要對機器翻譯質量估計算法進一步研究,以進行優化改進。

1 機器翻譯的基礎算法與模型構建

1.1 基本模型簡述

在以往的機器翻譯質量估計的研究中,研究重點主要是對語法相關特征進行提取,以及對語義問題的研究,較為常用的方法是,忽略句子中單詞的順序,將句子轉換為單詞的集合,使用各個單詞的向量平均值對該語句進行編碼,再對編碼后所得到的向量進行拼接,則得到輸入特征。這種方法由于忽略了語句中的單詞順序,因此幾乎無法提取到語句中深層次的含義[1]。由此,循環神經網絡編碼的方式應運而生,目前,較為常用的是GRU 編碼器和解碼器,以實現對語句序列的研究,同時,考慮到機器翻譯領域往往需要較大的常見語言對數據集,因此,通常還需要引入神經網絡機器翻譯模型,來對數據集中的平行語料加以有效利用。整體來看,算法的基本模型分為神經網絡機器翻譯模型和譯文質量估計模型,在輸入特征向量的基礎上,實現最終的質量輸出。

1.2 語料庫的構建和識別

構建語料庫的作用是,識別兩種語言下的短語詞性,并為這些短語賦予基礎功能,以提升自動識別的精確度和速度。在具體的語料庫構建中,通常涵蓋了30萬個中文單詞和28萬個英文單詞,這些單詞能夠構造出大量的語句和短語,基本涵蓋了日常交際、商務、科研等各方面的正常溝通和翻譯。

在語料庫的識別方面,通過詞性標記后,語句就會被劃分為若干個單詞,單詞組成短語后,通過詞性識別,就形成了句法樹,短語中各單詞之間的關系也就得到確定,以確保翻譯的效率和質量得到提高。目前,GLR 算法是詞性識別中較為常用的算法,其主要是根據動態識別表單和無條件轉移語句,實現對短語上下文的似然性的分辨,在GLR 算法中,如發現語法歧義,則會通過句法的幾何結構線性表進行解析,以進行符號識別。以往的GLR 算法在符號識別過程中精確度相對較低,為此,研究人員通過以短語中心點構造短語結構的方式,改進了GLR 算法,使得該算法的識別精度顯著提高[2]。

1.3 自動識別算法的校正

在翻譯自動識別算法中,由于漢語和外語之間存在較多的結構歧義,因此詞性識別的校正是一個必要的步驟。通常,通過解析線性表的方式進行短語動作和句法功能的識別,對于句法功能的識別則相對較為完善,能夠通過推進、歸納、接受、終止和出錯等指針,對翻譯錯誤進行識別,再利用語料庫中的標記內容對錯誤進行更正[3]。具體來看,歸納和推進指針的作用相類似,都是對終止符位置的重新替換,但歸納指針能夠重新制定句法功能識別。終止指針則會在可能產生結構歧義的節點產生,當終止指針出現后,算法會自動進行分析,確認中心點符號是否位于正確語句結構中,如發現異常則會直接調取出錯指針進行校正。

2 融合翻譯知識的機器翻譯算法訓練

2.1 所使用的模型

訓練中所采用的模型由兩部分組成,第一部分是兩個翻譯方向相反的神經網絡機器翻譯模型,第二部分則是QE 模型,其中,第一部分的主要作用是,實現源語言和目標語言之間的相互翻譯,為兩個結構完全相同的NMT 模型,兩個模型之間的向量參數也基本相同。編碼器則為GRU 編碼器,初始狀態為零向量,在計算過程中,先將單詞映射為對應的向量,然后進行輸入和計算,計算完成后輸出結果,并使用解碼器進行解碼,解碼器仍為GRU 解碼器[4]。

2.2 訓練過程

該算法的主要訓練過程如下:

(1)對所使用的模型中的所有參數,包括詞向量參數,全部隨機初始化。

(2)對兩個NMT 模型進行交替訓練。具體的交替訓練過程如下:首先,對第一個NMT 模型進行若干個迭代訓練,并將batch 壓入隊列當中,當迭代的batch 達到一定數量后,對第二個NMT 模型進行訓練,依次彈出第一個NMT 模型中所壓入的batch,以用于第二個NMT 模型的迭代訓練,輸出的loss 則為兩個NMT 模型的loss 值的平均數。除了交替訓練的方式外,也可使用聯合訓練的方式,即采用同一個batch對兩個NMT模型進行同時訓練,相對而言,聯合訓練的方式在保證效果的前提下,訓練方式更為簡單快捷,因此應用也相對較多。

(3)NMT 模型訓練完成后,在QE 訓練集上訓練,以得到最終模型。

3 譯文質量的估計模型及評價

相關研究表明,要提升譯文質量,其關鍵在于對其源語言和目標語言的語句,但受到QE 模型數據集規模的限制,無法直接通過QE 數據集進行源語言和目標語言之間的復雜對齊關系,因此,通常需要采用額外的數據包或工具加以進行。目前,較為常見的對齊方式是SMT 中的硬對齊方式,并采用特殊結構,對NMT 模型中的對齊模型進行改進。

該對齊模型主要分為用于最終預測的Word-level QE模型和提供對齊信息的NMT 模型,其中,預測模型主要用于輸入源語句和對應的機器翻譯譯文信息等,所輸入的目標語句向量則由目標端單詞詞向量、目標端單詞左邊和右邊單詞的詞向量以及目標端三個單詞所對應的POS 向量等。同時,該模型還存在著隱層,隱層又可分為若干個子層,分為以下幾個結構:兩個前向全連接層;雙向的GRU;一個BiGRU。

在模型的輸入階段,需要目標端每個單詞與源語言語句中的單詞均對齊,因此,需要使用特殊的NMT 模型提供對齊信息,該NMT 模型的原理是,對目標端語句的單詞提供所對應的注意力信息,來提高對齊的概率。在NMT 模型的編碼器部分,主要采用雙向循環神經網絡提供目標端單詞的上下文信息,解碼器部分同樣采用雙向循環神經網絡,以獲得更為準確的對齊信息。

具體的測評工作主要針對算法的短語識別精度、識別速度和更新能力三個方面進行。測評工作小組則由機器翻譯、翻譯人員和打分人員組成,并使用封閉測評和開發測評兩種工作方式。在評分過程中,識別速度和更新能力需要采用加權平均值法進行賦分。根據相關的測評結果,可以發現,不同算法模型的翻譯質量取決于Word-level QE 模型的效果,由此可見,采用Word-level QE 模型進行機器翻譯任務是行之有效的。與此同時,實驗中也發現,Word-level QE 模型無論是否進行了改進,其效果都同以往的直接編碼方式相比有了顯著提升。

4 結束語

在機器翻譯不斷發展的情況下,研究人員對于機器翻譯質量的估計算法也有了更為深入的研究,在以往的基礎上,將評價指標側重于句子級別的機器翻譯,提高了估計算法的評測準確度。當然,在目前的研究和實驗中,融合翻譯知識的特征仍然存在著一定的局限性,因此,在今后的研究中,應當進一步結合其他的有效特征,以不斷提高機器翻譯質量估計的準確性。

猜你喜歡
單詞質量模型
一半模型
“質量”知識鞏固
質量守恒定律考什么
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
單詞連一連
做夢導致睡眠質量差嗎
看圖填單詞
3D打印中的模型分割與打包
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
主站蜘蛛池模板: 99精品免费在线| 国产高清在线观看| 国产最爽的乱婬视频国语对白| 幺女国产一级毛片| 国产欧美专区在线观看| 国产99精品久久| 在线观看国产一区二区三区99| 国产精品天干天干在线观看| 国产人碰人摸人爱免费视频 | 99精品福利视频| 18禁影院亚洲专区| 熟女视频91| 国产91麻豆免费观看| 高清不卡毛片| 香蕉久人久人青草青草| 99热国产在线精品99| 日韩在线永久免费播放| 久久精品中文字幕少妇| 91久久国产综合精品| 国产va免费精品| 亚洲中文字幕手机在线第一页| 久久大香香蕉国产免费网站| 黄色免费在线网址| 成人精品亚洲| 亚洲性影院| 欧美在线中文字幕| A级毛片无码久久精品免费| 亚洲swag精品自拍一区| 爽爽影院十八禁在线观看| 国产极品美女在线播放| 亚洲av成人无码网站在线观看| 亚洲天堂精品视频| 亚洲第一福利视频导航| 免费观看三级毛片| 一级做a爰片久久免费| 欧美日在线观看| 激情综合婷婷丁香五月尤物| av一区二区无码在线| 成人一区专区在线观看| 久久久久夜色精品波多野结衣| AV网站中文| 国产免费福利网站| 69av免费视频| 日本欧美在线观看| 亚洲AⅤ波多系列中文字幕| 一边摸一边做爽的视频17国产| 久久久久久久蜜桃| 99国产在线视频| 亚洲Av综合日韩精品久久久| 一级成人a毛片免费播放| 欧美天堂在线| 成人第一页| 国产91麻豆免费观看| 麻豆精品在线播放| 欧美中文字幕在线播放| 亚洲永久色| 欧美日韩一区二区在线播放| 久久久亚洲色| 久久五月天综合| 狼友av永久网站免费观看| 国产不卡国语在线| 国产 在线视频无码| 亚洲女人在线| 国产三级国产精品国产普男人| 婷婷亚洲最大| 狠狠亚洲五月天| 激情综合激情| 免费一级大毛片a一观看不卡| 喷潮白浆直流在线播放| 午夜福利无码一区二区| 亚洲国产成人麻豆精品| 久久午夜夜伦鲁鲁片不卡| 国产视频a| 国产白浆视频| 中文字幕一区二区人妻电影| 成人综合久久综合| 一区二区在线视频免费观看| 国产美女91视频| 亚洲高清在线天堂精品| 凹凸精品免费精品视频| 香蕉蕉亚亚洲aav综合| 国产欧美中文字幕|