999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領域自適應方法的統計機器翻譯模型的優化研究

2021-03-17 07:41:28楊玲
科學技術創新 2021年5期
關鍵詞:分類方法模型

楊玲

(武警工程大學,陜西 西安710086)

1 概述

把一種語言轉變成另一種我們想要的語言這一過程稱為機器翻譯[1]。其中比較常用的方法有基于記憶的翻譯方法、基于實例的翻譯方法、基于統計的翻譯方法、基于神經網絡的翻譯方法。目前,基于統計的機器翻譯模型被稱為這一領域的主流方法,是由Brown[1]等人提出,該模型可分為翻譯模塊、語言模型訓練模塊、解碼模塊。在進行翻譯模型訓練時需要進行詞對齊,由于統計機器翻譯模型在訓練詞對齊模型時未對訓練集進行分類訓練,會影響系統的翻譯性能。因此,本文提出運用最大熵分類器及領域自適應方法對統計機器翻譯模型進行優化,旨在進一步改善模型的翻譯性能。

2 統計機器翻譯模型的優化策略

傳統統計機器翻譯方法的系統原理是,用已對齊好的大規模平行語料訓練詞對齊模型,然后基于此詞對齊模型建立翻譯模型和語言模型并訓練模型參數。但是訓練模型的平行語料來自不同領域,有些詞在不同領域意思也不用,這會影響模型參數的準確度,基于此建立起的翻譯模型和語言模型精確度也會下降,由此得到的譯文不夠準確。為解決這一問題,我們運用領域自適應方法提高統計機器翻譯模型的翻譯精度,即首先應用最大熵分類器的方法對平行語料進行篩選,這一步保證了訓練詞對齊模型的語料符合標準,從而確保了模型參數的精確度。接下來可以運用LDA 模型對雙語平行語料進行主題提取,并得到每個主題對應的語料。然后對每個主題訓練其相應的詞對齊模型,再訓練每個主題的翻譯模型和語言模型。

語料可以劃分為完全平行句、部分平行句對和完全不平行句對。通過觀察可以發現,高質量平行句一般會呈現很多共性:源語言和目標語言互譯準確、源語言和目標語言都比較流暢,基于此特征可以提出使用句對特征評價平行句對質量,利用分類器進行自動判別句對質量好壞的方法。該過程可分為兩部分,第一部分是挑選用于訓練分類器的正負例句對,首先確定句對特征,依據句對在各個特征上的得分對句對進行排序。綜合各個排序的結果,構造區分性較大的訓練句對集合。將那些在各個特征中表現均不好的句對作為負例句對。余下的句對為待分類句對,需要訓練分類器自動分類。第二部分利用前一部分構造得到的正負例句對集合訓練一個最大熵分類器,通過學習正負例句對的特征,分類器可以自動地對句對進行質量判定。然后使用該分類器對第一部分的待分類句對進行自動分類。在分類器的選擇上,本文采用最大熵模型作為分類器進行分類任務。

圖1 基于分類的平行語料選擇方法流程圖

2.1 基于最大熵分類器的平行語料篩選

統計機器翻譯模型需要用到大規模的雙語平行語料進行訓練,因此語料的質量會影響模型的翻譯性能。所以需要對訓練語料進行篩選,淘汰影響系統翻譯質量的語料,保留質量較好的語料進行訓練,這樣可以從源頭上確保系統翻譯質量。本節利用最大熵模型分類器[2]對待訓練語料進行分類,語料可以分為完全平行句對、部分平行句對、和不平行句對,因此我們的任務是可以從這些大規模的平行語料中找到完全平行句對,用這些來訓練模型。首先,我們需要選擇訓練分類器的正負例句,依據每個句對在句對特征的得分來區分正負例句,將得分高的作為正例句,得分低的作為負例句,通過對正負例句的學習,分類器可以對句對進行質量評定,從而使用訓練好的分類器對語料進行篩選。

篩選流程:篩選語料有以下五個關鍵的環節:

(1)句對特征打分。在訓練語料中的句對進行特征得分計算;

(2)句對排序。在上一環節的基礎上,依據每個句對的得分情況進行排序,在此,每一個特征對應都有一個排序結果。

(3)分離器訓練。

(4)分類器自動分類。使用分類器對待分類句對進行分類,然后將分類結果和訓練分類器句對進行融合,得到最終的分類結果。

2.2 主題模型

為了提高系統的翻譯性能,本文利用LDA 模型[3]挖掘雙語語料中的領域信息,從而應用到該領域翻譯模型的搭建中,以提高參數精確度。LDA 模型是一個三層貝葉斯模型[4]。

LDA 模型:

David Blei[3]在2003 年提出隱含狄利克雷分配,這是一種用于離散數據集合的建模方法,它可以自動地完成挖掘大規模語料庫中所蘊含的主題信息。LDA 模型首先基于一篇文檔,這個文檔要求由許多主題組成,LDA 模型將這個文檔看作是這些主題的不同比例的混合,每個主題是指詞表中的一個多項式分布。

圖2 LDA 概率模型

2.3 領域自適應方法下詞對齊模型原理解析

由于訓練翻譯模型的語料種類較多,對于這種異源的數據進行詞對齊模型訓練,再搭建翻譯模型,這會導致翻譯的準確率下降。比如古漢語短文中有關于醫學的文章,也有關于軍事戰爭的文章,如果我們不對這些異源的數據進行領域區分,這樣就會大大降低我們翻譯準確率,因此在訓練詞對齊模型時,首先要考慮領域這一特性[4]。但是,不同的領域雖有本領域特有的詞語,但是也會有領域之外的詞匯,這一點可以看出領域之間既有共同點也會有不同點,但是我們不能簡單的將不同領域劃分為互無交集的幾個部分分別去訓練詞對齊模型,這會造成信息丟失,準確率下降。因此,為了使得詞對齊準確率提高,將在統計詞對齊模型中引入領域的信息。即對于訓練語料的每個句子首先通過LAD 模型得到其所屬領域的概率,接下來結合領域內與領域外的詞來進行詞對齊。即通過加權技術來實現領域內模型與領域外模型相互結合來提高領域內的詞對齊準確率[5]。

領域自適應詞對齊的訓練過程指:假設雙語平行語料庫由s 個句對組成,首先用LAD 模型對語料庫領域信息進行提取,則假設某一句對(f,e)屬于某一領域的概率為pk[6],則接下來為每一領域訓練相應的詞對齊模型,訓練過程用EM算法進行參數估計:在E 步,兩個詞共同出現在頻率:

通過不斷迭代直到收斂,從而得到最終翻譯概率。這個模型中,當一個句對屬于某個領域的概率越大,則詞對齊結果就會屬于當前領域,最終在此基礎上相應的翻譯模型,則該模型能夠呈現出所屬領域準確率最高的結果。

3 結論

本文主要介紹了統計機器翻譯模型的改進方法,首先運用最大熵分類器的方法,對訓練統計機器翻譯模型的語料進行篩選,提升了語料的準確性。接下來對篩選的語料運用LDA 主題模型確定了語料的主題,在統計機器翻譯模型詞對齊的過程中對每個進行詞對齊過程的句子結合其對應的主題概率,從而使行詞對齊的結果更精確,進而提升了統計機器翻譯模型中翻譯模型與語言模型的精度,使得統計機器翻譯模型性能有了一定程度的提高。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 五月综合色婷婷| 国产91视频观看| 人妻91无码色偷偷色噜噜噜| 精品福利一区二区免费视频| 国产一区亚洲一区| 婷婷亚洲视频| 天堂网亚洲综合在线| 国产一级无码不卡视频| 天堂网国产| 亚洲热线99精品视频| 亚洲成人免费看| 99青青青精品视频在线| 中文字幕1区2区| 99在线国产| 国产香蕉国产精品偷在线观看| 国产区在线观看视频| 一本大道无码高清| 五月婷婷丁香综合| 亚洲男人在线天堂| 亚洲国产欧洲精品路线久久| 综合天天色| 毛片在线播放网址| 日韩久久精品无码aV| 国产综合精品日本亚洲777| 国产亚洲视频中文字幕视频 | 成人小视频网| 日韩欧美综合在线制服| 婷婷午夜天| 91小视频在线观看免费版高清| 99免费在线观看视频| 国产综合亚洲欧洲区精品无码| 亚洲中文字幕23页在线| 欧美激情福利| 亚洲成在人线av品善网好看| 国产精品熟女亚洲AV麻豆| 亚洲另类色| 精品人妻AV区| 亚洲中文字幕无码爆乳| 国产自在线播放| 蜜臀AVWWW国产天堂| 成人午夜精品一级毛片| 99久久精彩视频| 一区二区午夜| 亚洲欧美成人在线视频| 国产成人av一区二区三区| 日韩成人高清无码| 免费人成网站在线观看欧美| 在线国产综合一区二区三区| 亚洲精品777| 另类欧美日韩| 老司机精品99在线播放| 久久综合亚洲色一区二区三区| 国产呦视频免费视频在线观看| 91九色国产porny| 亚洲人成亚洲精品| 亚洲小视频网站| 亚洲精品欧美日本中文字幕| 国产高潮流白浆视频| 她的性爱视频| 亚洲va在线∨a天堂va欧美va| 亚洲精品视频网| 午夜国产不卡在线观看视频| 91破解版在线亚洲| 久夜色精品国产噜噜| 国产无码网站在线观看| 欧美激情成人网| 欧美久久网| 色天堂无毒不卡| 日韩国产高清无码| 色综合激情网| 亚洲区一区| 一级香蕉视频在线观看| 在线视频亚洲欧美| 国产激爽大片高清在线观看| 91热爆在线| 欧美人在线一区二区三区| 欧美色视频网站| 国产精品9| 亚洲午夜天堂| 99精品视频在线观看免费播放| 在线视频97| 亚洲精品视频在线观看视频|