999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統計機器翻譯領域自適應綜述

2014-04-29 00:44:03崔磊周明
智能計算機與應用 2014年6期
關鍵詞:語言方法模型

崔磊 周明

摘 要:統計機器翻譯的準確性在很大程度上取決于翻譯建模的質量,而翻譯建模往往依賴于數據的分布。通常上,大多數機器學習任務會假設訓練數據和測試數據是獨立同分布的,然而在實際的系統中,這種假設未必成立。因此,為了達到性能的最優,需要根據數據分布的情況對模型進行適當的遷移。近年來,領域自適應技術成為統計機器翻譯研究中的一個熱點話題,目的在于解決訓練數據和測試數據的領域分布不一致問題。本文介紹了幾類流行的統計機器翻譯領域自適應方法,并對未來的研究提出一些展望。

關鍵詞:統計機器翻譯;領域自適應

中圖分類號:TP391.41 文獻標識號:A 文章編號:2095-2163(2014)06-

Abstract: Statistical Machine Translation (SMT) depends largely on the performance of translation modeling, which further relies on data distribution. Usually, many machine learning tasks assume that the data distributions of training and testing domains are similar. However, this assumption does not hold for real world SMT systems. Therefore, we need to adapt the models according to the data distribution in order to optimize the performance. Recently, domain adaptation is an active topic in SMT and aims to alleviate the domain mismatch between training and testing data. In this paper, we introduce several popular methods in domain adaptation for statistical machine translation and discuss some future work in this area.

Keywords: Statistical Machine Translation; Domain Adaptation

0 引 言

機器翻譯又稱為自動翻譯,是利用計算機程序將文字從一種自然語言(源語言)翻譯成另一種自然語言(目標語言)的處理過程。這是自然語言處理的一個分支,與計算語言學、自然語言理解之間存在著密不可分的關系。

機器翻譯的方法主要可以分為基于規則的機器翻譯方法、基于實例的機器翻譯方法和基于統計的機器翻譯方法。目前,統計機器翻譯是非限定領域機器翻譯中性能較佳的一種方法。統計機器翻譯的基本思想是通過對大量的雙語對照語料進行統計分析,構建統計翻譯模型,進而使用此模型完成翻譯。隨著互聯網技術的迅猛發展,人們獲取信息的方式也發生了很大變化。互聯網上有大量的信息以不同的語言為載體,這為統計機器翻譯的研究提供了充足的數據支持。與此同時,隨著統計機器翻譯研究的深入,其性能及實用性也獲得了較大提升,因而機器翻譯技術的受眾正日漸增多,其應用亦越來越廣泛。通常來講,一個成型的統計機器翻譯系統使用了大規模的雙語對照語料做訓練,而且這些數據卻常常來自于不同領域,具體則包括了政治、財經、軍事、科技、體育、教育和娛樂等各大門類在內。除此之外,不同領域的語料涵蓋了不同的文體,相應地包括著書面文體、口語文體和網絡語言等。這種領域和文體的差異性給統計機器翻譯的研究將會帶來兩個問題:其一,使用某一個領域或文體的雙語語料訓練得到的機器翻譯系統在翻譯同一領域的文本時效果最佳,而當翻譯其他領域的文本時結果則常常不盡如人意,有時的翻譯結果甚至不可接受,本文即將這種問題稱為“領域間的自適應問題”。其二,使用多領域混合的雙語語料訓練得到的機器翻譯系統的通用性雖然較好,但由于多個領域數據的相互影響以及相互制約,系統在某一特定領域往往無法達到最佳效果,在此則將這種問題稱為“領域內的自適應問題”。在統計機器學習領域,已經研發了一些針對領域自適應問題的剞劂方法,但是其中的大部分僅能用于解決簡單學習問題(如分類或回歸)的計算實現,而對于統計機器翻譯這種結構化學習問題,目前的嘗試方法還較為有限,也隨即成為亟待研究的熱點問題之一。

1 統計機器翻譯背景

2.1基于數據選擇的方法

基于數據選擇方法的根本思想在于,選擇和目標領域文本“相似”的源領域數據進行模型的訓練,但相似度函數需要自行定義,如此即可使訓練得到的模型在目標領域的預測能力更好。

Eck等人于2004年提出了基于信息檢索的語言模型自適應[3],并將這種方法用于統計機器翻譯。實現過程是:通過簡單TF-IDF方法,可以使用測試數據的翻譯結果重新選擇語言模型的訓練數據,在此基礎上,又通過訓練新的語言模型第二次進行翻譯解碼。Zhao等人于2004相應地也提出了類似的方法[4],具體是將新訓練的語言模型和舊的語言模型進行插值,并以其用于第二次翻譯解碼。

進一步地,Lü等人則于2007年介紹了離線和在線的方法進行數據選擇[5],而且也用于統計機器翻譯的模型訓練。具體地,離線的方法是將訓練數據中的每一個雙語句對賦以權重,用其表示和測試數據的相似度,同時在訓練翻譯模型的時候還要考慮不同句對的權重信息。此外,在線的方法就是通過訓練一系列提前已經定義的子模型,當對測試數據進行翻譯時,即可通過信息檢索的方法確定不同子模型的權重,就對不同的子模型進行對數線性插值。

其后,Matsoukas等人又于2009年提出了一種基于判別式模型對訓練數據賦權重的方法[6]。這種方法利用一些領域相關的特征對訓練數據進行判別式學習以及賦相應權重,并在訓練翻譯模型時,將利用每個雙語句對的權重進行翻譯概率的最大似然估計。

近年來較為典型的研究成果當首推Moore和Lewis于2010年的提出基于交叉熵的語言模型數據選擇方法[7],該法能夠使用更少的數據訓練得到更好的語言模型。而基于Moore等人的方法,Axelrod等人更于2011年提出了基于交叉熵的雙語數據選擇方法[8],并利用選擇出的數據訓練所有的模型分量(包括語言模型、翻譯模型、調序模型等),實驗表明這種方法優于Moore等人的方法,而且更重要的是顯著提高了口語機器翻譯的性能。

2.2基于混合模型的方法

混合模型是統計機器學習理論中的傳統實現技術之一[9],利用混合模型進行統計機器翻譯的學習主要包括:(1)將訓練數據分為幾個不同的部分;(2)利于每一部分數據訓練一個子模型;(3)根據測試數據的上下文信息適當地為每個子模型調整權重。

已有研究工作中,Foster和Kuhn于2007年提出了基于混合模型的統計機器翻譯領域自適應的方法[10],通過對語言模型和翻譯模型同時進行了自適應的研究,并相應給出了混合模型的線性插值以及對數線性插值的區別。之后,Foster等人又于2010年利用混合模型提出一種新的針對翻譯模型的領域自適應方法[11],這種方法使用細粒度的特征判別式地學習短語表中的短語和目標領域文本的相似度,自適應模型的訓練過程更為簡單,翻譯性能亦取得了重大提升。

在本質上來說,Lü等人于2007年介紹的在線數據選擇方法也是一種混合模型,通過對不同短語表中的短語概率進行插值以選擇最適合測試數據的具體模型。Banerjee等人則于2011年使用基于混合模型的自適應方法進行在線論壇內容的翻譯[12],而且發現語言模型的自適應帶來的性能提高將大于翻譯模型的自適應,同時,線性插值的效果更是要優于對數線性插值的效果。繼而,Koehn等人又分別將領域內和領域外的語言模型和翻譯模型加入對數線性模型中[13],并利用最小錯誤率訓練的方法進行參數調整,實驗表明,這種方法在多種語言對的翻譯中都實現了性能的高度提升。

其他的成果還有,Finch和Sumita于2008年將混合模型引入進基于類別解碼的統計機器翻譯系統[14]中,此時這種解碼方法可針對不同類型的句子(如疑問句和陳述句)采取不同的解碼方式,混合模型用于其中則可整合兩種解碼模型。實驗結果表明在一些數據集中混合模型的運用贏得了顯著的性能提升。

此外,Sennrich又于2012年提出一種使用最小化混亂度對混合模型進行參數調整的方法[15]。該方法通過構建訓練數據(源領域)短語的經驗聯合分布與測試數據(目標領域)短語的條件分布交叉熵,進而利用最大熵原理(即最小化混亂度)對短語翻譯的混合模型實現了參數訓練。

除了對翻譯模型和語言模型進行的自適應設計,混合模型也可用于詞對齊模型的領域自適應研究。具體地,Civera和Juan即于2007年嘗試了基于隱馬爾科夫模型詞對齊方法的混合模型擴展方法[16],該方法反映出某些情況下依據詞對齊進行領域自適應的必要性。

2.3自學習為代表的半監督學習方法

近年來,半監督學習方法在統計機器學習領域受到了廣泛關注,已有許多的經典算法在統計機器翻譯問題中獲得了普及應用,其中最為直觀的研究思路就是自學習方法,也可稱為自訓練方法。其基本思想是,通過源領域的雙語訓練數據得到一個基準翻譯系統,以此而對目標領域的單語數據進行翻譯,再從翻譯候選集合中選擇高質量的譯文并和源語言句子組合成為雙語句對,而且將其加入到訓練數據中重新訓練翻譯系統,該過程將一直迭代到翻譯性能穩定為止。

Ueffing即于2006年首度將自訓練的思想[17]引入統計機器翻譯的研究。接下來,Ueffing等人又利用直推式半監督學習的思想對統計機器翻譯問題進行了深入的研究[18,19],并對比了不同的實現細節對于半監督學習在統計機器翻譯問題中的具體影響。實驗表明,基于半監督學習的統計機器翻譯能夠很好地實現領域自適應,而且顯著地提高目標領域翻譯的準確性。在Ueffing等人引入統計機器翻譯的自訓練方法之后,與其類似的很多想法也逐漸由研究人員接受并采納。Wu等人于2008年使用目標領域的單語數據和領域詞典進行統計機器翻譯的半監督學習[20],其中領域詞典的作用則可由文獻[21]進一步印證。近年來,還有很多工作[22-24]是基于自訓練的半監督學習方法,只是由于篇幅原因,此處將不一一贅述。

2.4基于話題模型的方法

在機器學習和自然語言處理問題中,話題模型是指能夠在文檔集合中發現抽象話題的一種統計模型。目前較為常用的話題模型方法主要有概率隱含語義分析[25]和隱含狄利克雷分配[26]兩種,其他的話題模型方法均大都從以上兩種方法發展演化而來,而且隱含狄利克雷分配也是概率隱含語義分析的進化方法,并且方法中允許文檔可成為多個話題的混合。

Zhao和Xing于2006年第一次將話題模型引入統計機器翻譯的研究[27],通過使用雙語話題混合模型對詞匯翻譯概率進行估計,這樣就提高了詞對齊的準確性,而且也提升了機器翻譯的性能。接下來,這一研究二人組又于2007年結合了隱馬爾可夫模型和雙語話題混合模型的優點,再次提出了隱馬爾可夫雙語話題混合模型[28],由此而進一步提高了詞對齊和翻譯的性能。

本質上,Zhao和Xing的研究就是估計基于話題的詞匯翻譯模型,即 ,其中表示話題,和表示源語言和目標語言的詞匯。而與Zhao和Xing有所不同的是,Tam等人于2007年提出一種基于雙語隱含語義分析的自適應方法[29],這種方法對于雙語數據分別建模,即和,并將雙語的話題進行逐一對應,而通過該種方法對語言模型和翻譯模型進行的領域自適應實現,也已取得了良好的驗證效果。

在以上研究成果問世后,Su等人更于2012年利用目標領域單語文本的話題信息對翻譯模型進行了領域自適應研究[30],Xiao等人則通過構建層次短語翻譯規則的話題信息模型[31],并在解碼過程中創建話題相似度而進行了層次短語規則的選取,這兩種方案均將話題信息融合在翻譯解碼的過程中,而且也都取得了對于統計機器翻譯的性能提高具有明確助益的出眾效果。

3 結束語

目前統計機器翻譯的領域自適應研究方法多種多樣,但每一種方法均有各自的特點與側重,現在可通過三個視角對其進行技術分類,具體描述如下:

(1)系統模塊:包括語言模型的自適應、翻譯模型的自適應、調序模型的自適應等;

(2)可利用的資源:利用目標領域的單語數據(源語言或目標語言)、雙語數據、領域詞典等;

(3)領域自適應的方法:使用數據選擇的方法、混合模型的方法、自訓練的方法、話題模型等。

迄今為止,針對統計機器翻譯的雙語數據挖掘工作基本上是面向通用領域的,即不對領域進行細分。日后隨著行業數據的細分,將能夠針對不同領域進行更具目的性的數據挖掘工作。并且,有鑒于目前數據選擇針對領域類型的粒度較大,未來則期待能夠設計出細粒度的數據選擇方法以對領域自適應的研究提供進一步幫助。除此之外,深度學習已經成為近年來機器學習領域發展最為迅速的實用技術之一,在很多自然語言處理應用上取得了突破性的進展,只是利用深度學習進行統計機器翻譯領域自適應的工作依然較少,因而也仍是一個值得嘗試與努力的研究方向。

參考文獻:

[1] BERGER A L, PIETRA V J D, PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational Linguistics, 1996, 22(1): 39–71.

[2] OCH F J, NEY H. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania, USA: Association for Computational Linguistics, 2002: 295–302.

[3] ECK M, VOGEL S, WAIBEL A. Language model adaptation for statistical machine translation based on information retrieval[C]//Proceedings of the International Conference on Language Resources and Evaluation (LREC). Lisbon, Portugal: ELRA, 2004: 327–330.

[4] ZHAO B, ECK M, VOGEL S. Language model adaptation for statistical machine translation via structured query models[C]//Proceedings of Coling 2004. Geneva, Switzerland: COLING, 2004: 411–417.

[5] Lü Y, HUANG J, LIU Q. Improving statistical machine translation performance by training data selection and optimization[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). Prague, Czech Republic: Association for Computational Linguistics, 2007: 343–350.

[6] MATSOUKAS S, ROSTI A V I, ZHANG B. Discriminative corpus weight estimation for machine translation[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 708–717.

[7] MOORE R C, LEWIS W. Intelligent selection of language model training data[C]// Proceedings of the ACL 2010 Conference Short Papers. Uppsala, Sweden: Association for Computational Linguistics, 2010: 220–224.

[8] AXELROD A, HE X, GAO J. Domain adaptation via pseudo in-domain data selection[C]// Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK.: Association for Computational Linguistics, 2011: 355–362.

[9] Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction[M]. Springer Series in Statistics. New York, USA: Springer, 2009.

[10] FOSTER G, KUHN R. Mixture-model adaptation for SMT[C]//Proceedings of the Second Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 128–135.

[11] FOSTER G, GOUTTE C, KUHN R. Discriminative instance weighting for domain adaptation in statistical machine translation[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Cambridge, MA: Association for Computational Linguistics, 2010: 451–459.

[12] BANERJEE P, NASKAR S, ROTURIER J, et al. Domain adaptation in statistical machine translation of user-forum data using component-level mixture modelling[J]. Proceedings of the 13th Machine Translation Summit, 2011: 285–292.

[13] KOEHN P, SCHROEDER J. Experiments in domain adaptation for statistical machine translation[C]// Proceedings of the SecondWorkshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 224–227.

[14] FINCH A, SUMITA E. Dynamic model interpolation for statistical machine translation[C]// Proceedings of the Third Workshop on Statistical Machine Translation. Columbus, Ohio: Association for Computational Linguistics, 2008: 208–215.

[15] SENNRICH R. Perplexity minimization for translation model domain adaptation in statistical machine translation[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon, France: Association for Computational Linguistics, 2012: 539–549.

[16] CIVERA J, JUAN A. Domain adaptation in statistical machine translation with mixture modelling[C]// Proceedings of the Second Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 177–180.

[17] UEFFING N. Using monolingual source-language data to improve MT performance[C]//Proceedings of the InternationalWorkshop on Spoken Language Translation. Kyoto, Japan: IWSLT, 2006: 174–181.

[18] UEFFING N, HAFFARI G, SARKAR A. Transductive learning for statistical machine translation[C]// Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic: Association for Computational Linguistics, 2007: 25–32.

[19] UEFFING N, HAFFARI G, SARKAR A. Semi-supervised model adaptation for statistical machine translation[J]. Machine Translation, 2007, 21: 77-94.

[20] WU H, WANG H, ZONG C. Domain adaptation for statistical machine translation with domain dictionary and monolingual corpora[C]. Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK: Coling 2008 Organizing Committee, 2008: 993–1000.

[21] DAUMé III H, JAGARLAMUDI J. Domain adaptation for machine translation by mining unseen words[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA: Association for Computational Linguistics, 2011: 407–412.

[22] SCHWENK H. Investigations on large-scale lightly-supervised training for statistical machine translation[C]// Proceedings of the International Workshop on Spoken Language Translation. Hawaii, USA: IWSLT, 2008: 182–189.

[23] BERTOLDI N, FEDERICO M. Domain adaptation for statistical machine translation with monolingual resources[C]//Proceedings of the Fourth Workshop on Statistical Machine Translation. Athens, Greece: Association for Computational Linguistics, 2009: 182–189.

[24] LAMBERT P, SCHWENK H, SERVAN C, et al. Investigations on translation model adaptation using Monolingual data[C]// Proceedings of the Sixth Workshop on Statistical Machine Translation. Edinburgh, Scotland: Association for Computational Linguistics, 2011: 284–293.

[25] HOFMANN T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. 1999. New York, NY, USA: ACM, SIGIR 99.

[26] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal Machine Learning Research, 2003, 3: 993–1022.

[27] ZHAO B, XING E P. BiTAM: Bilingual topic admixture models for word alignment[C]// Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions. Sydney, Australia: Association for Computational Linguistics, 2006: 969–976.

[28] Zhao B, Xing E P. HM-BiTAM: Bilingual Topic Exploration, Word Alignment, and Translation[M]. . Platt J, Koller D, Singer Y, et al. Advances in Neural Information Processing Systems 20. Cambridge, MA: MIT Press, 2008: 1689–1696.

[29] TAM YC, LANE I, SCHULTZ T. Bilingual LSA-based adaptation for statistical machine translation[J]. Machine Translation, 2007, 21(4): 187–207.

[30] SU J, WU H, WANG H, et al. Translation model adaptation for statistical machine translation with monolingual topic information[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Jeju, Korea: Association for Computational Linguistics, 2012: 459–468.

[31] XIAO X, XIONG D, ZHANG M, et al. A topic similarity model for hierarchical phrase-based translation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Jeju, Korea: Association for Computational Linguistics, 2012: 750–758.

猜你喜歡
語言方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
我有我語言
主站蜘蛛池模板: 日本人妻丰满熟妇区| 国产成人高清精品免费软件| 国产成人调教在线视频| 亚洲二三区| 国产乱子伦精品视频| 香蕉国产精品视频| 欧美日韩一区二区在线免费观看 | 国产91视频观看| 找国产毛片看| 伊人91在线| 久久精品人妻中文系列| 日本精品影院| 一区二区三区毛片无码| 国产白丝av| 99久久精彩视频| 欧洲熟妇精品视频| 婷婷丁香色| 99偷拍视频精品一区二区| 黄色免费在线网址| 国产成人高精品免费视频| 亚洲视频四区| 久996视频精品免费观看| 国产本道久久一区二区三区| www亚洲天堂| 日韩在线第三页| 亚欧美国产综合| 日日碰狠狠添天天爽| 国产三级视频网站| 国产杨幂丝袜av在线播放| 亚洲日本中文字幕乱码中文 | 亚洲一区二区黄色| 亚洲丝袜第一页| 国产精品lululu在线观看| 免费不卡视频| 国产又粗又猛又爽| 国产黑丝一区| 亚洲精品自拍区在线观看| 亚洲男人的天堂在线观看| 青青久在线视频免费观看| 伊人查蕉在线观看国产精品| 亚洲欧美日韩动漫| 天堂久久久久久中文字幕| 国产精品亚欧美一区二区| 99999久久久久久亚洲| 成AV人片一区二区三区久久| 狠狠色婷婷丁香综合久久韩国| 色偷偷一区| 欧美激情综合| 欧美成人精品在线| 国产麻豆精品手机在线观看| 国产精品无码AV中文| 色久综合在线| 亚洲成a人片在线观看88| 国产精品香蕉在线观看不卡| 免费在线一区| 精品国产免费观看一区| 在线观看热码亚洲av每日更新| 91 九色视频丝袜| 无码又爽又刺激的高潮视频| 91无码视频在线观看| 永久毛片在线播| 91丝袜乱伦| 999精品在线视频| 欧美黄网站免费观看| 丝袜美女被出水视频一区| 国产亚洲精品资源在线26u| 亚洲欧美色中文字幕| 看国产毛片| 日韩无码白| 91国内外精品自在线播放| a毛片免费观看| 国产无人区一区二区三区| 国产成人艳妇AA视频在线| 看av免费毛片手机播放| 国产女人综合久久精品视| 日韩东京热无码人妻| 中文字幕欧美日韩高清| 日韩美一区二区| 国产爽妇精品| 国产亚洲美日韩AV中文字幕无码成人| 日韩少妇激情一区二区| 亚洲第一成网站|