999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統計機器翻譯中短語切分的新方法

2017-03-16 03:40:48史紅梅張艷君
電子測試 2017年2期
關鍵詞:方法模型

劉 林,史紅梅,張艷君

(山東農業工程學院,山東濟南,250100)

統計機器翻譯中短語切分的新方法

劉 林,史紅梅,張艷君

(山東農業工程學院,山東濟南,250100)

本文提出了一種新的短語切分方法,通過該方法可以將句子的短語切分進行概率化處理:首先把漢語語料庫中次數>2次的詞語串全部都識別出來,作為漢語短語,然后通過最短路徑方式實現短語切分,同時應用Viterbi算法對短語出現頻率進行迭代統計。

統計機器;機器翻譯;短語切分;新方法

0 引言

二十世紀九十年代初期,國外科學家就根據信源信道思想提出了統計機器翻譯模型,而自此之后,人們又很快在基于統計方法的機器翻譯研究方面具有了巨大的進步。現如今,主流的統計機器翻譯方法仍然是基于短語的統計機器翻譯,因為該方法可以較好地處理短距離依賴和一些常用搭配問題。通常情況下,基于短語的方法的原理是將任意連續字符串均看作短語,自動在雙語語料庫中學習雙語短語,然后進行以短語為單位的翻譯。有科學家提出了對齊模板方法,即通過將單詞映射到詞類中對句子級和短語級進行兩級對齊;另外還有學者提出了層次短語模型,即允許一個同步上下文無關文短語內均具備子短語。目前,眾多科學家和學者仍舊在努力研究基于短語的新方法。

1 短語切分方法

基于短語的統計機器翻譯系統的最小翻譯單位就是短語,也即是說,將句子拆分成若干個短于,由每個短語的翻譯而組成句子的翻譯。漢語與英語的不同點在于其最小單位是字,詞語是由字組成的,短語則是由詞語組成的,而所謂的“短語切分”與漢語的切詞類似,實際上就是在詞語切分的基礎上把句子切分成短語。故此,在短語切分之時可以借鑒漢語詞語的切分研究方法進行研究。這里采用了N-最短路徑法:根據短語庫對已經分詞的句子中全部可能的短語構造有向無環圖,得出N條最優的路徑。不過,其中需要解決兩項問題:一者是如何得到短語庫;二者是如何確定有向無環圖的路徑長度。

1.1短語查找

由于短語比之詞語來說更加難以界定,不同人對短語的理解不同,因此很難像漢語切詞一般通過人工來做短語庫。對此,可以利用該方法中將任意連續的字符串看作短語的特點,自動于漢語單語語料庫中抽取短語庫。具體來說,這個短語查找的流程為:首先切分漢語語料庫中的詞語,詳細記錄每個詞語出現的位置,并將其存儲在WordMap中;然后找出表中每個詞語所在文件中的對應位置,并據此向后搜索若干個詞得到及保存詞串,將相應計數加1;最后其中出現次數>2的重復詞串即為短語庫。在這過程中,若其中一個短語是另外一個短語的子串,且兩者的出現次數相同,那么則保留長的那個。

1.2短語概率計算

短語概率指的就是有向無環圖的路徑長度,其可通過概率論的相關知識進行計算,具體的公式為:

公式中,c指的是漢語短語,N(c)指的是漢語短語在語料庫中出現的次數。

不過,僅通過這種概率估計方式所得到的結果是不夠準確的,而本文所提出的這種新的短語切分方法應用了Viterbi算法對短語出現頻率進行迭代統計,進而對短語的一元語言模型概率進行估計,所得到的結果更加準確。Viterbi算法的流程為:首先隨機指定模型參數,然后計算出各訓練樣本的最大概率值,之后對概率進行重新統計、對模型參數進行更新,最后經多次迭代后得出逼近真實值的概率分布。

2 翻譯模型與解碼

統計機器翻譯的核心就是翻譯模型與解碼,其中翻譯模型的主要作用是反映對機器翻譯過程的認識,解碼的作用是搜索出最終譯文。

2.1翻譯模型

本文所提出的這種新的短語切分方法應用了Log-linear直接翻譯模型,具體的公式為:

而在全部可能的翻譯中,再選擇概率最大的一個作為最終翻譯:

2.2解碼

對于一個漢語句子來說,首先需要通過上述方法對其進行短語切分,取其中一個或以上最佳切分進行翻譯。然后需要通過柱式搜索方法對每個切分結果進行單調解碼,即按照從左至右的順序對每個短語片段進行翻譯,而不用調整順序。為了加快搜索速度及節省內存,解碼器可以只讀進每個漢語短語中若干個最好的翻譯,并限制搜索中每個棧的大小為m。Log-linear直接翻譯模型采用的是最小錯誤率訓練算法。

3 實驗

筆者在相關測試集上對該方法進行了實驗。本次實驗所采用的是2005年863評測所提供的訓練集,其中大約有英語詞和漢語詞各10M。通過SRI語言模型工具,利用該短語切分方法,對3-gram英語語言模型進行了訓練。

3.1翻譯模型訓練

首先通過GIZA++[12],進行了漢語→英語和英語→漢語兩個方向的訓練,獲得了詞語對齊,然后通過grow-diag-final[2]進行了優化對齊,最后抽取短語,得到了翻譯概率表。

3.2短語切分方法

作為基線系統,短語切分應用另一種方法:首先抽取語料庫中的漢語短語作為短語庫,以為短語切分的路徑長度,然后通過最短路徑方法進行短語切分。為了在搜索過程中取得翻譯質量和翻譯效率的平衡,每個句子宜取二十個最佳短語切分進行翻譯。

3.3實驗結果

本實驗結果詳見表1。

表1 實驗結果

3.4問題分析

從結果中可以看出,相對于基線系統而言,該系統中通過使用短語切分模型能夠提高其翻譯質量,一般可提高0.5左右個百分點。不過,對于對話卻會起到副作用,主要是由于:①該短語切分模型在訓練中是單獨使用的漢語語料,所以比較傾向于較短的短語,導致將本來就較短的句子切得更碎,降低了系統性能,而在雙語短語庫中長短語和短短語是俱存的;②疑問句在對話語料中所占的比重過大,而疑問句往往需要進行詞序調整,但該系統是順序解碼,所以在這方面的表現較差;③對話語料在訓練語料中約占了25%,這對于漢語的短語切分模型訓練而言相對較少,所以影響了其作用;④篇章中的句子大多較長,并且新聞語料較多,其詞序變化不是很強烈,所以通過短語切分模型能夠有效切分出常見短語。

4 結語

本文提出了一種新的短語切分方法,并在相關測試集上得出了實驗結果:對話0.2232、篇章0.1766。實驗表明:對于篇章等長句子,通過使用短語切分模型能夠提高其翻譯質量,一般可提高0.5左右個百分點。

[1]何中軍,劉群,林守勛. 統計機器翻譯中短語切分的新方法[J].中文信息學報,2007,01:85-89.

[2]薛永增,李生,趙鐵軍,楊沐昀. 短語統計機器翻譯的句法調序模型[J]. 通信學報,2008,01:7-14.

劉林, 1981年11月出生,性別男,民族漢,籍貫山東德州,學歷大學本科,職稱講師,研究方向軟件理論、機器學習。

A new method of phrase segmentation in statistical machine translation

Liu Lin,Shi Hongmei,Zhang Yanjun
(shandong agricultural engineering institute, jinan, shandong province, 250100)

this paper presents a new phrase segmentation method, the method can be sentence the phrase segmentation of randomization process: first of all, the number of Chinese corpora > two words list all identified, as Chinese phrases, then realize the shortest path phrase segmentation, at the same time using Viterbi algorithm to iterate phrases frequency statistics.

statistical machine; Machine translation; The phrase segmentation; The new method

項目:山東省高等學校科技計劃項目--基于最大熵翻譯模型的統計機器翻譯系統的設計與實現(J13LN59)

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲久悠悠色悠在线播放| 黄色网站在线观看无码| 99视频精品全国免费品| 日韩国产综合精选| 久久久91人妻无码精品蜜桃HD| 99成人在线观看| 亚洲国产成人久久精品软件| 99精品视频播放| 素人激情视频福利| 精品1区2区3区| 亚洲欧美不卡视频| 热热久久狠狠偷偷色男同| 青青草国产免费国产| 欧美成人手机在线观看网址| 亚洲午夜18| 中文精品久久久久国产网址| 伊人久久婷婷| 日韩123欧美字幕| 国产一区在线观看无码| 亚洲精品自产拍在线观看APP| 亚洲精品国产日韩无码AV永久免费网| 囯产av无码片毛片一级| 这里只有精品在线播放| 色香蕉网站| 全部免费特黄特色大片视频| 欧美日韩理论| 国产高清无码第一十页在线观看| 久久久久久久久亚洲精品| 香蕉在线视频网站| 91成人在线免费观看| 国产精品林美惠子在线观看| 亚洲va视频| 国产成人精品在线| 亚洲色偷偷偷鲁综合| 亚洲av无码成人专区| 欧美.成人.综合在线| 日韩精品少妇无码受不了| 亚洲成a人在线观看| 国产成人综合久久精品下载| 中日无码在线观看| 在线观看无码av免费不卡网站| 久久免费视频播放| 国产h视频在线观看视频| a在线观看免费| 四虎影视库国产精品一区| 欧美成人手机在线观看网址| 最近最新中文字幕在线第一页| 欧美日韩在线亚洲国产人| 六月婷婷激情综合| 亚洲天堂日韩av电影| 激情综合图区| 成人免费网站久久久| 日韩天堂在线观看| 蜜臀AVWWW国产天堂| 在线免费亚洲无码视频| 午夜高清国产拍精品| 久久综合五月婷婷| 91麻豆久久久| 国产微拍一区| 91日本在线观看亚洲精品| 久久6免费视频| 中文字幕亚洲另类天堂| 国产成人无码AV在线播放动漫 | 国产精品久久久久久久久kt| 1769国产精品视频免费观看| 一级黄色网站在线免费看| 日本高清在线看免费观看| 国产第八页| 乱人伦视频中文字幕在线| 丁香五月亚洲综合在线| 狠狠色综合久久狠狠色综合| 久久这里只有精品66| 波多野吉衣一区二区三区av| 精品少妇人妻一区二区| 日韩第八页| 免费国产高清精品一区在线| 久草视频福利在线观看| 国产免费精彩视频| 国产精品成人免费综合| 亚洲午夜18| 露脸国产精品自产在线播| 国产91九色在线播放|