999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于匹配模板的術語自動翻譯方法

2014-07-23 01:37:34姜東洋
網絡安全技術與應用 2014年2期
關鍵詞:模型

姜東洋

(遼寧機電職業技術學院信息工程系 遼寧 118009)

0 引言

近年,隨著科技技術的加速發展,人們越來越關注大量專利文獻的翻譯中,如何將人們從這些煩瑣的翻譯任務中解脫出來?統計機器翻譯技術的迅速發展為人類的輔助翻譯提供了強有力的手段。而專利文獻的翻譯任務中主要以大量的專利術語為主,平衡基于實例與基于統計的翻譯的優缺點,本文結合兩者之間的優點,提出一種基于匹配模板的術語翻譯方法,面向結構單一的專利術語。

1 專利術語

術語是指“專業領域中一般概念的文字指稱”[1],《中國大百科全書》中指出,“術語是各門學科中的專門用語,術語可以是詞,也可以是詞組,用來正確標記生產技術、科學藝術、社會生活等各個專門領域中的事務、現象、特性、關系和過程。術語是科學研究的成果是人類進步歷程中知識語言的結晶”。

專利術語主要以名詞短語形式存在。因為的翻譯是英漢的專利術語翻譯。源語言是英文的名詞短語,該短語主要由修飾語和中心詞構成。修飾語可以是名詞、形容詞、分詞及其短語、介詞等的組合。英文專利術語在進行翻譯時要注意一些問題:

(1)修飾語與中心詞的位置關系也就是我們講的調序問題,這里我們歸納一部分的具有調序功能的模板,例如專利源語言術語:

A health medicine for protecting liver .

“A##1 for ##2”調序后變為“##2 ##1”.這里的“##1”和“##2”分別指英文名詞短語也可以是單純的名詞。

(2)另一類是不用調序的固定翻譯結構的模板,可以用來翻譯具有多種修飾語的專利術語。

例如:A drastically reduced budget.

翻譯后的模板轉換為”#1 #2 #3”.該類術語是無須調整語序,直接按順序翻譯。

2 術語模板的匹配算法

我們建立了一定規模的模板庫后,設計術語模板的匹配算法成為核心。我們開發了基于中心短語的迭代匹配算法,其匹配過程如下圖所示:

圖1 術語匹配算法流程圖

下面詳細講解該算法的設計,首先對輸入的源語言術語進行匹配,匹配時如果有多個模板適用于輸入的術語,我們就會選擇匹配度最高的模板進行匹配。該匹配度的選擇我們通過一個打分機制來選擇,對于輸入的源術語對比模板庫里的術語之間的相似度來獲得終結果。當然,在這其中我們也融合了語言模型和翻譯模型。

2.1 打分機制

通過模板的相似度計算來選擇最佳的匹配模板。模板庫的建立是利用 GiZA++詞對齊工具訓練語料進行詞對齊訓練,得到雙語對齊術語對。從中可以看出其中的對應關系,Giza++訓練的時候采用英漢和漢英兩個方向訓練。通過基于中心詞的依存來改善詞對齊的關系;英文部分通過parser進行句法分析,最終建立一個53907個模板。大小為5.12Mb.模板的格式如下:

模板 翻譯模板 概率(TOP(NP(NP(NN Preparation))(PP(IN of)(NP(NN koujiesu)))))123569 0.491(TOP(NP(CD 12)(NN Direction)(JJ signal)(NN input)(NN device)))134577 0.333(TOP(NP(NP(NN Cutter))(PP(IN of)(NP(NN steel)(NN wire)(NN curtain)(NN cloth)))(PP(IN at)(NP(NP(NN range))(PP(IN of)(NP(CD 15-70)(NNS degrees)))))))186555 0.333_ _ _

2.2 語言模型及翻譯模型

本文采用SRILM對10萬平行的術語語料訓練翻譯模型和三元的語言模型。

3 實驗及分析

本文所采用的實驗語料是面向專利領域的英文術語語料庫,語言模型和翻譯模型是通過平行的術語語料庫,規模為10萬句雙語術語對。該語料庫涵蓋了醫藥、器械、食品及生活等多個領域。為了彌補個別領域的訓練語料的不足,我們也加入一些專業的辭典到語料庫,訓練語料庫抽取350句作為開發集,抽取200句作為測試集,開發集,測試集的參考譯文都會有兩個人工參考譯文,下面是實驗設計:

實驗一:不使用模板,利用開發集進行訓練并以此作為baseline。

實驗二:使用模板庫,實驗結果用國際機器測評常用的BLEU方法。

Baseline Template_Matched Increase開發集 32.15% 34.56% 2.41%測試集 29.12% 31.23% 2.11%

BLEU評價方法:

BLEU評測方法是2001年美國IBM公司的研究人員提出來的,利用BLEU方法評估機器翻譯質量的關鍵就是如何定量計算機器譯文與一個或多個人工翻譯參考答案之間的接近程度。該接近程度采用句子精確度的計算方法,也就是比較系統譯文的n元語法與參考譯文的n元語法相匹配的個數,這種匹配與位置無關。系統譯文與人工參考譯文相匹配的n元語法的個數越多,BLEU得分越高。

另外考慮到句子的長度對 BLEU評分也有一定的影響,BLEU的評價標準又對比參考譯文更短的句子引入了長度懲罰因子。

在BLEU評測方法中,n的實際取值是1~4。總的評價指標是一元語法到四元語法的幾何平均。另外,對于整個語料庫而言,BLUE的計算一般是基于詞語進行的,而不是基于句子的。也就是說,對于長度不同的句子,要以句子的長度進行加權平均。BLEU 的總體評價公式如下:BLEU=BP×exp(

Wnlogpn)其中,是出現在參考譯文中的n 元詞組占候選譯文中n 元詞組總數的比例。

4 總結

本文實現了面向專利領域的英漢翻譯系統,通過手工歸納一些模板庫來進行翻譯當中的模板匹配。因為專利術語本身的特點使翻譯術語結構比較單一,形式比較固定,所以非常適用于機器的自動翻譯。通過機器翻譯不僅節省了大量的物力、人力和財力,同時整體的翻譯結果基本上能滿足用戶需求,盡管有個別結果不盡如人意。系統本身具有可擴展性,通過增加術語語料庫可以體改模板匹配機率。

[1]全如堿.什么是術語[J].術語標準化與信息技術,2004(3)18

[2]林曉慶 英文名詞短語的翻譯[J].計算機工程與設計,2010.4.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 98精品全国免费观看视频| 狠狠色丁香婷婷| 国产成人8x视频一区二区| 国产成年女人特黄特色毛片免| 亚洲成a人在线播放www| 久久精品亚洲热综合一区二区| 国产性生交xxxxx免费| 啪啪啪亚洲无码| 久草视频一区| 97久久人人超碰国产精品| 天天色综合4| 国产在线精品网址你懂的| 欧美日本一区二区三区免费| 欧美视频二区| 国产呦视频免费视频在线观看| 日韩精品一区二区三区视频免费看| 特级精品毛片免费观看| 无码电影在线观看| 1769国产精品视频免费观看| 大香伊人久久| 欧美日韩国产综合视频在线观看| 日韩欧美中文| 人妻无码中文字幕一区二区三区| 亚洲,国产,日韩,综合一区 | 日韩 欧美 国产 精品 综合| 国产欧美又粗又猛又爽老| 色AV色 综合网站| 国产原创演绎剧情有字幕的| 日韩欧美中文在线| 青青青国产视频手机| 日韩123欧美字幕| 99中文字幕亚洲一区二区| 欧美一区二区三区国产精品| 国产精品免费久久久久影院无码| 亚洲成人精品在线| 99国产精品国产高清一区二区| 久久综合一个色综合网| 欧美一级大片在线观看| 成人在线观看不卡| 国产99视频免费精品是看6| 亚洲欧美不卡| 国产极品嫩模在线观看91| 亚洲av综合网| 午夜精品福利影院| 欧美日韩国产在线播放| 国产精品55夜色66夜色| 国产91在线|日本| 丁香五月激情图片| 亚洲天天更新| 国产白浆在线| a级免费视频| 午夜福利网址| A级全黄试看30分钟小视频| 国产成人精品18| 99久久人妻精品免费二区| 久久国产精品麻豆系列| 久热re国产手机在线观看| 国产在线拍偷自揄观看视频网站| 99尹人香蕉国产免费天天拍| 强奷白丝美女在线观看| 这里只有精品国产| 国产综合无码一区二区色蜜蜜| 韩日无码在线不卡| 人禽伦免费交视频网页播放| 99久久国产精品无码| 欧美怡红院视频一区二区三区| 日本欧美中文字幕精品亚洲| 欧美怡红院视频一区二区三区| 中国国产一级毛片| 亚洲乱码在线视频| 久久精品国产精品国产一区| 中文字幕亚洲无线码一区女同| 在线精品亚洲一区二区古装| 成年片色大黄全免费网站久久| 亚洲侵犯无码网址在线观看| 在线观看网站国产| 玖玖精品视频在线观看| 亚洲AV无码乱码在线观看代蜜桃| 亚洲一区二区约美女探花| 精品国产欧美精品v| 中文字幕人妻无码系列第三区| 国产成人精品一区二区三区|