999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于規則的機器翻譯技術綜述

2011-05-18 09:10:56袁小于
重慶高教研究 2011年3期
關鍵詞:語義文本

袁小于

(重慶師范大學數學學院,重慶 沙坪壩 401331)

機器翻譯(Machine Translation,MT)是借助計算機程序將文字或語音從一種自然語言翻譯成另一種自然語言的技術.機器翻譯是早期人們研究自然語言識別的中心課題之一,是人工智能研究的重要成果,其歷史可以追述到上世紀的50年代初期.但是由于當時人們認為只要“找出兩種語言間的對應詞,然后經過簡單的語法分析調整詞序就可以實現翻譯”[1],使機器翻譯的研究工作走入了死胡同,因為機器翻譯的結果很難達到預期的效果,以至于1966年美國科學院在一個報告中指出:“在可預見的將來,機器翻譯不會獲得成功”[1].

根據實際應用,機器翻譯可以簡單地分為文本翻譯和語音翻譯.文本翻譯是以詞-詞、句-句、篇-篇的模式實現翻譯任務的.語音翻譯則還得使用語音識別技術(Automatic Speech Recognition,ASR)和語音合成技術(Text To Speech,TTS)或者真人語音庫技術,才能從源語音生成目標語音,語音轉換時具有更高的靈活性和不規則性,比文本翻譯難度更大.相比文本翻譯的大概可用的情況,語音翻譯技術還遠遠沒有達到實用的階段.因此,本文限定討論機器翻譯就指文本機器翻譯,以下同.

根據機器翻譯獲得知識的方式,機器翻譯發展到現在可以分為兩類[2]:一類就是基于人工獲取知識的方法或者基于規則的方法,這是傳統的經典機器翻譯方法;另一類是基于機器自動學習知識的方法,分為非參數方法(或實例方法)與參數方法(或統計方法)兩種.下面以英漢機器翻譯為例回顧一下經典機器翻譯技術中使用的各種技術.

1 基于規則的機器翻譯技術

經典的基于規則的機器翻譯技術主要包括源語言的文本處理、詞典構成、文本分析,源語言到目標語言的詞典查詢翻譯,目標語言文本生成等技術.

1.1 源語言文本處理技術

文本處理技術主要是針對輸入的源語言文本,通過斷句和格式保留操作,把多句或整篇文章分成機器能夠處理的單元.

1.1.1 符號斷句處理技術

斷句處理主要是以代表整句結束信息的句號、問好、嘆號、省略號以及回車換行符號為標記,將文章切分出單句[3].

1.1.2 格語法文本處理技術

“格”指底層結構中,每一個名詞與跟它有關的動詞之間的句法語義關系.這種關系一經確定就固定不變,不管他們經過了什么轉換操作[4].

1.1.3 詞或短語切分技術

將句子切分為詞或短語,其中短語切分概率化技術,改變了其他切分技術認為所有的短語切分都是等概率的思想,提高了準確度[5].

1.1.4 格式保留處理技術

源語言文本中的特殊標記字符通常分隔了不同的單詞、句子,在原文意思的表達中起到很關鍵的作用.因此,在進行文本處理的時候,必須采用相應的辦法將這些符號保留,在翻譯成目標語言文本之后再插入對應的位置.

1.2 機器翻譯詞典構成技術

詞典是經典機器翻譯系統的基礎資源,是進行句法分析、目標語言文本生成的依據.可以說,一個詞典的好壞就決定了機器翻譯系統的優劣.

1.2.1 一般機器翻譯詞典構成技術

詞典以詞項為中心,把以該詞項有關的短語、習語組織到同一詞條下,并編制有關索引,以利查詢.英漢機器翻譯詞典構成的基本結構如表1所示.

表1 英漢機器翻譯詞典基本結構

吳保民等在Matlink翻譯實驗機器中對各個字段的功能和原則做了初步的定義[6],詞典的索引采用了哈希散列算法.

1.2.2 格框架機器翻譯詞典技術

基于菲爾摩的格語法理論建立格框架,在格框架中不僅有語法信息,還有語義信息,且語義信息是整個框架的主體[4].一個格框架由一個主要概念和一個輔助概念構成.格框架以詞條的形式有機地編排于格詞典之中.

1.3 文本分析技術

文本分析技術的功能和任務是解決源語言句子和目標語言句子的結構問題,即確定句子主謂賓等結構,以便確定詞與詞之間的關系使之構成短語,再確定短語之間的關系使之構成更大的短語或組成句子.

1.3.1 淺層句法(詞法)分析技術

淺層句法分析是指對源語言語句作詞性標注后所進行的短語級句法分析,而不是完整的句法結構分析,其結果稱為Chunk序列[7].郭永輝等給出了一種基于GLR算法的分析技術[8],在Matlink英漢機器翻譯系統的句法分析中發揮了穩定的功能.

杜祝平等還給出了一種基于規則的詞法分析技術[5],該規則分為主詞類規則、個別詞規則和使用數學定理證明中的夾逼原理的規則.

1.3.2 整句句法分析技術

整句句法分析包括產生式通用部分處理和從句處理,主語部分分析,謂語部分分析及其他部分的分析,如費鯤采用的部分分析的思想,將一個句子分成幾個語法成分,分別進行分析,并給出句法樹[9].而馬芳等人則給出了一種基于最大熵基本原理的從句識別方法[10],結合了統計知識和語法規則,使模型訓練速度大大加快,識別精度更高.句法分析過程還可以采用依存語法和語則分析來進行,最后生成一棵帶短語信息的依存語法樹[3].

1.3.3 語義分析技術

此方法借助優選語義學、語言成份的邏輯語義分析、黑板結構等理論,對語言翻譯過程中的語義分析,尤其對介詞多義詞等影響句子意思的部分進行系統分析,可以改善一般機器翻譯技術的翻譯效果[11].

1.4 機器翻譯詞典查詢技術

在機器翻譯中,查閱翻譯詞典是一個經常進行的行為,其查閱效率是影響翻譯速度的關鍵.因此,如果采用簡單順序搜索算法和二分查找算法,效果都非常的差,所以一般采用哈希表查詢方案[6],有3種實現方式,如表2所示.

表2 3種哈希算法實現方案

有關實驗表明,在64 K散列空間中,第三個方案的平均查找次數和最壞查找次數均最低,且在3次以內查找成功的百分比最高.

1.5 語義排歧技術

語義排歧是機器翻譯必須要逐漸克服的困難之一.這個困難可以說最終影響了基于規則的機器翻譯技術的發展.

1.5.1 二元文法

對于有多個詞性的單詞,需要進行詞性消兼(歧)處理.采用二元文法的隱馬爾可夫模型和Viterbi算法來取最佳詞性[3],該方法通過查找概率庫字典,標注各結點單詞對應的詞性.

1.5.2 常識排歧法

首先對翻譯過程中源語言多義詞的詞義選擇是否符合常識給出一條形式化的標準,然后將人們在翻譯過程中排歧時所進行的邏輯推理歸結為一種機械的集合運算,使之易于機器操作,在此基礎上建立義項多元組的概念,利用此多元組來對多義詞的翻譯進行排歧[12].

1.5.3 其他排歧技術

還有選擇最常見含義法,利用詞類進行詞義排岐,基于選擇限制詞義排歧,基于共現特征的詞義排歧,無指導的詞義排歧,基于詞典的詞義排歧等等[13-14].

1.6 目標語言文本生成技術

1.6.1 目標語言句法分析轉換技術

此階段需要運用上文提到的各種文本分析技術,按照目標語言的語義結構規律對運用機器翻譯出來的目標語言短語進行重新排序,即對分析階段產生的分析樹進行調整[7].

1.6.2 目標語言文本生成技術

利用html,xml等文本生成排版技術生成利于閱讀的目標語言文本.一個完整的機器翻譯系統如圖1所示.

圖1 經典機器翻譯系統圖示

2 經典機器翻譯的難點

2.1 詞義選擇問題即消歧問題

從一個詞的多個意思中選擇一個恰當的意思和從多個同義或近義的詞中選擇恰當的詞都是機器翻譯難以圓滿解決的問題.在很多語言中,還有不少由兩個或兩個以上單詞組成的固定搭配,其中的每個單詞都有幾種不同的意思,而他們結合在一起構成一個搭配時,就會表示更多的可能不同于組成部分的意思.這幾種詞義選擇問題,都是限制機器翻譯準確性的重要因素[14-15].

2.2 層次切分問題

從語言的內部結構來說,很多情況下源語言和目標語言是兩種截然不同的語言.要想機器翻譯準確,就必須克服結構上的差異,以語義為基礎,在句法的輔助下完成翻譯過程.層次切分將直接影響句子中意群間的相互關系,如果不正確的切分,就會造成雖然單詞或短語的翻譯正確,但是整個句子的意思卻不合邏輯.也就是說,要恰當地將句子切分為字、詞、短語、句子非常不容易.

2.3 特殊句型問題

各種語言中都有很多特有的表達方式或固定結構,如英語中有主語從句、非限定性定義從句、賓語從句等,又進一步加大了英漢翻譯的難度[14].

2.4 語言情感問題

語言是表達思想和情感的工具,除非是純粹的說明性文字,一般的文章中都或多或少的蘊涵作者的喜怒憂思悲恐驚等情愫.而機器通過詞典對應查詢,按照規則機械地組合拼湊的文字,很難讓人讀出原作意境.表現原作的情感連人工翻譯都難于完美再現,何況是冷冰冰的機器!

3 結語

人類語言的發展從最初的無序到憑經驗使用,直到系統總結出各種語言的最適合的表達情感和思想的方法,這種方法就是規則,即語法.基于規則的經典機器翻譯技術雖然發展了50多年,現在各種技術也比較成熟,但因為有前節所述天生的弱點,其翻譯效果還遠遠沒有達到令人滿意的地步.因此,在語言形式化方法的進一步發展、計算機運算處理能力的大幅提高、人工智能真正具有“智能”以及人們對人腦包括人腦學習機能的更多認識的同時,有必要尋求新的翻譯轉換手段,才能使機器翻譯質量逼近人工翻譯水平.而前面提到的基于機器自動學習知識的機器翻譯方法,使用非參數方法(或實例方法)與參數方法(或統計方法)兩種手段開發的各種新的翻譯系統,翻譯效果在很大程度上彌補了經典機器翻譯的部分缺陷.但是,實驗和實踐都可以看出,這種方法也不是完美的,在對付長句子、特殊句子以及需要合理表達情感的時候,同樣也是無能為力的.所以,現在實際的處理方式就是綜合使用這幾種翻譯技術于一個系統中,取長補短,雖然效果逐漸可以達到特定領域的實用水平,不過仍然離完美甚遠.

[1]王萬森.人工智能原理及其應用:第2版[M].北京:電子工業出版社,2007:234.

[2]趙紅梅,劉群.機器翻譯及其評測技術簡介[J].術語標準化與信息技術,2010(1):36-41.

[3]胡春靜,韓兆強.英漢機器翻譯引擎的研究與實現[J].計算機工程與應用,2003(29):148-150.

[4]王祁.格語法在英漢機器翻譯系統中的應用研究[J].東北大學學報:社會科學版,2005,7(6):455-457.

[5]杜祝平,吳保民,張連海,等.英漢機器翻譯系統中基于規則的詞法分析[J].信息工程大學學報,2003,4(3):89-92.

[6]吳保民,杜祝平,張連海,等.Matlink英漢機器翻譯試驗系統中詞典的存儲結構及搜索算法[J].信息工程大學學報,2001(4):70-74.

[7]周會平,王挺,陳火旺.用LR算法分析漢語的語法關系[J].軟件學報,1999,10(9):967-973.

[8]郭永輝,吳保民,王炳錫.一個基于GLR算法的英漢機器翻譯淺層句法分析器[J].計算機工程與應用,2004(34):124-129.

[9]費鯤.機器翻譯中句法分析的設計與實現[J].計算機工程與設計,2006,27(15):2832-2834.

[10]馬芳,吳保民,王炳錫.一種面向英漢機器翻譯的從句識別方法[J].信息工程大學學報,2006,7(2):193-196.

[11]戚世遠.英漢機器翻譯中的語義分析[J].計算機應用與軟件,1993(4):54-58.

[12]段綺麗.機器翻譯中詞義的常識排歧[J].重慶大學學報:自然科學版,2005,28(3):69-71.

[13]魯孝賢.機器翻譯語義排歧的方法[J].中國科技翻譯,2007(4):22-25.

[14]王祁,鄒冰.現行英漢機器翻譯系統存在的問題及解決策略[J].東北大學學報:社會科學版,2003,5(5):388-390.

[15]湯聞勵.英漢機器翻譯的“可能”與“不可能”[J].廣東職業技術師范學院學報,2002(2):84-88.

猜你喜歡
語義文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 美女潮喷出白浆在线观看视频| 久久国产精品波多野结衣| 国产欧美日本在线观看| 天堂岛国av无码免费无禁网站| 试看120秒男女啪啪免费| 国产电话自拍伊人| 精品久久蜜桃| 福利一区在线| 亚洲欧美一区二区三区图片| 性视频一区| 99国产在线视频| 在线观看亚洲天堂| 成人毛片免费在线观看| 久久婷婷五月综合色一区二区| 亚洲午夜福利精品无码| 国产第三区| 欧美日韩综合网| 国产福利在线免费| 欧美日韩动态图| 国产成人精品一区二区秒拍1o| 妇女自拍偷自拍亚洲精品| 亚洲视频影院| 精品国产www| 国产午夜无码专区喷水| 偷拍久久网| 日韩国产一区二区三区无码| 中文无码影院| 超清无码一区二区三区| 在线欧美a| 欧美日韩资源| 久久人人爽人人爽人人片aV东京热| 国产精品第页| 亚洲中文在线看视频一区| 亚洲一道AV无码午夜福利| 亚洲无码精彩视频在线观看 | 成人午夜天| 欧美在线三级| 亚洲男人的天堂在线观看| 2020国产在线视精品在| 亚洲六月丁香六月婷婷蜜芽| 91丝袜美腿高跟国产极品老师| 日本AⅤ精品一区二区三区日| 日韩欧美在线观看| 免费AV在线播放观看18禁强制| 天天做天天爱天天爽综合区| 97久久人人超碰国产精品| 国产免费黄| 精品国产三级在线观看| 免费观看成人久久网免费观看| 亚洲欧美国产视频| 最新亚洲av女人的天堂| 久久久噜噜噜| 天堂岛国av无码免费无禁网站| 亚洲日韩精品无码专区| 影音先锋丝袜制服| 狠狠色成人综合首页| 免费A级毛片无码免费视频| 广东一级毛片| 99免费在线观看视频| 情侣午夜国产在线一区无码| 免费国产高清精品一区在线| 午夜老司机永久免费看片| 在线观看亚洲国产| AV老司机AV天堂| 免费可以看的无遮挡av无码| 国产真实乱子伦视频播放| 97色伦色在线综合视频| 狠狠亚洲五月天| 精品一区二区三区四区五区| 日本在线亚洲| 国产二级毛片| 日本在线亚洲| 日韩高清一区 | 五月婷婷丁香色| 91 九色视频丝袜| 亚洲人成网站日本片| 亚洲人成网站色7799在线播放| 日韩在线影院| 欧洲亚洲欧美国产日本高清| 亚洲成在线观看| 国产主播一区二区三区| 女人毛片a级大学毛片免费 |