999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于語料庫的日語動詞格框架自動構造技術

2007-01-01 00:00:00倪瑞煜戴新宇尹存燕陳家駿
計算機應用研究 2007年6期

摘 要:結合一個基于格語法的日漢機器翻譯系統,針對現有系統日語動詞格框架缺乏的現狀,提出一種日語動詞格框架自動構造方法。該方法基于類比與統計思想,從現有的少量人工構造的動詞格框架和大量生語料出發,自動構造日語動詞格框架。

關鍵詞:機器翻譯; 日語; 格語法; 動詞格框架; 構造; 規則; 統計

中圖分類號:TP391.2文獻標志碼:A

文章編號:1001-3695(2007)06-0066-03

0 引言

從實現方式來看,機器翻譯可以分為基于規則和基于語料庫(基于統計和基于實例)兩種途徑。基于規則的日漢機器翻譯系統主要包括日語分析、轉換和漢語生成。在日語分析中,根據日語語法的特點[1],采用基于短語結構文法和格語法[2]的句法、語義分析技術。分析過程中對格短語深層格設置的準確與否,對最終機器翻譯結果的準確生成有很重要的影響。格短語深層格設置的依據是日語動詞格框架詞典,因此翻譯系統動詞格框架詞典的完備性越好,翻譯的效果就越好。本文結合一個日漢機器翻譯系統,針對該系統日語動詞格框架缺乏的問題,提出了一個自動構造日語動詞格框架的方法。

目前,日漢機器翻譯系統中僅收錄了1 800多個動詞的具體格框架,而對一個21萬日文單句的語料分析,動詞格框架的命中率只有37.5%;另一方面,本系統所使用的日漢詞典中收錄的動詞有近10 000條。因此增大動詞格框架的規模,提高動詞格框架的命中率,對分析結果的準確性以及對翻譯結果的質量有很重要的影響。

文獻[3,4]均對日語動詞格框架的自動構造作了研究,但實驗中并未考慮格短語深層格的確定。

本文首先介紹了日漢機器翻譯系統分析模塊的基本框架;根據當前系統的需求提出了一個日語動詞格框架自動構造方法;最后列出了一部分實驗結果,并作了簡要分析。

1 翻譯系統分析模塊基本框架

在本文的日漢機器翻譯系統中,日語分析基于日語“句節”的短語結構文法和格語法進行,采用句法、語義分析一體化的分析策略。分析結果為帶有深層格標記的日語句法樹。

例如對于日語句子“私は明日學校へ行かない。”,其分析結果[5]如下:

通用格框架的設立是為了在即使對應的動詞格框架不存在的情況下,也能根據通用規則對每個格短語確定深層格,保證了分析結果的完備性。從式(4)中可以看出,通用格框架忽略動詞,只考慮表層格和語義碼,無法區分處理特殊動詞,因此不可避免地帶來了分析結果準確性的降低。

2 動詞格框架自動構造

單靠人力整理日語中每個動詞的格框架固然可以保證準確性,但是耗費大量的人力物力卻仍然難以保證完備性。隨著動詞格框架規模的擴大,常用的動詞格框架已經被收錄,發現新的動詞格框架會變得更加困難。如果已有足夠龐大的日語樹庫作為支撐,那么動詞格框架的抽取也會變得比較簡單。現實情況下,足夠龐大的日語樹庫很難獲取,但足夠龐大的日文生語料卻有很多。

基于上述問題,本文提出一個日語動詞格框架的自動構造方法。該方法基于類比與統計思想,根據對生語料的分析,結合已有的動詞格框架自動構造出新的動詞格框架。構造過程分為抽取搭配結構、格框架構造兩個階段。

2.1 抽取搭配結構

根據系統的分析規則對日語生語料進行淺層句法分析,即不作語義分析,僅將日語句子轉換成規范的句法樹結構。例如,對于日語句子“私は明日學校へ行かない。”,淺層句法分析結果如下:

從以上句法樹中可以提取出動詞短語與格短語的搭配結構,構成(〈動詞〉, 〈語義碼〉, 〈格助詞〉)的三元組。其中〈語義碼〉為與動詞搭配的格短語中心詞的語義碼;〈格助詞〉為格短語的格助詞。例如上例中,提取出下面三個三元組:

2.2 格框架構造

首先給出下文需要用到的幾個集合定義。

2.3 動詞距離的計算

3 實驗結果分析

經過上述算法構造出的動詞格框架基本覆蓋了生語料中的所有動詞。但是因為分詞、句法分析模塊的準確性不夠高,以及語料可能的稀疏,會造成部分格框架的不準確。結果需要經過人工校對篩選。

下面列出一部分得到的動詞格框架結果:

將擴充前后的翻譯結果進行對比,發現擴充后糾正了許多由于深層格設置錯誤導致的錯誤翻譯。表1列出一部分糾正案例以及錯誤原因。例如在第一個例子中,格短語“私たちの町に”的深層格原先被錯誤地設置為SPA(在某個地方),現被糾正為STO(去某個地方,帶有方向性)。因此現在的翻譯結果也能更準確地表達“暴風雨”接近的“方向性”了。

4 結束語

本文在日語動詞格框架自動構造方面進行了一點嘗試,自動構造經人工篩選后的結果與現有動詞格框架合并后,用于日漢機器翻譯系統,提高了日語分析以及漢語生成的準確性,改善了翻譯質量。

在未來的工作中,將進一步研究日語動詞的使用規律。在如何更好地利用可靠的搭配信息以及更多的特征計算動詞相似度方面作進一步的研究。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 色偷偷一区二区三区| 中文字幕久久精品波多野结| 国产91在线|日本| 国产xx在线观看| 欧美日韩午夜视频在线观看| 1024你懂的国产精品| 岛国精品一区免费视频在线观看 | 亚洲一道AV无码午夜福利| 2020最新国产精品视频| 国产成人做受免费视频| 亚洲AV无码乱码在线观看裸奔| 久久综合一个色综合网| 伊人久久大香线蕉aⅴ色| 亚洲啪啪网| 中文成人在线视频| 国产麻豆精品在线观看| 爱色欧美亚洲综合图区| 国产精品冒白浆免费视频| 亚洲性视频网站| аv天堂最新中文在线| 国产精品手机视频一区二区| 亚洲久悠悠色悠在线播放| 亚洲一级无毛片无码在线免费视频| 97视频在线观看免费视频| 亚洲精品无码日韩国产不卡| 国产亚洲高清视频| 国产成人喷潮在线观看| 国产精品白浆在线播放| 国产美女主播一级成人毛片| 国产一级小视频| 激情视频综合网| 狠狠躁天天躁夜夜躁婷婷| 国产乱人乱偷精品视频a人人澡| 国产成人乱码一区二区三区在线| 欧美日韩在线亚洲国产人| 亚洲永久精品ww47国产| m男亚洲一区中文字幕| 亚洲人成影院午夜网站| 亚洲成人网在线观看| 国产超薄肉色丝袜网站| 一级毛片在线播放免费观看| 色综合日本| 成人免费午夜视频| 一级毛片在线播放免费观看 | 亚洲狼网站狼狼鲁亚洲下载| 亚洲国产成人在线| 亚洲国产日韩在线成人蜜芽| 鲁鲁鲁爽爽爽在线视频观看| 欧美成一级| 9啪在线视频| 一级毛片高清| 在线播放91| 久久成人免费| 伊人久久青草青青综合| 欧美精品影院| 日韩在线永久免费播放| 青草视频网站在线观看| 欧美午夜视频| 精品国产香蕉在线播出| 国产尤物视频网址导航| 91精品专区国产盗摄| 亚洲二区视频| 2020极品精品国产| 亚洲视频黄| 亚洲成人网在线播放| 日韩欧美国产中文| 香蕉蕉亚亚洲aav综合| 午夜无码一区二区三区在线app| 国产成人一区免费观看| 日本三级精品| 国产成人啪视频一区二区三区 | 日韩免费毛片视频| 狠狠色狠狠色综合久久第一次| 国产精品蜜臀| 91精品人妻互换| 久操线在视频在线观看| 伊人网址在线| 国产色爱av资源综合区| 美女国内精品自产拍在线播放 | 日韩国产亚洲一区二区在线观看| 精品国产成人a在线观看| 亚洲无卡视频|