999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合句法特征的漢—老雙語詞語對齊算法研究

2018-05-15 08:31:14李思卓周蘭江周楓郭劍毅
軟件導(dǎo)刊 2018年4期

李思卓 周蘭江 周楓 郭劍毅

摘 要:詞語對齊技術(shù)一直是自然語言處理的基礎(chǔ)問題。為實現(xiàn)漢―老雙語自動詞對齊,首先對老撾語存在的修飾詞與中心詞順序倒置、結(jié)構(gòu)和位置上的差異性等特征進行了分析,通過分析篩選出一些漢―老雙語特征并將這些特征融合,對其構(gòu)建特征函數(shù),以最小錯誤率算法為條件,在對數(shù)線性模型框架下訓(xùn)練模型參數(shù),將IBM3模型作為基礎(chǔ)比較模型,通過逐步添加特征函數(shù)從而實現(xiàn)與基礎(chǔ)模型的對比。實驗證明,該方法可有效提高漢-老雙語詞對齊質(zhì)量。

關(guān)鍵詞:漢―老雙語詞對齊;特征函數(shù);最小錯誤率算法;對數(shù)線性模型;IBM3模型

DOIDOI:10.11907/rjdk.172624

中圖分類號:TP312

文獻標識碼:A 文章編號:1672-7800(2018)004-0009-04

Abstract:Word alignment has been regarded as one of the basic problems in natural language processing. In order to realize Laos-Chinese bilingual automatic word alignment, this paper analyzes the features of the inverted order of modifiers and central words in sentences and the differences in structure and location of the Lao. By summarizing the above characteristics, we selecte some of the Laos-Chinese bilingual features and fused these features, constructed feature function and trained the model parameters by the minimum error rate algorithm under the framework of Log-Linear model, based on IBM Model 3. During the experiment, we achieve the contrast to the underlying model by adding feature functions to the alignment model step by step. Experimental results show that this algorithm can effectively improve the quality of the Laos-Chinese bilingual word alignment.

Key Words:Laos-Chinese bilingual word alignment; feature function; the minimum error rate algorithm; log-linear model; IBM Model

0 引言

雙語詞語對齊由Brown等提出,作為機器翻譯的一個隱含過程。Och等在IBM的5個模型基礎(chǔ)上開發(fā)了詞對齊開源工具GIZA++;Blunsom等加入了二叉決策,基于條件隨機場改進了算法搜索過程。Liu等進行了創(chuàng)新,在處理詞對齊問題時利用對數(shù)線性模型,針對不同雙語對齊語言將語法特點轉(zhuǎn)化成特征模型,從而提高詞對齊效果。

本文對漢-老雙語的語言特點進行了深入細致分析。為實現(xiàn)漢―老雙語自動詞對齊,以漢語為標準,通過總結(jié)老撾語特征,將這些特征融合,構(gòu)建特征函數(shù),以IBM3模型為基礎(chǔ),提出了一種融合多種老撾語依存句法特征函數(shù)的詞對齊算法,實驗證明該方法可有效提高漢-老雙語詞對齊質(zhì)量。

1 對數(shù)線性模型

本文以IBM 3為基礎(chǔ)特征函數(shù),在IBM3的基礎(chǔ)上逐步增加針對老撾語語言特點設(shè)計的特征函數(shù),從而進行效果對比。

2 漢語-老撾語詞對齊特征函數(shù)

2.1 IBM模型

本文中,兩種不同對齊方向的IBM3特征模型被當作不同特征:源語言和目標語言都可以是漢語或老撾語。

2.2 漢-老詞對齊特征函數(shù)

2.2.1 老撾語-漢語詞語定語倒置函數(shù)

與漢語相比,老撾語較為明顯的特征是修飾詞通常置于所修飾的中心詞之后。也就是說,漢語句子成分的排列順序為:(定語)主語+謂語+(定語)賓語,而在老撾語中順序是:主語(定語)+謂語+賓語(定語)。例如,漢語的“他父親開新車”的老撾語為:“(父親)(他)(開)(車)(新)”。從上面例子可以看出,無論中心詞是主語還是謂語,充當修飾功能的定語都是位于中心詞之后的,本文稱這種現(xiàn)象為修飾區(qū)間后置。因此,本文將老撾語句子分成兩塊,第一塊由名詞充當?shù)闹行脑~,標記為Nd;第二塊由形容詞充當?shù)男揎椩~,標記為Ad。

2.2.2 漢語-老撾語狀語末置函數(shù)

當源語言為漢語時,就可將此模型加入到以IBM3模型為基礎(chǔ)模型的對數(shù)線性框架中,其特征函數(shù)表示為公式(16):

需要特別指出的是,該特征函數(shù)是單向的,即源語言為漢語,目標語言為老撾語。

3 參數(shù)訓(xùn)練及搜索

3.1 模型參數(shù)訓(xùn)練

3.2 搜索過程

本文通過基于棧的搜索方法,在對齊特征函數(shù)權(quán)重λ的條件下,將概率最大的雙語詞語對齊結(jié)果從M維詞對齊空間搜索出來。

4 實驗與結(jié)果分析

為了驗證該詞對齊方法的可行性,在由人工對齊的漢-老雙語平行句對上展開實驗。基礎(chǔ)比較模型為IBM3,在實驗語料上得出詞對齊實驗結(jié)果。實驗中使用的開發(fā)集、測試集和訓(xùn)練集數(shù)據(jù)如表1所示。

本文使用ICTCLAS(Zhang et al.,2003)對開發(fā)集和測試集中的漢語句子進行分詞和標注,老撾語使用東南亞語言信息處理平臺[14]分詞和標注。對開發(fā)集和測試集中的各500個句對進行人工對齊,用來優(yōu)化模型參數(shù)和增益閾值。

實驗以IBM 3模型作為比較對象,為了更好地體現(xiàn)每個特征函數(shù)對漢老雙語詞對齊的約束作用,將不同于以上3類特征模型按詞性細分為幾種特征函數(shù),在以IBM 3模型為基礎(chǔ)的特征函數(shù)上逐步增加前文中定義的幾個特征函數(shù)。實驗結(jié)果如表2所示。在同一漢-老雙語語料庫下,“IBM(both directions)”表示漢-老雙語詞對齊框架僅僅使用IBM3翻譯模型作為特征函數(shù),“+DCL”表示漢語-老撾語狀語末置模型,“+USCL”表示漢語-老撾語數(shù)詞對照模型,“+UDCL”表示漢語-老撾語數(shù)詞倒置模型,“+PCL(ADJ)”表示在此基礎(chǔ)上添加了漢語-老撾語方向定語倒置模型。

待評測對齊結(jié)果集合為A,人工對齊結(jié)果分為兩類集合:確定性對齊集合S和不確定性對齊P,AER計算公式如下:

從表2可以看出,在相同規(guī)模的老撾語-漢語雙語語料庫下,逐漸增加上述特征函數(shù)后,對齊效果明顯好于僅使用IBM 3模型作為特征函數(shù)的對齊模型,這說明修飾區(qū)間后置和句子主干對照特征對老撾語-漢語雙語詞語對齊起到了重要作用。

5 結(jié)語

本文在對數(shù)線性模型框架下,針對老撾語語言特點設(shè)計對齊特征函數(shù),將老撾語語言相關(guān)的統(tǒng)計特性加入到詞語對齊模型中,以最小錯誤率算法為條件,在對數(shù)線性模型框架下訓(xùn)練模型參數(shù)。以IBM 3模型為基礎(chǔ)比較模型,提出了一種在對數(shù)線性模型基礎(chǔ)上融合多種老撾語依存句法特征函數(shù)的詞對齊算法,在實驗中通過逐步添加特征函數(shù)到對齊模型,實現(xiàn)了與基礎(chǔ)模型的對比。實驗結(jié)果表明,針對老撾語句法特點設(shè)計的特征函數(shù)可以明顯改善漢-老雙語語詞對齊效果。下一步會將更多的句法特征和依存句法結(jié)構(gòu)加入到模型中,以進一步提高漢-老雙語詞對齊效果。

參考文獻:

[1] SHEMTOV H.Text alignment in a tool for translating revised documents[C].Proc of the Sixth Conference of the European Chapter of the Association for Computational Linguistics, Utrecht, Netherlands,1993:449-453.

[2] WANG X Z, HE Y L, WANG D D. Non-naive bayesian classifiers for classification problems with continuous attributes[J]. Cybernetics, IEEE Transactions on,2014,44(1):21-39.

[3] RILEY D, GILDEA D. Improving the IBM alignment models using variational bayes[C].Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. Association for Computational Linguistics,2012:306-310.

[4] CHERRY C, FOSTER G. Batch tuning strategies for statistical machine translation[C].Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics,2012:427-436.

[5] TANG J, GENTZLER E. Globalisation, networks and translation: a chinese perspective[J]. Perspectives: Studies in Translatology,2009,16(3-4):169-182.

[6] BROWN P F, PIETRA V J D, PIETRA S A D, et al. The mathematics of statistical machine translation: parameter stimation[J]. Computational linguistics,1993,19(2):263-311.

[7] OCH F J, NEY H. A systematic comparison of various statistical alignment models[J]. Computational linguistics,2003,29(1):19-51.

[8] BLUNSOM P, COHN T. Discriminative word alignment with conditional random fields[C].Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics,2006:65-72.

[9] TUFID, ION R, CEAUU A, et al. Combined word alignments[C].Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics,2005:107-110.

[10] LIU Y, LIU Q, LIN S. Discriminative word alignment by linear modeling[J]. Computational Linguistics, 2010,36(3):303-339.

(責任編輯:杜能鋼)

主站蜘蛛池模板: 青青草原国产| 欧美日韩资源| 免费三A级毛片视频| 国产亚洲欧美日韩在线一区二区三区 | 国产福利在线观看精品| 潮喷在线无码白浆| 都市激情亚洲综合久久| 国产剧情国内精品原创| 国产精品无码久久久久久| 真人免费一级毛片一区二区| 国产va欧美va在线观看| 99尹人香蕉国产免费天天拍| 午夜a级毛片| 亚洲水蜜桃久久综合网站| 孕妇高潮太爽了在线观看免费| 亚洲精品国产精品乱码不卞| 日韩色图在线观看| 在线观看免费AV网| 国产激情在线视频| 亚洲精品中文字幕无乱码| 91人妻日韩人妻无码专区精品| av色爱 天堂网| 国产白丝av| 啪啪啪亚洲无码| 国产一级无码不卡视频| 91人妻日韩人妻无码专区精品| 热re99久久精品国99热| 玩两个丰满老熟女久久网| 无码中字出轨中文人妻中文中| 亚洲天堂伊人| 欧美在线网| 成人一区在线| 久久国语对白| 国产亚洲欧美另类一区二区| 亚洲欧美一级一级a| 日本人妻丰满熟妇区| 国产不卡一级毛片视频| 午夜视频www| 国内丰满少妇猛烈精品播| 国产色婷婷| 久操中文在线| 亚洲天堂久久| 日韩精品亚洲人旧成在线| 又猛又黄又爽无遮挡的视频网站| 国产男人的天堂| 欧美成人看片一区二区三区| 中文字幕久久波多野结衣| 日韩AV无码一区| a天堂视频| 国产一级二级三级毛片| 福利一区三区| 午夜国产理论| 91精品啪在线观看国产60岁| 色网站在线免费观看| 色天天综合久久久久综合片| 很黄的网站在线观看| 国产亚洲欧美在线专区| 亚洲69视频| 成人伊人色一区二区三区| 香港一级毛片免费看| 日本道综合一本久久久88| 日韩精品专区免费无码aⅴ| 天堂成人在线| 在线观看免费黄色网址| www.精品国产| 99久久99这里只有免费的精品| 在线观看精品国产入口| 国模粉嫩小泬视频在线观看| 99re这里只有国产中文精品国产精品| 国产又粗又爽视频| 欧美精品高清| 日韩123欧美字幕| 九色综合视频网| 91精选国产大片| 国产91高跟丝袜| 国产精品人人做人人爽人人添| 国产美女在线免费观看| 亚洲精品va| 国产噜噜噜| 亚洲黄色高清| 欧美激情视频二区| 亚洲欧美国产五月天综合|