999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合檢索技術(shù)的譯文推薦系統(tǒng)

2017-04-08 05:55:36蔣宗禮王威
關(guān)鍵詞:模型系統(tǒng)

蔣宗禮, 王威

(北京工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100124)

融合檢索技術(shù)的譯文推薦系統(tǒng)

蔣宗禮, 王威

(北京工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100124)

本文將基于單語(yǔ)語(yǔ)料的檢索技術(shù)運(yùn)用到機(jī)器翻譯中,構(gòu)建了一個(gè)漢英譯文推薦系統(tǒng),解決傳統(tǒng)方法雙語(yǔ)料庫(kù)構(gòu)建代價(jià)高昂的問(wèn)題,同時(shí)提高最終譯文的流暢性。譯文推薦系統(tǒng)包括查詢(xún)翻譯和信息檢索兩部分:查詢(xún)翻譯根據(jù)給定的一組中文,生成N-best英文結(jié)果;信息檢索評(píng)價(jià)目標(biāo)語(yǔ)言與候選譯文的相似程度。系統(tǒng)綜合兩部分得分返回推薦譯文。考慮到N-best結(jié)果與候選譯文的詞序一致性,采用Levenshtein距離使得排序結(jié)果更加合理。在英漢數(shù)據(jù)集上的實(shí)驗(yàn)表明:在不同n階語(yǔ)言模型下,譯文推薦系統(tǒng)都有很好的表現(xiàn),加入Levenshtein距離取得了最高70.83%的f測(cè)度值。

信息檢索;機(jī)器翻譯;自然語(yǔ)言處理;單語(yǔ)語(yǔ)料;Levenshtein距離;推薦系統(tǒng);跨語(yǔ)言

信息時(shí)代,每天都有不同語(yǔ)言的信息在生成、傳播和轉(zhuǎn)換。跨語(yǔ)言信息檢索[1](cross-language information retrieval, CLIR)為克服語(yǔ)言障礙提供了一種方便的途徑。

融合檢索技術(shù)的譯文推薦系統(tǒng),簡(jiǎn)稱(chēng)為翻譯檢索(translation retrieval, TR)系統(tǒng),將翻譯問(wèn)題轉(zhuǎn)化成檢索問(wèn)題,屬于CLIR問(wèn)題的一個(gè)特例。其不同之處在于檢索模型的相關(guān)性評(píng)價(jià)。CLIR返回與用戶(hù)查詢(xún)意圖最相近的文檔,而TR的文檔庫(kù)由單個(gè)句子構(gòu)成,最終得到的是包含查詢(xún)譯文的句子。

翻譯檢索的概念最早由Baldwin等[2]在翻譯記憶系統(tǒng)中提出,與基于樣例[3]的翻譯相似,該方法依賴(lài)大規(guī)模的高質(zhì)量雙語(yǔ)語(yǔ)料。學(xué)者從互聯(lián)網(wǎng)中獲得平行語(yǔ)料[4-5],代價(jià)仍然高昂。Berger等[6]將統(tǒng)計(jì)機(jī)器翻譯的方法運(yùn)用到信息檢索中,F(xiàn)ederico等[1]實(shí)現(xiàn)了一個(gè)基于N-best查詢(xún)翻譯的CLIR系統(tǒng),將需求分為查詢(xún)翻譯模型和查詢(xún)文檔模型。信息檢索方面,Ng[5]采用一個(gè)最大似然估計(jì)的信息檢索模型,Witten[6]使用平滑策略來(lái)優(yōu)化概率估計(jì),Navarro在文獻(xiàn)[7]介紹了字符串相似性匹配的相關(guān)技術(shù)。Sanchez-Martinez等[8]用源文檔檢索目標(biāo)文檔,比較了使用統(tǒng)計(jì)機(jī)器翻譯技術(shù)的不同策略。陳士杰等[9]實(shí)現(xiàn)了一個(gè)基于Lucene的英漢跨語(yǔ)言信息檢索系統(tǒng),旨在尋找更為有效的英漢查詢(xún)翻譯方法以及提高中文檢索系統(tǒng)的性能。

傳統(tǒng)漢英翻譯檢索方法的效果嚴(yán)重依賴(lài)于漢英平行語(yǔ)料庫(kù)的規(guī)模與質(zhì)量。TR系統(tǒng)使用單語(yǔ)語(yǔ)料庫(kù)實(shí)現(xiàn)翻譯檢索,提高譯文流暢性的同時(shí),解決了雙語(yǔ)料庫(kù)構(gòu)建代價(jià)太大的問(wèn)題,其返回的單個(gè)句子直接為翻譯人員提供輔助。

本文研究如何在漢英數(shù)據(jù)集上利用檢索模型為翻譯人員提供參考譯文。系統(tǒng)由查詢(xún)翻譯子系統(tǒng)和檢索子系統(tǒng)構(gòu)成,查詢(xún)翻譯子系統(tǒng)采用基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法,對(duì)給定的中文查詢(xún),翻譯出N-best條查詢(xún)譯文。檢索子系統(tǒng)采用單語(yǔ)語(yǔ)料庫(kù),基于向量空間模型評(píng)價(jià)查詢(xún)譯文與文檔的相似性,最后返回高質(zhì)量的參考譯文。同時(shí),檢索子系統(tǒng)根據(jù)Levenshtein距離給出更恰當(dāng)?shù)膮⒖甲g文排序。

1 翻譯檢索系統(tǒng)

依統(tǒng)計(jì)學(xué)的角度,融合檢索技術(shù)的譯文推薦系統(tǒng)可以描述如下。

給定一個(gè)中文查詢(xún)s,本文希望從文檔集合D中返回具有最大翻譯概率的譯文d′:

d′=argmaxd∈D{Pr(d|s)}

注意到中文查詢(xún)一般為一句話,因此文檔集合包含的并非一系列長(zhǎng)段文檔,而是目標(biāo)語(yǔ)言的一系列句子。更一般地,系統(tǒng)應(yīng)返回多個(gè)按相關(guān)度排序的候選譯文,翻譯人員依次瀏覽獲得幫助。

為了解決中文查詢(xún)s與對(duì)應(yīng)的英語(yǔ)文檔d的差異問(wèn)題,引入隱藏變量t,表示查詢(xún)s對(duì)應(yīng)的N-best譯文中的某個(gè)句子。同時(shí)假設(shè)對(duì)給定的s與t,d產(chǎn)生的概率只與t有關(guān):

Pr(d|s)=Pr(d,t|s)=Pr(t|s)×Pr(d|t)

式中:Pr(t|s)由查詢(xún)翻譯子系統(tǒng)計(jì)算,Pr(d|t)將由檢索子系統(tǒng)計(jì)算。

1.1 系統(tǒng)架構(gòu)

圖1給出融合檢索技術(shù)的譯文推薦系統(tǒng)的整體架構(gòu),系統(tǒng)接受一個(gè)中文查詢(xún),最終返回多個(gè)候選譯文。

圖1 翻譯檢索系統(tǒng)總體架構(gòu)Fig.1 Translation retrieval system architecture

系統(tǒng)分為查詢(xún)翻譯子系統(tǒng)和檢索子系統(tǒng),其中漢英平行語(yǔ)料庫(kù)用來(lái)訓(xùn)練查詢(xún)翻譯模型,英文單語(yǔ)語(yǔ)料庫(kù)用來(lái)提供檢索查詢(xún)。

本文借助NiuTrans構(gòu)建查詢(xún)翻譯子系統(tǒng)[10],訓(xùn)練翻譯模型以及n-gram語(yǔ)言模型。輸入的中文經(jīng)過(guò)查詢(xún)翻譯子系統(tǒng)得到目標(biāo)語(yǔ)言英文的N-best譯文。檢索子系統(tǒng)接受查詢(xún)翻譯系統(tǒng)的輸出結(jié)果,以Apache Lucene為基礎(chǔ),采用向量空間模型計(jì)算查詢(xún)語(yǔ)句與候選文檔的相似度,通過(guò)加入Levenshtein距離,使最終返回的參考譯文的排序更合理。

1.2 查詢(xún)翻譯子系統(tǒng)

查詢(xún)翻譯子系統(tǒng)計(jì)算將中文查詢(xún)翻譯成英文的概率,并得到N-best英文譯文,該問(wèn)題可描述為

式中:Pr(t|s)表示把給定源語(yǔ)言查詢(xún)s翻譯成目標(biāo)語(yǔ)言查詢(xún)t的可能性。為了求得Pr(t|s),引入對(duì)數(shù)線性(log-linear)模型:

(1)

式中:{hi(s,t)|i=1,2,…,M}是計(jì)算Pr(t|s)的特征集合,λi表示第i個(gè)特征對(duì)應(yīng)的權(quán)重值,該值由最小錯(cuò)誤率函數(shù)訓(xùn)練[11](minimum error rate training,MERT)。

本文的查詢(xún)翻譯子系統(tǒng)采用基于短語(yǔ)的翻譯模型,選用了如下特征:

1) 短語(yǔ)翻譯概率PrΦ(t|s),該概率決定了源語(yǔ)言短語(yǔ)是否能正確地翻譯成英文,其值通過(guò)最大似然估計(jì)獲得。

2) 反向短語(yǔ)翻譯概率PrΦ(s|t),雙向的翻譯概率通常優(yōu)于僅僅使用正向的模型。

3) 詞匯加權(quán)概率Prlex(t|s),這是一種平滑方法,把短語(yǔ)分解成詞的翻譯來(lái)檢查它們的匹配程度,用來(lái)衡量不常出現(xiàn)短語(yǔ)的可靠性。

4) 反向詞匯加權(quán)概率Prlex(s|t),雙向的詞匯加權(quán)概率得到更優(yōu)的翻譯質(zhì)量。

5) 語(yǔ)言模型概率Prlm(t),表示目標(biāo)語(yǔ)言查詢(xún)t在語(yǔ)料中出現(xiàn)的概率,確保輸出句子的流利性,賦予較大權(quán)重。

6) 位變模型概率Prd(s,t),衡量短語(yǔ)調(diào)序的正確性,包括基于最大熵的調(diào)序模型fme(s,t)和基于MSD的調(diào)序模型fmsd(s,t)。

7) 加權(quán)激勵(lì)(bonus),包括單詞激勵(lì)(TWB)length(t);單詞刪除激勵(lì)(WDB);短語(yǔ)激勵(lì)(PB)。

用式(1)將所有的特征用對(duì)數(shù)線性模型結(jié)合起來(lái),得到

Pr(t|s)=PrΦ(t|s)λ1×PrΦ(s|t)λ2×
Prlex(t|s)λ3×Prlex(s|t)λ4×
Prd(s,t)λ5×Prlm(t)λ6×exp(λTWB×
length(t))×exp(λPB)×exp(λWDB)

為了優(yōu)化特征權(quán)值,令S=(s1,s2,…,sm)表示源語(yǔ)言句子,u(λ)為權(quán)值的估計(jì),T(u(λ))=(t1,t2,…,tm)為目標(biāo)譯文結(jié)果,R=(r1,r2,…,rm)是標(biāo)準(zhǔn)譯文,根據(jù)MERT算法有

采用BLEU值定義錯(cuò)誤函數(shù)Err(),通過(guò)上述多次迭代得到適合的特征權(quán)重。

Err(T(u(λ)),R)=1-BLEU(T(u(λ)),R)

1.3 檢索子系統(tǒng)

檢索子系統(tǒng)計(jì)算從查詢(xún)語(yǔ)句t到文檔d的可能性,使用基于向量空間模型構(gòu)建檢索算法。查詢(xún)和文檔被表示為向量,其相似度通過(guò)向量夾角的余弦值表示:

(2)

其中

wt,t′=lg(N/ft′)+1,wd,t′=lg(fd,t′+1)

本文將查詢(xún)語(yǔ)句t中的一項(xiàng)表示為t′。fd,t′是項(xiàng)t′在文檔d中出現(xiàn)的頻率。N是文檔總數(shù),ft′是包含項(xiàng)t′的文檔數(shù)目。

受詞錯(cuò)誤率啟發(fā),考慮到查詢(xún)翻譯子系統(tǒng)生成的N-best目標(biāo)結(jié)果與單語(yǔ)語(yǔ)料庫(kù)候選譯文詞序上的一致性,本文在檢索模型中引入Levenshtein距離[12]計(jì)算查詢(xún)語(yǔ)句與候選文檔的最少編輯次數(shù),以此作為衡量?jī)烧呦嗨菩缘奶卣髦?。Levenshtein距離的加入使得候選文檔可以按對(duì)原查詢(xún)語(yǔ)言的忠實(shí)度排序,在語(yǔ)序上保持一致性,因此可以提高準(zhǔn)確率,后文實(shí)驗(yàn)中將對(duì)比加入Levenshtein距離和不加入Levenshtein距離的差異性。

用E(t,d)表示Levenshtein距離的得分,式(2)可寫(xiě)為

E(t,d)λ2

同樣,λ值由MERT算法訓(xùn)練。

2 翻譯檢索算法

結(jié)合兩個(gè)子系統(tǒng),TR系統(tǒng)的算法可描述為兩階段。第一階段計(jì)算Pr(t|s)。為縮小解空間,只取源語(yǔ)言s的N-best譯文,生成集合Bn(s):

第二階段計(jì)算Pr(d|t)。限定候選文檔中必須至少包含查詢(xún)語(yǔ)的一項(xiàng),令D(t)表示包含查詢(xún)項(xiàng)的文檔集合

算法偽代碼見(jiàn)算法1。給定一個(gè)中文查詢(xún)s,首先生成s的N-best譯文集合Bn(s),對(duì)每個(gè)屬于集合的t,計(jì)算對(duì)應(yīng)的概率得分Pr′(t|s)。然后對(duì)包含查詢(xún)語(yǔ)的文檔集合D(t)計(jì)算其中每個(gè)文檔d的得分,最終對(duì)候選文檔進(jìn)行排序。

算法 1:翻譯檢索算法

1)輸入中文查詢(xún)s;

2)由查詢(xún)翻譯子系統(tǒng)生成集Bn(s);

3)對(duì)每一個(gè)屬于Bn(s)的目標(biāo)語(yǔ)句t

4) 計(jì)算Pr′(t|s);

5)對(duì)每一個(gè)屬于Bn(s)的目標(biāo)語(yǔ)句t

6)N=0

7) 對(duì)每一個(gè)d∈D(t)

8) 計(jì)算Pr′(t|s);

9) 更新N=N+Pr′(d|t);

10) 對(duì)每一個(gè)d∈T(t)

11) 更新Pr(d)=Pr(d)+Pr′(t|s)×Pr′(d|t)/N;

12)返回n條排序過(guò)的候選文檔;

算法2:1-best翻譯檢索算法

1)輸入中文查詢(xún)s;

5)返回n條排序過(guò)的候選文檔;

3 實(shí)驗(yàn)評(píng)估

本文在英漢數(shù)據(jù)集上進(jìn)行了多組實(shí)驗(yàn),對(duì)比不同參數(shù)對(duì)最終結(jié)果的影響:

1) 不同個(gè)數(shù)的N-best譯文。N分別取1、5、10;

2)n元文法模型的n分別取3、4;

3) 是否加入Levenshtein距離。

3.1 數(shù)據(jù)集

融合檢索技術(shù)的譯文推薦系統(tǒng)是數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng),采用的數(shù)據(jù)集由NiuTrans提供。細(xì)分為六個(gè)部分:

1) 翻譯模型訓(xùn)練集,包含45 M條漢英平行語(yǔ)料和對(duì)應(yīng)的對(duì)齊語(yǔ)料;

2) 語(yǔ)言模型訓(xùn)練集,包含18 M條單語(yǔ)語(yǔ)料;

3) 優(yōu)化調(diào)整數(shù)據(jù)集,包含130 k條中文語(yǔ)料以及其對(duì)應(yīng)的參考譯文,用來(lái)進(jìn)行最小錯(cuò)誤率訓(xùn)練;

4) 測(cè)試數(shù)據(jù)集,包含140 k條中文語(yǔ)句;

5) 標(biāo)準(zhǔn)譯文數(shù)據(jù)集,測(cè)試集的標(biāo)準(zhǔn)譯文(323 k);

6) 檢索文檔數(shù)據(jù)集,包含50 M英文語(yǔ)料(內(nèi)含50%的標(biāo)準(zhǔn)譯文)。

對(duì)中文語(yǔ)料使用ICTCLAS2011進(jìn)行分詞,并用空格隔開(kāi)。漢英對(duì)齊來(lái)自GIZA++的結(jié)果。對(duì)英文語(yǔ)料做了符號(hào)化和大小寫(xiě)規(guī)整的預(yù)處理。檢索的每個(gè)文檔由單個(gè)句子構(gòu)成。

3.2 評(píng)測(cè)指標(biāo)

本文采用目前應(yīng)用最為廣泛的自動(dòng)評(píng)測(cè)指標(biāo)BLEU[13](bilingual evaluation understudy)。它是一種有效解決詞序作用的評(píng)測(cè)方法,考慮了機(jī)器翻譯譯文與參考譯文中較長(zhǎng)n元文法的匹配情況。

通常將n元文法的最大階數(shù)設(shè)置為4,因此BLEU指標(biāo)定義為

式中:T、R分別表示目標(biāo)語(yǔ)言與標(biāo)準(zhǔn)譯文,Precisionn(T,R) 是n元文法的準(zhǔn)確率,BP(brevity penalty)是一個(gè)長(zhǎng)度懲罰因子。

在BLEU基礎(chǔ)上,加入人工評(píng)測(cè),對(duì)結(jié)果進(jìn)行準(zhǔn)確率和召回率的評(píng)測(cè),在返回的n條文檔中比較能否包含參考譯文。一般的,我們既不想輸出錯(cuò)誤單詞也不想遺漏任何信息,因此同等的對(duì)待準(zhǔn)確率和召回率,定義準(zhǔn)確率和召回率的調(diào)和平均f測(cè)度[13](f-measure@n):

3.3 實(shí)驗(yàn)結(jié)果

本文在漢英數(shù)據(jù)集上隨機(jī)地抽取了多組查詢(xún)語(yǔ)句對(duì)進(jìn)行了實(shí)驗(yàn),對(duì)參數(shù)的不同取值做了對(duì)比實(shí)驗(yàn)。

表1是在1-best條件下,不同階數(shù)語(yǔ)言模型下的5次實(shí)驗(yàn)結(jié)果以及與Moses 4元文法的比較。

表1 不同階數(shù)下的BLEU值和與Moses的比較

Table 1 BLEU scores with differentn-gram setting and comparison with Moses 4-gram setting

實(shí)驗(yàn)序號(hào)BLEU值3-gram4-gramMoses:4-gram134.2135.4534.26233.1634.3933.94334.4435.6235.12433.7134.5234.72534.3535.0434.87平均33.9235.0034.58

從表1中可以看出在1-best條件下,4-gram的語(yǔ)言模型有較好表現(xiàn),結(jié)果優(yōu)于Moses的翻譯結(jié)果。

表2給出在4元文法基礎(chǔ)上不同N-best譯文和加入Levenshtein距離后的實(shí)驗(yàn)結(jié)果。表中:-L表示不加入該距離,相反,+L表示加入。

表3給出加入Levenshtein距離條件下,不同N-best譯文的準(zhǔn)確率(p)和召回率(r)結(jié)果:

表2反映了加入Levenshtein距離的改進(jìn)效果。事實(shí)上,加入Levenshtein距離的檢索模型會(huì)考慮檢索語(yǔ)句與候選文檔間的編輯次數(shù),這樣會(huì)顯著提高結(jié)果的召回率,同時(shí),查詢(xún)翻譯模型的語(yǔ)言模型保證了譯文的流暢性,因此,加入Levenshtein距離也可以更好的提高最終結(jié)果的準(zhǔn)確率,其f測(cè)度值也就更高。

表2 不同數(shù)量N-best譯文在加入/不加入Levenshtein距離下的f測(cè)度結(jié)果

Table 2f-measure results without/with Levenshtein-distance by using differentN-best translation

n條譯文下的f-measure值1-best5-best10-best-L+L-L+L-L+Lf@164.6268.2667.5469.5668.4269.98f@567.4969.6868.8270.8369.0470.13f@1063.3667.2663.5866.9763.0265.52

表3 不同數(shù)量N-best譯文的準(zhǔn)確率與召回率結(jié)果

Table 3 Precision and recall results by using differentN-best translation

譯文數(shù)量1-best5-best10-bestp r p r p r184.5457.2486.6158.1286.6858.68592.3655.9494.1856.7693.9555.941094.4752.2295.0251.4295.8349.78

實(shí)驗(yàn)結(jié)果也表明,在5-best譯文和f@5時(shí)系統(tǒng)得到最佳f測(cè)度值。從表3中可以看出在提供更多候選參考項(xiàng)目時(shí),準(zhǔn)確率會(huì)不斷升高,但其召回率將下降較多,因此,選用適量的候選項(xiàng)目有利于翻譯人員迅速準(zhǔn)確的得到參考結(jié)果。

綜上,從本文在英漢的數(shù)據(jù)集上對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行的自動(dòng)評(píng)測(cè)(BLUE)和人工評(píng)測(cè)(f@n)結(jié)果看,BLEU指標(biāo)優(yōu)于目前主流的基于短語(yǔ)的機(jī)器翻譯系統(tǒng)(Moses)。但需要注意的是,BLEU指標(biāo)只關(guān)注句子的局部,沒(méi)有更多地考慮整體語(yǔ)法的連貫性,所以系統(tǒng)在4元文法基礎(chǔ)上表現(xiàn)不錯(cuò),超出4元文法時(shí)就可能混亂。

由此,本文更加看重實(shí)驗(yàn)結(jié)果的f測(cè)度,從表3看出,準(zhǔn)確率高于召回率,這是利于實(shí)際應(yīng)用的。事實(shí)上,融合檢索技術(shù)的譯文推薦系統(tǒng)旨在為翻譯人員提供參考,提高翻譯的流暢性,并不要求候選文檔與標(biāo)準(zhǔn)譯文完全匹配,因此候選文檔更多的包含標(biāo)準(zhǔn)譯文是更為重要的,即準(zhǔn)確率更能反映出翻譯系統(tǒng)的性能。

4 結(jié)論

融合檢索技術(shù)的譯文推薦系統(tǒng),將翻譯問(wèn)題視作為檢索問(wèn)題,可為翻譯人員提供高質(zhì)量的參考譯文。檢索數(shù)據(jù)集的好壞很大程度決定了最終譯文的參考質(zhì)量,而我們的系統(tǒng)可以方便的獲得大規(guī)模的單語(yǔ)語(yǔ)料集,與傳統(tǒng)的基于平行語(yǔ)料的翻譯系統(tǒng)相比有很大優(yōu)勢(shì)。漢英數(shù)據(jù)集上的實(shí)驗(yàn)表明:

1)與基于短語(yǔ)的翻譯系統(tǒng)相比,我們?nèi)〉昧烁鼉?yōu)的BLEU指標(biāo);

2)將Levenshtein距離加入檢索模型也可以提高f測(cè)度值并取得了最高70.83的f測(cè)度值。

未來(lái),將把本文的成果運(yùn)用到更多種類(lèi)的雙語(yǔ)翻譯中。同時(shí),進(jìn)一步改進(jìn)檢索模型,以求針對(duì)翻譯問(wèn)題提供更為高效的檢索算法。

[1]FEDERICO M, BERTOLDI N. Statistical cross-language information retrieval using n-best query translations[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA: ACM, 2003: 167-174.

[2]BALDWIN T, TANAKA H. The effects of word order and segmentation on translation retrieval performance[C]//Proceedings of the 18th Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2000: 35-41.

[3]Nirenburg S, DOMASHNEV C, GRANNES D J. Two approaches to matching in example-based machine translation[C]//Proceedings of the 5th International Conference on Theoretical and Methodological Issues in Machine Translation. 1993: 47-57.

[4]ZHAO Bing, VOGEL S. Adaptive parallel sentences mining from web bilingual news collection[C]//Proceedings of the 2002 IEEE International Conference on Data Mining. Maebashi City, Japan: IEEE Computer Society, 2002: 745-745.

[5]RESNIK P, SMITH N A. The Web as a parallel corpus[J]. Computational linguistics, 2002, 29(3): 349-380

[6]BERGER A, LAFFERTY J. Information retrieval as statistical translation[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley, California: ACM, 1999: 222-229.

[7]NG K. A maximum likelihood ratio information retrieval model[R]. 2006.

[8]WITTEN I H, BELL T C. The zero-frequency problem: estimating the probabilities of novel events in adaptive text compression[J]. IEEE transactions on information theory, 1991, 37(4): 1085-1094.

[9]NAVARRO G. A guided tour to approximate string matching[J]. ACM computing surveys, 2001, 33(1): 31-88.

[11]陳士杰, 張玥杰. 基于Lucene的英漢跨語(yǔ)言信息檢索[J]. 計(jì)算機(jī)工程, 2005, 31(13): 62-64.

CHEN Shijie, ZHANG Yuejie. English-Chinese cross-language information retrieval using Lucene system[J]. Computer engineering, 2005, 31(13): 62-64.

[12]XIAO Tong, ZHU Jingbo, ZHANG Hao, et al. NiuTrans: an open source toolkit for phrase-based and syntax-based machine translation[C]//Proceedings of the ACL 2012 System Demonstrations. Stroudsburg, PA, USA: Association for Computational Linguistics, 2012: 19-24.

[13]OCH F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2003: 160-167.

[14]LEVENSHTEIN V I. Binary codes capable of correcting deletions, insertions, and reversals[J]. Soviet physics doklady, 1966, 10(8): 707-710.

[15]科恩. 統(tǒng)計(jì)機(jī)器翻譯[M]. 宗成慶, 張霄軍, 譯. 北京: 電子工業(yè)出版社, 2012.

KOEHN P. Statistical machine translation[M]. ZONG Qingcheng, ZHANG Xiaojun, trans. Beijing: Publishing House of Electronics Industry, 2012.

Translation recommendation system with information retrieval technology

JIANG Zongli, WANG Wei

(College of Computer Science and Technology, Beijing University of Technology, Beijing 100124, China)

In this study, we apply a retrieval technology based on a monolingual corpus to machine translation and construct a Chinese-English translation recommendation system. The system solves the problem of conventional approaches that mainly rely on a parallel corpus, which is difficult to collect. It also improves the fluency of the final translation references. The translation recommendation system combines query-translation and information retrieval. For a given set of Chinese queries, the query-translation function generatesN-best English results and the information retrieval function computes the similarity of the query and the candidate translation. The two scores are weighted to return recommended translations. Considering the consistency of word order of theN-best results and the translation candidates, we use Levenshtein-distance to obtain more rational retrieval results. Experiments on English-Chinese data sets show that, under differentn-order language models, the proposed translation recommendation system demonstrates good performance and achieves a maximumf-measure value of 70.83% using Levenshtein-distance.

information retrieval (IR); machine translation (MT); natural language processing (NLP); monolingual corpus; Levenshtein-distance; recommendation system; cross-language

2016-01-14.

日期:2017-01-11.

國(guó)家自然科學(xué)基金項(xiàng)目 (61133003).

蔣宗禮(1956-),男,教授,博士生導(dǎo)師.

蔣宗禮,E-mail: jiangzl@bjut.edu.cn.

10.11990/jheu.201601053

TP391

A

1006-7043(2017)03-0419-06

蔣宗禮, 王威.融合檢索技術(shù)的譯文推薦系統(tǒng)[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2017, 38(3):419-424.

JIANG Zongli, WANG Wei.Translation recommendation system with information retrieval technology[J]. Journal of Harbin Engineering University, 2017, 38(3):419-424.

網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1390.u.20170111.1509.011.html

猜你喜歡
模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無(wú)人機(jī)系統(tǒng)
ZC系列無(wú)人機(jī)遙感系統(tǒng)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
基于PowerPC+FPGA顯示系統(tǒng)
半沸制皂系統(tǒng)(下)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 日韩欧美国产成人| 亚洲欧美日韩中文字幕在线| 在线看片免费人成视久网下载| 国禁国产you女视频网站| 九九九精品成人免费视频7| 综合网久久| 国产亚洲欧美日本一二三本道| 四虎国产成人免费观看| 久久精品丝袜| 国产一区免费在线观看| 永久成人无码激情视频免费| 国产人人乐人人爱| 欧美一级特黄aaaaaa在线看片| 无码区日韩专区免费系列| 欧美成人aⅴ| 日韩国产无码一区| 亚洲人成高清| 国产剧情一区二区| 97se亚洲综合在线天天 | 91精品视频播放| 亚洲高清在线天堂精品| 久久久久久尹人网香蕉| 亚洲a级在线观看| 一级一级一片免费| 亚洲欧美日韩综合二区三区| 欧美亚洲中文精品三区| 精品成人一区二区三区电影 | 在线va视频| 成人免费一级片| 欧美一级在线看| 伊人福利视频| 亚洲人成网站在线观看播放不卡| 操操操综合网| 国产不卡网| 亚洲色图在线观看| 欧美黑人欧美精品刺激| 亚洲人成网站在线播放2019| 久久综合AV免费观看| 中国精品自拍| 视频一本大道香蕉久在线播放| 久久国产拍爱| 欧美色视频在线| 免费人成黄页在线观看国产| 日韩国产黄色网站| 久久久久久高潮白浆| 久久综合成人| 成人午夜免费观看| 日本黄网在线观看| 久久精品嫩草研究院| 国产免费久久精品44| 2020精品极品国产色在线观看 | 激情无码字幕综合| 中文字幕在线日本| 白浆视频在线观看| 国产美女视频黄a视频全免费网站| 福利国产在线| 青青青国产视频手机| 亚洲天堂视频在线播放| 亚洲欧美日本国产专区一区| 69av免费视频| 欧美天堂在线| 久久久久九九精品影院| 国产激情第一页| 影音先锋亚洲无码| 久久国产热| 国产成人精品一区二区不卡| 91黄色在线观看| 国产不卡网| 免费国产黄线在线观看| 无码日韩视频| 国产尤物在线播放| 精品一区二区三区四区五区| 午夜毛片免费观看视频 | 玖玖精品视频在线观看| 日本午夜视频在线观看| 国产无码性爱一区二区三区| 在线五月婷婷| 亚洲浓毛av| 国产精品hd在线播放| 国产中文一区a级毛片视频 | 国产香蕉97碰碰视频VA碰碰看| 国产在线自乱拍播放|