基于同義詞詞林的平滑BLEU研究

2017-04-17 01:24:33于俊婷何宏業(yè)劉伍穎易綿竹

鄭州大學(xué)學(xué)報(bào)(理學(xué)版) 2017年2期

關(guān)鍵詞：語義方法系統(tǒng)

于俊婷，何宏業(yè)，劉伍穎，易綿竹

(1.洛陽外國語學(xué)院語言工程系河南洛陽 471003； 2.廣東外語外貿(mào)大學(xué) 語言工程與計(jì)算實(shí)驗(yàn)室廣東廣州 510420)

基于同義詞詞林的平滑BLEU研究

于俊婷1，何宏業(yè)1，劉伍穎2，易綿竹1

(1.洛陽外國語學(xué)院語言工程系河南洛陽 471003； 2.廣東外語外貿(mào)大學(xué) 語言工程與計(jì)算實(shí)驗(yàn)室廣東廣州 510420)

基于同義詞詞林提出一種語義空間變換算法，并將其應(yīng)用于平滑BLEU中，提出一種改進(jìn)的基于同義詞詞林的BLEUS評測方法，該方法針對候選譯文中短譯文或英文縮寫可能導(dǎo)致一元語法零匹配的情況，對傳統(tǒng)BLEUS的n元語法均進(jìn)行了平滑處理，并且以參考譯文的一元語法為標(biāo)準(zhǔn)，對候選譯文進(jìn)行語義空間變換.在俄漢雙語句子數(shù)據(jù)集上對谷歌、百度、必應(yīng)、有道在線翻譯系統(tǒng)的俄漢翻譯輸出譯文進(jìn)行評測，改進(jìn)方法與傳統(tǒng)BLEUS的評測結(jié)果一致；基于同義詞詞林的BLEUS提升傳統(tǒng)BLEUS的評測性能，使得百度的NBLEUS值提高了3.99%，谷歌提高了7.66%，必應(yīng)提高了11.15%，有道提高了4.65%.與此同時(shí)，驗(yàn)證了基于同一類型評測方法的縱向比較方法的有效性.

同義詞詞林； BLEUS； BLEUS-syn；評測

0 引言

機(jī)器翻譯系統(tǒng)評測通常指對給定翻譯系統(tǒng)生成的譯文質(zhì)量進(jìn)行量化評測.國家語言文字工作委員會發(fā)布的《語言文字規(guī)范》中規(guī)定[1]：機(jī)器翻譯系統(tǒng)的語言文字評測主要有人工評測和自動(dòng)評測兩類.其中人工評測主要是由語言專家主觀地對系統(tǒng)輸出譯文的忠實(shí)度和流利度進(jìn)行打分，主觀性強(qiáng)，受外界因素影響比較大，代價(jià)高昂.研究者更傾向于使用自動(dòng)評測對系統(tǒng)譯文進(jìn)行量化評測.

自動(dòng)評測方法一般可以分為3類：基于語言學(xué)檢測點(diǎn)的方法[2]、基于字符串相似度的方法[3]、基于機(jī)器學(xué)習(xí)的方法.基于字符串相似度的方法成為目前單一指標(biāo)評測中應(yīng)用最為廣泛的評測方法，其中應(yīng)用最為成熟、廣泛的是2002年P(guān)apineni等人提出的BLEU；隨后針對BLEU無法應(yīng)用于句子級評測、不考慮召回率等問題，研究者們進(jìn)行了大量的改進(jìn)研究：最為著名的且應(yīng)用較為廣泛的是文獻(xiàn)[4]提出的平滑BLEU(BLEUS)以及ROUGE-N系列[5]評測方法，還有基于詞對齊的METEOR[6]評測方法.

面向漢語可供選擇的語義資源有很多，同義詞詞林作為一部漢語語義類詞典，具有明確的同義詞集合，更適合同義詞匹配的應(yīng)用.語言表達(dá)具有多樣性，信息處理的難度增加，將同義詞詞林應(yīng)用于自動(dòng)評測方法，可以改善其性能.本文提出一種基于同義詞詞林[7]的語義空間變換算法，并將其應(yīng)用于平滑BLEU方法，在BLEUS平滑技術(shù)[8]中除了精確詞形匹配，還加入基于同義詞詞林的同義詞匹配，可以彌補(bǔ)系統(tǒng)只有一個(gè)參考譯文的缺陷，增加候選譯文和參考譯文相似度，以此提高BLEUS評測性能.

1 基于同義詞詞林的BLEUS評測指標(biāo)

1.1 平滑BLEU介紹

2004年，Lin等[4]首次提出平滑BLEU(BLEUS)，即當(dāng)n>1時(shí)，對匹配的n元語法個(gè)數(shù)和總的n元語法個(gè)數(shù)分別加1，以保證候選譯文不足n個(gè)詞時(shí)依然可以得到正的BLEUS值.

但是當(dāng)漢語譯文經(jīng)過分詞之后對候選譯文和參考譯文進(jìn)行詞語級n元語法匹配時(shí)，由于中文分詞器分詞粒度、譯文表達(dá)的缺省等原因，有可能會出現(xiàn)整個(gè)譯文較短被分成一個(gè)詞語或者源語言句子被翻譯成英文縮略語的情況；再者為保持n元語法準(zhǔn)確率的一致性，對所有的n元語法均采用加1平滑處理.

1.2 基于同義詞詞林的語義空間變換算法

機(jī)器翻譯實(shí)際上就是對“同一語義”的不同編碼[9]，其核心內(nèi)容是相同的，只是形式不同.由于語言表達(dá)的多樣化，信息處理的難度逐漸增加，不同系統(tǒng)對于相同內(nèi)容的翻譯會呈現(xiàn)出不同的表現(xiàn)方式，語義分析和同義詞替換對于機(jī)器翻譯評測有著很重要的作用.同義詞詞林具有明確的同義詞集合，能夠很好地提高候選譯文和參考譯文的匹配程度，而且不會影響譯文的可讀性.故本文提出一種基于同義詞詞林的語義空間變換(semantic space transformation, SST)算法，對BLEUS進(jìn)行改進(jìn)優(yōu)化.

1.2.1 同義詞詞林簡介

圖1 同義詞詞林樹狀層次體系圖Fig.1 Cilin tree hierarchy

同義詞詞林是由梅家駒等學(xué)者編纂的一部對漢語詞匯按語義全面分類的義類詞典，最終詞表包含77 343條詞語[10]，其語義分類圖如圖1所示.其中包括:詞語的同義詞、相關(guān)詞和獨(dú)立詞[11].義項(xiàng)是描寫詞義的最小單位，所有義項(xiàng)構(gòu)成一個(gè)大的樹狀層次體系，并采用一個(gè)虛擬節(jié)點(diǎn)O將所有樹連接起來，只有葉節(jié)點(diǎn)是相同或相似或獨(dú)立的詞的集合.

1.2.2 同義詞詞林編碼體系改進(jìn)

為了便于計(jì)算，本文采用6級編碼體系，對每一級采用二位十進(jìn)制數(shù)編碼，其中英文字母按照順序編碼，比如“A”或者“a”用01代替，“B”或者“b”用02代替，依次順延；最后兩位我們稱為“標(biāo)記位”，為新的編碼體系中的第6級，“=”用01代替，“#”用02代替，“@”用03代替.新的編碼體系采用十二位十進(jìn)制數(shù)編碼，從根節(jié)點(diǎn)開始向右一直追溯到葉節(jié)點(diǎn)，如表1所示，則“Da15B02#”的新編碼為“040115020202”.

表1 改進(jìn)的《同義詞詞林》二位數(shù)編碼體系表

1.2.3 基于同義詞詞林的語義空間變換算法

語義空間變換(SST)算法主要是基于參考譯文的一元語法進(jìn)行的，對候選譯文和參考譯文進(jìn)行匹配構(gòu)成映射時(shí)，首先進(jìn)行精確詞形匹配，然后進(jìn)行基于同義詞詞林的同義詞匹配，二者順序無重疊地進(jìn)行.語義空間變換算法主要包含兩個(gè)main函數(shù)：isSynonym和sst，其偽代碼如圖2所示.

圖2 SST算法偽代碼

當(dāng)輸入詞語content1和content2時(shí)，isSynonym函數(shù)啟動(dòng)：1) 假如兩個(gè)詞語均不在同義詞詞林中，但是詞形相同，則返回index=1；2) 利用getCodesByContent函數(shù)從“同義詞詞林.xls”文件中分別提取content1和content2的十二位編碼集合code1和code2，因?yàn)橥x詞詞林中每個(gè)詞語可能有多個(gè)義項(xiàng)，故每個(gè)詞語的編碼集合可能對應(yīng)有多個(gè)編碼，假如兩編碼集合中有相同的編碼，則返回index=1.index=1表示這兩個(gè)詞語content1和content2詞形相同或者是同義詞，可以互相匹配.

當(dāng)sst函數(shù)啟動(dòng)時(shí)，以參考譯文中的一元語法為標(biāo)準(zhǔn)，對候選譯文實(shí)施語義空間變換：1) 將分詞后的參考譯文ref取一元語法后存入動(dòng)態(tài)數(shù)組al1，進(jìn)行去重后存入數(shù)組arr[]，分詞后的候選譯文candi取一元語法后存入動(dòng)態(tài)數(shù)組al2；2) 數(shù)組arr[]中的元素content與動(dòng)態(tài)數(shù)組al2中的一元組content2進(jìn)行isSynonym函數(shù)求值為1時(shí)，利用arr[]數(shù)組中的該元素content替換al2中對應(yīng)的一元組content2，并將進(jìn)行語義空間變換后的候選譯文重新存入新的動(dòng)態(tài)數(shù)組并轉(zhuǎn)化為字符串型動(dòng)態(tài)數(shù)組seg22以備后續(xù)使用；3) 其中CHIsegment函數(shù)為分詞函數(shù)，將譯文進(jìn)行分詞，ngram函數(shù)將分詞后的譯文取其一元語法.

語義空間變換算法，以參考譯文一元語法為標(biāo)準(zhǔn)，基于同義詞詞林對候選譯文中的一元語法進(jìn)行同義詞替換，在不破壞機(jī)器翻譯系統(tǒng)輸出候選譯文可讀性的前提下，增加了譯文之間的相似度，提高了自動(dòng)評測方法的整體性能.

1.3 基于同義詞詞林的BLEUS

漢語語言文化豐富多樣，同一意義可以有不同的表達(dá)形式，尤其是在自動(dòng)評測機(jī)器翻譯系統(tǒng)譯文質(zhì)量時(shí)，基于同義詞詞林的語義空間變換算法的引入，能有效提高自動(dòng)評測指標(biāo)的匹配性能.本節(jié)提出一種基于同義詞詞林的BLEUS自動(dòng)評測指標(biāo).

給定一個(gè)參考譯文r和一個(gè)候選譯文c，基于參考譯文中的一元語法進(jìn)行語義空間變換，假設(shè)候選譯文和參考譯文相匹配的一元語法數(shù)目為m1.1) 精確詞形匹配：以參考譯文為標(biāo)準(zhǔn)，在進(jìn)行候選譯文中的一元語法Wc與參考譯文中的一元語法Wr匹配過程中，如果詞形完全相同，則可以匹配成功，m1加1；2) 同義詞匹配：如果詞形不同，則進(jìn)行同義詞匹配，如果Wc和Wr是同義詞，則m1加1，同時(shí)將Wc替換為Wr；比如“部隊(duì)”和“軍隊(duì)”基于同義詞詞林是同義詞可以互相匹配；3) 精確詞形匹配和同義詞匹配按照順序且無重疊地進(jìn)行.基于一元語法的兩種匹配模式，將一元語法替換后的候選譯文與原始的參考譯文進(jìn)行2～4元語法匹配并求得對應(yīng)的準(zhǔn)確率值，如此便增加了n元語法的匹配概率，從而改善了n元語法的準(zhǔn)確率.對各階n元語法的準(zhǔn)確率進(jìn)行平滑,求得最終的NBLEU值，由此基于同義詞詞林的BLEUS算法即可實(shí)現(xiàn).

基于同義詞詞林的BLEUS算法對傳統(tǒng)的BLEU進(jìn)行了平滑處理，使得句子級評測成為可能；而且對一元語法也進(jìn)行了平滑處理，很好地應(yīng)對了輸出譯文較短甚至為一個(gè)詞語以及英文縮寫詞語的出現(xiàn)而導(dǎo)致一元語法零匹配的情況，使得句子級評測分?jǐn)?shù)更加穩(wěn)定可靠；同時(shí)以參考譯文為標(biāo)準(zhǔn)引入了基于同義詞詞林的語義空間變換算法，減少了因?yàn)闈h語語義表達(dá)的多樣性造成的匹配率降低的情況，提高了候選譯文和參考譯文的匹配效率.

2 評測指標(biāo)性能分析

2.1 實(shí)驗(yàn)語料及環(huán)境

實(shí)驗(yàn)中，雙語句子數(shù)據(jù)集采用基于俄漢雙語新聞的句子對齊語料庫[12]，其中包含52 892個(gè)俄漢雙語對齊句對，采用分層采樣的方式將這些俄漢句對分為訓(xùn)練集和測試集以備后續(xù)實(shí)驗(yàn)使用.其中測試集包括1 057個(gè)句對，這些句子按照俄語句子長度進(jìn)行升序排序，并且已經(jīng)被去重處理，形式上各不相同.基于網(wǎng)絡(luò)上主流的俄漢在線翻譯系統(tǒng)谷歌、百度、必應(yīng)、有道對俄語句子進(jìn)行俄漢翻譯，得到4個(gè)在線翻譯系統(tǒng)的漢語機(jī)器譯文.其中語料庫中人工對齊的漢語句子作為人工參考譯文.

實(shí)驗(yàn)均在具有8.00GB的內(nèi)存和CPU為Intel(R) Core(TM) i7-6700HQ的計(jì)算機(jī)上運(yùn)行.

2.2 實(shí)驗(yàn)結(jié)果

首先利用測試集對傳統(tǒng)BLEUS進(jìn)行實(shí)驗(yàn)，其中按照俄語句子長度對平行語料進(jìn)行了升序排序.通過對谷歌、百度、必應(yīng)、有道4個(gè)在線系統(tǒng)的輸出候選譯文與人工參考譯文采用傳統(tǒng)BLEUS指標(biāo)進(jìn)行評測，得到NBLEUS值，由于BLEU進(jìn)行了平滑技術(shù)的處理，其句子級評測分?jǐn)?shù)有效，且整個(gè)實(shí)驗(yàn)測試集上4個(gè)系統(tǒng)的NBLEUS平均值如圖3所示.然后利用同一組測試語料，同樣的方法采用基于同義詞詞林的BLEUS對4個(gè)在線翻譯系統(tǒng)輸出譯文的質(zhì)量進(jìn)行評測，得到4個(gè)系統(tǒng)的NBLEUS平均值(NBLEUS-syn)如圖3所示.

由圖3中可以看到，橫坐標(biāo)代表BLEU的幾種平滑方法，縱坐標(biāo)為每種平滑方法在測試集上的平均NBLEUS值.1) 4個(gè)在線翻譯系統(tǒng)的整體變化趨勢是相似的，排序是一致的，百度系統(tǒng)的俄漢在線翻譯性能最優(yōu)，谷歌系統(tǒng)性能比百度略差，優(yōu)于有道系統(tǒng)的性能，必應(yīng)系統(tǒng)的俄漢在線翻譯性能最差.2) 基于同義詞詞林的語義空間變換的引入，使得baseline的BLEUS性能得以改善，對于同一個(gè)系統(tǒng)而言，基于同義詞詞林的BLEUS性能比傳統(tǒng)BLEUS有所提升，百度系統(tǒng)的NBLEUS-syn比NBLEUS提升了3.99%，谷歌系統(tǒng)提升了7.66%，必應(yīng)系統(tǒng)性能提升了11.15%，有道系統(tǒng)提升了4.65%.3) 應(yīng)用語義空間變換算法之后，谷歌系統(tǒng)和必應(yīng)系統(tǒng)的性能提升幅度較大，百度和有道系統(tǒng)的性能改善幅度較小，主要原因在于谷歌系統(tǒng)和必應(yīng)系統(tǒng)的輸出候選譯文在語言表達(dá)及習(xí)慣用語方面與人工參考譯文的表達(dá)差異較大，當(dāng)采用以參考譯文為標(biāo)準(zhǔn)的語義空間變換算法后，谷歌系統(tǒng)和必應(yīng)系統(tǒng)的譯文用詞與參考譯文相同，故性能提升較多；而百度系統(tǒng)和有道系統(tǒng)的譯文語言表達(dá)方面與參考譯文差異較小，故性能提升較小.4) 對于基于同一種評測指標(biāo)NBLEUS的不同平滑算法采用縱向比較的方式進(jìn)行實(shí)驗(yàn)，即通過NBLEUS均值衡量，更加方便明確，有利于評測指標(biāo)性能參數(shù)的調(diào)整與優(yōu)化，大大節(jié)約能源與時(shí)間，提高時(shí)效性.由此分析，語義空間變換算法可以明顯改善傳統(tǒng)BLEUS的性能，提升NBLEUS值，既能很好地避免短譯文和英文縮略語導(dǎo)致出現(xiàn)零準(zhǔn)確率的問題，又不會影響候選譯文的可讀性.

在對傳統(tǒng)BLEUS和基于同義詞詞林的BLEUS進(jìn)行性能比較時(shí)，上文采用NBLEUS均值來進(jìn)行衡量，對基于同一類型的評測方法進(jìn)行縱向比較；但是最傳統(tǒng)的方法是采用人工的方法計(jì)算自動(dòng)評分與人工流利度和忠實(shí)度分?jǐn)?shù)的相關(guān)系數(shù)，系數(shù)越高，說明評測指標(biāo)性能越好.本文采用皮爾森相關(guān)系數(shù)rxy來計(jì)算自動(dòng)評測指標(biāo)與人工評測得分的相關(guān)性，從而驗(yàn)證縱向比較的可行性.對于包含變量自動(dòng)打分x和人工打分y的測試集上的數(shù)據(jù)點(diǎn){(xi,yi)}，自動(dòng)打分x和人工打分y之間的皮爾森相關(guān)系數(shù)為[13]：

4個(gè)俄漢在線翻譯系統(tǒng)采用傳統(tǒng)BLEUS和基于同義詞詞林的BLEUS評測方法的自動(dòng)評分與人工的忠實(shí)度(ade)和流利度(flu)分?jǐn)?shù)的的相關(guān)系數(shù)如圖4所示.

圖3 4個(gè)在線系統(tǒng)的俄漢翻譯BLEUS評測結(jié)果Fig.3 BLEUS evaluation results of 4 systems

圖4 系統(tǒng)采用不同評測方法的忠實(shí)度(ade)和流利度(flu)的相關(guān)系數(shù)

由圖4可以分析得到，對于傳統(tǒng)BLEUS評測方法，加入基于同義詞詞林的語義空間變換之后,忠實(shí)度和流利度的相關(guān)系數(shù)均有所提高，表明使用精確詞形匹配和同義詞匹配順序、無重疊匹配比只使用精確詞形匹配，在提高譯文忠實(shí)度的同時(shí)，沒有影響譯文的流利度，而且譯文依然可讀.上文縱向比較的實(shí)驗(yàn)結(jié)果與人工評價(jià)的結(jié)果一致，因此，基于同一類型的不同參數(shù)設(shè)置的評測方法通過縱向比較評判性能的方法和人工評價(jià)結(jié)果是一致的，說明縱向比較是有效的，能夠方便明確地對基于同一類型的不同評測方法性能進(jìn)行比較，有利于評測指標(biāo)性能參數(shù)的調(diào)整與優(yōu)化，大大節(jié)約能源與時(shí)間，提高時(shí)效性.

同樣，此方法可以應(yīng)用到離線的開源統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中進(jìn)行研究，在語料規(guī)模不受限的情況下，可以很大程度地提升機(jī)器翻譯系統(tǒng)的性能.基于同義詞詞林的BLEUS評測方法能夠大幅度提升傳統(tǒng)BLEUS的評測性能，在評測目標(biāo)語言為漢語的機(jī)器翻譯系統(tǒng)方面可以發(fā)揮很好的作用.

3 結(jié)束語

本文主要基于同義詞詞林提出了一種改進(jìn)的平滑BLEU評測方法，針對候選譯文中短譯文或英文縮寫可能導(dǎo)致一元語法零匹配的情況，對傳統(tǒng)BLEUS的n元語法均進(jìn)行了平滑處理，并且對一元語法匹配時(shí)引入同義詞匹配，而后對替換后的詞語求2～4元語法的準(zhǔn)確率.該評測方法與傳統(tǒng)BLEUS評測結(jié)果一致，且能夠大幅度提升傳統(tǒng)BLEUS的評測性能，在評測目標(biāo)語言為漢語的機(jī)器翻譯系統(tǒng)方面可以發(fā)揮很好的作用.目前只是進(jìn)行了淺層次的語義空間變換，后期工作中還會對同類詞、引入知網(wǎng)以及基于同義詞詞林的ROUGE、METEOR等其他評測指標(biāo)的改進(jìn)進(jìn)行更加細(xì)致的研究.

[1] 中華人民共和國教育部國家語言文字工作委員會．機(jī)器翻譯系統(tǒng)評測規(guī)范:GF-2006[S]．2006．

[2] YU S．Automatic evaluation of output quality for machine translation systems[J]．Machine translation,1993，8(1)：117-126．

[3] PAPINEN K，ROUKOS S，WARD T，et al．BLEU: a method for automatic evaluation of machine translation [C]// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics．Philadelphia，2002：311-318．

[4] LIN C Y，OCH F J．Orange: method for evaluating automatic evaluation metrics for machine translation [C]// Proceedings of the International Committee on Computational Linguistics 2004．Barcelona，2004．

[5] LIN C Y．Rouge: package for automatic evaluation of summaries [C]// Proceedings of Workshop on Text Summarization Branches out, Post-conference Workshop of Association for Computational Linguistics 2004．Barcelona，2004．

[6] BANERJEE S，LAVIE A．Meteor: an automatic metric for MT evaluation with improved correlation with human judgments [C]// ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization．Michigan，2005．

[7] 梅家駒，竺一鳴，高蘊(yùn)琦，等．同義詞詞林[M].2版.上海:上海辭書出版社，1996．

[8] CHEN B，CHERRY C．A systematic comparison of smoothing techniques for sentence-level BLEU [C]// Proceedings of the 9th Workshop on Statistical Machine Translation on Association for Computational Linguistics 2014．Baltimore，2014：362-367．

[9] 張鈸．自然語言處理的計(jì)算模型[J]．中文信息學(xué)報(bào)，2007，21(3)：3-7．

[10]田久樂，趙蔚．基于同義詞詞林的詞語相似度計(jì)算方法[J]．吉林大學(xué)學(xué)報(bào)(信息科學(xué)版)，2010，28(6)：602-608．

[11]徐建民，劉清江．基于同義詞關(guān)系的局部查詢擴(kuò)展[J]．鄭州大學(xué)學(xué)報(bào)(理學(xué)版)，2010，42(1)：45-48．

[12]DU W，LIU W，YU J，et al．Russian-Chinese sentence-level aligned news corpus [C]// Proceedings of the 18th Annual Conference of the European Association for Machine Translation．Antalya，2015：213．

[13]姚建民，周明，趙鐵軍，等．基于句子相似度的機(jī)器翻譯評價(jià)方法及其有效性分析[J]．計(jì)算機(jī)研究與發(fā)展，2004，41(7)：1258-1265．

(責(zé)任編輯：王海科)

Research on Smoothed BLEU Based on Thesaurus of Cilin

YU Junting1, HE Hongye1, LIU Wuying2, YI Mianzhu1

(1.DepartmentofLanguageEngineering,LuoyangUniversityofForeignLanguages,Luoyang471003,China; 2.LaboratoryofLanguageEngineeringandComputing,GuangdongUniversityofForeignStudies,Guangzhou510420,China)

A new algorithm based on thesaurus of Cilin was put forward with the name statistical space transformation (SST). And then it was applied into traditional smoothed BLEU(BLEUS).And an improved smoothed BLEU was got based on thesaurus of Cilin. As many cases of short translations or English abbreviations in candidate translations might cause unigram without matches, this new evaluation metric smoothed the traditional BLEUSn-gram and made the candidate translation unigram “synonymy match” based on thesaurus of Cilin,and took the reference translations unigrams as standard.Exact match and synonymy match were applied in unigram matching. Experiments were performed in Russian and Chinese bilingual sentence data set,and it evaluated the output translations of online translation system such as Google, Baidu, Bing and Youdao. The evaluation results of Cilin-based BLEUS and traditional BLEUS were proved to be consistent. Cilin-based BLEUS could greatly enhance the traditional BLEUS evaluation performance.NBLEUSvalue of the Baidu improveed 3.99 percent, Google improved 7.66 percent, Bing improved 11.15 percent, and Youdao improved 4.65 percent.Experiments were performed on the longitudinal comparisons to evaluate the metrics with different parameter settings based on the same measurement. And the results were consistent with the results of the human evaluation.

thesaurus of Cilin; BLEUS; BLEUS-syn; evaluation

2016-11-10

國家語言文字工作委員會重點(diǎn)項(xiàng)目(ZDI135-26)；廣東省高校特色創(chuàng)新項(xiàng)目(2015KTSCX035).

于俊婷(1984—)，女，河北衡水人，博士，主要從事機(jī)器翻譯評測研究，E-mail:314201559@qq.com；通訊作者：劉伍穎(1980—)，男，江西九江人，副研究員，主要從事計(jì)算語言學(xué)和自然語言處理研究，E-mail：wyliu@gdufs.edu.cn．

TP391.1

1671-6841(2017)02-0054-06

10.13705/j.issn.1671-6841.2016307