分詞技術(shù)在輔助翻譯預(yù)處理階段的應(yīng)用研究及實(shí)現(xiàn)

2008-12-31 00:00:00吳樹國刮俊杰

電腦知識與技術(shù) 2008年36期

摘要：探討了基于無指導(dǎo)學(xué)習(xí)策略和無詞表?xiàng)l件下的漢語自動分詞方法，結(jié)合中文分詞過程，在自動進(jìn)行中文分詞的結(jié)果之上，自動提取文本中特定出現(xiàn)頻率以上的高頻詞條，將這些詞條作為輔助翻譯預(yù)處理階段任務(wù)分配的重要依據(jù)，從而有效提高了輔助翻譯平臺預(yù)處理過程中的任務(wù)分配效率及任務(wù)分配準(zhǔn)確率。

關(guān)鍵詞：信息提??；中文分詞；高頻詞提??；機(jī)器翻譯；輔助翻譯

中圖分類號：TP393文獻(xiàn)標(biāo)識碼：A文章編號：1009-3044(2008)36-2796-03

Application Research and Implementation of Chinese-Word Segmentation In the pretreatment stage of Computer-aid Translation System

WU Shu-guo， GUA Jun-jie

(College of Computer Science and Technology， Beijing University of Technology， Beijing 100124， China)

Abstract: This paper introduces the automatic word segmentation based on non-guidance study strategy and statistical model. Utilize the result of word segmentation to extracts high-frequency words in the text. The high-frequency words extracted will be the important basis of task allocation in the stage of pretreatment of Computer-aid translation. This method have improved validity and scientific of task allocation in the stage of pretreatment of Computer-aid translation.

Key words: information retrieval Chinese Segmentation; Extraction of high-frequency word；Machine translation; Translation Memory

1 引言

步入21世紀(jì)以來，隨著國際互聯(lián)網(wǎng)(Internet)的迅猛發(fā)展，網(wǎng)絡(luò)信息急劇膨脹，國際交流日益頻繁。翻譯向著更加專業(yè)化的方向發(fā)展，且翻譯信息量也越來越大。機(jī)器翻譯正在逐漸成為克服語言障礙的重要手段。但到目前為止，由機(jī)器完成的翻譯任務(wù)一般情況都會存在可讀性差、難于理解的問題，這也正為CAT(輔助翻譯系統(tǒng))的出現(xiàn)提供了客觀條件。但隨著輔助翻譯系統(tǒng)規(guī)模的擴(kuò)大，翻譯任務(wù)量的增多，便需要將待翻譯的任務(wù)進(jìn)行有效的預(yù)處理并將該預(yù)處理的結(jié)果作為選擇翻譯人員的依據(jù)。將中文分詞技術(shù)應(yīng)用于輔助輔助翻譯平臺的預(yù)處理階段，必將提高預(yù)處理階段翻譯任務(wù)分配的準(zhǔn)確性和科學(xué)性，必將提高翻譯的效率，節(jié)約翻譯的成本。

2 相關(guān)技術(shù)背景及在系統(tǒng)中的具體實(shí)現(xiàn)

2.1 機(jī)器翻譯(Machine Translation)

機(jī)器翻譯又稱機(jī)譯，是利用計算機(jī)把一種自然語言轉(zhuǎn)變成另一種自然語言的過程。到目前，雖然機(jī)器翻譯歷經(jīng)了70多年的研究，機(jī)譯的譯文質(zhì)量確實(shí)還遠(yuǎn)不能令人滿意[1]。由機(jī)器完成的翻譯任務(wù)一般情況都會存在可讀性差、難于理解的問題，這也正為CAT(Computer Aided Translation)輔助翻譯系統(tǒng)的出現(xiàn)提供了客觀條件[2]。

2.2 輔助翻譯(Translation Memory)

輔助翻譯TM(Translation Memory) 是“譯者運(yùn)用計算機(jī)程序部分參與翻譯過程的一種翻譯策略?！彼峭ㄟ^計算機(jī)軟件來實(shí)現(xiàn)的專業(yè)翻譯解決方案，它與“機(jī)器翻譯”有著本質(zhì)的區(qū)別。目前，由于機(jī)器翻譯的譯文遠(yuǎn)不能夠滿足專業(yè)翻譯的需要，翻譯記憶技術(shù)成為了唯一的選擇。

在我們模型中使用目前國際上比較流行的TRADOS系統(tǒng)做為輔助翻譯平臺，實(shí)現(xiàn)語料庫，術(shù)語庫等翻譯資源的有效管理。

2.3 漢語分詞

中文分詞是由計算機(jī)自動識別文本中的詞邊界的過程，它是中文信息處理最重要的預(yù)處理。到目前為止還沒有真正實(shí)用的分詞系統(tǒng)出現(xiàn)，但已經(jīng)出現(xiàn)了許多針對性很強(qiáng)的成功的分詞系統(tǒng)。漢語自動分詞在形形色色的中文信息處理應(yīng)用系統(tǒng)中扮演著極為重要的角色．同時也是計算語言學(xué)界公認(rèn)的一個經(jīng)典問題，所蘊(yùn)含的兩大難點(diǎn)——歧義切分消解和未登錄詞處理，可能是世界上最令計算機(jī)感到棘手的語言現(xiàn)象之一[3]。常用的分詞算法有基于字符串匹配的分詞方法和基于統(tǒng)計的分詞方法。

2.3.1 基于統(tǒng)計的分詞方法

從形式上看，詞是穩(wěn)定的字的組合，因此在上下文中，相鄰的字同時出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率能夠較好地反映成詞的可信度?？梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計，計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息（互信息），計算兩個漢字X、Y的相鄰共現(xiàn)概率。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閾值時，便可認(rèn)為此字組可能構(gòu)成了一個詞。這種方法只需對文檔中的字和詞出現(xiàn)的頻率進(jìn)行統(tǒng)計，不需要切分詞典，因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性，會經(jīng)常抽出一些出現(xiàn)頻度高、但并不是詞的常用字組，并且對常用詞的識別精度差、時空開銷較大。

在我們系統(tǒng)實(shí)現(xiàn)中將以上兩種方式實(shí)現(xiàn)了有效的結(jié)合。與常用的方式不同的一點(diǎn)是，在我們的系統(tǒng)中所使用的詞典是一個“排除”詞典，而不是包含詞典。常用的基于詞典的分詞算法中，通過正向最大匹配等算法，從詞典中查找，在詞典中找的作為詞來處理。而在我們的系統(tǒng)中通過正向匹配等算法在一個預(yù)置的排除詞典中匹配，匹配的到不作為詞來處理，即是所謂的通過詞典來排除。排除操作發(fā)生在基于統(tǒng)計的分詞操作之后。

3 模型實(shí)現(xiàn)

3.1 輔助翻譯平臺預(yù)處理模型

首先對待翻譯任務(wù)進(jìn)行預(yù)處理，得到任務(wù)相關(guān)信息，如文本字?jǐn)?shù)，高頻詞，及語料庫的匹配程度等信息，最重要的是可以得到針對該翻譯任務(wù)的語料庫，在庫中存在的語料都是在大的語料庫中與翻譯任務(wù)中匹配的句對，因此在后續(xù)的翻譯過程中查找?guī)斓男矢咔腋鼫?zhǔn)確。具體流程如圖1。

在輔助翻譯的預(yù)處理階段，當(dāng)?shù)玫轿恼碌南嚓P(guān)信息和針對翻譯任務(wù)的項(xiàng)目庫時標(biāo)志著文檔預(yù)處理任務(wù)的完成。此時可將文檔及任務(wù)項(xiàng)目庫分發(fā)給各個翻譯翻譯人員，開始具體的翻譯工作。這樣即保證了各個翻譯人員能得到相關(guān)的翻譯資源，也保證了總語料庫的數(shù)據(jù)的安全性和有效性。翻譯人員的翻譯任務(wù)完成之后，將記憶庫提交，只有通過審核的預(yù)料的才可以添加到總的語料庫中。

3.1.1 輔助翻譯平臺預(yù)處理結(jié)果

如圖2，通過使用輔助翻譯平臺的分析工具可以得到待處理文檔和語料庫的匹配程度等信息，通過導(dǎo)出操作可建立項(xiàng)目庫，至此預(yù)處理階段庫的匹配操作已經(jīng)完成。

3.2 漢語分詞模型

分詞系統(tǒng)中包含兩大模塊：分詞算法、分詞詞庫。在我們的具體實(shí)現(xiàn)中分詞算法實(shí)現(xiàn)了主流的兩種分詞算法的結(jié)合：機(jī)械分詞法和概率分詞法。機(jī)械分詞算法中的詞典起到排除詞的作用，將通過概率分詞算法分出的結(jié)果通過在排除詞典中執(zhí)行正向匹配操作進(jìn)行排除，從而得出頻率更高且對后續(xù)的處理更加有益的詞作為文章的特征。如圖3。

3.2.1 統(tǒng)計分詞算法

常用的兩個基本統(tǒng)計量：互信息及t-測試差。

3.2.1.1 互信息(mutual information)

定義對漢字串XY，漢字X，Y之間的互信息(或稱為漢字X，Y間位置的互信息)定義為：

其中p(X)是子串x在文檔在中出現(xiàn)的概率，在我們的系統(tǒng)中使用n(x)/文檔字?jǐn)?shù)來標(biāo)示；p(Y)是子串Y在文檔在中出現(xiàn)的概率，在我們的系統(tǒng)中使用n(Y)/文檔字?jǐn)?shù)來標(biāo)示；P(XY)為子串XY出現(xiàn)的概率，即n(XY)/文檔字?jǐn)?shù)。用互信息來估計兩個漢字直接的連接力度，其間互信息越大，兩個漢字結(jié)合的緊密程度越高；互信息越小，結(jié)合的緊密程度越低．并給出了兩個相鄰漢字?jǐn)噙B與否的判別規(guī)則：互信息超過某一閾值，則連；否則斷[3]。

3.2.1.2 t-測試差(difference of t-test)

對漢字串VXYW，漢字X，Y之間的t-測試差定義：

dts(X，Y)=t(V，Y)(X)-t(X，W)(Y)

其中t(X，W)(Y)為Y相對于XW的T測試度。無論何種情形，均有dts(X，Y)越大，連的傾向越大，dts(X，Y)值越小，斷的傾向越大。dts(X，Y)為0時，則無任何傾向(此為t-測試差的“盲區(qū)”)；利用t-試差對兩個相鄰漢字?jǐn)噙B與否進(jìn)行判別的規(guī)則與利用互信息時類似：t-測試差超過某一閾值，則連；否則斷。T-測試差的理論均值應(yīng)為0。因此，判別連、斷的dts閾值宜取其均值0.00。實(shí)驗(yàn)證明dst的閾值取0時分詞的錯誤率最低。

3.2.1.3 互信息與t-測試差相結(jié)合

針對輔助翻譯平臺的預(yù)處理的具體性質(zhì)，沒有必要將系統(tǒng)中的詞都準(zhǔn)確的分出來，且分出的大部分詞對后續(xù)的工作是沒有意義的，因此我們的目的是得出對文本分類更有用的詞。一般情況是對文檔分類起作用越大的詞必然在文檔中出現(xiàn)的頻率會很高，這些出現(xiàn)頻率高的詞往往正說明了文章的所屬領(lǐng)域。因此我們針對輔助翻譯平臺設(shè)計的分詞系統(tǒng)只要能得到出現(xiàn)頻率在某一閾值以上的此即可。互信息和t-測試差都是根據(jù)詞頻計算得出的統(tǒng)計量，因此正好適合輔助翻譯平臺的需求?？紤]到他們各自的缺點(diǎn)和優(yōu)點(diǎn)，將二者結(jié)合起來應(yīng)用于我們的系統(tǒng)中。結(jié)合的過程是：先計算互信息，通過互信息進(jìn)行初次篩選，將互信息值在某一閾值以上的詞作為候選詞，再用 t-測試差對這些候選詞篩選，經(jīng)過二次篩選，最后剩下的詞已基本能符合提取高頻詞的要求?；バ畔㈤撝档木蹬c3.49非常接近．故判別是否是詞的Mi閾值宜取其均值3.50[3]。

3.2.2 統(tǒng)計分詞算法結(jié)果

對于一篇字?jǐn)?shù)為63886的文本，用互信息作為統(tǒng)計量提出的詞為845個，且可以看出分值較高的詞都是出現(xiàn)頻率高，且把這類作為文檔分類的依據(jù)比較準(zhǔn)確。同一篇文本，用t-測試差作為統(tǒng)計量提出的詞為867個，且可以看出分值較高的詞都是出現(xiàn)頻率高，且把這類作為文檔分類的依據(jù)比較準(zhǔn)確。

同一篇文本，先使用互信息作為統(tǒng)計量初步提出候選詞，再使用t-測試差作為統(tǒng)計量進(jìn)行二次篩選。提取出的詞為808個，且可以看出分值較高的詞都是出現(xiàn)頻率高，且把這類作為文檔分類的依據(jù)更加準(zhǔn)確。

3.3 分詞結(jié)果與輔助翻譯預(yù)處理的結(jié)合

通過對待翻譯文檔的預(yù)處理，可以得到該文檔與語料庫匹配信息，并建立對應(yīng)于該翻譯任務(wù)的語料庫，以便于后續(xù)的翻譯工作。利用分詞處理結(jié)果中提出的高頻詞可以比較準(zhǔn)確的確定文檔所屬領(lǐng)域，從而實(shí)現(xiàn)有針對性的任務(wù)分配。即將該翻譯任務(wù)分配到相關(guān)領(lǐng)域的翻譯人員，最終實(shí)現(xiàn)有效準(zhǔn)確的翻譯。

4 總結(jié)

輔助翻譯已經(jīng)日漸成為人們解決語言障礙的重要手段，利用分詞技術(shù)實(shí)現(xiàn)文本中高頻詞的提取，利用這些高頻詞來確定文本所屬領(lǐng)域，進(jìn)而實(shí)現(xiàn)輔助翻譯系統(tǒng)預(yù)處理階段的任務(wù)分配，已在大規(guī)模的輔助翻譯系統(tǒng)中顯的尤為重要。本文中提出的相關(guān)模型在實(shí)際的輔助翻譯系統(tǒng)中已經(jīng)得到充分的試驗(yàn)，試驗(yàn)結(jié)果顯示，將分詞結(jié)果應(yīng)用于輔助翻譯平臺預(yù)處理階段任務(wù)分配過程，大大提高了任務(wù)分配的準(zhǔn)確性和科學(xué)性，為預(yù)處理階段任務(wù)分配提供了更加有價值的依據(jù)。

參考文獻(xiàn)：

[1] 王金銼. 計算機(jī)翻譯技術(shù)的新發(fā)展[D]. 江蘇：揚(yáng)州大學(xué)外國語學(xué)院，2004.

[2] 梁三云.機(jī)器翻譯與計算機(jī)輔助翻譯比較分析[D]. 江蘇：外國語學(xué)院，2004.12.

[3] 孫茂松.基于無指導(dǎo)學(xué)習(xí)策略的無詞表?xiàng)l件下的漢語自動分詞[D]. 北京：清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室.

[4] 許高建.文本挖掘中的中文分詞算法研究及實(shí)現(xiàn)[D]. 安徽:安徽農(nóng)業(yè)大學(xué)2007.12.

[5] Yuejie zhang. Knowledge Source Construction in data-Oriented English-ChineseMachine Translation. Shanghai: Department of Computer Science Engineering Shanghai Key Laboratory of Intelligent Information Processing Fudan University，2005.

注：“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。”

電腦知識與技術(shù)2008年36期

電腦知識與技術(shù)的其它文章: 一個基于Ｐ２Ｐ網(wǎng)絡(luò)的分布式數(shù)字簽名系統(tǒng); 匯編語言實(shí)現(xiàn)多種進(jìn)制的通用輸入輸出; 基于ＶｉｓｕａｌＢａｓｉｃ的圖形輸出; 論壇網(wǎng)站的初創(chuàng)設(shè)計與實(shí)現(xiàn); 基于支持向量機(jī)的網(wǎng)絡(luò)流量建模及預(yù)測; 智能設(shè)計系統(tǒng)中的實(shí)例推理應(yīng)用