999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

翻譯語(yǔ)料庫(kù)建設(shè)中一些問(wèn)題的軟件處理法

2016-05-30 03:05:30丁皓
科教導(dǎo)刊 2016年24期

丁皓

摘 要 計(jì)算機(jī)輔助翻譯的核心——翻譯記憶的積累造就了語(yǔ)料庫(kù)。語(yǔ)料庫(kù)的大小決定了計(jì)算機(jī)輔助翻譯軟件的效能。因此,語(yǔ)料庫(kù)建設(shè)是CAT用戶必做的一門(mén)功課。在語(yǔ)料庫(kù)的建設(shè)中,會(huì)遇到句庫(kù)切分、重復(fù)、雜質(zhì)等問(wèn)題。對(duì)此大規(guī)模處理的最快捷的手段莫過(guò)于軟件。文章提出的一種軟件處理方法,能較好地解決并處理語(yǔ)料庫(kù)建設(shè)中遇到的絕大部分問(wèn)題。

關(guān)鍵詞 句庫(kù) 拆分 重復(fù) 雜質(zhì) 刪除

中圖分類號(hào):H059 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/j.cnki.kjdkx.2016.08.026

Abstract The core of Computer Aided Translation - the accumulation of translation memory makes the corpus. The size of corpus determines the efficiency of computer aided translation software. Therefore, the construction of the corpus is a subject that CAT users must do. In the construction of corpus, sentence segmentation, will encounter problems such as repetition, impurity. The most efficient way to deal with this large scale is software. A software processing method is proposed in this paper, which can solve and deal with the problems encountered in the construction of the corpus.

Key words explosive; split; repeat; impurity; delete

0 引言

“累積大量的英漢雙語(yǔ)語(yǔ)料并建立語(yǔ)料庫(kù),對(duì)于計(jì)算機(jī)輔助翻譯的幫助日益擴(kuò)大”。①而“語(yǔ)料庫(kù),尤其是雙語(yǔ)平行語(yǔ)料庫(kù),在翻譯實(shí)踐方面的應(yīng)用潛力也十分巨大”。②為此,文章旨在研究主要用于計(jì)算機(jī)輔助翻譯(CAT)的語(yǔ)料庫(kù)建設(shè)中遇到的一些問(wèn)題的解決辦法。在CAT行業(yè),一般把這種翻譯語(yǔ)料庫(kù)(即翻譯記憶庫(kù))簡(jiǎn)稱為“句庫(kù)”。所以本文下面也簡(jiǎn)稱為“句庫(kù)”。

為建設(shè)大型句庫(kù),需通過(guò)各種途徑,采用各種方法收集或制作句庫(kù)。但是,“經(jīng)過(guò)語(yǔ)料采集程序所收集的各類語(yǔ)料、尤其是通過(guò)網(wǎng)絡(luò)下載、掃描識(shí)別等方法獲得的文本大多會(huì)存在各種不合規(guī)范的符號(hào)或格式,這些不規(guī)范的符號(hào)格式會(huì)導(dǎo)致語(yǔ)料標(biāo)注錯(cuò)誤,為了避免這一問(wèn)題,在做好原始文件備份工作后,就需要對(duì)語(yǔ)料進(jìn)行清潔整理”。③更麻煩的是,即使是質(zhì)量好的句庫(kù),也可能會(huì)與自己已有的句庫(kù)重復(fù)。對(duì)于上萬(wàn)句對(duì)的句庫(kù)來(lái)說(shuō),要處理這些問(wèn)題靠手工操作是很難完成的,更不用說(shuō)幾十萬(wàn)甚至上百萬(wàn)句對(duì)的語(yǔ)料庫(kù)了。這就要求我們對(duì)句庫(kù)的質(zhì)量缺陷和重復(fù)問(wèn)題進(jìn)行研究,并針對(duì)這些問(wèn)題提出簡(jiǎn)便易行的解決辦法。

1 語(yǔ)料庫(kù)建設(shè)中存在的問(wèn)題

1.1 重復(fù)問(wèn)題

對(duì)于搜集來(lái)的句庫(kù),首要問(wèn)題是重復(fù)。也就是說(shuō),新來(lái)的句庫(kù)與自己已有的句庫(kù)可能有重復(fù)。如果一個(gè)CAT用戶只有幾百萬(wàn)句對(duì)以下的句庫(kù)時(shí),句庫(kù)的重復(fù)與否是無(wú)關(guān)緊要的,因?yàn)殡娔X的運(yùn)行速度不會(huì)受這點(diǎn)重復(fù)句庫(kù)多占電腦內(nèi)存的影響。但是當(dāng)句庫(kù)擁有量超過(guò)幾千萬(wàn)句對(duì)時(shí),電腦的內(nèi)存就會(huì)變得極其寶貴,電腦的運(yùn)行速度將會(huì)受到極大的影響,甚至造成電腦或CAT軟件不能運(yùn)行。這就要求對(duì)自己的每個(gè)句庫(kù)都檢測(cè)并刪除重復(fù)的句對(duì),以最大限度地利用電腦內(nèi)存空間并提高CAT的運(yùn)行速度。

如果句庫(kù)擁有量在幾十萬(wàn)句對(duì)以下,這個(gè)問(wèn)題是不難解決的。如現(xiàn)在有些CAT有去重功能。我們只要把自己原有的句庫(kù)導(dǎo)入CAT,再把新來(lái)的句庫(kù)導(dǎo)入,兩者合并起來(lái)后,CAT軟件就能自動(dòng)把重復(fù)的句對(duì)刪除。但是當(dāng)句庫(kù)太大時(shí),就超過(guò)了CAT軟件的容量,其重復(fù)問(wèn)題就無(wú)法處理了。而且現(xiàn)在一般的CAT軟件只能合并不能拆分還會(huì)導(dǎo)致這樣一種結(jié)果——不同專業(yè)的句庫(kù)合并后原來(lái)句庫(kù)的專業(yè)分類狀態(tài)會(huì)被破壞。

上述問(wèn)題對(duì)我們提出了一個(gè)要求——需要有一種“去重”手段,這種手段既能快速大批量地刪除重復(fù)的句對(duì),又能保持新句庫(kù)的原有專業(yè)分類狀態(tài)。對(duì)于這樣的要求,目前一般的CAT軟件仍無(wú)法做到。

1.2 切分問(wèn)題

句庫(kù)的切分也稱拆分。目前一般的CAT軟件只有合并功能,沒(méi)有切分功能。拿Trados來(lái)說(shuō),它的單個(gè)句庫(kù)容量比一般的CAT要大。但它導(dǎo)入句庫(kù)合并后卻不能切分,這對(duì)于需要按專業(yè)分類的句庫(kù)來(lái)說(shuō)就不能滿足需要了。而且單個(gè)句庫(kù)太大時(shí)會(huì)影響電腦的運(yùn)行速度,也就影響了翻譯速度。更令人頭痛的是,有些來(lái)自Trados的單個(gè)句庫(kù)可能多達(dá)幾百萬(wàn)句對(duì),而一般的CAT軟件沒(méi)有這么大的容量。如雪人軟件單個(gè)句庫(kù)的容量只有一百幾十萬(wàn)句對(duì),大于這個(gè)容量就無(wú)法導(dǎo)入,因而就無(wú)法把來(lái)自Trados的TMX格式的句庫(kù)導(dǎo)入并轉(zhuǎn)換成雪人的STM格式,這樣雪人就無(wú)法使用這個(gè)句庫(kù)。這就要求有種辦法來(lái)按需求切分句庫(kù),特別是切分大型句庫(kù)。對(duì)此,目前一般的CAT軟件也做不到。

1.3 雜質(zhì)問(wèn)題

為了加快句庫(kù)的制作速度,大型句庫(kù)往往是借助軟件自動(dòng)生成的。但是“某些軟件不能識(shí)別其他編碼格式的文本,對(duì)一些特殊格式標(biāo)識(shí)符號(hào)在讀取中會(huì)出現(xiàn)亂碼”。④此外,“制作雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù),較為高效的方式是利用Trados的WinAlign工具自動(dòng)對(duì)齊句對(duì),其優(yōu)點(diǎn)是速度快,準(zhǔn)確率較高,優(yōu)于雙語(yǔ)語(yǔ)料庫(kù)檢索軟件ParaConc內(nèi)置的句對(duì)工具;其缺點(diǎn)是對(duì)中文的支持不夠完美,有時(shí)會(huì)出現(xiàn)亂碼”。⑤而且,在句庫(kù)制作、文件轉(zhuǎn)換及不同CAT軟件之間的交換過(guò)程中,由于格式不同及其他種種原因,句庫(kù)中也會(huì)產(chǎn)生各種各樣的亂碼和其他非詞語(yǔ)性的東西,甚至還會(huì)產(chǎn)生原文或譯文空白的句對(duì)。對(duì)于這些亂碼、非詞語(yǔ)性的東西及原文或譯文空白的句對(duì),本文下面統(tǒng)稱為雜質(zhì)。這些雜質(zhì)的存在影響了句庫(kù)的質(zhì)量,并且會(huì)影響翻譯時(shí)語(yǔ)料查找速度和精確度,因此需要?jiǎng)h除。這種刪除功能現(xiàn)在一般的CAT軟件是沒(méi)有的。

2語(yǔ)料庫(kù)建設(shè)中問(wèn)題的解決辦法

綜上所述,在句庫(kù)建設(shè)中我們會(huì)面臨三大問(wèn)題——重復(fù)、切分、雜質(zhì)。而雜質(zhì)又可歸納并分類為:(1)有原文無(wú)譯文;(2)有譯文無(wú)原文;(3)譯文錯(cuò)誤;(4)譯文與原文錯(cuò)亂,即對(duì)齊錯(cuò)誤;(5)其他各類雜質(zhì)。

上述這些問(wèn)題,對(duì)于一個(gè)只有幾百或者幾千句對(duì)以下的小型句庫(kù)來(lái)說(shuō),是可以人工修正的。但是對(duì)于幾萬(wàn)或幾十萬(wàn)句對(duì)以上的句庫(kù)來(lái)說(shuō),人工修整需要花費(fèi)極大的人力和極長(zhǎng)的時(shí)間,所以實(shí)際上是不可行的。為此,需要專門(mén)研究出一個(gè)簡(jiǎn)便易行的辦法來(lái)解決這些問(wèn)題。

由于目前的人工智能水平還無(wú)法判斷譯文的錯(cuò)誤或者譯文的好壞,所以對(duì)于第三大問(wèn)題中的譯文錯(cuò)誤和對(duì)齊錯(cuò)誤,軟件是很難解決的;而譯文對(duì)齊錯(cuò)誤就性質(zhì)上來(lái)說(shuō)與譯文錯(cuò)誤是一樣的,因此軟件也無(wú)法識(shí)別。所以這兩個(gè)問(wèn)題目前需要人工檢查處理。但是,“建設(shè)語(yǔ)料庫(kù)是一件比較繁瑣的事情,光靠人力是不能滿足需求的,隨著現(xiàn)代科技的快速發(fā)展,強(qiáng)大的軟件支持將為我國(guó)語(yǔ)料的建設(shè)提供極大的便利”。⑥筆者經(jīng)過(guò)長(zhǎng)期的實(shí)踐和研究發(fā)現(xiàn),上述三大問(wèn)題中的前面二大問(wèn)題及第三大問(wèn)題中除了譯文錯(cuò)誤和對(duì)齊錯(cuò)誤外,其他問(wèn)題基本都可以用軟件解決。為此,筆者與軟件設(shè)計(jì)人員合作,設(shè)計(jì)開(kāi)發(fā)出了一個(gè)句庫(kù)處理軟件,其性能簡(jiǎn)介如下:

2.1 軟件分類

由于是與軟件設(shè)計(jì)人員合作,其將軟件分試用版和正式版二種。試用版的功能有較多限制;且試用期過(guò)后軟件會(huì)自動(dòng)禁止使用。正式版各項(xiàng)功能齊全,處理速度比試用版要快得多。

由于目前幾乎所有的CAT軟件都備有TMX格式,且“TMX(翻譯記憶交換標(biāo)準(zhǔn),Translation Memory Exchange)是一種不依賴任何軟件廠商的公開(kāi)的翻譯記憶數(shù)據(jù)庫(kù)格式規(guī)范……創(chuàng)建TMX標(biāo)準(zhǔn),目的是為了讓譯者可以更容易地在不同的工具之間交換數(shù)據(jù)”,⑦因此,本軟件選擇TMX格式作為本軟件的運(yùn)行格式。對(duì)于其它格式的句庫(kù),可以用CAT軟件轉(zhuǎn)換成TMX格式后再導(dǎo)入本軟件運(yùn)行。

2.2 軟件容量

由于軟件的工作效果極度依賴內(nèi)存,因此,軟件使用當(dāng)時(shí)電腦的剩余內(nèi)存決定了當(dāng)時(shí)可以處理的最大句庫(kù)尺寸。據(jù)測(cè)試,對(duì)于試用版,電腦剩余內(nèi)存3.6GB時(shí),軟件可處理的文件大小上限約為600MB。對(duì)于正式版,只要電腦放得下,軟件的容量無(wú)限。

2.3 軟件適用的語(yǔ)種

此軟件可適用于中英、中西、中俄、中日、中法、中德、英俄、西日等各種語(yǔ)言。以中英為例,該軟件能夠處理英譯中或者中譯英的句庫(kù)。但因目前市場(chǎng)上流行的絕大多數(shù)句庫(kù)均為中英,且都采用英譯中模式互相交換,所以英譯中模式為該軟件的最常用句庫(kù)處理模式。

2.4 軟件運(yùn)行速度

軟件切分和刪除雜質(zhì)時(shí)的運(yùn)行速度很快,基本上以秒計(jì),能夠滿足快速操作的要求。對(duì)于檢測(cè)和刪除重復(fù),試用版的運(yùn)行速度比較緩慢,且受句庫(kù)大小的影響較大;而正式版的速度受句庫(kù)容量大小的影響很小,無(wú)論是小型還是大型句庫(kù),都能高速運(yùn)行;可見(jiàn)正式版的功能遠(yuǎn)比試用版強(qiáng)大。

3 結(jié)論

句庫(kù)經(jīng)過(guò)以上“拆分”、“去重”和“刪除雜質(zhì)”三大方法處理后,質(zhì)量可以得到較大的提升。此外,軟件還有將句庫(kù)中的漢字繁體轉(zhuǎn)換成簡(jiǎn)體及Excel格式轉(zhuǎn)換等處理功能,可以滿足多用途的需要。但是另一方面,限于目前的人工智能水平,句庫(kù)中的錯(cuò)譯、對(duì)齊錯(cuò)亂、譯文不完整等缺陷問(wèn)題,尚未解決,需要作進(jìn)一步的研究和探索。

注釋

① 張倩.計(jì)算機(jī)輔助翻譯的應(yīng)用[J].雞西大學(xué)學(xué)報(bào),2012(6):74.

② 李毅鵬.從雙語(yǔ)平行語(yǔ)料庫(kù)到翻譯記憶庫(kù)[J].雞西大學(xué)學(xué)報(bào),2012(12):63.

③ 董愛(ài)華.專門(mén)用途語(yǔ)料庫(kù)的建設(shè)、應(yīng)用、問(wèn)題與發(fā)展趨勢(shì)[J].北京印刷學(xué)院學(xué)報(bào),2013(10):60.

④ 楊惠中.語(yǔ)料庫(kù)語(yǔ)言學(xué)導(dǎo)論[M].上海外語(yǔ)教育出版社,2002:77.

⑤ 余軍.新型電子商務(wù)雙語(yǔ)語(yǔ)料庫(kù)研制與應(yīng)用[J].長(zhǎng)江大學(xué)學(xué)報(bào),2013.36(8):83.

⑥ 蔡星,段超,朱易.國(guó)內(nèi)平行語(yǔ)料庫(kù)建設(shè)的問(wèn)題分析[J].山西煤炭管理干部學(xué)院學(xué)報(bào),2013(11):114.

⑦ 徐彬.翻譯新視野——計(jì)算機(jī)翻譯研究[M].山東教育出版社,2010(5):36.

主站蜘蛛池模板: 91福利片| 激情网址在线观看| 欧美人与动牲交a欧美精品| 亚洲欧美日韩另类| 无码精品国产dvd在线观看9久| 免费Aⅴ片在线观看蜜芽Tⅴ| 高清国产va日韩亚洲免费午夜电影| 欧美www在线观看| 久久久噜噜噜久久中文字幕色伊伊 | 国产成人高精品免费视频| 亚瑟天堂久久一区二区影院| 久草性视频| 国产精品自拍合集| 日韩精品无码免费一区二区三区| 欧美影院久久| 午夜福利网址| 国产亚洲高清在线精品99| 免费日韩在线视频| 动漫精品啪啪一区二区三区| 成年av福利永久免费观看| 亚洲综合激情另类专区| 亚洲日韩欧美在线观看| 最近最新中文字幕在线第一页| 91热爆在线| 夜夜拍夜夜爽| 国产免费羞羞视频| 9久久伊人精品综合| 99r在线精品视频在线播放| 精品视频第一页| 欧美日韩久久综合| 色综合中文字幕| 天天色天天综合| 国产swag在线观看| 狼友av永久网站免费观看| 四虎国产在线观看| 人妻中文字幕无码久久一区| 亚洲成人www| 香港一级毛片免费看| 性喷潮久久久久久久久| 亚洲自偷自拍另类小说| 国产精品成人观看视频国产 | 老色鬼欧美精品| 国产精品无码久久久久久| 国产一级毛片高清完整视频版| 97人人模人人爽人人喊小说| 真人免费一级毛片一区二区| 在线观看免费人成视频色快速| 国产一二三区在线| 成人精品免费视频| 国产精品污视频| 久久婷婷五月综合97色| 高清免费毛片| 亚洲国产精品一区二区高清无码久久| 99在线观看国产| 91探花在线观看国产最新| 亚洲精品爱草草视频在线| 视频一本大道香蕉久在线播放| 国产欧美日韩视频一区二区三区| 亚洲综合经典在线一区二区| 日韩A∨精品日韩精品无码| 99久久精品久久久久久婷婷| 亚洲国产黄色| 亚洲一区二区日韩欧美gif| AV色爱天堂网| 亚洲日本一本dvd高清| 国产主播一区二区三区| 日韩欧美国产中文| 国产成人调教在线视频| 国产欧美日韩综合在线第一| 色婷婷电影网| 亚洲视频免费播放| 国产欧美日韩在线一区| 久久综合丝袜日本网| 久久这里只有精品国产99| 人妻丝袜无码视频| 99在线视频免费| 亚洲精品自产拍在线观看APP| 国产丝袜第一页| 亚洲精品国产精品乱码不卞| 色综合狠狠操| 欧美中文字幕在线播放| 无码国内精品人妻少妇蜜桃视频|