999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本相似性匹配的計算機輔助翻譯軟件研究

2020-07-14 01:52:14
甘肅科技 2020年1期
關鍵詞:數(shù)據(jù)庫文本用戶

何 斌

(解放軍91404部隊,河北 秦皇島 066001)

查準率與響應速度是計算機輔助翻譯軟件最重要的兩項指標。查準率的實際反應是檢索反饋的原文與用戶檢索的原文之間的匹配程度,也就是檢索反饋結果能把語料庫中所有具有翻譯參考價值的譯文按相似度排序呈現(xiàn)給用戶。與傳統(tǒng)的數(shù)據(jù)庫模糊查詢不同,檢索內(nèi)容不是確定的檢索關鍵字,實際上被檢索目標與檢索內(nèi)容只存在文本上相似或近似。所以,諸如Like語句實現(xiàn)的模糊查詢在計算機輔助軟件的檢索中并不適用。另外,與其它的檢索系統(tǒng)一樣響應速度是計算機輔助翻譯軟件最主要的性能指標,通常情況翻譯語料庫數(shù)據(jù)量較大,故查詢速度的優(yōu)化對計算機輔助軟件的尤為重要。

針對上述問題,采用文本相似度算法實現(xiàn)高匹配度檢索,并運用云計算和并行運行等方法優(yōu)化響應速度,最終實現(xiàn)計算機輔助翻譯軟件最優(yōu)的用戶體驗。

1 計算機輔助翻譯

1.1 計算機輔助翻譯

計算機輔助翻譯 (Computer Assisted Translation,CAT)是通過計算機軟件來實現(xiàn)的專業(yè)翻譯解決方案,它與機器翻譯(Machine Translation,MT)有著本質的區(qū)別。機器翻譯依賴于計算機的自動翻譯,而計算機輔助翻譯是在人的參與下完成整個翻譯過程。形式最簡單的計算機輔助翻譯只是一個數(shù)據(jù)庫,譯者可以紀錄以前的翻譯結果以便于將來再次使用以及進行方便有效的檢索。計算機輔助翻譯工作原理是翻譯人員利用已有的原文和譯文,建立起一個或多個翻譯記憶庫,在翻譯過程中,系統(tǒng)將自動搜索翻譯記憶庫中相同或相似的翻譯資源(如句子、段落等),給出參考譯文,使用戶避免無謂的重復勞動,只需專注于新內(nèi)容的翻譯。對于給出的參考譯文,譯者可以完全照搬,也可以修改后使用,如果覺得不滿意,還可以棄之不用。簡單來說計算機輔助翻譯就是:TM(記憶體/語料庫)+MT(機器翻譯)+HT(人工翻譯)。計算機輔助翻譯相比人工翻譯有翻譯效率高、譯文一致性好、翻譯成本低的優(yōu)勢,正不斷受到重視和發(fā)展。

計算機輔助翻譯技術的核心就是翻譯記憶技術,譯者在進行翻譯工作的同時,翻譯記憶庫在后臺不斷學習和自動儲存新的譯文,實時更新記憶體,每當相同或相近的短語出現(xiàn)時,系統(tǒng)會自動提示用戶使用記憶庫中最接近的譯法。計算機輔助翻譯軟件實現(xiàn)的關鍵技術就是譯文模糊匹配及查詢效率。

2 計算機輔助翻譯軟件設計方案

2.1 軟件總體設計

本方案創(chuàng)新性設計基于網(wǎng)絡的多用戶計算機輔助翻譯軟件,軟件可實現(xiàn)多用戶并發(fā)在線使用,完成一個翻譯項目的多人分工并發(fā)協(xié)同工作。軟件由語料庫、字典數(shù)據(jù)庫、譯文獲取模塊、模糊匹配查詢模塊、譯文插入模塊、語料庫自動更新模塊等組成。

主要工作流程為:

第一步,翻譯人員把將要翻譯的工作文檔(原文)輸入給計算機輔助翻譯軟件,軟件逐句讀取原文。

第二步,軟件自動按已讀取的整句進行模糊查詢,從語料庫返回匹配度相近的譯文,原文與譯文同時顯示于工作區(qū)域。

第三步,軟件對當前的原文進行分詞,并按分詞結果逐詞返回譯文。

第四步,翻譯人員對照語料庫返回的譯文、單詞譯文、原文進行校對。

第五步,譯文校對完成后,由軟件插入工作文檔中原文位置之后,同時對語料庫進行更新。

第六步,返回第一步。

計算機輔助翻譯軟件工作流程,如圖1所示。

圖1 計算機輔助翻譯軟件工作流程圖

計算機輔助翻譯軟件采用C/S結構,語料庫數(shù)據(jù)庫采用Postgresql,字典數(shù)據(jù)采用SQLite,客戶端采用C#進行構建。技術架構如圖2所示:

圖2 計算機輔助翻譯軟件技術架構圖

計算機輔助翻譯軟件人機操作界面主要分成翻譯輔助區(qū)與翻譯文檔區(qū)兩部分限組成,翻譯文檔區(qū)顯示被翻譯文檔(Word文檔),翻譯輔助區(qū)主要為獲取的原文語句獲取顯示、翻譯結果及其它用戶操作等交互界面。具體界面設置與效果如圖3所示:

圖3 軟件人機界面

2.2 計算機輔助翻譯軟件實現(xiàn)的關鍵技術

計算機輔助翻譯軟件實現(xiàn)的核心是對語料庫的查詢,技術關鍵是查詢速度及查詢效果,查詢速度越快、詞條模糊匹配效果越好則用戶體驗就越好。

1)查詢速度。信息系統(tǒng)的查詢速度是用戶體驗的最關鍵指標,查詢響應時間越短用戶體驗越好。據(jù)調(diào)查,數(shù)據(jù)軟件查詢費時0~2s則用戶體驗最好,費時2~8s用戶可以容忍,如查詢費時大于8s則用戶不能忍受。所以,計算機輔助翻譯軟件查詢響應時間必須控制在8s以下,最于2s則最優(yōu)。對計算機輔助翻譯軟件的使用人員而言,語料庫越大語料可重用性就越高,翻譯工作則越高效。實際應用中語料庫數(shù)據(jù)量比較大(作者當前項目的語料庫的數(shù)據(jù)量大于400萬條),且數(shù)據(jù)量隨使用不斷增長。查詢響應時間一般與數(shù)據(jù)量成反比,故當數(shù)據(jù)量超過百萬條后常用方法查詢時間超過8s,所以必須對數(shù)據(jù)庫查詢方法進行優(yōu)先和優(yōu)化才能達到查詢最優(yōu)化。

2)模糊匹配。在翻譯過程中,軟件檢索語料庫,尋找合適的譯文。除在重復性高的技術文檔翻譯中有完全匹配的情況外,絕大部分檢索都為模糊匹配。實事上模糊匹配效果也是決定計算機輔助翻譯工具是否好用的最重要指標。

最理想的模糊匹配模式就是從語料庫中尋找譯文意思相近的語句,而通用的數(shù)據(jù)庫檢索方法只能實現(xiàn)最多關鍵詞匹配。

例:理想模糊匹配模式,翻譯She like collecting stamps.語料庫中如果沒有類似于“She like collecting stamps too.”這樣的語句,就會優(yōu)先返回“She is fond of collecting stamps.”作為翻譯參考。但如果按最多關鍵詞匹配就很可能無作任何結果返回。隨便說一下,原文為中文則必需在檢索之前先要對原句進行中文分詞,原因是計算機不會自動識別句中的詞語。比如一句“結婚的和尚未結婚的”,可能分成“結婚/的/和尚/未/結婚/的”這樣檢索。

綜上所述,模糊查詢算法是軟件實現(xiàn)最核心的關鍵技術,其算法優(yōu)化將是整個軟件易用性最大的挑戰(zhàn)。

2.3 查詢技術選擇

2.3.1 基于文本相似度算法的查詢

(1)文本長度過濾。在計算機輔助翻譯過程中,考慮到查詢目標往往與查詢內(nèi)容長度相近的特點,可以首先對數(shù)據(jù)進行文本長度過濾。文本長度過濾運算代價較小,可以極速縮小被查數(shù)據(jù)庫庫表的規(guī)模,可為下一步文本相比節(jié)省時間。

其中,source_text查詢內(nèi)容,p_source_text為查詢目標。目標文本長度設置為查詢文本長度不多于且不少于5個字符。

(2)文本相似度算法?;谠~語(單詞)重合的重疊相似度算法將短文本內(nèi)容看成是獨立關鍵詞的集合,通過兩個短文本的共現(xiàn)詞的個數(shù)來判斷兩個短文本的相似性。

若兩個短文本中共現(xiàn)詞的個數(shù)越多,則兩個短文本就越相似;反之,兩個短文本的相似度就越低;同時,為保證兩個短文本的相對相似度一致,采用相似度計算公式1:

基中samewords(S1,S2)表示S1與S2中都出現(xiàn)的關鍵詞個數(shù);Len(S1)表示中的關鍵詞個數(shù),Len(S2)表示S2中的關鍵詞個數(shù)。經(jīng)本軟件測試用戶調(diào)查統(tǒng)計得知,S1與S2的比調(diào)整為85%用戶體驗滿意度最高。

2.3.2 快速查詢技術優(yōu)化

為提升翻譯人員的使用體驗,減小翻譯實時翻譯時間。在查詢算法上的優(yōu)化同時還考慮其它方法進行查詢時間的縮短。

1)云計算。一般來講,用于計算機翻譯的辦公計算機在性能方面有著較大的差異,進而導致計算機輔助翻譯軟件呼應時間不同帶給用戶不同的用戶體驗。為減小由于用戶計算機不同帶來的差異,在軟件設計時把大部分計算工作放在服務器上完成,用戶端只完成數(shù)據(jù)信息的傳遞與顯示。這種“云計算”的設計架構在最大程度提高計算機輔助翻譯軟件性能的同時也讓每一位用戶享有比較接近的用戶體驗。

2)并行運算查詢。并行運算的設計也是為提升性能的考慮。由于數(shù)據(jù)庫表大的原因上經(jīng)過上述優(yōu)化后查詢速度依然不理想,所以需要把數(shù)據(jù)庫拆分成若干個小數(shù)據(jù)庫進行并行查詢而后對查詢結果進行合并,從而最大程度縮短查詢時間。并行運算時間成本原理如圖4所示:

圖中并行運算時間成本公式2。

圖4 并行運算時間成本示意圖

其中t為整個計算過程時間,tS0為并行計算任務拆分花費時間,ti為單項個并行任務計算時間,ts1為計算結果合并時間。tS0、tS1隨任務拆分數(shù)量n增加而增加,所以并不是并行數(shù)量越大越好。對同一檢索條件下不同并行數(shù)的測試,本方案最終選擇n=10為最優(yōu)并行查詢數(shù),實驗結果比對見表1。

表1 同一檢索條件下并行查詢的耗時比較

3 結束語

本文設計并實現(xiàn)了多用戶網(wǎng)絡計算機輔助翻譯軟件,采用網(wǎng)絡語料庫結合本地字典數(shù)據(jù)庫的方法實現(xiàn)了多人在線并行翻譯工作。實驗結果表明,綜合運用了文本長度過濾、相似度匹配、并行運算等方法使翻譯語句查詢響應時間控制在用戶可接受范圍內(nèi),同時翻譯的查準率較為理想。在實際應用中,本軟件設計功能、性能滿足多人同時在線翻譯的并行工作。下一步,將對語料庫進行進一步優(yōu)化,并持續(xù)改進查詢算法,使系統(tǒng)查詢響應時間進一步縮短。

猜你喜歡
數(shù)據(jù)庫文本用戶
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产成+人+综合+亚洲欧美| 久久精品国产一区二区小说| 高清免费毛片| 伊人91在线| 看av免费毛片手机播放| 欧美性猛交一区二区三区| 亚洲最猛黑人xxxx黑人猛交| 99视频在线看| 免费Aⅴ片在线观看蜜芽Tⅴ| 精品一区二区三区无码视频无码| 日韩久草视频| 亚洲视频四区| 2021精品国产自在现线看| 久久精品视频亚洲| 2021天堂在线亚洲精品专区| 青青草原偷拍视频| 国产精品99一区不卡| 国产视频入口| 色久综合在线| 99视频只有精品| 噜噜噜综合亚洲| 国产天天射| 老司机aⅴ在线精品导航| 99热这里只有精品在线观看| 国产在线观看一区二区三区| 99热最新在线| AV网站中文| 免费看久久精品99| 99re热精品视频国产免费| 国产91高跟丝袜| 日本五区在线不卡精品| 国产真实自在自线免费精品| 91精品国产情侣高潮露脸| 国产十八禁在线观看免费| 亚洲天堂网2014| 色偷偷av男人的天堂不卡| 中国一级特黄视频| 99久久国产精品无码| 国产国产人在线成免费视频狼人色| 伊人国产无码高清视频| 日本国产在线| AV不卡在线永久免费观看| 一本一道波多野结衣av黑人在线| 婷婷丁香在线观看| 免费精品一区二区h| 免费网站成人亚洲| 亚洲成人免费在线| 狠狠综合久久| 日韩A∨精品日韩精品无码| 亚洲第一视频区| 国产麻豆91网在线看| 久久综合亚洲色一区二区三区| 亚洲熟妇AV日韩熟妇在线| 亚洲A∨无码精品午夜在线观看| 亚洲国产中文综合专区在| 97久久精品人人| 日日碰狠狠添天天爽| 黄色网址手机国内免费在线观看 | 亚洲福利视频一区二区| 成人午夜久久| 被公侵犯人妻少妇一区二区三区| 欧美爱爱网| 国产高清不卡视频| 亚洲成在线观看| 国产一级一级毛片永久| 高清欧美性猛交XXXX黑人猛交| 亚洲av无码牛牛影视在线二区| 久久精品无码国产一区二区三区| 欧美日韩高清在线| 中文字幕资源站| 在线精品亚洲国产| 亚洲欧美日韩成人高清在线一区| 亚洲中文字幕无码爆乳| 久久成人国产精品免费软件| 欧美色丁香| 日韩A级毛片一区二区三区| 亚洲三级a| 热思思久久免费视频| 精品久久香蕉国产线看观看gif| 天堂网亚洲系列亚洲系列| 华人在线亚洲欧美精品| 亚洲欧美另类中文字幕|