基于分布式計算技術的機器輔助翻譯系統建設研究

2022-05-30 02:48:20李春鳳

電腦知識與技術 2022年31期

摘要：當前，各種技術下的機器輔助翻譯系統存在翻譯速度慢、翻譯精確率不高等問題，嚴重影響了使用者的體驗度。隨著計算機技術的發展和進步，分布式計算技術已日趨成熟，而云計算的應用也大大提升了系統的運算能力，文章提出構建基于分布式計算技術的機器輔助翻譯系統，以此來提高機器輔助翻譯系統的性能。

關鍵詞：分布式計算技術；機器輔助；翻譯系統

中圖分類號：TP311 ? ? ? ?文獻標識碼：A

文章編號：1009-3044（2022）31-0107-03

電子信息技術時代中，信息網絡實現全面普及，智能手機、平板電腦、臺式計算機等各種電子通信設備得以廣泛運用，人們獲取信息的方式日益便捷和多元化，人們的生活、工作、學習也因此更為便利。為了解決人們的各種使用需求，各類計算機軟件系統也不斷被開發出來，但系統在投入使用的過程中，或多或少都會存在一定的缺陷或者問題，影響了用戶的體驗度[1]。機器翻譯系統是由英國工程師 Booth 和美國工程師Weaver最早提出并研究成功的語言翻譯系統，該系統發展至今，形成了兩種體系結構，即：基于語言規則的翻譯體系和基于語言數據庫的翻譯體系[2]。這兩種體系的最大優點是覆蓋范圍廣和翻譯能力超強，其缺點是無法有效適應開放性和靈活性的自然語言，致使翻譯出的某些文本不夠準確，不符合需要。有學者研究用語料庫獲得統計數據與語言實例來構建翻譯系統，該系統的靈活性較高，但是由于這項技術運用的時間短，語料庫的積累量不高，極大地限制了系統的使用功能[3]。基于分布式計算技術發展了十多年，已日趨成熟，能將龐大的工程數據分割成為多個小塊，并分配給不同計算機分別計算，以此提高計算機的性能，通過構建基于分布式計算技術的機器輔助翻譯系統，以期解決以往此類系統存在的瓶頸。

1 機器輔助翻譯系統的軟件設計

1.1 機器輔助翻譯系統的框架

機器輔助翻譯系統就是用知識推理并表示的過程，知識表示又分為兩種：即內部知識表示和外部知識表示[4]。內部知識表示是知識在編程語言或者開發工具中的表現方式，外部知識表示是各種各樣知識表示模式，并存儲于知識庫中，語言工作人員能夠對規則庫、詞典等知識進行管理；翻譯時生成翻譯工作，實現對翻譯句子語法、語義特征、詞法等各種知識進行語義網絡、特征結構、樹形圖描述[5]。本系統中的知識庫設計了專業漢語詞典與雙語詞典、語言模型、規則庫、實例庫，并將英漢雙語實例和有關信息存儲于實例庫中。除了進行知識庫的設計，還設置了用戶設置、英漢互譯、歷史信息查詢、詞庫信息查詢和修改、增刪、語音翻譯模塊這幾項功能。機器輔助翻譯系統功能模塊如圖1所示。

用戶設置功能包括顯示界面的調節，用戶可以根據自己的喜好和需求調整顯示界面的顏色、字體大小、顯示跨度等類型。英漢互譯模塊包含在線翻譯和離線翻譯兩種類型，聯網狀態下系統進行在線翻譯，在斷網狀態下系統內部進行翻譯[6]。歷史信息查詢能夠對用戶學習的知識進行時段的統計，幫助用戶查詢學習過的知識，同時軟件也會根據用戶的學習經驗設置將來的學習計劃表，有利于用戶做出學習計劃。發音模塊是用戶輸入語種時模塊發出像真人一樣的語音，增強了用戶的使用體驗。

1.2 機器輔助翻譯系統的工作流程

先是用戶點擊進入系統，等待系統開啟，如果是首次運行程序會等待詞庫加載，非首次運行直接進入系統主界面，進入界面后界面上部顯示出單詞查詢、詞庫管理、單詞翻譯和單詞本生成這幾個板塊。例如單詞查詢模塊支持在線查詢和離線查詢，單詞本中支持生詞添加、刪除，詞庫管理支持詞庫的設置、添加和刪除，單詞翻譯選擇翻譯的語言類型。界面下面便是每個板塊下的主要內容界面，當點擊進入翻譯界面，機器輔助翻譯系統就會開啟翻譯的工作流程。一是翻譯前的準備工作，先是各種類型源文件開始格式過濾并進行句段的切分工作，其次對齊原文和已存在譯文及構建記憶庫，最后是為預翻譯、編輯做準備，抽取原文中的翻譯術語并構建術語庫。二是翻譯中實施過程，在翻譯過程中利用記憶庫、術語庫兩種輔助工具進行預翻譯，以此落實真實翻譯工作量和匹配效率，從而確定譯文的一體性風格和正確的表述語言。三是翻譯后處理過程，這是翻譯完成的最后過程，主要任務是語料回收、桌面排版、項目管理等工作，以此確保譯文滿足用戶需求。

1.3 機器輔助翻譯系統的數據庫設計

機器輔助翻譯系統的數據庫是整個系統開發的基礎保障。為了滿足機器輔助翻譯系統的多樣性功能，數據庫中設計了雙語語料庫、系統記憶庫、多語語料庫、單語語料庫、術語中英詞典與程序所需數據。其中，語料庫作為數據庫中的重要類型之一，是在語言實際使用過程中真實再現的語言數據信息。單語語料庫、雙語語料庫和多語語料庫能夠實現索引工具、文件查看、索引定位、詞單和關鍵詞單等功能，但是每個語料庫又有各自的特點，單語語料庫適合處理體量小的文件，進行語料檢索、詞頻統計和信息篩選等任務。雙語語料庫和多語語料庫適合處理體量大的文件，支持用戶上傳、創建和合并語料庫等功能。針對機器輔助翻譯系統的數據庫的特點，數據庫構建了系統創建項目文件、文件內容、項目數據資料和文件段落等表格。為了滿足復雜查詢的需要，同時提高執行程序速度，降低網絡通信量，系統建立了有關的視圖，能夠清楚直觀地顯示各類信息，并且還確保了數據的安全性。

2 機器輔助翻譯系統的硬件設計

機器輔助翻譯系統的數據庫中包括了雙語語料、單語語料、術語中英詞典等大量語言資料，這樣會增加系統工作的復雜程度和信息的交互過程，影響了大規模語言數據進行翻譯時的質量[7]。為了實現高質量高效的翻譯，就務必要減小系統的信息交互和工作過程復雜程度，因此本文利用分布式計算機技術將文件以各種方式存儲，針對各樣的語言類別設計別樣的翻譯方式，對量小而簡單的語言類型使用直接翻譯，對量大而復雜多樣的語言使用分布式翻譯，減小了數據庫的負擔，有效提高了系統的翻譯效率。基于分布式計算技術下的機器輔助翻譯系統硬件結構如圖2所示。

從圖2可見，機器輔助翻譯系統硬件結構為用戶層、服務層、存儲層和計算層。用戶層主要是提供文件上傳下載服務、內容查看、在線翻譯、界面檢索服務。服務層向用戶提供翻譯索引和語言檢索的功能。計算層是利用云計算技術計算翻譯信息，并采取合并、分離和均衡三種方式處理計算后的不同信息。存儲層主要完成文本存儲、目錄存儲與索引存儲功能。

首先是存儲設計。存儲結構的設計是采用類似于分布式框架，各種各樣的數據都能存儲其中，并且能反復被讀取，可以有效減小客戶端與軟件系統的交互，降低服務器的數據吞吐頻次。為了有利于用戶的查詢，采用目錄來分類存儲數據，目錄不但醒目，而且里面詳盡地記錄了被存儲的數據名稱。其次是檢索設計。檢索工作是關鍵詞和目錄數據中索引匹配的過程，匹配成功則顯示檢索結果，反之則不顯示檢索結果。當前檢索方式有關鍵詞檢索、多屬性組合檢索和IPC分類檢索。由于被翻譯的語言類型多種多樣，因此通過增加多個詞典以實現跨域語種檢索。檢索模塊如圖3所示。

從圖3可知，檢索模塊引入了多個數據庫，其作用就是能同時調動不同詞典中的數據信息，確保檢索的結果和關鍵詞檢索下的內容相匹配，同時獲得多樣性的檢索結果，更有利于用戶在極短時間內獲得各種有關的信息資源，使翻譯結果更加精準。

3 機器輔助翻譯系統的測試

為了測試基于分布式計算技術的機器輔助翻譯系統的實際使用效果，選用Matlab平臺進行翻譯仿真測試，通過測試來實現系統的應用。選擇以下系統運行環境：操作系統是Windows 10，64位操作系統，壓縮技術Gzip，內存8G，硬盤容量512G，工作模式MVC，CPU是 i5-12400，工作協議HTTP。通過測試翻譯系統能正常翻譯運行，翻譯結果如圖4所示。

為了測試翻譯精準率，語料資料選擇了Corpus of Contemporary American English（COCA）和現代漢語平衡語料庫，也有來自政府文獻、法律、新聞等部門整理而來，文章通過從170萬句漢英雙語平行語料庫中隨機選取了1500條BLUE值，測試所得結果如表1和表2所示。

從表1和表2測試結果來看，基于分布式計算技術的機器輔助翻譯系統有較高的翻譯精準率。從系統使用來看，系統可以自動處理文本分句，點擊原文句子鏈接可以展示出句子目標語言譯文。假設譯者對譯文不滿意，可以再次翻譯和矯正來源翻譯實例、統計、記憶庫的譯文，翻譯完成后譯者還可以導出目標語言文檔，查看譯文。

其次，為了測試翻譯時間的快慢，分別使用基于語言數據庫的機器翻譯系統、基于語言規則的翻譯系統和基于分布式計算機技術的機器翻譯系統來翻譯不同大小的文件，處理文件的大小分別為10 KB、1 MB、10MB，結果顯示三種翻譯系統在翻譯10KB的文件時所用的時間一致，在翻譯1MB的文件用時依次為：149s、118s、107s，而翻譯10MB的文件用時依次為：346s、328s、319s。從翻譯處理時間來看，各翻譯系統都存在翻譯用時隨著翻譯文件的增大而增多的現象，而基于分布式計算機技術的機器翻譯系統在處理10 KB、1 MB、10MB翻譯文件的用時最少。

4 結束語

基于分布式計算技術的機器輔助翻譯系統是為解決傳統翻譯系統問題而提出的一種新的機器輔助翻譯系統，該系統彌補了傳統系統的缺點，在一定程度上提高了翻譯的精確度和準確率。該系統雖有所進步，但依然存在不少現實問題亟待優化：詞典量雖有所增大，但規范度不足，因此需要提高一些被選取詞典的質量；系統的相似度計算機研究不足，各個語種沒有深層次探究。要解決這些問題需要花費一定的時間來積累、糾正，但是并不影響系統的使用，較之傳統的機器輔助翻譯系統已經有了明顯的進步。

參考文獻：

[1] 李明東，房愛東，盧彪，等.基于機器學習的硬件數據分析系統的實現[J].通化師范學院學報，2019，40（8）：6-9.

[2] 王志.基于云計算和大數據的可視化環保設備監管系統研究[J].山東工業技術，2017（12）：165.

[3] 劉俊鵬，宋鼎新，張一鳴，等.多種數據泛化策略融合的神經機器翻譯系統[J].江西師范大學學報（自然科學版），2020，44（1）：39-45.

[4] 范敏.計算機輔助翻譯研究的語篇觀[J].復旦外國語言文學論叢，2018（1）：154-161.

[5] 高夢璐.多策略融合的機器翻譯系統研究[J].校園英語，2018（15）：239-240.

[6] 王明松.基于云計算的離岸船舶信息管理系統優化設計[J].艦船科學技術，2018，40（2）：172-174.

[7] 林寒.基于多語言交互的英語翻譯在線輔助系統設計[J].現代電子技術，2019，42（6）：22-25.

【通聯編輯：代影】

收稿日期：2022-08-02

作者簡介：李春鳳（1979—），女，陜西彬州人，碩士，主要研究方向為翻譯系統構建。

電腦知識與技術2022年31期

電腦知識與技術的其它文章: 基于R語言的課程教學效果可視化分析; 基于微信小程序的求職招聘系統的設計; Matlab工程應用核心內容與講授方法探討; Matlab軟件在大學物理教學中的應用; 高職院校畢業設計（論文）智能管理系統分析與設計; 面向工作流的協同管理平臺的設計及應用