李金珠
摘要:隨著科技的發展,統計方法在機器翻譯中得到廣泛應用。如今機器翻譯的質量越來越高,越來越多的人群依賴機器翻譯系統,然而由于翻譯機器在解碼時存在短語匹配過于精確的問題,導致難以充分利用翻譯短語表中的短語進行翻譯,因此為了進一步提高翻譯質量,本文加強了對人機互助的交互式口語翻譯方法的研究。本文主要分析了當前機器翻譯存在的問題,并針對交互式口語翻譯方法和發展方向進行了研究和探討。
關鍵詞:機器翻譯;交互式口語翻譯方法;模糊匹配
如今基于短語統計機器翻譯方法的翻譯質量較高,應用也比較廣泛。該種翻譯方法主要是采用短語精確匹配的方法,然而雖然對書面語的翻譯比較精確,但由于口語的非規范性,導致口語的翻譯質量并不高。對于口語翻譯質量問題,本文提出了人機互助的交互式口語翻譯方法,即通過短語模糊匹配的方法,提高翻譯質量。
一、當前機器翻譯存在的問題
當前我國機器翻譯主要采用短語的統計方法,該種方法主要是指將任意連續的字符串當做短語,然后通過精確匹配短語進行翻譯。短語統計機器翻譯方法雖然能夠通過分辨短語詞序信息提高翻譯質量,但其采用的短語精確匹配的策略,使只有完全符合翻譯短語詞序的短語在翻譯過程中得到應用,導致翻譯數據嚴重不足。在口語翻譯中,由于口語的隨意性,口語存在重復、次序顛倒、省略等問題,此時如果依然采用短語精確匹配的策略,則會導致翻譯質量明顯下降。
針對當前機器翻譯存在的問題,主要有兩種方法進行改善,但其中增大短語表規模的方法會致使解碼系統負荷過大,因此不予采納。另一種方法則是通過加強對短語知識的研究,如短語表中存在大量不完全匹配但語義相同的短語,在翻譯過程中應當充分利用這些短語,以提高翻譯質量。不過由于機器難以對短語的語義相似性進行判別,因此需要人為判別,即人機互助交互式口語翻譯的質量能夠得到明顯提升。
二、交互式口語翻譯方法
人機互助的交互式口語翻譯在國內外已經得到大量的研究,其主要是通過翻譯的預處理,確保翻譯系統能夠對正確地對輸入的內容進行翻譯。其大概流程如下:將源語言句子輸入翻譯系統后,翻譯系統會將源語言句子中的所有短語進行切分,然后比對短語序列,如果短語全部在短語表中,則直接翻譯,輸出翻譯結果。如果短語沒有全部在短語表中,則采用短語模糊匹配,對句子進行擴展并進行翻譯。隨后利用組合分類器選擇翻譯質量得到提升的翻譯結果,最后由人為判斷選擇最終的翻譯結果,并輸出。下文主要針對交互式口語翻譯方法進行了研究,旨在利用人的知識改善翻譯機器存在的短語辨別問題,保障口語翻譯質量。
(一)短語模糊匹配方法
交互式口語翻譯短語模糊匹配方法主要有兩種,一種是計算兩個相似短語之間的相似度,另一種則是判斷語義的相似度。但該兩種方法的翻譯準確率和翻譯速度均難以滿足人們需求,因此為了提高計算速度,應當利用Dice系數和編輯距離,通過對無關短語的過濾,得到滿足條件的短語集合,從而提高翻譯質量和翻譯效率。
(二)組合分類器設計方法
如果將所有相似的短語均由人工判斷,則難以發揮機器翻譯的優勢,因此在人工交互翻譯之前,翻譯機器需要對得出的句子進行篩選,將翻譯質量提高的句子提供給翻譯者進行判斷。比如,以SVM分類器作為基本分類器,對機器翻譯的句子進行辨別,將句子分為翻譯質量提升和翻譯質量沒有提升兩種。組合分類器在進行語料的測試時,主要是以原始翻譯結果作為參考。
(三)交互式翻譯方法
組合分類器選擇出翻譯質量提高的句子后,由人工進行選擇和判斷。由于短語模糊匹配難以充分保障短語語義的一致性,因此需要采用人機互助的方法選擇出翻譯質量最好的句子,完成翻譯任務。人機交互翻譯需要通過對話管理完成,人工選擇人機交互翻譯方式下最優的翻譯結果。在人機交互翻譯過程中,需要充分考慮翻譯者的負擔,即翻譯機器需要提高交互效率,避免翻譯者出現不耐煩、厭煩等情緒,不利于翻譯質量的提升。
三、交互式口語翻譯的發展方向
目前人機互助的交互式口語翻譯中還存在一些問題有待解決,如口語翻譯中關鍵信息丟失問題,機器翻譯評測中自動評價方法問題,口語語序問題等。人機互助的交互式口語翻譯仍然是以機器翻譯為主,因此在對翻譯機器進行開發時,要從用戶的角度出發,使機器翻譯過程更加具有人性化特征,滿足翻譯者的需要。另外,翻譯機器應當以互聯網大數據作為基礎,獲取大規模的口語資源,通過資源共享的方式推動機器翻譯的發展。將人工翻譯和機器翻譯有效的結合,通過人工翻譯提高機器翻譯質量仍然是目前國內外的主要研究方向,同時人工翻譯還能夠為機器翻譯評測提供參考依據,從而提高機器翻譯質量。
四、結束語
綜上所述,隨著我國加強對機器翻譯的研究,如今機器翻譯質量越來越高,但機器口語翻譯還存在一定的問題,主要是由于口語翻譯存在語序問題、重復問題等。而人機互助的交互式口語翻譯能夠有效通過短語模糊匹配、組合分類器排除和人工選擇等方式,選擇最優質的翻譯句子,進而保證翻譯質量。
參考文獻:
[1]杜金華,張萌,宗成慶,等.中國機器翻譯研究的機遇與挑戰——第八屆全國機器翻譯研討會總結與展望[J].中文信息學報,2013,04:1-8.
[2]司莉,莊曉喆,賈歡.近10年來國外多語言信息組織與檢索研究進展與啟示[J].中國圖書館學報,2015,04:112-126.
[3]吳丹.交互式跨語言信息檢索中用戶行為研究[J].中國圖書館學報,2012,03:78-90.