劉佳雨 程南昌



摘要:豐富的平行語料庫對提升機器翻譯準確度意義重大,然而目前研究中缺乏有效的平行語料獲取方法,本文提出一種從多語種網站中自動獲取平行語料的方法,并且通過6個多語種網站的平行語料采集和對齊研究,驗證通過多語種網站獲取大規(guī)模平行語料具有較高的可行性,這說明通過多語種網站獲取大規(guī)模平行語料具有較高的可行性。
關鍵詞:多語種;新聞網站;平行語料;篇章對齊;機器翻譯
中圖分類號:TP391.2 文獻標識碼:A 文章編號:1007-9416(2020)09-0214-04
0 引言
統(tǒng)計機器翻譯通常需要大規(guī)模的平行語料來不斷提高翻譯的準確度,因此語料庫的規(guī)模與持續(xù)擴充是提高機器翻譯質量的重要因素。平行語料的人工標注難度很大,特別是小語種語料,而互聯網上存在著大量多語平行語料資源,并且這些語料是持續(xù)增長的。如何通過網絡爬蟲技術和雙語自動對齊技術從多語種網站采集并對齊語料,在機器翻譯領域是一件值得研究的事。
1 相關研究
1.1 機器翻譯的發(fā)展
Koehn[1]將機器翻譯的過程定義為計算機自動將一種語言轉化成具有相同意義的其他語言,機器翻譯已經逐漸成為了互聯網信息服務中不可或缺的一環(huán)。朱杰[2]指出人們普遍認為基于規(guī)則的方法和基于語料庫的方法是機器翻譯最常用的兩大類方法。隨著研究的深入,基于規(guī)則的方法逐漸暴露出質量低,成本高等缺點,基于語料庫的方法開始流行。基于語料庫的方法又可分為基于統(tǒng)計和基于實例兩種,馮志偉[3]提到這兩種方法都需要將語料庫作為翻譯訓練的來源,通過大量的語料統(tǒng)計來進行翻譯學習的數據獲取。但在統(tǒng)計翻譯模型面世很長一段時間內,語料的匱乏和缺失使得這種機器翻譯的人工成本增高。之后通過基于序列的遞歸神經網絡自動獲取并記錄詞匯特征的方法出現,機器翻譯在深度學習的發(fā)展中取得了突破性進展。
1.2 平行語料庫
機器翻譯相關的語料庫有平行語料、多語語料、可比語料這三種。平行語料指使用不同語言撰寫且存在對應翻譯關系的文本數據集。肖維青[4]研究發(fā)現雙語平行語料庫在機器翻譯應用中的作用越來越重要。目前用于機器翻譯的平行語料主要為多語或雙語平行句對。語料的規(guī)模影響著機器翻譯的質量,另一個影響機器翻譯質量的語料因素是語料的純凈度。邵健[5]將建立平行語料庫的方法總結為兩種:一是從數據庫或權威文檔中挖掘語料,二是從雙語網站獲取并整理生成平行語料。平行語料庫的建立主要是通過對已有數據庫的改造與處理,在權威的多語種文獻中提取可作為平行語料的語句。此外,隨著雙語網站的不斷增多,從互聯網獲取平行語料成為了語料擴充的重要渠道。
1.3 語料對齊
王斌[6]將語料對齊定義為確定源文本和目標文本是否互為翻譯關系的過程。對于獲取的原始語料存在噪音的問題,因為不能直接使用在機器翻譯的模型訓練中,所以需要通過篇章對齊等技術的處理,目前對齊主要思路是根據多語種語料間句子的特征尋找匹配度最高的句子,通過句子長度,詞匯信息等因素來匹配最合適的句子。
2 實驗過程
2.1 主要思路
選擇主流官方媒體人民網,中國青年網,外交部官方網站等擁有多語種的網站作為采集目標,官方新聞網站在不同語種頻道發(fā)布的新聞主要分為獨立編輯新聞和翻譯漢語新聞,根據需求進行篇章對齊的是后者。通過網頁代碼制定抓取規(guī)則,使用數據采集系統(tǒng)分別對上述網站的新聞進行抓取,分別選取其漢語、英語、日語、韓語、法語、俄語等多個不同語種頻道的新聞。抓取內容包括標題布時間、內容等容易進行匹配的特征。
2.2 互聯網平行語料調研
目前互聯網上的多語種平行語料主要有精準翻譯語料、雙語詞條語料、多語種新聞網站平行語料。
精準翻譯語料以雙語詞條語料多存在于網絡詞典中。詞典語料的優(yōu)點對齊精度最高,主要是對齊到詞匯一級,但針對網絡詞典句子級采集有難度,而且例句之間有重復性,通過雙語詞典獲取的通常是一對多關系,其語料來源為已有實體詞典,更新頻率慢。
雙語詞條語料主要是發(fā)布的雙語對照新聞,以外交部發(fā)言人辦公室官方微信公眾號為例,在發(fā)布的例行記者發(fā)布會內容中為一對一翻譯的雙語新聞,這種平行語料質量高,可以直接作為機器翻譯的語料,但是這種平行語料較少且大部分只有中英對照,數據缺乏規(guī)模和普遍性。
多語種新聞網站平行語料是本次實驗所探究采集的語料,在國家級政府機構的新聞網站會分為不同的語種頻道,一些新聞報道會在間隔較短的時間內以不同語言發(fā)布在對應網站。這些語料雖然不是精確到一對一翻譯,但能夠從相同事件的文本中獲取機器翻譯語料,同時數據每天更新,可以不斷豐富平行語料庫。
2.3 平行采集
使用爬蟲技術對選擇的多語種網站進行抓取,數據從互聯網采集到本地之后,將按照統(tǒng)一的標準進行數據分類,以.txt的格式存儲在對應的文件夾中,通過設置對應的路徑方便篇章對齊中文本數據的選取。
2.4 篇章對齊
對采集的語料進行分類后開始篇章對齊處理。如果篇章處理后發(fā)現網站的不同語種新聞存在較高的相似度,就可以將這些語料用于機器翻譯的學習中。在篇章對齊的實現過程中主要接入百度通用翻譯API,在調入接口的過程中設置自動識別語言,同時設置發(fā)送字符的換行符便于一次請求中翻譯多段文本。之前已經對采集到的語料按照網站名稱和語種進行了分類,因此在篇章對齊的過程中只需要選中需要進行對齊操作的文件夾,通過采集新聞標題中的時間進行匹配,設置好相似度即可。設置相似度的目的是為了根據需求來調控所需語料的精確度,同時也為了驗證選擇的網站在多語種頻道發(fā)布的新聞相關程度。
2.5 對齊質量分析
采集對象主要是多語種網站,第一階段實現篇對篇對齊。第二階段開始考慮句子,詞匯。根據不同的相似度對采集的文本進行篇章對齊,對齊后的多語種文本以其中第一篇新聞標題為名稱歸類于同一文件夾,同時進行漢語翻譯,用于判斷對齊質量。篇章對齊后利用翻譯后的文本對比判斷多語種的新聞內容關鍵詞是否相關。在本次實驗中主要確定觀察篇章對齊后新聞文本是否滿足作為雙語語料的基本條件,具體的判斷標準分為以下幾個層次:(1)文章內容大致相同,逐句對應程度高;(2)文章內容不同,但是主題相對應;(3)文章內容與主題不相同,其中只有幾個關鍵詞可對應。
3 實驗結果分析
3.1 數據采集結果
本次實驗使用正則采集規(guī)則,從互聯網中采集到人民網、外交部官網、新華網、國際在線、中國青年網、中國網六個網站的不同語種頻道(主要為英、法、德、俄、日、韓)共1987條新聞數據。每條新聞為單獨的一個.txt文件,并按照來源、語種和時間進行了分類處理。
3.2 篇章對齊結果
對收集到的語料進行自動篇章對齊,選取2019年9月1日-2019年10月20日的新聞文本為對齊對象,通過相似比得到不同的對齊結果,從而分析不同網站多語頻道的文本對齊程度。先通過人工翻譯將相似文章進行人工對齊,然后導入軟件進行自動對齊,通過比較人工和軟件的篇章對齊結果,評測多語種網站是否具有作為平行語料的資質。
3.2.1 人民網對齊結果分析
人民網采集數量如下:德語30篇、法語62篇、俄語85篇、韓語91篇、日語10篇、英語79篇。對人民網的新聞語料進行人工對齊,共計有11項新聞語料使用不同語種陳述相同事情,在相似度0.9的情況下進行篇章對齊,結果顯示在對齊的17項主題中,有4項主題與文本內容一致,其余13項均為關鍵詞相同,與人工比對結果相比對齊效果較好,作為平行語料具有參考價值,文本對齊結果如表1所示。
3.2.2 外交部官網對齊結果分析
外交部官網采集數量如下:法語16篇、英語15篇、截止采集日期,外交部官網俄語頻道2018年3月份后無更新。人工對齊4篇相似主題新聞文章,在相似度比為0.9的情況下進行自動對齊結果為4篇同語種文章對齊,通過觀察發(fā)現原因是因為外交部官方網站采集的語料較少,無法覆蓋自動篇章對齊所需的數據量。但由于主要內容針對的新聞方向是外交與國際,采集結果文本多以外交新聞為主,因此關鍵詞匹配度較高。
3.2.3 國際在線對齊結果分析
國際在線采集數量如下:德語26篇、法語37篇、俄語50篇、英語40篇。國際在線新聞文本人工對齊共8篇,4個主題。在相似度對為0.9的情況下使用軟件進行篇章對齊結果在9項對齊結果中有2項主題和文本內容一致,其余7項均為部分關鍵詞相同,新聞采集和初步篇章對齊結果顯示國際在線多語種新聞文本可作為平行語料。文本內容對齊結果如表2所示。
3.2.4 新華網對齊結果分析
新華網共采集新聞348篇,采集語料數量如下:德語51篇、法語50篇、俄語51篇、韓語64篇、日語67篇、英語65篇。人工對齊結果為8個主題,共18篇文章在新聞內容上一致。對數據進行清洗后,在相似比為0.9的情況下對采集數據進行自動篇章對齊,在對篇章對齊結果進行數據清理后得到13項結果,其中5項對齊程度高新聞主題和內容相同,剩余8項為部分關鍵詞相同。在篇章自動對齊結果中,新華網文本基本滿足了多語種語料篇章對齊的要求,對齊結果質量較高,可以作為平行語料采用,具體對齊情況如表3所示。
3.2.5 中國青年網對齊結果分析
中國青年網共采集74篇,采集語料數量如下:法語20篇、俄語32篇、英語22篇。由于中國青年網部分網站運營出現問題,導致數據采集缺失。在后期人工對齊中,共有兩項主題內容相同。通過軟件進行自動篇章對齊,無準確結果,因此中國青年網不作為平行語料的采集對象。
3.2.6 中國網對齊結果分析
中國網共采集280篇,采集語料數量如下:德語44篇、法語60篇、俄語70篇、日語53篇、韓語54。人工對齊結果共有7項,16篇文本。使用軟件進行自動篇章對齊結果一共有7項,其中2項主題內容相同,剩余5項為關鍵詞對齊。綜合對齊效果來看,中國網無論是從文章主題還是關鍵詞的角度對齊數量少,因此不適合作為平行語料的數據采集庫。
4 實驗結果分析
本文通過對六個多語種網站(人民網、新華網、中國青年網、外交部官方網站、中國網、國際在線)的不同語言頻道新聞進行采集和篇章對齊處理,得到以下結論:
(1)具備作為平行語料采集價值的多語種網站,其中人民網、新華網、外交部官網、國際在線這四個網站作為采集對象,通過篇章對齊后得到的文本對齊率高,自動對齊的文本較精準,可作為平行語料。另外兩個網站由于更新問題,暫時還不具備作為多語種平行語料的價值。
(2)傳統(tǒng)的平行語料大多來源自雙語數據庫,對擁有多語種頻道的新聞網站而言,通過篇章對齊獲得的平行語料相較傳統(tǒng)數據庫而言缺乏一定的精確性,但由于新聞需要每天更新,因此文本數據始終在增加,這樣平行語料就會處于一直增加的狀態(tài),同時多語種網站提供了不同的語種組合,所以可以獲得更多種語言的平行語料。下一步的工作主要是提高篇章對齊的準確度,從篇章對齊延伸至句子對齊,同時從具有平行語料價值的網站中獲取更多的多語種文本。
參考文獻
[1] Koehn P.Statistical machine translation[M].Cambridge:Cambridge University Press,2010.
[2] 朱杰,古明.基于語料庫的機器翻譯[J].現代交際,2019(17):100-101.
[3] 馮志偉.基于語料庫的機器翻譯系統(tǒng)[J].術語標準化與信息技術,2010(1):28-35.
[4] 肖維青.平行語料庫與應用翻譯研究[J].中國科技翻譯,2007(3):25-28.
[5] 邵健,章成志.從互聯網上自動獲取領域平行語料[J].現代圖書情報技術,2014(12):36-43.
[6] 王斌.漢英雙語語料庫自動對齊研究[D].北京:中國科學院研究生院(計算技術研究所),1999.