2000年以來我國多語言語料庫研究進展

2016-05-14 05:41:08司莉何依

現代情報 2016年6期

關鍵詞：綜述

司莉何依

〔摘要〕語料庫是指根據一定的方法收集的自然出現語料構成的電子數據庫。2000年以來我國對多語言語料庫的研究呈現快速上升的趨勢。在全面文獻調研的基礎上，本文對我國多語言語料庫的研究現狀進行了歸納與梳理。國內學者對多語言語料庫的研究多集中于語言學領域，其次是計算機領域。研究主題主要分布在多語言語料庫的關鍵技術研究、多語言語料庫的應用研究兩大方面。

〔關鍵詞〕多語言語料庫；跨語言語料庫；平行語料庫；可比語料庫；綜述

〔中圖分類號〕G252.8 〔文獻標識碼〕A 〔文章編號〕1008-0821（2016）06-0165-06

〔Abstract〕Corpus is an electronic database which is composed of the natural corpus collected accordingto a certain method.Since 2000，the research on multilingual corpora in China presented a rapid upward trend.Based on a comprehensive literature research，this paper summarized the current research situation of multilingual corpora in our country.The researches on multilingual corpus were mostly concentrated in the field of linguistics，followed by the computer field.Research topics were mainly distributed in two parts：the key technologies of multilingual corpora and the application multilingual corpora.

〔Key words〕multilingual corpora；cross-language corpora；parallel corpora；comparable corpora；review

語料庫是指根據一定的方法收集的自然出現語料構成的電子數據庫[1]。按語種劃分可分為單語言、雙語言和多語言語料庫，后兩者根據語料的組織形式又可以分為平行語料庫和可比語料庫。平行語料庫，又稱對齊語料庫，是由原文本和對應的翻譯文本構成的語料庫，語言之間是完全對等的、互譯的，是譯文關系，多用于機器學習、雙語詞典；而可比語料庫，又稱類比語料庫，是表述相同主題的多種語言文本的集合，源語言和目標語言沒有嚴格的翻譯關系，多用于語言對比研究，比如針對同一事件不同語言的新聞報道的集合等。

自20世紀90年代初世界上第一個多語言語料庫“加拿大議會會議錄英法平行語料庫”在加拿大建成以來[2]，國內外出現了一些多語言語料庫，如廈門大學海外教育學院主持開發的英漢雙語平行語料庫（廈大E-C Corpus）[3]、北京大學中國語言學研究中心開發的漢英雙語語料庫[4]、北京外國語大學日本研究中心研制的中日對譯語料庫[5]、香港理工大學研制的雙語旅游語料庫、上海交通大學的科技英語可比語料庫（JDEST）、紹興文理學院創建的《紅樓夢》漢英平行語料庫[6]等。國內學者對多語言語料庫的研究以雙語平行語料庫為主，涉及3種及3種以上語種的語料庫較少。據筆者統計，英漢語料庫的研究文獻（包括學術論文、學位論文、會議論文）占總文獻的55.9%。語料庫的語種以英漢語為主，其次是維漢語，另外還包括俄語、日語、法語、藏語等與漢語的結合。本文研究的多語言語料庫包括兩種及兩種以上語言的語料庫。

1 我國多語言語料庫研究數量分布

筆者選取CNKI、重慶維普、萬方數據庫為數據源，以“跨語言語料庫”或“雙語語料庫”或“多語言語料庫”或“平行語料庫”或“對齊語料庫”或“類比語料庫”或“可比語料庫”為關鍵詞，對期刊論文、會議論文與學位論文進行檢索，經篩選得到999篇與“多語言語料庫”主題相關的論文，其中學術論文628篇、會議論文51篇、學位論文320篇。具體學術論文數量的年代分布分別如表1和圖1所示。

從圖1可以看出，2000年以來我國對多語言語料庫的研究基本呈快速上升的趨勢。筆者將其分為3個階段，第一階段為萌芽時期（2000-2004年），這一階段的發文量較少，年均發文量3.6篇；第二階段為初步發展時期（2005-2009年），發文數量有所增長，但增幅較慢，年均發文37.8篇；第三階段為快速發展階段（2010年至今），發文量大幅提升，共發文792篇，占總文獻量的79.2%，年均發文132篇。可見，多語言語料庫的研究已引起學界足夠的重視，成為領域研究熱點。

2 我國多語言語料庫研究的主題分布

除了檢索各種學術論文外，筆者還以“語料庫”為主題詞對國家圖書館館藏書籍進行檢索，篩選出32種多語言語料庫相關的圖書，數據采集時間為2015年11月5日。通過對研究成果的深入研讀與歸類統計，得出關于我國多語言語料庫研究主要集中在多語言語料庫關鍵技術和多語言語料庫應用兩大方面。

2.1 關于多語言語料庫構建的關鍵技術研究

研究者提出的構建多語言語料庫的關鍵技術主要有3種，分別是語料資源的獲取技術、對齊技術、術語抽取技術。此外，還有文本分類技術、去重技術和句子邊界識別技術。

2.1.1 語料資源（網頁）的獲取技術研究

（1）平行網頁獲取技術研究

平行網頁是指存在于兩個不同的網頁中的、相互翻譯的兩種語言的網頁對，如武漢大學官網的中英文版本網址分別是URL：http：∥www.whu.edu.cn和http：∥en.whu.edu.cn。其網頁中包含的高質量雙語語料是平行語料庫的構建的重要來源，常用URL命名規律或HTML結構信息來發現平行網頁。熊文新對“中外對話”環保網站的中英文文本的存放、文件的命名方式及頁面的構成規律進行分析，并構建雙語平行語料庫[7]；徐春通過一定的網頁分析算法預測候選URL與目標網頁的相似度或與主題的相關性，從而抓取平行網頁[8]；姜子進等根據HTML特征建立HTML樹，以HTML樹結構來識別網頁正文內容的特征，然后根據正文內容信息相似性提取網頁[9]；莫源源等根據網頁內容及候選網頁對間余弦相似度等特征和最大熵模型訓練的分類器對平行網頁進行識別，以獲取柬英（柬埔寨語與英語）平行網頁[10]；劉奇等先利用HTML結構實現平行網頁的遞歸訪問，再使用URL模式優化遍歷平行網站的拓撲順序來獲得平行網頁[11]。

（2）混合網頁獲取技術研究

混合網頁是指互為翻譯的文本存在同一個網頁內，即網頁中既有源語言，又有目標語言。要獲取混合網頁，就要先檢測網頁是否含有所需要語種的正文文本。王琳琳分別使用基于Unicode字符編碼分布和N-Gram的語種識別兩種方法進行句子的語種識別，并進行對比實驗，以發現混合網頁[12]。

2.1.2 對齊技術與方法研究

對齊是指從互譯的語言文本中找到其互譯片段的過程，根據對齊粒度的大小可以分為篇章、段落、句子、短語、詞等多個層次。國內學者對對齊技術與方法的研究主要集中在詞對齊和句子對齊兩方面。

（1）詞對齊方法研究

張亞軍等基于統計方法依次使用IBM模型1、IBM模型2構建出一個詞對齊系統[13]。劉鵬遠等基于HowNet以及WordNet進行相似度計算，然后設定相似度閾值來進行詞義過濾，以改進詞對齊技術中的錯誤累計問題[14]。陳亮提出基于語言模型的多詞對齊算法，解決詞對齊過程中存在的一對多和多對多的對齊問題[15]。

（2）句子對齊方法研究

張艷與柏岡秀紀提出了以基于長度的統計對齊方法為主，以基于標點的方法作為對齊的后處理部分的漢英句子對齊的擴展方法[16]；于新等針對藏文語言的特殊性提出了基于詞典的漢藏句子對齊算法[17]；塞麥提·麥麥提敏等將詞匯信息和長度信息相結合，識別出錨點句對，并將其作為分割標志對全文進行分段，進而實現各片段內的句子對齊[18]；才藏太提出了一種藏文句子的邊界識別方法，即利用特殊規則和詞表對藏文句子進行識別，然后利用最大熵模型對有歧義的句子進一步識別[19]；劉智穎建立了句子級語義標注語料庫，探討句子級語義標注語料庫的標注內容、標注方法和標注難點[20]。

此外，李康熙從語言學角度出發，重點結合象征單位和翻譯單位等概念探討了雙語對齊中存在的問題[21]；趙蓮提出了基于跨語言信息檢索與特征過濾相融合的方法來建立源語言文檔與目標語言文檔間的對應關系，以確保可比較語料庫的對齊質量[22]。

2.1.3 對應單位抽取技術研究

對應單位是指源語言和目標語言文本中任何可以識別的相互對應的語塊或者片段，在部分文獻中又稱為翻譯對、互譯對，可用于雙語詞典編纂和統計機器翻譯。梁銘對雙語語料中的名詞和短語進行統計并生成候選術語集，使用翻譯概率計算公式計算每個英文候選術語與相關的中文間的翻譯概率，并通過設定隨詞頻變化的閾值以及貪心算法來選取中文翻譯[23]；任高舉等提出了一種改進的短語抽取算法，先考慮詞對齊矩陣中一個漢語與多個維吾爾語詞的對齊情況，然后利用Och的短語抽取算法抽取短語對，最后考慮維吾爾語SOV語序（即主語+賓語+謂語語序）結構特點，抽取雙語短語[24]；唐亮等提出基于多策略過濾方法，即先從一種語言中抽取多詞短語，然后通過一系列過濾措施得到質量較高的單語言多詞短語，最后通過相似度計算抽取并整合翻譯對[25]；劉穎等用正則期望從漢語專利語料庫中抽取并過濾漢語短語，利用詞對齊工具Giza++和Moses從漢英平行語料庫中抽取漢英短語，根據二者的交集得到翻譯對[26]；嚴燦勛等基于C#正則表達式的英漢翻譯對抽取方法，從機讀電子詞典、含英漢翻譯對的網頁等資料中提取有固定模式的翻譯對[27]；徐會芳從可比較語料庫中分別抽取中、英文多詞術語，再使用最小化樣本風險算法來調節特征權重，得到術語匹配對，并使用閾值限定法過濾正確的術語對[28]。

2.1.4 其他技術研究

其他技術研究涉及文本分類與去重技術。熊超等通過考慮雙語平行語料文檔與文檔、文檔與詞和詞與詞之間的語義對應關系，提取原始文檔的潛在語義對，構建潛在語義對偶空間，把雙語文檔映射到此概念空間后，實現跨語言文本分類[29]。申文明等利用整體相似因子和局部相似因子計算句子的相似度，并借鑒KMP算法的匹配思想，提出中文字符串匹配的類KMP算法，以實現平行語料庫中形似句子的去重[30]。

2.2 關于多語言語料庫應用的研究

多語言語料庫常被用于翻譯、詞典構建、機器翻譯、多語信息平臺構建和跨語言信息檢索中。

2.2.1 在翻譯中的應用研究

（1）應用于翻譯共性研究

翻譯共性是指譯文中呈現的有別于原文的一些典型的、跨語言的、有一定普遍性的特征[31]。研究集中在翻譯的顯化、隱化、簡化和范化等方面。董敏與馮德正基于自建的平行語料庫，檢索與漢語對應的英文邏輯連接詞，進而分析英漢翻譯邏輯關系顯化策略的動因[32]；黃立波基于雙語平行語料，對漢英和英漢翻譯中連接成分和人稱代詞主語的轉換進行考察，以發現語言形式手段差異與翻譯中顯化和隱化的關系[33]；武光軍以漢英類比語料庫作為實證研究平臺，以搭配作為研究對象，分別分析了翻譯漢語、英語文本的整體搭配特征，以加深對翻譯共性的認識[34]。

（2）應用于詞匯及古籍翻譯

借助領域多語言語料庫對具體詞的用法進行分析和研究，能夠對譯名進行統一與規范，獲得作品、短語的最佳翻譯方式。易焱與王克非基于英漢、漢英雙向平行語料庫對現代漢語人稱代詞“大家”和它在英語中的對應項進行分析，以加強對人稱代詞在翻譯語言中使用規律的認識[35]；王子穎利用中國大陸和香港法律法規漢英平行語料庫，研究了shall和may兩個情態動詞在肯定和否定形式下的不同用法[36]；胥逸萌選取5年的《政府工作報告》建立了一個小型雙語平行語料庫，研究報告的翻譯團隊對“推進”一詞的用法[37]；劉克強基于自建的《儒林外史》漢英句對齊平行語料庫，對該書中服飾、習俗、戲曲等方面的翻譯進行分析[38]。

（3）應用于譯者風格研究

通過語料對比分析，可以考察譯者在傳承原作風格之外的自我顯現。劉澤權利用語料庫檢索軟件將《紅樓夢》的4個英譯本在詞匯和句子層面的基本特征進行數據統計和初步的量化分析，比較其在翻譯風格上的異同[39]；宋偉華通過自建的《六祖壇經》漢英平行語料庫對該部典籍最早的兩個英譯本進行分析，探討導致兩個譯本方式不同的因素[40]；盧曉娟根據魯迅小說的3位不同譯者的英譯本建立語料庫，從譯者所運用的翻譯策略、翻譯風格等角度，探討影響譯者風格形成的因素[41]。

（4）應用于翻譯教學

多語言語料庫可以為教學翻譯提供句子及篇章級的英漢對譯，提高課堂教學效果。香港城市大學開發了“英漢漢英翻譯遠程教學系統”，以篇章語言學、系統功能語言學、文體學和話語研究等為理論支撐，對語料進行手工標注[42]。賀文照使用平行語料庫和詞典等常規參考資源作為實驗組和對照組進行實證研究，發現平行語料庫能提高翻譯的工作效率和質量[43]；蔣麗平以某IT學院大三的軟件開發專業學生為實驗對象，來驗證IT英漢平行語料庫在輔助翻譯的質量和效率[44]。熊兵研究了英漢雙語平行語料庫的翻譯教學模式，并重點分析翻譯教學模式的教學內容編排、實施原則及操作方式等問題[45]。

2.2.2 在雙語詞典構建中的應用研究

多語言語料庫的建立方便了詞典編撰，如《新時代英漢大詞典》是我國國內借用現代語料庫研編大中型英漢詞典的開山之作[46]。曾文等在實現漢英句子級對齊后，對雙語語料分別進行分詞和詞性標注處理，通過抽取漢英詞語單元并計算其關聯概率來實現漢英的詞語對齊，生成雙語詞典[47]。吳玥在可比語料庫雙語詞表構建的基礎上，提出了基于依存上下文來構建中-英詞表的方法[48]。安紀霞等以對數相似性模型為基礎，采用迭代策略實現了翻譯詞典獲取，并在自建的小型英漢平行語料庫《測試語料》上進行了相應的試驗[49]。李德俊探討了基于語料庫的詞典編纂系統的方法[50]。劉克強以《水滸傳》4個英語全譯本為對象，在建立平行語料庫基礎上編寫了《水滸傳翻譯大辭典》[51]。

2.2.3 在機器翻譯中的應用研究

平行語料是機器翻譯模型不可缺少的訓練數據，機器翻譯系統能從語料庫中自動提取與待翻譯語句相同或相近的例句，并模仿例句自動生成譯文。黃瑾在已有的雙語平行語料庫中選出與待翻譯文本相似的數據構造自適應的訓練語料，再通過加權調整已有資源的數據分布，在不增加大數據規模的基礎上生成更為優化的模型參數，以提高機器翻譯的質量[52]。劉粵鉗與姚紅玉用《人民日報》中、法文網絡版的部分文章建立一個小型的漢法平行語料庫，然后利用改進的Yamada算法構建了一個漢法機器翻譯系統[53]。李梅等針對機器翻譯時出現的典型性錯誤，進行二次加工，即做譯后編輯的自動化處理以過濾這些典型性錯誤，從而加快機譯速度并提高機譯質量[54]。

2.2.4 在信息服務平臺構建中的應用研究

王傳英利用雙語平行語料庫二次開發圖書館公共信息服務平臺，以解決讀者利用文獻時語言障礙問題，并輔助讀者閱讀、寫作[55]。趙衍以中英文平行語料庫為基礎，設計了一種跨語種的Web產品評論挖掘系統，并將其應用于高爾夫轎車的產品性能挖掘[56]。納吉米設計與實現了漢維哈平行語料庫系統的文檔導入及對齊功能，以構建面向電力行業信息系統的漢維哈自動翻譯引擎[57]。

2.2.5 在跨語言信息檢索中的應用研究

多語言語料庫是跨語言信息處理的重要資源。房璐等從多語言語料庫中抽取翻譯知識，并應用于跨語言信息檢索系統的查詢翻譯中，以改善跨語言信息檢索的性能[58]。羅遠勝等基于雙語平行語料庫中兩種語言的潛在語義空間，提出雙語偏最小二乘雙語主題相關模型，以克服跨語言潛在語義索引模型中存在的不足[59]。鄒小芳等基于自建的中英平行語料庫和蒙特利爾大學的英法平行語料庫，對平行文檔進行分析建模，提取語言之間的潛在語義對應關系，在潛在中間語義空間中進行檢索[60]。胡小鵬等利用n-元詞串、關鍵詞簇等自動抽取技術挖掘三元組可比語料庫中本族語言模型的雙語資源，改進和發展跨語言處理應用[61]。

3 總結

2000年我國研究者開始關注多語言語料庫，15年來其研究熱度持續上升。本文在大量的文獻調研基礎上，對我國多語言語料庫的研究進展進行了分析。在學科領域上，語言學領域對多語言語料庫的研究最多，其次是計算機領域。具體來說，語言學領域主要是利用多語言語料庫來研究語言翻譯問題，即探討基于語料庫的特定領域、不同語種之間的翻譯以及翻譯教學研究，部分語言學學者會自行構建小型多語言語料庫來輔助研究。計算機科學與圖書情報領域則更多的聚集多語言語料庫的關鍵技術方面，包括針對語料庫中某個技術的實現提出具體的解決方案、新的算法以及多語言語料庫的應用問題等。

通過對文獻的主題分析發現，我國對多語言語料庫的研究大致可以分為兩大塊，一是多語言語料庫關鍵技術的研究；二是多語言語料庫應用研究。在構建多語言語料庫的過程中，研究得最多的技術是網頁獲取技術、對齊技術和術語抽取技術。網頁獲取技術是多語言語料庫的語料來源，是構建多語言語料庫的基礎；對齊技術、術語抽取技術可廣泛應用于多語詞典、不同語種的同義詞詞表和機器翻譯中，但是術語抽取技術對多語言語料庫的數量、質量、精確度要求較高。多語言語料庫的應用以翻譯、詞典構建、機器翻譯為研究熱點。在未來，要加強多語言語料庫的評價研究，提出定量和定性的評價指標，以提高語料庫的構建質量。此外，豐富的網絡信息資源已為可比語料庫的發展提供了契機，通過爬蟲工具可以從互聯網上獲得大量的可比較文本，未來還應加強對可比語料庫關鍵技術、構建方法的研究。

參考文獻

[1]胡開寶.語料庫翻譯學概論[M].上海：上海交通大學出版社，2011.

[2]王克非，黃立波.國外雙語庫研制與應用評析[J].外語電化教學，2012，（6）：3-10.

[3]英漢雙語平行語料庫.檢索頁面[EB/OL].http：∥www.luweixmu.com/ec-corpus/query.asp，2015-11-15.

[4]北京大學中國語言學研究中心.CCL漢英雙語語料庫[EB/OL].http：∥ccl.pku.edu.cn：8080/cclcorpus/，2015-11-15.

[5]北外語料庫語言學.語料庫語言學年表[EB/OL].http：∥www.bfsu-corpus.org/content/chronology-corpus-linguistics-yu-liao-ku-yu-yan-xue-nian-biao，2015-11-15.

[6]《紅樓夢》漢英平行語料庫[EB/OL].http：∥corpus.usx.edu.cn/hongloumeng/，2015-11-15.

[7]熊文新.Web、語料庫與雙語平行語料庫的建設[J].圖書情報工作，2013，（10）：128-135.

[8]徐春.漢、英平行語料庫的研究與構建[J].科技信息，2011，（17）：104-105.

[9]姜子進，吐爾根·依布拉音，賽依旦·阿不力米提，等.Web環境下自動獲取漢、維語料庫[J].計算機應用與軟件，2011，28（12）：19-21，70.

[10]莫源源，潘麗同，嚴馨，等.基于最大熵模型的柬英平行網頁獲取[J].計算機工程，2015：1-8.

[11]劉奇，劉洋，孫茂松.URL模式與HTML結構相結合的平行網頁獲取方法[J].中文信息學報，2013，27（3）：91-99.

[12]王琳琳.面向Web的多語平行句對挖掘技術研究[D].黑龍江：哈爾濱工業大學，2014.

[13]張亞軍，賀琛琛.漢語-維吾爾語的一對一詞對齊研究[J].昌吉學院學報，2012，（6）：80-83.

[14]劉鵬遠，趙鐵軍，李生，等.利用語義相似度解決雙語詞匯知識獲取的錯誤累計問題[J].哈爾濱工程大學學報，2006，27（z1）：575-579.

[15]陳亮.基于英漢平行語料庫的機器翻譯知識獲取研究[D].北京：北京交通大學，2012.

[16]張艷，柏岡秀紀.基于長度的擴展方法的漢英句子對齊[J].中文信息學報，2005，（5）：31-36.

[17]于新，吳健，洪錦玲.基于詞典的漢藏句子對齊研究與實現[J].中文信息學報，2011，25（4）：57-62.

[18]塞麥提·麥麥提敏，侯敏，吐爾根·伊布拉音.基于錨點句對的漢維句子對齊方法[J].計算機工程，2015，（4）：166-170.

[19]才藏太.基于最大熵分類器的藏文句子邊界自動識別方法研究[J].計算機工程與科學，2012，34（6）：187-190.

[20]劉智穎.基于HNC的現代漢語句子級語義標注語料庫的研究和建立[M].北京：中國社會科學出版社，2015.

[21]李康熙，楊勇.平行語料庫對齊技術的語言學思考[J].合肥工業大學學報：社會科學版，2009，23（3）：83-86.

[22]趙蓮.大規模中英可比較語料庫構建[D].遼寧：大連理工大學，2010.

[23]梁銘.基于英漢平行語料庫術語詞典的自動抽取[J].電腦知識與技術：學術交流，2009，5（7）：5081-5083.

[24]任高舉，吐爾根·伊布拉音，艾山·吾買爾.統計機器翻譯中漢維短語對抽取的研究[J].新疆大學學報：自然科學版，2010，27（3）：349-352.

[25]唐亮，李倩，許洪波，等.基于多策略過濾的漢日多詞短語抽取和對齊[J].山東大學學報：理學版，2015，（9）：21-28.

[26]劉穎，鐵錚，余暢.漢英短語翻譯對的自動抽取[J].計算機應用與軟件.2012，29（7）：69-72.

[27]嚴燦勛，劉慧敏，宋蘭.基于C#正則表達式的英漢翻譯對抽取[J].科技信息，2011，（26）：1-2.

[28]徐會芳.可比語料中雙語多詞術語互譯對抽取方法研究[D].遼寧：大連理工大學，2013.

[29]熊超，王明文，吳福英，等.基于潛在語義對偶空間的跨語言文本分類研究[J].廣西師范大學學報：自然科學版，2010，28（1）：157-160.

[30]申文明，黃家裕，劉連芳.平行語料庫的相似語句去重算法[J].廣西科學院學報，2009，25（4）：248-250，256.

[31]柯飛.翻譯中的隱和顯[J].外語教學與研究：外國語文雙月刊，2005，37（4）：303-307.

[32]董敏，馮德正.英漢科技翻譯邏輯關系顯化策略的語料庫研究[J].外語教學，2015，36（2）：93-96.

[33]黃立波.基于漢英/英漢平行語料庫的翻譯共性研究[M].上海：復旦大學出版社，2007.

[34]武光軍.基于漢英類比語料庫的翻譯文本中的搭配特征研究[M].北京：中國社會科學出版社，2014.

[35]易焱，王克非.基于平行語料庫的“大家”的對應研究[J].外語與外語教學，2013，（3）：49-54.

[36]王子穎.法律語篇中shall和may的翻譯對比研究[J].上海翻譯，2013，（4）：52-57.

[37]胥逸萌.《政府工作報告》中“推進”的概念隱喻用法實證研究[J].讀與寫：教育教學刊，2012，（8）：34-35.

[38]劉克強.儒林外史語詞典型翻譯——基于平行語料庫的研究[M].北京：光明日報出版社，2015.

[39]劉澤權，劉超朋，朱虹.《紅樓夢》四個英譯本的譯者風格初探——基于語料庫的統計與分析[J].中國翻譯，2011，32（1）：60-64.

[40]宋偉華.《壇經》黃茂林英譯本與Dwight Goddard英譯本比較[J].中國科技翻譯，2013，（1）：19-22.

[41]盧曉娟.語料庫驅動下的魯迅小說譯者風格研究[M].北京：中央編譯出版社，2015.

[42]王惠.“精加工”平行語料庫在翻譯教學中的應用[J].中國翻譯，2015，（1）：50-54.

[43]賀文照.平行語料庫輔助翻譯實踐實證研究[J].嘉興學院學報，2013，25（2）：64-69.

[44]蔣麗平.IT文本英漢平行語料庫輔助翻譯實踐的實證研究[J].中南林業科技大學學報：社會科學版， 2014，8（4）：110-113.

[45]熊兵.基于英漢雙語平行語料庫的翻譯教學模式研究[J].外語界，2015，（4）：2-10.

[46]吳曉昱，王安民.平行語料庫與漢英詞典編纂的對接[J].譯林：學術版，2012（2）：169-176.

[47]曾文，王惠臨，徐紅姣.漢英雙語詞典的自動構建技術研究[J].情報學報，2011，30（4）：402-409.

[48]吳.基于依存上下文的中-英詞表構建方法[J].信息通信，2013，（7）：95-96.

[49]安紀霞，李錫祚，宋冰，等.服務于詞典編纂的特定領域專業術語自動抽取[J].計算機與數字工程，2007，（11）：53-56.

[50]李德俊.語料庫詞典學[M].江蘇：譯林，2015.

[51]劉克強.水滸傳翻譯大辭典[M].北京：中央編譯出版社，2014.

[52]黃瑾，呂雅娟，劉群.基于信息檢索方法的統計翻譯系統訓練數據選擇與優化[J].中文信息學報，2008，22（2）：40-46.

[53]劉粵鉗，姚紅玉.一類基于平行語料統計的漢法機譯解決方案[J].計算機技術與發展，2008，18（4）：114-117.

[54]李梅，朱錫明.譯后編輯自動化的英漢機器翻譯新探索[J].中國翻譯，2013，（4）：83-87.

[55]王傳英.基于雙語平行語料庫的信息服務平臺建設[J].圖書館工作與研究，2010，（12）：79-82.

[56]趙衍.基于中英文平行語料庫的Web產品評論挖掘[J].上海管理科學，2012，（5）：42-46.

[57]尼加提·納吉米.面向電力行業的漢維哈文檔對齊工具的設計與實現[J].電腦知識與技術，2014，（36）：8657-8658，8663.

[58]房璐，葛運東，洪宇，等.可比較語料庫構建及在跨語言信息檢索中的應用[J].廣西師范大學學報：自然科學版，2010，28（3）：126-130.

[59]羅遠勝，王明文，勒中堅，等.跨語言信息檢索中的雙語主題相關模型[J].小型微型計算機系統，2013，34（12）：2758-2763.

[60]鄒小芳，王明文，左家莉，等.新的基于中間語義的多語言信息檢索模型[J].小型微型計算機系統，2010，（4）：696-701.

[61]胡小鵬，袁琦，耿鑫輝，等.構建和剖析中英三元組可比語料庫[J].計算機工程與應用，2014，（13）：153-157，186.