胡小鵬,袁琦,耿鑫輝,朱姝
中國電子信息產業發展研究院,北京100044
自1995年Rapp提出基于矩陣相似度計算的可比語料庫雙語詞匯提取算法研究以來,構建和使用可比語料庫的研究得到不斷發展。特別是近十幾年,隨著網絡跨語言資源和跨語言處理需求的劇增,基于可比語料庫的雙語資源提取研究已從最初的雙語詞匯提取發展到雙語句對提取,雙語片斷提取,基于本族語言模型的雙語資源提取,語義知識庫建造,以及利用人機語言特征對比改進機器翻譯系統等一系列可比語料庫的數據挖掘研究。到目前為止,除本文發表的研究成果外,國內外尚未發現基于本族語言模型的可比語料庫雙語資源提取報道。隨著可比語料庫研究與應用的不斷發展,它已成為自然語言處理各種相關學術會議的一個中心話題。從2008年起,ACL為該領域的研究創建了專門的學術交流平臺,每年設定中心議題,召開“構建和使用可比語料庫(BUCC)”專題研討會。2013年8月召開的第6次研討會的中心議題,是改進和發展可比語料庫經典的詞匯挖掘技術,提高數據挖掘準確度,擴展應用覆蓋面。
本文中,構成三元組可比語料庫的中式英語又稱Chinglish,它有悖于本族英語規則和英語國家文化習慣。根據拉多(R.Lado)在《跨文化的語言學》中提出的“語言遷移(language transfer)”理論,中式英語充分表征了中國人在英語寫作中母語的負遷移現象。由于受到漢語語言、文化、思維習慣等各方面的影響和干擾,中國人按照自己母語的習慣,主觀編造、生搬硬套構造了中式英語,其中在詞匯層面表現出的負遷移現象尤為嚴重。人們往往不顧兩種語言的本質差異,直接把母語的表達方式生搬硬套到英語詞匯中去。用包含著詞匯層面負遷移現象的譯文構建的平行語料庫顯然存在著扭斜的語言模型。圖1中marketizaton reform是國內學術期刊上出現的詞匯層面的中式英語典型例子,正確的本族英語表達是market-oriented reform。

圖1 詞匯層面的中式英語
由于從平行語料庫提取的雙語數據受到中式英語扭斜的語言模型影響,嚴重影響到跨語言處理應用。以Google在線跨語言檢索為例,當檢索“英國電子信息產品”時,Google的輸出結果主要是涉及“圖書館服務和圖書”文獻(見圖2的屏幕截圖)。其原因是,根據平行語料庫訓練出的應用系統包括有扭斜的語言模型,在輸入“電子信息產品”后,系統無法優先生成“electronics and IT products”,而是扭斜的表示電子圖書類的“electronic information products”。

圖2 “英國電子信息產品”Google跨語言信息檢索結果
平行語料庫是跨語言處理的重要資源。為克服平行語料庫固有的缺陷,本文提出了構建和剖析中英三元組可比語料庫的技術研究。這項研究使用統計和規則相結合的方法,對由本族英語、中式英語和標準中文三元素所組成的三元組可比語料庫中的本族英語和中式英語進行統計分析。在此基礎上,利用n-元詞串、關鍵詞簇等自動抽取技術挖掘基于本族語言模型的雙語資源,改進和發展機器翻譯等自然語言處理應用。本文提出的研究內容不僅對改進和發展跨語言處理應用具有實用價值,而且對外語教學、詞典編纂、對外交流與合作也具有重要意義。
近年來,國外基于可比語料庫的數據挖掘研究發展極其迅速。尤其是,基于可比語料庫的雙語術語提取成為國外可比語料庫研究最為活躍的領域。對于科技領域,尤其是對于新興領域,術語資源往往是短缺的或不是最新的。為了應對新興和迅速發展的科技領域詞匯短缺和陳舊的瓶頸,以及平行語料庫固有的時間滯后和文本稀缺問題,在歐盟第7框架計劃2010年—2012年期間,英、法、德等國通過實施基于可比語料庫的術語提取(TTC)項目,實現了從特定領域(如再生能源)可比語料庫提取中英、中法等12部詞庫的研發計劃。TTC項目開發環境的數據工作流如圖3所示,包括文本預處理、單語術語提取和雙語術語對齊3個層面的開發工具模塊。文本預處理模塊包括詞性還原、詞性標注、詞干提取和詞形還原。單語術語提取模塊用于處理單語語料庫文件并提取術語,其處理流程包括識別并建立單字詞和多字詞的索引,計算詞語的相對頻率和領域特殊性,檢測單個詞術語構成的新古典復合詞,以及采用相對頻率或領域特殊性設定閾值過濾候選項。雙語術語對齊模塊可以根據術語不同的性質,采用不同的策略。對于單個詞的術語采用基于上下文的預測方法,對于新古典復合詞和多詞術語采用基于語意合成性(com positionality)的方法。通過評估驗證,該項目所產生的雙語術語庫有效地改進了面向特定領域的機器翻譯性能[1-2]。

圖3 TTC開發環境的數據工作流
2013年Dhouha等人在深入研究經典的可比語料庫雙語詞匯提取技術基礎上,觀察到翻譯上下文詞向量中多義詞的語義歧義問題,提出了基于WordNet的語義相似度度量的詞義消歧處理的可比語料庫雙語詞匯提取方法。
實驗中,在經典的雙語詞匯提取3步驟,即建立上下文向量、翻譯上下文向量、比較源語和目標語向量中加入了對上下文向量翻譯的語義消歧步驟(見圖4),使用單義詞作為消除歧義的種子集來推斷多義詞的翻譯意思,以減少上下文向量中的干擾噪音,提高雙語詞匯提取性能。

圖4 基于Word Net語義相似度的可比語料庫雙語術語提取方法架構圖
首先,利用雙語詞典中只含有一個義項的詞條來構造單義詞種子詞典,在Word Net的檢測中,這種方法的準確率可以達到95%。其次,通過基于路徑長度的語義相似度的WUP算法[3],在Word Net基礎上,計算目標術語的上下文詞向量中各單義詞的義項與多義詞的各個義項之間的語義相似度值。WUP算法利用兩個詞的同義詞集(s1,s2)在Word Net中的深度和它們的最小公共包含(LCS),計算出兩個詞之間的相似度值,公式如下:

實際中,由于一個詞可能會同時屬多個同義詞集,最終選取兩個詞的所有可能的相似度值中的最大值,作為兩個詞的相似度值,公式如下:

最后,利用上下文詞向量中,多義詞各個義項與各個單義詞義項的平均相似度值,為多義詞的每個義項打分(公式如下),并選取分值最高的義項作為多義詞的最終詞義,以此達到語義消歧的目的。

實證實驗結果表明,該方法明顯優于經典的方法[4]。
在可比語料庫雙語句對提取方面,經典的方法是使用信息檢索(IR)技術,在文檔對齊的基礎上,使用句子層面模型來提取平行句對(或片斷)。IBM Watson實驗室的Tillmann等人提出了一種新的從可比數據中提取句對的算法,使用這種算法可以直接在句子層面打分候選句對集。基于該算法的句對提取,是通過有效執行基于IBM模型1翻譯概率的對稱打分函數實現的。該方法適用于無文檔層面對齊信息的可比語料庫句對提取[5]。在可比語料庫雙語片斷提取方面,Munteanu等人受信號處理的啟發,提出了在句子級別無法對齊的可比語料庫中提取雙語片斷的算法。以詞對齊概率(使用GIZA++獲得)和對數似然比為統計量,來描述詞匯間的相關性,在這些統計數據基礎上,用過濾器模型從可比語料庫中提取雙語片斷。他們把從可比語料庫提取結果應用于統計機器翻譯系統,BLEU測評值得到顯著提升[6]。在基于可比語料庫的語義知識庫建造方面,Genc等人利用基于Wikipedia的多語可比語料庫,通過候選實體匹配標題的算法和多條件對比抽取算法,構建中-英對照知識本體并發展了知識本體的可視化技術[7]。2013年,Ekaterina等人發表了“用可比語料庫分析翻譯變異“的成果,使用相同文本的不同翻譯變體即專業人工翻譯,基于規則機器翻譯(Systran和Linguatec)和基于統計機器翻譯(Google和M oses)構建可比語料庫,從人機語言特征對比角度,開展單語可比語料庫的翻譯對比研究,改善機器翻譯性能[8]。
在可比語料庫雙語詞匯提取方面,張永臣等提出了一種從可比語料庫中抽取特定領域雙語詞典的算法,給出了利用詞間關系矩陣法從特定領域可比語料庫中抽取雙語詞典的過程,通過大量實驗分析了種子詞選擇對詞典抽取結果的影響,其實驗結果表明種子詞的數量和頻率對詞典抽取結果有積極作用[9]。孫廣范等采用雙向等價對獲取計算然后求交集等方法提高翻譯等價對提取正確率[10]。徐會芳等使用基于相似度計算和多特征融合的方法以及最小化樣本風險算法調節特征權重,來提高從可比語料庫中抽取雙語術語互譯對的準確率[11]。在可比語料庫雙語句對提取方面,Fung等人提出利用通用網絡爬蟲持續抓取網絡資源來構建面向多領域的超大規模可比語料庫,從中提取平行句對改善機器翻譯性能。項目中使用面向招回和面向精度的算法,基于信息檢索技術處理網頁,匹配文檔并提取平行句對。通過對網絡資源的深入挖掘,來獲取更多的語言資源[12]。胡弘思等在Wikipedia基礎上,統計詞匯數據、構建命名實體詞典,并通過其本身的對齊機制構建了雙語可比語料,從中抽取對齊句子[13]。基于本族語言模型的雙語資源提取方面,肖健等人通過構建三元組可比語料庫,解決了由中式英語導致的語言模型“扭斜”問題,進一步提高了MWE的自動抽取準確率,改善機器翻譯效果[14]。另外雙語資源提取方面,張桂萍等提出了面向單一雙語網頁的雙語資源挖掘方法[15]。該方法重點采用了以頻繁序列模式為特征的SVM分類方法,實現了包含雙語資源的單一雙語網頁的篩選與識別,并以此為基礎構建可比語料庫,挖掘具有對譯的雙語資源。
本文提出的研究框架包括三元組可比語料庫建設,關鍵詞簇自動剖析,語義多詞表達提取,以及翻譯模板自動提取4個模塊。這4個模塊緊密銜接,三元組可比語料庫是本項研究的基礎設施,通過建設三元組可比語料庫的研究,將為整個項目實施提供數據資源。在此基礎上,通過對三元組可比語料庫的關鍵詞簇自動剖析的研究,可以發現和比較本族英語與中式英語語言模型的區別特征,改進和驗證所采用的自動剖析算法。在對關鍵詞簇統計研究的基礎上,將進一步研究從三元組可比語料庫提取本族英語的語義多詞表達和翻譯模板的算法與模型,以期實現改進和發展機器翻譯等自然語言處理系統性能的研究目標。

圖5 三元組可比語料庫的構建流程圖
三元組可比語料庫是開展本項研究的基礎資源,到目前為止,已經累計構建了百萬句對級的三元組可比語料庫。構建語料庫的原始語料主要來自我院每年都要發布的幾十種,總字數超過200萬英語詞語的ICT領域研究報告。為確保研究報告譯文的準確度和可讀性,所有報告的英文譯文,需經本族英語的語言專家嚴格修改和編輯。每年積累的中式英語和修改后的本族英語文本經過圖5所示的流程處理;通過語料庫比較分析工具,構建滿足可比語料庫取樣框架(sampling frame)要求的三元組可比語料庫。為了保證定量比較分析的準確度,利用工具過濾掉中式英語文本和本族英語文本之間差異在10行以上或者每行差異大于10%的句對。然后,使用我院的句法分析工具(CCID-CESAT)、語料庫標注分析工具(CCID-CTAT)以及英國Lancaster大學Wmatrix和USAS語義分析工具,對三元組可比語料庫進行句法分析、詞性和語義標注。通過對語料庫所做的這些訓練,為后續的關鍵詞簇自動剖析、語義多詞表達和翻譯模板自動提取的研究奠定了基礎。
在建立三元組可比語料庫的基礎上,利用統計方法研究關鍵詞簇在詞語、詞性和語義3個層面上的過使用和欠使用的語言現象,使用對數似然值(LL)定量分析關鍵詞簇的差異顯著性(keyness)。對數似然值計算方式如下:
假設X為要考察的關鍵詞簇,a為中式英語語料庫中出現X的次數,b為本族英語語料庫中出現X的次數,c為中式英語語料庫中所有關鍵詞簇的數目,d為本族英語語料庫中所有關鍵詞簇的數目,其關系如表1的詞頻列聯表所示。

表1 詞頻列聯表
那么對數似然值(log-likelihood)計算方法[16]如下:

Oi為觀察值,即表中的a、b值。Ei為期望值,其計算方法如下:

中式英語語料庫中所有關鍵詞簇的數目為N1=c,本族英語語料庫中所有關鍵詞簇的數目為N2=d,那么中式英語和本族英語中關鍵詞簇的期望為:

對上述公式進一步解釋如下:先求某個詞X在整個語料庫(指兩個語料庫:(1)中式英語;(2)本族語)中出現的概率(根據大數定理,用頻率近似表示概率)。算法步驟是:(1)將X在兩個語料庫中的頻次之和(a+b)除以語料庫中詞的總量(c+d),也就是Ei等式右邊除了Ni以外的那個分式。(2)再根據這個概率分別計算在中式英語中該詞的期望出現次數,即為中式英語總詞量乘以該詞出現的概率。同理計算E2。
依據上述公式得到的E1和E2,可以求得LL值:
LL=2×((a×ln(a/E1))+(b×ln(b/E2)))
對數似然值最大的關鍵詞簇排在列表的頂端,表明該詞簇在本族英語和中式英語之間頻次分布差異比較大。比如,某些關鍵詞簇在中式英語中被過度使用或者欠使用。依據對數似然值的變化差異,可以發現中式英語與本族英語的區別特征,為本項目自動提取基于本族英語的翻譯模板和語義多詞表達研究提供重要參考。
本研究利用關鍵詞簇自動剖析技術(最大為5元詞串)從詞語表達層面分析了本族英語和中式英語的區別特征,計算出三元組可比語料庫中本族英語和中式英語在詞語表達層面的差異顯著性。根據給定的p值和LL值,生成關鍵詞簇過使用(overused)和欠使用(underused)對照表。表2僅列出對數似然值LL大于20的典型關鍵詞和關鍵詞簇。因為在計算期望值時,已經考慮到兩個語料庫的詞次規模(即c和d),所以在運用公式前,不需要做歸一化處理[16]。事實上,表中給出的頻率可以認為是以百萬詞次做歸一化處理的,因此對表中所給數字可作直接比較。
從表2的中式英語語料庫與本族英語語料庫(參考語料庫)的詞語表達層差異顯著性剖析結果可以看出,e-government construction(電子政務建設)、second-hand data(二手資料)和im portant significance(重要意義)等均為詞匯負遷移現象引起的過使用詞語,而e-government development、indirect data和great significance為欠使用詞語。
通過上述分析,可以在三元組可比語料庫中發現中式英語與本族英語的區別特征,實現自動提取基于本族英語模型的多詞表達(MWEs)和翻譯模板,改進和發展機器翻譯等自然語言的處理應用。

表2 詞語表達層差異顯著性剖析結果
目前,構建和剖析三元組可比語料庫的研究已在詞匯表記層面取得有效成果,對克服中英平行語料庫存在固有的扭斜的語言模型,建造和挖掘基于本族語言模型的雙語詞庫,改進機器翻譯等自然語言處理應用具有很大的實用價值。嵌入本項研究成果的機譯系統已在國內外得到廣泛使用。今后,按照本文的研究方法,也可以進行詞性層面和語義層面的差異顯著性剖析研究。本項研究今后的目標,是把基于關鍵詞和關鍵詞簇方法的可比文本微觀研究擴展到基于關鍵語義場(key semantic fields)的可比文本宏觀研究,使其支持內容分析。這樣,就可以把當前對特定的三元組可比語料庫的定量分析擴大到泛化的基于內容的可比文本的定性分析,有效地擴展了可比語料庫的研究與應用。2013年8月召開的第6次“可比語料庫構建和應用(BUCC)”研討會的中心議題,是“改進和發展可比語料庫經典的術語挖掘技術,提高數據挖掘準確度,擴展應用覆蓋面”,值此之際發表本項研究成果更具有現實意義。最后,感謝英國Lancaster大學Paul Rayson博士在本項研究中給予的理論和方法上的指導。
[1]Daille B.Building bilingual term inologies from comparable corpora:the TTC Term Suite[C]//Proceedings of the 5th Workshop on Building and Using Comparable Corpora,2012:29-32.
[2]TTC Annual Public Report 2012[R].2012.
[3]Wu Zhibiao,Palmer M.Verbs semantics and lexical selection[C]//Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics(ACL’94),Association for Computational Linguistics,1994:133-138.
[4]Bouamor D,Semmar N,Zweigenbaum P.Using Word Net and semantic similarity for bilingual terminology Mining from comparable corpora[C]//Proceedings of the 6th Workshop on Building and Comparable Corpora,2013:16-23.
[5]Tillmann C,Xu Jianming.A simple sentence-level extraction algorithm for com parable data[C]//Proceedings of NAACL HLT2009,2009:93-96.
[6]Munteanu D S,Marcu D.Extracting parallel sub-sentential fragments from non-parallel corpora[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL,Sydney,July 2006:81-88.
[7]Genc Y,Lennon E A,Mason W,et al.Building ontologies from collaborative know ledge bases to search and interpret multilingual corpora[C]//Proceedings of the 9th Workshop on Building and Comparable Corpora,2013:87-94.
[8]Lapshinova-Koltunski E.VARTRA:a comparable corpus for analysis of translation variation[C]//Proceedings of the 6th Workshop on Building and Comparable Corpora,2013:77-86.
[9]張永臣,孫樂,李飛,等.基于Web數據的特定領域雙語詞典抽取[J].中文信息學報,2006,20(2):16-23.
[10]孫廣范,宋金平,袁琦,等.中英可比語料庫中翻譯等價對抽取方法研究[J].計算機工程與應用,2007,43(32):44-48.
[11]徐會芳.可比語料中雙語多詞術語互譯對抽取方法研究[D].遼寧大連:大連理工學院,2013.
[12]Fung P,Prochasson E,Shi S.Trillions of comparable documents Pascale Fung,Emmanuel Prochasson and Simon Shi[C]//Proceedings of Workshop on Building and Comparable Corpora,2010:26-34.
[13]胡弘思.基于維基百科的雙語可比語料的句子對齊[D].上海:上海交通大學,2013.
[14]肖健,袁琦,宋金平.使用三元組可比語料庫改進和發展機器翻譯系統[C]//第十四屆全國科技翻譯研討會論文集,2011:102-107.
[15]羅陽,季鐸,張桂萍.面向單一雙語網頁的雙語資源挖掘方法[J].中文信息學報,2011(1):110-115.
[16]Rayson P.From key words to key semantic domains[M].[S.l.]:John Benjamins Publishing Company,2008.