孫曉迪

內容摘要:雙語平行語料庫對翻譯研究、語言對比以及自然語言處理等領域有重要的影響。目前國內外對于雙語語料庫的研究已經較為成熟,但是仍存在很多問題,使其應用結果受到限制。本文主要考察現有的漢英雙語語料庫,并指出構建雙語語料庫需要考慮特定的語言特點對并且應該易于分析和操作,同時就漢英雙語而言,本文提出以漢語標點句為對齊單位構建雙語語料庫。
關鍵詞:漢語標點句 漢英 雙語語料庫
1.引言
雙語語料庫是指源語文本和它所對應的目標語言翻譯文本構成的文本集合,兩種語言對應的文本對之間語言形式雖然不同,但是表達的內容是一致的,是一種雙語對齊的語料庫。雙語語料庫對翻譯研究、語言對比以及自然語言處理等領域有重要的參考價值。
構建雙語語料庫的關鍵技術之一是雙語對齊,從已有的雙語語料庫的研究來看,有段落、句子、短語、詞匯等不同語法層級的對齊,但更多的是句對齊雙語語料庫,例如最著名的雙語對齊語料庫就是英語與法語間的句對齊雙語語料庫(王斌,1999)。漢英雙語句對齊語料庫也是參照該語料庫建立的,雖然國內語料庫對于國外起步較晚,但是有關漢英雙語語料庫的建設及其研究也取得了一定的成就,如燕山大學劉澤權支持建立的“《紅樓夢》中英文平行語料庫”、北京外國語大學王克非主持研制的一億詞規模的“中國英漢平行語料庫”以及上海交通大學楊慧中教授主持建立的JDEST科技英語語篇語料庫等。
目前對漢英雙語語料庫研究都集中于句對齊算法和模型的研究,但是漢語自身的獨特性使得僅對雙語對齊模型和算法研究是遠遠不夠的,應該從語言本身出發,考察特定語言的語言特點。同時,句子為單位構建漢英雙語語料庫的準確率遠遠不如屬于同一語系的英法對齊之間的準確率高。如Brown(1993)在加拿大Hansard語料進行法英句對齊,其準確率可以達到99.6%,而漢英對齊準確率卻僅90.6%(李維剛,2006)。
基于以上原因,本文總結分析已有的漢英雙語語料庫,指出構建漢英雙語語料庫從漢英兩種語言的語言特點出發,并提出以漢語標點句為參照構建漢英雙語語料庫的設想。本文接下來的章節分別是第二章總結現有的漢英對齊語料庫,第三章描述以漢語標點句為基礎構建漢英雙語語料庫的過程,第四章是對全文的總結。
2.漢語標點句
漢語與英語不同,存在著很多省略的現象,尤其是對于主語的省略,此外,漢語句與句間的邏輯關系也少有顯化的詞來體現。因此,為使漢語和英語處于同一語法層級上,本文提出以漢語標點句為參照構建漢英雙語語料庫。
標點句是指漢語書面語篇章中鄰近的兩個標點之間的詞串。這里所說的標點,包括逗號、句號、分號、嘆號、問號以及直接引語前的冒號。頓號、書名號、連接號、間隔號、著重號不看作標點句的邊界,破折號和刪節號出現較少,所以也不涉及(宋柔,2008)。
在標點句中,如果一個成分或者整個標點句被另一些標點句談論,也就是前者為后者的話題,后者為前者的說明。話題和它的所有說明組成一個話題結構。(宋柔,2008)例如:
①我們把保增長與調結構緊密結合起來;
②加快解決制約經濟發展的結構性矛盾。
上句中有兩個標點句,其中標點句①具有完整的主謂結構,標點句②則缺少主語,其主語是標點句①中的“我們”。在話題結構中,“我們”被稱為話題,該話題被標點句②共享,標點句②的內容是對于話題“我們”的說明。
基于以上分析,標點句①具備了完整的話題和說明成分,因此是話題自足句,標點句②則只有說明部分,并不是一個完整的話題說明結構,但是由于其共享了標點句①的話題,因此被稱作是潛在的話題自足句。大量的漢語語料分析顯示,漢語標點句中絕大部分都是話題自足句或是潛在的話題自足句,這是以標點句為參照構建雙語語料庫的基本依據。
上句對應的英文譯文是:
①We closely integrated sustaining economic growth with economic restructuring,
②and moved more quickly to resolve structural problems limiting economic development.
從英文譯文看,漢語標點句①對應英文①,標點句②對應英文譯文②,英文譯文②也是缺少了主語,其主語共享了前一句的主語“We”。從結構上看,譯文①是一個完整的主謂句,譯文②補足主語后,依然是一個完整的主謂句,且兩個主謂句內部不再嵌套其他主謂句,也就是說兩部分譯文的結構都具有單一性,都可以獨立成為更大語言單位的組成部分。
綜上所述,漢語標點句具備使得漢英能夠實現較高質量對齊的基本性質,即:(1)漢語標點句是可操作、高覆蓋的。漢語的句子不易界定,但是標點句基本上沒有歧義。(2)每一個標點句本身是(或潛在是)一個話題自足句,一個話題句就是一個成分完整的命題,而命題具有完整的語義內容,能夠較好地在雙語之間建立起對應關系,是較為理想的雙語對齊單位。
3.基于漢語標點句的漢英雙語語料庫創建
語料庫創建包括預料采集、語料對齊以及語料標注等步驟。
本文自建的語料庫是以語言研究為目的專門語料庫,雖然理論上語料庫的規模應該盡可能大,但是現實因素限制該語料庫的規模不可能實現盡可能大,能夠滿足研究目標既可。為使其能充分代表整體并具有平衡性,本文選取近十年《政府工作報告》及小說《圍城》(部分)為本文研究的語料,語料分為中文及其英語譯文兩部分,共包括16239對標點句對。
語料對齊是使語料庫能夠具備語言分析的功能前提。雙語對齊首先需要選取適合漢英兩種語言的對齊單位,由于漢語標點句本身或者潛在是一個話題自足句,經過標注便能與注重形合的英語處于同一語法層面,因此本文選取以漢語標點句為雙語對齊單位進行語料庫的構建。雙語對齊分為自動對齊和人工對齊兩部分。第一步,進行機器對齊,首先輸入漢英篇章級對齊的原始語料,根據標點將漢語切分成標點句,為每一個漢語標點句順序尋找其對應的英文譯文,如遇到漢語標點句語序與譯文語序不對應的情況,則將漢語標點句合并,直到漢英雙方的語序一致為止,最后輸出漢語標點句及與之對應的英文譯文。第二步,為了提高對齊準確率需在機器對齊的基礎上輔以人工校對。
為使語言特點顯化需要對語料庫增加文本語言的信息標注,包括詞匯、句法、命名實體、語篇結構等,但具體需要根據研究目的確定信息的標注類型。本文為了能夠更好實現漢英兩種語言的對齊,對語料進行信息顯化的標注,如:
在上例中,漢語中①、③、④標點句都省略了話題“全國各族人民”,為了使每個標點句都變成話題和說明完整的話題自足句,標注出其隱藏的語言信息,其對應的英語譯文也是如此,對①、③、④隱藏的信息“we the Chinese people”添加標注。經過標注的語料庫基本可以實現中文和英文的一一對應,這是以漢語標點句為單位構建漢英雙語語料庫的優點,也為進一步提高機器翻譯提供參考。
4.總結
目前,語料庫成為語言研究的熱點之一,其質量也直接影響著語言對比、翻譯研究甚至自然語言處理的研究效果,而受漢語獨特性的影響,現存的漢英雙語語料庫存在著一些缺點和不足。本文從漢語本身的特點出發,即每一個漢語標點句都可以是或補充成為話題說明完整的句子,因此以漢語標點句為參照構建漢英雙語對齊語料庫,并對其語言信息進行標注,可以建立一個高質量的漢英對齊語料庫,為語言研究及自然語言處理提供更多的語言特征支持。
參考文獻
[1]Brown P F , Lai J C , Mercer R L . Aligning sentences in parallel corpora[C]//Proceedings of the 29th annual meeting on Association for Computational Linguistics, 1991:169-176.
[2]劉冬明.漢英雙語平行語料庫中對齊方法的研究[D].山西大學,2004.
[3]李維剛,劉挺,張宇,等.基于長度和位置信息的雙語句子對齊方法[J].哈爾濱工業大學學報,2006,38(5):689-692.
[4]牛洪梅.服務于漢維機器翻譯系統的雙語句子對齊的研究[D].新疆大學,2007.
[5]宋柔,葛詩利.面向篇章機器翻譯的英漢翻譯單位和翻譯模型研究[J].中文信息學報,2015,29(05):125-135.
[6]宋柔.現代漢語跨標點句句法關系的性質研究[J].世界漢語教學,2008(02):26-44+2.
[7]宋柔.漢語篇章廣義話題結構的流水模型[J].中國語文,2013(06):483-494+575.
[8]宋柔,葛詩利,尚英,盧達威.面向文本信息處理的漢語句子和小句[J].中文信息學報,2017,31(02):18-24+35.
[9]尚英,宋柔,盧達威.廣義話題結構理論視角下話題自足句成句性研究[J].中文信息學報,2014,28(06):107-113+136.
[10]王斌.漢英雙語語料庫自動對齊研究[D].中國科學院研究生院(計算技術研究所),1999.
(作者單位:青島大學)