馬建軍 田思琪



關(guān)鍵詞:語(yǔ)義缺省;機(jī)器翻譯;世界知識(shí)
1引言
自然語(yǔ)言中存在無(wú)數(shù)被我們省略的背景知識(shí),即存在語(yǔ)義缺省現(xiàn)象。語(yǔ)義缺省是一種特殊的省略現(xiàn)象,在形式上表現(xiàn)為語(yǔ)義空位。人類使用的大部分句子中都存在語(yǔ)義缺省,缺省的內(nèi)容就是人們熟知的世界知識(shí)。世界知識(shí)是在語(yǔ)言研究中,幫助讀者或聽(tīng)眾解釋單詞和句子含義的非語(yǔ)言信息,也被稱為語(yǔ)言外知識(shí)。機(jī)器若要完全理解人類語(yǔ)言表達(dá)背后的意思,就必須以某種方式“發(fā)現(xiàn)”人們?cè)谡Z(yǔ)言交流中假定和省略的一切。
研究者一直以來(lái)從不同角度研究機(jī)器翻譯質(zhì)量和語(yǔ)義缺省。有學(xué)者聚焦機(jī)器訓(xùn)練語(yǔ)料的數(shù)量對(duì)機(jī)器翻譯質(zhì)量的影響,也有學(xué)者從翻譯者的角度立足語(yǔ)用推理、語(yǔ)境分析等試圖通過(guò)譯后分析提高翻譯質(zhì)量,更有大量學(xué)者關(guān)注語(yǔ)義缺省的現(xiàn)象,分析語(yǔ)義缺省特別是文化上的語(yǔ)義缺省對(duì)譯員的影響,但幾乎沒(méi)有文章研究語(yǔ)義缺省現(xiàn)象對(duì)機(jī)器翻譯的影響。
因此,本文選擇語(yǔ)義缺省較多的新聞標(biāo)題作為研究語(yǔ)料,以Jaszczolt的缺省語(yǔ)義學(xué)理論為指導(dǎo),研究語(yǔ)義缺省現(xiàn)象對(duì)機(jī)器翻譯質(zhì)量的影響。研究進(jìn)一步完善語(yǔ)義缺省框架;選擇百度翻譯作為機(jī)器翻譯系統(tǒng),比較加入世界知識(shí)前后的英文標(biāo)題的機(jī)器翻譯結(jié)果來(lái)分析語(yǔ)義缺省對(duì)機(jī)器翻譯的影響:提出補(bǔ)充世界知識(shí)的方法,從而進(jìn)一步提高機(jī)器翻譯質(zhì)量。
本研究旨在解決以下三個(gè)問(wèn)題:(1)英語(yǔ)新聞標(biāo)題中都存在哪些語(yǔ)義缺省?(2)語(yǔ)義缺省是否影響機(jī)器翻譯質(zhì)量?如果有影響,如何影響?(3)如何補(bǔ)充世界知識(shí)改善機(jī)器翻譯質(zhì)量?
2語(yǔ)義缺省理論框架
Jaszczolt把語(yǔ)義缺省區(qū)分為認(rèn)知缺省和社會(huì)文化缺省兩種基本類型。認(rèn)知缺省的信息是同一語(yǔ)言社團(tuán)共享知識(shí)的默認(rèn)值,當(dāng)跨語(yǔ)言社團(tuán)成員對(duì)同一概念的意義可能產(chǎn)生認(rèn)知變異日寸,原文的缺省值需要在譯語(yǔ)中轉(zhuǎn)化為必要值。社會(huì)文化缺省是說(shuō)話人在與其意向受眾交流時(shí)對(duì)雙方共有的相關(guān)文化背景知識(shí)的省略,但被隱去的語(yǔ)用值又可能是異域受體的期待信息。本文結(jié)合新聞?wù)Z料以及Saba列舉的語(yǔ)義缺省的例子,在Jaszczolt的缺省語(yǔ)義學(xué)基礎(chǔ)上,根據(jù)引起語(yǔ)義缺省的因素,對(duì)認(rèn)知缺省和社會(huì)文化缺省進(jìn)一步分類。認(rèn)知缺省從詞匯和句法兩個(gè)層面分析引起缺省的因素,而社會(huì)文化缺省則從詞匯和修辭兩個(gè)層面分析。對(duì)每一個(gè)層面都概括了引起語(yǔ)義缺省的主要因素,具體分類如圖1所示。
詞匯層面引起語(yǔ)義缺省的主要因素是多義詞:句法層面的主要因素包括隱藏關(guān)系和回指:而修辭層面的主要因素包括隱喻和轉(zhuǎn)喻[2]。各缺省因素具體定義如下。
多義詞:當(dāng)一個(gè)詞或句子有一個(gè)以上的意義視為多義詞,主要是因?yàn)榫渥又械耐粋€(gè)詞有幾種不同的意義或理解而引起的。
隱藏關(guān)系:指隱藏的句法關(guān)系,包括并列、主謂、修飾和介詞短語(yǔ)附著等關(guān)系。并列關(guān)系指的是由連詞and或or等將兩個(gè)或兩個(gè)以上句子成分(如短語(yǔ)或小句)連接起來(lái),這些句子成分在語(yǔ)法地位上沒(méi)有主次之分。
回指:一般情況下,如果同一個(gè)項(xiàng)目連續(xù)多次出現(xiàn),就用同一個(gè)代詞而不重復(fù)用同一個(gè)名詞來(lái)指代它。代詞一般代表名詞短語(yǔ),但也可以代表動(dòng)詞短語(yǔ)、整個(gè)句子或段落[3]。
暗喻:表示一種物體或概念的詞以及短語(yǔ)代替另一種物體或概念,以暗示它們之間的相似性或類比性。
轉(zhuǎn)喻:指一個(gè)事物或概念是由與該事物或概念密切相關(guān)的事物的名稱來(lái)指代。
3研究設(shè)計(jì)
3.1研究語(yǔ)料
考慮到新聞標(biāo)題簡(jiǎn)潔生動(dòng)的特點(diǎn),本文從《中國(guó)日?qǐng)?bào)》中文版和英文版中選取平行語(yǔ)料。從2020年9月19日~ 2022年4月6日共有1067條雙語(yǔ)新聞標(biāo)題,選擇英文標(biāo)題做翻譯語(yǔ)料,其中中文標(biāo)題作為參考來(lái)衡量機(jī)器翻譯的質(zhì)量。隨后,在清洗語(yǔ)料的過(guò)程中,刪除非平行語(yǔ)料新聞83條,不含缺省的新聞484條,最終得到含語(yǔ)義缺省的新聞標(biāo)題對(duì)500條,缺省比例47%,如表1所列。新聞內(nèi)容主要涵蓋經(jīng)濟(jì)、政治等話題。
3.2數(shù)據(jù)分析
結(jié)合語(yǔ)義缺省理論框架(圖1)對(duì)語(yǔ)料中的語(yǔ)義缺省現(xiàn)象進(jìn)行詳細(xì)分類[4]。為了盡量減少任意性的風(fēng)險(xiǎn)并保證結(jié)果的可靠性,項(xiàng)目組邀請(qǐng)了研究人員以外的第二位語(yǔ)料標(biāo)注者對(duì)語(yǔ)料進(jìn)行二次劃分,針對(duì)不一致的語(yǔ)料標(biāo)注進(jìn)行充分討論,最終得出相關(guān)分類結(jié)果。
之后,選擇目前國(guó)內(nèi)使用率較高的百度翻譯作為機(jī)器翻譯系統(tǒng),實(shí)驗(yàn)方法是將英文標(biāo)題原語(yǔ)(記為ST1)放人百度翻譯中得到第一版中文譯文(記為TT1),再將缺省的世界知識(shí)補(bǔ)充進(jìn)原句中,將補(bǔ)充好世界知識(shí)的英文語(yǔ)料(記為ST2)再次放入機(jī)器翻譯中,得到第二版中文譯文(記為TT2),將加入世界知識(shí)前后的兩版機(jī)器翻譯結(jié)果與《中國(guó)日?qǐng)?bào)》(雙語(yǔ))中給出的中文標(biāo)題(記為REF)進(jìn)行對(duì)比,總結(jié)語(yǔ)料中世界知識(shí)的出現(xiàn)是否會(huì)影響機(jī)器翻譯質(zhì)量。語(yǔ)料統(tǒng)計(jì)結(jié)果使用SPSS 25.0中文版進(jìn)行獨(dú)立T檢驗(yàn)[5]。
4結(jié)果和討論
4.1新聞標(biāo)題中的語(yǔ)義缺省類型
《中國(guó)日?qǐng)?bào)》英文新聞標(biāo)題中的語(yǔ)義缺省類型如表2所列。表2表明,語(yǔ)義缺省現(xiàn)象涵蓋各種類型。其中,認(rèn)知缺省現(xiàn)象占比57%,而社會(huì)文化缺省占比43%。這說(shuō)明認(rèn)知缺省和社會(huì)文化缺省在新聞標(biāo)題的缺省中具有同等研究地位,不可忽視[6]。
從影響缺省的因素來(lái)看,多義詞導(dǎo)致的缺省是最多的,共占比63%,其中多義詞導(dǎo)致的認(rèn)知缺省占比26%,其導(dǎo)致的社會(huì)文化缺省占比37%。研究表明,多義詞導(dǎo)致認(rèn)知缺省主要是由于絕大多數(shù)詞匯,尤其是名詞和動(dòng)詞,都具有不止一個(gè)常用義項(xiàng),而社會(huì)文化缺省中的多義詞主要在于新詞和社會(huì)機(jī)構(gòu)縮略語(yǔ)。
其次是隱藏關(guān)系,占比23%。表3進(jìn)一步分析了各種隱藏關(guān)系,其中主謂關(guān)系比例最高,占隱藏關(guān)系中的62%,其次是修飾關(guān)系,占比34%,而并列關(guān)系和介詞短語(yǔ)附著占比很低,各占比1%和3%。研究表明,為了以最少的篇幅傳遞最多的信息,新聞標(biāo)題多用介詞和數(shù)詞,選擇省略部分動(dòng)詞或者名詞,因此隱藏了主謂關(guān)系或修飾關(guān)系。比如,例1隱藏了并列關(guān)系,該句前后兩部分是并列關(guān)系,“and”被省略[7]。例1(并列關(guān)系):Young people spend so long staring atscreens(and) half may need glasses in 30 (2021-10-18)
占比較少的是回指、轉(zhuǎn)喻和隱喻,其中回指和轉(zhuǎn)喻分別占比7%和5%,而隱喻是最少的,僅占比1%。其主要原因是受限于新聞標(biāo)題的體裁。回指較少是由于新聞標(biāo)題內(nèi)容精煉,一句話中需要反復(fù)提及同一個(gè)詞語(yǔ)的情況鮮少出現(xiàn):而隱喻和轉(zhuǎn)喻作為修辭手法,雖然生活中隨處可見(jiàn),但是新聞標(biāo)題講求高效客觀傳達(dá)信息,因此語(yǔ)料中也并不多見(jiàn)。比如,例2中“it”指前文描述的“藝術(shù)家攜款逃跑的現(xiàn)象”,而不是“money”。例2(回指):Danish artist takes museum'smoney and runs,
calls it(this phenomenon)
art( 2021-09-29)
4.2缺省世界知識(shí)對(duì)機(jī)器翻譯質(zhì)量的影響
通過(guò)比較加入世界知識(shí)前后譯文的質(zhì)量,可以分析語(yǔ)義缺省現(xiàn)象對(duì)機(jī)器翻譯質(zhì)量的影響。表4說(shuō)明了加人世界知識(shí)前后譯文的翻譯正確率,TTI指的是ST1(缺省世界知識(shí))的譯文,TT2則是ST2(補(bǔ)充世界知識(shí))的譯文。統(tǒng)計(jì)結(jié)果顯示,兩版譯文有顯著差異(p=0.0009<0.05),表明補(bǔ)充世界知識(shí)和機(jī)器翻譯正確率之間的關(guān)系有統(tǒng)計(jì)學(xué)意義,即各類缺省中世界知識(shí)的補(bǔ)充都能提升機(jī)器翻譯質(zhì)量[8]。
表5詳細(xì)分析了補(bǔ)充世界知識(shí)對(duì)機(jī)器翻譯結(jié)果的影響情況,總體來(lái)看,通過(guò)補(bǔ)充世界知識(shí),各類別機(jī)器翻譯錯(cuò)誤情況都有所改觀,并且不存在加入世界知識(shí)后翻譯由正確變?yōu)殄e(cuò)誤的情況。其中,42. 6%的語(yǔ)料在補(bǔ)充世界知識(shí)后機(jī)器翻譯結(jié)果從錯(cuò)誤變成正確,說(shuō)明這些語(yǔ)義缺省現(xiàn)象是影響機(jī)器翻譯質(zhì)量的主要原因:52.2%的語(yǔ)料在加人世界知識(shí)前后翻譯結(jié)果均正確,說(shuō)明某些語(yǔ)義缺省現(xiàn)象并沒(méi)有影響機(jī)器翻譯結(jié)果:而仍有5.2%的語(yǔ)料在加人世界知識(shí)后翻譯結(jié)果仍然錯(cuò)誤,說(shuō)明影響機(jī)器翻譯的因素較為復(fù)雜,語(yǔ)義缺省可能不是唯一的影響因素。
4.3機(jī)器翻譯中對(duì)世界知識(shí)補(bǔ)充的建議
由于多義詞中的縮略語(yǔ)和回指導(dǎo)致的缺省,主謂關(guān)系中因果關(guān)系的缺省,修飾關(guān)系中數(shù)字后名詞的缺省和并列關(guān)系中中英文缺省習(xí)慣一致,同樣不需要額外補(bǔ)充世界知識(shí)也能得到準(zhǔn)確翻譯[9-10]。
另外,在需要補(bǔ)充的各類缺省情況中,本文將從補(bǔ)充世界知識(shí)的難度的角度進(jìn)行分類建議。對(duì)于機(jī)器來(lái)說(shuō),可以通過(guò)添加功能詞或者上下文實(shí)詞的搭配完成世界知識(shí)的補(bǔ)充。多義詞中的轉(zhuǎn)義詞特別是名詞可以通過(guò)添加上下義的名詞進(jìn)行補(bǔ)充,從而明確詞義。而多義詞的其他情況、隱藏關(guān)系中主謂關(guān)系、修飾關(guān)系和介詞短語(yǔ)附著關(guān)系以及隱喻,由于補(bǔ)充的世界知識(shí)多為動(dòng)詞名詞等實(shí)詞,需要總結(jié)推理才能得出結(jié)果,人工補(bǔ)充尚且有歧義,對(duì)于機(jī)器而言難度就更大。并且,多義詞引起的缺省占比最大,存在補(bǔ)充世界知識(shí)后機(jī)器翻譯的結(jié)果依然錯(cuò)誤的情況。
5結(jié)束語(yǔ)
本文基于Jaszczolt對(duì)語(yǔ)義缺省的分類理論,結(jié)合基礎(chǔ)語(yǔ)法和Saba博士對(duì)于世界知識(shí)的舉例,進(jìn)一步完善了語(yǔ)義缺省的框架,并針對(duì)英語(yǔ)新聞標(biāo)題中的語(yǔ)義缺省以及世界知識(shí)的補(bǔ)充進(jìn)行了討論。本文發(fā)現(xiàn),在各類缺省中,多義詞對(duì)機(jī)器翻譯的影響最為明顯,相比之下,其他類別的缺省基本都可以通過(guò)加入相應(yīng)世界知識(shí)得到正確的翻譯。
對(duì)于機(jī)器翻譯由于缺省導(dǎo)致的多義詞現(xiàn)象,應(yīng)加入范疇類或搭配類世界知識(shí)使含義顯性化:而對(duì)于句法中隱藏關(guān)系的缺省現(xiàn)象、介詞短語(yǔ)附著和回指,則應(yīng)添加動(dòng)詞分詞形式或不定式將隱藏的關(guān)系展現(xiàn)出來(lái):修辭層面的轉(zhuǎn)喻和隱喻則應(yīng)結(jié)合語(yǔ)境添加相應(yīng)的名詞或者動(dòng)詞分詞形式。還有一部分缺省,如并列,由于中英文缺省習(xí)慣一致,所以即使句子中存在缺省現(xiàn)象,也不影響機(jī)器翻譯結(jié)果。絕大多數(shù)機(jī)器翻譯不通順的句子在加人世界知識(shí)后都可以變得更加流暢通順,這是因?yàn)槭澜缰R(shí)將相關(guān)詞匯更為明顯地連接了起來(lái),使得原本隱藏在句子下的關(guān)系變得清晰透明。