馬立東 吳光華
?
大數據時代漢英語際對應詞的挖掘*
馬立東吳光華
摘要文章分析了大數據時代詞典編纂可用或可參考數據的特點,探索如何從海量數據中挖掘漢英語際對應詞等詞匯知識,還簡要探討了與數據或語料使用相關的問題。挖掘實踐表明: 充分利用可用資源,從紛雜的大數據中可以挖掘出所需的詞匯知識,但目前仍需專業人員進行篩選、認定和解讀。詞典要保持生命力必須及時修訂和收錄新詞。對于漢英詞典來說,提供漢語詞語的地道英語對應詞會提升其實用價值。研究語際對應詞挖掘不僅有助于編纂出符合用戶需求的雙語詞典,對構建大數據語言資源庫和開發挖掘分析軟件也有參考價值。
關鍵詞大數據時代對應詞新詞挖掘漢英詞典
一、 研究背景
移動互聯網的飛速發展加快了媒體融合的進程,也使傳統的詞典學研究和詞典編纂實踐面臨挑戰。不僅紙質詞典,就連掌上型電子詞典也遭到了前所未有的冷遇。人們更喜歡通過智能手機或計算機查詢在線網絡詞典或離線電子詞典。
移動互聯網的不斷普及也加速了大數據的產生和應用。詞典學研究和編纂實踐不僅要跟上時代的步伐,更應抓住機遇。2011年,世界知名咨詢公司麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。”(韓蕊2013)自從2012年以來,大數據(big data)這個新詞熱度不減。大數據研究及應用成為世界范圍內各界持續關注的焦點。《大數據時代》的作者舍恩伯格和庫克耶(2013)斷言:“大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型。就像望遠鏡讓我們感受宇宙,顯微鏡讓我們能夠觀測到微生物一樣,大數據正在改變我們的生活以及理解世界的方式,成為新發明和新服務的源泉,而更多的改變正蓄勢待發。”2014年初舍恩伯格和庫克耶又出版了LearningwithBIGDATA: The Future of Education《與大數據同行——學習和教育的未來》一書,暢談大數據與學習和教育的關系以及大數據將如何深刻影響到學習和教育的未來態勢。(趙中建,張燕南2014)蔡翠紅(2014)認為,大數據不僅迅速成為計算機行業討論的熱門概念,而且也開始滲透到國際關系領域。針對數字出版業發展迅速并產生海量數字出版數據這個現狀,齊元軍(2014)指出:“如何將大數據挖掘技術應用到數字出版業中,已成為出版行業目前研究的熱點話題。”
大數據的應用前景廣闊。但是,詞典學研究和詞典編纂可用的數據是大數據嗎?詞典學研究和詞典編纂真的需要大數據嗎?我們嘗試從大數據時代詞典學研究和編纂實踐可用數據的特點出發回答第一個問題,結合漢英語際對應詞的挖掘實例分析回答第二個問題,還簡要探討與數據或語料使用相關的問題。
二、 大數據與編纂詞典的可用數據
1. 大數據的特點
傳統意義上的“數據”指的是“有根據的數字”。現在,“數據”不僅指“數字”,還統稱一切保存在電腦中的信息(包括文本、聲音、視頻等)。(趙勇,徐軻2014)在這個信息爆炸的時代,經過一定時間的積累就會出現海量或巨量的數據。過去,計算機存儲信息或數據的計量單位用GB/Gigabytes(1GB=1024MB)就已經很大了。現在用到TB/Terabytes(1TB=1024GB),PB/Petabytes(1PB=1024TB=1048576GB),甚至更大的計量單位。但是,不能簡單地認為數量大就是大數據。大數據的體量巨大,不僅存儲量大,計算量也大,超出了傳統數據處理方法所能管理和處理的能力。
現在具有代表性的觀點是大數據具備4V特征: (1) 數據量龐大(Volume)。(2) 數據呈現多樣性(Variety),不但類型多(如文本、網頁、圖片、音頻、視頻和位置信息等),而且來自多種數據源,不僅有結構化數據,更多的是半結構化數據和非結構化數據。(3) 時效性(Velocity),即數據增長速度快、變化速度快,處理速度也要求快,包括大量的在線或實時數據分析處理。例如電子商務對銷售數據的實時快速分析就意味著能及時抓住商機。(4) 數據價值高(Value),但價值密度低,即價值與數據總量之比很低,需要對海量的數據進行挖掘分析才能形成用戶價值。如在長時間連續的監控視頻中查找犯罪線索,有用的數據可能只有短短幾秒鐘。(趙勇,徐軻2014;嚴霄鳳,張德馨2013;宗威,吳鋒2013)
2. 大數據的定義
信息時代的“數據”概念是明確的,但是對于“大數據”至今還沒有一個公認的標準定義。
美國國家科學基金會(NSF)將大數據定義為:“由科學儀器、傳感設備、互聯網交易、電子郵件、音頻視頻軟件、網絡點擊流等多種數據源生成的大規模、多元化、復雜、長期的分布式數據集。”(黃南霞,謝輝,王學東2013)
李戰懷、王國仁和周傲英(2013)從數據庫研究者的視角對大數據進行了解讀,認為大數據是個籠統的概念。他們指出:“與應用密切相關的各類數據都屬于大數據范疇,大數據強調支持實際應用所涉及到的多個來源且相互關聯的大量、高速、異構數據;世界上凡是可以表達出來的信息都是數據;當為了一個具體的應用而需要把大量的不同類型、質量各異的數據及時進行處理時,這些數據就進入了大數據的范疇。”
胡雄偉、張寶林和李抵飛(2013)認為:“不存在嚴格意義上的大數據資源的定義,任何已有數據資源的匯集和整合就可以構成所謂的大數據資源。……大數據是各種類型的小數據的集合,通過各種類型的小數據整合、集合、集成處理,從中挖掘出潛在的新價值。所以說,大數據是小數據的再次利用和多次重復利用。”
3. 編纂詞典的可用數據及特點
各行各業都有可能產生大數據,但是并非所有的數據都能用于詞典編纂。
從是否付費的角度看,編纂詞典的可用數據包括自有內部數據,可免費使用的外部數據和需交費使用的外部數據。
在大數據時代,除了語料庫數據和已有詞典數據,還有海量的其他電子數據可用作詞典編纂的語料或知識來源。例如文本、網頁、學術論文、期刊、電子書、博客、微博、跟帖、留言和問答記錄。
編纂詞典的可用數據具有大數據的典型特征。具體體現在下列幾個方面: (1) 海量或巨量數據。許多機構多年積累的數據存儲于各自的計算機上,有些可供聯網調用,也有些可在本機安裝后離線使用。每天都有大量新聞等網頁信息發布或更新。大量電子期刊定期出版。(2) 異質、異構、類型多。有些數據是結構化的,但更多的可用的原始數據是半結構化的,甚至是非結構化的。數據源的文件格式也是紛雜的。如純文本格式文件、網頁文件、Office文件、WPS文件、XML文件、PDF文件、圖像文件和影音文件。(3) 重復內容多。(4) 數據質量參差不齊。(5) 噪聲干擾嚴重。
通過互聯網等各種途徑搜集或積累起來的單語、雙語,甚至是多語語言資源,為詞典編纂提供了豐富的語料或知識來源。但是將收集到的海量或巨量數據進行挖掘,找出規律并有效地加以利用才能創造價值。因此,挖掘和提煉出有價值的詞匯知識對詞典編纂工作來說至關重要。
三、 漢英語際對應詞及其挖掘
1. 語際對應詞
語際對應詞(interlingual equivalents)指的是可插入性對應詞(insertible equivalents),包括兩種語言間的絕對對應詞和部分對應詞。
包雙喜和斯日古楞(2007)指出: 一種語言的詞,在基本意義上可以與另一種語言直接對譯的詞,彼此之間稱為“對應詞”;對應詞是大量存在的,否則不同語言之間的翻譯和交流就不能實現。
李明和周敬華(2000)在《雙語詞典編纂》一書中詳細介紹和探討過對應詞的分類、在雙語詞典中提供對應詞的方法、辨別對應詞意義的手段,以及對應詞的質量問題。他們發現雙語詞典編纂者在尋找(語際)對應詞時可能會遇到三種情況: (1) 能找到絕對對應詞(absolute equivalents;或稱對等詞);(2) 只能找到部分對應詞(partial equivalents;或稱局限對應詞bound equivalents);(3) 找不到對應詞,出現詞匯空缺(lexical gap)。李明和周敬華(2000)認為: 除了絕對對應詞和部分對應詞,還可以把對應詞分為翻譯對應詞(translational equivalents,又稱插入對應詞insertible equivalents)和解釋性對應詞(explanatory equivalents,又稱描寫性對應詞descriptive equivalents)。他們建議把對應詞分成插入性對應詞和非插入性對應詞。因為非插入性對應詞只是詞語的解釋性翻譯或描寫性釋義,所以不是嚴格意義上的對應詞。插入性對應詞有助于產出,而非插入性對應詞有助于理解。在兩者都可用的情況下,雙語詞典提供的插入性對應詞在翻譯方面對讀者的幫助更大。
2. 現存問題
提供語際對應詞是編纂雙語詞典的重要任務,也是專家們的共識。但是,提供地道實用的語際對應詞的難度不小。正如曾泰元(2005)指出的那樣,雙語詞典中對應詞不夠地道或不準確的現象并不少見,冗長的解釋性釋義依然存在。李安興(2010)的研究顯示: 國內一些漢英詞典編纂者未能將前人(尤其是國內外翻譯家)已經給出的一些漢語詞語的佳譯提供給讀者。
通過構建語料庫獲取對應詞的研究早已有之。我國的語料庫建設和應用也有了實質性進展。盡管不少研究機構和出版社已經或正在構建與詞典編纂和出版相關的語料庫,但是各方都是專注建設自己的語料庫或數字出版資源庫,沒有采用統一的數據標準。而且,僅僅依靠現有的語料庫不能完全滿足詞典編纂的需要。再加上建設周期、更新速度和使用權限的限制,詞典編纂人員實際可用的語料庫并不像人們想象的那樣全面。
3. 漢英語際對應詞的挖掘探索
大數據時代的到來為充分利用包括網絡資源在內的各種資源和技術編纂漢英詞典打開了更廣闊的視野。下面結合實例探索如何從紛雜的大數據中挖掘出編纂漢英雙語詞典所需的語際對應詞等詞匯知識。漢英語際對應詞的挖掘是指從帶噪聲非結構化或半結構化的語料中找出未知的或未收錄的漢語詞語的英語對應詞。
(1) 挖掘方法和步驟
語際對應詞的挖掘技術和效果已有顯著進步。微軟的必應網絡詞典(http:∥cn.bing.com/dict/)就采用了此類技術。挖掘應該是自動的,但是因為目前可用語料缺乏集成或整合,挖掘結果仍需改進,我們實際使用的方法是根據關聯關系,通過計算機和網絡獲取原始數據,經人工分析、甄別和提煉后得到最終結果。首先,采用數據驅動的方法確定漢語詞目詞或表達法。然后,利用必應網絡詞典的檢索功能、百度(https:∥www.baidu.com/)等互聯網搜索引擎和離線文本挖掘工具獲得相關的英語對應詞和英漢/漢英語句對。接下來,借助上下文關鍵詞(KWIC)檢索進行語際對應詞語義對比和分析。最后,在大型語料庫British News和UK-WAC(前者為英國英語新聞語料庫,后者是英國的英語網頁內容語料庫;這兩個語料庫的檢索起始頁面為http:∥corpus.leeds.ac.uk/protected/query.html),以及COCA美國當代英語語料庫(http:∥corpus.byu.edu/coca/)中檢索英語對應詞是否地道或是否符合英語的表達習慣。
(2) 挖掘實踐
因為漢英語際對應詞的挖掘涉及面很廣,所以我們選取了十項有代表性的挖掘任務,結合典型實例展示大數據在詞典學研究和詞典編纂實踐中的重要應用價值。
1) 補充漢語詞語(尤其是新詞)的對應詞。對于源自英語的漢語詞語,我們能夠從英漢對照文本中找出地道的對應詞或對等詞(例如“債務上限debt ceiling”)。因為是直接借用英語中已有詞語的詞義,即便是使用了隱喻,也不難理解。一個漢語詞或表達法有多個英語對應詞的情況很常見。大數據有助于挖掘出更多更全面的語際對應詞。例如“車展”的典型對應詞有auto show,motor show和car show(見例1至例3)。
例1:THEstarofthisweek’sParisMotorShowwas a Jaguar supercar. 巴黎車展的本周之星是一輛捷豹跑車。——www.ecocn.org
例2:ThefirstprototypesarecurrentlyindevelopmentbutaconceptversionofthevehiclewasunveiledtodayattheDenverAutoShow. 第一個原型正在發展,而且一個概念版車亮相今天在丹佛車展。[原漢語譯文像是機器翻譯的結果。經人工修正后可譯為: 第一代原型車目前正在開發中,但是該車型的一款概念車今天在丹佛車展上首次亮相。]——usa.315che.com
例3:FewatthelastFrankfurtcarshow, in 2009, could have predicted the industry’s sharp rebound from the global recession that year. 在2009年法蘭克福車展上,幾乎沒人預料到汽車業會從當年的全球衰退中急劇反彈。——chinese.wsj.com
根據語料庫詞頻數據對比,不僅可以找出“車展”的地道對應詞,還可以判斷出對應詞的使用地域分布特點(見表1)。

表1 “車展”對應詞的語料庫詞頻比較
在英國英語中,motor show的詞頻最高,是“車展”的典型地道對應詞。對應詞auto show在British News語料庫中的詞頻為零,這說明,英國的主流新聞媒體可能有意避開使用auto show;UK-WAC語料庫的34個應用實例證實在英國也有人使用auto show(如“the Detroit auto show底特律車展”)。COCA美國當代英語語料庫的檢索結果證實auto show在美國英語中的使用頻率最高,是美國英語中“車展”的典型地道對應詞。語料庫統計結果的橫向比較顯示,有人用car exhibition,但使用頻率極低,分布不廣。此外,UK-WAC語料庫中的一個實例(preview or full screen mode, auto show, panorama mode)顯示auto show不是“車展”,而是“自動播放”的意思。這些信息在漢英詞典中應適當標注。
2) 區分義項,標注所屬學科。如果專業術語的使用范圍不斷擴大,也會進入普通詞匯。詞典收錄時,應根據學科領域劃分義項并標注。例如: 近幾年,中國人喜歡為所有健康、樂觀、積極向上的人,以及催人奮進、給人力量和充滿希望的事貼上“正能量”的標簽。“正能量”源自英語中的positive energy。在心理學領域,“正能量”的意思是“積極的能量;正向的能量;積極進取的動力”。但是“正能量”原是物理學領域的一個概念,與心理學領域“正能量”的英語對應詞相同,意思不同(見例4)。
例4:WefirstsawMasdarHQacoupleofyearsago,whenitwasaimingtobetheworld’sfirstpositiveenergybuilding. 我們幾年前第一次認識了馬斯達爾的總部大廈,當時它的目標是成為世界上第一個正能量建筑(也就是產生的能量大于消耗的能量)。——article.yeeyan.org
3) 驗證兩個或多個近義漢語詞語是否有共同的對應詞。例如: 英漢對照文本顯示“民意測驗”和“民意調查”有共同的高頻英語對應詞poll和opinion poll(見例5至例7的對照)。
例5a:MorethanhalfofAmericansinarecentopinionpollviewed China as an adversary, compared with 28 per cent who saw it as an ally. 在最近的一次民意測驗中,半數以上的美國人視中國為對手。相比之下,只有28%的人認為中國是盟友。——www.ftchinese.com
例5b:Herapprovalratinginonerecentopinionpollwas only 15%. 她的支持率在最近的一次民意調查顯示只有15%。——www.ecocn.org
例6a:However,Foysaid,thepollshould be interpreted with caution. 但是,他說民意測驗應謹慎解讀。——article.yeeyan.org
例6b:Theresultsofthepollshow Bill Clinton’s approval rating has gone up in his second term. 民意調查的結果顯示比爾·克林頓的工作支持率在他的第二任期內提高了。——www.kekenet.com
例7a:Pollsshow the majority of French are against the reforms. 民意測驗顯示,大部分法國人反對這項改革。——www.voanews.cn
例7b:Pollsshow that up to half of Americans support the demonstrators or at least believe they reflect public opinion. 民意調查顯示,多達半數的美國人支持這些示威者,或者至少認為他們代表了公眾的意見。——www.fortunechina.com
4) 更新已成熟漢語新詞語的英語對應詞。對于剛出現的漢語新詞,語料不足會影響其英語釋義的可靠性,找到恰當的語際對應詞也很困難。隨著時間的推移,人們會逐漸找到英語中已有的可用對應詞。大數據有助于搜集、審定并及時更新這類對應詞。例如:“皮包公司”是二十世紀中國改革開放之后出現的一個新詞,指“沒有資金、場地和固定人員的商業組織”,因僅靠為數不多的成員手提皮包奔走于買賣雙方而得名。這個漢語新詞已經成熟。它的早期譯文briefcase company很容易被誤認為是“生產皮包的公司(a company that makes briefcases)”(葉小寶2000)。實際上,“皮包公司”是個空殼公司/外殼公司(shell company)(見例8)或虛假公司(bogus company)(見例9)。
例8:Longkongiscontrolledbyashellcompanyin Hong Kong, with little more than a mailing address. 龍崗旅游被一家僅有通信地址的香港外殼公司控股。——article.yeeyan.org
例9:Theboguscompany’s location turned out to be an ordinary residential apartment with the room number removed, the newspaper said. 據該報紙報道,這家皮包公司的辦公地點是一處被抹去房間號的普通民宅。——www.chinadaily.com.cn
用dummy company(虛設公司;掛名公司;傀儡公司;秘密代營公司)或fly-by-night company(無信用公司;不可靠公司;唯利是圖的公司)也可以表達“皮包公司”的意思,但這兩種表達法的使用廣度不如shell compay和bogus company。表2是“皮包公司”英語對應詞的語料庫詞頻比較。
5) 梳理對應詞并分類。詞典對詞語的收錄不應回避社會生活的負面狀況。有些詞語描述的是社會轉型過程中出現的負面狀況,漢語中有,英語中也有。如“傍大款”就是個典型的例子。從互聯網上能搜索到“傍大款”的多種英譯表達。表3是必應網絡詞典中“傍大款”的網頁挖掘結果(根據2015年3月1日的檢索結果復制)。這個挖掘實例既展示了網頁文本挖掘的重要作用,也暴露出自動挖掘結果的不足之處。

表2 “皮包公司”英語對應詞的語料庫詞頻比較

表3 必應網絡詞典中“傍大款”的網頁挖掘結果

(續表)
從表3可以篩選出“傍大款”的英語對應詞,但必須排除噪聲干擾。首先是第一項中的of a girl被錯誤提取并列為對應詞。它出現的頻率高,但只是括注。接下來是第一項和第六項中都有lean on a moneybags。看上去moneybags的前面加冠詞a不符合語法,但實際上moneybags是單復數同形,其前用冠詞a是可以的。而第五項和第八項中的a moneybag只有“錢袋”之意,沒有“大款;闊佬”的意思。第四項與第七項給出的對應詞結構相似,但是一個用介詞for,另一個用to。第五項列出的結果是lean on a moneybag,接下來的第六項卻出現了與之不一致的to lean on a moneybags。第八項錯誤地提取出beer belly(將軍肚;啤酒肚)作為“傍大款”的英語對應詞。
經人工整理,并參考其他來源的挖掘結果,能提煉出下列可用的英語對應詞: (of a girl) find/have a sugar daddy; (be a) gold digger; lean on/live off a moneybags; find a fat cat; be a rich man’s mistress。例10至例12是應用實例。
例10:Anddon’tyoutakethattonewithme,yougolddigger. 不許用那樣的語氣對我說話,你這個傍大款的。——www.douban.com
例11:Most[of]herfriendsadmirethatsheleansonamoneybags, but she is not happy. 很多朋友都羨慕她找了個有錢人(傍大款),可是她一點也不幸福!——dictsearch.appspot.com
例12:Please,historysuggestswedon’thaveasugardaddywho will take care of the problem. 歷史表明,我們并沒有一個可以解決問題的大款來傍。——www.imsci.cn
6) 找出同一詞語在不同語境中使用的英語對應詞,并根據對應詞的詞性分組。一詞多譯是翻譯中的普遍現象。通過大數據挖掘,可以搜集到同一詞語或詞義在不同語境中使用的語際對應詞。把它們按詞性分組后,有助于對應詞的選用。例如: 下列詞語都有“毫不留情”的意思: ①毫不留情(地)without mercy; mercilessly; relentlessly; unsparingly; in no uncertain terms;②毫不留情(地)give/get no quarter; lash back(毫不留情地予以回擊);③毫不留情(的)be relentless/unsparing/implacable/inexorable; be tough on sb.。如果要表達“絕不容忍”的意思,則可從①will not be tolerated; don’t put up with;②no-tolerance等對應詞中選用。
如果漢語中已經存在多個近義表達,但又出現了新的源自英語的漢語近義詞,其英語對應詞容易辨認且穩定,應收錄并單列詞條。例如:“零容忍”已漸漸成為人們關注和討論的熱點。“零容忍”不僅能表達“毫不留情”“毫不遷就”“毫不寬容”“絕不容忍”“絕不留情”,以及“決不姑息”的意思,而且含義明確,態度堅決,英語對應詞zero tolerance在漢英跨語言交流中的信息傳遞既直接又準確(見例13至例16)。
例13:Baltimore,forexample,hasadoptedazero-tolerancepolicy in dealing with kids who miss school. 例如,巴爾的摩在處理失學兒童問題時采取零容忍的政策。——article.yeeyan.org
例14:StaffofficershaveinsistedtheArmy’spolicymustbe“zerotoleranceto all forms of discrimination”. 參謀人員堅持認為軍隊的政策必須是“對一切形式的歧視零容忍”。——article.yeeyan.org
例15:MrWolfowitzhasespousedapolicyof“zerotolerance” towards graft and corruption in the bank’s staff and activities. 沃氏已經支持在世行職員和業務中對貪污和腐敗采取一項“零容忍(zero tolerance)”政策。——www.ecocn.org
例16:NewUefapresidentMichelPlatinilastweekcalledfora‘zerotolerance’ approach to football-related violence. 僅在上周,新一屆的歐足聯主席普拉蒂尼還呼吁對足球暴力采用“零容忍度”的對策。——www.mufans.org
7) 增補新出現的對應詞,但需區分詞性。例如: 英語中的mutually beneficial可以表達“(互利/互惠)雙贏的”意思(見例17和例18)。
例17:ChinawilljoinhandswiththeUKtofurtherpromotemutuallybeneficialresults out of the dialogue. 中方將與英方一道,共同推動對話取得更多互利雙贏的成果。——www.hjenglish.com
例18:Thesestatisticsspeakvolumesforthemutuallybeneficialnature of China-US economic relations and trade. 這些數據充分表明中美經貿關系是互利雙贏的。——www.fmprc.gov.cn
英語中的win-win是“雙贏(的)”地道的新對應詞。但win-win既可用作形容詞,也可用作名詞,詞典收錄時應區分詞性。例19至例22是win-win用作形容詞的實例:
例19: “Inthefuture,wehopethetwosidescanholdtalksonmutualtrustandcreateawin-winsituation.” he said.“我們希望,將來我們雙方可以本著互相信任的原則舉行對話,實現雙贏的局面。”他說。——www.suiniyi.com
例20:Buthewentontosaythata“win-win” solution could be found where a dialogue could yield candidates suitable to both sides. 但他接著指出,雙方可以找到一個“雙贏”的解決方案,即通過對話,找到雙方都認可的候選人。——www.ftchinese.com
例21:Ourobjectiveistoforgewin-winpartnerships in which both countries gain and which further contribute to the strength of the friendship. 我們的目標是雙贏,兩國共獲益,進一步加深加強兩國間的友誼。——article.yeeyan.org
例22: “Ipersonallythinkthesecountries’investmentinAfricaandLatinAmericacanbenefit[everyone]sothatitiswin-win.” he said. “我個人認為這些國家在非洲和拉丁美洲的投資可以造福[所有人],因此它是雙贏的。”他說。——www.scidev.net
英語中的win-win也常用作名詞(見例23至例25)。區分詞性有助于理解詞語的語法功能,從而提升參考價值。
例23:Theprojectcouldbeawin-winfor the two nations as they seek to build expertise and market share in the emerging clean energy sector. 鑒于兩國在清潔能源行業尋求積累專業知識和市場占有率,該項目可能為兩國創造雙贏的局面。——www.america.gov
例24:Inaworseningeconomicclimate,itwouldbeharderforthebigeconomiestoseetheirrelationshipsasmutuallybeneficial—asawin-win. 在日益惡化的經濟氣候下,大型經濟體之間將越發難以看到多方互惠(也稱之為雙贏win-win)的關系。——article.yeeyan.org
例25:Itcanbesaid,thebeesintheplantflowersfornectarforbeesandplant,isatypical“win-win”. 可以這樣說,蜜蜂在植物花朵上采蜜,對蜜蜂和植物來說是典型的“雙贏”。——www.cnqr.org
8) 增補舊詞的新義項,匹配目前可用的基本對應詞,添加必要的詞法信息和辨析內容。有些舊詞有了新用法,但是由于特殊的社會文化背景,沒有最合適的對應詞,只能找到英語中基本對應的詞。例如:“土豪”原指“舊時地方上有錢有勢橫行霸道的壞人(local bully; local tyrant; local despot)”。后來指那些在網絡游戲上舍得花大錢的玩家。2013年,“土豪(氣質夠土;花錢夠豪)”成了諷刺和調侃的流行語,指有錢但品位差的暴發戶或新貴。
英語中已經有個源自法語的名詞nouveau riche /nuvri?/,字面意思是the new rich,指那些品位不高且愛炫富的暴發戶。這個詞與“土豪”的新詞義最接近。從牛津詞典網絡版(http:∥www.oxforddictionaries.com/)查到的兩條詞法信息對于正確使用nouveau riche也很重要,漢英詞典中應予以標注。這兩條信息是: (1) nouveau riche用作復數名詞(treated as plural);(2) nouveau riche前面的限定詞通常用the(usually the nouveau riche)。應用實例參見例26和例27。
例26:Sheisoneofthenouveaurichein her hometown. 她是當地的暴發戶之一。——article.yeeyan.org
例27:Theworld’stopluxuryvehiclesareastatussymbolforChina’snouveauriche. 對于中國的富豪來說,世界頂級豪車似乎已經成為了一種身份的象征。——article.yeeyan.org
根據焦瑞娟(2013)的研究,漢英詞典有必要提供對應詞辨析信息。經核查,英語單詞parvenu(復數形式為parvenus)的意思也是“暴發戶;新貴”,但這個詞語體正式,沒有“土豪”所含的“品位不高”“愛炫富”和“粗俗”等意思,也沒有諷刺和調侃的意味。有人用rich rednecks表達“土豪”的新詞義。土豪既有鄉下人也有城里人,但redneck(鄉巴佬;紅脖子)指美國文化水平不高且政治觀點保守的鄉下人,含貶義。
2013年,許多人預測,tuhao(土豪)有望在2014年被收錄進《牛津英語詞典》。但2015年3月1日的檢索結果顯示牛津詞典網絡版還沒收錄tuhao這個詞。不過,根據滬江網塘生春草(2013)的介紹,法語中又出現了與“土豪”更對應的新詞riche péquenaud。用作形容詞時,péquenaud的意思是“土里土氣的”;用作名詞時,意為“鄉下佬”。將來英語會借用源自漢語的tuhao還是源自法語的riche péquenaud?現在還無法下結論。但是有一點是肯定的: 跟蹤語言的發展變化,及時記錄,客觀描寫,根據大數據來確定。
9) 準確把握詞義,區分易混淆的對譯詞或對應詞。例如:“外資”的對譯詞有foreign investments, foreign capital, foreign funds,但是在有些語境下需要譯成overseas investments。使用時還需分清是“外國投資;來自外國的投資”還是“海外投資;在海外投(的)資”。
“海外投資;在海外投(的)資;投資海外;境外投資”的英語對應詞是investments overseas和overseas investments(見例28和例29)。
例28:Indiansarepermittedtoinvestupto$200,000perfinancialyearinoverseasinvestments. 印度政府規定,印度人每個財務年度可以進行最多20萬美元的海外投資。——chinese.wsj.com
例29:Bigstate-ownedenterpriseswouldlobbyformonthstoconvincetheirregulatorstoapproveinvestmentsoverseas. 大型國企會花費數月時間游說,以說服監管部門批準它們進行海外投資。——www.ftchinese.com
如果“外資”的含義是“外國投資;來自外國的投資”,仍需使用foreign investiments這個對應詞(見例30和例31)。
例30:Whilethepileofmothballedforeigninvestmentsin China keeps growing, Korean investors are sweeping up. 盡管越來越多的外國投資項目在中國被擱置,但韓國投資者卻在收獲果實。——www.ftchinese.com
例31:CFIUSisaninter-agencycommitteeresponsibleforreviewingthenationalsecurityimplicationsofforeigninvestmentsin U.S. companies. 美國外國投資委員會是美國政府的一個跨部門機構,負責審查外資投資美國企業如何影響美國國家安全。——c.wsj.com
10) 找出經打磨和修正的新譯文或對應詞。新詞的翻譯常有這樣的情況: 因為理解有誤,表達欠佳,或原詞的內涵發生了變化,到了一定時候,人們不得不對某些譯文進行修正甚至另覓新譯。(楊全紅1999)近幾年我國常提到“法治”和“依法治國”,其英譯就經歷了一個打磨和修正的過程。
首先是介詞by和of的選用問題。陳中繩(1998)曾指出“法治”應譯作rule of law。賈釗(2014)解釋說,rule of law表示沒有人能在法律之上,而rule by law則可以指政府用法律施行統治、推行其決策;rule by law有可能被解讀為“The law is a tool of the government(法律是政府的工具)”;中國古代法家提出的“以法治國”,恰好可譯成rule by law,因為當時的“以法治國”強調的是為君主統治服務。賈釗總結說“在事關原則問題的翻譯上,真的不可盲目套用西方的成品,因為用別人的標準說自己的事情,總是說不大清的”。
翻譯“法治”和“依法治國”還需根據語境選用動詞或措辭。何海波(2011)在《中國行政法若干關鍵詞的英文翻譯》這篇論文中的結論是: 依法治國,如果直譯,govern the country according to law是最好的;govern the country in accordance with (the) law非常正式,但略顯冗長;rule the country in accordance with (the) law 也是非常正式,但rule透露出一種居高臨下的統治意味,除非有意傳達這層意思,建議不用;manage state affairs according to law重在強調依法管理國家事務,與“依法治國”相比,含義偏窄;run the country according to law 非常口語化,不夠正式。此外,根據何海波的梳理,英譯“依法行政”和“法治政府”時,需要注意: administration according to law是“依法行政”的簡潔佳譯,用administration in accordance with the law則略顯冗長;如果強調“依法而為的行政”,law-based adminstration更能簡明地傳達它在中國當下語境中的官方含義;在表述中國官方文獻時,“法治政府”譯作law-based government更通用。
中國共產黨十七大報告和十八大報告英漢對照版中“依法治國”的英譯就及時吸納了“法治”和“依法治國”的英譯修正研究成果(例32選自十七大報告,例33選自十八大報告),這不僅準確反映了漢語原文的含義,也能幫助外國讀者更準確地了解中國建設法治國家的決策。
例32: 堅持依法治國基本方略,樹立社會主義法治理念,實現國家各項工作法治化,保障公民合法權益。Wemustupholdtheruleoflawas a fundamental principle and adopt the socialistconceptoflaw-basedgovernanceto ensure that all work of the state is based on the law and that the legitimate rights and interests of citizens are safeguarded.——http:∥language.chinadaily.com.cn/2007-10/31/content_6218870.htm
例33: 依法治國基本方略全面落實,法治政府基本建成,司法公信力不斷提高,人權得到切實尊重和保障。Theruleoflawshould be fully implemented as a basic strategy,alaw-basedgovernmentshould be basically in function, judicial credibility should be steadily enhanced, and human rights should be fully respected and protected.——http:∥language.chinadaily.com.cn/news/2012-11/19/content_15941774.htm
現在從互聯網上查到的“法治”和“依法治國”的英譯五花八門,許多網頁中提供的是有錯誤或過時的翻譯。為防止以訛傳訛,漢英詞典在修訂時必須剔除錯誤的翻譯或過時的譯文,并及時收錄經打磨和修正的譯文或對應詞。
(3) 小結
大數據時代詞典編纂實踐的可用數據是豐富的,但也是紛雜的。從可用的大數據中可以挖掘出編纂詞典所需的詞匯知識,潛在價值高但價值密度低,目前還離不開專業人員的判斷和解讀。由于數據是不斷變化的,收集到的數據有可能是過期的、無效的,甚至是錯誤的。數據之間也有可能存在不一致,甚至是相互矛盾的現象。要發揮大數據的價值,必須接受它的紛繁復雜,必須能夠去偽存真做出正確的判斷和解讀。
四、 數據或語料使用的相關問題
使用大數據還需注意與數據使用相關的幾個問題并關注其前景,包括大數據集成問題、知識產權的尊重和保護,以及數據資源的開放和共享。
1. 大數據集成問題
詞典編纂的可用數據散布于不同的數據管理系統中,在數據分析之前需要先進行數據集成。由于數據量大、異質、異構和多樣性等原因,大數據的集成面臨巨大挑戰。由于資金投入和利益分配等問題,跨部門語言資源共享和交換存在障礙,大量數據橫向不聯、縱向不通。大數據語言資源的建設者是否能夠得到合理的經濟回報直接影響建設的規模、周期、更新速度、質量和積極性。
要防止大數據集成后出現數據壟斷,以免對大數據的利用和知識的傳播形成阻礙。
2. 知識產權的尊重和保護
在大數據時代,數據使用方應提高對知識產權的尊重和保護意識。如果是網絡詞典,應標注數據或語料的來源;如果是紙質版詞典,應在致謝頁或參考文獻處注明。
在尊重知識產權的前提下,針對詞典編纂過程中使用大數據的典型問題,需達成行業共識,找出解決方案。例如,從大數據中抽取到的已被廣泛使用的原創對應詞譯文是否需要付費?只參考了一兩行的內容,如何付費?如何判斷誰是原創?
推行具有可操作性的稿酬支付機制,探索快速代理授權和代理付費模式,提高交易便捷度,使著作權人能獲得相應的版權收入。
3. 數據資源的開放和共享
齊元軍(2014)研究過大數據時代數字出版版權保護的難點與策略。他指出: 大數據時代的數據共享思想對傳統的版權保護制度提出了新挑戰。有人認為目前的版權保護制度過于嚴格,阻礙了知識的傳播,呼吁減少版權保護的一些限制條款。在大數據時代,數據資源的開放和共享正成為全球化的趨勢。許多國家的政府和組織已建立專門的數據網站,為數據的共享和挖掘創造條件。有些著作權人接受網絡時代共享和免費的理念,愿意免費將其作品分享,而不采取傳統的版權保護模式。
五、 結語
隨著計算機和互聯網在各行各業的廣泛應用,信息爆發式增長,累積的數據量越來越大,逐步形成了大數據這個概念。現在已經到了開始引發變革的程度。
詞典編纂可用或可參考的數據具備大數據的典型特征,通過關聯關系能夠從中挖掘出隱含的詞匯知識或有用信息,在詞典學研究和詞典編纂領域具有重要的應用價值。從紛雜的大數據中挖掘或抽取出編纂詞典可用的知識并非易事。傳統的數據庫技術、數據挖掘工具和數據清洗技術在處理方式、速度和分析能力上都面臨挑戰。在現階段,計算機和工具軟件只能起到輔助作用;挖掘目標的設定,挖掘結果的篩選、分析、抽取和利用還離不開復合型專業人員的參與。操作者需要掌握大數據分析技術,能夠從海量數據中發現變量間的相關性,解讀大數據的挖掘結果,敏銳地提取出有價值的信息。
大數據時代強調的是分析所有相關數據,而不是僅僅依靠采樣分析。因此,必須重視大數據環境下的數據庫建設和集成,完成從傳統的結構化數據存儲處理方式向同時兼具結構化和非結構化數據存儲處理方式的轉變。
現在,網絡詞典和電子詞典已經成為發展方向。詞典的呈現形式和贏利模式都在發生變化。我國的詞典編纂和出版已經向數字化和網絡化邁進了一大步,但是針對詞典編纂的大數據集成和自動分析技術還不成熟,工具欠缺,數據存取及管理的系統處理經驗不足,詞匯知識的挖掘技術水平亟待提高。研究大數據的收集、集成和分析技術,從紛雜的大數據中挖掘出編纂雙語詞典所需的語際對應詞等詞匯知識有助于編纂出符合用戶需要的雙語詞典,促進知識傳播和國際交流。
參考文獻
1. 包雙喜,斯日古楞.小議對應詞.內蒙古民族大學學報,2007(3).
2. 蔡翠紅.國際關系中的大數據變革及其挑戰.世界經濟與政治,2014(5).
3. 陳中繩.《漢英詞典》(修訂版)的錯謬.汕頭大學學報,1998(1).
4. 韓蕊.企業大數據已進入應用摸索階段.互聯網周刊,2013(19).
5. 何海波.中國行政法若干關鍵詞的英文翻譯.行政法學研究,2011(3).
6. 胡雄偉,張寶林,李抵飛.大數據研究與應用綜述(中).標準科學,2013(10).
7. 黃南霞,謝輝,王學東.大數據環境下的網絡協同創新平臺及其應用研究.現代情報,2013(10).
8. 賈釗.法治:ruleoflaw還是rulebylaw?.國際先驅導報,2014-11-04.http:∥ihl.cankaoxiaoxi.com/2014/1104/552794.shtml.
9. 焦瑞娟.內向型漢英詞典中動詞詞目英語對應詞辨析問題初探.辭書研究,2013(3).
10. 李安興.關于漢英詞典編纂方法與理論創新問題的思考.中國出版,2010(24).
11. 李明,周敬華.雙語詞典編纂.上海: 上海外語教育出版社,2000.
12. 李戰懷,王國仁,周傲英.從數據庫視角解讀大數據的研究進展與趨勢.計算機工程與科學,2013(10).
13. 齊元軍.大數據時代數字出版版權保護的難點與策略研究.科技與出版,2014(11).
14. 塘生春草.土豪法語怎么說?法媒解讀中國新詞,2013-12-26.http:∥www.hjenglish.com/fr/p558423/.
15. 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代: 生活、工作與思維的大變革.盛楊燕,周濤譯.杭州: 浙江人民出版社,2013.
16. 嚴霄鳳,張德馨.大數據研究.計算機技術與發展,2013(4).
17. 楊全紅.簡論漢英新詞新語的翻譯.中國翻譯,1999(3).
18. 葉小寶.評《漢英詞典》修訂版釋義的翻譯.四川外語學院學報,2000(4).
19. 曾泰元.語料庫與漢英詞典編纂.辭書研究,2005(1).
20. 趙勇,徐軻.大數據時代的公共資源交易前瞻.招標采購管理,2014(12).
21. 趙中建,張燕南.與大數據同行的學習與教育——《大數據時代》作者舍恩伯格教授和庫克耶先生訪談.全球教育展望,2014(12).
22. 宗威,吳鋒.大數據時代下數據質量的挑戰.西安交通大學學報,2013(5).
(馬立東廣東外語外貿大學詞典學研究中心廣州510420)
(吳光華大連交通大學辭書研究所遼寧116028)
(責任編輯李瀟瀟)
*本文得到了《世紀漢英大詞典》項目的支持。該項目2012年被列為“十二五”國家重點圖書、音像、電子出版物規劃增補項目,2013年又被國家新聞出版廣電總局列入《2013—2025年國家辭書編纂出版規劃》。