——基于契訶夫小說平行語料庫的設計與建構"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?劉 淼 邵 青
(北京第二外國語學院,北京 100024/北京大學,北京 100871;中央電視臺網(wǎng)絡傳播中心,北京 100048)
俄漢文學翻譯語料庫的創(chuàng)建*
——基于契訶夫小說平行語料庫的設計與建構
劉 淼 邵 青
(北京第二外國語學院,北京 100024/北京大學,北京 100871;中央電視臺網(wǎng)絡傳播中心,北京 100048)
基于契訶夫短篇小說創(chuàng)建的俄漢文學翻譯語料庫是一個以俄語經(jīng)典文學作品及其中文譯本為語料的雙語平行語料庫。創(chuàng)建本語料庫的主要環(huán)節(jié)包括語料文本的選擇與加工、語句屬性的確定與標注、搜索功能的支持與擴展以及用戶體驗的設計與維護。創(chuàng)建本語料庫的重要思想之一是用互聯(lián)網(wǎng)平臺進行語料庫的存儲與運行,使大眾用戶能夠充分利用互聯(lián)網(wǎng)平臺完成數(shù)據(jù)共享與研究交流。
俄漢平行翻譯語料庫;語料庫的創(chuàng)建;契訶夫短篇小說
語料庫語言學的發(fā)展已有五十多年的歷史,已經(jīng)成為一門較為成熟、成果豐富的前沿熱點學科。推動語料庫語言學發(fā)展的重要因素之一是語料庫的開發(fā)與研制,持續(xù)建設各種不同類別、不同用途的語料庫是語料庫語言學發(fā)展的動力源頭。
我國俄語界的語料庫語言學研究起步較晚,已有的成果主要分為4類:一是探討語料庫創(chuàng)建過程中的具體環(huán)節(jié),如標注俄語語料的原則與方法;二是依托俄羅斯國家語料庫的相關研究成果,主要包括語法研究與語料標注研究(陳虹 2012,李紹哲 2012);三是自建俄語單語語料庫,使用相關軟件從詞頻、關鍵詞和詞匯搭配等角度分析總結語料庫的相關數(shù)據(jù)(張祿彭 張超靜 2012);四是自建俄漢平行語料庫,進行雙語對比研究(崔衛(wèi) 2014)??偟膩碚f,基于俄語單語語料庫的研究成果相對較多,而俄漢雙語語料庫的研制與應用鮮有學者涉及。然而,雙語語料庫較單語語料庫有更廣泛的應用空間,如翻譯研究、翻譯教學、對比語言學、雙語詞典編撰與翻譯軟件開發(fā)等領域。本文將創(chuàng)建俄漢平行語料庫作為研究目標,探討基于契訶夫小說及其3個中文譯本的俄漢文學翻譯語料庫的創(chuàng)建以及互聯(lián)網(wǎng)模式下語料庫應用平臺的搭建與運行。
2.1 語料庫的創(chuàng)建目的與應用價值
基于契訶夫小說的俄漢文學翻譯語料庫是一個以經(jīng)典文學作品及其譯本為語料、通過互聯(lián)網(wǎng)平臺的形式對源語與譯文進行再現(xiàn)的平行語料庫,文學翻譯語料庫的特點在于其語料的經(jīng)典與準確。文學大師創(chuàng)造的經(jīng)典文學作品是民族智慧的結晶,它使民族語言得到完好的保存與高度的凝練。同時,原著的經(jīng)典譯本也是外國文學研究的熱點之一。同一部經(jīng)典作品往往有多個版本的譯文,將原著與多個譯本聯(lián)系在一起,進行原著與譯本、譯本與譯本間的對比研究,符合現(xiàn)代翻譯學、現(xiàn)代語言學重視言語、對語言進行描寫式研究的發(fā)展趨勢。而計算機技術的發(fā)展使原著及多個譯本語料的搜集、存儲、標注、搜索及統(tǒng)計成為可能;互聯(lián)網(wǎng)技術的發(fā)展為多用戶在線訪問、發(fā)表評論及用戶交流提供保障。
基于契訶夫小說及其3個中譯本創(chuàng)建的俄漢文學翻譯語料庫能夠幫助研究者在掌握大量真實語料的基礎上將定性研究與定量研究結合起來,從而更好地輔助翻譯教學與翻譯研究。
語料的選取是俄漢文學翻譯語料庫創(chuàng)建的第一個重要環(huán)節(jié)。在確定作家和具體文學作品時,須要考慮作家的知名度、譯本的多樣化、作品內容的代表性、語言的規(guī)范性以及語言現(xiàn)象的豐富程度等因素。契訶夫是俄羅斯文學巨匠,其作品語言以精練準確見長。他的作品被中國讀者廣泛熟知,且中文譯本較多,便于進行翻譯文本的平行對比。基于契訶夫小說的俄漢文學翻譯語料庫共收錄他的7部短篇小說《Аннанашее》,《Ванька》,《Смертьчиновника》,《Толстый и тонкий》,《Хамелеон》,《Человек в футляре》,《Крыжовник》和1部中篇小說《Палата № 6》. 這些作品的原文出自1983-1986年間俄羅斯科學出版社出版發(fā)行的30卷本《契訶夫作品全集》;中文譯本選擇汝龍(《契訶夫小說全集》,上海譯文出版社, 2000)、沈念駒(《契訶夫短篇小說精選》,浙江少年兒童出版社, 2009)和馮加(《契訶夫中短篇小說集》,譯林出版社, 2011)的翻譯作品。
2.3 語料的加工
語料加工的質量決定語料庫數(shù)據(jù)的可靠性,所有數(shù)據(jù)必須經(jīng)過初步處理后方可錄入計算機。語料文本的處理主要分以下幾個步驟:(1)語料采集。隨著信息技術的不斷發(fā)展,互聯(lián)網(wǎng)上已能搜索到契訶夫短篇小說作品的俄語和漢語文本。課題組下載電子版后與紙質版原文仔細校對,經(jīng)過整理后分別保存為格式統(tǒng)一的txt文檔。(2)文本處理。為方便電腦讀取和顯示,須要對文本格式進行統(tǒng)一化處理:俄語文本使用半角標點符號,漢語文本使用全角標點符號,每個自然段段首不保留空格,段與段之間不保留空行。(3)段落劃分。由于俄漢語言的差異,加之譯者的個人因素,有些譯文的段落分布并未與原文保持一致??紤]到語料平行對比的需要,課題組以俄語原文的章節(jié)、段落劃分為基準,相應的漢語文本按照原文段落進行調整。同一段俄語原文及其3個譯本為1組段落,每組段落均賦予1個獨立的Paragraph ID,便于數(shù)據(jù)索引。(4)語句對齊。語句層面同樣以俄語為基準,將漢語文本與原文一一對應。由于在文學作品的譯文中經(jīng)常出現(xiàn)語序的調整,故這一步驟暫由人工完成,而新聞、科技等其他語體可使用SDL Trados(www.trados.com)內置的WinAlign等工具自動進行,完成后須要進行人工校正。同1句俄語原文及其3個譯本為1組語句,每組語句均賦予1個獨立的Sentence ID,并且與其所屬段落的Paragraph ID相對應,這便于定位數(shù)據(jù),使語料庫各組成部分間存在明確的層次結構。(5)數(shù)據(jù)導入。先前步驟已完成句子層面的初步處理,為便于計算機存儲和管理這些數(shù)據(jù),需將每1組已對齊的語句及對應ID制作成1條記錄,生成xml格式的數(shù)據(jù)表,并導入SQL數(shù)據(jù)庫。
2.4 語料屬性標注
標注指以統(tǒng)一的標準來標示語料文本所具有的特征,并將數(shù)據(jù)用二維表結構進行邏輯表達,使信息的性質和量值出現(xiàn)在固定的位置,實現(xiàn)數(shù)據(jù)的結構化,以便根據(jù)特定條件篩選出符合相應需求的語料。語料庫不僅僅是原始語料的集合,而且是有結構的、標注語法、語義、語音、語用等語言信息的語料的集合,這是語料庫區(qū)別于一般的文本數(shù)據(jù)庫的重要標志(何婷婷 2003:14)。例如,俄羅斯國家語料庫設置被搜索詞句的“詞匯-語法特征”篩選功能,從語法特征、語義特征、補充特征、詞組特征等角度設置一百二十多個屬性選項;又如北京大學的《人民日報》標注語料庫,從26個基本詞類、專有名詞和語言學角度對所有的語料進行多達四十余項的標記,幫助用戶精確定位所需信息。
在對語料進行屬性標注前,首先須要標注語料庫對象文本的元數(shù)據(jù),即描述數(shù)據(jù)及其環(huán)境數(shù)據(jù),包括語言、版本、作者、出版信息等。為便于從原文及各個譯本中篩選出含有一定特征的語句加以研究,錄入語句的同時還要定義其獨有的屬性字段,即語句屬性的標注,據(jù)此可在語料庫中進行更詳細的搜索。俄漢翻譯語料庫檢索所需的標注屬性劃分尚無現(xiàn)成案例可以套用,如果要達到一定的精準度和可信度,需要有一套相對科學嚴謹?shù)膶傩詷藴?。根?jù)俄譯漢教學與翻譯研究的需要,課題組對原文及譯文進行3個層面的人工屬性標注,即“語法范疇”、“修辭范疇”和“翻譯技巧”。其中,語法范疇指原文自身的語法屬性,包括“單部句類型”與“動詞非變位形式”;修辭范疇分為原文修辭與譯文修辭兩部分,其中原文修辭主要包括俗語、習語、諺語、成語、詞匯情感色彩后綴、人名稱謂、比喻和借代;譯文修辭包括四字格、正反義詞、疊詞與象聲詞;翻譯技巧主要包括增譯、減譯、成分改變、斷句與合句。
人工標注的優(yōu)勢在于能夠完成機器無法識別的一些屬性標注,可以為研究者提供更有針對性的屬性檢索與面向某一具體屬性的定量研究材料。如原句語法屬性的標注能夠幫助使用者便捷地一鍵搜索到所有帶有相關屬性的句子,大大節(jié)省閱讀與記錄的時間,同時又能查看不同譯本的翻譯方案與翻譯策略;而翻譯技巧的屬性標注則顯示譯者對原文的不同處理方式,能夠有效地保障多譯本模式下不同譯者翻譯風格的定量與定性研究。
在這樣的學術背景下,上海交通大學劉華文教授《翻譯詩學》一書的出版無疑是及時而可貴的。正如顧明棟(2015:vii)教授在該書序中所說,該書“精當?shù)貙⒎g和詩學、中西哲學和美學、中西文論和語言理論、中國譯學史料和翻譯實踐相結合,已初步構建成一個學貫中西、打通古今、理論聯(lián)系實踐的體大思精之作,可以說是迄今為止最好的一部中國翻譯詩學。”
然而,人工屬性標注的不足之處也是顯而易見的。這種標注方式耗時長,需要大量人力資源的保障。因很難快速處理海量文本,所以其準確性難免受到標注人自身知識水平的限制。但由于目前俄文信息處理技術的限制,俄語語句屬性的自動標注在實際操作中不易實現(xiàn),語料的整理標注工作十分艱辛,大量的手工操作必不可少。為了保證標注的準確統(tǒng)一,課題組定期檢查標注錯誤并及時糾正,力求使錯誤發(fā)生的概率降到最低。
2.5 語料庫檢索功能開發(fā)
語料的檢索是語料庫面對用戶最重要的核心功能之一。而俄語詞匯具有變化繁雜、詞形眾多的特點,如只對一種詞形進行搜索,則須要進行多次操作才能獲得較為全面的信息;若通過模糊搜索等方法擴大檢索范圍,得到的結果往往包含大量不需要的信息。對此,課題組深入研究,刻苦攻關,研發(fā)出包含俄語基本詞匯所有詞形變化的語料檢索功能。
契訶夫小說俄漢文學翻譯語料庫檢索功能的開發(fā)是基于А. А. Зализняк主編的《俄語語法詞典》。這是一本俄語詞形變化詞典,全書共收錄詞條10萬余個,詳盡地給出這些俄語詞匯可能發(fā)生的所有變化方式,并列舉和分類,歸納成索引符號。該詞典的電子化版本奠定眾多計算機運行俄語程序的基礎,涵蓋拼寫檢查、搜索引擎、機器翻譯等諸多領域,為俄語國家的現(xiàn)代化建設做出重要貢獻。通過《俄語語法詞典》所列的詞形變化,課題組歸納出俄語基本詞匯形變的具體算法,結合詞典中提供的特例,利用計算機根據(jù)詞條自動處理,整理出常用俄語詞匯的詞形列表。
搜索功能的運行流程可分為輸入、回溯、檢索和輸出4個步驟。假設其中1個俄語單詞的原形為A,其所有變化形式為A1, A2, A3…An,搜索時輸入的關鍵詞為Ax,那么程序就會將關鍵詞與詞形變化列表進行比對,據(jù)此判斷出Ax屬于A1~An中的一項,再逐個對A1~An進行搜索,最終向用戶返回完整的搜索結果。例如,A為單詞原形человек,A1, A2, A3...An則為其所有可能出現(xiàn)的變化形式:человек, человека, человеку, человеком, человеке, люди, людей, людям, людьми, людях. 當用戶輸入的關鍵詞Ax為человек時,程序將判定出該詞屬于集合{человек, человека, ..., людях},并分別以человек, человека, ..., людях作為關鍵詞檢索,并整合查找到的結果,最終反饋給用戶的結果如下:

圖1 俄漢文學翻譯語料庫對человек搜索的結果(部分)
2.6 語料庫存儲和使用平臺的構建
當前,國內俄漢翻譯平行語料庫建設已實現(xiàn)語料在本地數(shù)據(jù)庫的存儲,并開發(fā)了相應的語料處理工具和管理系統(tǒng)。這些方法已經(jīng)可以滿足較為初步的基于俄漢對照的翻譯教學與研究,但仍存在兩個問題:(1)數(shù)據(jù)未能存儲在云端,且缺少開放的外部用戶界面,本地域之外使用較為不便,移動性不強;(2)依賴管理系統(tǒng)應用程序,僅能在特定操作系統(tǒng)運行,迭代開發(fā)較為繁瑣,兼容性不強。為滿足不同的教學和研究需要,課題組經(jīng)過廣泛調研和深入分析,提出具有普適性的語料庫平臺基本框架,以便在線進行內容管理和數(shù)據(jù)檢索。
該平臺不同于傳統(tǒng)語料庫的Client/Server結構(客戶端/服務器模式),它采用Browser/Server結構(瀏覽器/服務器模式)將系統(tǒng)功能實現(xiàn)的核心部分集中到服務器上,簡化系統(tǒng)的開發(fā)、維護和使用;采用的MySQL關系型數(shù)據(jù)庫管理系統(tǒng)具有體積小、速度快的特點,并可以通過索引功能加快數(shù)據(jù)檢索操作;編程語言采用Java,可在所有平臺的任意環(huán)境中開發(fā)、部署、擴展;運行環(huán)境為輕量級應用服務器Tomcat,適合語料庫這類中小型系統(tǒng)和并發(fā)訪問用戶較少的場合,運行時占用的系統(tǒng)資源小,擴展性較強。該平臺具有以下優(yōu)勢:(1)使用方便,隨時隨地均可進行語料檢索;(2)兼容性強,在Windows,Linux,Mac OS等各種操作系統(tǒng)上均可正常使用;(3)類型開放,可建設多語種、多語體、多版本、多種標注屬性的平行語料庫;(4)易于維護,可任意增刪語料庫或語料數(shù)據(jù),技術升級和版本迭代更為簡便;(5)程序輕量,可流暢運行;(6)免去安裝,可直接使用。
目前,契訶夫小說俄漢文學翻譯語料庫的后臺管理和前臺檢索系統(tǒng)已基本完成開發(fā),錄入數(shù)據(jù)7116條,總計78萬余字,并通過相關備案手續(xù)(京ICP備12033280號)進入試運行階段,網(wǎng)址為http://www.rucorpus.cn/,高級搜索界面和搜索結果界面如下:

圖2 俄漢文學翻譯語料庫檢索系統(tǒng)高級搜索界面

圖3 俄漢文學翻譯語料庫檢索系統(tǒng)搜索結果詳情頁
在語料庫系統(tǒng)層級結構方面,該語料庫可按照語體劃為不同的類別,同一分類下可按作者、題材等添加多個語料庫,每個新添加的語料庫均可按作品、來源等容納多個素材,繼而劃分素材段落,對語句進行標注,具體結構如下圖所示:

圖4 俄漢文學翻譯語料庫層級結構
為更好地滿足用戶需求,提升用戶體驗,俄漢文學翻譯語料庫檢索系統(tǒng)加入一系列人性化的功能設置,以方便廣大俄語學習者和研究者使用。
首先,搜索時如不需要關鍵詞的所有詞形變化,可勾選“精確匹配”,系統(tǒng)將只搜索用戶輸入的詞形。在網(wǎng)站注冊的用戶登陸后,每條搜索結果都帶有收藏按鈕,點亮即可加入收藏,以便多次查詢或異地調取先前搜索到的結果,用戶可在自己的收藏夾查看已保存的結果。
其次,為便于收集用戶反饋,提升語料庫的內容和服務質量,語料詳情頁面增設評論功能,并且支持使用微博等社交平臺賬號登錄和分享。同時,課題組還建立以俄語語料庫為主題的互動社區(qū),網(wǎng)址為http://bbs.rucorpus.cn/,社區(qū)包括俄語語料庫專區(qū)、語料庫專題研究、語料庫書籍資料、學界新聞動態(tài)、用戶意見征集等欄目,為廣大語料庫使用者和研究者提供資源共享和在線交流的平臺。
由于國內俄漢文學翻譯語料庫的研究剛剛起步,加之課題組仍處于探索階段,俄漢文學翻譯語料庫檢索系統(tǒng)還有許多須要改進之處:(1)目前僅完成部分契訶夫作品的錄入與標注,文本量相對較小,且語體和語料都較為單一,將來可擴大作家和作品范圍,充實內容,可以嘗試錄入詩歌、劇本等其他體裁的文學作品,同時,也可嘗試創(chuàng)建其他作家、作品的語料庫,如普希金作品語料庫、托爾斯泰作品語料庫等。(2)依靠人工進行屬性標注的效率較低,無法應對大量文本的標注。但人工標注是對文學等靈活性較強的語體進行屬性標注的必經(jīng)之路,也為語料屬性的分類和框架構建奠定基礎。隨著語言語義研究的深入與計算機技術的不斷進步,將來應努力實現(xiàn)計算機半自動或全自動屬性標注。(4)目前語料庫較偏重語法屬性的標注,屬性標注的分類和框架仍須要完善。今后課題組將會繼續(xù)積極進行探索和實踐,增加語義、語篇等類型的屬性標注,并可嘗試將各類語義詞典的算法導入語料庫,強化搜索功能。
契訶夫小說俄漢文學翻譯語料庫的創(chuàng)建是一次大膽的嘗試,它創(chuàng)建俄漢翻譯語料庫的基本框架,探尋出一套具有普適性與開放性的內容管理平臺;它對源語文本及多版本譯文進行詞法、句法與譯法的屬性標注,真正實現(xiàn)語料的數(shù)字化與結構化;它內置數(shù)據(jù)完備的搜索模塊,能夠高效地支持“一對多”的檢索需求;它依托互聯(lián)網(wǎng)平臺,是我國首個面向大眾用戶的俄漢翻譯在線語料庫;它能解決當前俄漢語料庫存在的移動性與兼容性差的問題,打破研發(fā)者與用戶之間的空間壁壘。
目前,契訶夫小說俄漢文學翻譯語料庫的容量仍在不斷地擴充中,除繼續(xù)補充新的語料外,課題組還定期檢查系統(tǒng)功能,及時糾正標注錯誤,最大限度地保障與提升語料的準確性。本語料庫的建設經(jīng)驗與成果可為俄羅斯經(jīng)典文學作品翻譯語料庫的建設提供一定的理論框架與操作支持,從而為我國俄語界目前研究較少、難度相對較大的俄漢/漢俄平行語料庫建設做出自己的貢獻。在“互聯(lián)網(wǎng)+”的時代背景下,俄漢雙語平行在線語料庫的研發(fā)具有廣闊的發(fā)展前景,對我國俄語教學、俄漢對比研究、俄語語言及文學研究具有重要的實踐意義與學術價值。我們期待俄語界同仁共同努力,不斷開發(fā)出不同用途的、更具應用價值的俄漢雙語平行語料庫,為俄漢語料庫的研究添磚加瓦。鑒于篇幅所限,本語料庫的應用研究將另文探討。
陳 虹. 俄語語料庫的標注[J]. 中國俄語教學, 2012(2).
崔 衛(wèi) 李 峰. 俄漢-漢俄平行語料庫的構建設想與應用展望[J]. 中國俄語教學, 2014(1).
何婷婷. 語料庫研究[D]. 華中師范大學博士學位論文, 2003.
李紹哲. 俄語語料庫和基于語料庫的語法研究[D]. 黑龍江大學博士學位論文, 2012.
契訶夫. 契訶夫小說全集[M]. 上海: 上海譯文出版社, 2000.
契訶夫. 契訶夫短篇小說精選[M]. 杭州: 浙江少年兒童出版社, 2009.
契訶夫. 契訶夫短篇小說集——變色龍[M]. 南京: 譯林出版社, 2011.
張祿彭 張超靜. 自建語料庫在俄語教學中的應用[J]. 中國俄語教學, 2012(3).
Зализняк А. А. Граматический словарь русского языка[M]. Москва: АСТ-ПРЕСС, 2010.
Чехов А. П. Полное собрание сочинений и писем в 30-ти томах[M]. Москва: Наука, 1983-1986.
ConstructionofRussian-ChineseTranslationCorpus— On the Basis of Anton Chekhov’s Short Stories
Liu Miao Shao Qing
(Beijing International Studies University, Beijing 100024, China/Peking University, Beijing 100871, China; China Network Television, Beijing 100048, China)
Russian-Chinese translation corpus is a bilingual parallel corpus, which has Russian classic literature and their Chinese versions as the base of its linguistic data. Basic elements of constructing the corpus are as follows: text selection and processing, determination of sentence attributes and labeling, search function supporting and extending as well as user experience designing and maintenance. One of the most vital thoughts of constructing this corpus is building and running the corpus through the online platform. Hence, ordinary users can share the information in the corpus and enjoy communication by the full use of the Internet.
Russian-Chinese parallel translation corpus; construction of corpus; Chekhov’s short stories
*本文系北京市優(yōu)秀人才培養(yǎng)資助D類項目“基于契訶夫短篇小說的俄漢翻譯語料庫的創(chuàng)建”(2010D005008000002)的階段性成果,獲北京市委組織部資助。
H319.5
A
1000-0100(2016)01-0154-5
10.16263/j.cnki.23-1071/h.2016.01.031
定稿日期:2015-07-09
【責任編輯王松鶴】