■唐靜
淺談關于中國日語學習者的中日對譯語料庫構建的研究
■唐靜
文章簡述的是構建中的外語學習者語料庫的一部分:中國日語學習者中日對譯語料庫的建設情況。介紹構建學習者語料庫的四個主要階段,即語言資料的收集、各種工具的開發、語料庫的研制、語料庫的分析。
在開發計算機輔助語言教學系統(CALL System)的過程中,其準備工作之一是語料庫的研制。語料庫可以分成兩種類型:母語語料庫和學習者語料庫(Learners Corpus)。其中學習者語料庫特別受到語言教學鄰域研究者的注目。目前,世界上的雙(多)語語料庫均為英語與其他語言的平行語料庫,漢語與日語的平行語料庫開發較少。隨著信息社會的到來和中日交流的不斷擴大,越來越多的語言研究者、教育者以及機器翻譯研究者急需一個大型的中日平行語料庫。為此,長沙民政技術學院是于2008年9月開始著手構建基于中國人日語學習者《中日對譯語料庫》建設的。這個項目是正在進行中的長沙民政職業技術學院外語學院外語學習者語料庫建設項目中的一部分。
本語料庫構建的最終目的是用計算機同時檢索中日文語料中的信息,以有助于從語言學角度對中國學習者的日語語言應用進行分析。這些語言分析工作是語料庫建設的一個環節,同時對日語教學實踐又有著直接的指導意義。
隨著全球范圍內對日語學習的需求,至今人們已開發了許多類型的日語教學系統。但是,能夠認識到學習者第一語言(L1)的不同,而考慮到學習者的母語和目的語的差異,從這個角度開發的教學系統現在還很少。在這種情況下,要開發適用于以漢語為第一語言、以日語為目的語的語言習者教學系統,其初期工作就是首先構建一個中國日語學習者語料庫。
對譯語料庫與單語語料庫相比,最大的特點是雙語性和平行性。利用對譯語料庫進行各種目的的研究時,應該充分認識并有效利用這一特點。根據我們的實踐體會,合理的利用譯例,往往可以取得意想不到的效果。為此,對對譯語料需要加以分類后,按不同目的重新組合以有效地利用。考慮到以上情況,我們決定構建一個以漢語為第一語言與以日語為目的語的中日雙語平行的大型語料庫,而且為了從多方面對學習者的語言錯誤進行定量分析,我們使用獨自開發的工具來進行賦碼操作。
1.語言資料的收集方法。首先構建一個基于中國日語學習者的中日雙語平行的大型語料庫,收錄至少有譯文的漢語和日語平行語料1000萬字,為兼顧多種研究目的,收錄的內容以有研究價值的中日文學名著為主,兼收劇本、散文、政論文等其他文體的文章,原文和譯文全文收錄。為滿足文學和翻譯學學習者的需要,部分名著收錄多個譯本,語料錯誤率確保在千分之五以內。
2.編輯與電子化。編輯工作包括三個部分:(1)把手寫的譯文材料電子化,使其成為日中逐句對譯的文件形式。(2)在每個文件上附上該學習年齡、性別、出生地、日語學習經歷等的基本者的信息。(3)原則上以益岡隆志、田洼行則編著《基本日本語文法》的語法體系為基準,并參考有關中國日語學習者誤用例的先行研究,來設計錯誤碼的目錄,并用其進行賦碼操作。
電子化過程,是為了便于進行語料庫分析和處理,把編輯完的文件變成XML形式。
3.語料庫檢索工具的研制。一個高水平的語料庫需要一個高效率、多功能的檢索工具。中日對譯語料庫要求其檢索工具必須具備雙語平行檢索、關鍵詞檢索(KWIC)、句型搭配檢索、抽象的句型檢索等專用功能。為了滿足此需要,擬在探明中日文版WINDOWS95/98的內碼基礎上,提出解決中日雙語同窗顯示和檢索問題的方案,并開發一個可掛接于中日對譯語料庫的雙語檢索工具。該檢索工具為窗口操作,界面友好;既對現有檢索工具的優秀功能進行必要的集成,又根據雙語語料庫的特點增添必要的功能。
4.語料庫的分析。中日對譯語料庫的研制是一項涉及語言學、翻譯學、信息工程學和計算機科學的跨學科綜合研究課題,其研究方法需要取自社會科學和自然科學。在選擇語料、文本對齊、語料檢索與標注加工方面,我們主張首先對文本語言進行深入研究,盡量吸收語言學、文學和翻譯學的最新成果;在運用語料庫進行語言研究方面,主張充分利用信息工程學的方法和計算機科學的最新技術,以達到以往的研究方法所不能取得的研究效率和成果。
中國日語學習者中日對譯語料庫是長沙民政職業技術學院外語學院外語學習者語料庫建設的一個重要組成部分。下階段,我們還會使用自然語言處理技術,并在分析從本語料庫得出的學習者錯誤趨向的基礎上,為中國日語學習者開發出能夠自動生成學習菜單和教授信息的計算機輔助翻譯教學系統。
[1]徐一平,曹大峰主編.中日對譯語料庫的研制與應用研究[M].外語教學與研究出版社,2002.
長沙民政職業技術學院外語學院)