張瑞國 萬 禮
(青島農業大學,山東 青島 266109)
自20世紀70年代美國制作了Brown Corpus以來,世界各國都開始研制語料庫,種類和規模越來越大。現在語料庫的制作不再限于國家研究項目或是某個大學的研究項目,個人只要有足夠資金和時間,也可以制作出相當規模的語料庫。特別是針對于日語專業在校學生,針對于課堂使用教材,由學生動手制作適合學生自己的中日對譯語料庫,可以更有效地學習日語并且能夠綜合地運用日語。中日對譯語料庫即為儲存各類日語文章的大型文字倉庫,旨在根據各種需要對語料庫內儲存的語言信息進行檢索,抽取所需信息。是外語學習中必不可少的一項學習工具,具備省時、易得等特點。
該研究主要針對不同階段的日語學習者在日常學習中,對于生僻復雜語言現象難以根據自己以往的知識積累加以判斷解決的狀況,需要借助既定語境下大量語料數據進行學習分析的需求,進行了中日對譯語料庫的研究與開發。在以我校各語言學習階段學生為調查對象,對于其需求獲得大量反饋之后,開始了語料庫的開發工作。
該語料庫主要面向初中級學習者的語料學習工具,因此在內容上我們以教材中的重點文章、日語新聞板塊(天聲人語等)、日本文學名著等為主要內容。學習者在遇到生僻復雜語言現象時可借助語料庫中的語料內容進行搜索,通過對比、分析、判斷破除所遇到的復雜生僻語言瓶頸,滿足了學習者需要借助既定語境下大量語料數據進行學習分析的需求。
具體內容包括將單詞模塊化、文章化并挑選出經典日語文章,經典日語例句,讓每一個初學者使用者都可以輕松查詢到單詞相關聯的例句、文章。通過單詞理解記憶文章和例句,通過文章例句反饋學習單詞,加深理解,并有助于區分意義相近的重難點詞匯,使用者在使用的過程中改變以往一成不變的死記硬背的單詞學習方式,在閱讀、理解中記憶單詞,用單詞記句子、文章。語料全部實現了句段對齊和詞性標注,全部摘錄于著名作品的經典語句。本語料庫可以提供一般日語學習、語言及翻譯研究等多種目的的應用。
在制作方法上我們參考于康(2013),首先針對我們的設定用戶,選取了相應能力階段所需要的日語文獻資料進行篩選,確定為初期語料。之后對篩選后的語料進行掃描,將掃描后的PDF格式文件轉化為文字,通過日語文字編輯處理軟件秀丸進行文字整理。之后建立并調試Java運行環境,將整理好的語料通過Edamame軟件進行轉換建庫,最后通過語言檢索軟件Himawari進行檢索,并調試運行,之后進行制作標簽,標簽分類等進一步細化功能的開發,梳理和完善。在初期完善之后我們將軟件投放給學生進行試用,對于學生提出的重復句,語料轉換過程中出現的亂碼錯別字,空格等問題進行了修改,并根據同學不斷增長的日語學習需求進行了新語料的收集生成,并成立語料發展小組,貼合同學的需求不斷增加新語料的開發,建立語料開發長效機制,及時淘汰模糊、曖昧語料。讓語料庫不斷開源,繼續長流,不斷為同學的日語學習服務。
經過一年的研究開發,最終開發出能為日語專業學習者所實用的語料庫,彌補了大語料庫費用門檻高小語料庫不能完全滿足需要以及錯誤較多的短板。從本校日語學習者的實際需要出發,建立和不斷豐富語料素材。經過研究發現并非只有少納言等大型語料庫,學習者可根據自己需要建立屬于自己的語料庫,使外語學習者根據自己的需要和學習方向擁有自己“專向專用”的語料庫成為可能。
參考文獻:
[1]戴寶玉.基于語料庫的日語研究[M].上海學林出版社,2012.
[2]徐一平,曹大峰.中日對譯語料庫的研制與應用論文集[M].北京外語教學與研究出版社,2002.
[3]于康.語料庫的制作與日語研究[M].浙江工商大學出版社,2013.