陳虹
摘要: 標注是語料庫的重要特征,其層次和質量決定所建語料庫的級別和有效使用程度。俄語國家語料庫是當今世界上成功創建的大型現代語料庫之一,其標注模式是在國際標注模式的基礎上,結合俄語自身的語言特征進行擴展的成功范例。目前它的標注體系包括四種,即元文本標注、詞法標注、句法標注和語義標注。研究國外包括俄語在內的各語種語料庫的標注經驗,可以更好地為建設國內語料庫提供參考和借鑒。
關鍵詞: 俄語國家語料庫標注語料庫
一、引言
在創建語料庫時,需要對收集來的普通文本進行處理,即在純文本文件中添加表示文本基本信息或文本單位語言特征的特殊符號或符號串,這些符號或符號串稱為標記或附碼(тэг,tag)。為語料庫純文本添加標記的過程稱為標注(разметка или аннотация,annotation or tagging),標注后,文本包含的信息由隱性變為顯性,利用相應的檢索系統可以最大限度地使用語料庫,語料庫的有效使用依賴于純文本標注的層次和質量。對純文本利用計算機資源進行批量處理和檢索,以及多維度、多層面標注純文本,是語料庫語言學、計算語言學的重要課題之一。
從世界范圍來看,俄語語料庫的標注以俄語國家語料庫(Национальный Корпус Русского Языка,НКРЯ)的標注最成功、最具代表性,層次和質量最高。和漢語一樣,俄語也是世界上最復雜的語言之一,研究俄語純文本的標注及俄語語料庫的標注系統,有助于進行漢語相關領域的研究。
二、語料庫標注
(一)語料庫標注的規范語言
為了表示文本中包含的語言信息,方便語言學研究,語料庫需要進行規范、系統的標注。適用于萬維網大多數網頁的標記語言——HTML語言(HyperText Markup Language,超文本標記語言),由于其標記是固定的,因此不能滿足標記必須是自定義的語料庫標注的需要。現階段世界各國開發語料庫使用的標記語言有兩種,即SGML語言(Standard General Markup Language,標準通用標記語言)和XML語言(Extensible Markup Language,可擴展標記語言)。
SGML語言是1986年國際標準化組織頒布的一個信息管理方面的國際標準(ISO8879:1986),用于規定在各種電子文本中嵌入描述標記的標準格式,定義各種電子文本結構的標準方法,以及指定文本結構的標準標記代碼。該置標語言復雜、龐大,功能十分強大,適用于各種類型的文本。XML語言是SGML語言的一個子集,也用于標記電子文本的結構。它不僅重新定義了SGML語言的一些內部值和參數,去掉了大量很少用到的功能,而且允許自定義標記,因此它的結構化功能更簡單方便。世界公認語料庫典范的英語國家語料庫(BNC)及斯拉夫語語料庫典范的捷克國家語料庫(ЧНК)使用的都是SGML和XML語言,我國“國家現代漢語語料庫管理系統”是國內率先使用XML語言組織的大型語料庫。可以說,世界上新建和在建的語料庫使用的都是這兩種語言。
(二)語料庫標注的基本模式
從語料庫開發角度看,目前最常用的語料庫文本標記模式是建立在SGML語言或XML語言上的TEI、EAGLES和CES。TEI(Text Encoding Initiative,文本編碼規范)具有超大限度的靈活性、綜合性和可擴展性,能支持對各種類型或特征的文本進行編碼,被認為是“最能反映當前語料庫語言學家致力于建立更具形式化的機讀語篇信息編碼國際標準的方向”(崔剛,盛永梅,2000:90)的標注模式。EAGLES(Expert Advisory Group Language Engineering Standards,專家顧問團語言工程標準)是歐盟在1993年2月制定的關于語言工程的標準,其內容涉及大型語言資源(包括文本語料庫、詞匯庫、言語語料庫)的建設、語言知識的處理工具(形式語法、標記語言、各種軟件)、語言工程系統的評估資源和工具等。CES(Corpus Encoding Standard,語料庫編碼標準)是EAGLES的一部分,它規定了語料庫的總體結構、語言信息標記等語料庫建設的技術規范,與TEI相兼容,目標是建立一套能被廣泛承認的語料庫標注模式。
從俄語語料庫的建設實踐看,俄語語料庫建設總體上采用的是語料庫建設的國際標準和模式。但由于俄語本身是一種綜合性語言,詞形變化比英語等語言復雜得多、豐富得多,因此俄語語料庫在采用國際通用的標注模式的同時,還根據俄語自身特點對標準標注模式做了一些修訂。俄國國家語料庫的標注模式就是在SGML語言、符合TEI和EAGLES標準的基礎上,根據俄語語言的自身特點對TEI進行了必要擴展后得到的。
三、俄國國家語料庫的標注
(一)俄語國家語料庫簡介
俄語國家語料庫(以下簡稱НКРЯ)是在俄羅斯學者С.А.Шаров 和В.Б.Касевич的積極倡導下,由俄羅斯科學院語言學研究所于2003年年底納入《語文學與信息學》計劃并開始建設的。該語料庫計劃規模為2億詞次,擁有多個文本類型,包括1個主庫和8個子庫。其中主庫是深度標注語料庫;子庫有俄英俄德平行語料庫、方言語料庫、詩歌文本語料庫、俄語教學語料庫、口語語料庫、報紙語料庫、句法語料庫和重音語料庫。НКРЯ目前暫時有四種標注,即元文本標注、詞法標注、句法標注和語義標注。它在網絡上開放的部分是20世紀下半葉至21世紀初的現代俄語文本語料庫,規模超過1.4億詞次,有9個文本類型,提供精確和詞匯—語法兩種查詢方法。
(二)俄國國家語料庫的元標注
由于НКРЯ希望能為盡可能多的一般用戶服務,因此其文本元標注非常細致和多樣,分為兩大部分,即基本文本參數和文本類型。基本文本參數主要用來說明文本的自然情況,分為五個方面,即文本名稱、文本作者、文本作者的性別、文本作者出生年代、文本產生的年代。文本類型參數主用用來對文本進行分類,分為兩個方面,即文學文本和非文學文本。
其中,文學文本分三項,即文本體裁選項,包括散文、偵探和戰爭類、兒童類、歷史散文、驚險類、幻想類、愛情故事、幽默諷刺類、文獻散文、戲劇、翻譯作品11種體裁;文本類型選項,包括寓言、謎語、便函、傳說、歌劇劇本、小品、隨筆、書信、中篇小說、詩歌、諷喻作品、話劇、短篇小說、長篇小說、童話故事、民間故事、電影劇本17種類型;文本產生的時間和地點選項,如歐洲中世紀、亞洲19世紀、俄羅斯/蘇聯1999—1914等詳細的時間分期和地點。
非文學文本分為三項,即文本的功能領域,包括日常生活領域、正式公文、生產技術領域、時事評論、教學科研領域、教堂教會領域、電子交際7個領域;文本類型,包括時事評論、教學科研類、正式公文和日常生活類4大類,每一個大類下又細分為若干小類;文本主題,包括科學技術類和非科學技術類兩大類,每一個大類下也繼續細分為若干小類。
從НКРЯ的元文本標注體系可以看出,它不是嚴格按照普遍性的語料庫語言學國際分類標準描述各個文本的,其分類自由、細致、豐富,但非常好地貫徹了其設計理念——為盡可能多的一般用戶服務,而不是針對專門的語言研究者或語言學家。
(三)俄語國家語料庫的詞法標注
НКРЯ的詞法標注是由俄羅斯開發的多用途語言處理系統ЭТАП—3詞法分析儀利用半自動詞法程序Mystem完成初始標注的,然后語言研究者們對初標結果中的400萬詞次進行手工消歧,以及進一步檢查和校對。Mystem程序詞法分析模式的基礎是А.А.Зализняк的《俄語語法詞典》(《Грамматический словарь русского языка》)(M.1977; 4-е изд.,M.2003)。如果文本中的詞形存在于該詞典中,程序就賦予全部可能的標注;如果不在,則給予假設的標注,并加上“?”。
endprint