李 斌 張藝璇 馮敏萱
(南京師范大學文學院,江蘇南京 210097)
語料庫是語言學研究的重要基礎資源。縱觀語料庫發展歷史,計算機技術的發展推動著語料庫建設和研究不斷深入。語料庫的興起得益于計算機技術的進步,由紙質文本轉換為電子文本,給語言的儲存和計算帶來了極大便利。語言研究需要語言材料為研究對象,在電子語料庫出現以前,卡片式的摘錄和統計已經是語言研究的基本方法之一,可以看做是現代語料庫方法的雛形。而大規模電子語料庫的出現,為語言研究開辟了更廣闊的研究空間。隨著研究需求的擴大,語料庫研究呈現精細化、多樣化的特點,語料庫的類別也愈加豐富多樣。
截至目前,語料庫已經歷了三個發展階段。20 世紀60 年代,第一代電子語料庫的典型代表為BROWN 語料庫,除了標注原始語料的元數據,如作者、寫作時間、體裁等,一般對語料內容幾乎不作標注,規模大多為百萬詞次。20 世紀80 年代,第二代電子語料庫規模開始擴大,常常達到千萬詞次,甚至上億詞次,典型代表為COBUILD 語料庫。這一階段對于語料的標注也更為深入。20 世紀90 年代,由于語料庫的簡單標注已不能滿足語言研究的需要,且面對語言智能中機器學習算法對高質量語料的迫切需求,第三代電子語料庫以賓州樹庫為代表,開始逐漸探索句法、語義和篇章等語言信息的深度標注。伴隨計算機算力的不斷提高,標注內容的不斷深入極大地豐富了語料庫的規模、深度和模態,推動語料庫的構建與應用研究不斷創新。……