楊雨欣(電子科技大學外國語學院,四川成都 610000)
大規模的英語語料庫建設起源于上世紀60年代,1959年,Quirk 等人開始建立的“英語用法調查”(Survey of English Usage),其建設收集了大量風格題材各異的英語口語及書面語語料,被稱為現代語料庫語言學研究的鼻祖。1961年,世界上公認的第一個電子英語語料庫布朗語料庫(Brown Corpus)問世。發展到今天,英語語料庫的規模仍是其他語種語料庫所不及,到后來網絡語料庫(Web as Corpus)技術的普及使得語料庫的規模更是以幾何倍數增長,億詞級語料庫已屢見不鮮。
相比西方國家,國內的語料庫語言學雖開始相對較晚,但國內語言學界研究語料庫者已不再少數,對相關理論及技術的掌握也不落后于西方國家,從萌芽到現在的蓬勃發展僅30多年。
1982年,上海交通大學的黃人杰、楊惠中主持編制的科技英語語料庫JDEST(Jiao Tong University Corpus for EST),共計100 萬詞,由2000 篇(每篇至少5 百字)科技英文文本組成;1987年,中國石油大學建成的廣州石油英語語料庫GPEC(Guangzhou Petroleum English Corpus),約41 萬詞,由石油專業英語英語文本組成;1999年,廣東外語外貿大學桂詩春教授和上海交通大學楊惠中教授主持建設的中國英語學習者語料庫CLEC(Chinese Learner English Corpus),庫容為100 萬詞,語料來源于全國專業英語、大學英語以及中學英語學習者的書面語資料;而后國內相繼成功建成的語料庫源源不斷,為國內語料庫的發展及語言學研究,外語教育等都做出了自己的杰出的貢獻。有代表性的還包括國家語委現代漢語語料庫,香港科技大學學習者語料庫(HKUST Learner Corpus),南京大學建立的中國英語學習者口語語料庫(SECCL),北外建立的平行語料庫,漢英平行語料庫(PCCE)等等。
得益于政府與學術機構對語料庫語言學的支持,語料庫的建設和更新速度迅猛,除去由國家社科資金資助的項目,還有來自各大高校、機構及學者所自建的語料庫,其庫容各異,但類型基于功能可基本分為通用語料庫、專用語料庫、平行語料庫、可比語料庫、學習者語料庫(段海鵬,2011)。
我國的語料庫研究主要集中在以下3 個方面:漢語語料庫與中文信息處理、學習者語料庫與漢語中介語語料庫、漢英雙語平行語料庫(肖忠華,2015)。
第一類中的漢語語料庫建設遵循“揚我所長”原則,充分利用自身優勢,不僅能給國內漢語研究者提供語言數據,還能促進漢語在國際上的交流。例如北京大學中國語言學研究中心CCL 語料庫,建設有現代漢語語料庫及古代漢語語料庫,漢語總字符數783,463,175,其中現代漢語語料庫總字符數為581,794,456,為漢語研究和教學提供了大規模語料庫及方便快速的在線檢索。
第二類包含上面已經提到的學習者語料庫,由于國內重視英語語言的教育,學習者語料庫主要來源于英語學習者語料,有英語專業和非英語專業的,也有不同初高中及大學階段的,且多源自歷年英語考試材料。目前國內所公認的三大學習者語料庫為由桂詩春、楊惠中所編著的中國學習者英語語料庫(CLEC)、由文秋芳、王立非、梁茂成編著的中國學生口筆語語料庫(SWECCL-Spoken and Writing English Corpus of Chinese Learners)和由楊惠中、衛乃興編著的中國學習者英語口語語料庫(COLSEC-College Learners’Spoken English Corpus)。而漢語中介語語料庫是指漢語為中介語的留學生作文和口語材料語料庫,且這些留學生多來自亞洲及非洲國家。
第三類漢英雙語平行語料庫旨在推進漢語與英語之間的對比及翻譯研究。漢語和英語是兩門跨度較大的語言,兩門語言的對比、及翻譯研究不僅僅是語言學術研究的需要,更是我國英語教育事業,與英語相關的教育產業,如教育機構,網絡英語學習軟件、詞典及應用的需要。
盡管我國的語料庫建設得到了迅速的發展,其存在的問題也不容小覷。
首先,學科間溝通合作還不足(肖忠華,2015)。語料庫的語料要發展全面,需來自各大學科的語料數據支持,且其建設更涉及語言學、計算機科學、概率統計學等多個學科,這便需要各學科專業人才都能有致力于語料庫研究建設的目標,充分交流,相互合作學習,成立龐大的專業語料庫建設隊伍。因此當下國內要達到這樣的目標,還需要一個較長的建設周期。讓語言學家去選擇更有代表性的語料,讓計算機專家去開發更先進的語料加工、處理軟件,雙方相互學習取長補短,才能共同建設出更大更好的語料庫。國外蘭卡斯特大學的UCREL 和CASS 語料庫研究中心就是這一方面的成功典例。
其次,國內語料庫建設不夠有序不足(肖忠華,2015)。國內的語料庫建設基本來源于高校,只有部分建設項目能得到國家或其他公司機構的資助。較大型的語料庫屈指可數,如北京大學中國語言研究中心CCL 語料庫,北京語言大學BCC 語料庫,以及北京外國語大學的BFSU CQPweb 等,除此外還有不少語料庫是根據各高校的專業特色及需求建立起來的,其庫容不算太大,但也不算太小,大部分屬于自建自用,缺乏共享性,且其中絕大數多建而不研,大大的降低了語料庫的使用率,嚴重增加了建設成本,其中,重復性建設更是不計其數。
最后,不得不提到的還有國內語料庫建設的一些技術性問題,尤其是自動標注問題和雙語語料庫中的對齊問題,計算機技術在這方面責無旁貸。由于詞性標注是大規模語料庫自動分析的重要基礎,也是句法剖析和語義標注的前提,同時還與短語提取有著不可分割的關系(梁茂成,2015),如何提高詞性自動標注的準確率依舊是學術界關注的重要問題。以及盡管在雙語語料庫中已經研發出一些自動對齊工具,其自動對齊的效果仍有很大的改進空間。
首先,繼續多方位的全面的研究我們的母語——漢語。漢語是我們自身的優勢,研究漢語也是我們的使命所在。今后對漢語語料庫的建設研究可能有以下幾個方向:
1)建立漢語口語語料庫,對比口筆語間區別。許多語言學家普遍接受口語要比書面語更能揭示語言的本質(楊江,2008),自國內語料庫開始建設以來,口語語料庫便受到了廣泛的關注,即使其語料采集及語音轉寫技術要比普通的書面語麻煩的多。國內目前單獨的漢語口語語料庫還寥寥無幾,基本都是研究英語學習者的口語語料庫,如中國學生口筆語語料庫(SWECCL),以及中國學習者英語口語語料庫(COLSEC)等。
2)建立少數民族語料庫。由于不少少數民族居住地的遷移,少數民族漢化、城鎮化影響等等,少數民族語言面臨著消失殆盡的問題,建立少數民族語料庫起到了保護和保存少數民族文化的作用。
3)建立現代網絡用語語料庫。伴隨著手機,電腦的更新換代,WIFI、4G 像空氣一樣滲透進人們的生活,隨之而來的是強烈的網絡文化打破以往人們生活的方式、觀念,各種網絡新詞、熱詞以迅雷不及掩耳之勢隨時散布在各大新聞網站,隨之進入到人們交流的各大場合,這些新、快的語料可能是以往所建立的語料庫里沒有的,但又是當下最受廣大民眾歡迎的,建立現代網絡用語語料庫分析其特點,可以幫助了解人們的喜好,有助于開發迎合用戶的應用。
其次,建設專門用途英語(ESP—English for Specific Purposes)語料庫(張濟華,2009)。通過采集專門領域的英文文獻,建立某個特定領域或學科的ESP 語料庫,檢索能獲取各專業詞匯,從其詞頻高低判斷并制定各專業英語大綱詞匯表,從而為不同專業英語詞匯的教學提供重要依據。建設學術英語語料庫有助于學術英語語言的研究,也為各高校學生、學者提供多樣化的教學和自學資源。例如,在建的由中國外語教育研究中心語料庫語言學團隊主持創建的DEAP 學術英語語料庫項目(Database of English for Academic Purposes),截止到目前已建成的臨床醫學字庫MedAca共計500 萬詞次,“臨床醫學”下的18 個包括兒科學、婦產科學、急診科學等在內的18 個二級學科,且其建成對醫學英語詞典的編纂以及醫學學術論文的寫作有極大的幫助。
最后,繼續建設平行語料庫和可比語料庫在內的多語種語料庫,促進中外語言對比和翻譯研究(何常麗,2008)。平行語料庫和可比語料庫的本質區別在于前者有翻譯關系,且文本需要對齊(梁茂成 & 許家金,2012)。漢語本身與西方各大語系差距較大,對比研究像漢語和英語這樣的大跨度語言對語言學理論具有重要意義。誠然,語料庫的手段無疑為翻譯研究及對比語言開辟了廣袤的新天地,近年來,相關學術研討會相繼召開,很大程度的推動了這個研究領域的發展,例如,“基于語料庫的語言對比與翻譯研究”學術研討會(UCCTS—Using Corpora in Contrastive and Translation Studies),每兩年一屆,是目前語料庫翻譯研究專業化程度最高的國際學術研討會,某種程度上代表了這個領域的最新發展(趙秋榮,肖忠華,2015)。同時,在開展語言翻譯和對比研究時,借助其研究成果能極大的幫助提高現代的機器翻譯可靠性和有效性。
國內的語料庫語言學研究發展勢頭迅猛,借助語料庫來進行科學的大規模的真實語言數據分析,有助于取得更可靠的研究成果。弄清楚語料庫可以做什么,根據研究者自身需求建立合適的語料庫,采用科學的統計分析手段,才能緊跟大數據時代步伐。相比較國外語料庫的建設,國內語料庫的建設和發展依舊還有很長的路要走,積極改進技術性問題,尤其在預料的加工及分析方面,提高自動詞性標注的準確率,研發更好的對齊工具。認清國內語料庫的發展現狀,加強學科間的合作交流,取長補短,朝著更好的發展發向邁進。