石志亮
摘要:文章回顧了語料庫和語料庫語言學的由來,分析了語料庫的應用與研究現狀,肯定了語料庫語言學在語言描述、語言理論發展和語言學研究方法等方面的貢獻。特別就語料庫語言學研究在語料庫標注技術、研究層次、與其它學科的交叉研究和語料庫建庫等方面出現了平臺期這一現狀做了闡述。
關鍵詞:語料庫;語料庫語言學;研究現狀;理論發展
中圖分類號:H0 文獻標識碼:A 文章編號:1671-1580(2017)01-0098-03
一、語料庫語言學的由來
不同的語言研究專家對語料庫的定義不盡相同。Atkins和Clear(1992)認為“語料庫是按照明確的設計標準,為某一具體目的而建立的大型語言文本庫”。John
Sinclair(1996)認為:“語料庫就是根據明確的語言標準選擇和排序的語言的匯集,以作為語言的樣本。”A.Renouf認為“語料庫是由大量收集的書面語或口語構成并由計算機存儲和處理用于語言學研究的文本庫”。Tony
McEnery(2006)認為:以機器可讀的形式儲存的,帶有各種語言信息標注的書面或口頭的樣本文本集合。
不論如何定義,有幾個關鍵點是一致的,就是語料庫必須是語言的電子文本集合、必須按照一定的標準采集、采集后的文本最好經過加工(比如,標注、賦碼)、文本的量應該達到一定的規模、能夠被計算機處理等。語料庫研究就是:研究者借助于各種計算機分析工具,以大量精心采集到的真實文本為研究素材,以經驗主義為哲學基礎,進行相關的語言現象觀察、語言理論驗證以及其它的實證性研究。
近些年,人們在語料庫的建設和開發過程中,在觀察和經驗的基礎上逐漸創造了一些新方法,提出了一些新規則,并且對這些方法和規則在理論上進行了一些探索和總結,逐漸形成了“語料庫語言學”。因此,語料庫語言學是一門基于大量真實的語言數據,以經驗主義為哲學基礎,以獨到的理論體系結合計算機科學來研究語言的一門邊緣學科。
二、語料庫語言學的應用
(一)在語言教學方面
語料庫語言學的重要應用領域之一就是語言教學,可以利用檢索工具對語料庫進行詞頻、詞塊、句型、語態、搭配等的觀察和統計,進行數據驅動式的學習。詞頻統計也能讓我們準確確定高頻詞,檢索出的詞塊、句型、語態、搭配等的情況,有助于教師更合理高效地開展詞匯、語法、閱讀、翻譯等各種語言教學活動;學生們通過觀察和實踐,既能掌握詞語的用法,也能了解語言變化的規律。這些檢索結果(特別是詞頻統計的結果)也可以應用于語言教材的編寫、教學大綱的設計,甚至詞典的編撰等。
(二)在應用語言學方面
利用相關的計算機軟件結合語料庫可以進行詞匯、句法、語義、口語、語言變異、二語習得、機器翻譯、語用、話語分析等研究。此外,還可以利用語料庫技術進行語音識別和語音合成等。
利用語料庫進行詞匯研究,主要包括詞頻、詞塊、詞語搭配、類連接、語義韻、新詞語的提取以及詞典編纂等。結合語料庫進行句法研究,主要是進行語法的定量分析和句型的頻率統計。結合語料庫進行語義研究,可以為詞項賦義提供客觀的標準,有助于建立語義模糊范疇的梯度概念。語料庫與口語這方面的研究主要是建立口語詞語提取的模型,目前集中在韻律層面的研究。語料庫與語言變異的研究,是通過對比不同時期、不同地域、不同民族、不同性別的口語語料庫來推斷語言的變異和變化,從而進行語域變體、地域變體以及語言變化的研究。語料庫與二語習得研究,主要是通過觀察語料庫中語言現象的分布和頻率以及學習者語言應用和使用的失誤,研究語言形式在語境中的意義和用法。語料庫與機器翻譯,利用過去已經翻譯過的語料,采用模擬的方法來翻譯句子。此外,利用語料庫還可以進行語音識別和語音合成等研究。
(三)在社會語言學、文學、翻譯學等方面
依據大規模真實語料庫進行社會語言學現象、語言變異等調查,可以得出更加真實客觀的數據和結論;通過建設文學作品或文學評論語料庫,對其進行標注和檢索,分別對其中的人物形象、意象、情節、主題、母題、作品風格等進行研究,可以為觀點提供更為客觀的數據支撐,開拓文學研究和語料庫相結合的新型研究模式;在翻譯學方面,利用建成的雙語平行語料庫,可以為翻譯研究與實踐提供實證材料,也能極大提高翻譯的效率和準確性。
(四)在語言定量分析方面
利用大規模的真實語料,設計出要進行定量分析的知識點和所使用的各類題型,可以提高定量分析結果的信度和效度。
除以上幾方面,語料庫還可用于語法、多語言跨文化研究、法律(軍事)語言學、文體學、意識形態和文化、作者的立場研究,甚至認知語言學研究等等。它所帶給我們的也絕不只是一種研究方法的革命,隨著語料庫技術的迅速發展其應用范圍也必將更為廣泛。
三、語料庫語言學的貢獻
(一)對語言描述的貢獻
語料庫語言學這門交叉學科是在20世紀80年代前后隨著Brown和Lob兩大語料庫的建立才逐步形成的。語料庫最早和最普遍的應用就是其在語言描述方面,比如上文提到的語料庫在語言教學、詞典編撰、應用語言學、社會語言學、文學、翻譯學、定量分析等等方面的運用,主要是語言描述層面。
以往進行的一些研究,比如對現代英語特征的分析:詞匯的使用頻率、語用特征及其在某段時間內的變化,男女使用某些詞匯的多寡、偏好,口語與書面語的異同,不同地區使用英語情況的比較(特別是學習者與本族語者語言之間的差異),某些詞匯空缺的成因,兒童詞匯及句式習得的過程,甚至考察某些種族使用語法轉換背后的動機等都是進行語言描述的具體研究事例。
可以說語料庫語言學通過對大量客觀詳實的語言數據進行系統分析為語言研究提供了全新的思路和方法,人們可以憑借語料庫提供的語言證據來進行語言學研究。
(二)對語言理論發展的貢獻
Sinclair認為只有用巨量的語料來驅動的研究才能揭示那些單憑語言直覺無法預測的語言現象和發現新的語言使用規律,更新現有的理論乃至構建新的語言理論模式。Leech也認為語料庫語言學絕不是僅僅收集和描述語料,它包括三個層次:語言收集、語言描述和理論構建。Halliday提出建立一套完善的口語語料轉寫系統以便更好地解決傳統語言理論將詞匯和語法分離的問題,因為口語語料是任何語言的原型語義單位始發和延伸的基礎,這些語義單位已經高度語法化且靈活多變,所以加強大型口語語料庫的研究能夠帶動語法研究的發展。
(三)對語言學研究方法的貢獻
語料庫語言學深受西方語言哲學中經驗論的影響,經驗論認為感性經驗是知識的唯一源泉,主張一切知識都通過經驗而獲得。西方語言學界的經驗論注重語言事實,強調直觀的感性,也就是要對真實的語言材料進行采集、描述和實證研究,借助于真實語料是語料庫語言學開展研究的基礎。
語料庫的各種處理工具,如語料轉寫、文本整理、詞性附碼、句法標注、檢索和統計等,這些計算機程序的出現使得語料庫語言學定性與定量相結合的方法成為可能。利用語料庫工具的標注手段和檢索功能,研究者可以很容易地檢索出某些語言現象,內省出一些語言規律,并進而對以往的理論假設進行驗證,大大提高了證偽能力。
四、語料庫語言學研究的平臺期
(一)語料庫標注技術發展緩慢
語料語言學從上世紀60年代開始發展,起初人們只用語料庫進行一些簡單的分析,如詞頻統計等,后來又增加了詞的語法屬性的標注,即詞性標注。但時至今日,語料標注沒有實質性突破,實際有使用價值的標注還只能是詞性標注。目前語料庫已經發展到了基于瀏覽器檢索的第四代,在標注和檢索能力等方面也增強不少,但其基本功能仍與第三代相似。除詞性標注外,對語料庫其它層次的標注,如,語音、句法、語義、語用和多模態語料庫等的標注仍不成熟,因而要想利用語料庫中的熟語料進行更深層次的研究就會遇到難以克服的障礙。
(二)語料庫研究層次單一
語料庫標注層次發展的緩慢制約著語料庫研究方法的進一步發展。語言研究者利用語料庫進行研究的目的就是為了更深入地挖掘語言的結構與演化規律,而語料庫中語音、句法、語義和語用等層次標注的不成熟、不完善,就會使得相關研究停滯不前。目前絕大多數的語料庫研究主要停留在詞匯、句法層次,對語義等方面的研究尚不夠深入。
(三)與其它學科的交叉研究尚不成規模
結合語料庫進行社會語言學、文學和翻譯學等方面的研究數量少、規模小、影響力也較弱。這可能與各個學科屬性的表現形式不同有關,比如,文學更注重語言的內容,而語料庫語言學多側重語言的形式,用語料庫研究文學就會有一定的難度。
(四)語料庫建庫方面的問題
語料庫的標注和賦碼系統缺乏統一性,沒有統一的規范和標準,適用性較差。語料庫工具軟件(賦碼工具、標注工具、文本分析工具等)開發滯后與語料庫的迅猛發展不相協調??诠P語語料庫發展不均衡,書面語語料庫和口語語料庫發展不均衡,相對于豐富的書面語語料庫,口語語料庫的發展落后很多。大多數的語料庫資源難以共享,重復建設造成了各種資源的巨大浪費。
(五)對語料庫語言學理論的期待
語料庫研究以量化描述見長,但若僅僅滿足于量化和描述,就只能成為其它學科研究的輔助工具,很難有長遠的發展,也不能形成一門獨立的學科。另外,雖然不少人主張語料庫研究應結合現有的語言學理論來闡釋量化數據,但結合語料庫數據和現有語言學理論的成功案例也不多見。
目前,比較遺憾的仍然是語料庫語言學研究主要還是應用性研究,尚未形成成熟的理論和理論體系,語料庫對語言學理論幾乎沒有實質性的貢獻,語料庫語言學理論很值得期待。
五、結束語
經過幾十年的發展,語料庫語言學的研究豐滿了許多,在相關領域也已取得了廣泛的應用,對語言的描述和對語言理論的發展也有了很大的貢獻。但我們也應該看到,語料庫語言學研究也出現了一個平臺期,在語料標注、研究層面、交叉研究、語料庫資源共享等方面逐漸顯露了一些不足,更為關鍵的是語料庫語言學要有自己的理論建樹,人們對此也充滿了期待。
[責任編輯:韓璐]