金明珠 劉洋
摘 要:網(wǎng)絡(luò)語(yǔ)料庫(kù)(Web As Corpus)指的是把互聯(lián)網(wǎng)視作一個(gè)文本語(yǔ)料庫(kù),應(yīng)用Google等搜索引擎或WebCorp等專用檢索工具為檢索手段創(chuàng)建語(yǔ)料庫(kù)。互聯(lián)網(wǎng)以其開放性及不斷的增長(zhǎng)的巨大文本數(shù)量日益成為語(yǔ)料庫(kù)重要的數(shù)據(jù)來(lái)源,可以彌補(bǔ)封閉的語(yǔ)料庫(kù)的呈現(xiàn)的語(yǔ)言動(dòng)態(tài)發(fā)展不全面的不足,對(duì)語(yǔ)言發(fā)展變化研究的重要性越來(lái)越高。據(jù)此,本書以語(yǔ)料庫(kù)與網(wǎng)絡(luò)關(guān)系為背景,介紹了如何運(yùn)用語(yǔ)料庫(kù)語(yǔ)言學(xué)和計(jì)算機(jī)語(yǔ)言學(xué)的理論,利用互聯(lián)網(wǎng)創(chuàng)建語(yǔ)料庫(kù)的系統(tǒng)實(shí)踐。該書的作者M(jìn)aristellaGatto是意大利Bari大學(xué)現(xiàn)代語(yǔ)言系的高級(jí)研究員和講師。
關(guān)鍵詞:網(wǎng)絡(luò)語(yǔ)料庫(kù);引擎;WebCorp
一、內(nèi)容簡(jiǎn)介
本書共分為7章,每章后均配有動(dòng)手實(shí)踐,和延伸閱讀環(huán)節(jié),既可用作教學(xué)和培訓(xùn)的教材,也可用作自學(xué)入門的實(shí)用讀物。
第一章結(jié)合BNC(British National Corpus)語(yǔ)料庫(kù)回顧了語(yǔ)料庫(kù)的核心概念,包括真實(shí)性,代表性,均衡性,取樣,大小,構(gòu)成及語(yǔ)料庫(kù)分析工具如詞表,關(guān)鍵詞列表,索引等,為進(jìn)一步介紹語(yǔ)料庫(kù)應(yīng)用掃清障礙。
第二章辯證地看待了互聯(lián)網(wǎng)作為語(yǔ)料庫(kù)的合適性問題?;ヂ?lián)網(wǎng)檢索出來(lái)的網(wǎng)頁(yè)其組織結(jié)構(gòu)與傳統(tǒng)語(yǔ)料庫(kù)截然不同,而且無(wú)法某些網(wǎng)絡(luò)文本的真實(shí)寫作時(shí)間,文本作者的文化背景,及文本之間的可比性。此外,互聯(lián)網(wǎng)網(wǎng)頁(yè)上的許多超文本格式交叉引用大量超鏈接,存在很多信息噪音。但是互聯(lián)網(wǎng)提供的文本數(shù)量巨大,里面包含更多的單詞及短語(yǔ)共現(xiàn)樣本,因此互聯(lián)網(wǎng)已被廣泛地視為具有極大潛能地語(yǔ)言數(shù)據(jù)資源,對(duì)它包含的文本的研究可以看作是其所代表的語(yǔ)言及文類的研究,所得出的結(jié)論對(duì)語(yǔ)言運(yùn)用及語(yǔ)言理論建設(shè)具有劃時(shí)代的意義。
第三章中作者介紹如何使用互聯(lián)網(wǎng)通用搜索引擎的爬行功能,索引功能,搜索功能,排序功能等基本功能,搜索特定詞和短語(yǔ)的用法。本章還詳細(xì)地展示了谷歌搜索引擎的高級(jí)搜索功能如布爾數(shù)學(xué)體系,還展示了如何不斷精確關(guān)鍵詞和使用通配符來(lái)加強(qiáng)檢索式的限制性,達(dá)到語(yǔ)義聚類或限制語(yǔ)法結(jié)構(gòu)的目的。
第四章介紹了互聯(lián)網(wǎng)進(jìn)行索引的個(gè)性化語(yǔ)言學(xué)檢索引擎WebCorp Live和WebCorp project等第四代語(yǔ)料庫(kù)分析工具(McEnery&Hardie,2012),其原理就是研究者使用谷歌搜索引擎下載含有目標(biāo)關(guān)鍵詞的網(wǎng)頁(yè)文件,隨后細(xì)化檢索標(biāo)準(zhǔn),深入進(jìn)行二次檢索和分析,網(wǎng)頁(yè)會(huì)呈現(xiàn)更豐富的上下文語(yǔ)境和更精確的使用頻率,檢索結(jié)果呈現(xiàn)KWIC(關(guān)鍵詞居中)模式,還可提供詞頻表,方便統(tǒng)計(jì)搭配詞和執(zhí)行其他分析與運(yùn)算,被作者成為“網(wǎng)絡(luò)小宇宙”。
第五章展示了如何通過使用BootCat工具快速創(chuàng)建專門化的線下語(yǔ)料庫(kù)。BootCat(Baroni,&Bernarnidi,2004)是一款免費(fèi)的自動(dòng)上網(wǎng)收集語(yǔ)料并創(chuàng)建臨時(shí)語(yǔ)料庫(kù)的工具,其原理是依靠用戶提供的關(guān)鍵詞,在網(wǎng)上收集和關(guān)鍵詞內(nèi)容相關(guān)的網(wǎng)頁(yè)然后構(gòu)建一個(gè)臨時(shí)語(yǔ)料庫(kù)(ad hoc corpus)?;镜淖龇ㄊ窃诰W(wǎng)絡(luò)上搜索的關(guān)鍵詞(稱為Seeds),BootCat會(huì)根據(jù)Seeds自動(dòng)生成Tuples(關(guān)鍵詞的組合),然后依次輸入其他的搜索條件,軟件會(huì)自動(dòng)創(chuàng)建語(yǔ)料庫(kù)。
第六章的題目是大型網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的語(yǔ)言和文化掃描,作者介紹了一些大庫(kù)容的多語(yǔ)言普通用途網(wǎng)絡(luò)語(yǔ)料庫(kù),比如TenTen collection的庫(kù)容超過100億詞。隨著自然語(yǔ)言處理技術(shù)和計(jì)算機(jī)處理能力提高,Sketch Engine(Kilgariff et al.,2004)工具應(yīng)運(yùn)而生的,可以用其對(duì)這些大庫(kù)容網(wǎng)絡(luò)語(yǔ)料庫(kù)進(jìn)行檢索。它基于“搭配與詞義對(duì)應(yīng)”的理論,是一種高效率的語(yǔ)言信息提取工具,它本身是一個(gè)數(shù)據(jù)庫(kù),在詞語(yǔ)搭配與語(yǔ)義之間架起一道橋梁,將大型語(yǔ)料庫(kù)中的語(yǔ)言信息進(jìn)行有效的匯總。
第七章討論了web2.0對(duì)語(yǔ)料庫(kù)語(yǔ)言學(xué)的影響,指出了第二代網(wǎng)絡(luò)技術(shù)使得信息實(shí)現(xiàn)了雙向傳遞,網(wǎng)絡(luò)成為用戶進(jìn)行參與的平臺(tái),互聯(lián)網(wǎng)使用者可以根據(jù)需要對(duì)各種資源進(jìn)行加工,編輯和整理,終端用戶可以實(shí)時(shí)更新網(wǎng)絡(luò)內(nèi)容
二、簡(jiǎn)評(píng)
本書是第一本系統(tǒng)性描繪利用互聯(lián)網(wǎng)進(jìn)行語(yǔ)料庫(kù)建設(shè)的書籍,銳意求新,傳授了利用互聯(lián)網(wǎng)創(chuàng)建語(yǔ)料庫(kù)并進(jìn)行應(yīng)用的技術(shù)和方法,對(duì)于語(yǔ)料庫(kù)語(yǔ)言學(xué)和計(jì)算機(jī)語(yǔ)言學(xué)領(lǐng)域作出了巨大貢獻(xiàn)。在語(yǔ)言學(xué)研究領(lǐng)域利用網(wǎng)絡(luò)來(lái)建語(yǔ)料庫(kù)可以看作對(duì)應(yīng)用傳統(tǒng)語(yǔ)料庫(kù)得到的結(jié)果的有益補(bǔ)充。
(1)本書是全新的認(rèn)識(shí)論。
傳統(tǒng)的觀點(diǎn)認(rèn)為互聯(lián)網(wǎng)因其非為指定語(yǔ)言學(xué)特定研究領(lǐng)域而建,缺乏標(biāo)準(zhǔn)語(yǔ)言學(xué)語(yǔ)料庫(kù)意義上的系統(tǒng)性和典型性特征,本書從互聯(lián)網(wǎng)和語(yǔ)料庫(kù)交叉的角度展開對(duì)數(shù)據(jù)的認(rèn)識(shí),強(qiáng)調(diào)作為語(yǔ)料庫(kù)的互聯(lián)網(wǎng)因其涵蓋的語(yǔ)言數(shù)量眾多的文本,在文本類型與題材類型方面有動(dòng)態(tài)化的特點(diǎn),并且能記載動(dòng)態(tài)的語(yǔ)言變化,因而能成為重要的語(yǔ)言學(xué)研究中的語(yǔ)料庫(kù)資源。這種觀點(diǎn)拓寬了語(yǔ)料庫(kù)研究的范圍,具有前瞻性的指導(dǎo)意義,推動(dòng)了計(jì)算機(jī)語(yǔ)言學(xué)的發(fā)展,對(duì)語(yǔ)料庫(kù)語(yǔ)言學(xué)從業(yè)人員,培訓(xùn)者和研究人員都有啟發(fā)意義。
(2)本書為將互聯(lián)網(wǎng)作為語(yǔ)料庫(kù)提供方法論指導(dǎo)。
本書3-6章圍繞如何利用互聯(lián)網(wǎng)創(chuàng)建語(yǔ)料庫(kù)的研究問題展開,實(shí)踐的技術(shù)方法,步驟,工具均服務(wù)于研究的目的。所用案例均來(lái)自真實(shí)的研究實(shí)踐,同時(shí)具有開放性,有助于舉一反三。書中使用的快捷和應(yīng)用廣泛的WAC(Web as Corpus)各種建庫(kù)方法對(duì)操作步驟的介紹詳細(xì),清晰,操作性和可行性強(qiáng),為眾多想利用互聯(lián)網(wǎng)作為語(yǔ)料庫(kù)的研究者提供了方法論的指導(dǎo),啟發(fā)他們自動(dòng)化和半自動(dòng)化地建立單語(yǔ)語(yǔ)料庫(kù)和雙語(yǔ)語(yǔ)料庫(kù)。
(3)本書為其他學(xué)科比如翻譯提供了很好的啟示。第三章的結(jié)尾就是根據(jù)互聯(lián)網(wǎng)的數(shù)據(jù)進(jìn)行翻譯實(shí)踐,這能從另一種的方式證明利用網(wǎng)絡(luò)作為語(yǔ)料庫(kù)的實(shí)際性。
但本書探討利用互聯(lián)網(wǎng)創(chuàng)建語(yǔ)料庫(kù)時(shí),語(yǔ)言僅限于英語(yǔ)和意大利語(yǔ),但是語(yǔ)言本質(zhì)的區(qū)別必然導(dǎo)致對(duì)譯的不同,而這些不同會(huì)導(dǎo)致搜索結(jié)果的不同,無(wú)法判斷本書的研究成果適用于所有的語(yǔ)言類型。此外,網(wǎng)絡(luò)語(yǔ)言學(xué)被稱作語(yǔ)料庫(kù)語(yǔ)言學(xué)的第四代,作為一個(gè)新興的領(lǐng)域,它還有很多問題亟待解決,比如語(yǔ)料庫(kù)構(gòu)建方面的語(yǔ)料庫(kù)設(shè)計(jì)(語(yǔ)料庫(kù)構(gòu)成,語(yǔ)料庫(kù)評(píng)估,抽樣策略和爬行算法式,處理復(fù)制材料)以及專業(yè)性更強(qiáng)的方面(文本清理和標(biāo)注,以及大規(guī)模的平行化以期達(dá)到互聯(lián)網(wǎng)規(guī)模的語(yǔ)料庫(kù)建構(gòu)),以及系統(tǒng)的評(píng)估作為互聯(lián)網(wǎng)語(yǔ)料庫(kù)與傳統(tǒng)的語(yǔ)料庫(kù)的區(qū)別等,這些方面都亟待解決,任重而道遠(yuǎn)。
參考文獻(xiàn):
[1]Baroni,M.&S. Bernarnidi .2004 . BootCat: Bootstrapping corpora and terms from the web[R]. Paper presented at the 2004 LREC, Lisbon, Portugal,2004.
[2]Davies, M. 2014. Making Google Books n-grams useful for a wide range of research on language change[J]. International Journal of Corpus Linguistics 19 (3):401-416.
[3]Kilgarriff A. et al. 2004.The Sketch Engine[R], Paper presented at the 2004 Euralex, Lorient, France, 2004.
[4]McEnery, T. &Hardie A. 2012.A Corpus Linguistics:Method, Theory and Practice [M]. Cambridge: Cambridge University Press.
基金項(xiàng)目:本文系“湖北工業(yè)大學(xué)2019年度大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目-無(wú)障礙電影制作與開發(fā)(S201910500079)”研究成果;“湖北工業(yè)大學(xué)2018年度大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目-荊楚漆器外宣翻譯及傳播路徑研究(201810500049)”研究成果。
作者簡(jiǎn)介:
金明珠, 1997年,女,安徽人,湖北工業(yè)大學(xué)外國(guó)語(yǔ)學(xué)院2015級(jí)英語(yǔ)4班學(xué)生
劉洋,1979,女,內(nèi)蒙古自治區(qū)人,湖北工業(yè)大學(xué)外國(guó)語(yǔ)學(xué)院教師