呂劍濤,姚銀燕
(廣東外語(yǔ)外貿(mào)大學(xué)英語(yǔ)教育學(xué)院,廣州 510006)
語(yǔ)料庫(kù)包含大量詞匯在自然語(yǔ)境中的真實(shí)使用記錄,其應(yīng)用價(jià)值從上世紀(jì)初就受到了學(xué)界的關(guān)注[2]。就詞匯教學(xué)而論,語(yǔ)料庫(kù)蘊(yùn)含兩方面的重要信息:需要學(xué)習(xí)的詞匯和詞匯在各種語(yǔ)境下的使用方法。語(yǔ)料庫(kù)中的文本不是人為創(chuàng)造,乃是日常生活的各種真實(shí)交際需求產(chǎn)出的自然話語(yǔ),與傳統(tǒng)詞典刻板的注釋相比,更容易啟發(fā)學(xué)習(xí)者掌握詞義和配搭[3],使學(xué)習(xí)者從被動(dòng)記憶詞匯信息轉(zhuǎn)化為主動(dòng)揣摩詞匯的含義,以及在真實(shí)語(yǔ)境下的各種使用方式[4-5]。
現(xiàn)有文獻(xiàn)大多通過語(yǔ)料庫(kù)軟件搜索和詞頻統(tǒng)計(jì)功能得到服務(wù)于英語(yǔ)詞匯教學(xué)的信息。依靠這種人工搜索統(tǒng)計(jì)的方式耗時(shí)耗力,且人工方式往往未能窮盡語(yǔ)料庫(kù)中的所有學(xué)習(xí)者信息,一定程度局限了語(yǔ)料庫(kù)在英語(yǔ)詞匯教學(xué)中的效力。使用自然語(yǔ)言處理技術(shù)中的文本對(duì)比技術(shù)可以解決以上兩點(diǎn)不足。由計(jì)算機(jī)自動(dòng)找出學(xué)習(xí)者語(yǔ)料庫(kù)和本族語(yǔ)者語(yǔ)料庫(kù)中類似的文本,就可以直接當(dāng)作詞匯教學(xué)學(xué)習(xí)資料,讓學(xué)習(xí)者不但可以結(jié)合自然話語(yǔ)的上下文學(xué)習(xí)生詞,且可以比較二語(yǔ)學(xué)習(xí)者文本和本族語(yǔ)者文本間的語(yǔ)篇、句法、詞匯差異,教師也可以幫助學(xué)習(xí)者分析兩種文本間的語(yǔ)言差異,并鼓勵(lì)學(xué)習(xí)者按照本族語(yǔ)者文本的語(yǔ)言使用策略習(xí)慣對(duì)二語(yǔ)學(xué)習(xí)者文本進(jìn)行改編改寫,以此引導(dǎo)學(xué)習(xí)者嘗試就所學(xué)詞匯作即時(shí)產(chǎn)出。
此外,現(xiàn)有文獻(xiàn)大多通過詞頻和共現(xiàn)規(guī)律抽取出需掌握的詞匯[6-7],或直接從語(yǔ)料庫(kù)中搜索出已有詞匯出現(xiàn)過的文本[8-9],甚少研究能夠以各種不同英語(yǔ)交際能力為出發(fā)點(diǎn)抽取出相關(guān)的詞匯。中國(guó)英語(yǔ)能力等級(jí)量表(China’s Stan?dards of English language ability,CSE)全面地描述了各種語(yǔ)言交際能力。以CSE為出發(fā)點(diǎn)搜索語(yǔ)料庫(kù)中每種能力對(duì)應(yīng)的詞匯,能避免以統(tǒng)計(jì)為導(dǎo)向?qū)W習(xí)詞匯帶來的盲目性,使所學(xué)詞匯與某一交際能力對(duì)應(yīng),加強(qiáng)學(xué)習(xí)詞匯的動(dòng)力,使詞匯學(xué)習(xí)真正滿足各種日常生活工作的交際需求。
本文提出使用文本對(duì)比技術(shù)和中國(guó)英語(yǔ)能力等級(jí)量表發(fā)掘語(yǔ)料庫(kù)中的詞匯信息,減少教師使用語(yǔ)料庫(kù)時(shí)人工搜索、文本分析的工作量,同時(shí)使基于語(yǔ)料庫(kù)的詞匯教學(xué)更系統(tǒng)化,實(shí)現(xiàn)詞匯學(xué)習(xí)以提升語(yǔ)言交際能力為導(dǎo)向。
語(yǔ)料庫(kù)(corpus)是將一定量的真實(shí)話語(yǔ)(書面或口語(yǔ))收集起來的語(yǔ)言文本數(shù)據(jù)集[10]。語(yǔ)料庫(kù)的應(yīng)用價(jià)值在于其可借鑒性,為各種學(xué)習(xí)自然語(yǔ)言為目的的活動(dòng)提供客觀真實(shí)的語(yǔ)言使用情況統(tǒng)計(jì)數(shù)據(jù)。
在英語(yǔ)詞匯的教學(xué)中,教師一般靠經(jīng)驗(yàn)教授詞匯的相關(guān)知識(shí),教師對(duì)詞匯的掌握熟練運(yùn)用程度往往不如母語(yǔ)說話者。同時(shí),無論是中國(guó)教師或?qū)W生,都或多或少受到母語(yǔ)負(fù)遷移的影響,將母語(yǔ)(中文)的詞匯使用習(xí)慣帶到英語(yǔ)詞匯教學(xué)中,很難將注意力放到學(xué)習(xí)非母語(yǔ)習(xí)慣的詞匯和用法上。這造成了中國(guó)英語(yǔ)學(xué)習(xí)者經(jīng)常需要問母語(yǔ)說話者:“這個(gè)意思你們一般會(huì)怎么表達(dá)?”或者母語(yǔ)對(duì)話人有時(shí)聽懂了英語(yǔ)學(xué)習(xí)者想表達(dá)的內(nèi)容后,會(huì)用更地道的語(yǔ)言說出同一內(nèi)容,并會(huì)解釋到,他們一般不會(huì)用某個(gè)詞匯,或該詞匯一般不會(huì)在這種情況使用等。
可見,進(jìn)行詞匯學(xué)習(xí)一個(gè)較理想的條件是,英語(yǔ)學(xué)習(xí)者即使在沒有母語(yǔ)說話人詢問的情況下仍能了解到詞匯兩方面的重要信息:第一,在某一交際需求下應(yīng)該使用哪些特定詞匯?第二,這些詞匯具體是怎么使用的,如何與其它詞匯配搭使用?在何種語(yǔ)法結(jié)構(gòu)中使用?雖然現(xiàn)有英語(yǔ)教材一般已給出以上兩方面詞匯信息,但大多不夠系統(tǒng),且一般依靠教材編寫人的經(jīng)驗(yàn)給出,非語(yǔ)料庫(kù)驅(qū)動(dòng)。語(yǔ)料庫(kù)中包含豐富的以上兩種詞匯信息,對(duì)詞匯教學(xué)有絕對(duì)的參考指導(dǎo)作用。
雖然語(yǔ)料庫(kù)包含豐富的、有教學(xué)價(jià)值的詞匯信息,但語(yǔ)料庫(kù)本身只是大量真實(shí)語(yǔ)料的聚積,一般并未預(yù)先加工處理提取出任何詞匯信息,需要借助語(yǔ)料庫(kù)分析軟件進(jìn)行人工分析和歸納,某種程度上制約了語(yǔ)料庫(kù)大范圍應(yīng)用到英語(yǔ)詞匯教學(xué)中。如語(yǔ)料庫(kù)的詞匯信息挖掘能實(shí)現(xiàn)智能化、自動(dòng)化,就可以極大降低提取詞匯信息所需的時(shí)間和勞動(dòng)力成本。
文本對(duì)比就是比較兩個(gè)文本的相似度,廣泛應(yīng)用于文本信息檢索領(lǐng)域[11]。文本對(duì)比技術(shù)就“查重”這一目的大致可分為語(yǔ)句重復(fù)和內(nèi)容重復(fù)兩類。語(yǔ)句重復(fù)就是比較兩個(gè)文本間的句子中重復(fù)使用的單詞和按同一順序重復(fù)出現(xiàn)的單詞的數(shù)量,數(shù)量越高表示文本相似度越高。然而,語(yǔ)句重復(fù)對(duì)比技術(shù)太過注重語(yǔ)言的形式,忽略了語(yǔ)言中裝載的內(nèi)容:兩個(gè)文本可以在用詞完全不相同的情況下表達(dá)類似的內(nèi)容,文本間從內(nèi)容上看相似度依然極高。
內(nèi)容重復(fù)檢索更適用于語(yǔ)料庫(kù)詞匯信息篩選。如上所說,中國(guó)英語(yǔ)學(xué)習(xí)者受母語(yǔ)負(fù)遷移的影響,英語(yǔ)詞匯的使用習(xí)慣與英語(yǔ)作為母語(yǔ)的說話人有較大區(qū)別。尤其是已習(xí)得一定詞匯量的學(xué)習(xí)者,困難之處并不是表達(dá)出某一內(nèi)容,而是用較地道的詞匯表達(dá)出同一內(nèi)容。因此,如果對(duì)比英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)和母語(yǔ)說話人語(yǔ)料庫(kù)間同一話題的語(yǔ)料,就可發(fā)現(xiàn)兩者想表達(dá)的內(nèi)容是類似的,只是用詞有所區(qū)別。使用內(nèi)容重復(fù)檢索技術(shù)即可自動(dòng)檢測(cè)出分別來自兩個(gè)語(yǔ)料庫(kù)的相似度較高的文本,并將其作為教學(xué)資料。兩個(gè)文本間相似的詞匯也可以自動(dòng)標(biāo)注出來,幫助教師和學(xué)習(xí)者將注意力放到中英詞匯使用習(xí)慣差異上。
較接近內(nèi)容重復(fù)檢索性質(zhì)的文本對(duì)比技術(shù)是語(yǔ)義相似度計(jì)算。其主要思想是通過語(yǔ)義建立起詞匯間的遠(yuǎn)近親疏關(guān)系,作為計(jì)算文本相似度的依據(jù)。常用語(yǔ)義詞典有WordNet、FrameNet和MindNet。WordNet的語(yǔ)義關(guān)系比較適合用來辨認(rèn)學(xué)習(xí)者和母語(yǔ)說話人表達(dá)同一語(yǔ)義時(shí)詞匯使用習(xí)慣差異,而FrameNet和MindNet的優(yōu)勢(shì)在于能通過詞語(yǔ)使用搭配識(shí)別出內(nèi)容相似的文本,從而為學(xué)習(xí)者提供表達(dá)類似語(yǔ)義更為地道的詞語(yǔ)組合。下面簡(jiǎn)單介紹一下這三個(gè)語(yǔ)義詞典的語(yǔ)義關(guān)系建構(gòu)方式。
WordNet主要將同一詞類(parts of speech)的詞匯建立語(yǔ)義鏈接[12]。如名詞標(biāo)注頻率最高的是層級(jí)關(guān)系(super-subordinate relation)。層級(jí)自上而下為比上一層級(jí)更進(jìn)一步細(xì)化的名詞,如bed為furniture的下一層級(jí),bunkbed為bed的下一層級(jí)。反過來,bunkbed和bed是furniture這一名詞大類的組成部分。同一層級(jí)內(nèi)的詞匯(syn?sets)之間是同義詞關(guān)系(synonymy),如car和au?tomobile。對(duì)動(dòng)詞也同樣建立層級(jí)結(jié)構(gòu)的語(yǔ)義關(guān)系,這些層級(jí)由動(dòng)作不同的方面或組成部分決定,如talk的一個(gè)特點(diǎn)是聲量,所以其下一層級(jí)的單詞為whisper,同時(shí)talk作為communicate語(yǔ)義的一部分,上一層級(jí)的單詞為communicate。
WordNet建立詞匯語(yǔ)義關(guān)系的方法對(duì)搜索比對(duì)語(yǔ)料庫(kù)相似內(nèi)容文本,以及標(biāo)注出相似內(nèi)容文本間語(yǔ)義關(guān)系接近詞匯,作為英語(yǔ)詞匯教學(xué)資料都有極高的實(shí)用價(jià)值,因?yàn)橛⒄Z(yǔ)學(xué)習(xí)者往往不會(huì)交替使用同一層級(jí)的詞匯,或者不會(huì)使用下一層級(jí)的詞匯。
FrameNet通過框架語(yǔ)義學(xué)理論進(jìn)行語(yǔ)義關(guān)系建構(gòu)[13]。一個(gè)語(yǔ)義框架描述的是某種事件、關(guān)系、實(shí)體和參與者。比如,烹飪這一概念常包含某人、食物、餐具和廚具等要素。在FrameNet中,烹飪這個(gè)概念就作為一個(gè)框架,其要素就是該框架的元素(frame elements)。能激活框架的單詞稱作詞匯單元(lexical units)。框架與框架之間再通過繼承、使用、部分、視覺等層級(jí)關(guān)系連接。借助建立框架,詞匯被框架以及框架間的關(guān)系連接。
英語(yǔ)學(xué)習(xí)者和母語(yǔ)說話人使用詞匯的差異也體現(xiàn)在框架的差異上,有些是同一框架內(nèi)要素使用的差異,有些則是框架間層級(jí)關(guān)系的差異,如英語(yǔ)學(xué)習(xí)者表達(dá)類似內(nèi)容可能使用了母框架要素中的單詞,而母語(yǔ)說話人則使用了子框架要素中的單詞,或者相反。這些信息對(duì)詞匯學(xué)習(xí)十分有意義,是通過簡(jiǎn)單的單詞共現(xiàn)統(tǒng)計(jì)而得到的詞匯搭配信息所不能比擬的。
MindNet是通過邏輯結(jié)構(gòu)(logical form)分析得到兩個(gè)單詞間的語(yǔ)義關(guān)系[14]。邏輯結(jié)構(gòu)分析由語(yǔ)法分析器(parser)執(zhí)行,執(zhí)行對(duì)象是詞典、百科全書和自由文本中用來注釋詞匯的句子。MindNet的邏輯結(jié)構(gòu)分析是自動(dòng)進(jìn)行的,得到這些邏輯結(jié)構(gòu)后,將其匯聚成一個(gè)更大的邏輯結(jié)構(gòu),并根據(jù)各個(gè)邏輯結(jié)構(gòu)在語(yǔ)料庫(kù)中出現(xiàn)的頻率給其賦予概率化的權(quán)重。
由于MindNet是基于詞典中的語(yǔ)句建構(gòu)語(yǔ)義關(guān)系,其應(yīng)用到自然話語(yǔ)內(nèi)容對(duì)比判別的適用性受到了一定的局限。
中國(guó)英語(yǔ)學(xué)習(xí)者往往喜歡脫離語(yǔ)境,單純透過記憶中文解釋去學(xué)習(xí)詞匯。語(yǔ)料庫(kù)為學(xué)習(xí)者提供了豐富的詞匯固定搭配、常用語(yǔ)法方面的信息。與普通詞典相比,這些信息不是直接用文字呈現(xiàn)給讀者,而是隱含在大量的真實(shí)話語(yǔ)中,從而為學(xué)習(xí)者自主總結(jié)詞匯使用規(guī)律提供條件,使學(xué)習(xí)者從過去將詞匯當(dāng)作知識(shí)去記憶變成透過觀察掌握詞匯的使用方法,這種以使用為目的的詞匯學(xué)習(xí)行為更符合語(yǔ)言學(xué)習(xí)的規(guī)律。許多研究已表明,使用語(yǔ)料庫(kù)進(jìn)行詞匯教學(xué)的效果比傳統(tǒng)詞匯知識(shí)灌輸更理想,且提高了學(xué)習(xí)者的自主學(xué)習(xí)能力[5,15]。
然而,要進(jìn)一步提高學(xué)習(xí)詞匯的動(dòng)力,必須將詞匯學(xué)習(xí)和語(yǔ)言交際能力提高聯(lián)系起來。也就是說,詞匯學(xué)習(xí)應(yīng)該是以提高交際能力為目的。實(shí)施某種交際能力到底有可能要使用哪些詞匯?在開展詞匯教學(xué)前必須向?qū)W習(xí)者交待清楚,才能明確目標(biāo),有的放矢。這里涉及兩個(gè)問題:第一,中國(guó)英語(yǔ)學(xué)習(xí)者需掌握的語(yǔ)言交際能力有哪些?第二,如何就某一語(yǔ)言交際能力在語(yǔ)料庫(kù)中搜索出與該能力對(duì)應(yīng)的詞匯信息?第一個(gè)問題可以參照中國(guó)英語(yǔ)能力等級(jí)量表[1]解決。第二個(gè)問題的解決可以通過自然語(yǔ)言處理技術(shù)中的文本關(guān)鍵詞提取技術(shù)。先提取出語(yǔ)料庫(kù)中文本的關(guān)鍵詞,然后與能力量表的描述語(yǔ)進(jìn)行匹配[16],就可找到與某一能力描述語(yǔ)對(duì)應(yīng)的文本,作為提高該交際能力的詞匯學(xué)習(xí)資料。
融入兩個(gè)部件后的英語(yǔ)詞匯教學(xué)資料生成步驟如圖1所示。首先,先分別提取出學(xué)習(xí)者語(yǔ)料庫(kù)和母語(yǔ)說話者語(yǔ)料庫(kù)中文本的關(guān)鍵詞,作為選取文本的依據(jù);然后,將兩個(gè)語(yǔ)料庫(kù)中文本關(guān)鍵詞與英語(yǔ)量表描述語(yǔ)進(jìn)行匹配,選中匹配成功的文本組成與特定描述語(yǔ)對(duì)應(yīng)的對(duì)比語(yǔ)料庫(kù);接著,使用文本對(duì)比技術(shù)將對(duì)比語(yǔ)料庫(kù)中類似的文本抽出,作為詞匯教學(xué)資料,將兩個(gè)類似文本中語(yǔ)義相近的詞匯自動(dòng)標(biāo)注,母語(yǔ)說話人產(chǎn)出的文本中被標(biāo)注出來的單詞就是學(xué)習(xí)者改變?cè)瓉碓~匯使用習(xí)慣需要學(xué)習(xí)使用的詞匯。

圖1 英語(yǔ)詞匯教學(xué)資料生成步驟
本文在探討語(yǔ)料庫(kù)在英語(yǔ)詞匯教學(xué)中優(yōu)勢(shì)的基礎(chǔ)上,進(jìn)一步提出了拓寬語(yǔ)料庫(kù)應(yīng)用前景要融入的兩個(gè)語(yǔ)言學(xué)和人工智能部件,即中國(guó)英語(yǔ)能力等級(jí)量表和文本對(duì)比技術(shù)。這兩個(gè)部件可以免去許多手動(dòng)分析語(yǔ)料庫(kù)工作量的同時(shí),進(jìn)一步使詞匯教學(xué)向交際能力為導(dǎo)向的方向發(fā)展。