語(yǔ)料庫(kù)自動(dòng)提取詞匯信息技術(shù)研究

2023-01-11 15:24:48呂劍濤姚銀燕

現(xiàn)代計(jì)算機(jī) 2022年20期

呂劍濤，姚銀燕

（廣東外語(yǔ)外貿(mào)大學(xué)英語(yǔ)教育學(xué)院，廣州 510006）

0 引言

語(yǔ)料庫(kù)包含大量詞匯在自然語(yǔ)境中的真實(shí)使用記錄，其應(yīng)用價(jià)值從上世紀(jì)初就受到了學(xué)界的關(guān)注［2］。就詞匯教學(xué)而論，語(yǔ)料庫(kù)蘊(yùn)含兩方面的重要信息：需要學(xué)習(xí)的詞匯和詞匯在各種語(yǔ)境下的使用方法。語(yǔ)料庫(kù)中的文本不是人為創(chuàng)造，乃是日常生活的各種真實(shí)交際需求產(chǎn)出的自然話語(yǔ)，與傳統(tǒng)詞典刻板的注釋相比，更容易啟發(fā)學(xué)習(xí)者掌握詞義和配搭［3］，使學(xué)習(xí)者從被動(dòng)記憶詞匯信息轉(zhuǎn)化為主動(dòng)揣摩詞匯的含義，以及在真實(shí)語(yǔ)境下的各種使用方式［4-5］。

現(xiàn)有文獻(xiàn)大多通過語(yǔ)料庫(kù)軟件搜索和詞頻統(tǒng)計(jì)功能得到服務(wù)于英語(yǔ)詞匯教學(xué)的信息。依靠這種人工搜索統(tǒng)計(jì)的方式耗時(shí)耗力，且人工方式往往未能窮盡語(yǔ)料庫(kù)中的所有學(xué)習(xí)者信息，一定程度局限了語(yǔ)料庫(kù)在英語(yǔ)詞匯教學(xué)中的效力。使用自然語(yǔ)言處理技術(shù)中的文本對(duì)比技術(shù)可以解決以上兩點(diǎn)不足。由計(jì)算機(jī)自動(dòng)找出學(xué)習(xí)者語(yǔ)料庫(kù)和本族語(yǔ)者語(yǔ)料庫(kù)中類似的文本，就可以直接當(dāng)作詞匯教學(xué)學(xué)習(xí)資料，讓學(xué)習(xí)者不但可以結(jié)合自然話語(yǔ)的上下文學(xué)習(xí)生詞，且可以比較二語(yǔ)學(xué)習(xí)者文本和本族語(yǔ)者文本間的語(yǔ)篇、句法、詞匯差異，教師也可以幫助學(xué)習(xí)者分析兩種文本間的語(yǔ)言差異，并鼓勵(lì)學(xué)習(xí)者按照本族語(yǔ)者文本的語(yǔ)言使用策略習(xí)慣對(duì)二語(yǔ)學(xué)習(xí)者文本進(jìn)行改編改寫，以此引導(dǎo)學(xué)習(xí)者嘗試就所學(xué)詞匯作即時(shí)產(chǎn)出。

此外，現(xiàn)有文獻(xiàn)大多通過詞頻和共現(xiàn)規(guī)律抽取出需掌握的詞匯［6-7］，或直接從語(yǔ)料庫(kù)中搜索出已有詞匯出現(xiàn)過的文本［8-9］，甚少研究能夠以各種不同英語(yǔ)交際能力為出發(fā)點(diǎn)抽取出相關(guān)的詞匯。中國(guó)英語(yǔ)能力等級(jí)量表（China’s Stan?dards of English language ability，CSE）全面地描述了各種語(yǔ)言交際能力。以CSE為出發(fā)點(diǎn)搜索語(yǔ)料庫(kù)中每種能力對(duì)應(yīng)的詞匯，能避免以統(tǒng)計(jì)為導(dǎo)向?qū)W習(xí)詞匯帶來的盲目性，使所學(xué)詞匯與某一交際能力對(duì)應(yīng)，加強(qiáng)學(xué)習(xí)詞匯的動(dòng)力，使詞匯學(xué)習(xí)真正滿足各種日常生活工作的交際需求。

本文提出使用文本對(duì)比技術(shù)和中國(guó)英語(yǔ)能力等級(jí)量表發(fā)掘語(yǔ)料庫(kù)中的詞匯信息，減少教師使用語(yǔ)料庫(kù)時(shí)人工搜索、文本分析的工作量，同時(shí)使基于語(yǔ)料庫(kù)的詞匯教學(xué)更系統(tǒng)化，實(shí)現(xiàn)詞匯學(xué)習(xí)以提升語(yǔ)言交際能力為導(dǎo)向。

1 語(yǔ)料庫(kù)對(duì)英語(yǔ)詞匯教學(xué)的潛在價(jià)值

語(yǔ)料庫(kù)（corpus）是將一定量的真實(shí)話語(yǔ)（書面或口語(yǔ)）收集起來的語(yǔ)言文本數(shù)據(jù)集［10］。語(yǔ)料庫(kù)的應(yīng)用價(jià)值在于其可借鑒性，為各種學(xué)習(xí)自然語(yǔ)言為目的的活動(dòng)提供客觀真實(shí)的語(yǔ)言使用情況統(tǒng)計(jì)數(shù)據(jù)。

在英語(yǔ)詞匯的教學(xué)中，教師一般靠經(jīng)驗(yàn)教授詞匯的相關(guān)知識(shí)，教師對(duì)詞匯的掌握熟練運(yùn)用程度往往不如母語(yǔ)說話者。同時(shí)，無論是中國(guó)教師或?qū)W生，都或多或少受到母語(yǔ)負(fù)遷移的影響，將母語(yǔ)（中文）的詞匯使用習(xí)慣帶到英語(yǔ)詞匯教學(xué)中，很難將注意力放到學(xué)習(xí)非母語(yǔ)習(xí)慣的詞匯和用法上。這造成了中國(guó)英語(yǔ)學(xué)習(xí)者經(jīng)常需要問母語(yǔ)說話者：“這個(gè)意思你們一般會(huì)怎么表達(dá)？”或者母語(yǔ)對(duì)話人有時(shí)聽懂了英語(yǔ)學(xué)習(xí)者想表達(dá)的內(nèi)容后，會(huì)用更地道的語(yǔ)言說出同一內(nèi)容，并會(huì)解釋到，他們一般不會(huì)用某個(gè)詞匯，或該詞匯一般不會(huì)在這種情況使用等。

可見，進(jìn)行詞匯學(xué)習(xí)一個(gè)較理想的條件是，英語(yǔ)學(xué)習(xí)者即使在沒有母語(yǔ)說話人詢問的情況下仍能了解到詞匯兩方面的重要信息：第一，在某一交際需求下應(yīng)該使用哪些特定詞匯？第二，這些詞匯具體是怎么使用的，如何與其它詞匯配搭使用？在何種語(yǔ)法結(jié)構(gòu)中使用？雖然現(xiàn)有英語(yǔ)教材一般已給出以上兩方面詞匯信息，但大多不夠系統(tǒng)，且一般依靠教材編寫人的經(jīng)驗(yàn)給出，非語(yǔ)料庫(kù)驅(qū)動(dòng)。語(yǔ)料庫(kù)中包含豐富的以上兩種詞匯信息，對(duì)詞匯教學(xué)有絕對(duì)的參考指導(dǎo)作用。

2 使用文本對(duì)比技術(shù)讓學(xué)習(xí)者向目標(biāo)詞匯遷移

雖然語(yǔ)料庫(kù)包含豐富的、有教學(xué)價(jià)值的詞匯信息，但語(yǔ)料庫(kù)本身只是大量真實(shí)語(yǔ)料的聚積，一般并未預(yù)先加工處理提取出任何詞匯信息，需要借助語(yǔ)料庫(kù)分析軟件進(jìn)行人工分析和歸納，某種程度上制約了語(yǔ)料庫(kù)大范圍應(yīng)用到英語(yǔ)詞匯教學(xué)中。如語(yǔ)料庫(kù)的詞匯信息挖掘能實(shí)現(xiàn)智能化、自動(dòng)化，就可以極大降低提取詞匯信息所需的時(shí)間和勞動(dòng)力成本。

文本對(duì)比就是比較兩個(gè)文本的相似度，廣泛應(yīng)用于文本信息檢索領(lǐng)域［11］。文本對(duì)比技術(shù)就“查重”這一目的大致可分為語(yǔ)句重復(fù)和內(nèi)容重復(fù)兩類。語(yǔ)句重復(fù)就是比較兩個(gè)文本間的句子中重復(fù)使用的單詞和按同一順序重復(fù)出現(xiàn)的單詞的數(shù)量，數(shù)量越高表示文本相似度越高。然而，語(yǔ)句重復(fù)對(duì)比技術(shù)太過注重語(yǔ)言的形式，忽略了語(yǔ)言中裝載的內(nèi)容：兩個(gè)文本可以在用詞完全不相同的情況下表達(dá)類似的內(nèi)容，文本間從內(nèi)容上看相似度依然極高。

內(nèi)容重復(fù)檢索更適用于語(yǔ)料庫(kù)詞匯信息篩選。如上所說，中國(guó)英語(yǔ)學(xué)習(xí)者受母語(yǔ)負(fù)遷移的影響，英語(yǔ)詞匯的使用習(xí)慣與英語(yǔ)作為母語(yǔ)的說話人有較大區(qū)別。尤其是已習(xí)得一定詞匯量的學(xué)習(xí)者，困難之處并不是表達(dá)出某一內(nèi)容，而是用較地道的詞匯表達(dá)出同一內(nèi)容。因此，如果對(duì)比英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)和母語(yǔ)說話人語(yǔ)料庫(kù)間同一話題的語(yǔ)料，就可發(fā)現(xiàn)兩者想表達(dá)的內(nèi)容是類似的，只是用詞有所區(qū)別。使用內(nèi)容重復(fù)檢索技術(shù)即可自動(dòng)檢測(cè)出分別來自兩個(gè)語(yǔ)料庫(kù)的相似度較高的文本，并將其作為教學(xué)資料。兩個(gè)文本間相似的詞匯也可以自動(dòng)標(biāo)注出來，幫助教師和學(xué)習(xí)者將注意力放到中英詞匯使用習(xí)慣差異上。

較接近內(nèi)容重復(fù)檢索性質(zhì)的文本對(duì)比技術(shù)是語(yǔ)義相似度計(jì)算。其主要思想是通過語(yǔ)義建立起詞匯間的遠(yuǎn)近親疏關(guān)系，作為計(jì)算文本相似度的依據(jù)。常用語(yǔ)義詞典有WordNet、FrameNet和MindNet。WordNet的語(yǔ)義關(guān)系比較適合用來辨認(rèn)學(xué)習(xí)者和母語(yǔ)說話人表達(dá)同一語(yǔ)義時(shí)詞匯使用習(xí)慣差異，而FrameNet和MindNet的優(yōu)勢(shì)在于能通過詞語(yǔ)使用搭配識(shí)別出內(nèi)容相似的文本，從而為學(xué)習(xí)者提供表達(dá)類似語(yǔ)義更為地道的詞語(yǔ)組合。下面簡(jiǎn)單介紹一下這三個(gè)語(yǔ)義詞典的語(yǔ)義關(guān)系建構(gòu)方式。

2.1 WordNet的語(yǔ)義關(guān)系建構(gòu)

WordNet主要將同一詞類（parts of speech）的詞匯建立語(yǔ)義鏈接［12］。如名詞標(biāo)注頻率最高的是層級(jí)關(guān)系（super-subordinate relation）。層級(jí)自上而下為比上一層級(jí)更進(jìn)一步細(xì)化的名詞，如bed為furniture的下一層級(jí)，bunkbed為bed的下一層級(jí)。反過來，bunkbed和bed是furniture這一名詞大類的組成部分。同一層級(jí)內(nèi)的詞匯（syn?sets）之間是同義詞關(guān)系（synonymy），如car和au?tomobile。對(duì)動(dòng)詞也同樣建立層級(jí)結(jié)構(gòu)的語(yǔ)義關(guān)系，這些層級(jí)由動(dòng)作不同的方面或組成部分決定，如talk的一個(gè)特點(diǎn)是聲量，所以其下一層級(jí)的單詞為whisper，同時(shí)talk作為communicate語(yǔ)義的一部分，上一層級(jí)的單詞為communicate。

WordNet建立詞匯語(yǔ)義關(guān)系的方法對(duì)搜索比對(duì)語(yǔ)料庫(kù)相似內(nèi)容文本，以及標(biāo)注出相似內(nèi)容文本間語(yǔ)義關(guān)系接近詞匯，作為英語(yǔ)詞匯教學(xué)資料都有極高的實(shí)用價(jià)值，因?yàn)橛⒄Z(yǔ)學(xué)習(xí)者往往不會(huì)交替使用同一層級(jí)的詞匯，或者不會(huì)使用下一層級(jí)的詞匯。

2.2 FrameNet的語(yǔ)義關(guān)系建構(gòu)

FrameNet通過框架語(yǔ)義學(xué)理論進(jìn)行語(yǔ)義關(guān)系建構(gòu)［13］。一個(gè)語(yǔ)義框架描述的是某種事件、關(guān)系、實(shí)體和參與者。比如，烹飪這一概念常包含某人、食物、餐具和廚具等要素。在FrameNet中，烹飪這個(gè)概念就作為一個(gè)框架，其要素就是該框架的元素（frame elements）。能激活框架的單詞稱作詞匯單元（lexical units）。框架與框架之間再通過繼承、使用、部分、視覺等層級(jí)關(guān)系連接。借助建立框架，詞匯被框架以及框架間的關(guān)系連接。

英語(yǔ)學(xué)習(xí)者和母語(yǔ)說話人使用詞匯的差異也體現(xiàn)在框架的差異上，有些是同一框架內(nèi)要素使用的差異，有些則是框架間層級(jí)關(guān)系的差異，如英語(yǔ)學(xué)習(xí)者表達(dá)類似內(nèi)容可能使用了母框架要素中的單詞，而母語(yǔ)說話人則使用了子框架要素中的單詞，或者相反。這些信息對(duì)詞匯學(xué)習(xí)十分有意義，是通過簡(jiǎn)單的單詞共現(xiàn)統(tǒng)計(jì)而得到的詞匯搭配信息所不能比擬的。

2.3 MindNet的語(yǔ)義關(guān)系建構(gòu)

MindNet是通過邏輯結(jié)構(gòu)（logical form）分析得到兩個(gè)單詞間的語(yǔ)義關(guān)系［14］。邏輯結(jié)構(gòu)分析由語(yǔ)法分析器（parser）執(zhí)行，執(zhí)行對(duì)象是詞典、百科全書和自由文本中用來注釋詞匯的句子。MindNet的邏輯結(jié)構(gòu)分析是自動(dòng)進(jìn)行的，得到這些邏輯結(jié)構(gòu)后，將其匯聚成一個(gè)更大的邏輯結(jié)構(gòu)，并根據(jù)各個(gè)邏輯結(jié)構(gòu)在語(yǔ)料庫(kù)中出現(xiàn)的頻率給其賦予概率化的權(quán)重。

由于MindNet是基于詞典中的語(yǔ)句建構(gòu)語(yǔ)義關(guān)系，其應(yīng)用到自然話語(yǔ)內(nèi)容對(duì)比判別的適用性受到了一定的局限。

3 使用中國(guó)英語(yǔ)能力等級(jí)量表系統(tǒng)挖掘?qū)W習(xí)者詞匯信息

中國(guó)英語(yǔ)學(xué)習(xí)者往往喜歡脫離語(yǔ)境，單純透過記憶中文解釋去學(xué)習(xí)詞匯。語(yǔ)料庫(kù)為學(xué)習(xí)者提供了豐富的詞匯固定搭配、常用語(yǔ)法方面的信息。與普通詞典相比，這些信息不是直接用文字呈現(xiàn)給讀者，而是隱含在大量的真實(shí)話語(yǔ)中，從而為學(xué)習(xí)者自主總結(jié)詞匯使用規(guī)律提供條件，使學(xué)習(xí)者從過去將詞匯當(dāng)作知識(shí)去記憶變成透過觀察掌握詞匯的使用方法，這種以使用為目的的詞匯學(xué)習(xí)行為更符合語(yǔ)言學(xué)習(xí)的規(guī)律。許多研究已表明，使用語(yǔ)料庫(kù)進(jìn)行詞匯教學(xué)的效果比傳統(tǒng)詞匯知識(shí)灌輸更理想，且提高了學(xué)習(xí)者的自主學(xué)習(xí)能力［5,15］。

然而，要進(jìn)一步提高學(xué)習(xí)詞匯的動(dòng)力，必須將詞匯學(xué)習(xí)和語(yǔ)言交際能力提高聯(lián)系起來。也就是說，詞匯學(xué)習(xí)應(yīng)該是以提高交際能力為目的。實(shí)施某種交際能力到底有可能要使用哪些詞匯？在開展詞匯教學(xué)前必須向?qū)W習(xí)者交待清楚，才能明確目標(biāo)，有的放矢。這里涉及兩個(gè)問題：第一，中國(guó)英語(yǔ)學(xué)習(xí)者需掌握的語(yǔ)言交際能力有哪些？第二，如何就某一語(yǔ)言交際能力在語(yǔ)料庫(kù)中搜索出與該能力對(duì)應(yīng)的詞匯信息？第一個(gè)問題可以參照中國(guó)英語(yǔ)能力等級(jí)量表［1］解決。第二個(gè)問題的解決可以通過自然語(yǔ)言處理技術(shù)中的文本關(guān)鍵詞提取技術(shù)。先提取出語(yǔ)料庫(kù)中文本的關(guān)鍵詞，然后與能力量表的描述語(yǔ)進(jìn)行匹配［16］，就可找到與某一能力描述語(yǔ)對(duì)應(yīng)的文本，作為提高該交際能力的詞匯學(xué)習(xí)資料。

4 融入能力量表和文本對(duì)比技術(shù)的英語(yǔ)詞匯教學(xué)資料生成框架

融入兩個(gè)部件后的英語(yǔ)詞匯教學(xué)資料生成步驟如圖1所示。首先，先分別提取出學(xué)習(xí)者語(yǔ)料庫(kù)和母語(yǔ)說話者語(yǔ)料庫(kù)中文本的關(guān)鍵詞，作為選取文本的依據(jù)；然后，將兩個(gè)語(yǔ)料庫(kù)中文本關(guān)鍵詞與英語(yǔ)量表描述語(yǔ)進(jìn)行匹配，選中匹配成功的文本組成與特定描述語(yǔ)對(duì)應(yīng)的對(duì)比語(yǔ)料庫(kù)；接著，使用文本對(duì)比技術(shù)將對(duì)比語(yǔ)料庫(kù)中類似的文本抽出，作為詞匯教學(xué)資料，將兩個(gè)類似文本中語(yǔ)義相近的詞匯自動(dòng)標(biāo)注，母語(yǔ)說話人產(chǎn)出的文本中被標(biāo)注出來的單詞就是學(xué)習(xí)者改變?cè)瓉碓~匯使用習(xí)慣需要學(xué)習(xí)使用的詞匯。

圖1 英語(yǔ)詞匯教學(xué)資料生成步驟

5 結(jié)語(yǔ)

本文在探討語(yǔ)料庫(kù)在英語(yǔ)詞匯教學(xué)中優(yōu)勢(shì)的基礎(chǔ)上，進(jìn)一步提出了拓寬語(yǔ)料庫(kù)應(yīng)用前景要融入的兩個(gè)語(yǔ)言學(xué)和人工智能部件，即中國(guó)英語(yǔ)能力等級(jí)量表和文本對(duì)比技術(shù)。這兩個(gè)部件可以免去許多手動(dòng)分析語(yǔ)料庫(kù)工作量的同時(shí)，進(jìn)一步使詞匯教學(xué)向交際能力為導(dǎo)向的方向發(fā)展。