999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語(yǔ)料庫(kù)自動(dòng)提取詞匯信息技術(shù)研究

2023-01-11 15:24:48呂劍濤姚銀燕
現(xiàn)代計(jì)算機(jī) 2022年20期
關(guān)鍵詞:英語(yǔ)詞匯語(yǔ)義詞匯

呂劍濤,姚銀燕

(廣東外語(yǔ)外貿(mào)大學(xué)英語(yǔ)教育學(xué)院,廣州 510006)

0 引言

語(yǔ)料庫(kù)包含大量詞匯在自然語(yǔ)境中的真實(shí)使用記錄,其應(yīng)用價(jià)值從上世紀(jì)初就受到了學(xué)界的關(guān)注[2]。就詞匯教學(xué)而論,語(yǔ)料庫(kù)蘊(yùn)含兩方面的重要信息:需要學(xué)習(xí)的詞匯和詞匯在各種語(yǔ)境下的使用方法。語(yǔ)料庫(kù)中的文本不是人為創(chuàng)造,乃是日常生活的各種真實(shí)交際需求產(chǎn)出的自然話語(yǔ),與傳統(tǒng)詞典刻板的注釋相比,更容易啟發(fā)學(xué)習(xí)者掌握詞義和配搭[3],使學(xué)習(xí)者從被動(dòng)記憶詞匯信息轉(zhuǎn)化為主動(dòng)揣摩詞匯的含義,以及在真實(shí)語(yǔ)境下的各種使用方式[4-5]。

現(xiàn)有文獻(xiàn)大多通過語(yǔ)料庫(kù)軟件搜索和詞頻統(tǒng)計(jì)功能得到服務(wù)于英語(yǔ)詞匯教學(xué)的信息。依靠這種人工搜索統(tǒng)計(jì)的方式耗時(shí)耗力,且人工方式往往未能窮盡語(yǔ)料庫(kù)中的所有學(xué)習(xí)者信息,一定程度局限了語(yǔ)料庫(kù)在英語(yǔ)詞匯教學(xué)中的效力。使用自然語(yǔ)言處理技術(shù)中的文本對(duì)比技術(shù)可以解決以上兩點(diǎn)不足。由計(jì)算機(jī)自動(dòng)找出學(xué)習(xí)者語(yǔ)料庫(kù)和本族語(yǔ)者語(yǔ)料庫(kù)中類似的文本,就可以直接當(dāng)作詞匯教學(xué)學(xué)習(xí)資料,讓學(xué)習(xí)者不但可以結(jié)合自然話語(yǔ)的上下文學(xué)習(xí)生詞,且可以比較二語(yǔ)學(xué)習(xí)者文本和本族語(yǔ)者文本間的語(yǔ)篇、句法、詞匯差異,教師也可以幫助學(xué)習(xí)者分析兩種文本間的語(yǔ)言差異,并鼓勵(lì)學(xué)習(xí)者按照本族語(yǔ)者文本的語(yǔ)言使用策略習(xí)慣對(duì)二語(yǔ)學(xué)習(xí)者文本進(jìn)行改編改寫,以此引導(dǎo)學(xué)習(xí)者嘗試就所學(xué)詞匯作即時(shí)產(chǎn)出。

此外,現(xiàn)有文獻(xiàn)大多通過詞頻和共現(xiàn)規(guī)律抽取出需掌握的詞匯[6-7],或直接從語(yǔ)料庫(kù)中搜索出已有詞匯出現(xiàn)過的文本[8-9],甚少研究能夠以各種不同英語(yǔ)交際能力為出發(fā)點(diǎn)抽取出相關(guān)的詞匯。中國(guó)英語(yǔ)能力等級(jí)量表(China’s Stan?dards of English language ability,CSE)全面地描述了各種語(yǔ)言交際能力。以CSE為出發(fā)點(diǎn)搜索語(yǔ)料庫(kù)中每種能力對(duì)應(yīng)的詞匯,能避免以統(tǒng)計(jì)為導(dǎo)向?qū)W習(xí)詞匯帶來的盲目性,使所學(xué)詞匯與某一交際能力對(duì)應(yīng),加強(qiáng)學(xué)習(xí)詞匯的動(dòng)力,使詞匯學(xué)習(xí)真正滿足各種日常生活工作的交際需求。

本文提出使用文本對(duì)比技術(shù)和中國(guó)英語(yǔ)能力等級(jí)量表發(fā)掘語(yǔ)料庫(kù)中的詞匯信息,減少教師使用語(yǔ)料庫(kù)時(shí)人工搜索、文本分析的工作量,同時(shí)使基于語(yǔ)料庫(kù)的詞匯教學(xué)更系統(tǒng)化,實(shí)現(xiàn)詞匯學(xué)習(xí)以提升語(yǔ)言交際能力為導(dǎo)向。

1 語(yǔ)料庫(kù)對(duì)英語(yǔ)詞匯教學(xué)的潛在價(jià)值

語(yǔ)料庫(kù)(corpus)是將一定量的真實(shí)話語(yǔ)(書面或口語(yǔ))收集起來的語(yǔ)言文本數(shù)據(jù)集[10]。語(yǔ)料庫(kù)的應(yīng)用價(jià)值在于其可借鑒性,為各種學(xué)習(xí)自然語(yǔ)言為目的的活動(dòng)提供客觀真實(shí)的語(yǔ)言使用情況統(tǒng)計(jì)數(shù)據(jù)。

在英語(yǔ)詞匯的教學(xué)中,教師一般靠經(jīng)驗(yàn)教授詞匯的相關(guān)知識(shí),教師對(duì)詞匯的掌握熟練運(yùn)用程度往往不如母語(yǔ)說話者。同時(shí),無論是中國(guó)教師或?qū)W生,都或多或少受到母語(yǔ)負(fù)遷移的影響,將母語(yǔ)(中文)的詞匯使用習(xí)慣帶到英語(yǔ)詞匯教學(xué)中,很難將注意力放到學(xué)習(xí)非母語(yǔ)習(xí)慣的詞匯和用法上。這造成了中國(guó)英語(yǔ)學(xué)習(xí)者經(jīng)常需要問母語(yǔ)說話者:“這個(gè)意思你們一般會(huì)怎么表達(dá)?”或者母語(yǔ)對(duì)話人有時(shí)聽懂了英語(yǔ)學(xué)習(xí)者想表達(dá)的內(nèi)容后,會(huì)用更地道的語(yǔ)言說出同一內(nèi)容,并會(huì)解釋到,他們一般不會(huì)用某個(gè)詞匯,或該詞匯一般不會(huì)在這種情況使用等。

可見,進(jìn)行詞匯學(xué)習(xí)一個(gè)較理想的條件是,英語(yǔ)學(xué)習(xí)者即使在沒有母語(yǔ)說話人詢問的情況下仍能了解到詞匯兩方面的重要信息:第一,在某一交際需求下應(yīng)該使用哪些特定詞匯?第二,這些詞匯具體是怎么使用的,如何與其它詞匯配搭使用?在何種語(yǔ)法結(jié)構(gòu)中使用?雖然現(xiàn)有英語(yǔ)教材一般已給出以上兩方面詞匯信息,但大多不夠系統(tǒng),且一般依靠教材編寫人的經(jīng)驗(yàn)給出,非語(yǔ)料庫(kù)驅(qū)動(dòng)。語(yǔ)料庫(kù)中包含豐富的以上兩種詞匯信息,對(duì)詞匯教學(xué)有絕對(duì)的參考指導(dǎo)作用。

2 使用文本對(duì)比技術(shù)讓學(xué)習(xí)者向目標(biāo)詞匯遷移

雖然語(yǔ)料庫(kù)包含豐富的、有教學(xué)價(jià)值的詞匯信息,但語(yǔ)料庫(kù)本身只是大量真實(shí)語(yǔ)料的聚積,一般并未預(yù)先加工處理提取出任何詞匯信息,需要借助語(yǔ)料庫(kù)分析軟件進(jìn)行人工分析和歸納,某種程度上制約了語(yǔ)料庫(kù)大范圍應(yīng)用到英語(yǔ)詞匯教學(xué)中。如語(yǔ)料庫(kù)的詞匯信息挖掘能實(shí)現(xiàn)智能化、自動(dòng)化,就可以極大降低提取詞匯信息所需的時(shí)間和勞動(dòng)力成本。

文本對(duì)比就是比較兩個(gè)文本的相似度,廣泛應(yīng)用于文本信息檢索領(lǐng)域[11]。文本對(duì)比技術(shù)就“查重”這一目的大致可分為語(yǔ)句重復(fù)和內(nèi)容重復(fù)兩類。語(yǔ)句重復(fù)就是比較兩個(gè)文本間的句子中重復(fù)使用的單詞和按同一順序重復(fù)出現(xiàn)的單詞的數(shù)量,數(shù)量越高表示文本相似度越高。然而,語(yǔ)句重復(fù)對(duì)比技術(shù)太過注重語(yǔ)言的形式,忽略了語(yǔ)言中裝載的內(nèi)容:兩個(gè)文本可以在用詞完全不相同的情況下表達(dá)類似的內(nèi)容,文本間從內(nèi)容上看相似度依然極高。

內(nèi)容重復(fù)檢索更適用于語(yǔ)料庫(kù)詞匯信息篩選。如上所說,中國(guó)英語(yǔ)學(xué)習(xí)者受母語(yǔ)負(fù)遷移的影響,英語(yǔ)詞匯的使用習(xí)慣與英語(yǔ)作為母語(yǔ)的說話人有較大區(qū)別。尤其是已習(xí)得一定詞匯量的學(xué)習(xí)者,困難之處并不是表達(dá)出某一內(nèi)容,而是用較地道的詞匯表達(dá)出同一內(nèi)容。因此,如果對(duì)比英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)和母語(yǔ)說話人語(yǔ)料庫(kù)間同一話題的語(yǔ)料,就可發(fā)現(xiàn)兩者想表達(dá)的內(nèi)容是類似的,只是用詞有所區(qū)別。使用內(nèi)容重復(fù)檢索技術(shù)即可自動(dòng)檢測(cè)出分別來自兩個(gè)語(yǔ)料庫(kù)的相似度較高的文本,并將其作為教學(xué)資料。兩個(gè)文本間相似的詞匯也可以自動(dòng)標(biāo)注出來,幫助教師和學(xué)習(xí)者將注意力放到中英詞匯使用習(xí)慣差異上。

較接近內(nèi)容重復(fù)檢索性質(zhì)的文本對(duì)比技術(shù)是語(yǔ)義相似度計(jì)算。其主要思想是通過語(yǔ)義建立起詞匯間的遠(yuǎn)近親疏關(guān)系,作為計(jì)算文本相似度的依據(jù)。常用語(yǔ)義詞典有WordNet、FrameNet和MindNet。WordNet的語(yǔ)義關(guān)系比較適合用來辨認(rèn)學(xué)習(xí)者和母語(yǔ)說話人表達(dá)同一語(yǔ)義時(shí)詞匯使用習(xí)慣差異,而FrameNet和MindNet的優(yōu)勢(shì)在于能通過詞語(yǔ)使用搭配識(shí)別出內(nèi)容相似的文本,從而為學(xué)習(xí)者提供表達(dá)類似語(yǔ)義更為地道的詞語(yǔ)組合。下面簡(jiǎn)單介紹一下這三個(gè)語(yǔ)義詞典的語(yǔ)義關(guān)系建構(gòu)方式。

2.1 WordNet的語(yǔ)義關(guān)系建構(gòu)

WordNet主要將同一詞類(parts of speech)的詞匯建立語(yǔ)義鏈接[12]。如名詞標(biāo)注頻率最高的是層級(jí)關(guān)系(super-subordinate relation)。層級(jí)自上而下為比上一層級(jí)更進(jìn)一步細(xì)化的名詞,如bed為furniture的下一層級(jí),bunkbed為bed的下一層級(jí)。反過來,bunkbed和bed是furniture這一名詞大類的組成部分。同一層級(jí)內(nèi)的詞匯(syn?sets)之間是同義詞關(guān)系(synonymy),如car和au?tomobile。對(duì)動(dòng)詞也同樣建立層級(jí)結(jié)構(gòu)的語(yǔ)義關(guān)系,這些層級(jí)由動(dòng)作不同的方面或組成部分決定,如talk的一個(gè)特點(diǎn)是聲量,所以其下一層級(jí)的單詞為whisper,同時(shí)talk作為communicate語(yǔ)義的一部分,上一層級(jí)的單詞為communicate。

WordNet建立詞匯語(yǔ)義關(guān)系的方法對(duì)搜索比對(duì)語(yǔ)料庫(kù)相似內(nèi)容文本,以及標(biāo)注出相似內(nèi)容文本間語(yǔ)義關(guān)系接近詞匯,作為英語(yǔ)詞匯教學(xué)資料都有極高的實(shí)用價(jià)值,因?yàn)橛⒄Z(yǔ)學(xué)習(xí)者往往不會(huì)交替使用同一層級(jí)的詞匯,或者不會(huì)使用下一層級(jí)的詞匯。

2.2 FrameNet的語(yǔ)義關(guān)系建構(gòu)

FrameNet通過框架語(yǔ)義學(xué)理論進(jìn)行語(yǔ)義關(guān)系建構(gòu)[13]。一個(gè)語(yǔ)義框架描述的是某種事件、關(guān)系、實(shí)體和參與者。比如,烹飪這一概念常包含某人、食物、餐具和廚具等要素。在FrameNet中,烹飪這個(gè)概念就作為一個(gè)框架,其要素就是該框架的元素(frame elements)。能激活框架的單詞稱作詞匯單元(lexical units)。框架與框架之間再通過繼承、使用、部分、視覺等層級(jí)關(guān)系連接。借助建立框架,詞匯被框架以及框架間的關(guān)系連接。

英語(yǔ)學(xué)習(xí)者和母語(yǔ)說話人使用詞匯的差異也體現(xiàn)在框架的差異上,有些是同一框架內(nèi)要素使用的差異,有些則是框架間層級(jí)關(guān)系的差異,如英語(yǔ)學(xué)習(xí)者表達(dá)類似內(nèi)容可能使用了母框架要素中的單詞,而母語(yǔ)說話人則使用了子框架要素中的單詞,或者相反。這些信息對(duì)詞匯學(xué)習(xí)十分有意義,是通過簡(jiǎn)單的單詞共現(xiàn)統(tǒng)計(jì)而得到的詞匯搭配信息所不能比擬的。

2.3 MindNet的語(yǔ)義關(guān)系建構(gòu)

MindNet是通過邏輯結(jié)構(gòu)(logical form)分析得到兩個(gè)單詞間的語(yǔ)義關(guān)系[14]。邏輯結(jié)構(gòu)分析由語(yǔ)法分析器(parser)執(zhí)行,執(zhí)行對(duì)象是詞典、百科全書和自由文本中用來注釋詞匯的句子。MindNet的邏輯結(jié)構(gòu)分析是自動(dòng)進(jìn)行的,得到這些邏輯結(jié)構(gòu)后,將其匯聚成一個(gè)更大的邏輯結(jié)構(gòu),并根據(jù)各個(gè)邏輯結(jié)構(gòu)在語(yǔ)料庫(kù)中出現(xiàn)的頻率給其賦予概率化的權(quán)重。

由于MindNet是基于詞典中的語(yǔ)句建構(gòu)語(yǔ)義關(guān)系,其應(yīng)用到自然話語(yǔ)內(nèi)容對(duì)比判別的適用性受到了一定的局限。

3 使用中國(guó)英語(yǔ)能力等級(jí)量表系統(tǒng)挖掘?qū)W習(xí)者詞匯信息

中國(guó)英語(yǔ)學(xué)習(xí)者往往喜歡脫離語(yǔ)境,單純透過記憶中文解釋去學(xué)習(xí)詞匯。語(yǔ)料庫(kù)為學(xué)習(xí)者提供了豐富的詞匯固定搭配、常用語(yǔ)法方面的信息。與普通詞典相比,這些信息不是直接用文字呈現(xiàn)給讀者,而是隱含在大量的真實(shí)話語(yǔ)中,從而為學(xué)習(xí)者自主總結(jié)詞匯使用規(guī)律提供條件,使學(xué)習(xí)者從過去將詞匯當(dāng)作知識(shí)去記憶變成透過觀察掌握詞匯的使用方法,這種以使用為目的的詞匯學(xué)習(xí)行為更符合語(yǔ)言學(xué)習(xí)的規(guī)律。許多研究已表明,使用語(yǔ)料庫(kù)進(jìn)行詞匯教學(xué)的效果比傳統(tǒng)詞匯知識(shí)灌輸更理想,且提高了學(xué)習(xí)者的自主學(xué)習(xí)能力[5,15]。

然而,要進(jìn)一步提高學(xué)習(xí)詞匯的動(dòng)力,必須將詞匯學(xué)習(xí)和語(yǔ)言交際能力提高聯(lián)系起來。也就是說,詞匯學(xué)習(xí)應(yīng)該是以提高交際能力為目的。實(shí)施某種交際能力到底有可能要使用哪些詞匯?在開展詞匯教學(xué)前必須向?qū)W習(xí)者交待清楚,才能明確目標(biāo),有的放矢。這里涉及兩個(gè)問題:第一,中國(guó)英語(yǔ)學(xué)習(xí)者需掌握的語(yǔ)言交際能力有哪些?第二,如何就某一語(yǔ)言交際能力在語(yǔ)料庫(kù)中搜索出與該能力對(duì)應(yīng)的詞匯信息?第一個(gè)問題可以參照中國(guó)英語(yǔ)能力等級(jí)量表[1]解決。第二個(gè)問題的解決可以通過自然語(yǔ)言處理技術(shù)中的文本關(guān)鍵詞提取技術(shù)。先提取出語(yǔ)料庫(kù)中文本的關(guān)鍵詞,然后與能力量表的描述語(yǔ)進(jìn)行匹配[16],就可找到與某一能力描述語(yǔ)對(duì)應(yīng)的文本,作為提高該交際能力的詞匯學(xué)習(xí)資料。

4 融入能力量表和文本對(duì)比技術(shù)的英語(yǔ)詞匯教學(xué)資料生成框架

融入兩個(gè)部件后的英語(yǔ)詞匯教學(xué)資料生成步驟如圖1所示。首先,先分別提取出學(xué)習(xí)者語(yǔ)料庫(kù)和母語(yǔ)說話者語(yǔ)料庫(kù)中文本的關(guān)鍵詞,作為選取文本的依據(jù);然后,將兩個(gè)語(yǔ)料庫(kù)中文本關(guān)鍵詞與英語(yǔ)量表描述語(yǔ)進(jìn)行匹配,選中匹配成功的文本組成與特定描述語(yǔ)對(duì)應(yīng)的對(duì)比語(yǔ)料庫(kù);接著,使用文本對(duì)比技術(shù)將對(duì)比語(yǔ)料庫(kù)中類似的文本抽出,作為詞匯教學(xué)資料,將兩個(gè)類似文本中語(yǔ)義相近的詞匯自動(dòng)標(biāo)注,母語(yǔ)說話人產(chǎn)出的文本中被標(biāo)注出來的單詞就是學(xué)習(xí)者改變?cè)瓉碓~匯使用習(xí)慣需要學(xué)習(xí)使用的詞匯。

圖1 英語(yǔ)詞匯教學(xué)資料生成步驟

5 結(jié)語(yǔ)

本文在探討語(yǔ)料庫(kù)在英語(yǔ)詞匯教學(xué)中優(yōu)勢(shì)的基礎(chǔ)上,進(jìn)一步提出了拓寬語(yǔ)料庫(kù)應(yīng)用前景要融入的兩個(gè)語(yǔ)言學(xué)和人工智能部件,即中國(guó)英語(yǔ)能力等級(jí)量表和文本對(duì)比技術(shù)。這兩個(gè)部件可以免去許多手動(dòng)分析語(yǔ)料庫(kù)工作量的同時(shí),進(jìn)一步使詞匯教學(xué)向交際能力為導(dǎo)向的方向發(fā)展。

猜你喜歡
英語(yǔ)詞匯語(yǔ)義詞匯
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
語(yǔ)言與語(yǔ)義
本刊可直接用縮寫的常用詞匯
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
高中英語(yǔ)詞匯學(xué)習(xí)之我見
認(rèn)知范疇模糊與語(yǔ)義模糊
擴(kuò)大英語(yǔ)詞匯量的實(shí)踐
散文百家(2014年11期)2014-08-21 07:16:56
本刊一些常用詞匯可直接用縮寫
語(yǔ)義分析與漢俄副名組合
主站蜘蛛池模板: 国产麻豆永久视频| 青青操国产| 亚洲欧美在线精品一区二区| 极品私人尤物在线精品首页 | 成·人免费午夜无码视频在线观看| 亚洲六月丁香六月婷婷蜜芽| 日本国产一区在线观看| 成人免费网站在线观看| 亚洲视频免费在线看| 色色中文字幕| 99色亚洲国产精品11p| 国产精品成人一区二区| v天堂中文在线| 99re精彩视频| 精品伊人久久久大香线蕉欧美| 亚洲成a人片在线观看88| 欧美视频免费一区二区三区| 国产v欧美v日韩v综合精品| 国产精品所毛片视频| 精品亚洲国产成人AV| 91精品国产福利| 亚洲伊人天堂| yy6080理论大片一级久久| 国产精品一区二区久久精品无码| 亚洲国产清纯| 欧美激情福利| 在线观看国产黄色| 呦女亚洲一区精品| 在线观看亚洲天堂| 国产微拍一区二区三区四区| 伊人久久久大香线蕉综合直播| 波多野结衣二区| 亚洲激情区| 永久天堂网Av| 在线无码私拍| 国产一级在线观看www色| 2048国产精品原创综合在线| 午夜日韩久久影院| 亚洲AV无码一区二区三区牲色| 黄色成年视频| 呦女精品网站| 久久国产香蕉| 乱人伦99久久| 久久6免费视频| 久久这里只有精品8| 嫩草国产在线| 91九色国产porny| 久久香蕉国产线看精品| 欧美在线中文字幕| 国产jizz| 国产精品99一区不卡| 五月婷婷丁香综合| 亚洲精品欧美日本中文字幕| 亚洲人成成无码网WWW| 色欲综合久久中文字幕网| 色国产视频| 成人免费视频一区二区三区 | 国产拍揄自揄精品视频网站| 在线精品自拍| 黄色福利在线| 国产精品吹潮在线观看中文| 欧美激情福利| 国产区福利小视频在线观看尤物| a级毛片免费看| 国产精品观看视频免费完整版| 国产极品美女在线| 国产女人爽到高潮的免费视频| 久久成人免费| 国产欧美日韩另类| а∨天堂一区中文字幕| 久久人搡人人玩人妻精品| 一级成人a毛片免费播放| 亚洲中字无码AV电影在线观看| 亚洲制服中文字幕一区二区| 国产精品第| 免费jizz在线播放| 久久综合九九亚洲一区| 亚洲精品午夜天堂网页| 99视频在线看| 国产91无码福利在线| 香蕉在线视频网站| 欧美在线国产|