999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語料庫技術(shù)的發(fā)展與現(xiàn)代英語詞典的編纂

2007-01-01 00:00:00
辭書研究 2007年3期

【辭書數(shù)字化研究】摘 要 語料庫技術(shù)經(jīng)歷了人工采集語料、計(jì)算機(jī)語料庫的建立和KWIC檢索、Word Sketch Engine檢索、FrameNet檢索等四個(gè)階段。KWIC檢索方便了詞典編纂者觀察詞的用法;WSE檢索利用統(tǒng)計(jì)數(shù)據(jù)直接歸納詞語的用法;而FrameNet檢索則更進(jìn)一步,對語義敏感。語料庫技術(shù)的發(fā)展預(yù)示著詞典編纂工具已逐步實(shí)現(xiàn)半自動(dòng)化,應(yīng)得到辭書界的重視。

關(guān)鍵詞 語料庫技術(shù) 詞典編纂 半自動(dòng)化

語料庫技術(shù)在現(xiàn)代詞典編纂中正在發(fā)揮越來越大的作用,已從最初的輔助詞典編纂階段進(jìn)展到詞典半自動(dòng)生成階段。本文著重考察語料庫技術(shù)的各個(gè)階段對現(xiàn)代詞典編纂的影響。

語料庫技術(shù)的發(fā)展也是詞典編纂工具演變的一個(gè)過程,大致經(jīng)歷四個(gè)階段,即人工采集語料階段、計(jì)算機(jī)語料庫的建立與KWIC(上下文關(guān)鍵詞)檢索階段、Word Sketch Engine(簡稱WSE,詞匯描述引擎)檢索階段和FrameNet(框架網(wǎng))檢索階段。各個(gè)階段有自身的特點(diǎn),都對現(xiàn)代詞典編纂產(chǎn)生了很大的影響,本文逐一加以論述。

一、人工采集語料階段

計(jì)算機(jī)直到20世紀(jì)80年代中后期才廣泛應(yīng)用于現(xiàn)代詞典編纂。之前,詞典編纂所依賴的語料是靠人工閱讀采集而來。在一個(gè)詞典項(xiàng)目啟動(dòng)前,詞典編纂者須花大量時(shí)間閱讀書籍、報(bào)刊,搜集第一手的語料。他們將閱讀到的認(rèn)為有用的句子或段落劃出,抄寫或打印在資料卡片上,每張卡片均注明出處。這些資料卡片成了詞典編纂工作的基礎(chǔ)。《牛津英語詞典》曾經(jīng)花了23年時(shí)間建立500多萬張資料卡片。

盡管技術(shù)效率不高,傳統(tǒng)的采集語料方法還是成就了《牛津英語詞典》這樣的巨著。不過,總的說來,傳統(tǒng)的方法存在著一些缺陷。首先,采集語料、編寫詞典的方法費(fèi)時(shí)、費(fèi)力。《牛津英語詞典》花了70余年時(shí)間(1858—1928)完成,前三任主編都未能在生前目睹整個(gè)項(xiàng)目的殺青。如今,若再進(jìn)行這樣大的詞典項(xiàng)目,計(jì)算機(jī)語料庫的建立和便捷的檢索工具的使用,無疑將大大縮短編纂時(shí)間。其次,通過人工閱讀采集的資料質(zhì)量不高,不常見的或是不典型的詞語用法時(shí)常會出現(xiàn)在傳統(tǒng)的資料卡片中。人與電腦的最大不同在于,人往往注意的是新奇的、有特別含義的詞的用法,即注意那些有“心理顯著度”的詞[1],對常用詞的用法往往充耳不聞。據(jù)載,一位熱心的讀者從一本書中為《牛津英語詞典》資料庫摘取了1000多條引文,但是“只有兩條有用,其余均為從不在英語中使用的阿拉伯語”[2]。由于缺少合適的語料,《牛津英語詞典》編纂者常常為以實(shí)例解釋一些常用詞的用法而絞盡腦汁。總之,傳統(tǒng)采集語料、建立卡片的做法很難適用于現(xiàn)代詞典編纂。

二、計(jì)算機(jī)語料庫的建立與KWIC檢索工具的開發(fā)階段

計(jì)算機(jī)語料庫的建立和檢索工具的開發(fā)大大改觀了現(xiàn)代詞典編纂的局面。詞典編纂者無須為采集語料而犯愁。他們可以將更多時(shí)間投入到詞典編纂的實(shí)質(zhì)性工作(如釋義、詞匯用法說明等)中。

第一個(gè)計(jì)算機(jī)英語語料庫是20世紀(jì)60年代初誕生在美國的布朗語料庫,而第一個(gè)用于英語詞典編纂的計(jì)算機(jī)語料庫是80年代的COBUILD語料庫(現(xiàn)已是收詞近4億的Bank of English語料庫)。

無論就語料庫的規(guī)模、覆蓋面、典型性還是平衡性而言,計(jì)算機(jī)語料庫都優(yōu)于傳統(tǒng)的卡片資料庫。目前,很多計(jì)算機(jī)英語語料庫含詞100萬以上,有些語料庫甚至超過了1億詞。早先的卡片資料庫的語料主要源自文學(xué)作品,局限于對書面語的記錄;計(jì)算機(jī)語料庫則覆蓋面廣,包括各種類型的文本,有的語料還反映了口語的使用狀況[3],并且語料樣本的類型和數(shù)量都是事先規(guī)劃好的,確保了語料的典型性和平衡性。顯然,計(jì)算機(jī)語料庫大大方便了詞典編纂者觀察和描述詞的用法。

為了提取語料庫中的信息,多種英語語料庫檢索工具得以開發(fā),如WordSmith,Sara,TACT,MonoConc Pro等[4]。這些檢索工具的一個(gè)共同特點(diǎn)是通過KWIC形式,將被檢索詞置于上下文中,顯示其用法。例如,利用WordSmith工具在FLOB語料庫中檢索單詞“conclude”并觀察它的用法,不難發(fā)現(xiàn)“conclude”后常接that從句,如圖1所示。

不過,通過KWIC檢索時(shí),檢索得到的語料行數(shù)不能太多,否則就難以觀察。詞典編纂者常在時(shí)間較緊的情況下,借助語料庫觀察或驗(yàn)證某個(gè)常用詞的用法,大型語料庫卻常顯示這些詞(如“make”)的大量實(shí)例用法,編者不可能逐一閱讀。因此,盡管KWIC檢索有可能顯示詞的典型用法,但還是有其局限性,即缺少對檢索結(jié)果的概括、小結(jié)。

三、Word Sketch Engine檢索階段

英國Brighton大學(xué)的Kilgrarriff和Tugwell等人開發(fā)的軟件“Word Sketch Engine”[5]可看作是第二代的語料庫詞典編纂工具。它較直觀地顯示詞的常見搭配以及出現(xiàn)頻率和顯著度(salience)。這些信息對于詞典編纂而言尤為重要。仍以檢索“conclude”為例,WSE檢索結(jié)果分三欄排列:第一欄顯示被檢索詞的搭配或句法結(jié)構(gòu);第二欄為每一搭配或結(jié)構(gòu)在英國國家語料庫(British National Corpus)中的頻數(shù);第三欄則是搭配或結(jié)構(gòu)的顯著度。例如,“conclude between”在該語料庫中出現(xiàn)27次,其顯著度為1.9,如圖2所示。

圖2 WSE檢索單詞“conclude”WSE檢索至少在四個(gè)方面有利于詞典編纂。首先,它明確顯示被檢索詞的常見搭配和句法結(jié)構(gòu);KWIC檢索卻要求編者自己辨別這些信息。其次,詞頻、顯著度等統(tǒng)計(jì)數(shù)據(jù)進(jìn)一步說明某一詞的哪些搭配或結(jié)構(gòu)比較典型。例如,根據(jù)上述WSE檢索結(jié)果,“conclude”常出現(xiàn)在“~ by doing sth.,~between states,~with a discussion/a plea/an examination,~an agreement/a treaty/a negotiation/a deal,~ to do sth.,~thatclause”等搭配或結(jié)構(gòu)中。這些信息是詞典編纂必需的,而第一代語料庫檢索工具卻無法自動(dòng)顯示。第三,WSE檢索區(qū)分了被檢索詞作為不同詞類時(shí)的用法。例如,“save”作動(dòng)詞、名詞和介詞的用法可通過WSE分別檢索出來。第四,WSE檢索“可在屏幕下方即刻用實(shí)例顯示屏幕上方所列的搭配或結(jié)構(gòu)的用法”[6],這對于詞典編纂者選取例證非常有用。例如,要為“conclude with a plea”找到一個(gè)合適的例證,點(diǎn)擊圖2中“~(with) plea”的數(shù)字5,便可得到表1所示結(jié)果。

簡而言之,WSE檢索省去了詞典編纂者篩選語料、概括詞的用法的麻煩[7]。它的直接顯示相關(guān)的統(tǒng)計(jì)數(shù)字、識別被檢索詞的詞性等功能,都有助于詞典編纂者判斷某一用法的典型性。詞典編纂者還可從WSE檢索結(jié)果中挑選合適的例證。WSE檢索工具已經(jīng)商業(yè)化,如用于編纂《麥克米倫英語詞典》等,還輔助開發(fā)了英語義類詞典。

四、FrameNet檢索階段

FrameNet檢索[8]屬于第三代語料庫詞典編纂工具,它繼承了前兩代檢索工具的優(yōu)點(diǎn),而且對詞義更敏感。我們知道,一個(gè)詞經(jīng)常有多種用法。詞的搭配及句法結(jié)構(gòu)常隨詞義改變而變化。“詞的每一顯著意義在形式上都有顯著差別”。因此,傳統(tǒng)上說的詞的搭配結(jié)構(gòu)實(shí)際上是指詞在具體意義中的用法。美國加州大學(xué)伯克利分校目前進(jìn)行的FrameNet項(xiàng)目,就標(biāo)志著語料庫檢索工具的新進(jìn)展。FrameNet不僅可區(qū)分詞的義項(xiàng),而且能顯示詞在每一義項(xiàng)中的語義和句法配價(jià)。

用FrameNet檢索單詞“conclude”,可獲得如圖3所示結(jié)果。

FrameNet檢索單詞“conclude”FrameNet顯示出“conclude”的兩個(gè)主要義項(xiàng)(或“框架”)。一個(gè)大意是“Comingtobelieve”(“逐漸認(rèn)為”),另一個(gè)指“Processend”(“過程結(jié)束”)。點(diǎn)擊任一義項(xiàng)(或框架),可得到進(jìn)一步的語言信息。例如,當(dāng)“conclude”意為“Comingtobelieve”時(shí),它須包含“cognizer”(認(rèn)知者)、“content”(內(nèi)容)、“evidence”(證據(jù))、“topic”(主題)等成分。

FrameNet還含有實(shí)例,顯示詞義的用法。例如,要例釋“conclude”的第一個(gè)義項(xiàng),點(diǎn)擊圖3第一行的“conclude”便可得到如圖4所示結(jié)果。

這些實(shí)例加之相關(guān)的框架語義信息,為詞條“conclude”提供了接近成型的編纂材料,稍作編輯、加工,就能形成英語詞典中的一個(gè)詞條。顯然,F(xiàn)rameNet使詞典編纂半自動(dòng)化又向前邁進(jìn)了一大步。

語料庫技術(shù)的不斷發(fā)展為詞典編纂增添了活力。可以說,人工采集語料編纂詞典的方法將逐漸退出歷史舞臺;取而代之的是計(jì)算機(jī)語料庫及語料庫檢索工具在詞典編纂中的廣泛運(yùn)用。KWIC檢索可輔助詞典編纂,而新一代的WSE和FrameNet檢索工具則大大提高了對語料庫中語料的語法、語義等信息的提取程度,使詞典編纂逐步達(dá)到半自動(dòng)化程度。對于這些語料庫檢索工具的了解和掌握,將會促進(jìn)我國英語詞典的發(fā)展。

附 注

[1]Hanks P. Evidence and Intuition in Lexicography.∥Tomaszczyk LewandowskaTomaszczyk (eds.) .Meaning and Grammar. Amsterdam:John Benjamins Publishing Company,1990.

[2]Murray K M E. Caught in the Web of Words:James Murray and the Oxford English Dictionary. Oxford:Oxford University Press,1977.

[3]Sinclair J. Corpus, Concordance, Collocation. Oxford:Oxford University Press, 1991.

[4]有關(guān)WordSmith,Sara,TACT,MonoConc Pro等檢索工具的介紹,可分別參見下列網(wǎng)址:http:∥www.lexically.net/wordsmith/;http:∥www.natcorp.ox.ac.uk/SARA/;http:∥tactweb.humanities.mcmaster.ca/;http:∥www.athel.com/mono.html/.

[5]Word Sketch Engine的相關(guān)信息,參見http:∥www.sketchengine.co.uk/.

[6]Atkins B T S,Rundell M,Sato H. The Contribution of FrameNet to Practical Lexicography. International Journal of Lexicography,2003(3).

[7]Kilgarriff A,Tugwell D. WASPBench:an MT Lexicographers' Workstation Supporting Stateoftheart Lexical Disambiguation. ∥Proceedings of MT Summit Ⅶ .Santiago:de Compostela,2001.

[8]FrameNet的相關(guān)信息,參見http:∥framenet.icsi.berkeley.edu/index.php/.

(廣東外語外貿(mào)大學(xué)外國語言學(xué)及應(yīng)用語言學(xué)研究中心

廣州 510420)

(責(zé)任編輯 宋 嵐)

“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。”

主站蜘蛛池模板: 97超碰精品成人国产| 亚洲黄色激情网站| 日本不卡在线播放| 国产亚洲精品资源在线26u| 高清欧美性猛交XXXX黑人猛交| 亚洲综合婷婷激情| 在线观看精品国产入口| 中文字幕无码av专区久久| 亚洲精品国偷自产在线91正片| www.99在线观看| 久久国产精品嫖妓| 国产成熟女人性满足视频| 91在线日韩在线播放| 亚洲一区二区无码视频| 国产高清又黄又嫩的免费视频网站| 欧美区国产区| 91尤物国产尤物福利在线| 精品久久久久久中文字幕女| 久久久噜噜噜久久中文字幕色伊伊| 国产激情第一页| 无码精油按摩潮喷在线播放 | 国产一国产一有一级毛片视频| 免费av一区二区三区在线| 亚洲欧洲日产国产无码AV| 午夜成人在线视频| 美女潮喷出白浆在线观看视频| 日韩无码视频专区| 精品国产91爱| 国产91线观看| 特级做a爰片毛片免费69| 欧美精品v| 制服丝袜一区| 99热这里只有精品在线观看| 国产精品自在在线午夜区app| 日韩a级毛片| 欧美一区二区福利视频| 老司机精品久久| 成人av手机在线观看| 国产丝袜一区二区三区视频免下载| 激情综合婷婷丁香五月尤物| 成年人国产视频| 99精品国产自在现线观看| 伦精品一区二区三区视频| 国产成人综合网在线观看| 久久免费视频6| 69av免费视频| 国产精品9| AⅤ色综合久久天堂AV色综合| 欧美区国产区| 国产男女免费视频| 国产第一福利影院| 亚洲视频色图| 亚洲嫩模喷白浆| 中文字幕 91| 8090成人午夜精品| 色综合久久88色综合天天提莫| 欧美成人午夜在线全部免费| 丝袜无码一区二区三区| 美女被操黄色视频网站| 久久www视频| 国产在线小视频| 国产精品999在线| 国产精品午夜福利麻豆| 欧美精品成人一区二区在线观看| 亚洲欧美日韩另类在线一| 欧美国产另类| 亚洲中文精品久久久久久不卡| 亚洲精品制服丝袜二区| 无码粉嫩虎白一线天在线观看| 毛片视频网址| 99re热精品视频国产免费| 成人在线综合| 亚洲欧美日韩中文字幕一区二区三区 | 久久91精品牛牛| 亚洲美女一区| 人妻丰满熟妇AV无码区| 国产剧情国内精品原创| 国产一区亚洲一区| 国产日韩欧美精品区性色| 国产网站一区二区三区| 青青国产在线| 青青青草国产|