摘 要:就國(guó)外的幾個(gè)隱喻知識(shí)庫(kù),包括Master Metaphor List、Senseframe、MetaBank、Metalude、Hamburg Metaphor Database、ATTMeta以及國(guó)內(nèi)的隱喻句庫(kù)的建設(shè)進(jìn)行綜述,并對(duì)上述隱喻知識(shí)庫(kù)作了簡(jiǎn)單評(píng)述。最后提出了一種建立面向計(jì)算的大規(guī)模漢語(yǔ)隱喻知識(shí)庫(kù)構(gòu)建的設(shè)想。
關(guān)鍵詞:隱喻; 知識(shí)庫(kù); 自然語(yǔ)言理解
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2008)09-2561-05
Introduction of metaphor corpus
ZHANG Xiaojun1,2a,QU Weiguang2b,3
(1.School of Foreign Language, Shaanxi Normal University, Xi’an 710062, China;2a.School of Art Literature, b.School of Mathematics Computer, Nanjing Normal University, Nanjing 210097, China;3.Institute of Computational Linguistics, Peking University, Beijing 100081, China)
Abstract:This paper introduced and reviewed six foreign language databases,it included Master Metaphor List,Senseframe,MetaBank,Metalude,Hamburg Metaphor Database,ATTMeta and one Chinese metaphor database. Finally, it designed a largescale Chinese metaphor knowledge database oriented to computation.
Key words:metaphor; knowledge database; natural language understanding
0 引言
隱喻理解的計(jì)算模型離不開(kāi)隱喻知識(shí)庫(kù)。這是由隱喻的認(rèn)知性決定的。隱喻涉及本體概念與喻體概念之間的對(duì)比,因此隱喻計(jì)算模型的前提是要求系統(tǒng)具有概念描述和推理能力[1]。隨著自然語(yǔ)言理解從字面義(literal meaning)到非字面義(nonliteral meaning)研究的轉(zhuǎn)變,隱喻作為非字面義的典型,越來(lái)越受到計(jì)算語(yǔ)言學(xué)家、認(rèn)知語(yǔ)言學(xué)家和心理學(xué)家的重視,隱喻計(jì)算也成為自然語(yǔ)言處理的一個(gè)熱點(diǎn)問(wèn)題。國(guó)內(nèi)對(duì)隱喻計(jì)算的研究越來(lái)越深入,主要集中在對(duì)隱喻計(jì)算的模型方法的介紹和研究上[2,3],但對(duì)隱喻知識(shí)庫(kù)建設(shè)的討論不夠深刻。目前,應(yīng)用于隱喻計(jì)算的模型方法主要有以下四種:
a)基于優(yōu)先語(yǔ)義的方法。這種方法認(rèn)為理解隱喻義的方法不同于理解正常字面義的方法,突出語(yǔ)義知識(shí)的描寫而不強(qiáng)調(diào)隱喻知識(shí)在隱喻理解中的應(yīng)用。當(dāng)句子中字面意義出現(xiàn)沖突(即選擇限制發(fā)生沖突)時(shí),就需要進(jìn)行隱喻處理。比較有代表性的系統(tǒng)有Fass[4]提出的可以處理隱喻、轉(zhuǎn)喻、字面義反常表達(dá)的隱喻理解模型Met5系統(tǒng)。
b)基于知識(shí)表示的方法。與基于優(yōu)先語(yǔ)義的方法不同,該方法強(qiáng)調(diào)隱喻知識(shí)的表示以及隱喻知識(shí)在隱喻理解中的作用。其包括隱喻突顯理論[5,6]和基于實(shí)例的模型,如Martin[7]設(shè)計(jì)的用來(lái)解釋常規(guī)隱喻和識(shí)別新生隱喻的MIDAS系統(tǒng),以及人工神經(jīng)網(wǎng)絡(luò)模型,如Veale[8]的Sapper模型。
c)基于類比推理和邏輯推理的方法。隱喻的理解需要人們運(yùn)用常識(shí)進(jìn)行推理,因此,許多學(xué)者采用邏輯方法進(jìn)行隱喻的機(jī)器理解。典型模型包括Stainhart[9]提出的隱喻的結(jié)構(gòu)理論和隱喻邏輯論、Gentner等人[10,11]的結(jié)構(gòu)映射引擎SME、Holyoak等人[12]的ACME隱喻分析模型。
d)基于語(yǔ)料庫(kù)統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。隨著語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展,利用統(tǒng)計(jì)方法處理語(yǔ)言信息得到了廣泛的關(guān)注,出現(xiàn)了許多基于統(tǒng)計(jì)學(xué)習(xí)方法的隱喻識(shí)別模型,如Kintsch等人[13,14]的基于潛在語(yǔ)義分析方法的模型,以及Mason[15,16]提出的基于語(yǔ)料庫(kù)的隱喻句抽取引擎CorMet。
從上面的計(jì)算模型來(lái)看,隱喻表達(dá)往往涉及到概念的推理關(guān)系,因此隱喻表達(dá)的識(shí)別、解釋、提取往往需要富含隱喻理解信息的隱喻知識(shí)庫(kù)的支撐。具有代表性的國(guó)外隱喻庫(kù)有Master Metaphor List、Senseframe、MetaBank、Metalude、Hamburg Metaphor Database、ATTMeta。國(guó)內(nèi)的隱喻庫(kù)建設(shè)起步較晚,目前公布的只有廈門大學(xué)的漢語(yǔ)隱喻標(biāo)注句庫(kù)。
1 國(guó)外隱喻知識(shí)庫(kù)建設(shè)綜述
1.1 Master Metaphor List(MML)
MML(詳見(jiàn)http://cogsci.berkeley.edu/lakoff/)是加利福尼亞大學(xué)Berkeley分校George Lakoff等人搜集的英語(yǔ)常規(guī)隱喻表達(dá)的一個(gè)在線知識(shí)庫(kù);他們從出版的隱喻文獻(xiàn)、加利福尼亞大學(xué)Berkeley分校的學(xué)生寫作及研究生論壇中收集隱喻用例,手工編輯而成。后來(lái)由George Lakoff等人完成了第二版。該知識(shí)庫(kù)包含了隱喻映射和每個(gè)隱喻的隱喻實(shí)現(xiàn),并在互聯(lián)網(wǎng)上公布。數(shù)據(jù)庫(kù)中的隱喻分為event structure(事件結(jié)構(gòu))、mental events(心理事件)、emotions(情感)和other(其他)四個(gè)范疇,共涉及詞條69條;每個(gè)詞條又分為不同層級(jí)的隱喻類別,共約200多個(gè)不同層級(jí)的隱喻類別。每種隱喻的類別都包含了各種隱喻方式的源域(source domains)和目標(biāo)域(target domains)的描述及隱喻例句;每一類隱喻都有一個(gè)簡(jiǎn)要分析。MML依照專家們的直覺(jué)分成不同的概念隱喻類別,不去考慮這些隱喻是否已經(jīng)詞匯化。
例如,在詞條“force”下“Force is a substance contained in affecting causes”隱喻類別示例如下:
Force is a substance contained in affecting causes
Put more force into your punches.
He said some forceful words.
His punches carry a lot of force.
Each sentence contained the force of an order.
His punches have a lot of force.
Her death hit us all forcefully.
Her death hit us with a lot of force.
The force of the blow knocked me over.
The force added to the swing was enough to send the ball over the fence
Related metaphors:related to Causes are Forces
Source domain:sustance,contents,container,hitting
Target domain:force
Note:
The amount of force determines the degree of change in the affected party
Either the force or the causalcontainer can cause the effect.
Force is placed in the container by the person who wants the change in the affected part
Force is the ability to cause
示例給出了該類別的九個(gè)相關(guān)例句,有對(duì)該類別的簡(jiǎn)要分析(note),指出了隱喻的源域?yàn)椤皊ustance, contents, container, hitting”,目標(biāo)域?yàn)椤癴orce”,而且還給出了與詞類別相關(guān)的隱喻類別“Related metaphors: related to Causes are Forces”。
MML第一版完成于1989年,第二版完成于1991年。很快,這200多個(gè)隱喻類就成為各類形式化的、為隱喻計(jì)算服務(wù)的隱喻知識(shí)庫(kù)建設(shè)的主要資源。
1.2 Sense-rame
Sense-rame是一個(gè)詞例化的語(yǔ)義知識(shí)庫(kù),共包含500條詞條。Dan Fass根據(jù)Wilks的優(yōu)先語(yǔ)義學(xué)理論的優(yōu)先中斷思想提出了修正語(yǔ)義學(xué)的方法,在一個(gè)統(tǒng)一的語(yǔ)義框架內(nèi)對(duì)轉(zhuǎn)喻(metonymy)、隱喻和詞義異常使用進(jìn)行解釋,并給出了實(shí)現(xiàn)程序Met5。Senseframe就是為該程序的實(shí)現(xiàn)而建設(shè)的詞例化隱喻知識(shí)庫(kù)。在該知識(shí)庫(kù)中,每個(gè)詞義框架包含arcs和node兩部分。Arcs部分包含了該詞條類屬條目(一個(gè)詞條和它的意義描述),語(yǔ)義框架所有的arcs構(gòu)成了詞語(yǔ)深層結(jié)構(gòu)化的語(yǔ)義網(wǎng)絡(luò);node部分包含了被定義的語(yǔ)義框架的差異。
名詞“animal”在Senseframe中的描述如下:
sf(animal1,
[[arcs, [[supertype,organism1]]],
[node0,
[[biology1,animal1],
[composition1,flesh1],
[it1,drink1,drink1],
[it1,eat1,food1]]]]).
其中:[supertype,organism1]是一個(gè)語(yǔ)義網(wǎng)絡(luò)體系;node0表示該詞條是一個(gè)名詞;[biology1,animal]和[composition1,flesh1]為該詞條的語(yǔ)義優(yōu)先特征;[it1,drink1,drink1]和[it1,eat1,food1]為該詞條的句法組合模式;it1指該詞條,即animal1在[it1,drink1,drink1]中能夠被it1代替,在[it1,eat1,food1]中也能夠被it1代替。該句法組合模式在Senseframe中被稱為cell。
形容詞“yellow”在Senseframe中的描述如下:
sf(yellow1,
[[arcs, [[superproperty,coloured1],
[property,yellow1]]]
[node1,
[[preference,
[[bounds1,bounded1],
[composition1,physical1],
[extent1, [not1,zero_dimensional1]]
[animacy1,nonliving1]]]]]
[assertion,
[[color1,yellow1]]]]).
其中:[superproperty,coloured1]和[property,yellow1]是一個(gè)語(yǔ)義網(wǎng)絡(luò)體系;node1表示該詞條是一個(gè)形容詞/副詞;preference部分為該詞條的語(yǔ)義優(yōu)先特征;assertion部分為該詞條在命題中的斷言。
動(dòng)詞“eat”在Senseframe中的描述如下:
sf(eat1,
[[arcs,[[supertype,[ingest1,expend1]]]]
[node2,
[agent,[preference,animal1]]
[object,[preference,food1]]]])
其中:[supertype,[ingest1,expend1]]是一個(gè)語(yǔ)義網(wǎng)絡(luò)體系;node2表示該詞條是一個(gè)動(dòng)詞;[agent,[preference,animal1]]和[object,[preference,food1]]為該詞條的語(yǔ)義優(yōu)先特征。
利用上述對(duì)名詞、動(dòng)詞和形容詞/副詞的不同形式化描述,F(xiàn)ass用程序Met5實(shí)現(xiàn)了對(duì)隱喻理解的模型解釋。例如對(duì)“car drinks gasoline”,Met5系統(tǒng)就是利用如下知識(shí)表示實(shí)現(xiàn)的:
sf{drink1,
{{arcs,
{{supertype{ingest1,expend1}}}}.
{node2,
{{agent,
{preference.animal1}}
{object,
{preference.drink1}}}}}}
sf{animal1,sf{car1,
{{arcs,{{arcs,
{{supertype,organism1}}},{{supertype.motor_vehicle1}}}.
{node0,{node0,
{{biology1,animal1},{{it1,carry1,passenger1}}}}}
{it1,drink1,drink1}.
{it1,eat1,food1}}}}}
1.3 MetaBank
MetaBank是J. H. Martin在20世紀(jì)90年代為對(duì)自然語(yǔ)言中習(xí)慣性隱喻給出語(yǔ)義解釋而開(kāi)展的隱喻研究項(xiàng)目。該項(xiàng)研究將經(jīng)驗(yàn)誘導(dǎo)與理論驅(qū)動(dòng)相結(jié)合,在三個(gè)方面探索了隱喻知識(shí)庫(kù)的構(gòu)建問(wèn)題:文本語(yǔ)料的收集與語(yǔ)言知識(shí)的泛化;資源的拓展方法;知識(shí)庫(kù)的構(gòu)建。這三個(gè)方面的綜合為直接使用隱喻知識(shí)對(duì)語(yǔ)言中的隱喻理解提供了一個(gè)整體框架。
在文本語(yǔ)料的收集與語(yǔ)言知識(shí)的泛化方面,MetaBank采用了MML、一個(gè)包含150 000詞次的UNIX操作系統(tǒng)用戶郵件語(yǔ)料庫(kù)以及Wall Street Journal語(yǔ)料庫(kù)。其中比較有特色的是UNIX操作系統(tǒng)用戶郵件語(yǔ)料庫(kù)。這一語(yǔ)料庫(kù)的選擇為MetaBank研究特定領(lǐng)域相關(guān)語(yǔ)料庫(kù)提供了必要的資源。
資源的拓展包括兩個(gè)方面:如何分析和識(shí)別單獨(dú)句子所包含的習(xí)慣性隱喻;如何在大規(guī)模語(yǔ)料中高效搜索習(xí)慣性隱喻。MetaBank接受了Reddy[17]、Lakoff等人[18]給出的習(xí)慣性隱喻定義,即習(xí)慣性隱喻是一些詞或短語(yǔ)在其常規(guī)用法中脫離字面意義,使用一種概念類型表達(dá)另外一種概念類型的一種語(yǔ)言現(xiàn)象。示例如下:
I can’t kill ‘emeclipse says they aren’t mine.
其中:kill、says、mine的使用即是習(xí)慣性隱喻的實(shí)例。在大規(guī)模語(yǔ)料庫(kù)搜索方面,MetaBank采用了直接搜索已知隱喻和隨機(jī)抽取的方式來(lái)拓展資源。隱喻搜索依賴于目標(biāo)域中的關(guān)鍵詞進(jìn)行。搜索完成后搜集的信息包括該種隱喻的出現(xiàn)頻率、該類目標(biāo)域中各關(guān)鍵詞使用的頻率、該類隱喻中源語(yǔ)義場(chǎng)有多少關(guān)鍵詞與之同現(xiàn)、對(duì)該種隱喻目標(biāo)域和源域進(jìn)行抽象時(shí)的正確程度等。
MetaBank認(rèn)為隱喻知識(shí)的表示包括三個(gè)方面:目標(biāo)域的知識(shí)表述、源域的知識(shí)表述以及隱喻本身的知識(shí)表述。為此,MetaBank采用了Gruber[19]提出的OntoLingua知識(shí)表述語(yǔ)言(ontolingua knowledge representation language),認(rèn)為這種語(yǔ)言能夠提供隱喻的獨(dú)立的規(guī)范的表示方法,并能為該知識(shí)庫(kù)的潛在使用提供支持。
1.4 Metalude
Metalude(詳見(jiàn)http://www.ln.edu.hk/lle/cwd03/Inproject_chi/home.html)是一種已經(jīng)詞匯化的英語(yǔ)隱喻交互語(yǔ)料庫(kù),該語(yǔ)料庫(kù)從詞匯上考查隱喻,并非單純的認(rèn)識(shí)或知覺(jué)的研究。這一點(diǎn)與Berkeley的MML有明顯的不同。目前Metalude包含9 000個(gè)英語(yǔ)詞條以及它們的字面義、隱喻義、詞類、實(shí)例等屬性信息。其所收的隱喻均根據(jù)概念隱喻或構(gòu)成隱喻的基本類來(lái)進(jìn)行分類,因此一個(gè)詞形往往有多個(gè)詞條。例如lexical term = fleet (港灣)有“Activity is boat travel;Organisation is ship;Traffic is Liquid/blood”三個(gè)根隱喻,因此設(shè)定三個(gè)詞條。
Metalude 對(duì)于它所收的詞匯以及所假定的概念隱喻/基本類均有更嚴(yán)格的詞匯學(xué)標(biāo)準(zhǔn),所收的詞匯必須有某個(gè)隱喻義項(xiàng)見(jiàn)諸于某一本當(dāng)代英語(yǔ)詞典中。該語(yǔ)料庫(kù)中設(shè)置的每一個(gè)基本類都必須出現(xiàn)在至少6個(gè)詞匯上,而且這些詞匯在Cobuild 英語(yǔ)在線詞庫(kù)中出現(xiàn)的頻率不能低于200次。例如:
a)類:Achievement/success is high(成就或成功即高)
詞條“hang in there” (字面意義“懸掛”__) idi (vi+adv+adv), 隱喻意義“盡管困難也要避免失敗”。例句:When the marathon gets tough just hang in there (在劇烈的馬拉松比賽中只有堅(jiān)持才能避免失敗)。
b)類:Activity is boat travel (活動(dòng)即劃船)
詞條“anchorman” (字面意義“接力棒”__) n.,隱喻意義“新聞節(jié)目主持人”。例句:The early morning news programme has a new anchorman(早晨的新聞節(jié)目換上了一個(gè)新的節(jié)目主持人)。
上述兩例中,“in there”和“man”不是詞項(xiàng)的隱喻部分,因此在圓括號(hào)中只譯出“hang”和“anchor”,后加空格。如果一個(gè)復(fù)合詞或習(xí)語(yǔ)中的所有詞語(yǔ)都有屬于同一類的隱喻意義,而且這個(gè)復(fù)合詞或習(xí)語(yǔ)的字面意義很少用或從未用過(guò),那么這個(gè)字面意義也將放于圓括號(hào)中,但是不加空格號(hào)。例如:
c)類:Activity is boat travel(活動(dòng)即劃船)
詞條“stick/put your oar in” (字面意義“搖槳,推槳”) idi (vt+nphr+adv),隱喻意義“惱人地打斷”。例句:He kept on putting his oar in until I lost my temper(令人氣惱的是,他一而再、再而三地打斷我的講話,直到我發(fā)了脾氣為止)。
對(duì)于詞性發(fā)生變化的詞條,中間用一條豎杠分隔開(kāi),圓括號(hào)中的詞性與圓括號(hào)外的詞性相對(duì)應(yīng)。前者為表示字面意義時(shí)的詞性;后者是該詞做隱喻用法時(shí)的詞性。例如:
d)類:Activity is boat travel(活動(dòng)即劃船)
詞條“harbour”(字面意義:海港) (n)|vt,隱喻意義“庇護(hù)”。例句:The taleban were accused of harbouring Osama Bin Laden(塔利班受控庇護(hù)本·拉登)。
1.5 Hamburg Metaphor Database
漢堡隱喻數(shù)據(jù)庫(kù)(hamburg metaphor database,HMD,詳見(jiàn)http://wwwl.unihamburg.de/metaphern/index_en.html)是一個(gè)可供在線搜索的德語(yǔ)、法語(yǔ)隱喻數(shù)據(jù)庫(kù),于2002年面向公眾開(kāi)放。其中數(shù)據(jù)以來(lái)自一些特定領(lǐng)域的大眾傳媒語(yǔ)料庫(kù)中的隱喻為主。數(shù)據(jù)庫(kù)中的隱喻標(biāo)注包括詞匯和概念兩個(gè)層次。詞匯標(biāo)注所采用的資源是EuroWordNet;概念標(biāo)注所采用的資源是Berkeley主要隱喻列表(master metaphor list)。
HMD中的隱喻標(biāo)注的格式大致如表1所示。
注:表1括號(hào)中內(nèi)容為筆者所加,感謝南京大學(xué)德語(yǔ)系陳民老師細(xì)心審讀其中德文內(nèi)容的翻譯。
可以看出,數(shù)據(jù)由八個(gè)部分組成。首先是包含隱喻表達(dá)的例句;然后列舉出具有隱喻性的術(shù)語(yǔ),如表1中的triomphateur和affluer。同義詞集(synset)信息來(lái)自于詞網(wǎng)(WordNet)。例如在第一個(gè)例子中,可在法語(yǔ)EWN中找到如下同義詞集:
{vainqueur:1 triomphateur:1 gagnant:1}
這個(gè)同義詞集可以用來(lái)標(biāo)注第一個(gè)例句中的術(shù)語(yǔ) triomphateur,或具有能夠解釋該例隱喻的意義。但是在有些情況下,這些詞語(yǔ)并不具有一個(gè)具體的目標(biāo),這樣就需要一個(gè)字面意義上的同義詞集。這里使用了兩套源域和目標(biāo)域標(biāo)簽。一套使用德語(yǔ),根據(jù)內(nèi)容創(chuàng)建;另一套與Berkeley提供的隱喻概念標(biāo)簽相一致。
HMD的建設(shè)采用了人工標(biāo)注與機(jī)器輔助標(biāo)注相結(jié)合的方法。2002年該庫(kù)開(kāi)始提供在線檢索時(shí)有160多條隱喻實(shí)例;其后采用語(yǔ)料庫(kù)輔助發(fā)現(xiàn)的方法,新增1 000多條實(shí)例。隱喻的機(jī)器輔助發(fā)現(xiàn)首先需要建立經(jīng)過(guò)標(biāo)注的語(yǔ)料庫(kù);然后需要確定目標(biāo)域和源域,并借此建立目標(biāo)域詞匯表和源域詞匯表。HMD充分利用了語(yǔ)料庫(kù)檢索功能及頻率、詞語(yǔ)同現(xiàn)信息等,在僅已知目標(biāo)域的情況下,通過(guò)以下三個(gè)步驟獲取隱喻實(shí)例:
a)確定目標(biāo)域詞匯,如Europe,獲取經(jīng)過(guò)統(tǒng)計(jì)加權(quán)處理的同現(xiàn)列表(lists of collocates)作為可能隱喻實(shí)例;
b)對(duì)獲取的同現(xiàn)列表,搜索語(yǔ)料庫(kù)以區(qū)分不同用法,并給出同現(xiàn)列表的源域;
c)使用EuroWordNet中的同義詞集和詞義關(guān)系,對(duì)源域的詞匯進(jìn)行擴(kuò)展。
經(jīng)過(guò)上述處理,隱喻實(shí)例、目標(biāo)域及其詞匯列表、源域及其詞匯列表都可在語(yǔ)料庫(kù)幫助下獲得。
1.6 ATT-eta
ATT-eta(詳見(jiàn)http://www.cs.bham.ac.ak/~jab/ATT-eta/Data bank)是英國(guó)Birmingham大學(xué)開(kāi)發(fā)的一個(gè)基于規(guī)則的可程序化計(jì)算的信念和隱喻模擬推理系統(tǒng)。項(xiàng)目因以命題態(tài)度和基于隱喻的推理為主要研究?jī)?nèi)容而被命名為ATT(itude)Meta(phor)。ATT-eta同樣以Berkley的MML為框架,集中討論其中與大腦狀態(tài)、大腦處理過(guò)程以及心智相關(guān)的隱喻。為此,ATT-eta也構(gòu)建了一個(gè)隱喻語(yǔ)料庫(kù)。其中主要包含真實(shí)話語(yǔ)中描寫心智狀態(tài)和運(yùn)行的隱喻,此外也包含一些描寫心智狀態(tài)的暗喻。隱喻實(shí)例取自一個(gè)包含1070個(gè)文字文本和65個(gè)演講記錄文本的語(yǔ)料庫(kù)。
ATT-eta隱喻數(shù)據(jù)庫(kù)按照隱喻本身類型進(jìn)行組織(圖1)。與心智狀態(tài)和運(yùn)行相關(guān)的隱喻首先被分為17類(包括暗喻)。每一個(gè)類別存在兩個(gè)鏈接:一個(gè)鏈接指向?qū)υ擃愲[喻的解釋;另一個(gè)鏈接指向隱喻實(shí)例頁(yè)面。在實(shí)例頁(yè)面中,又包含另一個(gè)鏈接,給出該實(shí)例的詳盡上下文。
ATT-eta對(duì)文本中的隱喻實(shí)例進(jìn)行了標(biāo)注,下例取自于物質(zhì)實(shí)體型主意/情緒比喻(ideas/emotions as physical objects):
例句The fact that she had not yet seen her stepmother made no difference; she still (*felt her dislike of her RISE UP*) just as intensely as at first, and it (* BLOTTED OUT *) all her other feelings.
{First segment: embedding within feeling. Also, example of \"feel\" as metaphoricity signal.} {\"BLOTTED OUT\": parallel mixing with COGNIZING AS SEEING.}
[[Text: source]]
此例中,ATT-eta首先給出這一類型的定義。文本中的隱喻部分被置于(*…*)內(nèi),相關(guān)隱喻詞匯大寫表示。[[Text: source]]部分給出該語(yǔ)句的出處鏈接,已備查詢。此外,其后還有對(duì)交叉性隱喻等其他情況的說(shuō)明。
ATT-eta隱喻數(shù)據(jù)庫(kù)已被嘗試用于與心智相關(guān)的隱喻識(shí)別和解釋研究,并取得了一定成效。
2 國(guó)內(nèi)隱喻知識(shí)庫(kù)建設(shè)
廈門大學(xué)認(rèn)知與計(jì)算研究中心構(gòu)建了一個(gè)具有1萬(wàn)句規(guī)模62 萬(wàn)字的漢語(yǔ)隱喻標(biāo)注句庫(kù)以及一個(gè)面向隱喻識(shí)別的漢語(yǔ)常用動(dòng)詞搭配庫(kù)[20]。該隱喻句庫(kù)采用文本方式進(jìn)行存儲(chǔ),涵蓋了極為豐富的漢語(yǔ)隱喻現(xiàn)象,并具有可擴(kuò)展性。在該隱喻句庫(kù)的基礎(chǔ)上,進(jìn)行句法分析和標(biāo)注。帶有句法分析標(biāo)注的隱喻句庫(kù)通過(guò)哈爾濱工業(yè)大學(xué)信息檢索研究室依存句法分析系統(tǒng)[21]生成初步結(jié)果,最后由人工校正來(lái)完成。這樣,帶有句法分析標(biāo)注的隱喻句庫(kù)中,每個(gè)隱喻句采用依存方式表示句子結(jié)構(gòu)以及句內(nèi)每個(gè)成分之間的關(guān)系。
句庫(kù)的結(jié)構(gòu)設(shè)計(jì)如下:每一個(gè)隱喻句顯示為三行,第一行是無(wú)標(biāo)記的生隱喻句;第二行為句法成分的切分與詞性標(biāo)注后的隱喻句,句子中每個(gè)詞及詞性的前面加上序號(hào),句子末尾的句號(hào)由〈EOS〉標(biāo)志;第三行是隱喻句的依存句法關(guān)系。依存關(guān)系中,每個(gè)關(guān)系以一個(gè)依存對(duì)表示,依存對(duì)中的第一個(gè)詞是核心,支配第二個(gè)詞,如“[2]公司_[1]我(ATT)”這個(gè)依存對(duì)表示“我”和“公司”存在依存關(guān)系A(chǔ)TT。其中:“公司”是這個(gè)關(guān)系的核心成分;“我”依存于“公司”。依存對(duì)之間以兩個(gè)tab 制表符相隔,整個(gè)句子的依存中心單獨(dú)列出,由標(biāo)記(HED)標(biāo)志,并與句尾句號(hào)構(gòu)成一個(gè)依存對(duì),如下所示:
雷霆無(wú)情地怒吼,
[1]雷霆/n[2]無(wú)情/a[3]地ui[4]怒吼/vg[5],/wp[6]〈EOS〉/〈EOS〉
[3]地_[2]無(wú)情(DI) [4]怒吼_[1]雷霆(SBV) [4]怒吼_[3]地(ADV)[6]〈EOS〉_[4]怒吼(HED)
句庫(kù)的標(biāo)注標(biāo)準(zhǔn)如下:詞性標(biāo)注使用的是“863”標(biāo)注體系的詞性標(biāo)準(zhǔn),包括28 個(gè)詞性標(biāo)記;依存關(guān)系標(biāo)記24個(gè),如表2 所示。
3 余論
一個(gè)隱喻知識(shí)系統(tǒng)的建立主要包括以下三個(gè)方面的內(nèi)容:語(yǔ)料庫(kù)及其類型;隱喻知識(shí)表述;隱喻識(shí)別算法及隱喻理解模型。語(yǔ)料庫(kù)存在平衡語(yǔ)料庫(kù)和受限領(lǐng)域語(yǔ)料庫(kù),不同類型語(yǔ)料庫(kù)中隱喻的使用類型和分布存在不同,因而會(huì)對(duì)后續(xù)處理產(chǎn)生影響。隱喻識(shí)別與隱喻知識(shí)表示是兩個(gè)緊密聯(lián)系的方面。對(duì)隱喻概念的不同認(rèn)識(shí),如隱喻與詞匯之間的關(guān)系問(wèn)題的認(rèn)識(shí)導(dǎo)致了不同的隱喻知識(shí)結(jié)構(gòu),因而也影響到隱喻識(shí)別與理解方法的不一致。同時(shí),采用何種知識(shí)表述語(yǔ)言來(lái)表述隱喻知識(shí)也是需要考慮的問(wèn)題。在大規(guī)模的隱喻識(shí)別方面,Metabank、Hamburg Metaphor Database都已經(jīng)進(jìn)行了有益的嘗試,其中能夠利用的關(guān)鍵信息是與源域、目標(biāo)域相關(guān)聯(lián)的詞匯。
此外,需要注意的是Berkeley的MML為諸多隱喻知識(shí)庫(kù)提供了理論框架。其他隱喻知識(shí)庫(kù)其實(shí)就是對(duì)這一資源的衍生和拓展。而在國(guó)內(nèi)的隱喻知識(shí)庫(kù)似乎并沒(méi)有利用這一成果,而且在隱喻知識(shí)的表征方面重視程度不夠。漢語(yǔ)作為一種重“意合”的語(yǔ)言,非字面義的研究尤為重要。對(duì)漢語(yǔ)的隱喻自動(dòng)理解與計(jì)算的研究在國(guó)內(nèi)剛剛起步,亟待建立一個(gè)面向隱喻計(jì)算的隱喻知識(shí)庫(kù)。
4 工作設(shè)想
綜上所述,本文提出了一個(gè)大規(guī)模漢語(yǔ)隱喻知識(shí)庫(kù)的構(gòu)建設(shè)想:隱喻知識(shí)庫(kù)由句庫(kù)和詞庫(kù)兩部分構(gòu)成。句庫(kù)主要內(nèi)容包括漢語(yǔ)隱喻句獲取(前期可以采用檢索的方式從語(yǔ)料庫(kù)中抽取帶標(biāo)的隱喻句,即有比喻詞的句子;中期可以根據(jù)本體研究成果內(nèi)省式收集無(wú)標(biāo)的隱喻句;后期可以在隱喻類的幫助下利用機(jī)器學(xué)習(xí)的方法自動(dòng)獲取隱喻句)、句法分析(不同于其他計(jì)算語(yǔ)言學(xué)應(yīng)用領(lǐng)域的句法分析,隱喻知識(shí)庫(kù)的句法分析要能夠體現(xiàn)出句法依存關(guān)系,尤其是本體、喻體與比喻詞之間的依存關(guān)系。當(dāng)然,詞法分析也是必不可少的)、語(yǔ)義標(biāo)注和隱喻標(biāo)注。詞庫(kù)主要內(nèi)容包括詞例化隱喻類(以詞例為研究對(duì)象歸納隱喻的概念類別,概念類別類似于MML的分類;詞例化類似于Metalude或HMD中對(duì)詞例的描寫)、典型例句、隱喻域、隱喻類體系。
該隱喻知識(shí)庫(kù)的構(gòu)建目標(biāo)為句庫(kù)規(guī)模達(dá)到10萬(wàn)句,約200萬(wàn)字;詞庫(kù)規(guī)模達(dá)到5 000詞條。最終成果為一個(gè)檢索系統(tǒng):用戶可以輸入整句檢索其隱喻類,可以輸入具體詞匯檢索隱喻句,也可以輸入隱喻句檢索其隱喻類等。
參考文獻(xiàn):
[1]黃孝喜,周昌樂(lè).隱喻理解的計(jì)算模型綜述[J]. 計(jì)算機(jī)科學(xué),2006,33(8):178183.[2]王治敏.隱喻的計(jì)算研究與進(jìn)展[J].中文信息學(xué)報(bào),2006,20(4):16-24.
[3]張霄軍.隱喻與換喻計(jì)算綜述[C]//第四屆全國(guó)認(rèn)知語(yǔ)言學(xué)研討會(huì).南京:南京師范大學(xué),2006.
[4]FASS D.A method for discriminating metonymy and metaphor by computer[J].Computational Linguistics,1991,17(1):49-90.
[5]RESNIK P.Using information content to evaluate semantic similarity in a taxonomy[C]//Proc of the 14th International Joint Conference on Artificial Intelligent.Montreal:[s.n.],1995:448-453.
[6]WEINEREJA.Knowledge representationapproachtounderstanding metaphors[J].Computational Linguistics,1984,10(1): 1-14.
[7]MARTIN J H.A computational model of metaphor interpretation[M].New York:Academic Press,1990.
[8]VEALE T.Metaphor,memory and meaning:symbolic and connectioni st issues in metaphor interpretation[D].Dublin:Trinity College,1995.
[9]STEINHART E C.The logic of metaphor:analogous parts of possible worlds[M].Dordrecht: Kluwer Academic Publishers,2001.
[10]GENTNER D.Structuremapping:a theoretical framework for analogy [J].Cognitive Science,1983,7(2):155170.
[11]GENTNERD,F(xiàn)ALKENHAINERB,SKORSTADJ.Viewingmetaphoras analogy[M]//HELMAN D.Analogical reasoning.[S.l.]:Kluwer Academic Publishers,1998.
[12]HOLYOAK K J,THAGARD P.Analogical mapping by constraint satisfaction[J].Cognitive Science,1989,13(3):295-355.
[13]KINTSCH W.Metaphor comprehension:a computational theory[J].Psychonomic Bulletin Review,2000,7(2):257-266.
[14]KINTSCH W,BOWLES A.Metaphor comprehension:what makes a metaphor difficult to understand[J].Metaphor and Symbol,2002,17(4):249-262.
[15]MASON Z.Computational,corpusbased metaphor extraction system[D].[S.l.]:Brandeis University,2002.
[16]MASON Z.CorMet:a computational,corpusbased conventional metaphor extraction system[J].Computational Linguistics,2004,30(1):23-44.
[17]REDDYMJ.Theconduitmetaphor[M]//ORTONYA.Metaphorandthought.Cambridge:Cambridge University Press,1979:284-324.
[18]LAKOFF G,JOHNSON M.Metaphors we live by[M].Chicago, Illinois:University of Chicago Press,1980.
[19]GRUBERTR.Ontolingua:amechanism to support portable ontologies[R].Palo Alto:Knowledge Systems Laboratory, Stanford University,1992.
[20]李劍鋒,楊蕓,周昌樂(lè).面向隱喻計(jì)算的語(yǔ)料庫(kù)研究和建設(shè)[J]. 心智與計(jì)算,2007(1):142-146.
[21]尤昉,李涓子,王作英.基于語(yǔ)義依存關(guān)系的漢語(yǔ)語(yǔ)料庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),2002,17(1):46-53.