吳亞強(qiáng)
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
在日常交流,以及很多文學(xué)作品中,人們無時(shí)無刻不在使用帶有比喻性修辭手法的語句。以“像是”、“像”、“如”等字詞顯示地表達(dá)兩個(gè)事物之間的比較的手法,稱為明喻;與之對(duì)應(yīng)的,不含這類標(biāo)志詞的則稱為隱喻。Lakoff和Johnson于1980提出的理論[1]認(rèn)為,隱喻是一種概念映射,通過源域與目標(biāo)域之間的映射,進(jìn)一步幫助人們更好地理解抽象或復(fù)雜的概念。例如,“時(shí)間是金錢”,將時(shí)間與金錢兩個(gè)概念進(jìn)行比較,借助“金錢”寶貴、有價(jià)值的特點(diǎn),來幫助理解“時(shí)間”這個(gè)較為抽象的概念。另一種理論認(rèn)為,隱喻的出現(xiàn)必然伴隨著一定的選擇傾向性異常[2]。例如,“他咽下了那句話”,“咽下”的賓語優(yōu)先是某種食物,而這里的賓語“那句話”破壞了這種優(yōu)先級(jí),導(dǎo)致選擇傾向性異常,形成隱喻。由于隱喻性語言的普遍性和重要性,文本中隱喻表達(dá)的識(shí)別和理解,是基于語義的NLP任務(wù)中非常重要的一部分。同時(shí),有效的隱喻識(shí)別工作,對(duì)其他的NLP任務(wù)也具有一定的價(jià)值,例如機(jī)器翻譯、信息檢索、觀點(diǎn)挖掘等。
隱喻識(shí)別一般可以看成一個(gè)二分類任務(wù),即識(shí)別目標(biāo)詞在其上下文中是否是隱喻用法。詞的隱喻用法只能出現(xiàn)在特定上下文壞境中,脫離了上下文的單個(gè)詞就沒有了隱喻和非隱喻的區(qū)別。因此,隱喻識(shí)別任務(wù)本質(zhì)上就是構(gòu)建目標(biāo)詞與其上下文之間的交互,從而得到兩者之間的聯(lián)系,目前大部分工作都是在尋找其不同的交互方式。近年來,神經(jīng)網(wǎng)絡(luò)方法在自然語言處理領(lǐng)域中被廣泛應(yīng)用,主要用于文本的語義建模,因此同樣適用于隱喻識(shí)別任務(wù)中的上下文語義建模。從一開始使用預(yù)先訓(xùn)練的詞嵌入向量,使用多層感知器(MLP)算法,到之后進(jìn)一步使用LSTM(長短期記憶)、CNN(卷積神經(jīng)網(wǎng)絡(luò))等常用網(wǎng)絡(luò)結(jié)構(gòu)編碼更深層次的上下文語義信息,再到近兩年在大規(guī)模語料上預(yù)先訓(xùn)練的語言模型(ELMo、BERT等)的引入,使得隱喻識(shí)別的效果不斷提升。
本文內(nèi)容主要由以下三部分構(gòu)成:相關(guān)工作,詳細(xì)介紹近年來使用神經(jīng)網(wǎng)絡(luò)模型來解決隱喻識(shí)別任務(wù)的相關(guān)研究工作;數(shù)據(jù)集,介紹了隱喻識(shí)別任務(wù)中常用的三個(gè)數(shù)據(jù)集,即VUA、MOH-X和TroFi;結(jié)語,總結(jié)概括本文內(nèi)容,并對(duì)隱喻識(shí)別的未來研究方向作進(jìn)一步展望。
當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的隱喻識(shí)別方法的主要思想都是對(duì)目標(biāo)詞以及目標(biāo)詞的上下文進(jìn)行語義建模,然后根據(jù)目標(biāo)詞的語義和上下文語義之間的差異來判斷隱喻,如果目標(biāo)詞和上下文語義相差較大,則該目標(biāo)詞可以被認(rèn)為是隱喻,反之不是隱喻。不同的神經(jīng)網(wǎng)絡(luò)模型之間的差異就在于采用不同的語義編碼方式,從而取得了不同的效果。
Do Dinh和Gurevych[3]于2016年第一次將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于隱喻識(shí)別任務(wù)。模型只依賴于預(yù)先訓(xùn)練的、稠密的詞向量,不需要任何人工定義的特征,其方法使用全連接的前饋神經(jīng)網(wǎng)絡(luò)作為輸入層,然后使用多層感知器作為隱藏層來進(jìn)行特征編碼,最后是利用一個(gè)帶有softmax函數(shù)的輸出層來進(jìn)行預(yù)測。該工作初步探索了神經(jīng)網(wǎng)絡(luò)方法在隱喻識(shí)別任務(wù)上的應(yīng)用,并取得了較好的效果。2017年,Rei等人[4]針對(duì)短語結(jié)構(gòu)(動(dòng)名詞短語、形容詞名詞短語)的隱喻識(shí)別進(jìn)行研究,使用sigmoid函數(shù)設(shè)計(jì)門控機(jī)制來捕獲短語結(jié)構(gòu)中源域和目標(biāo)域之間的交互,并通過權(quán)重相似性來自動(dòng)進(jìn)行特征選擇,最后通過全連接層進(jìn)行預(yù)測,該模型僅適用于短語結(jié)構(gòu)的隱喻識(shí)別,所以對(duì)于一段文本,需要事先進(jìn)行短語抽取的工作,而短語抽取到隱喻識(shí)別這個(gè)過程會(huì)存在錯(cuò)誤傳播問題,因此該方法在實(shí)際應(yīng)用中具有一定的局限性。Sun等人[5]將輸入文本進(jìn)行預(yù)處理,得到三種子序列,即原始文本序列、依存關(guān)系子序列和SVO(主謂賓)結(jié)構(gòu)子序列。原始文本序列即輸入的原始形式,包含了所有文本信息;依存關(guān)系子序列包含了目標(biāo)詞(輸入文本中待識(shí)別的詞)以及在輸入文本的依存句法樹中與目標(biāo)詞有直接依賴關(guān)系的詞;SVO(主謂賓)結(jié)構(gòu)子序列包含目標(biāo)詞和該目標(biāo)詞的主語和賓語。然后,作者將這三種序列分別作為雙向LSTM(長短期記憶)的輸入,使用LSTM網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行語義編碼,再將三種序列的語義編碼進(jìn)行拼接,構(gòu)成完整的特征向量,最后使用全連接層進(jìn)行分類預(yù)測。
在2018VUA隱喻識(shí)別共享任務(wù)中,大量使用了神經(jīng)網(wǎng)絡(luò)模型的方法被提出,其中RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、RNN的變體LSTM、CNN(卷積神經(jīng)網(wǎng)絡(luò))等網(wǎng)絡(luò)結(jié)構(gòu)被充分利用。Wu等人[6]提出的方法在該共享任務(wù)中取得了最好效果,其模型將預(yù)先訓(xùn)練的詞向量、詞性標(biāo)簽和詞聚類信息結(jié)合起來構(gòu)成詞的嵌入表達(dá),然后將CNN和LSTM相結(jié)合,利用CNN捕獲局部上下文信息,用LSTM捕獲遠(yuǎn)距離上下文信息,最終使用全連接層進(jìn)行預(yù)測。
Gao等人[7]首次將預(yù)先訓(xùn)練的語言模型引入隱喻識(shí)別任務(wù),將ELMo詞向量和GloVe詞向量結(jié)合,作為底層詞的嵌入表達(dá),上層采用雙向LSTM結(jié)構(gòu)進(jìn)行上下文語義編碼,將每個(gè)詞的前向LSTM輸出和后向LSTM的輸出拼接,得到完整特征向量,最后采用序列標(biāo)注的框架,對(duì)輸入句子中的每個(gè)詞同時(shí)進(jìn)行預(yù)測,實(shí)驗(yàn)表明采用序列標(biāo)注方式同時(shí)進(jìn)行預(yù)測相對(duì)于只針對(duì)目標(biāo)詞進(jìn)行預(yù)測的方式,可以取得更好效果。Gao等人的工作證明了含有豐富上下文語義信息的語言模型在隱喻識(shí)別任務(wù)上的重要作用,將LSTM和語言模型相結(jié)合即可取得較好效果。
隱喻識(shí)別通常伴隨著兩大理論,一種理論認(rèn)為隱喻詞通常與其所在上下文存在語義沖突,即語義上的不連貫性,該理論也被稱作選擇傾向性異常(Selectional Preference Violation,SPV),另一種理論認(rèn)為隱喻詞在其特定上下文中所表達(dá)的語義與該詞本身的常見語義存在沖突,被稱為Metaphor Identification Procedure(MIP)。Mao等人[8]發(fā)現(xiàn)現(xiàn)有的隱喻識(shí)別任務(wù)中,所有的端到端神經(jīng)網(wǎng)絡(luò)模型均采用通用的語義編碼結(jié)構(gòu)(LSTM、CNN等),并沒有顯式的利用隱喻識(shí)別中的語言學(xué)相關(guān)理論,故作者基于SPV理論和MIP理論提出兩種神經(jīng)網(wǎng)絡(luò)模型,兩種模型在該任務(wù)上均取得了當(dāng)前最好效果。另外,在詞的底層嵌入編碼階段,作者繼續(xù)使用了ELMo詞向量和GloVe詞向量相結(jié)合的方式。

表1 VUA語料分布情況
語料中一部分詞被標(biāo)注為function=“mrw”(Metaphor related word-隱喻相關(guān)詞),“mrw”詞的type標(biāo)簽又分為“met”和“l(fā)it”兩種,一般而言,type=“l(fā)it”情況下,前面通常使用了顯示的連接詞(如:like,seem,as if等),屬于明喻,因此通常會(huì)將語料中標(biāo)注了function=“mrw”且type=“met”的詞視為隱喻詞,其他標(biāo)注的詞或未標(biāo)注的詞均視為非隱喻詞。
MOH-X[10]語料為MOH語料的子集,語料中的文本均來自于WordNet詞典,語料中的句子長度較短。
TroFi[11]語料來自華爾街日?qǐng)?bào)(The 1987-89 WSJ Corpus Release 1),語料中對(duì)50個(gè)動(dòng)詞進(jìn)行了標(biāo)注,同時(shí)包含了這些詞的字面意義用法和隱喻用法。數(shù)據(jù)包含三個(gè)字段,第一個(gè)字段用來標(biāo)記該樣例文本在華爾街日?qǐng)?bào)中所處的位置,第二個(gè)字段用來表示標(biāo)簽,包含三種值:L(Literal)、N(Nonliteral)和 U(Unannotated),第三個(gè)字段即為樣例文本,每個(gè)樣例句以“./.”結(jié)尾。
隱喻是文本中的一種常見語言現(xiàn)象,隱喻識(shí)別是自然語言處理中的一個(gè)重要任務(wù)。本文通過對(duì)隱喻現(xiàn)象進(jìn)行簡要描述,并對(duì)隱喻識(shí)別任務(wù)進(jìn)行分析,得出隱喻識(shí)別任務(wù)本質(zhì)上就是構(gòu)建目標(biāo)詞與其上下文之間的交互,從而得到兩者之間的聯(lián)系。本文主要介紹了在神經(jīng)網(wǎng)絡(luò)方法的基礎(chǔ)上,隱喻識(shí)別所取得的成就,對(duì)相關(guān)文獻(xiàn)的做法進(jìn)行了簡單概括并總結(jié)。最后,本文介紹了該任務(wù)上的三個(gè)常用數(shù)據(jù)集。
本文認(rèn)為,隱喻識(shí)別任務(wù)未來的研究方向依然還是對(duì)上下文進(jìn)行更深層次的語義編碼,具體來說,在大規(guī)模語料上預(yù)先訓(xùn)練的語言模型將會(huì)起到至關(guān)重要的作用。