基于神經(jīng)網(wǎng)絡(luò)方法的隱喻識(shí)別研究綜述

2020-04-08 07:52:30吳亞強(qiáng)

現(xiàn)代計(jì)算機(jī) 2020年7期

吳亞強(qiáng)

（四川大學(xué)計(jì)算機(jī)學(xué)院，成都 610065）

0 引言

在日常交流，以及很多文學(xué)作品中，人們無時(shí)無刻不在使用帶有比喻性修辭手法的語句。以“像是”、“像”、“如”等字詞顯示地表達(dá)兩個(gè)事物之間的比較的手法，稱為明喻；與之對(duì)應(yīng)的，不含這類標(biāo)志詞的則稱為隱喻。Lakoff和Johnson于1980提出的理論[1]認(rèn)為，隱喻是一種概念映射，通過源域與目標(biāo)域之間的映射，進(jìn)一步幫助人們更好地理解抽象或復(fù)雜的概念。例如，“時(shí)間是金錢”，將時(shí)間與金錢兩個(gè)概念進(jìn)行比較，借助“金錢”寶貴、有價(jià)值的特點(diǎn)，來幫助理解“時(shí)間”這個(gè)較為抽象的概念。另一種理論認(rèn)為，隱喻的出現(xiàn)必然伴隨著一定的選擇傾向性異常[2]。例如，“他咽下了那句話”，“咽下”的賓語優(yōu)先是某種食物，而這里的賓語“那句話”破壞了這種優(yōu)先級(jí)，導(dǎo)致選擇傾向性異常，形成隱喻。由于隱喻性語言的普遍性和重要性，文本中隱喻表達(dá)的識(shí)別和理解，是基于語義的NLP任務(wù)中非常重要的一部分。同時(shí)，有效的隱喻識(shí)別工作，對(duì)其他的NLP任務(wù)也具有一定的價(jià)值，例如機(jī)器翻譯、信息檢索、觀點(diǎn)挖掘等。

隱喻識(shí)別一般可以看成一個(gè)二分類任務(wù)，即識(shí)別目標(biāo)詞在其上下文中是否是隱喻用法。詞的隱喻用法只能出現(xiàn)在特定上下文壞境中，脫離了上下文的單個(gè)詞就沒有了隱喻和非隱喻的區(qū)別。因此，隱喻識(shí)別任務(wù)本質(zhì)上就是構(gòu)建目標(biāo)詞與其上下文之間的交互，從而得到兩者之間的聯(lián)系，目前大部分工作都是在尋找其不同的交互方式。近年來，神經(jīng)網(wǎng)絡(luò)方法在自然語言處理領(lǐng)域中被廣泛應(yīng)用，主要用于文本的語義建模，因此同樣適用于隱喻識(shí)別任務(wù)中的上下文語義建模。從一開始使用預(yù)先訓(xùn)練的詞嵌入向量，使用多層感知器（MLP）算法，到之后進(jìn)一步使用LSTM（長短期記憶）、CNN（卷積神經(jīng)網(wǎng)絡(luò)）等常用網(wǎng)絡(luò)結(jié)構(gòu)編碼更深層次的上下文語義信息，再到近兩年在大規(guī)模語料上預(yù)先訓(xùn)練的語言模型（ELMo、BERT等）的引入，使得隱喻識(shí)別的效果不斷提升。

本文內(nèi)容主要由以下三部分構(gòu)成：相關(guān)工作，詳細(xì)介紹近年來使用神經(jīng)網(wǎng)絡(luò)模型來解決隱喻識(shí)別任務(wù)的相關(guān)研究工作；數(shù)據(jù)集，介紹了隱喻識(shí)別任務(wù)中常用的三個(gè)數(shù)據(jù)集，即VUA、MOH-X和TroFi；結(jié)語，總結(jié)概括本文內(nèi)容，并對(duì)隱喻識(shí)別的未來研究方向作進(jìn)一步展望。

1 相關(guān)研究

當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的隱喻識(shí)別方法的主要思想都是對(duì)目標(biāo)詞以及目標(biāo)詞的上下文進(jìn)行語義建模，然后根據(jù)目標(biāo)詞的語義和上下文語義之間的差異來判斷隱喻，如果目標(biāo)詞和上下文語義相差較大，則該目標(biāo)詞可以被認(rèn)為是隱喻，反之不是隱喻。不同的神經(jīng)網(wǎng)絡(luò)模型之間的差異就在于采用不同的語義編碼方式，從而取得了不同的效果。

Do Dinh和Gurevych[3]于2016年第一次將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于隱喻識(shí)別任務(wù)。模型只依賴于預(yù)先訓(xùn)練的、稠密的詞向量，不需要任何人工定義的特征，其方法使用全連接的前饋神經(jīng)網(wǎng)絡(luò)作為輸入層，然后使用多層感知器作為隱藏層來進(jìn)行特征編碼，最后是利用一個(gè)帶有softmax函數(shù)的輸出層來進(jìn)行預(yù)測。該工作初步探索了神經(jīng)網(wǎng)絡(luò)方法在隱喻識(shí)別任務(wù)上的應(yīng)用，并取得了較好的效果。2017年，Rei等人[4]針對(duì)短語結(jié)構(gòu)（動(dòng)名詞短語、形容詞名詞短語）的隱喻識(shí)別進(jìn)行研究，使用sigmoid函數(shù)設(shè)計(jì)門控機(jī)制來捕獲短語結(jié)構(gòu)中源域和目標(biāo)域之間的交互，并通過權(quán)重相似性來自動(dòng)進(jìn)行特征選擇，最后通過全連接層進(jìn)行預(yù)測，該模型僅適用于短語結(jié)構(gòu)的隱喻識(shí)別，所以對(duì)于一段文本，需要事先進(jìn)行短語抽取的工作，而短語抽取到隱喻識(shí)別這個(gè)過程會(huì)存在錯(cuò)誤傳播問題，因此該方法在實(shí)際應(yīng)用中具有一定的局限性。Sun等人[5]將輸入文本進(jìn)行預(yù)處理，得到三種子序列，即原始文本序列、依存關(guān)系子序列和SVO（主謂賓）結(jié)構(gòu)子序列。原始文本序列即輸入的原始形式，包含了所有文本信息；依存關(guān)系子序列包含了目標(biāo)詞（輸入文本中待識(shí)別的詞）以及在輸入文本的依存句法樹中與目標(biāo)詞有直接依賴關(guān)系的詞；SVO（主謂賓）結(jié)構(gòu)子序列包含目標(biāo)詞和該目標(biāo)詞的主語和賓語。然后，作者將這三種序列分別作為雙向LSTM（長短期記憶）的輸入，使用LSTM網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行語義編碼，再將三種序列的語義編碼進(jìn)行拼接，構(gòu)成完整的特征向量，最后使用全連接層進(jìn)行分類預(yù)測。

在2018VUA隱喻識(shí)別共享任務(wù)中，大量使用了神經(jīng)網(wǎng)絡(luò)模型的方法被提出，其中RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）、RNN的變體LSTM、CNN（卷積神經(jīng)網(wǎng)絡(luò)）等網(wǎng)絡(luò)結(jié)構(gòu)被充分利用。Wu等人[6]提出的方法在該共享任務(wù)中取得了最好效果，其模型將預(yù)先訓(xùn)練的詞向量、詞性標(biāo)簽和詞聚類信息結(jié)合起來構(gòu)成詞的嵌入表達(dá)，然后將CNN和LSTM相結(jié)合，利用CNN捕獲局部上下文信息，用LSTM捕獲遠(yuǎn)距離上下文信息，最終使用全連接層進(jìn)行預(yù)測。

Gao等人[7]首次將預(yù)先訓(xùn)練的語言模型引入隱喻識(shí)別任務(wù)，將ELMo詞向量和GloVe詞向量結(jié)合，作為底層詞的嵌入表達(dá)，上層采用雙向LSTM結(jié)構(gòu)進(jìn)行上下文語義編碼，將每個(gè)詞的前向LSTM輸出和后向LSTM的輸出拼接，得到完整特征向量，最后采用序列標(biāo)注的框架，對(duì)輸入句子中的每個(gè)詞同時(shí)進(jìn)行預(yù)測，實(shí)驗(yàn)表明采用序列標(biāo)注方式同時(shí)進(jìn)行預(yù)測相對(duì)于只針對(duì)目標(biāo)詞進(jìn)行預(yù)測的方式，可以取得更好效果。Gao等人的工作證明了含有豐富上下文語義信息的語言模型在隱喻識(shí)別任務(wù)上的重要作用，將LSTM和語言模型相結(jié)合即可取得較好效果。

隱喻識(shí)別通常伴隨著兩大理論，一種理論認(rèn)為隱喻詞通常與其所在上下文存在語義沖突，即語義上的不連貫性，該理論也被稱作選擇傾向性異常（Selectional Preference Violation，SPV），另一種理論認(rèn)為隱喻詞在其特定上下文中所表達(dá)的語義與該詞本身的常見語義存在沖突，被稱為Metaphor Identification Procedure（MIP）。Mao等人[8]發(fā)現(xiàn)現(xiàn)有的隱喻識(shí)別任務(wù)中，所有的端到端神經(jīng)網(wǎng)絡(luò)模型均采用通用的語義編碼結(jié)構(gòu)（LSTM、CNN等），并沒有顯式的利用隱喻識(shí)別中的語言學(xué)相關(guān)理論，故作者基于SPV理論和MIP理論提出兩種神經(jīng)網(wǎng)絡(luò)模型，兩種模型在該任務(wù)上均取得了當(dāng)前最好效果。另外，在詞的底層嵌入編碼階段，作者繼續(xù)使用了ELMo詞向量和GloVe詞向量相結(jié)合的方式。

2 數(shù)據(jù)集

2.1 VU A

VUA（VU Amsterdam Metaphor Corpus）[9]是隱喻識(shí)別任務(wù)中目前公開的最大的人工標(biāo)注的，跨領(lǐng)域的比喻性語言語料，由四大類文本組成，即學(xué)術(shù)文本、小說文本、新聞文本、對(duì)話文本，語料包含2626個(gè)段落（標(biāo)簽），16000多個(gè)句子（標(biāo)簽）,20萬詞匯量（標(biāo)簽），其中對(duì)話文本不存在段落標(biāo)簽，而是用標(biāo)簽來表示每一輪對(duì)話。該語料是基于MIPVU隱喻識(shí)別規(guī)則，并從BNC-Baby中選擇一部分文本進(jìn)行標(biāo)注而得到，標(biāo)注Kappa值超過0.8，其文本大致分布見表1。

表1 VUA語料分布情況

語料中一部分詞被標(biāo)注為function=“mrw”（Metaphor related word-隱喻相關(guān)詞），“mrw”詞的type標(biāo)簽又分為“met”和“l(fā)it”兩種，一般而言，type=“l(fā)it”情況下，前面通常使用了顯示的連接詞（如：like，seem，as if等），屬于明喻，因此通常會(huì)將語料中標(biāo)注了function=“mrw”且type=“met”的詞視為隱喻詞，其他標(biāo)注的詞或未標(biāo)注的詞均視為非隱喻詞。

2.2 MOH-X

MOH-X[10]語料為MOH語料的子集，語料中的文本均來自于WordNet詞典，語料中的句子長度較短。

2.3 TroFi

TroFi[11]語料來自華爾街日?qǐng)?bào)（The 1987-89 WSJ Corpus Release 1），語料中對(duì)50個(gè)動(dòng)詞進(jìn)行了標(biāo)注，同時(shí)包含了這些詞的字面意義用法和隱喻用法。數(shù)據(jù)包含三個(gè)字段，第一個(gè)字段用來標(biāo)記該樣例文本在華爾街日?qǐng)?bào)中所處的位置，第二個(gè)字段用來表示標(biāo)簽，包含三種值：L（Literal）、N（Nonliteral）和 U（Unannotated），第三個(gè)字段即為樣例文本，每個(gè)樣例句以“./.”結(jié)尾。

3 結(jié)語

隱喻是文本中的一種常見語言現(xiàn)象，隱喻識(shí)別是自然語言處理中的一個(gè)重要任務(wù)。本文通過對(duì)隱喻現(xiàn)象進(jìn)行簡要描述，并對(duì)隱喻識(shí)別任務(wù)進(jìn)行分析，得出隱喻識(shí)別任務(wù)本質(zhì)上就是構(gòu)建目標(biāo)詞與其上下文之間的交互，從而得到兩者之間的聯(lián)系。本文主要介紹了在神經(jīng)網(wǎng)絡(luò)方法的基礎(chǔ)上，隱喻識(shí)別所取得的成就，對(duì)相關(guān)文獻(xiàn)的做法進(jìn)行了簡單概括并總結(jié)。最后，本文介紹了該任務(wù)上的三個(gè)常用數(shù)據(jù)集。

本文認(rèn)為，隱喻識(shí)別任務(wù)未來的研究方向依然還是對(duì)上下文進(jìn)行更深層次的語義編碼，具體來說，在大規(guī)模語料上預(yù)先訓(xùn)練的語言模型將會(huì)起到至關(guān)重要的作用。