999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經(jīng)網(wǎng)絡(luò)方法的隱喻識(shí)別研究綜述

2020-04-08 07:52:30吳亞強(qiáng)
現(xiàn)代計(jì)算機(jī) 2020年7期
關(guān)鍵詞:語義文本模型

吳亞強(qiáng)

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

0 引言

在日常交流,以及很多文學(xué)作品中,人們無時(shí)無刻不在使用帶有比喻性修辭手法的語句。以“像是”、“像”、“如”等字詞顯示地表達(dá)兩個(gè)事物之間的比較的手法,稱為明喻;與之對(duì)應(yīng)的,不含這類標(biāo)志詞的則稱為隱喻。Lakoff和Johnson于1980提出的理論[1]認(rèn)為,隱喻是一種概念映射,通過源域與目標(biāo)域之間的映射,進(jìn)一步幫助人們更好地理解抽象或復(fù)雜的概念。例如,“時(shí)間是金錢”,將時(shí)間與金錢兩個(gè)概念進(jìn)行比較,借助“金錢”寶貴、有價(jià)值的特點(diǎn),來幫助理解“時(shí)間”這個(gè)較為抽象的概念。另一種理論認(rèn)為,隱喻的出現(xiàn)必然伴隨著一定的選擇傾向性異常[2]。例如,“他咽下了那句話”,“咽下”的賓語優(yōu)先是某種食物,而這里的賓語“那句話”破壞了這種優(yōu)先級(jí),導(dǎo)致選擇傾向性異常,形成隱喻。由于隱喻性語言的普遍性和重要性,文本中隱喻表達(dá)的識(shí)別和理解,是基于語義的NLP任務(wù)中非常重要的一部分。同時(shí),有效的隱喻識(shí)別工作,對(duì)其他的NLP任務(wù)也具有一定的價(jià)值,例如機(jī)器翻譯、信息檢索、觀點(diǎn)挖掘等。

隱喻識(shí)別一般可以看成一個(gè)二分類任務(wù),即識(shí)別目標(biāo)詞在其上下文中是否是隱喻用法。詞的隱喻用法只能出現(xiàn)在特定上下文壞境中,脫離了上下文的單個(gè)詞就沒有了隱喻和非隱喻的區(qū)別。因此,隱喻識(shí)別任務(wù)本質(zhì)上就是構(gòu)建目標(biāo)詞與其上下文之間的交互,從而得到兩者之間的聯(lián)系,目前大部分工作都是在尋找其不同的交互方式。近年來,神經(jīng)網(wǎng)絡(luò)方法在自然語言處理領(lǐng)域中被廣泛應(yīng)用,主要用于文本的語義建模,因此同樣適用于隱喻識(shí)別任務(wù)中的上下文語義建模。從一開始使用預(yù)先訓(xùn)練的詞嵌入向量,使用多層感知器(MLP)算法,到之后進(jìn)一步使用LSTM(長短期記憶)、CNN(卷積神經(jīng)網(wǎng)絡(luò))等常用網(wǎng)絡(luò)結(jié)構(gòu)編碼更深層次的上下文語義信息,再到近兩年在大規(guī)模語料上預(yù)先訓(xùn)練的語言模型(ELMo、BERT等)的引入,使得隱喻識(shí)別的效果不斷提升。

本文內(nèi)容主要由以下三部分構(gòu)成:相關(guān)工作,詳細(xì)介紹近年來使用神經(jīng)網(wǎng)絡(luò)模型來解決隱喻識(shí)別任務(wù)的相關(guān)研究工作;數(shù)據(jù)集,介紹了隱喻識(shí)別任務(wù)中常用的三個(gè)數(shù)據(jù)集,即VUA、MOH-X和TroFi;結(jié)語,總結(jié)概括本文內(nèi)容,并對(duì)隱喻識(shí)別的未來研究方向作進(jìn)一步展望。

1 相關(guān)研究

當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的隱喻識(shí)別方法的主要思想都是對(duì)目標(biāo)詞以及目標(biāo)詞的上下文進(jìn)行語義建模,然后根據(jù)目標(biāo)詞的語義和上下文語義之間的差異來判斷隱喻,如果目標(biāo)詞和上下文語義相差較大,則該目標(biāo)詞可以被認(rèn)為是隱喻,反之不是隱喻。不同的神經(jīng)網(wǎng)絡(luò)模型之間的差異就在于采用不同的語義編碼方式,從而取得了不同的效果。

Do Dinh和Gurevych[3]于2016年第一次將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于隱喻識(shí)別任務(wù)。模型只依賴于預(yù)先訓(xùn)練的、稠密的詞向量,不需要任何人工定義的特征,其方法使用全連接的前饋神經(jīng)網(wǎng)絡(luò)作為輸入層,然后使用多層感知器作為隱藏層來進(jìn)行特征編碼,最后是利用一個(gè)帶有softmax函數(shù)的輸出層來進(jìn)行預(yù)測。該工作初步探索了神經(jīng)網(wǎng)絡(luò)方法在隱喻識(shí)別任務(wù)上的應(yīng)用,并取得了較好的效果。2017年,Rei等人[4]針對(duì)短語結(jié)構(gòu)(動(dòng)名詞短語、形容詞名詞短語)的隱喻識(shí)別進(jìn)行研究,使用sigmoid函數(shù)設(shè)計(jì)門控機(jī)制來捕獲短語結(jié)構(gòu)中源域和目標(biāo)域之間的交互,并通過權(quán)重相似性來自動(dòng)進(jìn)行特征選擇,最后通過全連接層進(jìn)行預(yù)測,該模型僅適用于短語結(jié)構(gòu)的隱喻識(shí)別,所以對(duì)于一段文本,需要事先進(jìn)行短語抽取的工作,而短語抽取到隱喻識(shí)別這個(gè)過程會(huì)存在錯(cuò)誤傳播問題,因此該方法在實(shí)際應(yīng)用中具有一定的局限性。Sun等人[5]將輸入文本進(jìn)行預(yù)處理,得到三種子序列,即原始文本序列、依存關(guān)系子序列和SVO(主謂賓)結(jié)構(gòu)子序列。原始文本序列即輸入的原始形式,包含了所有文本信息;依存關(guān)系子序列包含了目標(biāo)詞(輸入文本中待識(shí)別的詞)以及在輸入文本的依存句法樹中與目標(biāo)詞有直接依賴關(guān)系的詞;SVO(主謂賓)結(jié)構(gòu)子序列包含目標(biāo)詞和該目標(biāo)詞的主語和賓語。然后,作者將這三種序列分別作為雙向LSTM(長短期記憶)的輸入,使用LSTM網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行語義編碼,再將三種序列的語義編碼進(jìn)行拼接,構(gòu)成完整的特征向量,最后使用全連接層進(jìn)行分類預(yù)測。

在2018VUA隱喻識(shí)別共享任務(wù)中,大量使用了神經(jīng)網(wǎng)絡(luò)模型的方法被提出,其中RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、RNN的變體LSTM、CNN(卷積神經(jīng)網(wǎng)絡(luò))等網(wǎng)絡(luò)結(jié)構(gòu)被充分利用。Wu等人[6]提出的方法在該共享任務(wù)中取得了最好效果,其模型將預(yù)先訓(xùn)練的詞向量、詞性標(biāo)簽和詞聚類信息結(jié)合起來構(gòu)成詞的嵌入表達(dá),然后將CNN和LSTM相結(jié)合,利用CNN捕獲局部上下文信息,用LSTM捕獲遠(yuǎn)距離上下文信息,最終使用全連接層進(jìn)行預(yù)測。

Gao等人[7]首次將預(yù)先訓(xùn)練的語言模型引入隱喻識(shí)別任務(wù),將ELMo詞向量和GloVe詞向量結(jié)合,作為底層詞的嵌入表達(dá),上層采用雙向LSTM結(jié)構(gòu)進(jìn)行上下文語義編碼,將每個(gè)詞的前向LSTM輸出和后向LSTM的輸出拼接,得到完整特征向量,最后采用序列標(biāo)注的框架,對(duì)輸入句子中的每個(gè)詞同時(shí)進(jìn)行預(yù)測,實(shí)驗(yàn)表明采用序列標(biāo)注方式同時(shí)進(jìn)行預(yù)測相對(duì)于只針對(duì)目標(biāo)詞進(jìn)行預(yù)測的方式,可以取得更好效果。Gao等人的工作證明了含有豐富上下文語義信息的語言模型在隱喻識(shí)別任務(wù)上的重要作用,將LSTM和語言模型相結(jié)合即可取得較好效果。

隱喻識(shí)別通常伴隨著兩大理論,一種理論認(rèn)為隱喻詞通常與其所在上下文存在語義沖突,即語義上的不連貫性,該理論也被稱作選擇傾向性異常(Selectional Preference Violation,SPV),另一種理論認(rèn)為隱喻詞在其特定上下文中所表達(dá)的語義與該詞本身的常見語義存在沖突,被稱為Metaphor Identification Procedure(MIP)。Mao等人[8]發(fā)現(xiàn)現(xiàn)有的隱喻識(shí)別任務(wù)中,所有的端到端神經(jīng)網(wǎng)絡(luò)模型均采用通用的語義編碼結(jié)構(gòu)(LSTM、CNN等),并沒有顯式的利用隱喻識(shí)別中的語言學(xué)相關(guān)理論,故作者基于SPV理論和MIP理論提出兩種神經(jīng)網(wǎng)絡(luò)模型,兩種模型在該任務(wù)上均取得了當(dāng)前最好效果。另外,在詞的底層嵌入編碼階段,作者繼續(xù)使用了ELMo詞向量和GloVe詞向量相結(jié)合的方式。

2 數(shù)據(jù)集

2.1 VU A

VUA(VU Amsterdam Metaphor Corpus)[9]是隱喻識(shí)別任務(wù)中目前公開的最大的人工標(biāo)注的,跨領(lǐng)域的比喻性語言語料,由四大類文本組成,即學(xué)術(shù)文本、小說文本、新聞文本、對(duì)話文本,語料包含2626個(gè)段落(標(biāo)簽),16000多個(gè)句子(標(biāo)簽),20萬詞匯量(標(biāo)簽),其中對(duì)話文本不存在段落標(biāo)簽,而是用標(biāo)簽來表示每一輪對(duì)話。該語料是基于MIPVU隱喻識(shí)別規(guī)則,并從BNC-Baby中選擇一部分文本進(jìn)行標(biāo)注而得到,標(biāo)注Kappa值超過0.8,其文本大致分布見表1。

表1 VUA語料分布情況

語料中一部分詞被標(biāo)注為function=“mrw”(Metaphor related word-隱喻相關(guān)詞),“mrw”詞的type標(biāo)簽又分為“met”和“l(fā)it”兩種,一般而言,type=“l(fā)it”情況下,前面通常使用了顯示的連接詞(如:like,seem,as if等),屬于明喻,因此通常會(huì)將語料中標(biāo)注了function=“mrw”且type=“met”的詞視為隱喻詞,其他標(biāo)注的詞或未標(biāo)注的詞均視為非隱喻詞。

2.2 MOH-X

MOH-X[10]語料為MOH語料的子集,語料中的文本均來自于WordNet詞典,語料中的句子長度較短。

2.3 TroFi

TroFi[11]語料來自華爾街日?qǐng)?bào)(The 1987-89 WSJ Corpus Release 1),語料中對(duì)50個(gè)動(dòng)詞進(jìn)行了標(biāo)注,同時(shí)包含了這些詞的字面意義用法和隱喻用法。數(shù)據(jù)包含三個(gè)字段,第一個(gè)字段用來標(biāo)記該樣例文本在華爾街日?qǐng)?bào)中所處的位置,第二個(gè)字段用來表示標(biāo)簽,包含三種值:L(Literal)、N(Nonliteral)和 U(Unannotated),第三個(gè)字段即為樣例文本,每個(gè)樣例句以“./.”結(jié)尾。

3 結(jié)語

隱喻是文本中的一種常見語言現(xiàn)象,隱喻識(shí)別是自然語言處理中的一個(gè)重要任務(wù)。本文通過對(duì)隱喻現(xiàn)象進(jìn)行簡要描述,并對(duì)隱喻識(shí)別任務(wù)進(jìn)行分析,得出隱喻識(shí)別任務(wù)本質(zhì)上就是構(gòu)建目標(biāo)詞與其上下文之間的交互,從而得到兩者之間的聯(lián)系。本文主要介紹了在神經(jīng)網(wǎng)絡(luò)方法的基礎(chǔ)上,隱喻識(shí)別所取得的成就,對(duì)相關(guān)文獻(xiàn)的做法進(jìn)行了簡單概括并總結(jié)。最后,本文介紹了該任務(wù)上的三個(gè)常用數(shù)據(jù)集。

本文認(rèn)為,隱喻識(shí)別任務(wù)未來的研究方向依然還是對(duì)上下文進(jìn)行更深層次的語義編碼,具體來說,在大規(guī)模語料上預(yù)先訓(xùn)練的語言模型將會(huì)起到至關(guān)重要的作用。

猜你喜歡
語義文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 日韩无码一二三区| 国产综合精品一区二区| 18禁黄无遮挡免费动漫网站| 国产在线自乱拍播放| 亚洲欧美日韩精品专区| 欧美一区二区三区不卡免费| 久久无码av三级| 色欲色欲久久综合网| 国产一区二区精品福利| 99re热精品视频国产免费| 在线观看精品国产入口| 日本三区视频| 亚洲一区二区成人| 一本大道香蕉中文日本不卡高清二区| 国产欧美日韩专区发布| 美女国产在线| 国产又粗又猛又爽| 欧美丝袜高跟鞋一区二区| 国产成人精品高清不卡在线| 亚洲精品第1页| 97国产在线观看| 一级一级一片免费| 国产黄在线观看| 国产在线91在线电影| 精品国产福利在线| 亚洲天堂777| 午夜人性色福利无码视频在线观看| 国产一在线观看| 国产97视频在线观看| 91成人精品视频| 日本精品中文字幕在线不卡| 国产成人亚洲精品色欲AV| 欧美成人h精品网站| 亚洲三级电影在线播放| 亚洲伊人电影| 国产免费怡红院视频| 亚洲高清国产拍精品26u| 久久国产亚洲欧美日韩精品| 91久久夜色精品国产网站| 国产视频只有无码精品| 在线不卡免费视频| 国产免费久久精品99re不卡| 亚洲国产日韩一区| 国产第二十一页| 国产在线一二三区| 91区国产福利在线观看午夜 | 在线观看国产网址你懂的| 97在线视频免费观看| 欧美国产日韩在线播放| 日本妇乱子伦视频| 毛片在线播放a| 九色91在线视频| 日韩精品一区二区三区swag| 久久久久久尹人网香蕉| 国产精品深爱在线| 97综合久久| 五月婷婷综合网| 1769国产精品免费视频| 精品国产免费观看| 超碰色了色| 国产毛片基地| 亚洲国产欧美中日韩成人综合视频| 三上悠亚一区二区| 欧洲一区二区三区无码| 亚洲v日韩v欧美在线观看| 91久久偷偷做嫩草影院精品| 999在线免费视频| 天堂网亚洲系列亚洲系列| 色网站免费在线观看| 久久精品中文字幕少妇| 午夜国产在线观看| 色首页AV在线| 亚洲国产综合自在线另类| 久久精品人人做人人爽电影蜜月| 国内精品一区二区在线观看| 2021天堂在线亚洲精品专区| 88国产经典欧美一区二区三区| 婷婷亚洲天堂| 日韩欧美中文| 免费视频在线2021入口| 色婷婷狠狠干| 青青热久麻豆精品视频在线观看|