詹 飛,朱艷輝,梁文桐,冀相冰
(1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412007;2.湖南工業(yè)大學(xué) 智能信息感知及處理技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南 株洲 412007)
近年來(lái),大規(guī)模中文通用知識(shí)圖譜的發(fā)展給國(guó)內(nèi)人工智能領(lǐng)域的發(fā)展帶來(lái)了新的機(jī)遇。實(shí)體鏈接作為命名實(shí)體識(shí)別任務(wù)的后續(xù)任務(wù),是知識(shí)圖譜構(gòu)建和補(bǔ)全過(guò)程中的關(guān)鍵一環(huán)。實(shí)體鏈接任務(wù)的目標(biāo)是將文本中識(shí)別的實(shí)體指稱和該實(shí)體指稱在給定知識(shí)庫(kù)中對(duì)應(yīng)的實(shí)體相關(guān)聯(lián),通常可以將實(shí)體鏈接分解為兩個(gè)串行的子任務(wù):候選實(shí)體生成和候選實(shí)體排序。候選實(shí)體生成階段為當(dāng)前實(shí)體指稱過(guò)濾掉知識(shí)庫(kù)中的大部分不相關(guān)實(shí)體,得到候選實(shí)體集。候選實(shí)體集中通常包含多于一個(gè)候選實(shí)體,在候選實(shí)體排序階段對(duì)候選實(shí)體集中的實(shí)體和當(dāng)前實(shí)體指稱進(jìn)行相似度打分并排序,得分最高的實(shí)體即為當(dāng)前實(shí)體指稱的目標(biāo)鏈接實(shí)體。實(shí)體鏈接任務(wù)的關(guān)鍵挑戰(zhàn)即為如何有效利用實(shí)體指稱和候選實(shí)體的相關(guān)信息來(lái)對(duì)二者進(jìn)行相似度打分。
現(xiàn)有實(shí)體鏈接工作的重點(diǎn)集中在候選實(shí)體排序階段。隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)技術(shù)被廣泛地應(yīng)用到自然語(yǔ)言處理領(lǐng)域的多項(xiàng)任務(wù)中,并取得了很好的效果。針對(duì)實(shí)體鏈接任務(wù),He Z.Y.等[1]提出一種基于深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)的方法來(lái)進(jìn)行實(shí)體鏈接,通過(guò)深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)實(shí)體和上下文的特征表示,端到端地進(jìn)行實(shí)體鏈接,避免了人工設(shè)計(jì)特征,當(dāng)時(shí)在兩個(gè)公開(kāi)實(shí)體鏈接數(shù)據(jù)集上取得了最先進(jìn)的性能。……
湖南工業(yè)大學(xué)學(xué)報(bào)
2020年4期