李少杰 陳曙東 郝悅星 歐陽小葉 龔立晨
(*中國科學(xué)院大學(xué)微電子學(xué)院 北京 100049)(**中國科學(xué)院微電子研究所 北京 100029)
近年來知識圖譜技術(shù)發(fā)展越來越快,在自然語言處理領(lǐng)域有了越來越多的應(yīng)用,如機器閱讀[1]和知識問答[2]。知識圖譜是圖結(jié)構(gòu)的知識庫,旨在描述真實世界中存在的各種實體及其關(guān)系,其構(gòu)成一張巨大的語義網(wǎng)絡(luò)圖,它的節(jié)點代表實體,邊代表連接2個實體之間的關(guān)系,邊和兩端的節(jié)點組成一個三元組。一般形式為(頭實體,關(guān)系,尾實體),比如:(希區(qū)柯克,導(dǎo)演,驚魂記),也可以縮寫為(h,r,t)。然而,一些大規(guī)模的知識圖譜,比如世界知識庫Freebase[3]、百科知識庫DBpedia[4]和多語言知識庫YAGO[5],通常是不完整的,缺少大量的合理三元組[6,7],知識補全(又稱為鏈接預(yù)測)任務(wù)[8]被提出來解決這個問題。知識補全也稱為鏈接預(yù)測,即預(yù)測一個三元組(h,r,t)是否是合理的知識,所采用的方法主要是基于知識表示的模型。知識表示旨在把圖譜中的三元組投射到一個連續(xù)的向量空間,使得可以在低維空間中高效計算實體和關(guān)系的語義聯(lián)系,有利于大量下游知識補全等任務(wù)的計算。知識表示的模型大致可以分為3類,基于向量元素組合的模型、翻譯模型、基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的模型。矩陣分解模型(a three-way model for collective learning,RESCAL)[9]、張量神經(jīng)網(wǎng)絡(luò)模型(neural tensor network,NTN)[6]和全息表示模型(holographic embeddings,HOLE)[10]是基于向量元素組合的模型。RESCAL和NTN都使用捕獲向量各維度元素間豐富交互的張量乘積,但它們需要大量參數(shù)來建模關(guān)系,因此計算起來很麻煩。……