999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識表示學(xué)習(xí)研究進(jìn)展

2016-07-31 23:31:36劉知遠(yuǎn)孫茂松林衍凱謝若冰
計算機(jī)研究與發(fā)展 2016年2期
關(guān)鍵詞:語義融合信息

劉知遠(yuǎn) 孫茂松 林衍凱 謝若冰

(清華大學(xué)計算機(jī)科學(xué)與技術(shù)系 北京 100084)(智能技術(shù)與系統(tǒng)國家重點實驗室(清華大學(xué)) 北京 100084)(清華信息科學(xué)與技術(shù)國家實驗室(籌) 北京 100084)(liuzy@tsinghua.edu.cn)

知識表示學(xué)習(xí)研究進(jìn)展

劉知遠(yuǎn) 孫茂松 林衍凱 謝若冰

(清華大學(xué)計算機(jī)科學(xué)與技術(shù)系 北京 100084)(智能技術(shù)與系統(tǒng)國家重點實驗室(清華大學(xué)) 北京 100084)(清華信息科學(xué)與技術(shù)國家實驗室(籌) 北京 100084)(liuzy@tsinghua.edu.cn)

人們構(gòu)建的知識庫通常被表示為網(wǎng)絡(luò)形式,節(jié)點代表實體,連邊代表實體間的關(guān)系.在網(wǎng)絡(luò)表示形式下,人們需要設(shè)計專門的圖算法存儲和利用知識庫,存在費時費力的缺點,并受到數(shù)據(jù)稀疏問題的困擾.最近,以深度學(xué)習(xí)為代表的表示學(xué)習(xí)技術(shù)受到廣泛關(guān)注.表示學(xué)習(xí)旨在將研究對象的語義信息表示為稠密低維實值向量,知識表示學(xué)習(xí)則面向知識庫中的實體和關(guān)系進(jìn)行表示學(xué)習(xí).該技術(shù)可以在低維空間中高效計算實體和關(guān)系的語義聯(lián)系,有效解決數(shù)據(jù)稀疏問題,使知識獲取、融合和推理的性能得到顯著提升.介紹知識表示學(xué)習(xí)的最新進(jìn)展,總結(jié)該技術(shù)面臨的主要挑戰(zhàn)和可能解決方案,并展望該技術(shù)的未來發(fā)展方向與前景.

知識表示;表示學(xué)習(xí);知識圖譜;深度學(xué)習(xí);分布式表示

知識庫將人類知識組織成結(jié)構(gòu)化的知識系統(tǒng).人們花費大量精力構(gòu)建了各種結(jié)構(gòu)化的知識庫,如語言知識庫WordNet[1]、世界知識庫Freebase[2]等.知識庫是推動人工智能學(xué)科發(fā)展和支撐智能信息服務(wù)應(yīng)用(如智能搜索、智能問答、個性化推薦等)的重要基礎(chǔ)技術(shù).為了改進(jìn)信息服務(wù)質(zhì)量,國內(nèi)外互聯(lián)網(wǎng)公司(特別是搜索引擎公司)紛紛推出知識庫產(chǎn)品,如谷歌知識圖譜、微軟Bing Satori、百度知心以及搜狗知立方等.著名的IBM Watson問答系統(tǒng)和蘋果Siri語音助理的背后,知識庫也扮演著重要角色.如谷歌在介紹知識圖譜時所說的“構(gòu)成這個世界的是實體,而非字符串”.可以說,知識庫的興起拉開了智能信息檢索從字符串匹配躍遷至智能理解的序幕.

知識庫描述現(xiàn)實世界中實體(entity)間的關(guān)系(relation).這些知識蘊(yùn)藏在無(半)結(jié)構(gòu)的互聯(lián)網(wǎng)信息中,而知識庫則是有結(jié)構(gòu)的.因此,知識庫的主要研究目標(biāo)是:從無(半)結(jié)構(gòu)的互聯(lián)網(wǎng)信息中獲取有結(jié)構(gòu)知識,自動融合構(gòu)建知識庫、服務(wù)知識推理等相關(guān)應(yīng)用.知識表示是知識獲取與應(yīng)用的基礎(chǔ),因此知識表示學(xué)習(xí)問題是貫穿知識庫的構(gòu)建與應(yīng)用全過程的關(guān)鍵問題.

人們通常以網(wǎng)絡(luò)的形式組織知識庫中的知識,網(wǎng)絡(luò)中每個節(jié)點代表實體(人名、地名、機(jī)構(gòu)名、概念等),而每條連邊則代表實體間的關(guān)系.因此,大部分知識往往可以用三元組(實體1,關(guān)系,實體2)來表示,對應(yīng)著知識庫網(wǎng)絡(luò)中的一條連邊及其連接的2個實體.這是知識庫的通用表示方式,例如萬維網(wǎng)聯(lián)盟(W3C)發(fā)布的資源描述框架(resource description framework,RDF)技術(shù)標(biāo)準(zhǔn)[3],就是以三元組表示為基礎(chǔ)的.特別是在谷歌提出知識圖譜(knowledge graphs)的概念后,這種網(wǎng)絡(luò)表示形式更是廣受認(rèn)可.然而,基于網(wǎng)絡(luò)形式的知識表示面臨諸多挑戰(zhàn)性難題,主要包括如下2個方面:

1)計算效率問題.基于網(wǎng)絡(luò)的知識表示形式中,每個實體均用不同的節(jié)點表示.當(dāng)利用知識庫計算實體間的語義或推理關(guān)系時,往往需要人們設(shè)計專門的圖算法來實現(xiàn),存在可移植性差的問題.更重要的是,基于圖的算法計算復(fù)雜度高、可擴(kuò)展性差,當(dāng)知識庫達(dá)到一定規(guī)模時,就很難較好地滿足實時計算的需求.

2)數(shù)據(jù)稀疏問題.與其他類型的大規(guī)模數(shù)據(jù)類似,大規(guī)模知識庫也遵守長尾分布,在長尾部分的實體和關(guān)系上,面臨嚴(yán)重的數(shù)據(jù)稀疏問題.例如,對于長尾部分的罕見實體,由于只有極少的知識或路徑涉及它們,對這些實體的語義或推理關(guān)系的計算往往準(zhǔn)確率極低.

近年來,以深度學(xué)習(xí)[4]為代表的表示學(xué)習(xí)[5]技術(shù)異軍突起,在語音識別、圖像分析和自然語言處理領(lǐng)域獲得廣泛關(guān)注.表示學(xué)習(xí)旨在將研究對象的語義信息表示為稠密低維實值向量.在該低維向量空間中,2個對象距離越近則說明其語義相似度越高.

顧名思義,知識表示學(xué)習(xí)是面向知識庫中的實體和關(guān)系進(jìn)行表示學(xué)習(xí).該方向最近取得了重要進(jìn)展,可以在低維空間中高效計算實體和關(guān)系的語義聯(lián)系,有效解決數(shù)據(jù)稀疏問題,使知識獲取、融合和推理的性能得到顯著提升.

由于上述優(yōu)點,知識表示學(xué)習(xí)引起了廣泛關(guān)注和研究興趣,但該方向仍然面臨著諸多挑戰(zhàn).本文將介紹知識表示學(xué)習(xí)的最新進(jìn)展,總結(jié)該技術(shù)面臨的主要挑戰(zhàn)和可能解決方案,并展望該技術(shù)的未來發(fā)展方向與前景.

1 知識表示學(xué)習(xí)簡介

在正式介紹知識表示學(xué)習(xí)的主要模型和挑戰(zhàn)之前,本節(jié)首先介紹表示學(xué)習(xí)的基本概念和理論基礎(chǔ),以及知識表示學(xué)習(xí)的重要意義.

1.1 表示學(xué)習(xí)的基本概念

如前所述,表示學(xué)習(xí)的目標(biāo)是,通過機(jī)器學(xué)習(xí)將研究對象的語義信息表示為稠密低維實值向量.本文用黑斜體表示研究對象所對應(yīng)的向量.以知識庫中的實體e和關(guān)系r為例,我們將表示學(xué)習(xí)得到的向量表示為le和lr.在該向量空間中,我們可以通過歐氏距離或余弦距離等方式,計算任意2個對象之間的語義相似度.

實際上,在表示學(xué)習(xí)之外,有更簡單的數(shù)據(jù)表示方案,即獨熱表示(one-h(huán)ot representation)[6].該方案也將研究對象表示為向量,只是該向量只有某一維非零,其他維度上的值均為0.顯而易見,為了將不同對象區(qū)分開,有多少個不同的對象,獨熱表示向量就有多長.獨熱表示是信息檢索和搜索引擎中廣泛使用的詞袋模型(bag-of-words model)[7]的基礎(chǔ).以中文為例,假如網(wǎng)頁中共有W個不同的詞,詞袋模型中的每個詞都被表示為一個W維的獨熱表示向量.在此基礎(chǔ)上,詞袋模型將每個文檔表示為一個W維向量,每一維表示對應(yīng)的詞在該文檔中的重要性.

與表示學(xué)習(xí)相比,獨熱表示無需學(xué)習(xí)過程,簡單高效,在信息檢索和自然語言處理中得到廣泛應(yīng)用.但是獨熱表示的缺點也非常明顯.獨熱表示方案假設(shè)所有對象都是相互獨立的.也就是說,在獨熱表示空間中,所有對象的向量都是相互正交的,通過余弦距離或歐氏距離計算的語義相似度均為0.這顯然是不符合實際情況的,會丟失大量有用信息.例如,“蘋果”和“香蕉”雖然是2個不同的詞,但由于它們都屬于水果,因此應(yīng)當(dāng)具有較高的語義相似度.顯然,獨熱表示無法有效利用這些對象間的語義相似度信息.這也是詞袋模型無法有效表示短文本、容易受到數(shù)據(jù)稀疏問題影響的根本原因.

與獨熱表示相比,表示學(xué)習(xí)的向量維度較低,有助于提高計算效率,同時能夠充分利用對象間的語義信息,從而有效緩解數(shù)據(jù)稀疏問題.由于表示學(xué)習(xí)的這些優(yōu)點,最近出現(xiàn)了大量關(guān)于單詞[6]、短語[8-9]、實體[10]、句子[11-13]、文檔[12]和社會網(wǎng)絡(luò)[14-16]等對象的表示學(xué)習(xí)研究.特別是在詞表示方面,針對一詞多義[17-19]、語義組合[9,20-22]、語素或字母信息[23-25]、跨語言[26-28]、可解釋性[29-32]等特點提出了相應(yīng)表示方案,展現(xiàn)出分布式表示靈活的可擴(kuò)展性.

1.2 表示學(xué)習(xí)的理論基礎(chǔ)

表示學(xué)習(xí)得到的低維向量表示是一種分布式表示(distributed representation)[6].之所以如此命名,是因為孤立地看向量中的每一維,都沒有明確對應(yīng)的含義;而綜合各維形成一個向量,則能夠表示對象的語義信息.這種表示方案并非憑空而來,而是受到人腦的工作機(jī)制啟發(fā)而來.

我們知道,現(xiàn)實世界中的實體是離散的,不同對象之間有明顯的界限.人腦通過大量神經(jīng)元上的激活和抑制存儲這些對象,形成內(nèi)隱世界.顯而易見,每個單獨神經(jīng)元的激活或抑制并沒有明確含義,但是多個神經(jīng)元的狀態(tài)則能表示世間萬物.受到該工作機(jī)制的啟發(fā),分布式表示的向量可以看作模擬人腦的多個神經(jīng)元,每維對應(yīng)一個神經(jīng)元,而向量中的值對應(yīng)神經(jīng)元的激活或抑制狀態(tài).基于神經(jīng)網(wǎng)絡(luò)這種對離散世界的連續(xù)表示機(jī)制,人腦具備了高度的學(xué)習(xí)能力與智能水平.表示學(xué)習(xí)正是對人腦這一工作機(jī)制的模仿.

還值得一提的是,現(xiàn)實世界存在層次結(jié)構(gòu)[33].一個對象往往由更小的對象組成.例如一個房屋作為一個對象,是由門、窗戶、墻、天花板和地板等對象有機(jī)組合而成的,墻則由更小的磚塊和水泥等對象組成,以此類推.這種層次或嵌套的結(jié)構(gòu)反映在人腦中,形成了神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu).最近象征人工神經(jīng)網(wǎng)絡(luò)復(fù)興的深度學(xué)習(xí)技術(shù),其津津樂道的“深度”正是這種層次性的體現(xiàn).

綜上,我們在表1總結(jié)了現(xiàn)實世界與內(nèi)隱世界的特點.可以說,分布式表示和層次結(jié)構(gòu)是人類智能的基礎(chǔ),也是表示學(xué)習(xí)和深度學(xué)習(xí)的本質(zhì)特點.

Table 1 Characteristics of Real World and Internal World表1 現(xiàn)實世界與內(nèi)隱世界的特點

1.3 知識表示學(xué)習(xí)的典型應(yīng)用

知識表示學(xué)習(xí)是面向知識庫中實體和關(guān)系的表示學(xué)習(xí).通過將實體或關(guān)系投影到低維向量空間,我們能夠?qū)崿F(xiàn)對實體和關(guān)系的語義信息的表示,可以高效地計算實體、關(guān)系及其之間的復(fù)雜語義關(guān)聯(lián).這對知識庫的構(gòu)建、推理與應(yīng)用均有重要意義.

知識表示學(xué)習(xí)得到的分布式表示有以下典型應(yīng)用:

1)相似度計算.利用實體的分布式表示,我們可以快速計算實體間的語義相似度,這對于自然語言處理和信息檢索的很多任務(wù)具有重要意義.

2)知識圖譜補(bǔ)全.構(gòu)建大規(guī)模知識圖譜,需要不斷補(bǔ)充實體間的關(guān)系.利用知識表示學(xué)習(xí)模型,可以預(yù)測2個實體的關(guān)系,這一般稱為知識庫的鏈接預(yù)測(link prediction),又稱為知識圖譜補(bǔ)全(knowledge graph completion).

3)其他應(yīng)用.知識表示學(xué)習(xí)已被廣泛用于關(guān)系抽取、自動問答、實體鏈指等任務(wù),展現(xiàn)出巨大的應(yīng)用潛力.隨著深度學(xué)習(xí)在自然語言處理各項重要任務(wù)中得到廣泛應(yīng)用,這將為知識表示學(xué)習(xí)帶來更廣闊的應(yīng)用空間.

1.4 知識表示學(xué)習(xí)的主要優(yōu)點

知識表示學(xué)習(xí)實現(xiàn)了對實體和關(guān)系的分布式表示,它具有以下主要優(yōu)點:

1)顯著提升計算效率.知識庫的三元組表示實際就是基于獨熱表示的.如前所分析的,在這種表示方式下,需要設(shè)計專門的圖算法計算實體間的語義和推理關(guān)系,計算復(fù)雜度高、可擴(kuò)展性差.而表示學(xué)習(xí)得到的分布式表示,則能夠高效地實現(xiàn)語義相似度計算等操作,顯著提升計算效率.

2)有效緩解數(shù)據(jù)稀疏.由于表示學(xué)習(xí)將對象投影到統(tǒng)一的低維空間中,使每個對象均對應(yīng)一個稠密向量,從而有效緩解數(shù)據(jù)稀疏問題,這主要體現(xiàn)在2個方面.一方面,每個對象的向量均為稠密有值的,因此可以度量任意對象之間的語義相似程度.而基于獨熱表示的圖算法,由于受到大規(guī)模知識圖譜稀疏特性的影響,往往無法有效計算很多對象之間的語義相似度.另一方面,將大量對象投影到統(tǒng)一空間的過程,也能夠?qū)⒏哳l對象的語義信息用于幫助低頻對象的語義表示,提高低頻對象的語義表示的精確性.

3)實現(xiàn)異質(zhì)信息融合.不同來源的異質(zhì)信息需要融合為整體,才能得到有效應(yīng)用.例如,人們構(gòu)造了大量知識庫,這些知識庫的構(gòu)建規(guī)范和信息來源均有不同,例如著名的世界知識庫有DBPedia,YAGO,F(xiàn)reebase等.大量實體和關(guān)系在不同知識庫中的名稱不同.如何實現(xiàn)多知識庫的有機(jī)融合,對知識庫應(yīng)用具有重要意義.如果基于網(wǎng)絡(luò)表示,該任務(wù)只能通過設(shè)計專門圖算法來實現(xiàn),效果較差,效率低下.而通過設(shè)計合理的表示學(xué)習(xí)模型,將不同來源的對象投影到同一個語義空間中,就能夠建立統(tǒng)一的表示空間,實現(xiàn)多知識庫的信息融合.此外,當(dāng)我們在信息檢索或自然語言處理中應(yīng)用知識庫時,往往需要計算查詢詞、句子、文檔和知識庫實體之間的復(fù)雜語義關(guān)聯(lián).由于這些對象的異質(zhì)性,計算它們的語義關(guān)聯(lián)往往是棘手問題.而表示學(xué)習(xí)亦能為異質(zhì)對象提供統(tǒng)一表示空間,輕而易舉實現(xiàn)異質(zhì)對象之間的語義關(guān)聯(lián)計算.

綜上,由于知識表示學(xué)習(xí)能夠顯著提升計算效率,有效緩解數(shù)據(jù)稀疏,實現(xiàn)異質(zhì)信息融合,因此對于知識庫的構(gòu)建、推理和應(yīng)用具有重要意義,值得廣受關(guān)注、深入研究.

2 知識表示學(xué)習(xí)的主要方法

知識表示學(xué)習(xí)是近年來的研究熱點,研究者提出了多種模型,學(xué)習(xí)知識庫中的實體和關(guān)系的表示.本節(jié)將主要介紹其中幾種代表方法.為了介紹這些方法,我們首先定義幾種符號,便于下文使用.首先,我們將知識庫表示為G=(E,R,S),其中E={e1,e2,…,e|E|}是知識庫中的實體集合,其中包含|E|種不同實體;R={r1,r2,…,r|R|}是知識庫中的關(guān)系集合,其中包含|R|種不同關(guān)系;而S E×R×E則代表知識庫中的三元組集合,我們一般表示為(h,r,t),其中h和t表示頭實體和尾實體,而r表示h和t之間的關(guān)系.例如三元組(史蒂夫·喬布斯,創(chuàng)始人,蘋果公司)就表示實體“史蒂夫·喬布斯”和“蘋果公司”之間存在“創(chuàng)始人”的關(guān)系.

接下來,我們介紹知識表示學(xué)習(xí)的幾個代表模型,包括距離模型、單層神經(jīng)網(wǎng)絡(luò)模型、能量模型、雙線性模型、張量神經(jīng)網(wǎng)絡(luò)模型、矩陣分解模型和翻譯模型等.

2.1 距離模型

結(jié)構(gòu)表示(structured embedding,SE)[34]是較早的幾個知識表示方法之一.在SE中,每個實體用d維的向量表示,所有實體被投影到同一個d維向量空間中.同時,SE還為每個關(guān)系r定義了2個矩陣Mr,1,Mr,2∈RRd×d,用于三元組中頭實體和尾實體的投影操作.最后,SE為每個三元組(h,r,t)定義了如下?lián)p失函數(shù):

我們可以理解為,SE將頭實體向量lh和尾實體向量lt通過關(guān)系r的2個矩陣投影到r的對應(yīng)空間中,然后在該空間中計算兩投影向量的距離.這個距離反映了2個實體在關(guān)系r下的語義相關(guān)度,它們的距離越小,說明這2個實體存在這種關(guān)系.

實體向量和關(guān)系矩陣是SE模型的參數(shù).SE將知識庫三元組作為學(xué)習(xí)樣例,優(yōu)化模型參數(shù)使知識庫三元組的損失函數(shù)值不斷降低,從而使實體向量和關(guān)系矩陣能夠較好地反映實體和關(guān)系的語義信息.

SE能夠利用學(xué)習(xí)得到的知識表示進(jìn)行鏈接預(yù)測,即通過計算r

找到讓兩實體距離最近的關(guān)系矩陣,這就是它們之間的關(guān)系.

然而,SE模型有一個重要缺陷:它對頭、尾實體使用2個不同的矩陣進(jìn)行投影,協(xié)同性較差,往往無法精確刻畫兩實體與關(guān)系之間的語義聯(lián)系.

2.2 單層神經(jīng)網(wǎng)絡(luò)模型

單層神經(jīng)網(wǎng)絡(luò)模型(single layer model,SLM)[35]嘗試采用單層神經(jīng)網(wǎng)絡(luò)的非線性操作,來減輕SE無法協(xié)同精確刻畫實體與關(guān)系的語義聯(lián)系的問題.SLM為每個三元組(h,r,t)定義了如下評分函數(shù):

其中,Mr,1,Mr,2∈RRd×k為投影矩陣,uTr∈RRk為關(guān)系r的表示向量,g()是tanh函數(shù).

雖然SLM是SE模型的改進(jìn)版本,但是它的非線性操作僅提供了實體和關(guān)系之間比較微弱的聯(lián)系.與此同時,卻引入了更高的計算復(fù)雜度.

2.3 能量模型

語義匹配能量模型(semantic matching energy,SME)[36-37]提出更復(fù)雜的操作,尋找實體和關(guān)系之間的語義聯(lián)系.在SME中,每個實體和關(guān)系都用低維向量表示.在此基礎(chǔ)上,SME定義若干投影矩陣,刻畫實體與關(guān)系的內(nèi)在聯(lián)系.更具體地,SME為每個三元組(h,r,t)定義了2種評分函數(shù),分別是線性形式:fr(h,t)=(M1lh+M2lr+b1)T(M3lt+M4lr+b2)和雙線性形式:

fr(h,t)=(M1lhM2lr+b1)T(M3ltM4lr+b2),其中M1,M2,M3,M4∈RRd×k為投影矩陣; 表示按位相乘(即Hadamard積);b1,b2為偏置向量.此外,也有研究工作用三階張量代替SME的雙線性形式[36].

2.4 雙線性模型

隱變量模型(latent factor model,LFM)[38-39]提出利用基于關(guān)系的雙線性變換,刻畫實體和關(guān)系之間的二階聯(lián)系.LFM為每個三元組(h,r,t)定義了如下雙線性評分函數(shù):

其中,Mr∈RRd×d是關(guān)系r對應(yīng)的雙線性變換矩陣.與以往模型相比,LFM取得巨大突破:通過簡單有效的方法刻畫了實體和關(guān)系的語義聯(lián)系,協(xié)同性較好,計算復(fù)雜度低.

后來的DISTMULT模型[40]還探索了LFM的簡化形式:將關(guān)系矩陣Mr設(shè)置為對角陣.實驗表明,這種簡化不僅極大降低了模型復(fù)雜度,模型效果反而得到顯著提升.

2.5 張量神經(jīng)網(wǎng)絡(luò)模型

張量神經(jīng)網(wǎng)絡(luò)模型(neural tensor network,NTN)[35]的基本思想是,用雙線性張量取代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的線性變換層,在不同的維度下將頭、尾實體向量聯(lián)系起來.其基本思想如圖1所示:

Fig.1 Neural tensor network(NTN)model.圖1 張量神經(jīng)網(wǎng)絡(luò)模型

NTN為每個三元組(h,r,t)定義了如下評分函數(shù),評價2個實體之間存在某個特定關(guān)系r的可能性:

fr(h,t)=uTrg(lhMrlt+Mr,1lh+Mr,2lt+br),其中uTr是一個與關(guān)系相關(guān)的線性層,g()是tanh函數(shù),Mr∈RRd×d×k是一個三階張量,Mr,1,Mr,2∈RRd×k是與關(guān)系r有關(guān)的投影矩陣.可以看出,前述SLM是NTN的簡化版本,是NTN將其中張量的層數(shù)設(shè)置為0時的特殊情況.

值得注意的是,與以往模型不同,NTN中的實體向量是該實體中所有單詞向量的平均值.這樣做的好處是,實體中的單詞數(shù)量遠(yuǎn)小于實體數(shù)量,可以充分重復(fù)利用單詞向量構(gòu)建實體表示,降低實體表示學(xué)習(xí)的稀疏性問題,增強(qiáng)不同實體的語義聯(lián)系.

由于NTN引入了張量操作,雖然能夠更精確地刻畫實體和關(guān)系的復(fù)雜語義聯(lián)系,但是計算復(fù)雜度非常高,需要大量三元組樣例才能得到充分學(xué)習(xí).實驗表明,NTN在大規(guī)模稀疏知識圖譜上的效果較差[41].

2.6 矩陣分解模型

矩陣分解是得到低維向量表示的重要途徑.因此,也有研究者提出采用矩陣分解進(jìn)行知識表示學(xué)習(xí).這方面的代表方法是RESACL模型[42-43].

在該模型中,知識庫三元組構(gòu)成一個大的張量X,如果三元組(h,r,t)存在,則Xhrt=1,否則為0.張量分解旨在將每個三元組(h,r,t)對應(yīng)的張量值Xhrt分解為實體和關(guān)系表示,使得Xhrt盡量地接近于lhMrlt.

可以看到RESACL的基本思想與前述LFM類似.不同之處在于,RESACL會優(yōu)化張量中的所有位置,包括值為0的位置;而LFM只會優(yōu)化知識庫中存在的三元組.

2.7 翻譯模型

表示學(xué)習(xí)在自然語言處理領(lǐng)域受到廣泛關(guān)注起源于Mikolov等人于2013年提出的word2vec詞表示學(xué)習(xí)模型和工具包[8,44].利用該模型,Mikolov等人發(fā)現(xiàn)詞向量空間存在有趣的平移不變現(xiàn)象.例如他們發(fā)現(xiàn):

C(king)-C(queen)≈C(man)-C(woman),這里C(w)表示利用word2vec學(xué)習(xí)得到的單詞w的詞向量.也就是說,詞向量能夠捕捉到單詞king和queen之間、man和woman之間的某種相同的隱含語義關(guān)系.Mikolov等人通過類比推理實驗[8,44]發(fā)現(xiàn),這種平移不變現(xiàn)象普遍存在于詞匯的語義關(guān)系和句法關(guān)系中.有研究者還利用詞表示的這種特性尋找詞匯之間的上下位關(guān)系[45].

受到該現(xiàn)象的啟發(fā),Bordes等人提出了TransE模型[41],將知識庫中的關(guān)系看作實體間的某種平移向量.對于每個三元組(h,r,t),TransE用關(guān)系r的向量lr作為頭實體向量lh和尾實體向量lt之間的平移.我們也可以將lr看作從lh到lt的翻譯,因此TransE也被稱為翻譯模型.

如圖2所示,對于每個三元組(h,r,t),TransE希望

TransE模型定義了如下?lián)p失函數(shù):

即向量lh+lr和lt的L1或L2距離.

Fig.2 TransE model.圖2 TransE模型

其中,S是合法三元組的集合,S-為錯誤三元組的集合,max(x,y)返回x和y中較大的值,γ為合法三元組得分與錯誤三元組得分之間的間隔距離.

錯誤三元組并非隨機(jī)產(chǎn)生的,為了選取有代表性的錯誤三元組,TransE將S中每個三元組的頭實體、關(guān)系和尾實體其中之一隨機(jī)替換成其他實體或關(guān)系來得到S-,即:

與以往模型相比,TransE模型參數(shù)較少,計算復(fù)雜度低,卻能直接建立實體和關(guān)系之間的復(fù)雜語義聯(lián)系.Bordes等人在WordNet和Freebase等數(shù)據(jù)集上進(jìn)行鏈接預(yù)測等評測任務(wù),實驗表明TransE的性能較以往模型有顯著提升.特別是在大規(guī)模稀疏知識圖譜上,TransE的性能尤其驚人.

由于TransE簡單有效,自提出以來,有大量研究工作對TransE進(jìn)行擴(kuò)展和應(yīng)用.可以說,TransE已經(jīng)成為知識表示學(xué)習(xí)的代表模型.在第3節(jié),我們將以TransE為例,介紹知識表示學(xué)習(xí)的主要挑戰(zhàn)與解決方案.

2.8 其他模型

在TransE提出之后,大部分知識表示學(xué)習(xí)模型是以TransE為基礎(chǔ)的擴(kuò)展.在TransE擴(kuò)展模型以外,這里主要介紹全息表示模型(holographic embeddings,Hole)[46].

Hole提出使用頭、尾實體向量的“循環(huán)相關(guān)”操在實際學(xué)習(xí)過程中,為了增強(qiáng)知識表示的區(qū)分能力,TransE采用最大間隔方法,定義了如下優(yōu)化目標(biāo)函數(shù):作來表示該實體對.這里,循環(huán)相關(guān)*:RRd×RRd→RRd操作如下:

循環(huán)相關(guān)操作可以看作張量乘法特殊形式,具有較強(qiáng)的表達(dá)能力,具有以下3個優(yōu)點:1)不可交換性.循環(huán)相關(guān)是不可交換的,即lh*lt≠lt*lh.而知識庫中很多關(guān)系是不可交換的,因此該特點具有重要意義.2)相關(guān)性.循環(huán)相關(guān)操作得到的向量每一維都衡量了向量lh和lt的某種相似性.例如,循環(huán)相關(guān)的相當(dāng)于向量lh和lt的內(nèi)積.該性質(zhì)處理頭、尾實體比較相似的關(guān)系(例如“夫妻”關(guān)系)時具有重要意義.3)計算效率高.循環(huán)相關(guān)操作還可以使用如下公式進(jìn)行優(yōu)化:

這里F(x),F(xiàn)-1(x)為傅里葉變換與逆傅里葉變換,可以用快速傅里葉變換加速計算.

對于每個三元組(h,r,t),Hole定義了如下評分函數(shù):

由于該模型剛剛提出,尚未驗證其效果,但是無疑為知識表示學(xué)習(xí)提供了全新的視角,值得關(guān)注.

3 知識表示學(xué)習(xí)的主要挑戰(zhàn)與已有解決方案

以TransE為代表的知識表示學(xué)習(xí)模型,已經(jīng)在知識圖譜補(bǔ)全、關(guān)系抽取等任務(wù)中取得了矚目成果.但是,知識表示學(xué)習(xí)仍然面臨很多挑戰(zhàn).這里我們以TransE為代表模型,總結(jié)認(rèn)為TransE面臨的3個主要挑戰(zhàn),目前已有相關(guān)工作提出一些解決方案,具體介紹如下.

3.1 復(fù)雜關(guān)系建模

TransE由于模型簡單,在大規(guī)模知識圖譜上效果明顯.但是也由于過于簡單,導(dǎo)致TransE在處理知識庫的復(fù)雜關(guān)系時捉襟見肘.

這里的復(fù)雜關(guān)系定義如下.按照知識庫中關(guān)系兩端連接實體的數(shù)目,可以將關(guān)系劃分為1-1,1-N,N-1和N-N四種類型[41].例如N-1類型關(guān)系指的是,該類型關(guān)系中的一個尾實體會平均對應(yīng)多個頭實體,即 i∈{0,1,…,m},(hi,r,t)∈S.我們將1-N,N-1和N-N稱為復(fù)雜關(guān)系.

研究發(fā)現(xiàn),各種知識獲取算法在處理4種類型關(guān)系時的性能差異較大[41].以TransE為例,在處理復(fù)雜關(guān)系時性能顯著降低,這與TransE模型假設(shè)有密切關(guān)系.根據(jù)TransE的優(yōu)化目標(biāo),面向1-N,N-1和N-N三種類型關(guān)系,我們可以推出以下結(jié)論:如果關(guān)系r是N-1關(guān)系,我們將會得到lh0≈lh1≈…≈lhm.同樣,這樣的問題在關(guān)系r是N-1關(guān)系時也會發(fā)生,得到lt0≈lt1≈…≈ltm.

例如,假如知識庫中有2個三元組,分別是(美國,總統(tǒng),奧巴馬)和(美國,總統(tǒng),布什).這里的關(guān)系“總統(tǒng)”是典型的1-N的復(fù)雜關(guān)系.如果用TransE從這2個三元組學(xué)習(xí)知識表示,如圖3所示,將會使奧巴馬和布什的向量變得相同.

Fig.3 The example of complex relations.圖3 復(fù)雜關(guān)系示例

這顯然不符合事實:奧巴馬和布什除了作為美國總統(tǒng)這個身份上比較相似外,其他很多方面都不盡相同.因此,由于這些復(fù)雜關(guān)系的存在,導(dǎo)致TransE學(xué)習(xí)得到的實體表示區(qū)分性較低.

那么應(yīng)當(dāng)如何實現(xiàn)表示學(xué)習(xí)對復(fù)雜關(guān)系的建模呢?最近有大量關(guān)于TransE的擴(kuò)展模型嘗試解決這一挑戰(zhàn)問題.這里我們簡要介紹其中7個代表模型.

3.1.1 TransH模型[47]

為了解決TransE模型在處理1-N,N-1,N-N復(fù)雜關(guān)系時的局限性,TransH模型提出讓一個實體在不同的關(guān)系下?lián)碛胁煌谋硎荆?/p>

如圖4所示,對于關(guān)系r,TransH模型同時使用平移向量lr和超平面的法向量wr來表示它.對于一個三元組(h,r,t),TransH首先將頭實體向量lh和尾實體向量lt沿法線wr投影到關(guān)系r對應(yīng)的超平面上,用lhr和ltr表示如下:

Fig.4 TransH model.圖4 TransH模型

需要注意的是,由于關(guān)系r可能存在無限個超平面,TransH簡單地令lr與wr近似正交來選取某一個超平面.

3.1.2 TransR?CTransR模型[48]

雖然TransH模型使每個實體在不同關(guān)系下?lián)碛辛瞬煌谋硎荆匀患僭O(shè)實體和關(guān)系處于相同的語義空間RRd中,這一定程度上限制了TransH的表示能力.TransR模型則認(rèn)為,一個實體是多種屬性的綜合體,不同關(guān)系關(guān)注實體的不同屬性.TransR認(rèn)為不同的關(guān)系擁有不同的語義空間.對每個三元組,首先應(yīng)將實體投影到對應(yīng)的關(guān)系空間中,然后再建立從頭實體到尾實體的翻譯關(guān)系.

如圖5所示是TransR模型的簡單示例.對于每個三元組(h,r,t),我們首先將實體向量向關(guān)系r空間投影.原來在實體空間中與頭、尾實體(用圓圈表示)相似的實體(用三角形表示),在關(guān)系r空間中被區(qū)分開了.

Fig.5 TransR model.圖5 TransR模型

具體而言,對于每一個關(guān)系r,TransR定義投影矩陣Mr∈RRd×k,將實體向量從實體空間投影到關(guān)系r的子空間,用lhr和ltr表示如下:

相關(guān)研究還發(fā)現(xiàn),某些關(guān)系還可以進(jìn)行更細(xì)致的劃分.例如Freebase中的“?location?location? contains”關(guān)系,可能是一個國家包含一個城市,可能是一個國家包含一所大學(xué),也可能是一個州包含一個城市等.如果將該關(guān)系做更細(xì)致的劃分,就可以更精確地建立投影關(guān)系.

因此,Lin等人進(jìn)一步提出了CTransR模型,通過把關(guān)系r對應(yīng)的實體對的向量差值lh-lt進(jìn)行聚類,將關(guān)系r細(xì)分為多個子關(guān)系rc.CTransR模型為每一個子關(guān)系rc分別學(xué)習(xí)向量表示,對于每個三元組(h,r,t),定義了如下?lián)p失函數(shù):

3.1.3 TransD模型[49]

雖然TransR模型較TransE和TransH有顯著改進(jìn),它仍然有很多缺點:

1)在同一個關(guān)系r下,頭、尾實體共享相同的投影矩陣.然而,一個關(guān)系的頭、尾實體的類型或?qū)傩钥赡懿町惥薮螅纾瑢τ谌M(美國,總統(tǒng),奧巴馬),美國和奧巴馬的類型完全不同,一個是國家,一個是人物.

2)從實體空間到關(guān)系空間的投影是實體和關(guān)系之間的交互過程,因此TransR讓投影矩陣僅與關(guān)系有關(guān)是不合理的.

3)與TransE和TransH相比,TransR由于引入了空間投影,使得TransR模型參數(shù)急劇增加,計算復(fù)雜度大大提高.

為了解決這些問題,Ji等人提出了TransD模型.如圖6所示:

Fig.6 TransD model.圖6 TransD模型

給定三元組(h,r,t),TransD模型設(shè)置了2個分別將頭實體和尾實體投影到關(guān)系空間的投影矩陣Mrh和Mrt,具體定義如下:

這里lhp,ltp∈RRd,lrp∈RRk,下標(biāo)p代表該向量為投影向量.顯然,Mrh和Mrt與實體和關(guān)系均相關(guān).而且,利用2個投影向量構(gòu)建投影矩陣,解決了原來TransR模型參數(shù)過多的問題.最后,TransD模型定義了如下?lián)p失函數(shù):

3.1.4 TranSparse模型[50]

知識庫中實體和關(guān)系的異質(zhì)性和不平衡性是制約知識表示學(xué)習(xí)的難題:

1)異質(zhì)性.知識庫中某些關(guān)系可能會與大量的實體有連接,而某些關(guān)系則可能僅僅與少量實體有連接.

2)不均衡性.在某些關(guān)系中,頭實體和尾實體的種類和數(shù)量可能差別巨大.例如,“國籍”這個關(guān)系的頭實體是成千上萬不同的人物,而尾實體只有幾百個國家.

為了解決實體和關(guān)系的異質(zhì)性,TranSparse提出使用稀疏矩陣代替TransR模型中的稠密矩陣,其中矩陣Mr的稀疏度由關(guān)系r連接的實體對數(shù)量決定.這里頭、尾實體共享同一個投影矩陣Mr.投影矩陣Mr(θr)的稀疏度θr定義如下:

其中,0≤θmin≤1為計算稀疏度的超參數(shù),Nr表示關(guān)系r連接的實體對數(shù)量,r*表示連接實體對數(shù)量最多的關(guān)系.這樣,投影向量可定義為

為了解決關(guān)系的不平衡性問題,TranSparse對于頭實體和尾實體分別使用2個不同的投影矩陣Mhr(θhr)和Mtr(θtr).兩者的稀疏度定義如下:

其中,Nlr表示關(guān)系r在位置l處連接不同實體的數(shù)量(l可能是頭實體或尾實體),Nlr*表示Nlr中最大的數(shù).這樣,投影向量可定義為

TranSparse對于以上2種形式,均定義如下?lián)p失函數(shù):

3.1.5 TransA模型[51]

Xiao等人認(rèn)為TransE及其之后的擴(kuò)展模型均存在2個重要問題:1)損失函數(shù)只采用L1或L2距離,靈活性不夠;2)損失函數(shù)過于簡單,實體和關(guān)系向量的每一維等同考慮.

為了解決這2個問題,Xiao等人提出TransA模型,將損失函數(shù)中的距離度量改用馬氏距離,并為每一維學(xué)習(xí)不同的權(quán)重.對于每個三元組(h,r,t),TransA模型定義了如下評分函數(shù):

其中Wr為與關(guān)系r相關(guān)的非負(fù)權(quán)值矩陣.

如圖7所示,(h1,r1,t1)和(h2,r2,t2)兩個合法三元組,t3是錯誤的尾實體.如果使用歐氏距離,如圖7(a)所示,錯誤的實體t3會被預(yù)測出來.而如圖7(b)所示,TransA模型通過對向量不同維度進(jìn)行加權(quán),正確的實體由于在x軸或者y軸上距離較近,從而能夠被正確預(yù)測.

Fig.7 Comparison between traditional models and TransA.圖7 傳統(tǒng)模型和TransA模型比較

3.1.6 TransG模型[52]

TransG模型提出使用高斯混合模型描述頭、尾實體之間的關(guān)系.該模型認(rèn)為,一個關(guān)系會對應(yīng)多種語義,每種語義用一個高斯分布來刻畫,即:

其中I表示單位矩陣.

TransG模型與傳統(tǒng)模型的對比如圖8所示.其中三角形表示正確的尾實體,圓形表示錯誤的尾實體.圖8(a)中為傳統(tǒng)模型示例,由于將關(guān)系r的所有語義混為一談,導(dǎo)致錯誤的實體無法被區(qū)分開.而如圖8(b)所示,TransG模型通過考慮關(guān)系r的不同語義,形成多個高斯分布,就能夠區(qū)分出正確和錯誤實體.

Fig.8 Comparison between traditional models and TransG.圖8 傳統(tǒng)模型和TransG模型比較

3.1.7 KG2E模型[53]

He等人認(rèn)為,知識庫中的關(guān)系和實體的語義本身具有不確定性,這在過去模型中被忽略了.因此,He等人提出KG2E,使用高斯分布來表示實體和關(guān)系.其中高斯分布的均值表示的是實體或關(guān)系在語義空間中的中心位置,而高斯分布的協(xié)方差則表示該實體或關(guān)系的不確定度.

圖9為KG2E模型示例,每個圓圈代表不同實體與關(guān)系的表示,它們分別與“比爾·克林頓”構(gòu)成三元組,其中圓圈大小表示的是不同實體或關(guān)系的不確定度,可以看到“國籍”的不確定度遠(yuǎn)遠(yuǎn)大于其他關(guān)系.

Fig.9 KG2Emodel.圖9 KG2E模型

KG2E使用lh-lt來表示頭、尾實體之間的關(guān)系.這里lh-lt可以用一個概率分布來表示:

而關(guān)系r同樣是一個高斯分布Pr~N(μr,∑r).因此,可以根據(jù)2個概率分布Pe和Pr的相似度來估計三元組的評分.KG2E考慮2種計算概率相似度的辦法:KL距離和期望概率.

KL距離是一種不對稱相似度,其得分函數(shù)定義如下:

需要注意的是,為了防止過擬合,KG2E使用了對參數(shù)進(jìn)行了強(qiáng)制限制:

3.1.8 小結(jié)

可以看到,在TransE之后,在如何處理復(fù)雜關(guān)系建模的挑戰(zhàn)問題上,提出了TransH,TransR,TransD,TranSparse,TransA,TransG和KG2E等多種模型,從不同角度嘗試解決復(fù)雜關(guān)系建模問題,可謂百花齊放.在相關(guān)數(shù)據(jù)集合上的實驗表明,這些方法均較TransE有顯著的性能提升,驗證了這些方法的有效性.

3.2 多源信息融合

知識表示學(xué)習(xí)面臨的另外一個重要挑戰(zhàn),是如何實現(xiàn)多源信息融合.現(xiàn)有的知識表示學(xué)習(xí)模型如TransE等,僅利用知識圖譜的三元組結(jié)構(gòu)信息進(jìn)行表示學(xué)習(xí),尚有大量與知識有關(guān)的其他信息沒有得到有效利用,例如:

1)知識庫中的其他信息,如實體和關(guān)系的描述信息、類別信息等.

2)知識庫外的海量信息,如互聯(lián)網(wǎng)文本蘊(yùn)含了大量與知識庫實體和關(guān)系有關(guān)的信息.

這些海量的多源異質(zhì)信息可以幫助改善數(shù)據(jù)稀疏問題,提高知識表示的區(qū)分能力.如何充分融合這些多源異質(zhì)信息,實現(xiàn)知識表示學(xué)習(xí),具有重要意義.

在融合上述信息進(jìn)行知識表示學(xué)習(xí)方面,已經(jīng)有一些研究工作,但總體來講還處于起步狀態(tài),這里簡單介紹其中2個代表性工作.

3.2.1 DKRL模型

考慮實體描述的知識表示學(xué)習(xí)模型(descriptionembodied knowledge representation learning,DKRL)[54]提出在知識表示學(xué)習(xí)中考慮Freebase等知識庫中提供的實體描述文本信息.在文本表示方面,DKRL考慮了2種模型:一種是CBOW[8,44],將文本中的詞向量簡單相加作為文本表示;一種是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[5556],能夠考慮文本中的詞序信息.

如圖10和圖11所示,DKRL可以利用CBOW和CNN根據(jù)實體描述文本得到實體表示,然后將該實體表示用于TransE的目標(biāo)函數(shù)學(xué)習(xí).

Fig.10 DKRL(CBOW)model.圖10 DKRL(CBOW)模型

Fig.11 DKRL(CNN)model.圖11 DKRL(CNN)模型

DKRL的優(yōu)勢在于,除了能夠提升實體表示的區(qū)分能力外,還能實現(xiàn)對新實體的表示.當(dāng)新出現(xiàn)一個未曾在知識庫中的實體時,DKRL可以根據(jù)它的簡短描述產(chǎn)生它的實體表示,用于知識圖譜補(bǔ)全等任務(wù).這對于不斷擴(kuò)充知識圖譜具有重要意義.

3.2.2 文本與知識庫融合的知識表示學(xué)習(xí)[47]

Wang等人提出在表示學(xué)習(xí)中考慮文本數(shù)據(jù),利用word2vec學(xué)習(xí)維基百科正文中的詞表示,利用TransE學(xué)習(xí)知識庫中的知識表示.同時,利用維基百科正文中的鏈接信息(錨文本與實體的對應(yīng)關(guān)系),讓文本中實體對應(yīng)的詞表示與知識庫中的實體表示盡可能接近,從而實現(xiàn)文本與知識庫融合的表示學(xué)習(xí).Wang等人還將類似的想法用于融合實體描述信息[57].

3.2.3 小結(jié)

已有工作表明,多源信息融合能夠有效提升知識表示的性能,特別是可以有效處理新實體的表示問題.但是,也可以看出,多源信息融合的知識表示學(xué)習(xí)仍處于非常起步的階段,相關(guān)工作較少,考慮的信息源非常有限,有大量的信息(如實體類別等)未被考慮,具有廣闊的研究前景.

3.3 關(guān)系路徑建模

在知識圖譜中,多步的關(guān)系路徑也能夠反映實體之間的語義關(guān)系.Lao等人曾提出Path-Constraint Random Walk[58],Path Ranking Algorithm[59]等算法,利用兩實體間的關(guān)系路徑信息預(yù)測它們的關(guān)系,取得顯著效果,說明關(guān)系路徑蘊(yùn)含著豐富的信息.

為了突破TransE等模型孤立學(xué)習(xí)每個三元組的局限性,Lin等人提出考慮關(guān)系路徑的表示學(xué)習(xí)方法,以TransE作為擴(kuò)展基礎(chǔ),提出Path-based TransE(PTransE)模型.

圖12展示的是PTransE考慮2步關(guān)系路徑的示例.PTransE模型面臨的挑戰(zhàn)在于:

1)并不是所有的實體間的關(guān)系路徑都是可靠的.為此,PTransE提出Path-Constraint Resource Allocation圖算法度量關(guān)系路徑的可靠性.

2)PTransE需要建立關(guān)系路徑的向量表示,參與從頭實體到尾實體的翻譯過程.這是典型的組合語義問題,需要對路徑上所有關(guān)系的向量進(jìn)行語義組合產(chǎn)生路徑向量.PTransE嘗試了3種代表性的語義組合操作,分別是相加、按位相乘和循環(huán)神經(jīng)網(wǎng)絡(luò).相關(guān)數(shù)據(jù)實驗表明,相加的組合操作效果最好.

幾乎同時,也有其他研究團(tuán)隊在知識表示學(xué)習(xí)中成功考慮了關(guān)系路徑的建模[60].關(guān)系路徑的表示學(xué)習(xí)也被用來進(jìn)行基于知識庫的自動問答[61].

Fig.12 PTransE model.圖12 PTransE模型

PTransE等研究的實驗表明,考慮關(guān)系路徑能夠極大提升知識表示學(xué)習(xí)的區(qū)分性,提高在知識圖譜補(bǔ)全等任務(wù)上的性能.關(guān)系路徑建模工作還比較初步,在關(guān)系路徑的可靠性計算、關(guān)系路徑的語義組合操作等方面,還有很多細(xì)致的考察工作需要完成.

4 知識表示學(xué)習(xí)未來研究方向展望

近年來知識表示學(xué)習(xí)已經(jīng)嶄露頭角,在很多任務(wù)中展現(xiàn)了巨大的應(yīng)用潛力.對于TransE等模型面臨的挑戰(zhàn),也已經(jīng)提出了很多改進(jìn)方案.然而,知識表示學(xué)習(xí)距離真正實用還很遠(yuǎn),本節(jié)將對知識表示學(xué)習(xí)的未來方向進(jìn)行展望.

4.1 面向不同知識類型的知識表示學(xué)習(xí)

如3.1節(jié)所述,已有工作將知識庫的關(guān)系劃分為1-1,1-N,N-1和N-N四類,并面向復(fù)雜關(guān)系建模開展了大量研究工作.研究表明,面向不同類型的關(guān)系,需要設(shè)計專門的知識表示模型.

然而,1-1,1-N,N-1和N-N的關(guān)系類型劃分略顯粗糙,無法直觀地解釋知識的本質(zhì)類型特點.我們需要面向知識表示任務(wù),有針對性地設(shè)計知識類型劃分標(biāo)準(zhǔn).

近期發(fā)表在Science等權(quán)威期刊的認(rèn)知科學(xué)研究成果[62-63]總結(jié)認(rèn)為,人類知識包括以下4種結(jié)構(gòu):1)樹狀關(guān)系,表示實體間的層次分類關(guān)系(如生物界的分類系統(tǒng)等);2)二維網(wǎng)格關(guān)系,表示現(xiàn)實世界的空間信息(如地理位置信息等);3)單維順序關(guān)系,表示實體間的偏序關(guān)系(如政治家的左右傾譜系分布等);4)有向網(wǎng)絡(luò)關(guān)系,表示實體間的關(guān)聯(lián)或因果關(guān)系(如疾病之間的傳染關(guān)系等).

認(rèn)知科學(xué)關(guān)于人類知識類型的總結(jié),與許多知識庫的組織形式有一定契合之處,但不完全相同.例如Freebase等大部分知識庫采用有向網(wǎng)絡(luò)結(jié)構(gòu)(即三元組形式)組織人類知識[2];WordNet則首先將同義詞聚集成同義詞集合(Synset),然后再以同義詞集合為單位用有向網(wǎng)絡(luò)結(jié)構(gòu)表示集合之間的關(guān)系(如上下位關(guān)系、整體部分關(guān)系等)[1].在大部分知識庫中,樹狀關(guān)系等類型的知識均用有向網(wǎng)絡(luò)表示,這并不利于在知識表示中充分利用不同類型知識的結(jié)構(gòu)特點.

認(rèn)知科學(xué)對人類知識類型的總結(jié),有助于對知識圖譜中知識類型的劃分和處理.未來有必要結(jié)合人工智能和認(rèn)知科學(xué)的最新研究成果,有針對性地設(shè)計知識類型劃分標(biāo)準(zhǔn),開展面向不同復(fù)雜關(guān)系類型的知識表示學(xué)習(xí)研究.

4.2 多源信息融合的知識表示學(xué)習(xí)

在多元融合的知識表示學(xué)習(xí)方面,相關(guān)工作還比較有限,主要是考慮實體描述的知識表示學(xué)習(xí)模型,以及文本與知識庫融合的知識表示學(xué)習(xí),這些模型無論是信息來源,還是融合手段都非常有限.

我們認(rèn)為在多源信息融合的知識表示學(xué)習(xí)方面,有以下3個方面的工作需要開展:

1)融合知識庫中實體和關(guān)系的其他信息.知識庫中擁有關(guān)于實體和關(guān)系的豐富信息,如描述文本、層次類型等.有機(jī)融合這些信息,將顯著提升知識表示學(xué)習(xí)的表示能力.

2)融合互聯(lián)網(wǎng)文本信息.互聯(lián)網(wǎng)海量文本數(shù)據(jù)是知識庫的重要知識來源.人們提出遠(yuǎn)程監(jiān)督(distant supervision)[6468]、開放信息抽取(open information extraction)[69-73]等技術(shù),從開放文本中抽取知識.這個過程也自然而然地建立起了知識庫和文本之間的聯(lián)系,如何充分利用這些聯(lián)系融合互聯(lián)網(wǎng)文本信息,意義重大.值得一提的是,目前大部分工作主要關(guān)注面向?qū)嶓w表示的融合.實際上,若干研究工作已經(jīng)利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)建立起了關(guān)系表示[74-76],這為面向關(guān)系表示的信息融合提供了技術(shù)基礎(chǔ),最終實現(xiàn)融合文本信息和知識庫的知識表示.

3)融合多知識庫信息.人們利用不同的信息源構(gòu)建了不同的知識庫.如何對多知識庫信息進(jìn)行融合表示,對于建立統(tǒng)一的大規(guī)模知識庫意義重大.融合多源知識庫信息,主要涉及實體融合、關(guān)系融合與事實融合.

首先,由于存在大量別名現(xiàn)象,需對多信息源進(jìn)行實體對齊和關(guān)系對齊.這在分布式表示中,是典型的多表示空間投影問題,可以采用學(xué)習(xí)匹配(learning to match)[77]等思想,利用PSI(polynomial semantic indexing)[78],SSI(supervised semantic indexing)[79]等技術(shù),建立多源表示空間投影關(guān)系,實現(xiàn)實體對齊與關(guān)系對齊.此外,還可以充分利用多表示空間之間的一致性,實現(xiàn)多空間協(xié)同映射(collective fusion).

然后,在實體對齊和關(guān)系對齊的基礎(chǔ)上,可對多信息源獲取的知識進(jìn)行融合.由于大量知識來自海量互聯(lián)網(wǎng)文本,無法確保獲取知識的真實性,存在大量互相矛盾的知識.可以綜合考慮信息源可信性、多信息源一致性等要素,利用TrustRank[80]等可信性度量技術(shù),檢測實體間知識的矛盾并分別度量其可信性,實現(xiàn)知識融合,建成統(tǒng)一的大規(guī)模知識庫及其融合表示.

4.3 考慮復(fù)雜推理模式的知識表示學(xué)習(xí)

考慮關(guān)系路徑的知識表示學(xué)習(xí),實際上是充分利用了兩實體間的關(guān)系和關(guān)系路徑之間的推理模式,來為表示學(xué)習(xí)模型提供更精確的約束信息.例如,根據(jù)三元組(康熙,父親,雍正)和(雍正,父親,乾隆)構(gòu)成的“康熙”和“乾隆”之間“父親+父親”的關(guān)系路徑,再結(jié)合三元組(康熙,祖父,乾隆),PTransE實際上額外提供了“父親+父親=祖父”的推理模式,從而提升知識表示的精確性.

實際上,關(guān)系路徑只是復(fù)雜推理模式中的一種特殊形式,它要求頭實體和尾實體必須保持不變.但實際上,知識庫中還有其他形式的推理模式,例如三元組(美國,總統(tǒng),奧巴馬)和(奧巴馬,是,美國人)之間就存在著推理關(guān)系,但是兩者的頭、尾實體并不完全一致.如果能將這些復(fù)雜推理模式考慮到知識表示學(xué)習(xí)中,將能更進(jìn)一步提升知識表示的性能.

在該問題中,如何總結(jié)和表示這些復(fù)雜推理模式是關(guān)鍵難題.目前來看,一階邏輯(first-order logic,F(xiàn)OL)是對復(fù)雜推理模式的較佳表示方案,未來我們需要探索一階邏輯的分布式表示及其融合到知識表示學(xué)習(xí)中的技術(shù)方案.

4.4 其他研究方向

除了以上3個主要研究方向,還有很多關(guān)于知識表示學(xué)習(xí)的研究工作亟待開展,簡單總結(jié)如下:

1)面向大規(guī)模知識庫的在線學(xué)習(xí)和快速學(xué)習(xí).大規(guī)模知識庫稀疏性很強(qiáng).初步實驗表明,已有表示學(xué)習(xí)模型在大規(guī)模知識庫上效果堪憂,特別是對低頻實體和關(guān)系的表示效果較差,而且知識庫規(guī)模不斷擴(kuò)大,我們需要設(shè)計高效的在線學(xué)習(xí)方案.除了充分融合多源信息降低稀疏性之外,我們還可以探索如何優(yōu)化表示學(xué)習(xí)的樣例順序,借鑒Curriculum Learning[81]等算法思想,優(yōu)先學(xué)習(xí)核心知識,然后學(xué)習(xí)外圍知識,也許能夠一定程度改善表示效果.

2)基于知識分布式表示的應(yīng)用.知識表示學(xué)習(xí)還處于起步階段,在知識獲取、融合和推理等方向均有廣闊的應(yīng)用空間.我們需要在若干重要任務(wù)上探索和驗證知識表示學(xué)習(xí)的有效性.例如,關(guān)系抽取任務(wù)如果能夠基于知識表示學(xué)習(xí)有效利用知識庫信息,將能夠極大提升抽取性能和覆蓋面.再如,我們可以充分利用表示學(xué)習(xí)在信息融合上的優(yōu)勢,實現(xiàn)跨領(lǐng)域和跨語言的知識融合.此外,人腦強(qiáng)大的學(xué)習(xí)與推理能力[82],說明在低維語義空間中進(jìn)行知識的學(xué)習(xí)與推理極具潛力,相關(guān)機(jī)理值得深入探索.

5 結(jié)束語

通過以上對知識表示學(xué)習(xí)相關(guān)代表方法的梳理,我們認(rèn)為知識表示學(xué)習(xí)具有重要意義:現(xiàn)有知識庫的構(gòu)建與應(yīng)用主要依賴于離散符號表示,而分布式表示方案則為實體與關(guān)系的語義信息的統(tǒng)一精確表示提供了可行方案.在分布式表示學(xué)習(xí)的支持下,將極大推動知識的自動獲取、融合與推理能力,實現(xiàn)知識庫更加廣泛而深入的應(yīng)用.

本文還對知識表示學(xué)習(xí)面臨的主要挑戰(zhàn)、已有解決方案以及未來研究方向進(jìn)行了總結(jié).我們認(rèn)為知識表示學(xué)習(xí)雖然展現(xiàn)出巨大的潛力,但距離廣泛應(yīng)用還有很長的路要走.可以說,大規(guī)模知識表示學(xué)習(xí)是人工智能學(xué)科發(fā)展的學(xué)術(shù)前沿問題,是智能信息處理和服務(wù)發(fā)展的基礎(chǔ)技術(shù)保障.知識表示學(xué)習(xí)技術(shù)將推動人工智能學(xué)科、智能信息服務(wù)產(chǎn)業(yè)以及創(chuàng)新社會管理與社會服務(wù)的發(fā)展.

期待更多研究者加入到知識表示學(xué)習(xí)的研究行列中來,希望本文對于知識表示學(xué)習(xí)在國內(nèi)的研究發(fā)展提供一些幫助.

[1]Miller G A.WordNet:A lexical database for English[J].Communications of the ACM,1995,38(11):39 41

[2]Bollacker K,Evans C,Paritosh P,et al.Freebase:A collaboratively created graph database for structuring human knowledge[C]??Proc of KDD.New York:ACM,2008:1247 1250

[3]Miller E.An introduction to the resource description framework[J].Bulletin of the American Society for Information Science and Technology,1998,25(1):15 19

[4]Bengio Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1 127

[5]Bengio Y,Courville A,Vincent P.Representation learning:A review and new perspectives[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(8):1798 1828

[6]Turian J,Ratinov L,Bengio Y.Word representations:A simple and general method for semi-supervised learning[C]?? Proc of ACL.Stroudsburg,PA:ACL,2010:384 394

[7]Manning C D,Raghavan P,Schütze H.Introduction to Information Retrieval[M].Cambridge,UK:Cambridge University Press,2008

[8]Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[C]??Proc of NIPS.Cambridge,MA:MIT Press,2013:3111 3119

[9]Zhao Y,Liu Z,Sun M.Phrase type sensitive tensor indexing model for semantic composition[C]??Proc of AAAI.Menlo Park,CA:AAAI,2015:2195 2202

[10]Zhao Y,Liu Z,Sun M.Representation learning for measuring entity relatedness with rich information[C]??Proc of IJCAI.San Francisco,CA:Morgan Kaufmann,2015:1412 1418

[11]Hu B,Lu Z,Li H,et al.Convolutional neural network architectures for matching natural language sentences[C]?? Proc of NIPS.San Francisco,CA:Morgan Kaufmann,2014:2042 2050

[12]Le Q V,Mikolov T.Distributed representations of sentences and documents[C]??Proc of ICML.New York:ACM,2014:873 882

[13]Blunsom P,Grefenstette E,Kalchbrenner N,et al.A convolutional neural network for modelling sentences[C]?? Proc of the 52nd Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2014.a(chǎn)rXiv:1402.2188

[14]Perozzi B,Al-Rfou R,Skiena S.Deepwalk:Online learning of social representations[C]??Proc of KDD.New York:ACM,2014:701 710

[15]Tang J,Qu M,Wang M,et al.LINE:Large-scale information network embedding[C]??Proc of Int World Wide Web Conferences Steering Committee.New York:ACM,2015:1067 1077

[16]Yang C,Liu Z,Zhao D,et al.Network representation learning with rich text information[C]??Proc of IJCAI.San Francisco,CA:Morgan Kaufmann,2015

[17]Huang E H,Socher R,Manning C D,et al.Improving word representations via global context and multiple word prototypes[C]??Proc of ACL.Stroudsburg,PA:ACL,2012:873 882

[18]Reisinger J,Mooney R J.Multi-prototype vector-space models of word meaning[C]??Proc of HLT-NAACL.Stroudsburg,PA:ACL,2010:109 117

[19]Tian F,Dai H,Bian J,et al.A probabilistic model for learning multi-prototype word embeddings[C]??Proc of COLING.New York:ACM,2014:151 160

[20]Socher R,Bauer J,Manning C D,et al.Parsing with compositional vector grammars[C]??Proc of ACL.Stroudsburg,PA:ACL,2013:455 465

[21]Socher R,Perelygin A,Wu J Y,et al.Recursive deep models for semantic compositionality over a sentiment treebank[C]??Proc of EMNLP.Stroudsburg,PA:ACL,2013:1642 1653

[22]Socher R,Huval B,Manning C D,et al.Semantic compositionality through recursive matrix-vector spaces[C]??Proc of EMNLP-CoNLL.Stroudsburg,PA:ACL,2012:1201 1211

[23]Luong M,Socher R,Manning C.Better word representations with recursive neural networks for morphology[C]??Proc of CoNLL.Stroudsburg,PA:ACL,2013:104 113

[24]Botha J A,Blunsom P.Compositional morphology for word representations and language modelling[C]??Proc of ICML.New York:ACM,2014

[25]Chen X,Xu L,Liu Z,et al.Joint learning of character and word embeddings[C]??Proc of IJCAI.San Francisco,CA:Morgan Kaufmann,2015:1236 1242

[26]Klementiev A,Titov I,Bhattarai B.Inducing crosslingual distributed representations of words[C]??Proc of COLING.New York:ACM,2012:1459 1474

[27]Lauly S,Larochelle H,Khapra M,et al.An autoencoder approach to learning bilingual word representations[C]?? Proc of NIPS.San Francisco,CA:Morgan Kaufmann,2014:1853 1861

[28]Shi T,Liu Z,Liu Y,et al.Learning cross-lingual word embeddings via matrix co-factorization[C]??Proc of ACL.Stroudsburg,PA:ACL,2015:567 574

[29]Luo H,Liu Z,Luan H,et al.Online learning of interpretable word embeddings[C]??Proc of EMNLP.Stroudsburg,PA:ACL,2015:1687 1692

[30]Murphy B,Talukdar P P,Mitchell T M.Learning effective and interpretable semantic models using non-negative sparse embedding[C]??Proc of COLING.New York:ACM,2012:1933 1950

[31]Fyshe A,Talukdar P P,Murphy B,et al.Interpretable semantic vectors from a joint model of brain-and text-based meaning[C]??Proc of ACL.Stroudsburg,PA:ACL,2014:489 499

[32]Faruqui M,Tsvetkov Y,Yogatama D,et al.Sparse overcomplete word vector representations[C]??Proc of ACL.Stroudsburg,PA:ACL,2015:1491 1500

[33]Hawkins J,Blakeslee S.On Intelligence[M].London:Macmillan,2007

[34]Bordes A,Weston J,Collobert R,et al.Learning structured embeddings of knowledge bases[C]??Proc of AAAI.Menlo Park,CA:AAAI,2011:301 306

[35]Socher R,Chen D,Manning C D,et al.Reasoning with neural tensor networks for knowledge base completion[C]?? Proc of NIPS.Cambridge,MA:MIT Press,2013:926 934

[36]Bordes A,Glorot X,Weston J,et al.A semantic matching energy function for learning with multi-relational data[J].Machine Learning,2014,94(2):233 259

[37]Bordes A,Glorot X,Weston J,et al.Joint learning of words and meaning representations for open-text semantic parsing[C]??Proc of AISTATS.Cadiz,Spain:JMLR,2012:127 135

[38]Jenatton R,Roux N L,Bordes A,et al.A latent factor model for highly multi-relational data[C]??Proc of NIPS.Cambridge,MA:MIT Press,2012:3167 3175

[39]Sutskever I,Tenenbaum J B,Salakhutdinov R.Modelling relational data using Bayesian clustered tensor factorization[C]??Proc of NIPS.Cambridge,MA:MIT Press,2009:1821 1828

[40]Yang B,Yih W,He X,et al.Embedding entities and relations for learning and inference in knowledge bases[C]?? Proc of Int Conf on Learning Representations(ICLR).2015

[41]Bordes A,Usunier N,Garcia-Duran A,et al.Translating embeddings for modeling multi-relational data[C]??Proc of NIPS.Cambridge,MA:MIT Press,2013:2787 2795

[42]Nickel M,Tresp V,Kriegel H.A three-way model for collective learning on multi-relational data[C]??Proc of ICML.New York:ACM,2011:809 816

[43]Nickel M,Tresp V,Kriegel H.Factorizing YAGO:Scalable machine learning for linked data[C]??Proc of WWW.New York:ACM,2012:271 280

[44]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].Proc of ICLR.a(chǎn)rXiv:1301.3781.2013

[45]Fu R,Guo J,Qin B,et al.Learning semantic hierarchies via word embeddings[C]??Proc of ACL.Stroudsburg,PA:ACL,2014:1199 1209

[46]Nickel M,Rosasco L,Poggio T.Holographic embeddings of knowledge graphs[J].a(chǎn)rXiv preprint arXiv:1510.04935.2015

[47]Wang Z,Zhang J,F(xiàn)eng J,et al.Knowledge graph embedding by translating on hyperplanes[C]??Proc of AAAI.Menlo Park,CA:AAAI,2014:1112 1119

[48]Lin Y,Liu Z,Sun M,et al.Learning entity and relation embeddings for knowledge graph completion[C]??Proc of AAAI.Menlo Park,CA:AAAI,2015

[49]Ji G,He S,Xu L,et al.Knowledge graph embedding via dynamic mapping matrix[C]??Proc of ACL.Stroudsburg,PA:ACL,2015:687 696

[50]Ji G,Liu K,He S,et al.Knowledge graph completion with adaptive sparse transfer matrix[J].AAAI.2016

[51]Xiao H,Huang M,Hao Y,et al.TransA:An adaptive approach for knowledge graph embedding[J].a(chǎn)rXiv preprint arXiv:1509.05490.2015

[52]Xiao H,Huang M,Hao Y,et al.TransG:A generative mixture model for knowledge graph embedding[J].a(chǎn)rXiv preprint arXiv:1509.05488.2015

[53]He S,Liu K,Ji G,et al.Learning to represent knowledge graphs with Gaussian embedding[C]??Proc of CIKM.New York:ACM,2015:623 632

[54]Xie R,Liu Z,Jia J,et al.Representation learning of knowledge graphs with entity descriptions[C]??Proc of AAAI.Menlo Park,CA:AAAI,2016

[55]Collobert R,Weston J.A unified architecture for natural language processing:Deep neural networks with multitask learning[C]??Proc of ICML.New York:ACM,2008:160 167

[56]Collobert R,Weston J,Bottou L E O,et al.Natural language processing(almost)from scratch[J].JMLR,2011,12:2493 2537

[57]Zhong H,Zhang J,Wang Z,et al.Aligning knowledge and text embeddings by entity descriptions[C]??Proc of EMNLP.Stroudsburg,PA:ACL,2015:267 272

[58]Lao N,Cohen W W.Relational retrieval using a combination of path-constrained random walks[J].Machine Learning,2010,81(1):53 67

[59]Lao N,Mitchell T,Cohen W W.Random walk inference and learning in a large scale knowledge base[C]??Proc of EMNLP.Stroudsburg,PA:ACL,2011:529 539

[60]Garc I A-Dur A N A,Bordes A,Usunier N.Composing relationships with translations[C]??Proc of EMNLP.Stroudsburg,PA:ACL,2015:286 290

[61]Gu K,Miller J,Liang P.Traversing knowledge graphs in vector space[C]??Proc of EMNLP.Stroudsburg,PA:ACL,2015

[62]Tenenbaum J B,Kemp C,Griffiths T L,et al.How to grow a mind:Statistics,structure,and abstraction[J].Science,2011,331(6022):1279 1285

[63]Kemp C,Tenenbaum J B.Structured statistical models of inductive reasoning[J].Psychological Review,2009,116(1):20

[64]Mintz M,Bills S,Snow R,et al.Distant supervision for relation extraction without labeled data[C]??Proc of ACLIJCNLP.Stroudsburg,PA:ACL,2009:1003 1011

[65]Surdeanu M,Tibshirani J,Nallapati R,et al.Multi-instance multi-label learning for relation extraction[C]??Proc of EMNLP.Stroudsburg,PA:ACL,2012:455 465

[66]Sebastian R,Yao L,Mccallum A.Modeling relations and their mentions without labeled text[C]??Proc of ECMLPKDD.Berlin:Springer,2010:148 163

[67]Hoffmann R,Zhang C,Ling X,et al.Knowledge-based weak supervision for information extraction of overlapping relations[C]??Proc of ACL-HLT.Stroudsburg,PA:ACL,2011:541 550

[68]Takamatsu S,Sato I,Nakagawa H.Reducing wrong labels in distant supervision for relation extraction[C]??Proc of ACL-HLT.Stroudsburg,PA:ACL,2012:721 729

[69]Etzioni O,Cafarella M,Downey D,et al.Web-scale information extraction in knowitall:(preliminary results)[C]??Proc of WWW.New York:ACM,2004:100 110

[70]Yates A,Cafarella M,Banko M,et al.Textrunner:Open information extraction on the Web[C]??Proc of HLTNAACL.Stroudsburg,PA:ACL,2007:25 26

[71]Carlson A,Betteridge J,Kisiel B,et al.Toward an architecture for never-ending language learning.[C]??Proc of AAAI.Stroudsburg,PA:ACL,2010:3 10

[72]Wu W,Li H,Wang H,et al.Probase:A probabilistic taxonomy for text understanding[C]??Proc of the 2012 ACM SIGMOD Int Conf on Management of Data.New York:ACM,2012:481 492

[73]Wu F,Weld D S.Open information extraction using Wikipedia[C]??Proc of ACL.Stroudsburg,PA:ACL,2010:118 127

[74]Zeng D,Liu K,Chen Y,et al.Distant supervision for relation extraction via piecewise convolutional neural networks[C]??Proc of EMNLP.Stroudsburg,PA:ACL,2015:1753 1762

[75]Zeng D,Liu K,Lai S,et al.Relation classification via convolutional deep neural network[C]??Proc of COLING.New York:ACM,2014:2335 2344

[76]Dos Santos C I C N,Xiang B,Zhou B.Classifying relations by ranking with convolutional neural networks[C]??Proc of ACL-IJCNLP.Stroudsburg,PA:ACL,2015:626 634

[77]Li H,Xu J.Semantic matching in search[J].Foundations and Trends?in Information Retrieval,2013,7(5):343 469

[78]Bai B,Weston J,Grangier D,et al.Polynomial semantic indexing[C]??Proc of NIPS.San Francisco,CA:Morgan Kaufmann,2009:64 72

[79]Bai B,Weston J,Grangier D,et al.Supervised semantic indexing[C]??Proc of CIKM.New York:ACM,2009:187 196

[80]Gy O Ngyi Z A N,Garcia-Molina H,Pedersen J.Combating Web spam with trustrank[C]??Proc of VLDB.San Francisco,CA:Morgan Kaufmann,2004:576 587

[81]Bengio Y,Louradour J E R O,Collobert R,et al.Curriculum learning[C]??Proc of ICML.New York:ACM,2009:41 48

[82]Lake B M,Salakhutdinov R,Tenenbaum J B.Human-level concept learning through probabilistic program induction[J].Science,2015,350(6266):1332 1338

Liu Zhiyuan,born in 1984.PhD,assistant researcher.Senior member of China Computer Federation.His research interests include natural language processing,representation learning,and computational social sciences.

Sun Maosong,born in 1962.PhD,professor and PhD supervisor.Senior member of China Computer Federation.His research interests include natural language processing,Chinese computing,Web intelligence,and computational social sciences.

Lin Yankai,born in 1991.PhD candidate.Student member of China Computer Federation.His research interests include knowledge graphs and representation learning.

Xie Ruobing,born in 1992.Master candidate.Student member of China Computer Federation.His research interests include knowledge graphs and representation learning.

Knowledge Representation Learning:A Review

Liu Zhiyuan,Sun Maosong,Lin Yankai,and Xie Ruobing
(Department of Computer Science and Technology,Tsinghua University,Beijing100084)(State Key Laboratory of Intelligent Technology and Systems(Tsinghua University),Beijing100084)(Tsinghua National Laboratory for Information Science and Technology,Beijing100084)

Knowledge bases are usually represented as networks with entities as nodes and relations as edges.With network representation of knowledge bases,specific algorithms have to be designed to store and utilize knowledge bases,which are usually time consuming and suffer from data sparsity issue.Recently,representation learning,delegated by deep learning,has attracted many attentions in natural language processing,computer vision and speech analysis.Representation learning aims to project the interested objects into a dense,real-valued and low-dimensional semantic space,whereas knowledge representation learning focuses on representation learning of entities and relations in knowledge bases.Representation learning can efficiently measure semantic correlations of entities and relations,alleviate sparsity issues,and significantly improve the performance of knowledge acquisition,fusion and inference.In this paper,we will introduce the recent advances of representation learning,summarize the key challenges and possible solutions,and further give a future outlook on the research and application directions.

knowledge representation;representation learning;knowledge graph;deep learning;distributed representation

TP391

2016-01-12;

2016-01-15

國家“九七三”重點基礎(chǔ)研究發(fā)展計劃基金項目(2014CB340501);國家自然科學(xué)基金項目(61572273,61532010);清華大學(xué)自主科研計劃基金項目(2015THZ)This work was supported by the National Basic Research Program of China(973Program)(2014CB340501),the National Natural Science Foundation of China(61572273,61532010),and Tsinghua University Initiative Scientific Research Program(2015THZ).

猜你喜歡
語義融合信息
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
主站蜘蛛池模板: 午夜福利在线观看成人| 国产精品观看视频免费完整版| 99热这里只有精品国产99| 97久久超碰极品视觉盛宴| 狠狠色丁香婷婷| 国产精品熟女亚洲AV麻豆| 久久毛片免费基地| 激情成人综合网| 精品自窥自偷在线看| 成人午夜视频网站| 国产午夜无码专区喷水| 亚洲天堂网站在线| 午夜视频免费一区二区在线看| 欧美日本激情| 亚洲中文字幕国产av| 青青热久免费精品视频6| 亚洲久悠悠色悠在线播放| 99re精彩视频| 97在线碰| 国产一区三区二区中文在线| 日韩精品视频久久| 亚洲成人一区二区三区| 欧美中文字幕在线二区| 国产va在线观看免费| 人人妻人人澡人人爽欧美一区| 国产v精品成人免费视频71pao| 国产亚洲视频播放9000| 无码乱人伦一区二区亚洲一| 亚洲人成色在线观看| 国产产在线精品亚洲aavv| 亚洲欧美一区二区三区图片| 国产系列在线| 久久国产乱子伦视频无卡顿| 国产精品无码久久久久久| 亚洲天堂视频在线播放| 亚洲区第一页| 91精品国产91久久久久久三级| 国产成+人+综合+亚洲欧美| 欧美日本中文| 人妻丰满熟妇啪啪| 中文无码毛片又爽又刺激| 亚洲v日韩v欧美在线观看| 国产成人欧美| 香蕉99国内自产自拍视频| 一区二区午夜| 亚洲欧美成人在线视频| 污污网站在线观看| 亚洲欧美激情另类| 国产人人射| 午夜高清国产拍精品| 亚洲欧洲自拍拍偷午夜色| 国产丰满大乳无码免费播放 | 久久美女精品| 好紧好深好大乳无码中文字幕| 国产人人乐人人爱| 九色综合伊人久久富二代| 制服丝袜无码每日更新| 九九热视频精品在线| 日本a级免费| 国产成人综合网| 免费毛片网站在线观看| 四虎影视8848永久精品| jizz在线观看| 国产高清在线丝袜精品一区| 国产在线视频福利资源站| 免费无码AV片在线观看国产| 91美女视频在线观看| 国产91成人| 国产精品2| 国产亚洲精品精品精品| 亚洲一区第一页| 国产成人亚洲精品无码电影| 国产91高跟丝袜| 在线看片国产| 国产女人综合久久精品视| 美女被狂躁www在线观看| 91精品小视频| 免费在线播放毛片| 五月天久久综合国产一区二区| 国禁国产you女视频网站| 永久免费av网站可以直接看的 | 亚洲免费福利视频|