999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識圖譜關系檢錯和知識補全方法研究*

2022-08-26 09:39:46王赫楠楊昕悅孫艷秋
計算機與數字工程 2022年7期
關鍵詞:特征模型

王赫楠 楊昕悅 孫艷秋

(1.遼寧中醫藥大學 沈陽 110000)(2.遼寧工程技術大學 阜新 123000)

1 引言

1.1 知識圖譜

知識圖譜[1]這一概念最初是由谷歌公司在2012 年提出,本質是一種由節點和邊組成的語義網知識庫。早在20 世紀下半葉的人工智能熱潮中就有知識圖譜的相似理論被提出,它脫胎于許多認知心理學家提出的語義網絡的理論[2]。從1977 年到2012年這35年來,作為知識圖譜的成長期,知識圖譜經歷了專家系統階段及Web1.0,Web2.0 階段。WordNet、Cyc、Hownet 等大規模的人工知識庫也應運而生,知識工程成為人工智能的重要研究領域。

1.2 知識圖譜補全

近年來一系列的知識圖譜補全研究應運而生[3]。根據是否與知識圖譜外的非結構化信息關聯知識圖譜補全可以分為兩類:一種為靜態知識圖譜補全;第二種為動態知識圖譜補全。目前,知識表示學習對靜態知識圖譜補全方法起到了重要的作用。

當前主流的知識表示方法是基于詞向量的平移不變性原理,其中最具代表性的就是在2013 年被提出來的翻譯模型TransE[4]。但TransE 并不適用于復雜的關系知識圖譜,對“1-N”關系和“N-1”關系,TransE模型在這類復雜關系的知識圖譜上表現不夠理想;而后Wang 等提出了TransH[5]模型,它認為關系下的實體與實體應該有不同的表示;Lin提出TransR[6]模型則認為,實體與關系也不應該在同一空間下表示,所以TransR 模型將實體空間通過關系投影矩陣投影到相應的關系空間;Ji等提出的TransD[7]模型則更加細化了頭實體和尾實體,認為兩者之間的屬性有較大的差異,所以需要不同的關系投影矩陣。雖然知識表示在知識圖譜補全中占有著重要的位置[8],但數據的稀疏性問題和過擬合問題仍然是未來需要解決的問題。

針對上述問題,本文提出了一種基于知識嵌入的知識圖譜關系檢錯和知識補全方法。該方法采用了邏輯規則、相似度計算、知識嵌入、卷積神經網絡等方面的理論和相關算法。從而當得到一個更新后的三元組事實,預測哪些是過時需要更新的三元組,然后刪除并補全整個知識庫。

2 知識圖譜自動關系檢錯方法

2.1 知識關系檢錯方法

1)邏輯規則判斷

邏輯規則被廣泛地用于概括當前的信息。例如,給定一個邏輯規則:“如果x 當前的隊伍是y,而且z 也一樣,然后x 和z 是隊友”,如圖1 所示。當確認<內馬爾,隊友,梅西>是過時的信息后,根據逆否命題,可以進一步推斷出內馬爾或者梅西已經離開了他們的團隊。

圖1 邏輯關系示例

因為在訓練后續的二分類模型中,需要一些訓練實例。但已知的知識庫中并不知道哪些是正例哪些是負例,這時需要給定一個已知的最新事實<s,r,o>∈T。由它與最新知識庫K 進行匹配,得到正例和負例。結果有兩種可能,第一種是知識圖譜已有對應的三元組信息,那么認為這個三元組為最新的三元組,知識圖譜也是無需更新的。

但當匹配發現沒有可以與之匹配的三元組的時候,需要在知識庫K 中檢測<s,r,*>,<*,r,o>,和<s,*,o>三種情況是否是過時信息,其中*是通配符,其中<s,r,*>和<*,r,o>型的三元組是通過關系r的對應關系來判斷的。如果r 是一個一對多的關系,即一個主語可能對應很多的賓語,但一個賓語只對應一個主語。在這種情況下<*,r,o>即為過時信息。例如,一個公司的CEO 為A,他有許多公司成員,他的下屬有很多,但他的下屬只有這一個CEO,那么當有一條最新的消息說,這位CEO 離任后,那么他的所有下屬信息都是過時的。對于<s,*,o>型的三元組,應該尋找在知識庫K 中是否存在關系r′與r 是不相容的關系,意思是在兩個實體之間關系r 和r′是否可以同時存在,即<s,r,o>和<s,r′,o>在知識庫K 中能否在同一時間內成立。舉個例子,知識庫中A 是B的學生,即<A,老師,B>與B 是A 的學生,即<A,學生,B>不能同時存在。如果這種情況出現了,因為已經確定了新增的信息為更新后的事實三元組<s,r,o>,那么可以知道知識庫中原來的三元組<s,r′,o>為過時信息。

將上述過時的三元組信息作為負例,沒過時的三元組事實作為正例,放入二分類模型中進行分類判斷為過時的可能性是多少,這里使用了神經網絡進行學習。但需要針對過時三元組自定義其特征,這里強調在討論的所有三元組事實f:<s,r,o>都是基于當前需要檢錯的知識庫K 中。前三個特征用于確定實體s 是否為活躍的實體,即s 的屬性是否會發生變化。第四個特征是確定關系r是否為主動關系,第五個特征是確定整個事實,最后一個特征是估量訓練三元組與已知最新的事實三元組之間的相關度。在這里將特征分別為δ1,δ2,δ3,δ4,δ5,δ6,下面給出具體定義和計算方法。

δ1計算實體s的屬性完備性,它是實體s的屬性數與同類型實體之間的最大屬性數之比。

其中pf為待判斷三元組f:<s,r,o>的屬性數,pmax為數據庫中與是事實f同類型實體的最大屬性。

δ2特征為實體s的歷史更新頻率。它統計實體s被添加到知識庫后被更新的次數。

δ3特征為從其他實體到實體s 的鏈接,即實體s的入度。因為知識圖譜的結構是一個關系對應一個節點,所以也可以說是計算指向s 的實體的數量。更具體地說,如果存在三元組<s′,r,s>,則s′指向s。

δ4特征為<s,r,*>歷史更新頻率,它測量的是在s 被加入知識圖譜中后實體s 對應的r 關系的更新次數,這可以反映關系r的穩定性。

δ5特征為事實f:<s,r,o>在存在于知識庫中的時間,它用于量化事實f在知識庫中存在的時間。

δ6特征為待測三元組f:<s,r,o>與已知最新更新的三元組f*:<s*,r*,o*>之間的關系相似度。這里引出一個計算關系相似度的理論。

因為與大量的描述信息的實體不同,知識庫K中的關系之間幾乎沒有上下文可以捕獲其予以相關性,所以前人的研究一般只考慮實體之間的相似性,對于關系與關系之間的研究仍然有欠缺。

為了解決上述問題,采用點態互信息(Pointwise Mutual Information,PMI)[9]方法,該方法可以通過三元組之間的共同元素,即主語和賓語實體,來計算兩個關系的相關性,即在本文中計算r和r*的相關性。這里認為,當兩個關系的主語和賓語高度保持一致時兩個關系是相似的,當此關系的頭節點和尾節點在所有頭節點和尾節點中占的概率越大,那么這兩個關系之間的相似度越高,從概率方向可以計算出兩個關系之間的相關度。

例如,在圖2 中所示中關系“工作于”,“生活于”,“定居于”因為三個關系的主語和賓語高度一致,在很多三元組中都有體現,那么可以說這三個相關性很高,但如果像關系“學生”與“老師”這種在知識庫中主語和賓語不可能一致的兩個關系,可以認為兩個關系之間的相關性很低。

圖2 計算關系相關性思維圖

首先定義一個概率相關函數P(r,r*)來衡量兩個關系的相關性,即P(r,r*)的值,其中r 和r*分別為帶判斷三元組和已知最新三元組事實。計算關系r 作為主體的概率PS(r) 和r 作為客體的概率PO(r)分別如下:

其中S(r) 是知識庫中關系r 的主語實體的集合,O(r)為關系r 的賓語實體的集合,N 是知識庫中事實的總數。

則關系r和r*共同主語的概率PS(r∩r*),關系r和r*共同賓語的概率PO(r∩r*)如式(3)所示:

因此可以得出r和r*的PMI得分為

為了方便后續的計算將PMI 評分進行歸一化處理,處理后的NPMI的值域為[-1,+1]:

因為知道關系r和關系r*之間因為每對r和r*至少有0 個公共的事實三元組,所以不可能存在負相關關系,所以定義的P(r,r*)的相關函數如下:

所以可以得到特征值δ6為P(r,r*)。

2)神經網絡二分類模型

將每個訓練三元組構造為一個標簽數據:<<δ1(f),δ2(f),δ3(f),δ4(f),δ5(f),δ6(f)>,y(f)>,其中每個δi( )f都是關于事實f 的特征之一,如果f 過時了,y(f)=1 否則,y(f)=0。這些標簽訓練數據被進一步輸入分類器來預測事實為過時的概率。分類器將為每個三元組返回一個[0,1]的值作為過時的可能性。

通過神經網絡的預測得到了一個值域為[0,1]的預測值,通過Top-k 排序,設定閾值,高于閾值的三元組為過時的三元組信息。

使用圖3對整體模型進行概括。

圖3 知識圖譜關系檢錯流程圖

2.2 基于2D卷積的知識圖譜補全方法

1)2D卷積模型應用于知識圖譜

知識圖譜是一個能夠提供高質量結構化數據的知識庫,已經廣泛的應用于人工智能的各種領域,例如智能搜索,問答系統,推薦等。所以知識圖譜的完備性和準確性在各領域中都很重要。但如今大部分開放知識圖譜,大都是人工或者半自動的方式構建起來的,這些圖譜通常比較稀疏,很多隱藏的關系并沒有被挖掘出來。例如,在Freebase 和DBpedia 中,超過66%的person 條目丟失了一個出生地[10]。知識圖譜補全[11]的目的在于將三元組缺失的部分預測出來,從而將知識圖譜更加完整。

當知識庫檢錯后很可能造成知識庫中關系的缺失,所以通過知識補全方法來完善的知識庫,使數據源更加完備可靠。本章引用了一個基于2D卷積神經網絡的模型ConvE[12],并將模型融入的方法中。

在知識圖譜補全中引用了一個神經鏈接預測器,ConvE[12],模型的靈感來源于計算機視覺,使用二維卷積的嵌入來預測知識圖中的新鏈接,在空間層次上直接作用于嵌入,在嵌入中引入了像素級的空間結構。雖然像其他鏈接預測一樣大部分的模型參數仍然在關系和實體嵌入上,但利用卷積體重共享機制,只使用一個額外的72 參數提取更多一層的非線性特性,然后投射回嵌入空間得分。因此,有一個高度參數效率,可擴展的架構,它可以很好地推廣和而且與其他常用的鏈路預測模型相比,使用很少額外的參數。

ConvE 模型比起TransE 等其他知識嵌入模型有獨特的優勢,首先卷積神經網絡可以學習多層非線性特征,同時通過權值共享減少參數的數量,由于一系列正則化技術[13],也可以有效地防止過度參數化導致的過擬合,其次模型不僅僅可以解決1-1的問題還可以解決1-N的復雜關系,這與上節敘述的檢錯模型相匹配,模型同時預測所有鏈接的能力遠高于其他模型。

ConvE模型的優勢如下。

Toutanova 和Chen[14]之前的工作指出,FB15k和WN18 包含許多冗余的、可逆的關系,但他們沒有調查這個問題的嚴重性。ConvE 模型通過設計一個簡單的基于反轉規則的模型來演示其嚴重性,反轉規則在WN18 和FB15k 上實現了最先進的結果,這表明模型可能會學習這個規則,而不學習知識圖譜本身。提出了一個新的版本的WN18,它是按照FB15k-237的相同的建造流程,從而緩解這個問題。

2)ConvE 模型

ConvE 模型中提出了一個神經連接預測模型,其中輸入的實體和關系之間是由全連接層和卷積層建模進行交互的。ConvE 模型的主要特征是對二維形狀嵌入的卷積。圖4 總結了該體系結構。

如圖4 所示,圖中步驟1、2 為ConvE 模型中的實體和關系嵌入的重塑和連接過程;步驟3 中,由重塑后產生的矩陣作為一個輸入,輸入到卷積層;步驟4、步驟3中,特征圖張量被量化和映射到一個k 維的空間;并在步驟5 中與所有候選對象嵌入相連。

圖4 ConvE模型結構圖

評分函數的正式定義如下:

前饋過程中,模型對兩個嵌入矩陣進行行向量查找操作,一個是實體,記作E|ε|×k,一個是關系,記R|R|×k′,其中k和k′分別是實體和關系的嵌入維數,|ε|和 |R|表示實體數和關系數。這個模型然后連接代表和代表,并使用它作為一個帶卷積核ω的二維卷積的輸入。這樣一個層返回一個特征圖張量Τ ∈Rc×m×n,其中c 為二維卷積核的個數,m和n 為所提取的特征圖的維數。然后將張量T 在vec(T)∈Rcmn向量中進行重塑,然后將其通過矩陣W∈Rcmn×k參數化的線性變換投影到k 維空間中,并通過點積與嵌入對象eo 匹配。卷積核和矩陣W是共享參數,與輸入實體s和o以及關系r無關。

為了訓練模型參數,采用邏輯sigmod 激活函數,將(s,r,o)三元組的分數的對數化并且最小化下面二元交叉熵損失:

其中p是標預測,t是標簽。

使用已矯正的線性單元作為非線性f,以更快地訓練,并在每層后進行批量歸一化,以穩定、規范地提高訓練收斂的速度。使用dropout 對模型進行正則化,可以分為以下幾個階段:去掉嵌入,去掉卷積后的特征映射,去掉全連接層后的隱藏單元。使用Adam 作為優化器[15],并使用標簽平滑來減少由于標簽的輸出非線性飽和而導致的過擬合。

3 結語

本文提出了一種基于知識嵌入的知識圖譜關系檢錯和知識補全的方法,該方法分為關系檢錯和知識補全兩個階段。在關系檢錯階段,根據最新更新過的事實三元組,通過邏輯規則找出訓練二分類模型的訓練數據。自行定義六個特征作為標簽輸入模型,這里為體現關系之間的作用,采用了PMI方法計算了兩個關系之間的相似度。通過二分類模型訓練預測三元組為過時信息的概率,與閾值比較判斷三元組是否為過時三元組。在知識補全方面,采用ConvE 知識圖譜補全算法,將檢錯后的知識圖譜補全,得到更加完整的知識庫,為后續研究與應用提供更有保障的數據源。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 激情爆乳一区二区| 国产尤物视频网址导航| 国产小视频网站| 亚洲视频四区| 日韩 欧美 小说 综合网 另类| 国产精品久久久久久搜索 | 日本免费a视频| 国产精品无码AV片在线观看播放| 国产精品久久久久久影院| 久久五月视频| 丁香婷婷综合激情| 免费视频在线2021入口| 国产精品夜夜嗨视频免费视频 | 女人av社区男人的天堂| 国产亚洲精品97AA片在线播放| 又黄又湿又爽的视频| 日韩欧美91| 国产在线视频福利资源站| 国产凹凸视频在线观看| 台湾AV国片精品女同性| 国产精品无码久久久久AV| 国产99精品久久| a级毛片毛片免费观看久潮| 香蕉久久国产精品免| 国产一级毛片高清完整视频版| 97视频免费看| 国产欧美网站| 99免费视频观看| 97视频精品全国免费观看| 一级一毛片a级毛片| 亚洲视频在线网| 欧美日韩高清| 强乱中文字幕在线播放不卡| 亚洲床戏一区| 97人人做人人爽香蕉精品| 欧美精品在线观看视频| 亚洲有无码中文网| 妇女自拍偷自拍亚洲精品| 亚洲第一精品福利| 亚洲毛片一级带毛片基地| 精品国产美女福到在线不卡f| 国产精品美女免费视频大全| 无码中文AⅤ在线观看| 国产区免费精品视频| 2020极品精品国产| 国产拍在线| 欲色天天综合网| 国产va在线观看免费| 亚洲一区网站| 中文字幕在线欧美| 色婷婷国产精品视频| 在线观看免费黄色网址| 亚洲无码视频图片| 国产精品播放| 亚洲成人网在线播放| 欧美日韩午夜| 国产成人AV男人的天堂| 香蕉综合在线视频91| 国产91精品久久| 日韩区欧美国产区在线观看| 国产乱人伦偷精品视频AAA| 91久久国产成人免费观看| 日本不卡在线| 午夜少妇精品视频小电影| 国产福利影院在线观看| 幺女国产一级毛片| 9966国产精品视频| 亚洲—日韩aV在线| 91国内外精品自在线播放| 狠狠躁天天躁夜夜躁婷婷| 国产欧美另类| 国产欧美精品一区二区| 久久动漫精品| 亚洲黄色网站视频| 亚洲国产精品日韩av专区| 亚洲男人的天堂视频| 国产精品私拍99pans大尺度| 丝袜国产一区| 日本在线免费网站| 无码国产伊人| a级毛片免费网站| 久草视频精品|