錢涵笑,韓 斌
(江蘇科技大學(xué)計算機(jī)學(xué)院,江蘇 鎮(zhèn)江 212000)
智能化應(yīng)用的深入研究令包含海量知識內(nèi)容的知識圖譜成為滿足用戶實際信息應(yīng)用需求的主要工具[1],被普遍應(yīng)用于各個領(lǐng)域中。知識圖譜利用資源表達(dá)框架數(shù)據(jù)模型,以圖結(jié)構(gòu)形式展示知識[2],圖內(nèi)節(jié)點與有向邊可分別代表不同類別的實體和實體間的關(guān)系。用戶在利用知識圖譜獲取所需信息的過程中,通過在知識庫內(nèi)檢索實體關(guān)系獲取相關(guān)信息的實際答案[3]。但實體關(guān)系檢索過程中由于知識庫內(nèi)文檔包含大量碎片化信息,導(dǎo)致當(dāng)前普遍使用的基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法和結(jié)合實體詞與句子語義的實體關(guān)系檢索方法等[4,5]均存在效率差以及檢索效果不佳等問題。針對此類問題,研究一種基于本體的低冗余知識圖譜實體關(guān)系檢索方法,期望通過所研究方法為知識圖譜應(yīng)用的拓展提供新的研究方向。
基于本體的低冗余知識圖譜實體關(guān)系檢索方法體系架構(gòu)如圖1所示,由左向右可劃分為三個主要部分,分別是:數(shù)據(jù)源、圖譜及索引構(gòu)建與檢索應(yīng)用。

圖1 實體關(guān)系檢索方法體系架構(gòu)
2.2.1 本體模型關(guān)系構(gòu)建
1)本體模型構(gòu)建
數(shù)據(jù)源內(nèi)包含的各類基礎(chǔ)數(shù)據(jù)大多存在不同種類的本體模型,這些本體存儲過程中的單位一般為表,不同本體間的相關(guān)性構(gòu)建以主外鍵為工具[6,7]。在獲取數(shù)據(jù)表內(nèi)全部表結(jié)構(gòu)的基礎(chǔ)上,依照表的存儲信息構(gòu)建本體模型,利用字段間的相關(guān)性在本體模型內(nèi)引入關(guān)聯(lián)信息,構(gòu)建若干個具有對象對立特征的本體模型[8],以此提升數(shù)據(jù)源內(nèi)數(shù)據(jù)結(jié)構(gòu)信息獲取的速度,并依照需求訪問數(shù)據(jù)。
2)本體模型關(guān)系構(gòu)建
圖2所示為個體本體與組織本體間的相關(guān)性。

圖2 個體與組織本體模型關(guān)系
成功構(gòu)建本體模型后將產(chǎn)生若干個具有獨立特征的本體,這些本體間具有較大相關(guān)性,這些相關(guān)性在數(shù)據(jù)源內(nèi)通常以關(guān)聯(lián)表形式展示[9]。在構(gòu)建個體與組織本體模型關(guān)系時采用基于知識圖譜的本體模型關(guān)系構(gòu)建方法,詳細(xì)過程如下:
1)選取需構(gòu)建相關(guān)性的若干個數(shù)據(jù)模型,模型數(shù)量可表示為M1,M2,M3,…,MN。
2)確定不同模型的相關(guān)性字段,構(gòu)建字段間的相關(guān)性。
3)在圖數(shù)據(jù)庫內(nèi)存儲本體模型關(guān)系,其中包含本體模型的字段信息、具有相關(guān)性的模型名稱與參數(shù)等。
2.2.2 實體關(guān)系構(gòu)建
完成本體模型關(guān)系構(gòu)建后,即可依照關(guān)系參數(shù)構(gòu)建實體關(guān)系,詳細(xì)構(gòu)建過程如下:
1)利用統(tǒng)一的數(shù)據(jù)訪問接口獲取全部參與實體關(guān)系構(gòu)建中各本體模型的全部數(shù)據(jù);
2)為提升全部數(shù)據(jù)表現(xiàn)的直觀性,依照數(shù)據(jù)庫內(nèi)表與表內(nèi)字段的描述轉(zhuǎn)換實體數(shù)據(jù)屬性名(由英文轉(zhuǎn)換為中文);
3)在圖數(shù)據(jù)庫內(nèi)存儲全部本體模型的實體數(shù)據(jù);
4)構(gòu)建實體關(guān)系,具體構(gòu)建過程中以本體模型的相關(guān)參數(shù)為依據(jù)[10];
5)循環(huán)1)—4)過程,至全部本體模型關(guān)系均完成對應(yīng)實體關(guān)系構(gòu)建為止。
知識圖譜數(shù)據(jù)量的顯著提升,令其中包含的實體數(shù)量顯著提升,在部分需直觀展示實體信息的應(yīng)用中,以防止產(chǎn)生用戶信息過載及滿足展示空間約束為目的[11,12],需采用ESSTER法生成具有高可讀性和低冗余性的實體摘要。
2.3.1 結(jié)構(gòu)重要性
知識圖譜內(nèi)屬性的流行度可描述其通用性,能夠表現(xiàn)此知識圖譜內(nèi)著重關(guān)注的關(guān)鍵含義。針對存在高流行度屬性的三元組,區(qū)分當(dāng)前實體和知識圖譜內(nèi)其他實體較為困難,用y表示三元組,ppopg(y)∈[0,1]和vpop(y)∈[0,1]分別表示知識圖譜內(nèi)y屬性的整體流行度和取值的流行度,則可利用式(1)描述此類度量
ch(y)=ppopg(y)·(1-vpop(y))
(1)
為提升實體摘要內(nèi)容的多樣性,可依照局部結(jié)構(gòu)內(nèi)屬性的流行度劃分多值屬性,設(shè)置相應(yīng)懲罰。同時針對高流行度的取值可設(shè)置相應(yīng)獎勵,以防止所選y存在過度偏重技術(shù)應(yīng)用的問題。利用ppopl(y)∈[0,1]表示y的屬性在實體描述所對應(yīng)局部結(jié)構(gòu)內(nèi)的流行度,其計算過程如下
div(y)=(1-ppopl(y))·vpop(y)
(2)
為優(yōu)化知識圖譜內(nèi)不同數(shù)據(jù)集對整體流行度與局部流行度偏好的差異性,引入?yún)?shù)φ∈[0,1],由此可利用式(3)確定y的重要性
Ws(y)=φ·ch(y)+(1-φ)·div(y)
(3)
2.3.2 文本可讀性
量化知識圖譜內(nèi)文本可讀性,可確定不同y在用戶閱讀感受上的差異性。以G(y)表示y的可讀性,其計算過程需以屬性prop(y)的文本為基礎(chǔ),不同屬性的理解對知識儲備的需求也有所差異。在仿真用戶日常閱讀環(huán)境時需參考開放域文本語料,若語料內(nèi)文檔數(shù)量為B,則b(y)和n(y)分別能夠分別表示語料庫內(nèi)文檔屬性為prop(y)的文本的數(shù)量和b(y)個文檔內(nèi)用戶可獲取的文檔數(shù)量。由此可將G(y)理解為n(y)的函數(shù),公式描述如下
G(y)=familiarity(n(y))
(4)
式(4)內(nèi),familiarity表示與n(y)相關(guān)的非遞減函數(shù),其取值范圍為[0,1],其計算過程如下

(5)
實際應(yīng)用過程中,可將G(y)作為y分值確定的輔助權(quán)重。通過對數(shù)函數(shù)優(yōu)化G(y)的取值,可防止其取值分布傾斜過量導(dǎo)致的懲罰過度問題,優(yōu)化后知識圖譜內(nèi)文本可讀性權(quán)重計算公式如下
Wt=log(G(y)+1)
(6)
2.3.3 低冗余度
1)由于本體知識存在屬性與類別間的相關(guān)性,因此,可基于本體知識確定邏輯冗余。實體關(guān)系表示過程中,屬性為rdf:type的y可表示實體關(guān)系所屬類別,假設(shè)兩個y表示的實體關(guān)系類別具有相關(guān)性,那么以其中一個y為基礎(chǔ)可推導(dǎo)獲取另一個y,由此確定這兩個y間具有邏輯冗余。
2)針對其他冗余關(guān)系,分別確定y屬性間或取值間的一致度確定其冗余程度。以simp(yi,yj)∈[-1,1]和simv(yi,yj)∈[-1,1]分別表示兩個y屬性間的一致度和取值間的一致度,可分別通過字符串一致度指標(biāo)和數(shù)值大小獲取。
3)以ovlp(yi,yj)∈[0,1]表示基于以上過程獲取的兩個y間的冗余度,其值與兩個y間冗余度呈正比例相關(guān)。通過實體關(guān)系內(nèi)y間成對冗余度確定實體摘要冗余度。
2.3.4 實體關(guān)系檢索實現(xiàn)
以S表示實體摘要,基于上述各指標(biāo)的量化方式,可利用式(7)表示S的質(zhì)量分值,將其作為生成高重要性、高可讀性與低冗余性實體摘要的依據(jù)。

(7)
式(8)內(nèi),λ表示待調(diào)參數(shù),其取值范圍為[0,1],主要功能是優(yōu)化實體摘要對冗余的認(rèn)可度。設(shè)定score(S)閾值,當(dāng)計算score(S)值高于閾值時即可確定所生成的實體摘要滿足低冗余要求。
針對所生成的低冗余實體關(guān)系摘要構(gòu)建索引,依照低冗余摘要索引類別快速檢索知識圖譜內(nèi)的數(shù)據(jù)與文檔數(shù)據(jù)中的實體關(guān)系。
實驗為驗證本文所提出的基于本體的低冗余知識圖譜實體關(guān)系檢索方法在實際知識圖譜實體關(guān)系檢索中的應(yīng)用效果,利用Java語言在Elasticsearch系統(tǒng)之上對本文方法進(jìn)行仿真實驗。選取油茶樹為仿真對象,采用本文方法構(gòu)建油茶知識圖譜,采用本文方法檢索油茶樹知識圖譜內(nèi)的實體關(guān)系,實驗結(jié)果如下。
針對仿真對象油茶樹,采用本文方法構(gòu)建其知識圖譜,圖3所示為仿真對象知識本體模型。

圖3 實驗對象知識本體模型
圖3所示的仿真對象知識本體模型內(nèi)包含實驗對象培育、加工與應(yīng)用全產(chǎn)業(yè)鏈的知識,其中“工作單位”“研究成果”“培育人”“發(fā)明人”“作者”與“來源”均為本文方法所生成的低冗余實體摘要。知識本體內(nèi)包含的不同類別數(shù)據(jù)均來自于國家相關(guān)部門或平臺文件數(shù)據(jù)。
基于圖3所示的知識本體模型,依照關(guān)系參數(shù)構(gòu)建實驗對象實體關(guān)系。針對知識本體模型內(nèi)包含的工作單位與研究成果數(shù)據(jù)集,以二值相關(guān)度、召回率以及平均準(zhǔn)確率均值為判斷指標(biāo)判斷本文方法檢索結(jié)果,各指標(biāo)值與實體關(guān)系檢索結(jié)果之間呈正比例相關(guān),也就是判斷指標(biāo)值越高,本文方法實體關(guān)系檢索性能越好。表1所示為本文方法實體關(guān)系檢索結(jié)果。

表1 本文方法實體關(guān)系檢索結(jié)果
分析表1得到,采用本文方法對本體模型中包含的兩個主要數(shù)據(jù)集進(jìn)行實體關(guān)系索引,本文方法下實體關(guān)系檢索的二值相關(guān)度等各指標(biāo)值均在0.8以上,滿足實際應(yīng)用需求,說明本文方法具有較好的實體關(guān)系檢索效果。
為進(jìn)一步驗證本文方法知識圖譜實體關(guān)系檢索的性能,選取文獻(xiàn)[4]中基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法和文獻(xiàn)[5]中結(jié)合實體詞與句子語義的實體關(guān)系檢索方法為對比方法,采用對比方法檢索兩個主要數(shù)據(jù)集內(nèi)的實體關(guān)系,兩種對比方法實體關(guān)系檢索結(jié)果的各判斷指標(biāo)如表2所示。

表2 兩種對比方法實體關(guān)系檢索結(jié)果
結(jié)合表1與表2內(nèi)數(shù)據(jù)可知,采用結(jié)合實體詞與句子語義的實體關(guān)系檢索方法檢索數(shù)據(jù)集內(nèi)實體關(guān)系時,二值相關(guān)度指標(biāo)結(jié)果稍高于本文方法,但召回率與平均準(zhǔn)確率均值均低于本文方法與基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法;而基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法與本文方法相比各判斷指標(biāo)值均有一定差距。上述實驗結(jié)果可充分說明本文方法具有較好的實體關(guān)系檢索性能。
本文方法中采用低冗余實體摘要生成方法生成知識圖譜內(nèi)實體關(guān)系摘要。以F-measure為衡量實體關(guān)系摘要質(zhì)量的指標(biāo),以S′和S*分別為生成時實體關(guān)系摘要與理想實體關(guān)系摘要,對比本文方法與兩種對比方法針對工作單位與研究成果數(shù)據(jù)集所生成的實體關(guān)系摘要質(zhì)量,結(jié)果如表3所示。
衡量指標(biāo)計算過程如下:

(8)

(9)

(10)
表3為不同方法下實體關(guān)系摘要質(zhì)量對比結(jié)果。

表3 實體關(guān)系摘要質(zhì)量對比結(jié)果
分析表3得到,三種不同方法所生成的實體關(guān)系摘要質(zhì)量排序為:本文方法>結(jié)合實體詞與句子語義的實體關(guān)系檢索方法>基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法;三種不同方法檢索實體關(guān)系摘要所花費的時間排序為:結(jié)合實體詞與句子語義的實體關(guān)系檢索方法>基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法>本文方法。由此可知本文方法所生成的實體關(guān)系摘要質(zhì)量高于對比方法,并且可以顯著提升實體關(guān)系摘要檢索的效率。
本文研究基于本體的低冗余知識圖譜實體關(guān)系檢索方法,基于本體與實體關(guān)系構(gòu)建知識圖譜,采用低冗余摘要生成方法生成實體關(guān)系摘要。仿真結(jié)果顯示本文方法具有較好的檢索性能,說明該方法具有較高的應(yīng)用價值。