低冗余知識圖譜實體關(guān)系檢索與仿真

2022-07-20 02:16:06錢涵笑

計算機(jī)仿真 2022年6期

關(guān)鍵詞：方法模型

錢涵笑，韓斌

(江蘇科技大學(xué)計算機(jī)學(xué)院，江蘇鎮(zhèn)江 212000)

1 引言

智能化應(yīng)用的深入研究令包含海量知識內(nèi)容的知識圖譜成為滿足用戶實際信息應(yīng)用需求的主要工具[1]，被普遍應(yīng)用于各個領(lǐng)域中。知識圖譜利用資源表達(dá)框架數(shù)據(jù)模型，以圖結(jié)構(gòu)形式展示知識[2]，圖內(nèi)節(jié)點與有向邊可分別代表不同類別的實體和實體間的關(guān)系。用戶在利用知識圖譜獲取所需信息的過程中，通過在知識庫內(nèi)檢索實體關(guān)系獲取相關(guān)信息的實際答案[3]。但實體關(guān)系檢索過程中由于知識庫內(nèi)文檔包含大量碎片化信息，導(dǎo)致當(dāng)前普遍使用的基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法和結(jié)合實體詞與句子語義的實體關(guān)系檢索方法等[4，5]均存在效率差以及檢索效果不佳等問題。針對此類問題，研究一種基于本體的低冗余知識圖譜實體關(guān)系檢索方法，期望通過所研究方法為知識圖譜應(yīng)用的拓展提供新的研究方向。

2 基于本體的低冗余知識圖譜實體關(guān)系檢索方法

2.1 檢索方法體系架構(gòu)設(shè)計

基于本體的低冗余知識圖譜實體關(guān)系檢索方法體系架構(gòu)如圖1所示，由左向右可劃分為三個主要部分，分別是：數(shù)據(jù)源、圖譜及索引構(gòu)建與檢索應(yīng)用。

圖1 實體關(guān)系檢索方法體系架構(gòu)

2.2 知識圖譜構(gòu)建

2.2.1 本體模型關(guān)系構(gòu)建

1)本體模型構(gòu)建

數(shù)據(jù)源內(nèi)包含的各類基礎(chǔ)數(shù)據(jù)大多存在不同種類的本體模型，這些本體存儲過程中的單位一般為表，不同本體間的相關(guān)性構(gòu)建以主外鍵為工具[6，7]。在獲取數(shù)據(jù)表內(nèi)全部表結(jié)構(gòu)的基礎(chǔ)上，依照表的存儲信息構(gòu)建本體模型，利用字段間的相關(guān)性在本體模型內(nèi)引入關(guān)聯(lián)信息，構(gòu)建若干個具有對象對立特征的本體模型[8]，以此提升數(shù)據(jù)源內(nèi)數(shù)據(jù)結(jié)構(gòu)信息獲取的速度，并依照需求訪問數(shù)據(jù)。

2)本體模型關(guān)系構(gòu)建

圖2所示為個體本體與組織本體間的相關(guān)性。

圖2 個體與組織本體模型關(guān)系

成功構(gòu)建本體模型后將產(chǎn)生若干個具有獨立特征的本體，這些本體間具有較大相關(guān)性，這些相關(guān)性在數(shù)據(jù)源內(nèi)通常以關(guān)聯(lián)表形式展示[9]。在構(gòu)建個體與組織本體模型關(guān)系時采用基于知識圖譜的本體模型關(guān)系構(gòu)建方法，詳細(xì)過程如下：

1)選取需構(gòu)建相關(guān)性的若干個數(shù)據(jù)模型，模型數(shù)量可表示為M1，M2，M3，…，MN。

2)確定不同模型的相關(guān)性字段，構(gòu)建字段間的相關(guān)性。

3)在圖數(shù)據(jù)庫內(nèi)存儲本體模型關(guān)系，其中包含本體模型的字段信息、具有相關(guān)性的模型名稱與參數(shù)等。

2.2.2 實體關(guān)系構(gòu)建

完成本體模型關(guān)系構(gòu)建后，即可依照關(guān)系參數(shù)構(gòu)建實體關(guān)系，詳細(xì)構(gòu)建過程如下：

1)利用統(tǒng)一的數(shù)據(jù)訪問接口獲取全部參與實體關(guān)系構(gòu)建中各本體模型的全部數(shù)據(jù)；

2)為提升全部數(shù)據(jù)表現(xiàn)的直觀性，依照數(shù)據(jù)庫內(nèi)表與表內(nèi)字段的描述轉(zhuǎn)換實體數(shù)據(jù)屬性名(由英文轉(zhuǎn)換為中文)；

3)在圖數(shù)據(jù)庫內(nèi)存儲全部本體模型的實體數(shù)據(jù)；

4)構(gòu)建實體關(guān)系，具體構(gòu)建過程中以本體模型的相關(guān)參數(shù)為依據(jù)[10]；

5)循環(huán)1)—4)過程，至全部本體模型關(guān)系均完成對應(yīng)實體關(guān)系構(gòu)建為止。

2.3 低冗余實體摘要生成

知識圖譜數(shù)據(jù)量的顯著提升，令其中包含的實體數(shù)量顯著提升，在部分需直觀展示實體信息的應(yīng)用中，以防止產(chǎn)生用戶信息過載及滿足展示空間約束為目的[11，12]，需采用ESSTER法生成具有高可讀性和低冗余性的實體摘要。

2.3.1 結(jié)構(gòu)重要性

知識圖譜內(nèi)屬性的流行度可描述其通用性，能夠表現(xiàn)此知識圖譜內(nèi)著重關(guān)注的關(guān)鍵含義。針對存在高流行度屬性的三元組，區(qū)分當(dāng)前實體和知識圖譜內(nèi)其他實體較為困難，用y表示三元組，ppopg(y)∈[0，1]和vpop(y)∈[0，1]分別表示知識圖譜內(nèi)y屬性的整體流行度和取值的流行度，則可利用式(1)描述此類度量

ch(y)=ppopg(y)·(1-vpop(y))

(1)

為提升實體摘要內(nèi)容的多樣性，可依照局部結(jié)構(gòu)內(nèi)屬性的流行度劃分多值屬性，設(shè)置相應(yīng)懲罰。同時針對高流行度的取值可設(shè)置相應(yīng)獎勵，以防止所選y存在過度偏重技術(shù)應(yīng)用的問題。利用ppopl(y)∈[0，1]表示y的屬性在實體描述所對應(yīng)局部結(jié)構(gòu)內(nèi)的流行度，其計算過程如下

div(y)=(1-ppopl(y))·vpop(y)

(2)

為優(yōu)化知識圖譜內(nèi)不同數(shù)據(jù)集對整體流行度與局部流行度偏好的差異性，引入?yún)?shù)φ∈[0，1]，由此可利用式(3)確定y的重要性

Ws(y)=φ·ch(y)+(1-φ)·div(y)

(3)

2.3.2 文本可讀性

量化知識圖譜內(nèi)文本可讀性，可確定不同y在用戶閱讀感受上的差異性。以G(y)表示y的可讀性，其計算過程需以屬性prop(y)的文本為基礎(chǔ)，不同屬性的理解對知識儲備的需求也有所差異。在仿真用戶日常閱讀環(huán)境時需參考開放域文本語料，若語料內(nèi)文檔數(shù)量為B，則b(y)和n(y)分別能夠分別表示語料庫內(nèi)文檔屬性為prop(y)的文本的數(shù)量和b(y)個文檔內(nèi)用戶可獲取的文檔數(shù)量。由此可將G(y)理解為n(y)的函數(shù)，公式描述如下

G(y)=familiarity(n(y))

(4)

式(4)內(nèi)，familiarity表示與n(y)相關(guān)的非遞減函數(shù)，其取值范圍為[0，1]，其計算過程如下

(5)

實際應(yīng)用過程中，可將G(y)作為y分值確定的輔助權(quán)重。通過對數(shù)函數(shù)優(yōu)化G(y)的取值，可防止其取值分布傾斜過量導(dǎo)致的懲罰過度問題，優(yōu)化后知識圖譜內(nèi)文本可讀性權(quán)重計算公式如下

Wt=log(G(y)+1)

(6)

2.3.3 低冗余度

1)由于本體知識存在屬性與類別間的相關(guān)性，因此，可基于本體知識確定邏輯冗余。實體關(guān)系表示過程中，屬性為rdf：type的y可表示實體關(guān)系所屬類別，假設(shè)兩個y表示的實體關(guān)系類別具有相關(guān)性，那么以其中一個y為基礎(chǔ)可推導(dǎo)獲取另一個y，由此確定這兩個y間具有邏輯冗余。

2)針對其他冗余關(guān)系，分別確定y屬性間或取值間的一致度確定其冗余程度。以simp(yi，yj)∈[-1，1]和simv(yi，yj)∈[-1，1]分別表示兩個y屬性間的一致度和取值間的一致度，可分別通過字符串一致度指標(biāo)和數(shù)值大小獲取。

3)以ovlp(yi，yj)∈[0，1]表示基于以上過程獲取的兩個y間的冗余度，其值與兩個y間冗余度呈正比例相關(guān)。通過實體關(guān)系內(nèi)y間成對冗余度確定實體摘要冗余度。

2.3.4 實體關(guān)系檢索實現(xiàn)

以S表示實體摘要，基于上述各指標(biāo)的量化方式，可利用式(7)表示S的質(zhì)量分值，將其作為生成高重要性、高可讀性與低冗余性實體摘要的依據(jù)。

(7)

式(8)內(nèi)，λ表示待調(diào)參數(shù)，其取值范圍為[0，1]，主要功能是優(yōu)化實體摘要對冗余的認(rèn)可度。設(shè)定score(S)閾值，當(dāng)計算score(S)值高于閾值時即可確定所生成的實體摘要滿足低冗余要求。

針對所生成的低冗余實體關(guān)系摘要構(gòu)建索引，依照低冗余摘要索引類別快速檢索知識圖譜內(nèi)的數(shù)據(jù)與文檔數(shù)據(jù)中的實體關(guān)系。

3 實驗分析

實驗為驗證本文所提出的基于本體的低冗余知識圖譜實體關(guān)系檢索方法在實際知識圖譜實體關(guān)系檢索中的應(yīng)用效果，利用Java語言在Elasticsearch系統(tǒng)之上對本文方法進(jìn)行仿真實驗。選取油茶樹為仿真對象，采用本文方法構(gòu)建油茶知識圖譜，采用本文方法檢索油茶樹知識圖譜內(nèi)的實體關(guān)系，實驗結(jié)果如下。

3.1 知識圖譜構(gòu)建仿真結(jié)果

針對仿真對象油茶樹，采用本文方法構(gòu)建其知識圖譜，圖3所示為仿真對象知識本體模型。

圖3 實驗對象知識本體模型

圖3所示的仿真對象知識本體模型內(nèi)包含實驗對象培育、加工與應(yīng)用全產(chǎn)業(yè)鏈的知識，其中“工作單位”“研究成果”“培育人”“發(fā)明人”“作者”與“來源”均為本文方法所生成的低冗余實體摘要。知識本體內(nèi)包含的不同類別數(shù)據(jù)均來自于國家相關(guān)部門或平臺文件數(shù)據(jù)。

3.2 實體關(guān)系檢索實驗結(jié)果

基于圖3所示的知識本體模型，依照關(guān)系參數(shù)構(gòu)建實驗對象實體關(guān)系。針對知識本體模型內(nèi)包含的工作單位與研究成果數(shù)據(jù)集，以二值相關(guān)度、召回率以及平均準(zhǔn)確率均值為判斷指標(biāo)判斷本文方法檢索結(jié)果，各指標(biāo)值與實體關(guān)系檢索結(jié)果之間呈正比例相關(guān)，也就是判斷指標(biāo)值越高，本文方法實體關(guān)系檢索性能越好。表1所示為本文方法實體關(guān)系檢索結(jié)果。

表1 本文方法實體關(guān)系檢索結(jié)果

分析表1得到，采用本文方法對本體模型中包含的兩個主要數(shù)據(jù)集進(jìn)行實體關(guān)系索引，本文方法下實體關(guān)系檢索的二值相關(guān)度等各指標(biāo)值均在0.8以上，滿足實際應(yīng)用需求，說明本文方法具有較好的實體關(guān)系檢索效果。

為進(jìn)一步驗證本文方法知識圖譜實體關(guān)系檢索的性能，選取文獻(xiàn)[4]中基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法和文獻(xiàn)[5]中結(jié)合實體詞與句子語義的實體關(guān)系檢索方法為對比方法，采用對比方法檢索兩個主要數(shù)據(jù)集內(nèi)的實體關(guān)系，兩種對比方法實體關(guān)系檢索結(jié)果的各判斷指標(biāo)如表2所示。

表2 兩種對比方法實體關(guān)系檢索結(jié)果

結(jié)合表1與表2內(nèi)數(shù)據(jù)可知，采用結(jié)合實體詞與句子語義的實體關(guān)系檢索方法檢索數(shù)據(jù)集內(nèi)實體關(guān)系時，二值相關(guān)度指標(biāo)結(jié)果稍高于本文方法，但召回率與平均準(zhǔn)確率均值均低于本文方法與基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法；而基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法與本文方法相比各判斷指標(biāo)值均有一定差距。上述實驗結(jié)果可充分說明本文方法具有較好的實體關(guān)系檢索性能。

3.3 低冗余摘要生成實驗結(jié)果

本文方法中采用低冗余實體摘要生成方法生成知識圖譜內(nèi)實體關(guān)系摘要。以F-measure為衡量實體關(guān)系摘要質(zhì)量的指標(biāo)，以S′和S*分別為生成時實體關(guān)系摘要與理想實體關(guān)系摘要，對比本文方法與兩種對比方法針對工作單位與研究成果數(shù)據(jù)集所生成的實體關(guān)系摘要質(zhì)量，結(jié)果如表3所示。

衡量指標(biāo)計算過程如下：

(8)

(9)

(10)

表3為不同方法下實體關(guān)系摘要質(zhì)量對比結(jié)果。

表3 實體關(guān)系摘要質(zhì)量對比結(jié)果

分析表3得到，三種不同方法所生成的實體關(guān)系摘要質(zhì)量排序為：本文方法>結(jié)合實體詞與句子語義的實體關(guān)系檢索方法>基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法；三種不同方法檢索實體關(guān)系摘要所花費的時間排序為：結(jié)合實體詞與句子語義的實體關(guān)系檢索方法>基于圖數(shù)據(jù)庫的實體關(guān)系檢索方法>本文方法。由此可知本文方法所生成的實體關(guān)系摘要質(zhì)量高于對比方法，并且可以顯著提升實體關(guān)系摘要檢索的效率。

4 結(jié)論

本文研究基于本體的低冗余知識圖譜實體關(guān)系檢索方法，基于本體與實體關(guān)系構(gòu)建知識圖譜，采用低冗余摘要生成方法生成實體關(guān)系摘要。仿真結(jié)果顯示本文方法具有較好的檢索性能，說明該方法具有較高的應(yīng)用價值。