王 凱,朱文婕,劉玉文,翟菊葉
(蚌埠醫(yī)學(xué)院公共課程部,安徽蚌埠 233030)
一種基于綜合語義加權(quán)臨床診斷本體領(lǐng)域概念計算方法*
王 凱,朱文婕,劉玉文,翟菊葉
(蚌埠醫(yī)學(xué)院公共課程部,安徽蚌埠 233030)
針對當(dāng)前臨床診斷知識庫融合過程中,領(lǐng)域概念相似度計算所存在的語義融合不充分且計算方法復(fù)雜等不足,提出一種改進(jìn)的基于語義綜合加權(quán)的概念對相似度矩陣生成算法.根據(jù)概念在概念格中的層次結(jié)構(gòu)來確定概念屬性特征集合,從概念節(jié)點屬性信息量、節(jié)點層次以及概念非對稱性等三個方面對語義距離度量進(jìn)行擴展,通過引入橫向節(jié)點透明度算子、縱向節(jié)點深度算子以及非對稱算子,使最終語義相似度度量結(jié)果更精確.并通過使用一個標(biāo)準(zhǔn)的臨床診斷知識庫概念對該模型進(jìn)行實驗驗證,實驗結(jié)果表明該方法具有可行性和有效性.
概念格;節(jié)點透明度;節(jié)點深度;非對稱;相似度
醫(yī)學(xué)臨床診斷知識的復(fù)雜性、經(jīng)驗性等特點決定了該領(lǐng)域知識表示的多樣性,使得醫(yī)學(xué)領(lǐng)域知識的共享與復(fù)用受到很大程度的限制.而高血壓作為一種常見的臨床綜合征,嚴(yán)重影響人類健康,并且以其為主要研究對象的知識庫之間缺少必要的聯(lián)系,彼此間存在著較大的差異性.目前,醫(yī)學(xué)領(lǐng)域知識庫的研究還處于基礎(chǔ)研究階段,相關(guān)理論與方法還在不斷完善中,大規(guī)模、集成化的知識庫融合也只進(jìn)行了初步的研究.
語義相似度度量是一種基于概念或術(shù)語相似程度判別的分類關(guān)系,能夠有效地發(fā)現(xiàn)語義信息,對后期大規(guī)模融合知識庫以及知識挖掘與發(fā)現(xiàn)等具有現(xiàn)實而重要的意義.目前的研究成果主要有:一是基于信息論的相似度計算,通過度量對象內(nèi)的屬性重疊度,判別概念間語義距離的遠(yuǎn)近.文獻(xiàn)[1]用父類概念節(jié)點與子類概念節(jié)點之間的有向數(shù)量表示概念間的語義差異,結(jié)合概念屬性密度函數(shù)進(jìn)行計算.文獻(xiàn)[2]通過定義相似邊權(quán)重函數(shù),考慮節(jié)點縱向深度的權(quán)重取值,度量節(jié)點語義距離.文獻(xiàn)[3]利用基于特征的屬性值,刻畫不同概念的相似度.研究發(fā)現(xiàn)雖然具備相對嚴(yán)格的理論基礎(chǔ),但對于概念間的語義度量仍相對粗糙,沒有完全考慮到概念內(nèi)的層次關(guān)系.
另一種是基于語義邊距離的計算方法,該方法將概念間的分類關(guān)系轉(zhuǎn)變成具有節(jié)點結(jié)構(gòu)的層次樹,通過計算節(jié)點之間路徑計數(shù),獲取語義信息.文獻(xiàn)[4]首先構(gòu)建層次節(jié)點樹狀概念圖,用節(jié)點間最短連接路徑作為語義衡量的標(biāo)準(zhǔn).文獻(xiàn)[5]通過計算概念對的最近距離的相同父類節(jié)點到彼此最上層根節(jié)點的邊個數(shù),確定語義相似度.上述方法由于需要設(shè)定相等的邊連接線長度,忽略了節(jié)點間邊連接的語義差別,同時基于語義邊距離的度量方法需要概念節(jié)點之間語義關(guān)系的完整性描述,對知識表示系統(tǒng)的要求相對較高,也從另外一方面限制了該方法的使用范圍.
本文在對相關(guān)內(nèi)容研究分析的基礎(chǔ)上,針對上述方法的不足之處,通過引入節(jié)點透明度、節(jié)點深度以及非對稱度等算法因子,分別從概念節(jié)點的自身特征屬性集、節(jié)點層次概念權(quán)重以及非對偶概念對等角度計算概念對語義距離,最后綜合加權(quán),得到包含該概念對特征屬性集的語義相似度矩陣.
概念格[6],也有學(xué)者稱為形式概念分析理論,該理論是基于二元關(guān)系,構(gòu)建具有概念層次的格結(jié)構(gòu),在數(shù)據(jù)分析、數(shù)據(jù)挖掘以及規(guī)則提取等領(lǐng)域具有廣泛的應(yīng)用前景.概念格結(jié)構(gòu)的本質(zhì)是從數(shù)據(jù)集中產(chǎn)生一系列概念聚類的過程[7],從而達(dá)到清晰表達(dá)概念間層次結(jié)構(gòu)的目的,同時使用格節(jié)點間的繼承、父類關(guān)系等特征展現(xiàn)概念間泛化或是特化的語義關(guān)系.
概念格節(jié)點其本質(zhì)即為一個形式概念,規(guī)范化的形式概念包含概念的外延和概念的內(nèi)涵.前者包含所有與此概念相關(guān)的對象集合,從領(lǐng)域應(yīng)用的角度則是概念所蘊含的應(yīng)用實例,后者則表示概念對象的屬性特征.
假設(shè)對于任意三元組K=(G,M,I),若G為對象的并,M為屬性的并,I表示G與M之間的二元關(guān)系集合,同時有且僅有一個偏序集合與之相對應(yīng),則稱該三元組為一個形式背景.該偏序集所構(gòu)成格結(jié)構(gòu)滿足自反性、反對稱性和傳遞性[8].若g∈G,m∈M,gIm表示對象g包含m屬性.概念格結(jié)構(gòu)中的任意兩個直接相連節(jié)點之間必然存在某種偏序關(guān)系,假設(shè)節(jié)點C1=(X1,Y1),C2=(X2,Y2),滿足X1<X2Y1<Y2,則C1是C2的上層父類節(jié)點.領(lǐng)域形式背景通常是由二維表展現(xiàn),如表1所示,其中橫向維表示屬性,縱向維表示對象,第i行j列為1表示存在該屬性,為0表示不存在該屬性,與其相對應(yīng)的外延與內(nèi)涵如表2所示.同時基于上述偏序關(guān)系可以畫出與之相對應(yīng)的Hasse圖,如圖1所示.

表1 形式背景示例

表2 所生成的概念

圖1 與表2相對的Hasse圖
定義1 概念節(jié)點透明度是指概念外延節(jié)點c所包含的直接子類節(jié)點數(shù)量,記做O(c).

其中,degree(anc12)是概念節(jié)點1、2子節(jié)點數(shù)量;degree(fc)表示該形式背景所生成的概念格結(jié)構(gòu)中的各節(jié)點度的最大數(shù)值.
tversky認(rèn)為概念間的語義距離由一對概念實體中所包含的共享屬性量以及差異屬性量共同決定,相似度與共享屬性成某種線性正相關(guān)性,與差異屬性成線性負(fù)相關(guān)性.在僅討論上下相鄰節(jié)點的前提下,任意一個概念的屬性集合等于其上層節(jié)點概念的屬性集合并上自己的專屬特征集合,若概念格結(jié)構(gòu)劃分規(guī)范且完整,相鄰節(jié)點間特征集合所包含的屬性數(shù)量為1,在Hasse圖中,以一個有向邊表示.
通常情況下,某概念節(jié)點的直接子節(jié)點數(shù)量越多,透明度愈大,表明對其細(xì)化的概念描述愈具體,即其所含子類節(jié)點之間的語義相似度就愈大;反之亦然.本文從集合論的角度,將該影響算子對概念間相似度的影響定義為:

其中,O(c1,c2)為兩概念所交的共同屬性集;O,c2)與O(c1).為概念對的差異屬性.
概念內(nèi)涵縱向節(jié)點深度是指在基于該領(lǐng)域形式背景所表達(dá)的領(lǐng)域知識中,針對某種以偏序集存在的概念層次二元關(guān)系格結(jié)構(gòu),外延節(jié)點與根節(jié)點的最短路徑中所包含的邊數(shù).在概念格Hasse圖中,每個橫向?qū)哟胃拍罟?jié)點均是對上層節(jié)點的特化表示,越到下層,概念的表示就越具體,所包含的內(nèi)在屬性就越豐富.若領(lǐng)域內(nèi)任意兩個概念存在共同的特征,則其上層節(jié)點間必然存在交點;相反,若不存在共性,則上層節(jié)點間必然不存在交點.
定義2 在形式背景中,若任意概念節(jié)點間語義距離相等時,概念對的節(jié)點深度和(差)越大(小),概念間的語義相似度就越大.即層次節(jié)點距離根節(jié)點越遠(yuǎn),其概念節(jié)點間的相似度就越大.該影響算子的公式為:

其中,Depth(C)是格內(nèi)節(jié)點的節(jié)點深度計算函數(shù).
由上文分析可知,概念對的節(jié)點深度越大,代表其所表示的內(nèi)涵屬性就越具體,概念相似度就越大,故可以用指數(shù)函數(shù)來描述縱向節(jié)點深度所代表的相似度.

定義3 若概念相似求解函數(shù) Sim,滿足Sim(A,B)=Sim(B,A),則稱該概念對完全對稱,否則為非對稱.
本文在對大量醫(yī)學(xué)臨床高血壓知識庫形式背景概念節(jié)點的分析過程中,利用文獻(xiàn)[9-10]提出的模型分別從基于距離、信息內(nèi)容以及概念屬性角度計算一組隨機抽樣的樣本概念對數(shù)據(jù),在格內(nèi)節(jié)點中,概念節(jié)點間的語義相似度在一定程度上存在非對稱性,即語義匹配具有方向性.
通常情況下,概念與其祖先節(jié)點的相似度值大于其祖先與其子節(jié)點的相似度取值,即若概念A(yù)為概念B的祖先,則Sim(A,B)要小于 Sim(B,A).因此,本文針對大多數(shù)概念對求解模型,提出非對稱相似度計算影響因子:

此時概念c1,c2的相似度可表示為:

由于基于概念橫向節(jié)點透明度相似度方法沒有考慮到節(jié)點透明度相同、深度不同的概念節(jié)點相似度;而基于概念縱向節(jié)點深度相似度又無法區(qū)分深度相同、透明度不同的問題[11].因此,為解決上述方法所存在的不足,將其用線性方法加權(quán),提出基于綜合加權(quán)的概念相似度計算模型:

其中,ε為權(quán)重因子,用以調(diào)節(jié)概念節(jié)點透明度和深度對相似度的影響.
本模型滿足概念相似性的基本特征如下:
1)概念對語義相似度是0到1之間的實數(shù),且數(shù)值越大,表明相似度越大.
2)概念對為同一節(jié)點時,語義相似度為1.
3)概念對在Hasse圖中的共享部分越大,即共同屬性越集中,語義相似度越大.
4)概念對在Hasse圖中位置越深,即屬性表征越聚向,語義相似度越大.
實例中的形式背景來源于高血壓臨床診斷知識庫中所包含的對象集和屬性集分別為:G={Patient1;Patient2;Patient3;Patient4;Patient5},M={I-atrogenic;Career incentives;Pathological changes;Clinical indicators}.由此所形成的形式背景及其對應(yīng)的概念格如表3和圖2所示.

表3 高血壓臨床診斷形式背景

圖2 與表3相對應(yīng)的概念格結(jié)構(gòu)圖
由于領(lǐng)域概念存在于某個特定的領(lǐng)域,從理論的角度并不存在某些完全相同或是完全沒有關(guān)聯(lián)的概念對集合,但為了分析的需要,本實驗設(shè)定,若概念對集合中的語義完全相同,則相似度值為1;反之完全沒有關(guān)聯(lián)時,其相似度值為0;顯然多數(shù)概念間存在某種偏序集關(guān)系,而非嚴(yán)格意義上的繼承與被繼承關(guān)系,故相似度值的取值限定在0~1區(qū)間.公式中相關(guān)參數(shù)的取值是醫(yī)學(xué)領(lǐng)域本體概念集樣本數(shù)據(jù)訓(xùn)練以及參考文獻(xiàn)[12,13]中關(guān)于模型參數(shù)取值的討論,選取概念權(quán)重因子ε=0.5,調(diào)節(jié)參數(shù)λ和a,帶入公式可以得出包含對象以及屬性的形式概念節(jié)點的相似度值,本文同時將此模型的結(jié)果與基于信息距離[14]的計算結(jié)果相比較,圖3是筆者所編寫的程序截圖.兩種方法所形成的相似度矩陣以數(shù)值為1的對角線為臨界線,將此表分為上下兩個部分,上三角數(shù)值結(jié)果為改進(jìn)的概念相似度取值,下三角為基于信息距離模型的相似度取值.

圖3 相似度矩陣
本文根據(jù)概念在概念格中的層次結(jié)構(gòu)來確定概念屬性特征集合.同基于信息距離模型相比具有以下改進(jìn):提高計算精度.通過引入橫向節(jié)點透明度算子、縱向節(jié)點深度算子以及非對稱算子對語義距離度量進(jìn)行擴展,使得相似度值均有不同程度的提高;同時減少不相關(guān)概念對的出現(xiàn).由于領(lǐng)域概念在一定程度上具有相關(guān)聯(lián)的內(nèi)在屬性特征,故任意兩個概念出現(xiàn)相似度為零的情況應(yīng)該越少越好,概念對為零的矩陣值相比之下在樣本抽樣實驗中發(fā)生率有了明顯降低,提高了概念間相似度度量準(zhǔn)確度.
語義概念相似度度量在知識融合,特別是消除醫(yī)學(xué)臨床診斷知識的復(fù)雜性、經(jīng)驗性等方面,具有十分重要的意義.不僅能有效提高診斷評估的準(zhǔn)確性和治療干預(yù)的安全有效性,還可以為建立可共享、可復(fù)用的臨床診斷知識庫系統(tǒng)提供理論依據(jù)與技術(shù)支持.
本文的工作仍然存在著一些不足和需要改進(jìn)的地方,主要有:醫(yī)學(xué)臨床診斷包含許多具有主觀概念的知識節(jié)點,由于運算量太大,在語義關(guān)系的整理中,本文僅僅計算了概念對之間的兩兩相似度問題,并沒有遍歷所有涉及到的語義概念,對計算結(jié)果可能會有部分偏差;臨床知識庫中的相關(guān)關(guān)系含義十分廣泛,本文在具體處理過程中并沒有對此加以嚴(yán)格區(qū)分.以上不足之處擬在后續(xù)的研究中逐步加以解決.
[1]楊立,左春.基于語義距離的K最近鄰分類方法[J].軟件學(xué)報,2005,16(12):2054 -2062.
[2]王騰,朱青,王珊.基于語義相似度的Web信息可信分析[J].計算機學(xué)報,2013,36(8):1668 -1680.
[3]Pirro G.A semantic similarity metric combining features and intrinsic information content[J].Data and Knowledge Engineering,2009,68(11):1289-1308.
[4]楊春龍,顧春華.基于概念語義相似度計算模型的信息檢索研究[J].計算機應(yīng)用與軟件,2013,30(6):88 -92.
[5]李文慶,謝紅薇.基于醫(yī)療本體的語義相似度評估方法[J].計算機工程與設(shè)計,2013,34(4):1287 -1291.
[6]穆斌.語義Web中的語義度量與本體映射[J].合肥工業(yè)大學(xué)學(xué)報,2006,29(3):300 -304.
[7]顧進(jìn)廣,黃屹.Mediator模式下基于語義映射的多本體融合機制研究[J].武漢大學(xué)學(xué)報,2006,52(1):81 -86.
[8]強宇,劉宗田,林煒,等.模糊概念格在知識發(fā)現(xiàn)的應(yīng)用及一種構(gòu)造算法[J].電子學(xué)報,2005,33(2):350 -353.
[9]毛華,竇林立.基于矩陣列秩屬性優(yōu)先的概念格算法[J].河北大學(xué)學(xué)報(自然科學(xué)版),2009,29(2):130 -132.
[10]呂剛,鄭誠.改進(jìn)的基于概念相似度的文本檢索[J].計算機工程,2010,36(12):55 -57.
[11]DoanA H,Madhavan J,Domingos P.Leanring to M Between Ontologism on the Semantic Web[C]//Proceedings of the 1lth Intemational Conferenceon World W ide Web.New York,USA:ACM Press,2002.
[12]賴院根,王娜.概念語義相似度計算與參數(shù)估計[J].情報雜志,2009,28(08):148 -152.
[13]夏天.漢語詞語語義相似度計算研究[J].計算機工程,2007,33(06):191 -193.
[14]Budanistsky A,Hirst G.Semantic distance in WordNet:An experimental,application - oriented evaluation of five measures.[C].Proc of the Workshop on WordNet and other Lexical Resources.Pittsburgh:ACM,2001:95-100.
TP301.6
A
1008-7974(2014)03-0004-04
2013-11-12
王凱(1985-),男,安徽蚌埠人,碩士,教師.
安徽省教育廳高校自然科學(xué)研究項目(KJ2011B092);蚌埠醫(yī)學(xué)院科研項目(ByKy1304).
(責(zé)任編輯:王前)