摘 要:基于SUMO(Suggested Upper Merged Ontology)[1],提出一種計(jì)算兩概念語(yǔ)義相似度的語(yǔ)義距離方法#65377;根據(jù)該方法實(shí)現(xiàn)一個(gè)計(jì)算平臺(tái),將計(jì)算結(jié)果同人類的主觀判斷進(jìn)行比較,驗(yàn)證概念語(yǔ)義相似度計(jì)算方法的有效性#65377;研究成果擬在正在研發(fā)的語(yǔ)義數(shù)據(jù)庫(kù)中本體集成部分得到應(yīng)用,也可以為本體的其它相關(guān)研究提供一定的技術(shù)方法基礎(chǔ)#65377;
關(guān)鍵詞:SUMO;語(yǔ)義距離;語(yǔ)義相似度;主觀判斷
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A
1 引 言
目前的Web信息是機(jī)器所不能理解和自動(dòng)處理的,這就無(wú)法實(shí)現(xiàn)語(yǔ)義的互操作#65377;Tim Berners-Lee于2000年12月18日在國(guó)際XML2000的會(huì)議上提出了語(yǔ)義Web的構(gòu)想[2]#65377;在語(yǔ)義Web中,概念的語(yǔ)義相似度計(jì)算對(duì)實(shí)現(xiàn)本體集成和信息的語(yǔ)義檢索起著重要的作用#65377;語(yǔ)義Web中數(shù)據(jù)的語(yǔ)義是用本體來(lái)描述的,因此,基于本體的概念的語(yǔ)義相似程度計(jì)算方法對(duì)于在語(yǔ)義Web中需要定量處理概念的語(yǔ)義的各種應(yīng)用就有了實(shí)際意義#65377;
對(duì)于概念的語(yǔ)義相似度計(jì)算,國(guó)外許多研究者利用了語(yǔ)義詞典Word Net中的同義詞集組成的樹狀層次體系結(jié)構(gòu)[3, 4],對(duì)于上述方法,實(shí)驗(yàn)驗(yàn)證都得到了與人的直觀判斷比較符合的結(jié)果#65377;但是,我們發(fā)現(xiàn),上述工作只是針對(duì)較簡(jiǎn)單的術(shù)語(yǔ)的本體,缺乏支持邏輯推理本文基于SUMO樹中節(jié)點(diǎn)的最短路徑距離,通過計(jì)算路徑上各條邊的權(quán)值,得到兩概念間的語(yǔ)義距離,最后將其轉(zhuǎn)化為語(yǔ)義相似度的方法來(lái)計(jì)算概念間的語(yǔ)義相似度,得到了合理的結(jié)果#65377;
2 語(yǔ)義距離與語(yǔ)義相似度
和語(yǔ)義相似度一樣,語(yǔ)義距離也是語(yǔ)言學(xué)中經(jīng)常提到的一個(gè)概念,它指兩個(gè)概念的相近程度#65377;一般說(shuō)來(lái),兩個(gè)概念間的語(yǔ)義距離越小,它們的語(yǔ)義越相近,反之越遠(yuǎn)#65377;在信息檢索領(lǐng)域中,語(yǔ)義距離的值越小,說(shuō)明文本跟用戶查詢請(qǐng)求越接近,當(dāng)距離為零時(shí),文本完全符合用戶的請(qǐng)求,當(dāng)距離大于某個(gè)值時(shí),文本跟用戶查詢無(wú)關(guān)聯(lián),不能作為結(jié)果集返回#65377;對(duì)于返回的結(jié)果集,完全是由用戶自己主觀判斷結(jié)果集合中的任一結(jié)果是否滿足他的請(qǐng)求#65377;所以,本文的研究及實(shí)驗(yàn)都是以人類的主觀判斷為標(biāo)準(zhǔn)進(jìn)行的#65377;
3 語(yǔ)義距離的計(jì)算
SUMO層次樹結(jié)構(gòu)決定了利用兩個(gè)概念在樹中的最短路徑距離來(lái)表示它們的語(yǔ)義距離是一種自然的度量方法#65377;兩對(duì)概念的語(yǔ)義距離相等表明它們的語(yǔ)義相似度是一樣的#65377;但是,在SUMO層次樹中,自頂向下,概念的分類是由大到小,大類間的概念相似度一般要小于小類間的#65377;因此,在同等語(yǔ)義距離(按照上文的定義)的情況下,處于層次樹中離根較遠(yuǎn)的概念間的相似度要比離根近的概念間相似度大#65377;由此可見,概念在樹中所處的深度是一個(gè)需要考慮的因素,即:處于樹中不同深度的邊應(yīng)該賦予不同的權(quán)值#65377;另外,概念的父節(jié)點(diǎn)分類細(xì)致程度也是計(jì)算語(yǔ)義距離時(shí)應(yīng)考慮的一個(gè)因素,通過對(duì)SUMO樹中概念的深度和寬度等一系列因素對(duì)概念間語(yǔ)義相似度的影響,本文得到了計(jì)算方法#65377;
4 語(yǔ)義相似度的計(jì)算
根據(jù)上面對(duì)語(yǔ)義距離的定義可知,對(duì)于SUMO中任意兩個(gè)概念C1和C2,它們之間的語(yǔ)義距離范圍是Dist(C1,C2)∈(0,αα-1),而它們間相似度取值范圍是sim(C1,C2)∈(0,1),再慮及兩者應(yīng)是減函數(shù)的關(guān)系以及概念間的語(yǔ)義相似度具有不對(duì)稱性,本文給出如下定義進(jìn)行語(yǔ)義距離到語(yǔ)義相似度的轉(zhuǎn)換:
Wid(C)為概念C的寬度,即:其孩子節(jié)點(diǎn)的數(shù)目,pɑrent(C)是C的雙親節(jié)點(diǎn),t和α是可調(diào)節(jié)的參數(shù),α≥2,β=Dep(C2)Dep(C1)+Dep(C2))#65377;
計(jì)算技術(shù)與自動(dòng)化2007年6月第26卷第2期徐德智等:上位本體中語(yǔ)義相似度的計(jì)算及其實(shí)現(xiàn)5 實(shí)驗(yàn)及結(jié)果
本文以IEEE提供的以SUO-KIF描述的SUMO為資源,開發(fā)了一個(gè)計(jì)算平臺(tái)——語(yǔ)義相似度計(jì)算器,它不僅能計(jì)算本文的概念間語(yǔ)義相似度,而且,容易被擴(kuò)展為其它各種算法的語(yǔ)義相似度比較器#65377;本文將各種不同的機(jī)器運(yùn)算結(jié)果與人類的主觀判斷結(jié)果進(jìn)行了比較,找出能得到最佳結(jié)果(在有限的實(shí)驗(yàn)數(shù)據(jù)范圍內(nèi))的參數(shù)設(shè)置,同時(shí)驗(yàn)證了提出的方法的有效性#65377;
評(píng)估一種相似度度量標(biāo)準(zhǔn)的好壞一般有三種方法:理論檢驗(yàn)#65380;人類主觀判斷和特定領(lǐng)域中的應(yīng)用#65377;本文采取了第二種方法#65377;
本節(jié)實(shí)現(xiàn)了語(yǔ)義相似度的計(jì)算平臺(tái),該平臺(tái)不僅能計(jì)算本文相似度算法下的概念間語(yǔ)義相似度,而且,容易被擴(kuò)展為各種算法的語(yǔ)義相似度比較器#65377;
我們從SUMO中隨機(jī)選擇了五十對(duì)概念,對(duì)于本文提出的相似度計(jì)算公式中的參數(shù)和,利用所實(shí)現(xiàn)的計(jì)算平臺(tái),選擇了多個(gè)值進(jìn)行實(shí)驗(yàn)#65377;本文將其所有計(jì)算結(jié)果與人類判斷結(jié)果相比的偏差繪制成了五十對(duì)概念在其上的分布圖如圖1所示#65377;
圖1(a)-(d)分別表示對(duì)于相似度計(jì)算公式的參數(shù)進(jìn)行調(diào)節(jié)的不同結(jié)果,圖中橫坐標(biāo)表示相似度計(jì)算公式計(jì)算結(jié)果同人類判斷結(jié)果相比的偏差,縱坐標(biāo)表示在某偏差范圍概念對(duì)的分布點(diǎn)數(shù)#65377;這樣,分布越散的(偏差范圍越大的)說(shuō)明越差,分布越集中(偏差范圍越小的)#65380;中間峰越銳利的(偏差為0左右的概念對(duì)越多的)說(shuō)明越好#65377;按照這樣的標(biāo)準(zhǔn),可以大致看出,圖1(d)的結(jié)果較好#65377;圖1(d)中,在偏差為0的附近分布點(diǎn)數(shù)高達(dá)15,雖然其總體偏差分布較散:-0.25~0.2,但我們發(fā)現(xiàn),在-0.15以及0.15附近,分布點(diǎn)已相當(dāng)?shù)纳伲钥偟膩?lái)說(shuō),其結(jié)果較好#65377;
圖1 偏差點(diǎn)數(shù)分布圖[JZ)]
6 結(jié)束語(yǔ)
本文首先闡述了語(yǔ)義距離與語(yǔ)義相似度的關(guān)系,然后基于樹中節(jié)點(diǎn)的最短路徑距離,通過計(jì)算路徑上各條邊的權(quán)值,得到兩概念間的語(yǔ)義距離,最后將其轉(zhuǎn)化為語(yǔ)義相似度#65377;同語(yǔ)義相似度一樣,語(yǔ)義距離也是語(yǔ)言學(xué)中經(jīng)常提到的一個(gè)概念,它指兩個(gè)概念的相近程度#65377;兩個(gè)概念間的語(yǔ)義距離越小,它們的語(yǔ)義越相近,反之越遠(yuǎn)#65377;在信息檢索領(lǐng)域中,語(yǔ)義距離的值越小,說(shuō)明文本跟用戶查詢請(qǐng)求越接近,當(dāng)距離為零時(shí),文本完全符合用戶的請(qǐng)求,當(dāng)距離大于某個(gè)值時(shí),文本跟用戶查詢無(wú)關(guān)聯(lián),不能作為結(jié)果集返回#65377;對(duì)于返回的結(jié)果集,完全是由用戶自己主觀判斷集合中的任一結(jié)果是否滿足他的請(qǐng)求#65377;所以,本文的研究及實(shí)驗(yàn)都是以人類的主觀判斷為標(biāo)準(zhǔn)進(jìn)行的#65377;通過實(shí)驗(yàn)比較所獲得的不同結(jié)果,得到了最優(yōu)參數(shù)設(shè)置,此時(shí),算法運(yùn)算的結(jié)果同人類判斷的結(jié)果較為吻合,證明了本文提出的算法是有效的#65377;
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。