999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

上位本體中語義相似度的計算及其實現

2007-01-01 00:00:00徐德智C.Onyango王懷民
計算技術與自動化 2007年2期

摘 要:基于SUMO(Suggested Upper Merged Ontology)[1],提出一種計算兩概念語義相似度的語義距離方法#65377;根據該方法實現一個計算平臺,將計算結果同人類的主觀判斷進行比較,驗證概念語義相似度計算方法的有效性#65377;研究成果擬在正在研發的語義數據庫中本體集成部分得到應用,也可以為本體的其它相關研究提供一定的技術方法基礎#65377;

關鍵詞:SUMO;語義距離;語義相似度;主觀判斷

中圖分類號:TP391文獻標識碼:A

1 引 言

目前的Web信息是機器所不能理解和自動處理的,這就無法實現語義的互操作#65377;Tim Berners-Lee于2000年12月18日在國際XML2000的會議上提出了語義Web的構想[2]#65377;在語義Web中,概念的語義相似度計算對實現本體集成和信息的語義檢索起著重要的作用#65377;語義Web中數據的語義是用本體來描述的,因此,基于本體的概念的語義相似程度計算方法對于在語義Web中需要定量處理概念的語義的各種應用就有了實際意義#65377;

對于概念的語義相似度計算,國外許多研究者利用了語義詞典Word Net中的同義詞集組成的樹狀層次體系結構[3, 4],對于上述方法,實驗驗證都得到了與人的直觀判斷比較符合的結果#65377;但是,我們發現,上述工作只是針對較簡單的術語的本體,缺乏支持邏輯推理本文基于SUMO樹中節點的最短路徑距離,通過計算路徑上各條邊的權值,得到兩概念間的語義距離,最后將其轉化為語義相似度的方法來計算概念間的語義相似度,得到了合理的結果#65377;

2 語義距離與語義相似度

和語義相似度一樣,語義距離也是語言學中經常提到的一個概念,它指兩個概念的相近程度#65377;一般說來,兩個概念間的語義距離越小,它們的語義越相近,反之越遠#65377;在信息檢索領域中,語義距離的值越小,說明文本跟用戶查詢請求越接近,當距離為零時,文本完全符合用戶的請求,當距離大于某個值時,文本跟用戶查詢無關聯,不能作為結果集返回#65377;對于返回的結果集,完全是由用戶自己主觀判斷結果集合中的任一結果是否滿足他的請求#65377;所以,本文的研究及實驗都是以人類的主觀判斷為標準進行的#65377;

3 語義距離的計算

SUMO層次樹結構決定了利用兩個概念在樹中的最短路徑距離來表示它們的語義距離是一種自然的度量方法#65377;兩對概念的語義距離相等表明它們的語義相似度是一樣的#65377;但是,在SUMO層次樹中,自頂向下,概念的分類是由大到小,大類間的概念相似度一般要小于小類間的#65377;因此,在同等語義距離(按照上文的定義)的情況下,處于層次樹中離根較遠的概念間的相似度要比離根近的概念間相似度大#65377;由此可見,概念在樹中所處的深度是一個需要考慮的因素,即:處于樹中不同深度的邊應該賦予不同的權值#65377;另外,概念的父節點分類細致程度也是計算語義距離時應考慮的一個因素,通過對SUMO樹中概念的深度和寬度等一系列因素對概念間語義相似度的影響,本文得到了計算方法#65377;

4 語義相似度的計算

根據上面對語義距離的定義可知,對于SUMO中任意兩個概念C1和C2,它們之間的語義距離范圍是Dist(C1,C2)∈(0,αα-1),而它們間相似度取值范圍是sim(C1,C2)∈(0,1),再慮及兩者應是減函數的關系以及概念間的語義相似度具有不對稱性,本文給出如下定義進行語義距離到語義相似度的轉換:

Wid(C)為概念C的寬度,即:其孩子節點的數目,pɑrent(C)是C的雙親節點,t和α是可調節的參數,α≥2,β=Dep(C2)Dep(C1)+Dep(C2))#65377;

計算技術與自動化2007年6月第26卷第2期徐德智等:上位本體中語義相似度的計算及其實現5 實驗及結果

本文以IEEE提供的以SUO-KIF描述的SUMO為資源,開發了一個計算平臺——語義相似度計算器,它不僅能計算本文的概念間語義相似度,而且,容易被擴展為其它各種算法的語義相似度比較器#65377;本文將各種不同的機器運算結果與人類的主觀判斷結果進行了比較,找出能得到最佳結果(在有限的實驗數據范圍內)的參數設置,同時驗證了提出的方法的有效性#65377;

評估一種相似度度量標準的好壞一般有三種方法:理論檢驗#65380;人類主觀判斷和特定領域中的應用#65377;本文采取了第二種方法#65377;

本節實現了語義相似度的計算平臺,該平臺不僅能計算本文相似度算法下的概念間語義相似度,而且,容易被擴展為各種算法的語義相似度比較器#65377;

我們從SUMO中隨機選擇了五十對概念,對于本文提出的相似度計算公式中的參數和,利用所實現的計算平臺,選擇了多個值進行實驗#65377;本文將其所有計算結果與人類判斷結果相比的偏差繪制成了五十對概念在其上的分布圖如圖1所示#65377;

圖1(a)-(d)分別表示對于相似度計算公式的參數進行調節的不同結果,圖中橫坐標表示相似度計算公式計算結果同人類判斷結果相比的偏差,縱坐標表示在某偏差范圍概念對的分布點數#65377;這樣,分布越散的(偏差范圍越大的)說明越差,分布越集中(偏差范圍越小的)#65380;中間峰越銳利的(偏差為0左右的概念對越多的)說明越好#65377;按照這樣的標準,可以大致看出,圖1(d)的結果較好#65377;圖1(d)中,在偏差為0的附近分布點數高達15,雖然其總體偏差分布較散:-0.25~0.2,但我們發現,在-0.15以及0.15附近,分布點已相當的少,所以總的來說,其結果較好#65377;

圖1 偏差點數分布圖[JZ)]

6 結束語

本文首先闡述了語義距離與語義相似度的關系,然后基于樹中節點的最短路徑距離,通過計算路徑上各條邊的權值,得到兩概念間的語義距離,最后將其轉化為語義相似度#65377;同語義相似度一樣,語義距離也是語言學中經常提到的一個概念,它指兩個概念的相近程度#65377;兩個概念間的語義距離越小,它們的語義越相近,反之越遠#65377;在信息檢索領域中,語義距離的值越小,說明文本跟用戶查詢請求越接近,當距離為零時,文本完全符合用戶的請求,當距離大于某個值時,文本跟用戶查詢無關聯,不能作為結果集返回#65377;對于返回的結果集,完全是由用戶自己主觀判斷集合中的任一結果是否滿足他的請求#65377;所以,本文的研究及實驗都是以人類的主觀判斷為標準進行的#65377;通過實驗比較所獲得的不同結果,得到了最優參數設置,此時,算法運算的結果同人類判斷的結果較為吻合,證明了本文提出的算法是有效的#65377;

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 亚洲视频影院| 国产导航在线| 91精品啪在线观看国产91| 日本欧美视频在线观看| 亚洲精品综合一二三区在线| 日本午夜三级| 亚洲AⅤ永久无码精品毛片| 亚洲一级毛片| 欧美一区二区三区欧美日韩亚洲 | 日韩高清一区 | 玖玖精品在线| 亚洲 欧美 日韩综合一区| 88av在线看| 毛片卡一卡二| 日韩精品亚洲精品第一页| 片在线无码观看| 9啪在线视频| 四虎国产永久在线观看| 三级视频中文字幕| 一级一级特黄女人精品毛片| 国产精品主播| 国产成人精品第一区二区| 国产剧情国内精品原创| 日韩国产精品无码一区二区三区| 国产在线精品香蕉麻豆| 在线视频一区二区三区不卡| 亚洲第一区欧美国产综合| 国产麻豆aⅴ精品无码| 国产福利一区在线| 中文字幕在线观| 波多野结衣在线se| 久久国产香蕉| 婷婷99视频精品全部在线观看| 久久特级毛片| 国产日产欧美精品| 亚洲伊人电影| 欧美黑人欧美精品刺激| 亚洲最黄视频| 国产精品一区二区在线播放| 日本高清免费不卡视频| 亚洲国产欧洲精品路线久久| 55夜色66夜色国产精品视频| 国产尤物在线播放| 精久久久久无码区中文字幕| 玖玖精品在线| 日本三级欧美三级| 真实国产精品vr专区| 黄色一级视频欧美| 18禁色诱爆乳网站| 国产成人综合在线观看| 国产精品国产三级国产专业不| 永久毛片在线播| 国产免费网址| 日韩小视频网站hq| 国内精品自在自线视频香蕉| 天堂成人av| 国产91视频免费观看| 日韩AV手机在线观看蜜芽| 久久综合丝袜日本网| 99免费视频观看| 久久精品娱乐亚洲领先| 九色在线观看视频| 欧美亚洲第一页| 国产精品九九视频| 制服无码网站| 午夜精品久久久久久久无码软件| 精品一区二区无码av| 欧美日韩免费| 99在线视频免费| 国产精品爆乳99久久| 国产91熟女高潮一区二区| 在线视频精品一区| 欧美日韩综合网| 亚洲h视频在线| 国产毛片片精品天天看视频| 成人午夜精品一级毛片| 在线亚洲小视频| 国产丰满成熟女性性满足视频| 国产在线八区| 国产女人18毛片水真多1| 亚洲欧美综合另类图片小说区| 亚洲第一视频网|