999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領域本體映射的綜合相似度計算方法

2017-07-18 11:48:45金海濤張琳
現代計算機 2017年14期
關鍵詞:語義概念結構

金海濤,張琳

(上海海事大學信息工程學院,上海 201306)

基于領域本體映射的綜合相似度計算方法

金海濤,張琳

(上海海事大學信息工程學院,上海 201306)

領域本體為知識的共享和重用提供重大作用。本體映射是在異構本體間建立語義映射關系,解決本體異構的重要途徑。針對目前本體映射中相似度計算存在的不足,提出一種綜合的相似度計算方法,即先依據知網知識詞典并考慮未登錄詞分詞后詞性的作用,計算出本體元素的概念相似度;再分析本體的層次關系計算其結構相似度;通過加權綜合得到本體的綜合相似度;最后構建兩個異構航運本體,設計實驗來驗證改進后算法的正確性和有效性,實驗表明所提出的方法具有較高準確率。

領域本體;本體映射;本體異構;知網;相似度計算

0 引言

隨著語義Web的迅速發展,越來越多的人加入了對本體應用的研究,大量的本體在語義Web中被創建,由于不同的人在創建本體時,所采用的描述語言、描述方式等可能不同,使得即使對相同領域的建模,也會構造出具有一定差異的本體,這嚴重影響了本體間知識的共享與重用。本體映射是解決本體之間異構問題的有效途徑[1],充分實現本體間的互操作,而本體間的相似度計算是本體映射最關鍵的技術。

目前,在一些本體映射系統中,本體間的相似度計算存在計算量較大、計算準確率較低和映射效率不高等問題,著重體現在:在計算兩個本體的相似度時,需要考慮它們的概念、屬性、實例等,因此會產生大量的計算,然而,并不是所有的概念、屬性、實例都存在一定的相似,它們間可能完全不相似,所以根本不需要計算其相似度;本體映射中計算相似度的方法有很多,例如基于概念名稱的方法[2]、基于信息流的方法以及基于結構的相似度計算方法[3]等,但這些算法普遍存在算法單一、映射效率不高的問題,導致查詢的準確率不高。

針對上述提到的本體映射中相似度計算存在的問題,本文提出一種基于HowNet和本體結構的綜合相似度計算方法,首先,引入了知網及其知識詞典,在知網中,概念具有一定的結構,它可由義原描述,通過義原樹和義原層次體系結構計算義原相似度,然后根據文中方法計算本體元素的概念相似度;再考慮本體的結構信息,分析本體結構樹,計算本體間的結構相似度;最后通過加權計算得到一個綜合的本體相似度值,從而提高本體相似度計算的準確率。

1 本體映射相關知識

1.1 本體定義

本體最先起源于哲學,在哲學中,本體是對世界上任何真實存在的事物所做出的客觀描述。隨后,本體被引入到計算機領域的人工智能界,隨著人工智能的快速發展,R.Neches等是最早提出本體相關定義的人。后來越來越多的學者在信息系統等各個領域開始研究本體,并提出了很多不同的關于的本體定義。Gruber提出的本體定義:“本體是概念模型的明確的規范說明”[4]。Borst將本體定義為“共享概念模型的形式化規范說明”[5]。之后,Studer等人提出了更加具體的本體定義,即:“本體是共享概念模型的明確的形式化規范說明”[6]。

本文采用Perez等人提出的本體定義形式,即本體為五元組[7],可由公式(1)表示。

其中,C表示類(概念)的集合,用于描述事物對象的集合,c表示概念(c∈C),指任何事物,例如行為、描述和推理過程等,它們通常構成一個分類層次;R為定義在概念集合上的關系集合,表示概念間的相互作用,形式化上將其定義成n維笛卡爾積的子集:R:C1×C2×…×Cn,r表示關系(r∈R);F表示為概念集合上的函數集合,是一種特殊的關系,形式化定義為:F:C1×C2×…×Cn-1→Cn;A表示為公理集合,代表永真斷言;I代表概念的實例集合,i代表實例(i∈I),表示某個概念類中的元素。

1.2 本體映射

所謂本體映射,就是指在異構的本體之間建立聯系,使得異構本體達成對相同事物的一致性理解,它能夠確定不同的本體之間如何被映射或相互關聯。實際上,本體映射就是通過在異構本體間建立映射規則,把兩個異構的本體作為輸入,之后將兩個本體元素之間的語義映射關系輸出,映射函數表示為:

給定兩個異構的本體O1和O2,從O1到O2的本體映射是指在本體O1中的每個本體元素,在本體O2中可以找到與之相對應的元素,并確定他們之間存在的對應關系。其中,本體O1為源本體,本體O1為目標本體。這里ei1∈O1,ei2∈O2且{ei1}→map{ei2}。{ei1}和{ei2}都表示元素集合(元素為本體中的概念、關系等)。f可以是一種映射類型(subclass、superclass、disjointwith等)或者為null。當f為null時,表示{ei1}和{ei2}之間沒有對應關系。

語義間存在的映射關系一般由它們的相似度來決定。相似度定義為sim(ei1,ei2)∈[0,1],其中,ei1和ei2分別表示本體O1和O2的兩個元素。文獻[8]提出了一種形式化的本體映射函數:

map(ei1)=ei2,如果sim(ei1,ei2)>μ,μ作為閾值,μ∈[0,1],當ei1與ei2的相似度大于閾值μ時,說明它們之間存在語義映射關系,將映射ei1到ei2。

2 本體相似度計算

2.1 概念相似度計算

本文引入知網(HowNet)進行本體的概念相似度計算,根據文獻[9]中的方法進行改進,通過義原樹以及義原層次結構對義原之間的語義相似度進行計算,并綜合考慮了義原在樹中所處的層次深度因素;利用改進后的方法對義原描述式進行分類并計算其相似度;對于知網沒有收錄的概念,采用逆向最大匹配法進行相似度的計算。

(1)義原語義相似度計算

對處于同一棵義原分類樹上的節點,為了降低算法的空間復雜度,可以使義原分類樹通過一定的規則轉換成二叉樹的形式,并采用二叉樹的鏈式存儲方式,最后利用二叉樹節點距離計算公式得到義原間的語義距離,進而通過公式(4)計算得到義原之間的語義相似度。

對位于不同義原分類樹上的義原節點,本文采用知網中義原層次體系中義原的上下位語義距離關系并引入深度因素來計算。在義原分類樹中,若兩對義原路徑距離相同,位于層次深度越高的義原,其語義距離相對越小。

其中,A和B是兩個義原,分子中的Psp(A,B)表示兩個義原重合路徑,即相同信息,分母中的Dis(A,B)表示兩個義原的路徑距離,即相異信息。β是一個與義原深度有關的參數,它的值域為[0,1]。

在知網中,義原的描述方式可以用一個特征結構來表示,其包括以下四個特征[10]:第一基本義原描述、其他基本義原描述、關系義原和關系符號描述四個方面,若本體中的元素被知網收錄,則可由公式(6)計算其概念相似度。

其中,βi(1≤i≤4)是權重,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4。后者表明了Sim1(A,B)到Sim4(A,B)在計算總體相似度時的比重依次降低。由于概念的最主要特征在于第一基本義原描述,所以一般將其所占的權重設為0.5以上。

因為第一基本義原相似度對其他義原相似度具有一定的制約作用,所以將基于知網的概念相似度記為:

(2)未登錄詞的相似度計算

由于知網中不可能收錄所有的詞匯,所以有些詞匯在知網中沒有相應的語義描述,因此無法對未登錄詞進行相似度計算,這時就需要對未登錄詞進行中文分詞,將未登錄詞轉化為知網可以理解的形式。

本文采用逆向最大匹配法作為分詞算法,所謂逆向最大匹配是從詞語的最右邊開始匹配,在知網知識字典中查找能夠匹配成功的最長的單詞。逆向最大匹配后,將未登錄詞分解為多個知網中存在的詞。由于分解后不同詞語的詞性對相似度計算具有一定的影響,所以本文將動詞、名詞、代詞作為核心詞,其所占的權重較大。未登錄詞相似度算法如下:

(1)對未登錄詞A和B進行切分,得到未登錄詞的切分集合M和N;

(2)對集合M、N進行詞性標注,并按照詞性分別劃分為集合M1、M2和N1、N2,其中m1和N1包含了集合M和N中所有的核心詞,M2和N2包含了剩余的其他詞語;

(3)分別計算M1和N1、M2和N2的語義相似度。假設len(M1)

(4)加權求和得到Sim(A,B)的值,未登錄詞不一定都有集合M1和N1、M2和N2,因此未登錄詞相似度的公式可記為:

其中,μ和η為不同的詞集所占的權重,μ+η=1,μ>η。

2.2 結構相似度計算

在計算本體元素的綜合相似度時將本體的結構信息作為相似度計算的一部分,提出一種基于結構的本體相似度計算方法:先將本體結構圖轉化為一種樹狀關系,接著在兩個本體結構樹之間構造一個共有的父節點把兩個本體樹合并為一個樹,再將本體元素之間的語義關系轉換為本體樹中兩個元素的路徑距離p,取一個語義半徑r,在路徑距離p≤r情況下,查找該范圍內所有鄰居元素,得到一個鄰居元素集合,這樣兩個異構本體的元素即可得到兩個與之相關的集合,再根據公式(9)求得本體的結構相似度SimStr(A,B)。

在計算本體的結構相似度時,參照以下規則:

(1)在本體樹中,如果兩個元素節點同屬于一個父節點,則這兩個元素節點可能是相似的;

(2)如果兩個元素節點是相似的,則它們的子節點也可能相似;

(3)如果兩個元素節點是相似的,則它們的鄰居節點也可能相似;

依據上述規則,將結構相似度計算定義為公式:

其中,A和B分別為本體O1和O2中的元素,Simp(A,B)表示元素A和B最近的公共父節點之間的相似度;Sims(A,B)表示元素A和B子節點集的相似度;Simb(A,B)表示元素A和B兄弟節點集的相似度,Ns(A)和Ns(B)分別表示A和B的子節點集合,Nb(A)和Nb(B)分別表示A和B的兄弟節點集合。α、β、γ為權重因子,且α+β+γ=1,由于在本體結構樹中,父、子、兄弟節點對其相似度的計算具有不同的影響,其中,父節點的影響較大,所以設定α≥β≥γ≥0。

2.3 綜合相似度計算

為基于HowNet、本體結構等方面計算所得的相似度分別分配一個權值,得到綜合相似度為:

其中,ω1,ω2是兩種相似度計算方法所占的權重且ω1+ω2=1(ω1,ω2>0),具體值可以根據具體分析和實際需要來選取。

3 實驗及分析

為了驗證改進后算法的有效性,本文通過爬取“中國港口網”中航運、集裝箱等文本數據,通過分詞方法對文本數據進行分詞,得到航運領域的相關術語,分析術語間的關系,通過本體構建方法,使用基于OWL語言描述的本體構建工具Protege4.3構建兩個異構航運本體O1和O2。

圖1 異構航運本體O1和O2

由于目前還沒有專門評估相似度算法質量的專用數據集,本文抽取本體中部分元素作為實驗數據進行相似度計算并與傳統方法計算結果進行對比。

在計算概念相似度時,首先判斷概念是否在知網知識詞典中收錄,如果概念存在,則直接進行計算,否則,需要先進行中文分詞,再計算分詞后兩兩詞語之間的相似度,最后利用本文方法得出兩個航運本體的概念相似度。

例如:在表1中,計算“裝箱單”和“裝箱信息”的概念相似度時,知網的知識詞典中沒有收錄這兩個詞語,但收錄了“裝箱”、“信息”和“單”這幾個詞語。所以,首先分別計算“裝箱”和“裝箱”,“裝箱”和“信息”的相似度,由于“單”不是核心詞,因此本文不需要計算“單”和“裝箱”,“單”和“信息”的相似度,最后,通過相似度值的加權求和得到概念相似度。“裝箱單”和“裝箱信息”的相似度計算如下:Sim(裝箱,裝箱)=1.0,Sim(裝箱,信息)=0.056,因此SimHow(裝箱單,裝箱信息)=0.528,對于分詞后得到的概念個數較多的情況,同樣采用本文方法對各部分概念相似度求和,再取平均值,從而得到航運領域專有術語的概念相似度值。

僅通過概念相似度計算得出的結果并不能精準地確定異構航運本體之間的語義關系,因此,本文通過分析異構航運本體的結構信息,并根據2.2節介紹的方法計算兩個異構航運本體間的結構相似度。

例如:計算“貨船名”和“船名”的結構相似度為:由于“貨船名”和“船名”沒有子元素,所以使用的是父元素和兄弟元素的概念相似度作為兩個元素的結構相似度,其中α≥β≥γ≥0,α+β+γ=1且β=0,根據多次實驗結果,設定權重α=0.82,γ=0.18,得出SimStr(貨船名,船名)=0.885。

根據文獻[2]與文獻[4]中提出的本體相似度計算方法對構建的異構航運領域本體進行相似度的計算,并統計計算結果與本文算法的部分實驗結果對比。其中,本文的實驗結果為等權值分配得到的本體綜合相似度值。

表3 實驗結果對比

圖2 實驗結果對比

結果分析:

由表3和折線圖可以看出,通過傳統單一方法計算得到的相似度值比較粗糙、片面,不同的方法計算出的相似度值可能存在很大差別,進而得到不同的映射關系。然而,基于本文方法計算得到的綜合相似度值相比于文獻[2]和文獻[4]計算得到的結果具有較高的準確性,進行本體映射時更具參考性,它首先利用HowNet計算本體元素的概念相似度,由此細化每個本體元素之間的關系,其次,由本體結構的相似度計算可以得到兩個本體在總的結構上的相似程度,最后結合細化的本體元素相似度和概括的本體結構相似度得到綜合的相似度值,根據綜合的相似度值使得航運本體元素之間的映射更加準確。

4 結語

隨著現代航運業的迅速發展,信息共享已逐漸成為航運業的必然趨勢,信息表示的標準化已成為解決信息共享的重要手段。本文提出了一種基于HowNet和本體結構的綜合相似度計算方法,實驗結果表明,改進后的算法相對于傳統單一算法具有較高的準確率,能有效提高本體映射的效率,實現航運本體資源的共享和重用。

然而,由于本文方法很多地方采用人工分配權值的方式,因此,主觀因素在一定程度上影響了實驗結果,所以在以后的研究中,可以考慮根據本體元素在領域中的重要性自動分配權值,同時考慮概念的屬性、實例等因素的影響,從而使得異構領域本體之間的映射更加準確和高效。

[1]Ding Ying,Foo S.Ontology Research and Development:Part2-A Review of Ontology Mapping and Evoling[J].Journal of Information Science,2002,28(5):375-388.

[2]何娟,高志強,陸青健等.基于詞匯相似度的元素級本體匹配[J].計算機工程,2006,32(16):185-187.

[3]周栩,劉磊,范任宏.基于模式結構分類的本體映射方法[J].電子學報,2011,39(4):882-886.

[4]Gruber T.Ontolingua:A translation Approach to Portable Ontology Specifications,Knowledge Acquisition,1993,5(2):199-220.

[5]Borst P,Akkermans H,Top J.Engineering Ontologies,International Journal of Human-Computer Studies,1997,46(2-3):365-406.

[6]Studer R,Benjamins V R,Fensel D.Know ledge Engineering:Principles and Methons,Data&Knowledge Engineering,1998,25(1-2):161-197.

[7]A.G.Perez,V.R.Benjamins.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methons[C].In Proceedings of the IJCAI299 workshop on ontologies and Problem-Sovling Methons.deAgosto,Estocolmo,1999,1-15.

[8]黃鑫.本體驅動的語義智能系統的研究[D].重慶師范大學,2009.

[9]劉群,李素建.基于《知網》的詞匯語義相似度計算[A].第三屆漢語詞匯語義學研討會論文集[C].臺北,2002:59-76.

[10]魏凱斌,冉延平,余牛.語義相似度的計算方法研究與分析[J].計算機技術與發展,2010,20(7):102-105.

Integrated Sim ilarity Calculation Method Based on Domain Ontology Mapping

JIN Hai-tao,ZHANG Lin

(College of Information Engineering,ShanghaiMaritime University,Shanghai 201306)

Domain ontology plays a vital role in the sharing and reuse of knowledge.Ontologymapping is an effectiveway to solve semanticmapping between heterogeneous ontologies.Aiming at the disadvantages of the similarity calculation in ontology mapping,proposes a comprehensive similarity calculation method,which is based on the knowledge dictionary and considering the role of the word after the word,and calculates the similarity of the ontology element.Finally,designs two heterogeneous shipping ontologies and design experiments to verify the correctness and validity of the improved algorithm.Experiments show that the proposed method has higher accuracy.

金海濤(1992-),男,安徽淮南人,碩士研究生,研究方向為模式識別與智能信息處理

2017-02-16

2017-05-10

1007-1423(2017)14-0034-06

10.3969/j.issn.1007-1423.2017.14.007

張琳(1973-),女,博士,副教授,碩士生導師,研究方向為港航信息化技術、智能信息處理、信息檢索、本體與知識工程等

Domain Ontology;Ontology Mapping;Ontology Heterogeneous;HowNet;Similarity Calculation

猜你喜歡
語義概念結構
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
學習集合概念『四步走』
聚焦集合的概念及應用
論《日出》的結構
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 国产亚洲视频免费播放| 成人久久精品一区二区三区 | 日韩大乳视频中文字幕| 午夜国产精品视频黄 | 91精品专区国产盗摄| 波多野结衣久久高清免费| 国产乱子伦视频三区| 91人妻日韩人妻无码专区精品| www.youjizz.com久久| 在线观看免费国产| 最新国产精品第1页| 热99精品视频| 欧美日韩国产系列在线观看| 久久毛片网| 永久免费AⅤ无码网站在线观看| 999精品视频在线| 啪啪免费视频一区二区| 少妇被粗大的猛烈进出免费视频| A级全黄试看30分钟小视频| 91精品国产自产在线观看| 久久国产精品无码hdav| 成人国产小视频| 国产成人1024精品| 欧美日本视频在线观看| 亚洲欧美不卡视频| 原味小视频在线www国产| 麻豆精品久久久久久久99蜜桃| 69av免费视频| 中国成人在线视频| 亚洲AⅤ波多系列中文字幕 | 中文无码毛片又爽又刺激| 色爽网免费视频| 亚洲色欲色欲www在线观看| 亚洲三级a| 国产精品成| 在线观看精品自拍视频| 国产超薄肉色丝袜网站| 国产欧美性爱网| 国产欧美视频综合二区| 国产精品冒白浆免费视频| 欧美日韩理论| 亚洲aⅴ天堂| 久无码久无码av无码| 欧美精品在线免费| 无遮挡一级毛片呦女视频| 欧美精品一区在线看| 亚洲视频黄| 欧美a在线看| 亚洲精品福利网站| 国产精品夜夜嗨视频免费视频| 99久久精品久久久久久婷婷| 亚洲婷婷六月| 国产欧美日韩va| 免费在线国产一区二区三区精品| 国产免费高清无需播放器| 国产三级视频网站| 成人va亚洲va欧美天堂| 国产精品午夜福利麻豆| 亚洲熟女中文字幕男人总站| 欧美三级日韩三级| 伊人狠狠丁香婷婷综合色| 在线精品视频成人网| 亚洲欧洲日产国码无码av喷潮| 亚洲天堂视频在线播放| 国产一区二区色淫影院| 欧美国产综合色视频| 国产精品无码制服丝袜| 视频二区欧美| 全午夜免费一级毛片| 成人一级免费视频| 特级aaaaaaaaa毛片免费视频 | 亚洲中久无码永久在线观看软件| 中文字幕无码中文字幕有码在线 | 丰满人妻久久中文字幕| 波多野结衣在线se| 一级毛片不卡片免费观看| 婷婷丁香在线观看| 永久免费av网站可以直接看的 | 国产精品久久自在自2021| 国产麻豆91网在线看| 久久精品视频亚洲| 日韩精品毛片人妻AV不卡|