丁悅航,于洪濤,黃瑞陽,李英樂
?
本體摘要技術綜述
丁悅航,于洪濤,黃瑞陽,李英樂
(國家數字交換系統工程技術研究中心,河南 鄭州 450002)
本體是知識共享的重要工具,也是知識圖譜的上層結構。隨著數據規模和本體復雜性的增長,本體理解與應用日益困難。本體摘要作為縮小本體規模的一項技術,為加速本體理解與應用提供了技術支持。給出了本體摘要的不同定義;對本體摘要方法進行比較分析;介紹了本體摘要評估的指標體系;最后提出本體摘要的進一步研究方向。
知識圖譜;本體;本體摘要;本體評估
近年來,知識圖譜作為可推理的結構化數據集,已經越來越多地應用于智能語義搜索、移動個人助理和深度問答系統[1]。本體作為知識圖譜的上層結構,在知識推理和數據層的構建中發揮著重要作用。隨著數據規模和本體復雜性的飛速增長,本體的理解和應用難度日益增大。本體摘要作為生成原本體縮略版本的一種方式,能夠有效降低本體理解的難度,加快本體應用的速度,從而有效緩解上述問題。
本體摘要的思想源于文本摘要。文本摘要即對文本中的句子,制定重要性評估方法,從而選出最重要的若干個句子作為摘要結果。本體摘要由Zhang等[2]于2007年提出,其通過對RDF(resource defined framework)句子進行重要性評估,選出若干重要的RDF句子作為摘要結果。隨后,本體摘要根據目的衍生出用戶導向和任務導向的本體摘要。用戶導向的本體摘要是讓人更方便地理解本體的內涵,從而便于進一步重用本體,因此,基于此目的的方法大多抽取本體中的重要概念作為摘要結果。任務導向的本體摘要是利用摘要本體完成任務,加快任務的完成速度,因此,基于此目的的方法大多在不影響應用的前提下刪除原本體中冗余的信息。
在本體領域中,與本體摘要功能相似的2個技術是本體分割和本體模塊化。本體分割[3]將一個大本體分割成若干個子本體,每個子本體包含原始本體的一個子主題[4]。本體模塊化[5]用于簡化本體重用:將原始本體中需要重用的部分模塊化,從而重用本體的一部分而非整個本體[6]。這2種技術都能縮小本體規模,促進本體理解,但二者均基于劃分技術,沒有針對性地保留重要信息。本體摘要與本體領域其他概念的關系如圖1所示。
本體摘要可以在保留本體語義的前提下有效解決本體體積過大導致的查詢效率低、內涵難以理解等問題。近年來,國內外已有多位學者對本體摘要進行了研究,然而不同學者對本體摘要的理解不盡相同,給出的定義也存在差異。
Zhang等[2]參照文本自動摘要的定義[7],首先提出本體摘要的概念:本體摘要是針對某個特殊用戶或任務,從本體中提取知識,構建原本體縮略版本的過程。Zhang是最早提出本體摘要這一概念的學者,指出本體摘要分為用戶驅動和任務驅動2種形式。本體摘要概念的提出對其后各領域學者對該問題的研究提供了參考借鑒。
Li等[8]認為,相較于本體的其他抽取技術,本體摘要應該保留整個本體中的重要信息,并且是自動生成的。他們參照文本摘要的定義[9]給出了本體摘要的定義:本體摘要是自動生成給定本體縮略版本的過程,用于為用戶提供重要信息。可見,Li等的定義更偏重于用戶導向的本體摘要。

圖1 本體摘要與各個概念的關系

本體摘要方法按照目的分為用戶驅動和任務驅動2類。用戶驅動的本體摘要致力于滿足用戶快速理解大規模本體空間的需要,因此傾向于提取本體中的重要概念和關系。任務驅動的本體摘要致力于在盡可能不丟失信息的前提下把本體縮小到滿足問答系統任務的必要大小,因此傾向于刪減本體中的不必要信息。
圖2展示的是一個示例本體。其中,上半部分用實線繪制,表示模式層,即概念及其之間的關系,對應描述邏輯中的TBox;下半部分用虛線繪制,表示數據層,即個體及其之間的關系,對應描述邏輯中的ABox。TBox即關于描述領域的概念術語的斷言,用于定義概念、概念間的關系、角色間的關系;ABox即包含應用領域外延知識的知識庫,包括實體的概念斷言和關系斷言[11]。接下來,以示例本體為例,說明不同本體摘要方法的具體過程。

圖2 示例本體
Alani等[12]通過刪除問答系統中沒有用到的本體信息來加快問答速度。具體地,只保留具有對應實例的類和屬性,問答對中涉及的類和屬性,以及已有屬性的定義域和值域所在的類。通過將摘要后的本體用于問答系統驗證了摘要本體的有效性。然而,這種本體摘要方式僅針對特定的應用,無法保證摘要本體的語義完整性和一致性。

圖3 Alani等算法摘要后的示例本體模式層
圖3是示例本體經過Alani等算法處理后的摘要,算法針對模式層進行摘要。數據層中的Allen和Bob屬于模式層中的概念Man,因此保留模式層中的Man。同理,數據層中的Anna和Bella屬于模式層中的概念Woman,因此也保留概念Woman。此外,數據層中屬性hasFather的定義域和值域分別為Human和Man,因此保留hasFather屬性和Human概念。此外,圖中匿名節點的作用在于,限制每個人有且只有一個父親,因此也要保留這種限制。Animal這一概念沒有對應實體,因此去除Animal這一概念。



圖4 Achille等算法摘要前后的數據層
Deng等[10]給出了本體無損摘要的理論框架。通過合并概念斷言和關系斷言減小ABox中斷言的個數,從而達到縮小ABox的目的。首先獲取所有實例集合并查找其中的等價關系,然后構建并存儲等價實例集合,將相互等價的實例用一個新的實例代替。相對于其他任務導向的方法,這種摘要方法在沒有減少原本體中任何信息的前提下實現了本體摘要,適用于本體推理、問答系統等多種任務。然而,此方法存在一個問題:當原本體發生變化時,原本相互等價的概念或實例可能不再等價。因此,原本體一旦發生變化,就需要重新計算其摘要本體,增加了開銷。


圖5 Jun Fang等算法摘要前后的數據層


圖6 基于RDF句子的算法摘要的圖結構

然而,單純地將本體轉化為圖,用結構參數生成本體摘要可能會忽略概念層面的語義信息[17]。
Peroni等[18]抽取核心概念作為本體摘要結果。該方法將概念看作節點,概念間的類屬關系(subClassOf)看作連邊,將本體轉化為一個有向圖。針對每個節點定義若干表示其不同特性的參數,線性加權后作為最終的重要性評價指標,選取重要性最高的若干個概念作為摘要結果。方法用到的參數有:1) 命名簡潔性[19],參數偏好標簽簡潔的概念,為核心概念的衡量增添了語義信息;2) 基礎等級。這一參數評估概念在本體分類學中的中心性;3) 密度,這一參數偏好具有較多屬性和分類關系的概念;4) 覆蓋,這一參數的目的在于不忽視本體的任何一個重要部分;5) 熱度,這一參數強調了最為常用的若干概念。

圖7 Peroni等算法摘要后的模式層
如圖7所示,算法基于粗體部分所示的本體網絡進行重要概念的選取。僅保留本體中的概念和類屬關系構成網絡,并根據概念標簽和復雜網絡理論中的各項指標完成重要概念的選取。
Zhang等[20]在之前工作[2]的基礎上添加了術語的語義信息。他們仍然以RDF句子為單位進行摘要。與之前不同的是,在評估句子重要性的過程中,他們將RDF句子轉化為SPO(Subject, Predicate, Object)三元組,構造句子?術語二分圖,并在二分圖上計算節點的結構重要性和語義重要性。其中,結構重要性是全球語義網中與當前句子中SPO三元組相關的實體數量。語義重要性是當前句子對應的SPO三元組在全球語義網中出現次數的加權平均。將2種重要性線性加權后進行重排序,得到RDF句子的重要性排序,選取若干個重要性最高的RDF句子作為本體摘要結果。
上述方法利用不同的轉化方式將本體轉化為圖,設定若干參數選取重要程度最高的節點。然而,從本體摘要的定義來看,其目的是產生相較之前本體規模更小的子本體。而上述方法輸出的要么是孤立的概念,要么是彼此間可能聯系并不密切的RDF語句,沒有輸出可用的子本體。

圖8 基于二分圖的算法摘要的圖結構
Pires等[21]構造子本體作為摘要結果。將本體中的概念看作節點,關系看作有向邊,首先通過度中心性和頻繁性的線性加權選取重要概念節點,然后對概念節點進行分組,最后通過添加組間節點連接各個組,形成原本體對應的子本體。
Queiroz-sousa等[22]在Pires等工作的基礎上構造用戶個性化子本體作為摘要結果。將本體中的概念看作節點,關系看作有向邊,首先通過度中心性和接近中心性的線性加權選取重要概念節點,然后通過拓寬路徑算法選取連接重要節點的必要節點,進而生成若干條經過重要概念節點的重要路徑,從而生成原本體對應的子本體。
Troullinou等[23]在之前工作[24-25]的基礎上,結合數據層和模式層設計了摘要方法。具體地,首先利用數據層的數據計算本體中邊的相對基數;然后根據模式層中節點所連邊的類型和相對基數計算節點的重要程度,從而選取重要概念節點;最后設計算法選取盡可能不相交的、連接重要概念節點的路徑,形成原本體對應的子本體。
上述3種方法的思想都是首先將本體中的概念看作節點,關系看作邊,將本體轉化為圖。然后通過多種參數的加權和計算節點重要性,從而篩選出重要節點。最后通過算法選取路徑連接重要節點,形成摘要圖。3種方法形成的摘要圖都與圖7形式相同。上述方法的區別在于,Pires等通過分組和連接兩步選取路徑,Queiroz-sousa等通過用戶給定的參數生成個性化摘要,Troullinou等在選取重要節點時同時利用了數據層和模式層的信息。
Li等[26]參照本體評估的方式,給出了本體摘要評估的3種方式:1) 基于應用的評估,摘要的質量與利用該摘要應用的表現成正比;2) 基于黃金標準的評估,通過對比人工構建的標準摘要和機器生成摘要的相似性進行評估,相似性越高,說明機器的摘要越準確;3) 基于語料覆蓋度的評估,根據摘要對本體的語義覆蓋度進行評估。其中,面向用戶的摘要大多通過基于黃金準則的方法進行評估,具體地,比較用戶和算法對概念的排序相似度,或對比用戶構建本體和算法生成本體的相似度。面向任務的摘要大多通過基于應用的方法進行評估,具體地,基于摘要本體進行推理、指導問答系統等,通過運行結果評價摘要本體質量。由于基于語料覆蓋度的本體摘要評估僅適用于評價手工構建的本體[27],因此目前尚無基于語料覆蓋度的本體摘要評估。
接下來,詳細介紹基于應用的評估和基于黃金準則的評估。
Alani等[12]將摘要前后的本體分別應用于問答系統,并通過對比二者返回答案的一致性判斷本體摘要水平。基于摘要本體的問答系統返回的答案與原問答系統返回的答案越相似,說明摘要結果越好。
曲琛等[28]對摘要前后的本體進行推理一致性檢測,若對摘要前后的本體進行推理的結果完全相同,說明二者在語義上是等價的。
事實上,問答系統返回答案的過程也可轉化為推理過程。具體地,將待判斷斷言的否定放入問答系統進行推理,若得出不一致的結論,說明斷言是正確的。因此,可通過推理機[29]完成基于應用的評估。推理機是對知識進行解釋的程序,根據知識的語義,按一定策略找到的知識進行解釋執行[30]。目前常用的本體推理機及其推理類型如表1所示[31-36]。

表1 典型推理機及其推理類型
1) 摘要結果為RDF句子
Zhang等[2]通過對比專家選出的RDF句子和算法選出的RDF句子來評估摘要。具體地,算法摘要與專家評估結果的相似度通過式(1)計算。

詞匯重疊度量的計算公式如下。

2) 摘要結果為重要概念


Li等[26]從Zhang等[2]算法生成的RDF句子中抽取重要概念,與Peroni等算法的結果進行對比。結果表明,雖然2種算法摘要的方法和對象不同(Zhang等以RDF句子為摘要單元,而Peroni等以概念為摘要單元),但返回的概念結果相似。然而,Peroni等的算法包含更多名稱簡潔的概念和更普及的概念。這是因為,Zhang等的算法僅考慮了本體的結構信息,而Peroni等還考慮了命名簡潔性和詞匯普及性。
Queiroz-sousa等[22]利用同樣的方法評估了自己的算法,并與Li等的評估結果進行了對比,對比結果如表2[22]所示。原文中對Zhang等算法在financial本體下的匹配度計算有誤,表2中已進行更正。

表2 3種本體摘要算法對比
3) 摘要結果為子本體


Troullinou等通過本體相似度對比了Peroni等的算法、Queiroz-sousa等的算法,以及他們之前提出的RDF Digest算法[24],對比結果如表3所示。
Zhang等[20]通過定性評估的方式將摘要結果與其之前的方法[2]進行對比。因為算法用到了全球語義網中的信息,對專家而言,記住語義網中的所有信息是不現實的。因此,他們針對本體信息繪制相應的摘要圖進行評估。
Deng等[10]從空間復雜度和時間復雜度兩方面評估無損摘要的質量。空間復雜度即給定一個本體,摘要算法在保留其語義的前提下能將其縮減到的最小規模。用壓縮本體中的公理數量與原本體中的公理數量作比,來衡量其空間復雜度。具體計算公式如式(5)所示。

時間復雜度即尋找本體中等價關系花費的時間和壓縮本體花費的時間。
表4給出了本文所述算法的各項性能對比。

表3 4種本體摘要算法對比

表4 本體摘要算法及評估方式對比
目前,大多數本體摘要方法為用戶導向的摘要[38],對任務導向摘要方法的研究仍處于初步階段。用戶導向的本體摘要旨在輸出更為簡潔的、便于用戶理解的本體信息,其目前有3種輸出形式:RDF句子、重要概念集合,以及圖形化的子本體。任務導向的本體摘要旨在提供高效的本體應用服務,其目前輸出形式為子本體。本文對本體摘要的研究現狀進行了梳理,總結了用戶導向和任務導向的本體摘要方法,分類介紹了摘要質量的評估方法。本體摘要的未來研究趨勢主要集中在以下幾個方面。
1) 目前沒有統一的本體摘要的評價指標,如何根據本體的內在特性,提出一種統一的本體摘要評價標準是該領域發展的關鍵點。
2) 現有本體摘要方法都是利用某種規則,從現有本體中抽取關鍵信息作為摘要結果。如何根據現有的本體信息,抽象出本體中沒有顯式出現的摘要詞語,是一個新的研究方向。
3) 現有本體摘要方法沒有利用機器學習算法,可以考慮將機器學習和深度學習算法與本體摘要結合,提出新的摘要方法。
[1] 劉嶠, 李楊, 段宏, 等. 知識圖譜構建技術綜述[J]. 計算機研究與發展, 2016, 53(3): 582-600.
LIU Q, LI Y, YIN H, et. al. Knowledge graph construction techniques[J]//Journal of Computer Research and Development. 2016, 53(3): 582-600.
[2] ZHANG X, CHEN G, QU Y Z. Ontology summarization based on RDF sentence graph[C]//International Conference on World Wide Web. ACM, 2007: 707-716.
[3] WANG R, YU X, LI Y, et al. Ontology partition method for semantic query routing[C]//International Conference on Intelligent Pervasive Computing. IEEE, 2008: 86-89.
[4] STUCKENSCHMIDT H, KLEIN M. Structure-based partitioning of large concept hierarchies[C]//International Semantic Web Conference. 2004: 289-303.
[5] D'AQUIN M, SCHLICHT A, STUCKENSCHMIDT H, et al. Ontology modularization for knowledge selection: experiments and evaluations[C]//International Conference Database and Expert Systems Applications. 2007: 874-883.
[6] D’AQUIN M, SCHLICHT A, STUCKENSCHMIDT H, et al. Modular ontologies: concepts, theories and techniques for knowledge modularization[J]. Lecture Notes in Computer Science, 2009, 5445(4): 67-89.
[7] MANI I. Automatic Summarization[M]. John Benjamins Publishing Company, 2001.
[8] LI N, MOTTA E, D'AQUIN M. Ontology summarization: an analysis and an evaluation[J]. International Workshop on Evaluation of Semantic Technologies, 2010.
[9] ERKAN, RADEV, DRAGOMIR R. LexRank: graph-based lexical centrality as salience in text summarization[J]. Journal of Qiqihar Junior Teachers College, 2011, 22:2004.
[10] 鄧玲玉. 基于重要度計算的語義物聯網本體摘要方法研究[D]. 大連: 大連海事大學, 2017.
DENG L. Research on method of importance computing based semantic web of things ontology summarization[D]// Dalian : Dalian Maritime University. 2017.
[11] 張靈峰, 夏戰鋒, 彭志平. 基于Tbox和Abox的描述邏輯推理研究[J]. 計算機技術與發展, 2010, 20(11): 122-125.
ZHANG L, XIA Z, PENG Z. Research on description logic's reasoning based on Tbox and Abox[J]//Computer Technology and Development. 2010, 20(11): 122-125.
[12] ALANI H, HARRIS S, O'NEIL B. Winnowing ontologies based on application use[C]//European Conference on the Semantic Web: Research and Applications. 2006: 185-199.
[13] FOKOUE A, KERSHENBAUM A, MA L, et al. The summary ABox: cutting ontologies down to size[C]//The Semantic Web - ISWC 2006. 2006: 343-356.
[14] MIKA P. Social Networks and the Semantic Web[C]//IEEE/WIC/ ACM International Conference on Web Intelligence. 2004: 285-291.
[15] FREEMAN L C. A set of measures of centrality based on betweenness[J]. Sociometry, 1997: 35-41.
[16] ZAFARANI R, ABBASI M A, LIU H. Social media mining: an introduction[M]. Cambridge University Press, 2014.
[17] Ontology selection: ontology evaluation on the real semantic Web.
[18] PERONI S, MOTTA E, D’AQUIN M. identifying key concepts in an ontology, through the integration of cognitive principles with statistical and topological measures[C]//Asian Semantic Web Conference on the Semantic Web. 2008.
[19] ROSCH E. Principles of categorization[J]. Readings in Cognitive Science, 1988:312-322.
[20] ZHANG X, CHENG G, GE W Y, et al. Summarizing vocabularies in the global semantic Web[J]. Journal of Computer Science and Technology, 2009, 24(1):165-174.
[21] PIRES C E, SOUSA P, KEDAD Z, et al. Summarizing ontology-based schemas in PDMS.[J]. Icdew, 2010:239-244.
[22] QUEIROZ-SOUSA P O, SALGADO A C, PIRES C E. A method for building personalized ontology summaries[J]. Journal of Information and Data Management, 2013, 4(3): 236.
[23] TROULLINOU G, KONDYLAKIS H, DASKALAKI E, et al. Ontology understanding without tears: the summarization approach[J]. Semantic Web, 2016, 8(6).
[24] TROULLINOU G, KONDYLAKIS H, DASKALAKI E, et al. RDF digest: efficient summarization of rdf/s kbs[C]//European Semantic Web Conference. 2015: 119-134.
[25] TROULLINOU G, KONDYLAKIS H, DASKALAKI E, et al. RDF digest: ontology exploration using summaries[C]//The ISWC 2015 Posters & Demonstrations Track Co-located with the 14th International Semantic Web Conference (ISWC-2015). 2015.
[26] LI N, Motta E. Evaluations of user-driven ontology summarization[J]. Lecture Notes in Computer Science, 2010, 6317(1): 544-553.
[27] 宋丹輝. 本體評價研究綜述[J]//情報理論與實踐, 2011, 34(9):118-122.
SONG D. Ontology evaluation and research survey[J]// Information Studies:Theory & Application, 2011, 34(9):118-122.
[28] 曲琛. 語義物聯網本體的摘要方法研究[D]. 大連海事大學, 2014.
QU C. Research on summarization method of ontology in semantic web of things[D]// Dalian Maritime University. 2014.
[29] SINGH S, KARWAYUN R. A Comparative Study of Inference Engines[C]// International Conference on Information Technology: New Generations. IEEE, 2010:53-57.
[30] 潘超, 古輝. 本體推理機及應用[J]. 計算機系統應用, 2010, 19(9):163-167.
PAN C. GU H. Ontology reasoned and its application[J].//Computer System&Applications, 2010, 19(9):163-167.
[31] FRIEDMAN-HILL E J. JESS, the rule engine for the Java platform[J]. Sandia National Laboratories, 2006, 48(2): 340-354.
[32] CARROLL J J, DICKINSON I, DOLLIN C, et al. Jena: implementing the semantic Web recommendations[C]//International World Wide Web Conference on Alternate Track Papers & Posters. ACM, 2004: 74-83.
[33] SIRIN E, PARSIA B, GRAU B C, et al. Pellet: A practical OWL-DL reasoner[J]. Web Semantics Science Services & Agents on the World Wide Web, 2007, 5(2):51-53.
[34] HAARSLEV V, M?LLER R. Racer: a core inference engine for the semantic Web[J]. EON, 2003(October):27-36.
[35] TSARKOV D, HORROCKS I. FaCT++, description logic reasoner: system description[C]//International Joint Conference on Automated Reasoning. 2006:292-297.
[36] BOBILLO F, STRACCIA U. FuzzyDL: An expressive fuzzy description logic reasoner[C]//IEEE International Conference on Fuzzy Systems. 2008:923-930.
[37] GRAVES A, ADALI S, HENDLER J. A method to rank nodes in an RDF Graph[C]// Poster and Demonstration Session at the, International Semantic Web Conference(DBLP). 2008:309-320.
[38] POURIYEH S, ALLAHYARI M, LIU Q, et al. Graph-based Ontology Summarization: a survey[J]. arXiv:1805.06051, 2018.
Ontologysummarizationtechnologysurvey
DING Yuehang, YU Hongtao, HUANG Ruiyang, LI Yingle
National Digital Switching System Engineering & Technological R & D Center, Zhengzhou 450002, China
Ontology is an important tool for knowledge sharing, while it is also the upper structure of knowledge graph. With the explosion of data and ontology complexity, ontology understanding and application are becoming more and more difficult. As a technique to shrink ontology scale, ontology summarization accelerated ontology understanding and application technologically. Different definitions of ontology summarization were shown, ontology summarization methods were compared and analyzed, ontology summarization evaluation parameter system was introduced, and at last, possible future research area was given.
knowledge graph, ontology, ontology summarization, ontology evaluation
TP393
A
10.11959/j.issn.2096-109x.2018081
丁悅航(1995-),女,山東菏澤人,國家數字交換系統工程技術研究中心碩士生,主要研究方向為復雜網絡、知識圖譜。

于洪濤(1970-),男,遼寧丹東人,博士,國家數字交換系統工程技術研究中心研究員,主要研究方向為網絡大數據分析與處理。
黃瑞陽(1986-),男,福建漳州人,博士,國家數字交換系統工程技術研究中心助理研究員,主要研究方向為文本挖掘、圖挖掘。

李英樂(1985-),男,河北衡水人,碩士,國家數字交換系統工程技術研究中心助理研究員,主要研究方向為網絡大數據分析與處理。
2018-08-27;
2018-09-29
丁悅航,739815262@qq.com
國家自然科學基金資助項目(No.61521003)
The National Natural Science Foundation of China (No.61521003)