孫麗莉,張小剛
(1.西安交通大學 人文學院,西安 710049;2.塔里木大學a.學報編輯部;b.信息工程學院,新疆 阿拉爾 843300;3.浙江大學 計算機學院,杭州 310027)
概念語義相似度計算因其在詞義消歧、文本分類、信息檢索和機器翻譯等方面的諸多用途而被廣泛應用于人工智能、自然語言處理以及認知科學等學科領域。本體[1]因其能夠準確描述概念含義和概念之間的內在關聯,已成為語義相似度研究的基礎。基于本體的概念語義相似度是指本體中兩個概念在語義上的相似程度,需要考慮詞語所在的語境和語義等信息。WordNet作為一部樹狀的語義詞典,在自然語言處理研究等方面應用很廣,已出現很多概念語義相似性度量方法的研究成果。因此,本文對當前基于WordNet通用本體語義相似度計算進行系統的梳理顯得十分必要,旨在通過深入的分析和總結,闡述研究的最新進展,為未來的研究提供參考。
目前提出的語義相似度計算方法主要可以分為兩類:一類是基于上下文統計信息的方法,這種方法利用大規模的語料或詞語定義,收集統計數據,來估算詞匯語義相似度;另一類是基于某種世界知識(本體)或分類體系組織的語義詞典來進行計算,這種方法根據概念間結構層次關系來進行計算詞語的相似度,例如上下位關系和同位關系等。目前,基于本體的語義相似度計算方法研究已經形成了豐富的研究成果,其中,Princeton大學基于認知語言學而設計的英語詞典WordNet因其思想簡單明確,框架形式結構合理,通用性強而被詞匯語義學界和計算詞典學界所認可,被廣泛應用于概念語義相似度計算[2]。
作為通用的英語語言學本體庫和語義詞典,WordNet按語義關系組織詞匯語義網絡,詞匯通過同義詞集合來表示,每個集合標明一個詞匯概念,同時通過鏈路表達上下位、部分整體、同義反義等語義關系。這樣就構成了一個比較完整的語義網絡,同時又提供了很好的概念層次結構,同義詞集合之間的語義關系通過鏈接來實現。
基于WordNet本體的語義相似度計算模型可分為三大類:第一類是基于路徑距離計算的方法[3-8],這類方法一般通過計算邊的個數來計算兩個概念在分類樹中的語義距離,然后將語義距離轉換成相似度值,該方法主要考慮的是連接兩個概念的邊的數量,邊的個數越多表示距離越遠,表示兩個概念的相似度越小。第二類是基于IC(Information Content)[9-13]的方法,一般通過計算兩個概念共有信息量的多少來確定概念間的相似度。這些方法依據概念c在語義詞典中出現的頻率給每一個概念關聯一個概率p(c),然后將每個概念的概率的負對數似然值作為這個概念的信息量,即 IC(c)=-log p(c)。第三類是基于屬性特征的方法[14-17],該方法認為事物間的關聯程度與它們所共有的屬性數成正比。兩個概念的公共屬性數量越多,相似度越大。基于屬性的語義相似度計算從詞匯的特征出發來計算概念語義相似度,如利用WordNet中的同義關系,利用概念節點的祖先節點的交集和并集。在不作具體說明情況下,本文介紹的這3類算法都是建立在WordNet“is_a”關系樹狀分類體系基礎上的。
基于路徑距離的語義相似度算法以WordNet is_a關系分類樹為基礎,通過兩個概念在關系樹中的最短距離來表示它們之間的語義相似性,該類方法認為距離越近的概念間語義相似程度越高,該類算法中典型的有Rada等[3]提出的根據鏈接兩個概念的路徑中的最小長度路徑來計算兩個概念的相似度,也就是利用邊的個數來計算。相應計算公式如式(1)所示:

后來Wu&Palmer[4]提出了新的改進方法,主要思想是在別的因素不變的情況下,在分類樹中層次越低的概念之間相似度越小。具體計算時除了考慮兩個概念間的路徑外,還考慮了兩個概念的公共父節點及其在分類樹中的相關深度,相應計算公式如式(2)所示:

其中,depth(ci)表示概念 ci在WordNet“is_a”關系樹中的深度。len(c1, c2)是指WordNet中兩個概念 (c1, c2)最短的路徑距離。lso(c1,c2)表示c1和c2處于WordNet“is_a”樹中最深層的公共父節點。
Leacock&Chodorow[5]也提出了一種非線性的計算方法,該方法考慮了兩個概念間的節點數量(包含本身)和所處的分類樹的最大深度,相應計算公式如式(3)所示:

這種方法考慮了兩個概念間的路徑,對于一個固定的分類樹來說,兩個概念間的路徑越多,語義相似度越小。從信息論的角度看,該算法求解得到的語義相似度值是概念間路徑所提供的信息量。
Hirst-St-Onge法[6]認為存在較短路徑的概念詞c1和c2,在遍歷路徑過程中方向改變的次數越少,則兩個概念詞相關性越強。具體計算公式如式(4)所示:

其中,C和k為常量,L代表c1和c2間最短路徑長度,d表示遍歷路徑中方向改變的次數。雖然Hirst-St-Onge的方法考慮了路徑“方向”問題,但實驗效果不佳[7]。
通過以上典型方法可以看出,基于距離的方法的優點主要是只依靠概念所處分類樹的幾何模型,相對于文本語料庫方法來說算法簡單,計算量較小。不足之處在于因為路徑是一個離散量,如果單純基于路徑去求相似度勢必很難改善相似度算法的性能,精確性較差,例如在計算時本體中別的路徑都被忽略,只考慮最小路徑,這樣求出的語義相似度值準確度不好。
基于IC的語義相似度算法的核心是算法中IC值的計算,因此研究人員在基于IC信息容量的語義相似度算法研究主要集中與兩個方向,一是語義相似度計算模型,二是IC值計算模型。例如,Resnik[8],Jiang-Conrath[9],Lin[10]等人都提出了各自的語義相似度算法模型。Seco[12],Zhou[13],Meng[14],Sánchez[15],Sebti[16]等人提出了自己的 IC 計算模型。
在提出語義相似度計算模型的人中,Resnik是第一個引入本體和詞典來計算相似度的人。他從語義判斷的目的出發,提出在在分類樹中,概念出現的頻率可以用Brown語料庫[2]的名詞頻率來估計。Resnik根據該理論判斷一對概念的相似度就應該是這對概念共享信息的數量,因此他將兩個概念c1和c2的共同祖先的最大信息量作為兩個概念的語義相似度。其提出的語義相似度算法模型如式(5)所示:

其中,lso( )c1,c2指概念c1和c2位于該分類樹中的最小公共父節點。
Jiang-Conrath的語義相似度算法是在Resnik算法的基礎上提出的,與Resnik相同的是Jiang-Conrath也利用了信息容量的概念,只不過作者通過結合一些詞對的最大詞義性來計算相似性。

這里s1i和s2j是w1和w2的意義(在本體中的概念)。他們利用兩個概念的信息量和它們的最大信息量之差作為語義距離進行語義相似度的計算,這種方法被認為是計算兩個概念的相異度。其算法模型如下:


基于IC的語義相似度算法研究中偏重IC值計算的研究重點是研究如何優化IC值精確度[11-16]。
Seco等[11]是第一個提出利用分類樹自身內部組織結構特點進行IC值計算的人。他們發現,一個概念包含的子節點越多,它擁有的信息量越少,同時它包含的葉子節點的信息量越大。他們提出的這種方法只與WordNet的自身結構有關,該方法中某個概念c的信息容量依靠的是基礎本體的下義詞的數量。該方法IC值的計算公式如式(9)所示:

Lin對語義相似度的理解與Resnik類似,他認為一方面概念有共性的一面,另一方面每一個概念也有自己單獨的信息容量。因此他提出的的語義相似度算法都與特定的應用、特定的領域有關。后來,Lin考慮定義一個通用的計算相似度的方法,他認為兩個概念的相似性應該能被信息共性和信息總量的比值來測算,其提出的算法模型如下:
這里 hypo(c)返回值是概念c的所有子節點數,max_nodes代表的是該分類樹本身所包含的概念的最大數量。該方法中默認WordNet是基礎分類樹,但該模型存在的問題是兩個處于不同層次但下義詞數量相同的概念,它們的相似度計算結果也相同。
為了避免這種情況,David Sanchez等[12]引入了一種新的基于自身結構的模型來計算IC的值,這種方法沒有考慮深度問題,而是引入了下義詞,通過一個概念的下義詞和上義詞來進行計算。他們認為依靠葉子來區分不同概念就已經足夠了,David新提出的IC計算公式如下:
式中leaves(a)=m∈C/m∈hyponyms(a),這里C 是本體概念集合,m是其中的葉子節點。subsumers(a)={c ∈C/a≤c}∪{a},這里a≤c是指a為c的直系下義詞節點。所有的葉子概念不論深度都擁有相同的最大信息容量 -log (1/(max_leaves+1))。該模型存在的問題是有相同上義詞概念但有不同下義詞結構和下義詞數會導致IC值相等。也就意味著這兩個概念意義相同但包含信息不同。
為了克服這種情況,Zhou等[13]引入了概念的下義詞的相對深度,提出了一種新的計算IC值的方法:


引入深度作為權重參數雖然克服了David算法的問題,但又導致了新的問題的產生,例如該參數必須通過實驗調試來確定具體的K值。
為此Meng等[14]整合了Seco and Zhou的方法來克服這種情況,他考慮了每個概念的深度和該概念的每個下義詞的深度,并改變了術語 hypo(c)而通過另一個術語max_depth來體現對IC計算的貢獻:

對概念c,depth(c)是概念c在分類樹中的深度,max_depth是分類樹的最高深度,max_nodes是分類樹中的概念的最大數量。
David Sanchez等后來針對自己文章[12]存在的不足,又提出了一種新的利用概念共性(commonness)來計算IC值的模型[15],這種模型依靠葉子節點的subsumer(上義詞)的數量來計算IC的值。具體計算公式如下所示:

Sebti等[16]也提出了一種包含了深度的以下義詞數量為基礎的IC計算新方法來。具體計算方法如圖1所示。
以Box的IC值計算為例:

圖1 Sebti算法的信息容量片段計算示例

通過以上分析可以看出,這些方法都是以不同形式利用了本體中的節點和結構,例如 hypo(c),leaves(c),subsumers(c)和depth(c),其中Resnik 的算法、Jiang-Conrath的算法與Lin算法都是直接或間接的將兩個概念父節點的IC值作為兩個概念的相似度,Seco,Zhou and Sánchez等人都在一定程度上利用層次結構來計算本體中的IC,都有一定的代表性。
基于屬性的語義相似度計算模型的方法依據的思想是事物之間的關聯程度與其所具有的公共屬性數相關,兩個概念的公共屬性數量越多,相似度越大。因此,這類方法的基本原理是通過判斷兩個概念對應的屬性集的相似程度來區分概念的語義相似度。
Tversky[17]算法模型是該類算法的典型,其語義相似度計算模型如下:

其中,θ ,α ,β ,f(c1∩c2)返回的是c1和c2的公共屬性項的數量,f(c1-c2)返回的是c1有但c2中沒有的屬性數,f(c2-c1)返回的是c2有但c1中沒有的屬性數,參數分別表示c1和c2的公共屬性和非公共屬性對其相似度計算的影響程度,參數值的確定由具體任務決定,且由于概念詞相似度的非對稱性,α和β值不一定相同。基于屬性的語義相似度計算模型在國內典型的有荀恩東等[18]人從WordNet中提取同義詞并采取向量空間方法計算的語義相似度模型。該計算模型首先從WordNet的同義詞詞集(Synset)、類屬信息(Class)和意義解釋(Sense Explanation)三方面抽取候選同義詞,進行特征提取后計算被比較概念詞的各個意義(Sense),然后在這三個特征空間通過計算距離來計算各自的意義相似度,最后基于意義相似度來綜合計算詞語的相似度。
除此之外,也有一些研究人員將上述三種方法進行了綜合,即同時考慮了概念詞的位置信息、邊的類型、概念詞的屬性信息等,綜合分析后提出了一些混合參數的語義相似度計算方法,例如Rodriguez等人[19],Knappe[20],王桐等[21],張忠平等[22]都提出了自己的相似度模型,這些模型都是在以上三種基本類型基礎上的綜合考量。
目前,基于WordNet通用本體的相似度計算研究已經取得很多成果,這些成果從WordNet語義詞典的結構信息、位置信息、內容信息等角度對概念語義相似度的本質,語義相似度算法和如何更好地揭示概念間的語義關系來展開。本文僅從算法利用的角度進行綜述,同時對每種類型中有代表性的算法進行了系統的闡述和比較。基于當前研究成果,本文認為,今后基于本體的語義相似度研究還需從以下幾個方向予以深入[22-26]:(1)通過融合的方法從不同的角度和層面充分揭示詞匯間語義關系的背景信息,準確有效實現被比較詞語向本體概念詞的映射。(2)基于語料庫的統計方法具有數據稀疏和數據噪音問題,基于語義詞典的方法受領域應用的限制,無法反映客觀實際情況,所以如何將將語料庫以及語義詞典合理融合進行優勢互補,還有待進一步研究和實踐。(3)本體語義詞典結構非常復雜,除了上下位關系外,還有同義、反義、整體部分等關系,目前針對上下位關系外的別的結構的研究還比較少,所以加強本體中其他語義關系相似度計算研究對語義相似度研究的進一步發展非常必要。(4)本體之間側重點不同,尤其是領域本體之間差距很大,所以跨本體之間的語義相似度研究也是重要的方向之一。(5)目前語義相似度研究的檢驗仍然依靠數據測試集R&G[27]和M&C[28]等,通用性差,只限于名詞,而且數據量少,因此建立樣本數更多、詞性范圍更廣、可靠性更好的通用測試集也成是今后的研究方向。
[1]Gruber T R.A Translation Approach to Portable Ontology Specifica?tions[J].Knowledge Acquisition,1993,5(2).
[2]Fellbaum C,Miller G.WordNet:An Electronic Lexical Database[M].Massachusetts:MIT Press,1998.
[3]Rada R,Mili H,Bicknell E,et al.Development and Application of A Metric on Semantic Nets[J].IEEE Transactions on Systems Man&Cy?bernetics,1989,19(1).
[4]Wu Z,Palmer M.Verb Semantics and Lexical Selection[J].ACL Pro?ceedings of Annual Meeting on Association for Computational Linguis?tics,1994.
[5]Fellbaum C,Miller G.Combining Local Context and WordNet Similar?ity for Word Sense Identification[M].WordNet:An Electronic Lexical Database,1998.
[6]HirstG,St-Onge D.Lexical Chains as Representations of Context for the Detection and Correction of Malapropisms[M].Cambridge:The MIT Press,1998.
[7]Budanitsky A,Hirst G.Semantic Distance in WordNet:An Experi?mental,Application-oriented Evaluation of Five Measures[C].The Workshop on WordNet&Other Lexical Resources,2001.
[8]Resnik,Philip.Using Information Content to Evaluate Semantic Simi?larity in a Taxonomy[C].International Joint Conference on Artificial Intelligence,1995.
[9]Jiang J J,Conrath D W.Semantic Similarity Based on Corpus Statis?tics and Lexical Taxonomy[R].Proceedings of International Confer?ence on Research in Computational Linguistics,August 22-24;Taipei,Taiwan,1997.
[10]Lin D.An Information Theoretic Definition of Similarity.In:ShavlikJ,editor.Fifteenth International Conference on Machine Learning,IC?ML 1998.Madison(Wisconsin,USA):Morgan Kaufmann,1998.
[11]Nuno Seco,Tony Veale,and Jer Hayes.An Intrinsic Information Content Metric for Semantic Similarity in WordNet,European Confer?ence on Artificial Intelligence-ECAI,2004.
[12]David Snchez,MontserratBatet,and David Isern,Ontology Based In?formation Content Computation,Journal on Knowledge-Based Sys?tems,2011,24(2).
[13]Zili Zhou,Yanna Wang,and Junzhong Gu,A New Model of Informa?tion Content for Semantic Similarity in WordNet,International Con?ference on Future Generation Communication and Networking Sym?posia,IEEE Computer Society,2008.
[14]Lingling Meng,Junzhong Gu,and Zili Zhou,A New Model of Informa?tion Content Based on Concepts Topology for Measuring Semantic Similarity in WordNet,International Journal of Grid and Distributed Computing,2012,5(3).
[15]David Snchez and Montserrat Batet,A New Model to Compute the Information Content of Concepts from Taxonomic Knowledge,Inter?national Journal on Semantic Web Information Systems archive,2012,8(2).
[16]Sebti A,Barfroush A A.A New Word Sense Similarity Measure in WordNet[C].International Multiconference on Computer Science and Information Technology.IEEE,2008.
[17]Tversky.A,Features of Similarity,Psychological Review,1977,84(2).
[18]荀恩東,顏偉.基于語義網計算英語詞語相似度[J].情報學報,2006,25(1).
[19]Sabou M,Richards D,Splunter S V.An Experience Report on Using DAML-S[C].WWW 2003 Workshop on E-Services and the Seman?tic Web,2003.
[20]Knappe R,Bulskov H,Andreasen T.On Similarity Measures for Con?cept-based Querying [C].In:Proceedingsofthe10th International Fuzzy Systems Association World Congress,2003.
[21]王桐,王磊等.WordNet中的綜合概念語義相似度計算方法[J].北京郵電大學學報,2013,36(2).
[22]張忠平,田淑霞,劉洪強.一種綜合的本體相似度計算方法[J].計算機科學,2007,35(12).
[23]孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].現代圖書情報技術,2010,(1).
[24]左秀然.基于概念相似度的本體映射系統研究[D].武漢:武漢理工大學,2008.
[25]黃宏斌,董發花,鄧蘇等.一種跨本體的語義相似度計算方法[J].計算機科學,2008,35(7).
[26]曹澤文,錢杰,張維明等.一種綜合的概念相似度計算方法[J].計算機科學,2007,34(3).
[27]Rubenstein H,Goodenough J B.Contextual Correlates of Synonymy[M].ACM,1965.
[28]Miller G A,Charles W G.Contextual Correlates of Semantic Similari?ty[J].Language and Cognitive Processes,1991,6(1).