,
(浙江工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)
基于角度—相似度轉(zhuǎn)換模型的義原相似度計算
黃洪,屠肖龍
(浙江工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)
義原的相似度是基于《知網(wǎng)》計算詞語、句子相似度的基礎(chǔ).最早的義原相似度計算方法是劉群等提出的根據(jù)義原距離轉(zhuǎn)換為義原相似度的方法,之后許多研究者在計算公式中引入了其他影響相似度計算的因素.這些因素本質(zhì)上都可以由父節(jié)點深度、父節(jié)點到第一個義原的深度和父節(jié)點到第二個義原的深度等三個基本因素組成.將這三個因素作為基本變量,分析變量對義原相似度的影響方式并構(gòu)建角度—相似度轉(zhuǎn)換模型,實現(xiàn)了根據(jù)義原角度轉(zhuǎn)換為義原相似度的方法.最后,通過實驗分析比較新方法與同類方法在區(qū)分度、正區(qū)分度和距離誤差上的優(yōu)勢,驗證了其合理性.
義原相似度;角度—相似度轉(zhuǎn)換模型;知網(wǎng)
相似度計算是人工智能和自然語言處理領(lǐng)域的一個研究重點,詞語相似度普遍應(yīng)用于信息抽取、文本聚類[1]、詞義排歧、機器翻譯和自動問答等領(lǐng)域[2-3].在計算詞語相似度時通常有兩種經(jīng)典的方法;第一種是統(tǒng)計分析的方法,該方兩個詞語的相似度[4-5].另一種是基于詞語分類體系的方法,該方法需要依賴于某種知識庫,目前英文世界知識庫研究較多的是Wordnet,中文世界研究較多的是《知網(wǎng)》[6]和《同義詞詞林》.
《知網(wǎng)》是由我國著名的機器翻譯專家董振東老師耗費十多年時間建立的一個知識庫.它能夠以概念的形式來描述漢語的詞以及詞所對應(yīng)的英文,并且對概念具有的屬性及概念相互間的關(guān)系做了詳細(xì)的描述.《知網(wǎng)》中有兩個主要的概念:“概念”和“義原”.其中,“概念”表示詞語語義,一個概念只能表示某個詞語的一種語義,但是一個詞語可能由一個或者兩個及以上的概念組成.“概念”用一種特定的“知識表示語言”來描述,這種“知識表示語言”又是由“義原”作為基本描述語言來表示.“義原”是《知網(wǎng)》用于描述“概念”的最小的意義單位.《知網(wǎng)》中一共確定了一千五百多個義原,分為:Event|事件、Entity|實體、Attribute|屬性、AValue|屬性值、Quantity|數(shù)量、QValue|數(shù)量值、SecondaryFeatlure|第二特征、Syntax|語法、EventRole|動態(tài)角色和EventFeatures|動態(tài)屬性等10個大類.此外義原與義原之間又存在各種不同的關(guān)系,在《知網(wǎng)》里面總共定義了義原之間的8種關(guān)系,關(guān)系之間組合在一起構(gòu)成了一個復(fù)雜的關(guān)系網(wǎng)絡(luò).其中義原間的上下位關(guān)系是最主要的一種關(guān)系,所有的義原依照上下位關(guān)系可以組成一個樹狀的義原層次體系結(jié)構(gòu),絕大多數(shù)學(xué)者根據(jù)該層次結(jié)構(gòu)[7]來計算義原的相似度.
劉群[8]等首先給出了根據(jù)知網(wǎng)義原樹計算義原相似度的方法,該方法首先計算義原之間的距離,然后將義原之間的距離轉(zhuǎn)換為義原間的相似度.之后又出現(xiàn)了許多改進(jìn)的公式:如李峰[9]等對義原深度的考慮,夏天[10]等對義原重合度的考慮以及江敏[11]等對義原深度差的考慮.幾種典型的改進(jìn)算法如下:
夏天等結(jié)合相異度、重合度和義原深度對義原相似度的影響,從信息論的角度給出了義原間相似度的計算式為
式中:spd(P1,P2)為義原P1,P2公共父節(jié)點的深度;depth(P)為義原P的深度.
李峰等在計算過程中引入了節(jié)點深度對義原相似度的影響,給出的計算式為
sim(P1,P2)=

式中:sim(P1,P2)為兩個義原之間的相似度;α為常數(shù),代表相似度為0.5時義原之間的距離;distance(P1,P2)為義原之間的距離;min(depth(P1),depth(P2))為兩個義原深度的較小值.
江敏等的義原相似度計算方法中考慮了義原深度差對義原相似度的影響,認(rèn)為距離相同的兩個義原之間的層次差越大,相似度越小,最終給出義原相似度計算式為

式中:sim(P1,P2)為兩個義原之間的相似度;α為常數(shù);|depth(P1)-depth(P2)|為兩個義原之間的層次差;depth(P)為義原P的深度.
分析這些因素后發(fā)現(xiàn)深度和深度差是兩個復(fù)雜因素,而復(fù)雜因素是基本因素綜合作用的體現(xiàn),其對相似度的影響可以轉(zhuǎn)化為基本因素對相似度的影響.因此可以利用模型的方法來綜合各個因素對相似度計算的影響,剖析各個因素的幾何意義,最后從基本因素出發(fā)計算義原相似度.
2.1 問題分析
假設(shè)點O為樹根,點P1,P2分別是兩個需要計算相似度的義原,P3是P1,P2的公共父節(jié)點中最深的節(jié)點.總結(jié)之前影響義原相似度的因素包括:義原P1和P2之間的距離、義原P1和P2之間的深度差、公共父節(jié)點P3的深度、義原P1的深度以及義原P2的深度等.這些影響因素被歸結(jié)到三個基本因素上:因素一,節(jié)點P3的深度;因素二,P3到P2的深度;因素三,P3到P1的深度.基于義原樹結(jié)構(gòu)的相似度計算有如下幾個特點:
1)P1和P2之間的距離越大,相似度越??;當(dāng)距離趨于非常大時,相似度趨于0.
2) 義原P1和P2的公共父節(jié)點P3深度越大,P1和P2的相似度越大;當(dāng)深度趨于非常大時,相似度趨于1.
2.2 模型構(gòu)建
義原在知網(wǎng)中以樹形結(jié)構(gòu)組織在一起,在計算義原之間的相似度時,主要有4個關(guān)鍵的點:樹根節(jié)點、最深公共父節(jié)點以及兩個義原節(jié)點.為了簡化模型結(jié)構(gòu)首先摘除其他節(jié)點,形成“丫”字形結(jié)構(gòu),模型的構(gòu)建過程如下:
確立直角坐標(biāo)系,在直角坐標(biāo)系的x軸上確定節(jié)點P3,原點O到P3的長度為根節(jié)點到最深公共父節(jié)點的節(jié)點數(shù);給定一個固定的β角,令P3為β的頂點,x軸平分β角,P3P1是β角的一條邊,長度為義原P3到義原P1的節(jié)點數(shù)(不包括P3),P3P2是β角的另一條邊,長度為義原P3到義原P2的節(jié)點數(shù)(不包括P3);連接O,P2形成邊OP2,連接O,P3形成邊OP3,兩條邊之組成一個夾角α,如圖1所示.

圖1 義原相似度的角度—相似度轉(zhuǎn)換計算模型Fig.1 Angle similarity transformation model of sememe similarity
該模型中O點對應(yīng)的是義原樹樹根,P1,P2分別是兩個需要計算相似度的義原,P3是P1,P2的公共父節(jié)點中最深的節(jié)點.角P2OP1為α,角P2P3P1為β.
定義1OP3長度為從根節(jié)點O到節(jié)點P3經(jīng)過的所有節(jié)點數(shù)目(包括節(jié)點O和P3),記為spd(P1,P2).
定義2P3P2,P3P1長度分別為從節(jié)點P3到節(jié)點P2,P1經(jīng)過的所有節(jié)點數(shù)目,不包括節(jié)點P3,分別記為dis(P3,P2),dis(P3,P1).
α角隨著義原P1,P2距離的增大而增大,表示兩個義原的相異部分.但隨著距離的無限增加,α角只會無限接近β角但不會大于β角,因此相似度計算式可形式化為

(1)
式中α/β為兩個義原的相異程度,通過1-α/β就可以得到它們的相似程度.
2.3 模型檢驗
分析并比較影響相似度的因素與影響模型計算的因素,建立因素之間對應(yīng)的關(guān)系,檢驗?zāi)P偷暮侠硇?
2.3.1 父節(jié)點深度
如果義原樹中的spd(P1,P2)(父節(jié)點P3的深度)越長,則從根節(jié)點定位到P3節(jié)點需要走過的節(jié)點數(shù)越多,包含的信息也越詳細(xì),因此義原P1和義原P2的公共信息量[12]也越多,根據(jù)Dekang Lin的信息論義原相似度計算方法,義原相似度就會變大,反之則會變小.
在spd(P1,P2)減小,dis(P3,P2)和dis(P3,P1)不變化的情況下,α便會增大(圖2),根據(jù)式(1),sim(P1,P2)就會減小.

圖2 父節(jié)點深度降低Fig.2 Reduce the depth of super point
在spd(P1,P2)增大,dis(P3,P2)和dis(P3,P1)不變化的情況下,α便會減小(圖3),根據(jù)式(1),sim(P1,P2)就會增大.

圖3 父節(jié)點深度增長Fig.3 Increase the depth of super point
2.3.2dis(P3,P2)和dis(P3,P1)
在spd(P1,P2)不變的情況下,dis(P3,P2)和dis(P3,P1)增長意味著定位到P1,P2需要走過更多的節(jié)點,完整描述P1,P2需要更多的信息量,根據(jù)Dekang Lin[13]信息論公式,分母增大意味著相似度的下降.
在dis(P3,P2)和dis(P3,P1)增長,spd(P1,P2)不變化的情況下,α便會增大(圖4),根據(jù)式(1),sim(P1,P2)就會減小.

圖4 義原深度增長Fig.4 Increase the depth of sememe
在dis(P3,P2)和dis(P3,P1)減小,spd(P1,P2)不變化的情況下,α便會減小(圖5),根據(jù)式(1),sim(P1,P2)就會增大.

圖5 義原深度降低Fig.5 Reduce the depth of sememe
2.3.3 深度差
深度差是指兩個義原深度之間的差,通常情況下,深度差越大,義原之間的差異越大.但在基于義原樹的3個基本因素(spd(P1,P2)為P1,P2公共父節(jié)點P3的深度;dis(P3,P1)為P3,P1之間的長度;dis(P3,P2)為P3,P2之間的長度)中并不包含深度差這個因素,因為它是一個綜合性的因素.當(dāng)義原之間的深度差改變時,必然會導(dǎo)致depth(P1)或者depth(P2)改變,對應(yīng)于基本因素dis(P3,P2)和dis(P3,P1)也會變化,因此,不將深度差作為一個基本因素.如圖6所示,depth(P2)改變引起深度差的改變.

圖6 義原深度差改變Fig.6 Change of depth difference between two sememes
2.4 計算公式
基于以上模型得出計算式為

(2)

(3)
α=ω+θ
(4)

(5)
式中:ω為α被橫軸截的上半部分角;θ為下半部分角;β為一個人為測定的值,經(jīng)過人工試驗的測試,當(dāng)β取π/2時能夠較好的符合主觀感受.
2.5 義原直系情況下模型及計算公式
當(dāng)P3與P2或P1中的某一個重合時,即義原P1,P2之間是直系關(guān)系,不符合圖1建立的模型,無法使用以上公式計算.
直系情況下,兩個義原之間是父子關(guān)系,兩者之間沒有形成夾角(圖7),義原P1是義原P2的父節(jié)點,兩者之間的深度差就是義原之間的相異距離(父節(jié)點到子節(jié)點的距離),而兩個義原之間的公共部分就是重合距離(原點到父節(jié)點的距離),這比較符合夏天等從信息論的角度計算義原相似度的思想,因此選擇夏天等的義原相似度計算方法作為直系情況下的補充.

圖7 直系關(guān)系的義原模型圖Fig.7 The model of direct relation sememe
根據(jù)以上方法,實現(xiàn)了一種新的對知網(wǎng)義原相似度的計算方法,同時與其他學(xué)者的計算結(jié)果在多個維度上進(jìn)行了比較,包括區(qū)分度、均方差和正區(qū)分度.表1為各個方法的計算結(jié)果.

表1 不同方法的義原相似度計算結(jié)果Table 1 The calculation results of different sememe similarity means
劉群等首次給出了義原距離轉(zhuǎn)化為義原相似度的方法,對義原相似度計算有重要意義,但計算結(jié)果有不足的地方.從表1中可以發(fā)現(xiàn):計算結(jié)果比較粗糙,結(jié)果的區(qū)分度比較低,比如“生物”與“無生物”“牲畜”與“禽”“獸”與“人”等相似度一樣,10項測試數(shù)據(jù)中有7項得到的結(jié)果相同.
江敏等在計算過程中考慮了義原間深度差的影響,更加全面.分析表2,3中的數(shù)據(jù)認(rèn)為其能夠很好地區(qū)分不同詞語對的相似度,不足的是計算結(jié)果總體上略微偏高.新方法的結(jié)果基本都處于夏天方法、劉群方法的計算結(jié)果和江敏方法的計算結(jié)果之間,比較折中、合理,更符合主觀判斷.
定義3區(qū)分度為算法對結(jié)果的區(qū)分能力,是可區(qū)分的結(jié)果對數(shù)與測試對總數(shù)的比值.

表2 各個相似度計算方法的區(qū)分度表Table 2 Every sememe similarity mean’s discriminative
從表2可以看出新方法的計算結(jié)果能夠在區(qū)分度上有較好的效果.

表3 各個方法與主觀判斷之間的比較Table 3 The comparison of subjective result and mean’s calculation result
距離誤差公式為

式中:M為待計算結(jié)果;I為主觀結(jié)果.各個方法的結(jié)果與調(diào)研結(jié)果之間的距離誤差如表4所示.
表4各個方法與主觀之間的距離誤差
Table4Distanceerrorbetweensubjectiveresultandmean’scalculationresult

劉群方法夏天方法李峰方法江敏方法新方法0.170.230.220.300.23
由表4可知:劉群方法最優(yōu),新方法與夏天方法和李峰方法的方法不相上下,江敏方法的計算結(jié)果略有偏高.
定義4正區(qū)分表示計算結(jié)果中結(jié)果的大小關(guān)系與對應(yīng)的主觀判斷結(jié)果中結(jié)果的大小關(guān)系相同的區(qū)分.
正區(qū)分在實際應(yīng)用中可能會很有用.因為有時候用戶并不需要得到相似度的準(zhǔn)確值,只需要知道相似度計算結(jié)果之間的大小關(guān)系就足夠了.比如當(dāng)用戶輸入一個關(guān)鍵詞查詢時,用戶不需要知道呈現(xiàn)在他面前的結(jié)果和他輸入的關(guān)鍵詞之間的相似度值,他看到的只是一系列結(jié)果根據(jù)相似度大小關(guān)系的排序,只有根據(jù)用戶瀏覽的順序按相似度從高到低對結(jié)果進(jìn)行排序,用戶才能較快地找到自己的答案,因此正確的相似度大小排序也很重要,正區(qū)分?jǐn)?shù)越多,排序越準(zhǔn)確.區(qū)分度代表了算法區(qū)分不同結(jié)果的能力,而正區(qū)分度則體現(xiàn)了算法能夠正確區(qū)分結(jié)果大小的能力.
各個計算結(jié)果相對于主觀的正區(qū)分?jǐn)?shù)計算步驟如下:
步驟1將主觀判斷結(jié)果按從小到大的順序排列,第十項“物質(zhì)”和“飲品”相似度最小排在第一個,“牲畜”和“禽”相似度最大,排在末尾,按行號排完序的結(jié)果(標(biāo)記為序列S)為
主觀排序S:10-9-1-3-5-6-8-7-4-2
步驟2對各個方法也按從小到大的順序排列,無法區(qū)分的放在小括號中并用斜杠隔開(括號中用‘/’隔開的項表示指定方法無法區(qū)分的項,以下同),各個計算結(jié)果的排序結(jié)果為
1) 9-10-7-(1/2/3/4/5/6/8),為劉群方法.
2) 9-10-7-1-3-(4/5/6/8)-2,為夏天方法.
3) 9-10-7-1-(3/4)-(5/6/8)-2,為李峰方法.
4) 9-10-7-4-1-3-(5/6/8)-2,為江敏方法.
5) 9-10-7-1-3-4-(5/6/8)-2,為新方法.
當(dāng)對所有方法排完序后,方法的計算結(jié)果與主觀結(jié)果之間的相對逆序就是兩個序列之間大小關(guān)系不同的數(shù)據(jù)對對數(shù).比如在主觀排序中10號排在9號之前,因此10號的相似度要小于9號的相似度.而在1)劉群方法計算結(jié)果排序當(dāng)中10號排在9號之后,10號的相似度要大于9號.因此,9號與10號就是在劉群方法的計算結(jié)果與主觀結(jié)果之間大小關(guān)系不同的一對數(shù)據(jù),找出所有這樣的數(shù)據(jù)對,去減所有可能的數(shù)據(jù)對對數(shù),就可以得到兩個結(jié)果序列之間大小關(guān)系相同的數(shù)據(jù)對對數(shù),也就是正區(qū)分?jǐn)?shù).為了便于尋找這種數(shù)據(jù)對,再進(jìn)行第三步處理.
步驟3對每一個方法,按從左到右的順序?qū)懗雒恳晃辉谥饔^結(jié)果排序S中的位置號,組成新的序列并記為S-方法序號,比如1)中的第一位是9,而9在S中排在第二位,所以新的序列第一位是2;1)中的第二位10位列S中的第一位,因此新序列的第二位是1;1)中的第三位7位列S中的第八位,因此新序列的第三位是8;1)中的項(1/2/3/4/5/6/8)對應(yīng)在S中的(3/10/4/9/5/6/7),最后組成的新序列S-1):2-1-8-(3/10/4/9/5/6/7).所有的新序列如下:
S-1):2-1-8-(3/10/4/9/5/6/7)
S-2):2-1-8-3-4-(5/6/7/9)-10
S-3):2-1-8-3-(4/9)-(5/6/7)-10
S-4):2-1-8-9-3-4-(5/6/7)-10
S-5):2-1-8-3-4-9-(5/6/7)-10
步驟4對每一個新的序列,計算數(shù)大小關(guān)系與下標(biāo)大小關(guān)系相同的數(shù)據(jù)對對數(shù)(若兩個數(shù)據(jù)對中包含相同的數(shù),則視為同一對,計入一次;若數(shù)據(jù)對中的兩個數(shù)無法區(qū)分,不計入).比如S-1)序列中對數(shù)據(jù)2和1進(jìn)行比較:數(shù)的大小關(guān)系是2大于1,下標(biāo)關(guān)系是數(shù)2的下標(biāo)小于數(shù)1的下標(biāo),兩者相反,代表計算方法得出的相似度大小關(guān)系與主觀的不相同,不是正區(qū)分.最后各個方法的正區(qū)分計算結(jié)果如下:
S-1):18對
S-2):33對
S-3):32對
S-4):31對
S-5):33對
從正確區(qū)分?jǐn)?shù)看:新方法計算結(jié)果的正確區(qū)分略好于其他幾種計算結(jié)果(表5).
經(jīng)過觀察發(fā)現(xiàn):夏天方法、李峰方法以及新方法計算結(jié)果的正區(qū)分之所以比江敏方法的計算結(jié)果要高,是因為江敏方法的計算結(jié)果與主觀之間的結(jié)果偏差更大.比如在計算“生物”與“無生物”的相似度以及“動物”與“牲畜”的相似度時,江敏方法的計算結(jié)果顯示前者的相似度為0.865,而后者才0.827,即“生物”與“無生物”的相似度比“動物”與“牲畜”相似度還要高.但實際上,“動物”與“牲畜”應(yīng)該比“生物”與“無生物”更相似,因為“動物”和“牲畜”都是動物而且也都是生物,兩者存在很多動物以及生物的共同特性,相似的地方很多;但是“生物”與“無生物”是兩種截然不同的東西,很難找出兩者有何相似的地方.因此相比于后者,“動物”與“牲畜”之間相似的地方更多更相似,相似度也應(yīng)該更高.在主觀結(jié)果中可以看到,“生物”和“無生物”之間的相似度為0.458,“動物”和“牲畜”之間的相似度為0.696,很好的證明了這一點.同時,在夏天方法、李峰方法以及新方法的計算結(jié)果中,也都符合“動物”與“牲畜”之間的相似程度比“生物”與“無生物”之間的相似程度更高這一結(jié)論,因此夏天方法、李峰方法以及新方法的計算結(jié)果在區(qū)分度上比江敏方法的計算結(jié)果有更好的表現(xiàn).
通過以上對各個方法的區(qū)分度、正區(qū)分度和距離誤差的結(jié)果分析,排序后獲得表5.

表5 所有義原相似度計算方法的各指標(biāo)排名Table 5 The ranking criteria of the sememe similarity computing method
從表5可以看到:劉群方法在均方差上最接近人的主觀判斷,但是在區(qū)分度和正區(qū)分度上與主觀符合比較一般.新的方法在區(qū)分度和正區(qū)分度上較為符合人的主觀判斷,均方差上與其他方法比較也有不錯表現(xiàn),具有更好的合理性.
為了進(jìn)一步驗證方法的有效性,在《知網(wǎng)》義原中另外抽取了十對詞語進(jìn)行實驗分析,并對不同的方法在各個指標(biāo)上進(jìn)行了排序,實驗結(jié)果如表6所示.

表6 實驗二中不同方法的義原相似度計算結(jié)果Table 6 The calculation results of different sememe similarity means in the second experiment
從表7可以看出:與其他同類方法相比,新方法的優(yōu)勢在于其區(qū)分度和正區(qū)分度最高,在實際應(yīng)用中表現(xiàn)出來的是對結(jié)果的排序更準(zhǔn)確.其次,在距離誤差上,新方法同夏天方法、李峰方法有相同程度的距離誤差,且要好于江敏方法.雖然新方法的距離誤差稍差于劉群方法,但由于劉群方法的區(qū)分度和正區(qū)分度最低,與新方法相差較多,因此新方法總體上要優(yōu)于其他同類方法,證明了新方法更有合理性和有效性.

表7 所有義原相似度計算方法的各指標(biāo)排名Table 7 The ranking criteria of the sememe similarity computing method in the second experiment
《知網(wǎng)》是一個集合了豐富的世界知識的體系,在自然語言處理領(lǐng)域有廣泛的應(yīng)用.義原是《知網(wǎng)》描述概念最小單位,是基于知網(wǎng)進(jìn)行詞匯語義相似度計算、文本相似度計算等學(xué)術(shù)研究的基礎(chǔ).新的方法通過“角度—相似度”模型模擬義原距離的變化對相似度的影響,并提取出三個最基本的義原相似度影響因素,這些因素通過數(shù)學(xué)模型組合在一起形成相似度的計算方法.最后通過主觀判斷和三個評價指標(biāo)解釋了方法的有效性和合理性.除了義原距離對相似度的影響之外,義原的區(qū)域密度也是一個影響相似度的因素.通常來說,義原所處的區(qū)域密度越大,則對義原的描述越細(xì)致,包含的信息量越多.而根據(jù)Dekang Lin的信息論方法,詞語的信息量是計算詞語間相似度的基礎(chǔ),因此,如何將密度因素和信息量融合到新方法中需要在今后的研究中繼續(xù)努力.
[1] 張科.基于《知網(wǎng)》義原空間的文本相似度計算研究與實現(xiàn)[D].重慶:重慶大學(xué),2013.
[2] 崔淑潔.句子相似度算法研究及其在中文問答系統(tǒng)中的應(yīng)用[D].杭州:浙江工業(yè)大學(xué),2014.
[3] 王方紅,黃文彪.孿生支持向量機的特征選擇研究[J].浙江工業(yè)大學(xué)學(xué)報,2016,02:146-149.
[4] 王小林,楊林,王東.基于知網(wǎng)的新詞語相似度算法研究[J].情報科學(xué),2015(2):67-71.
[5] 黃洪,豐旭.涉及地名的句子相似度計算方法的改進(jìn)[J].浙江工業(yè)大學(xué)學(xué)報,2015,43(6):624-629.
[6] 董振東,董強.知網(wǎng)和漢語研究[J].當(dāng)代語言學(xué),2001(1):33-44.
[7] 袁曉峰.《知網(wǎng)》義原相似度計算的研究[J].遼寧大學(xué)學(xué)報(自然科學(xué)版),2011(4):358-361.
[8] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].中文計算語言學(xué),2002(7):59-76.
[9] 李峰,李芳.中文詞語語義相似度計算——基于《知網(wǎng)》2000[J].中文信息學(xué)報,2007,21(3):99-105.
[10] 夏天.漢語詞語語義相似度計算研究[J].計算機工程,2007,33(6):191-194.
[11] 江敏,肖詩斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語語義相似度計算[J].中文信息學(xué)報,2008,22(5):84-89.
[12] 魏韡,向陽.基于2008版《知網(wǎng)》的詞語相似度計算方法[J].計算機工程,2015(9):215-219.
[13] LIN Dekang.An information-theoretic definition of similarity semantic distance in Wordnet[C]//Proceedings of the Fifteenth International Conference on Machine Learning Ec.San Francisco:Morgan Kaufmann Publishers,1998:296-304.
Thecalculationofsememesimilaritybasedonangle-similaritytransformationmodel
HUANG Hong, TU Xiaolong
(College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China)
Sememe similarity is the basis for computing similarity of words and sentences in the “Hownet”. The earliest sememe similarity calculation method was proposed by Liu Qu. In this method, the sememe distance was transformed into sememe similarity. After that, many researchers have introduced other factors that influence similarity calculations in the calculation formula. These factors essentially consists of three preliminary parts: depth of common father point, distance between the father point and the first sememe, and distance between the father point and the second sememe. Taking these three factors as basic variables, the effect of these factors on sememe similarity was analyzed and an angle-similarity transformation model was constructed to transform sememe angle into sememe similarity. Finally, the experiments analyzed the advantages on distinction, positive distinction and distance error between new methods and similar methods. and verified its rationality.
sememe similarity; angle-similarity transformation model; Hownet
2017-02-17
黃 洪(1964—),男,江西豐城人,教授,研究方向為軟件開發(fā)、智能電子商務(wù)和自然語言處理等,E-mail:huanghong@zjut.edu.cn.
TP391
A
1006-4303(2017)06-0597-07
(責(zé)任編輯:陳石平)