池哲潔 張 全
?
基于概念基元的詞語相似度計算研究
池哲潔*①②張 全②
①(中國科學院大學 北京 100049);②(中國科學院聲學研究所 北京 100190)
詞語相似度的計算在機器翻譯、信息檢索等多個領域有重要作用。該文以概念層次網(wǎng)絡理論的概念基元符號系統(tǒng)為語義資源,在共性與差異性對比思想下,提出一個涵蓋層次性、網(wǎng)絡性、對比對偶特性、掛靠特性及五元組信息的多維度詞語相似度計算方法;在節(jié)點深度和節(jié)點距離度量上,引入權(quán)重以增加不同層次間的區(qū)分程度。在人工打分的測試集上進行實驗,結(jié)果表明該方法計算的相似度與人工判斷的符合程度較好,兼容度、相關(guān)系數(shù)和序?qū)Ψ隙确謩e達到0.812, 0.786和0.775;同時,相關(guān)性檢驗的結(jié)果也顯示該方法的計算值與人工打分顯著相關(guān)。
詞語相似度;語義距離;概念層次網(wǎng)絡;概念基元
詞語相似度的計算在機器翻譯、信息檢索、自然語言處理等多個領域具有重要作用。相似度反映兩個事物間特征的重合程度,而詞語涉及多方面特征,包括詞法、句法、語義及語用等,但語義在相似度中的影響最大,因此,本文考慮詞語語義相似度,主要是指詞語在語義概念上的重合程度。在度量上,Lin[1]認為兩個詞語的相似度取決于它們的共性和差異性,并以信息論角度提出了相似度的計算方法:,其中,為詞語間的共性信息,為詞語間的描述性信息,一般由共性和差異性組合而成。Lin的方法給出了重合度度量的一個通用思想,本文以此為基礎設計相似度的計算方法,并將相似度值限制在[0,1]。
目前,進行詞語語義相似度計算主要有兩種方法,一種是利用依托某種世界知識所構(gòu)建的語義詞典的方法,另一種則是基于大規(guī)模語料統(tǒng)計的方法。基于語義詞典的方法主要利用語義詞典將詞匯按照語義類別組織在樹狀層次結(jié)構(gòu)中的特點,考慮其中概念節(jié)點間的上下位或同位關(guān)系等,通過距離或信息內(nèi)容來度量詞語間的相似性。英語詞語相似度計算主要基于WordNet,文獻[2]通過考慮概念詞與其最近公共父節(jié)點概念詞的位置關(guān)系來計算相似度;Resnik[3]提出了直接利用最大公共祖先節(jié)點概念詞的信息內(nèi)容來計算相似度的方法;其后的改進方法一般都額外考慮節(jié)點深度、密度、語義重合度、概念頻數(shù)、語義數(shù)目等因素進行綜合計算[4,5]。漢語詞語相似度計算多是采用《知網(wǎng)》來開展的,劉群等人[6]探索《知網(wǎng)》義原體系,采用上下位關(guān)系度量義原間的距離,利用距離和相似度成反比例的關(guān)系設計義原相似度計算公式,然后將詞語整體相似度分解成多個義原對相似度的組合,對部分義原相似度進行加權(quán)平均得到詞語的整體相似度;李國佳[7]采用義原信息量來計算概念間主類義原的相似度,并結(jié)合義原角色關(guān)系綜合計算詞語相似度;張滬寅等人[8]通過義原距離限制義原深度對相似度的影響而實現(xiàn)義原相似度計算的改進;孫晶等人[9]提出逆概念頻率計算方法,并用于為不同義原定義權(quán)重,根據(jù)動態(tài)權(quán)重計算詞的相似度。基于大規(guī)模語料統(tǒng)計的方法是建立在相似詞語所處的上下文環(huán)境是相似的假設上,將詞語相似度的計算轉(zhuǎn)移到它們所處上下文環(huán)境的對比中來。Brown等人[10]基于平均互信息計算詞語相似度;關(guān)毅等人[11]提取詞語的上下文概念分布信息,利用相關(guān)熵進行差異比較,從而計算語義相似度;王石等人[12]采用詞匯在二詞短語中的搭配詞作為其上下文,在自動構(gòu)建大規(guī)模二詞短語的基礎上,使用tf-idf作為向量權(quán)重,構(gòu)造直接和間接搭配向量,通過計算搭配向量間的夾角余弦,將其作為詞語相似度結(jié)果。上述兩種方法各有優(yōu)缺點,基于語義詞典的方法簡單有效、直觀且易于理解,但需要有完備的知識庫支撐,一般人為構(gòu)建的語義詞典具有一定局限性;另外,它對于不包含在詞典中的詞語(未登錄詞)基本不具備處理能力。基于語料庫統(tǒng)計的方法比較客觀,并且沒有未登錄詞處理的問題;不過其對訓練語料的依賴性大,理論上,所使用的語料庫對真實語言的代表性越好,則計算結(jié)果與實際越符合,但在實踐中,構(gòu)建這種“完美代表性”的語料庫難度巨大;另外,該方法一般計算量較大,容易受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的影響而出現(xiàn)錯誤。從優(yōu)缺點角度出發(fā),基于混合技術(shù)的詞語相似度算法存在很大的發(fā)展空間[13]。
概念層次網(wǎng)絡[14,15](Hierarchical Network of Concepts, HNC)理論是面向整個語言理解的理論框架,是中文信息處理的3個流派之一[16]。該理論立足于語言概念空間,通過構(gòu)建概念聯(lián)想脈絡實現(xiàn)語言的理解。語言概念空間的基層是概念基元空間,其中包含一套概念基元符號系統(tǒng),該符號系統(tǒng)由概念基元組成,具有層次性且采用基元化的語義定義,能夠準確表達詞語的語義內(nèi)涵,適合當作語義詞典使用。已有工作中,史燕[17]考慮了概念基元的層次性和五元組信息,基于距離計算概念基元相似度并利用組合符號實現(xiàn)詞語相似度的計算;吳佐衍等人[16]根據(jù)HNC符號的編碼規(guī)則和符號映射理論,綜合考慮概念內(nèi)涵、概念外部特征和概念類別信息,提出概念表示的相似度加權(quán)計算公式,然后考慮組合符號,實現(xiàn)HNC符號的相似度計算,最終利用詞語和HNC符號的映射關(guān)系實現(xiàn)詞語相似度的計算。上述工作中都考慮了概念基元符號系統(tǒng)的層次性以及一些外部特性,最終對詞語相似度計算也起到了一定作用,但這些考慮并不全面,忽略了概念節(jié)點間的對偶、對比特性及網(wǎng)絡性等對語義表示起很大作用的因素。本文以概念基元符號系統(tǒng)為基礎,充分考慮語義網(wǎng)絡設計的層次性及一些外部特性,同時考慮它們的對偶、對比特性及網(wǎng)絡性,力圖實現(xiàn)一個更加合理的詞語相似度計算方法。
本文的工作是以概念基元符號系統(tǒng)為基礎,這里對該系統(tǒng)做基本介紹,更詳細信息請參閱文獻[14, 15]。
HNC理論注重抽象概念的表達,對于具體概念,主張采用近似的方案進行描述。語義網(wǎng)絡是為描述抽象概念而設計的,它是由符號化的概念基元構(gòu)成。語義網(wǎng)絡中的概念基元具有層次性,可以用樹狀結(jié)構(gòu)進行組織,并將所有概念基元的根記為LCS(Language Concept Space)。縱觀整個語義網(wǎng)絡,它是按“概念范疇-概念林-概念樹-延伸概念結(jié)構(gòu)”的方式從高到低進行組織的。以圖1中的部分語義網(wǎng)絡為例,a處在概念范疇層,其下有多個子節(jié)點,a1為其中一個,處于概念林層面,a14是a1下的一個概念樹節(jié)點,其下又包含一系列延伸概念節(jié)點。HNC將概念樹以上(包括概念樹)部分稱為概念基元的高層,在高層之后則是進入延伸結(jié)構(gòu),共兩類,第1類延伸結(jié)構(gòu)有3種:對偶性、對比性和包含性,第2類延伸結(jié)構(gòu)也是3種:交織性延伸、并列性延伸和定向性延伸。

圖1 語義網(wǎng)絡節(jié)點示例
概念基元表達了概念的內(nèi)涵,通常情況下,同一個內(nèi)涵會有多方面的表現(xiàn),這在自然語言中表現(xiàn)為詞性現(xiàn)象,而在HNC中則是通過五元組來體現(xiàn)的。五元組包括動態(tài)、靜態(tài)、屬性、值和效應,分別對應符號v, g, u, z和r,將五元組符號作用到語義網(wǎng)絡中的節(jié)點,則可形成同一內(nèi)涵概念不同側(cè)面的表示。
將語義網(wǎng)絡中表示內(nèi)涵的概念基元符號和表示外在特征的五元組符號基于一定規(guī)則組合起來形成HNC符號。由HNC符號表示概念的這一套系統(tǒng)我們稱為概念基元符號系統(tǒng)。自然語言中的詞語與概念基元符號系統(tǒng)中的符號存在映射關(guān)系,由人工將這類映射關(guān)系組織起來形成詞語-概念基元映射表,使用該映射表,可以將詞語相似度的計算轉(zhuǎn)移到概念基元空間中。
語義網(wǎng)絡中的概念基元除了具有層次性,還具有網(wǎng)絡性,也就是關(guān)聯(lián)性。一方面,上下位的層次關(guān)系本身帶有關(guān)聯(lián)信息;另一方面,處于不同子網(wǎng)絡下的概念基元間也可能存在關(guān)聯(lián),如“a63e219”(綜合分析性理論)與“811”(思維活動的綜合與分析)有很大的關(guān)聯(lián)性。這類不同網(wǎng)絡間的關(guān)聯(lián)無法通過表層符號直接體現(xiàn)出來,目前的一個解決方案就是人工構(gòu)建這種隱式的關(guān)聯(lián),以概念關(guān)聯(lián)式的形式呈現(xiàn)。HNC理論定義了10種沿襲邏輯關(guān)聯(lián),此處將其總結(jié)如下(括號內(nèi)為對應關(guān)聯(lián)符號):強關(guān)聯(lián)(≡)、強交式關(guān)聯(lián)(=)、強流式關(guān)聯(lián)(<=)、強源式關(guān)聯(lián)(=>)、包含(%=)、屬于(=%)、對應(:=)、等同(=:)、定義(::=)、虛設(==)。
利用概念基元符號系統(tǒng)的組織和編碼形式以及詞語和HNC符號的映射關(guān)系,本文提出基于概念基元的詞語相似度計算方法,主要步驟為:首先提出不含組合符號的HNC符號(稱為單一HNC符號)間的相似度計算方法,進而考慮其組合形式的計算,最后利用詞語和HNC符號的映射關(guān)系,實現(xiàn)詞語的相似度計算。
3.1單一HNC符號相似度計算
在HNC符號相似度計算上,本文將從層次性、對比對偶特性、網(wǎng)絡性、掛靠特性及五元組信息等多個維度充分考慮各符號間的共性和差異性,在此基礎上設計相似度計算公式。
3.1.1概念基元相似度計算 基于共性和差異性對比的思想,概念基元間相似度計算的通用公式為


(3)
3.1.2對比、對偶特性的度量 語義網(wǎng)絡中對相似度計算起主導作用的是層次性,不過其對比、對偶特性也不容忽視。對比性是指共寓于同一高層概念下的一組概念,彼此間存在量的差異;對偶性則是指一組概念彼此間存在質(zhì)的差別。對比中處于兩端的概念以及對偶中表示對立和對抗的概念常常構(gòu)成反義關(guān)系,從而影響相似度;而對比其他位置的概念及普通對稱關(guān)系也會加大概念間的距離。本文將這兩部分的作用考慮進概念間的差異性,通過適當放大概念間的距離來減小相似度。在計算上定義一個差異性縮放系數(shù)作用于帶權(quán)節(jié)點距離,的計算方法如式(4):

3.1.3網(wǎng)絡語義關(guān)聯(lián)的度量 除了層次性及對比、對偶特性,語義網(wǎng)絡中還需要考慮的一個因素是網(wǎng)絡性,即概念間的關(guān)聯(lián)性質(zhì),此處主要考慮不同語義網(wǎng)絡間的概念關(guān)聯(lián),這方面的度量需要借助已構(gòu)建好的概念關(guān)聯(lián)式。本文將關(guān)聯(lián)性作用到概念間的共性上,采用一個共性縮放系數(shù)來度量不同的關(guān)聯(lián)類型。本文考慮關(guān)聯(lián)性較強的8種關(guān)聯(lián),將其分為4組,則的計算方法如式(5):

3.1.4掛靠類型語義關(guān)聯(lián)的度量 掛靠是HNC概念表達的一種常用方式,在表示上,直接將一個概念符號與相關(guān)概念的符號拼接在一起。例如,表示“交通工具”的“pw22b”就是直接把具體概念“pw”(人造物)和基元概念“22b”(自身轉(zhuǎn)移)連在一起。在掛靠表示中,向其他概念掛靠的概念稱為掛靠層,而被掛靠概念稱為本體層。掛靠層一般是表現(xiàn)概念的某些特性,其實質(zhì)還是體現(xiàn)在本體層,因此,本文將掛靠層的區(qū)別放到差異性的考慮中,計算上采用一個差異性縮放系數(shù)來表示,考慮掛靠概念集合間的差異程度,的計算公式為

3.1.5外在表現(xiàn)的度量 五元組是對概念不同側(cè)面的表達,是概念外在表現(xiàn)的基元,在相似度計算上有具有一定影響。同一個概念基元作用上不同的五元組符號所表達的概念會有差別,本文將這部分的區(qū)別也反映到差異性中,設計一個差異性縮放系數(shù)來表示。依據(jù)五元組與語法學的詞性大致對應關(guān)系(v對應動詞,u對應形容詞,g, z, r對應名詞)設置的計算式,表示為

綜合以上幾個部分,可以得到HNC符號相似度的計算方法。在共性描述上,最終的計算公式為

差異性描述的最終計算公式為

其中,平滑部分的考慮與共性描述的情況類似。沿用式(1)的形式,得到HNC符號的相似度計算公式為
(10)
HNC符號相似度的計算步驟如下(算法1):
(1)分解HNC符號,分別得到五元組符號、掛靠信息及概念基元信息;
(2)獲取兩個概念基元的公共節(jié)點,采用式(2),式(3)計算公共節(jié)點帶權(quán)節(jié)點深度及帶權(quán)節(jié)點距離;
(3)分別考察概念間的對比、對偶特征,關(guān)聯(lián)特性,掛靠信息及五元組信息,采用式(4)–式(7)計算,,及;
(4)將以上各部分結(jié)果代入式(8),式(9)求出共性和差異性描述信息,再利用式(10)計算最終結(jié)果。
3.2 組合結(jié)構(gòu)分析及計算
前面提到的單一HNC符號只是概念海洋里的基本元素,更多的概念則是通過這些單一HNC符號組合進行表示的。HNC定義了12種概念組合結(jié)構(gòu),分別是:作用(#)、效應($)、對象(&)、內(nèi)容(|)、偏正(/)、主謂(‖)、展開(+)、并(,)、選(;)、一般邏輯組合(lyy)、非(!)、反(^),各符號的具體含義請參見文獻[15]。本文根據(jù)計算需要按組合符號所作用對象的數(shù)量將其分為兩類:一元組合符號和二元組合符號,一元組合符號是指其作用對象只有一個,包括“非”和“反”,其余的則為二元組合符號。
不同的組合符號表示不同的意義,組合后的概念也各不相同,不過它們都會在一定程度上包含組合前概念的義項,因此,組合后的概念可以通過組合前的概念進行表示。本文在計算上先分解組合符號為單一符號,然后對組合符號賦予權(quán)重進行量化,最后采用加權(quán)求和的方法計算組合形式的相似度值。其中,一元組合符號計算如式(11)所示,二元組合符號計算公式為

(12)
(1)若兩個待計算HNC符號相同,直接返回相似度值1;
(2)若兩個不同HNC符號分解后其組合類型相同,本文認為這種情況只需要分別考慮其對應部分的相似度,計算上則是先求出對應部分的相似度值后再加權(quán)求和,而不進行遞歸展開,如式(13)所示。

(3)其余情況則按式(11)或式(12)以遞歸形式展開計算。
3.3 詞語相似度計算
實現(xiàn)HNC符號間的相似度計算并考慮組合結(jié)構(gòu)情況后,就可以利用已構(gòu)建好的詞語和HNC符號映射表計算詞語的相似度。計算時,先將詞語映射到HNC符號,此時可能存在一個詞語對應多個HNC符號義項的情況,本文規(guī)定相似度就取所有義項相似度的最大值,即

完整的詞語相似度計算步驟如下(算法3):
(2)采用算法2循環(huán)計算兩個集合中各項間的相似度;
(3)取步驟(2)中的最大值,作為最終相似度結(jié)果。
4.1 實驗設置
目前對相似度計算進行評價的一個常見做法是將計算結(jié)果與人工評定的結(jié)果進行對比,通過定性及定量分析判斷結(jié)果的好壞。在人工打分測試集選擇上,本文使用文獻[12]構(gòu)建的測試集作為實驗數(shù)據(jù)來源,該測試集仿照英語詞語相似度基準測試集構(gòu)建的方法,充分考慮了詞語的“分布均勻性”和“相似均勻性”,具有較好的代表性。考慮到對比方法(將在后文介紹)使用的語義資源所收錄的詞語情況,本文從該測試集中剔除一些無法計算的詞語對,最終保留60對詞語用于測試(見表1)。
在計算詞語相似度前,需對相應參數(shù)進行設置,本文基于最優(yōu)相關(guān)系數(shù)來設定參數(shù),即選擇使相關(guān)系數(shù)達到最優(yōu)時對應的參數(shù)為最終的參數(shù),表示為:。實際計算中,首先結(jié)合經(jīng)驗為各參數(shù)設置取值范圍,然后將取值范圍空間按適當步長(本文使用的步長為0.05)進行切分得到有限個離散點,最后在這些離散點中窮盡搜索最優(yōu)參數(shù),最終確定的各參數(shù)取值情況如表2所示(HNC組合符號按#、$、&、|、/、‖、+、,、;、lyy、!、^順序?qū)獏?shù),,,)。權(quán)重模擬函數(shù)取:()且。另外,本文選取了3組方法作為對比實驗,分別是文獻[6]的方法(方法1),它是基于《知網(wǎng)》進行漢語詞語相似度計算最為典型的方法,適合作為其他方法的比較標準;文獻[12]的方法(方法2),該方法是基于大規(guī)模語料統(tǒng)計的新方法;文獻[16]的方法(方法3),它是目前基于HNC理論考慮因素最全面、處理效果達到最好的方法;同時,將本文方法稱為方法4。
4.2結(jié)果與分析
將4種算法分別應用于測試集,最終結(jié)果如表1所示,同時,將多組結(jié)果以折線圖呈現(xiàn)(圖2),表3則是從表1中選取的部分代表性結(jié)果。
表1詞語相似度計算結(jié)果



注:m為人工打分的結(jié)果,1–4分別對應方法1-方法4的結(jié)果
表2實驗參數(shù)設置

公式調(diào)節(jié)參數(shù)縮放系數(shù)組合符號參數(shù) 參數(shù)取值參數(shù)取值參數(shù)取值 0.501.200.55 1.001.100.45 2.000.40 1.700.40 1.500.50 1.200.40 1.200.60 1.050.50 1.500.60 1.200.70 1.100.80 0.60
從圖2和結(jié)果表中可以看出,方法2的計算結(jié)果在數(shù)值上普遍偏低,與人工打分的符合情況不太理想,主要是因為基于上下文特征的方法考慮眾多特征,加上一些噪聲的引入,從而造成高維向量的相似度普遍較低;另外,3種方法其數(shù)值跨度較大(數(shù)據(jù)點在縱軸上分布范圍廣),并且與人工打分均有一定符合,這是因為基于語義詞典的方法往往在某些方面與人工思維符合程度較好。方法1的計算結(jié)果數(shù)值離散度較小,而另外3種方法的結(jié)果則很少重復,主要是因為方法1計算時所考慮的因素較少,計算公式中各項指標取值范圍有限,而方法2基于高維向量計算,其結(jié)果分布較廣,方法3和方法4則考慮了較多因素,能夠有較好的區(qū)分度。方法1,方法3和方法4在不同的詞語對上表現(xiàn)有一定差別,而方法3和方法4總體表現(xiàn)比較接近。例如,“男人母親”這一對詞語的計算結(jié)果上,方法3和方法4較為接近人工打分,而方法1有較大偏差,“初級高級”這一對詞語的情況則相反,而“高興開心”這一組詞語3種方法的結(jié)果均比較接近,這也體現(xiàn)了《知網(wǎng)》和概念基元符號系統(tǒng)在設計理念上的異同。另外,同樣基于概念基元符號系統(tǒng),方法4的結(jié)果在總體上比方法3更貼近人工打分(圖中方法4的線形及數(shù)據(jù)點分布趨勢與人工打分更為貼近),這說明本文綜合考慮語義網(wǎng)絡的各項特性以及考慮節(jié)點層次的權(quán)重是有效的。
圖2 各方法相似度結(jié)果
表3詞語相似度計算部分結(jié)果

IDW1W2SmS1S2S3S4 11男人母親0.26200.86110.16500.38790.2485 51高興開心0.96201.00000.03800.90000.9795 57初級基礎0.86900.68250.11000.29320.3443 58初級高級0.72300.77410.13500.34320.3813
注:m為人工打分的結(jié)果,1-4分別對應方法1-方法4的結(jié)果
總體上,本文的計算結(jié)果與人工打分比較符合,不過其中也存在有較大偏差的項目。例如,“初級”(gu30aac21)和“基礎”(ru12eb1,j721)應當具有較高相似性,但其計算結(jié)果卻相似性較低,主要是因為“初級”的概念內(nèi)涵采用“30aac21”來表示,而“基礎”的概念內(nèi)涵則是“j721”和“12eb1”的組合,兩者之間符號層面差異明顯,且尚未建立概念關(guān)聯(lián)關(guān)系。
對各方法的計算結(jié)果進行定量分析,這里考慮3個指標——兼容度()[16]、相關(guān)系數(shù)()[4]和序?qū)Ψ隙?)。兼容度用于絕對符合程度考察,相關(guān)系數(shù)和序?qū)Ψ柖扔糜诳疾煜鄬Ψ铣潭取P驅(qū)Ψ隙鹊挠嬎愎綖?/p>

由表4可知,所有方法的相關(guān)系數(shù)均大于0.5,在統(tǒng)計上則認為它們與人工打分均具有中等強度以上的相關(guān)性,也反映出各方法與人工結(jié)果的符合情況較好。相比于方法2,另外3種方法的相關(guān)系數(shù)明顯更高,說明基于語義詞典的方法與人工判斷比較容易達成一致;不過在序?qū)Ψ隙壬希洳罹嗖]有相關(guān)系數(shù)上的明顯,方法1與其表現(xiàn)相當,說明僅考慮排序情況,方法2也是可行的。方法3的相關(guān)系數(shù)與方法1相當,但兼容度明顯好于方法1,說明該方法在取值上與人工打分的總體偏差較小。本文方法在3個指標上均優(yōu)于其他方法,這說明本文方法在計算結(jié)果上與人工判斷有更好的符合程度,從而可知,基于概念基元符號系統(tǒng)進行詞語相似度計算也是有效的。最后,本文還對計算結(jié)果與人工打分結(jié)果進行了相關(guān)性檢驗,在原假設“兩組數(shù)據(jù)不相關(guān)”下,采用Spearman非參數(shù)檢驗計算得到值為,說明待檢驗數(shù)據(jù)是顯著相關(guān)的,進一步驗證了本文結(jié)果與人工判斷的符合程度。
表4各方法的評價指標結(jié)果

算法CompatrOpc 方法10.6450.6180.679 方法2-0.5540.684 方法30.7210.6370.730 方法40.8120.7860.775
4.3簡單應用
詞語相似度計算在自然語言處理、機器翻譯等多個領域有重要作用。以基于實例的機器翻譯為例,假設待翻譯句子“律師開展的調(diào)查”,經(jīng)過搜索,在實例庫中找到兩個翻譯實例:
(1)警察開展的調(diào)查/the investigation conducted by the police。
(2)去年開展的調(diào)查/the investigation conducted last year。
經(jīng)對比計算,“律師”和“警察”的相似度為0.3775,和“去年”的相似度為0.1769,故選用實例(1)進行類比翻譯,從而得到正確的譯文:the investigation conducted by the lawyer。
本文以概念基元符號系統(tǒng)為基礎,提出一種基于語義詞典的相似度計算方法,從該符號系統(tǒng)的設計理念出發(fā),并充分挖掘其中各項信息,包括層次性、網(wǎng)絡性、對比對偶特性、掛靠特性和五元組信息,最終形成一個多維度的計算公式;另外,為節(jié)點深度和節(jié)點距離賦予權(quán)重的做法使之與實際情況更加符合。采用本文提出的方法在人工構(gòu)建的測試集上進行實驗,并與其他方法進行比較,結(jié)果表明本文方法計算的相似度與人工打分符合情況最好,在定量評價指標上也取得了最優(yōu)的結(jié)果,兼容度、相關(guān)系數(shù)和序?qū)Ψ隙确謩e達到0.812, 0.786和0.775。
概念關(guān)聯(lián)性在本文中只能通過概念關(guān)聯(lián)式體現(xiàn),而已構(gòu)建的關(guān)聯(lián)式規(guī)模尚小,許多潛在關(guān)聯(lián)性并沒有得到應用,因此,下一步需要繼續(xù)挖掘和構(gòu)建概念關(guān)聯(lián)式,完善關(guān)聯(lián)式集合;與此同時,也有必要嘗試提出新的度量關(guān)聯(lián)性的方法。另外,該方法目前只能對包含在詞典內(nèi)的詞語進行處理,對于未登錄詞則無能為力,未來很有必要探索該方法下未登錄詞的處理,以擴大該方法的適用性,這也是進一步的工作內(nèi)容。
[1] LIN D. An information-theoretic definition of similarity semantic distance in WordNet[C]. Proceedings of the 15th International Conference on Machine Learning, San Francisco, CA, USA, 1998: 296-304.
[2] WU Z and PALMER M. Verbs semantics and lexical selection [C]. Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, Stroudsburg, PA, USA, 1994: 133-138. doi: 10.3115/981732.981751.
[3] RESNIK P. Semantic similarity in a taxonomy: an information based measure and its application to problems of ambiguity in natural language[J]., 1999, 11(7): 95-130. doi: 10.1613/jair. 514.
[4] 王桐, 王磊, 吳吉義, 等. WordNet中的綜合概念語義相似度計算方法[J]. 北京郵電大學學報, 2013, 36(2): 98-101. doi: 10.13190/jbupt.201302.98.wangt.
WANG Tong, WANG Lei, WU Jiyi,. Semantic similarity calculation method of Comprehensive concept in WordNet[J]., 2013, 36(2): 98-101. doi: 10.13190/ jbupt.201302.98.wangt.
[5] WANG Junhua, ZUO Wanli, and PENG Tao. Hyponymy graph model for word semantic similarity measurement[J]., 2015, 24(1): 96-101. doi: 10.1049/cje.2015.01.016.
[6] 劉群, 李素建. 基于《知網(wǎng)》的詞匯語義相似度計算[C]. 第三屆漢語詞匯語義學研討會論文集, 臺北, 中國, 2002: 59-76.
LIU Qun and LI Sujian. Words semantic similarity computation based on HowNet[C]. Proceedings of the 3rd Chinese Lexical Semantics Workshop, Taipei, China, 2002: 59-76.
[7] 李國佳. 基于知網(wǎng)的中文詞語相似度計算[J]. 智能計算機與應用, 2015, 5(3): 49-52. doi: 10.3969/j.issn.2095-2163.2015. 03.015.
LI Guojia. Chinese words similarity computation based on HowNet[J]., 2015, 5(3): 49-52. doi: 10.3969/j.issn.2095-2163.2015.03.015.
[8] 張滬寅, 劉道波, 溫春艷. 基于《知網(wǎng)》的詞語語義相似度改進算法研究[J]. 計算機工程, 2015, 41(2): 151-156. doi: 10.3969/j.issn.1000-3428.2015.02.029.
ZHANG Huyin, LIU Daobo, and WEN Chunyan. Research on improved algorithm of word semantic similarity based on HowNet[J]., 2015, 41(2): 151-156. doi: 10.3969/j.issn.1000-3428.2015.02.029.
[9] 孫晶, 張東站. 基于逆概念頻率的詞語相似度計算[J]. 廈門大學學報(自然科學版), 2015, 54(2): 257-262. doi: 10.6043/ j.issn.0438-0479.2015.02.018.
SUN Jing and ZHANG Dongzhan. Word similarity computing based on inverse concept frequencies[J].(), 2015, 54(2): 257-262. doi: 10.6043/j.issn.0438-0479.2015.02.018.
[10] BROWN P, PIETRA S, PIETRA V,. Word sense disambiguation using statistical methods[C]. Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, CA, USA, 1991: 264-270. doi: 10.3115/981344.981378.
[11] 關(guān)毅, 王曉龍. 基于統(tǒng)計的漢語詞匯間語義相似度計算[C]. 第七屆全國計算語言學聯(lián)合學術(shù)會議論文集, 哈爾濱, 中國, 2003: 221-227.
GUAN Yi and WANG Xiaolong. A statistical measure of semantic similarity between Chinese words[C]. Proceedings of the 7th Joint Symposium on Computational Linguistics, Harbin, China, 2003: 221-227.
[12] 王石, 曹存根, 裴亞軍, 等. 一種基于搭配的中文詞匯語義相似度計算方法[J]. 中文信息學報, 2013, 27(1): 7-14. doi: 10.3969/j.issn.1003-0077.2013.01.002.
WANG Shi, CAO Cungen, PEI Yajun,. A collocation based method for semantic similarity measure for Chinese words[J]., 2013, 27(1): 7-14. doi: 10.3969/j.issn.1003-0077.2013.01.002.
[13] 李慧. 詞語相似度算法研究綜述[J]. 現(xiàn)代情報, 2015, 35(4): 172-177. doi: 10.3969/j.issn.1008-0821.2015.04.035.
LI Hui. A review on the research of word similarity algorithms[J]., 2015, 35(4): 172-177. doi: 10.3969/j.issn.1008-0821.2015.04.035.
[14] 黃曾陽. HNC理論全書(第五冊)[M]. 北京: 科學出版社, 2015: 1-102.
HUANG Zengyang. The Complete Book of Hierarchical Network of Concepts Theory (Book 5)[M]. Beijing: Science Press, 2015: 1-102.
[15] 苗傳江. HNC(概念層次網(wǎng)絡)理論導論[M]. 北京: 清華大學出版社, 2005: 1-49.
MIAO Chuanjiang. Introduction to HNC Theory[M]. Beijing: Tsinghua University Press, 2005: 1-49.
[16] 吳佐衍, 王宇. 基于HNC理論的詞語相似度計算[J]. 中文信息學報, 2014, 28(2): 37-43. doi: 10.3969/j.issn.1003-0077. 2014.02.005.
WU Zuoyan and WANG Yu. A new measure of semantic similarity based on hierarchical network of concepts[J]., 2014, 28(2): 37-43. doi: 10.3969/j.issn.1003-0077.2014.02.005.
[17] 史燕. 基于HNC的漢語句子相似度算法的研究[D]. [碩士論文], 江蘇大學, 2009: 14-19. doi: 10.7666/d.y1604350.
SHI Yan. The research on Chinese sentence similarity algorithm based on HNC[D]. [Master dissertation], Jiangsu University, 2009: 14-19. doi: 10.7666/d.y1604350.
池哲潔: 男,1988年生,博士,研究方向為自然語言處理.
張 全: 男,1968年生,研究員,研究方向為自然語言理解、語言知識處理.
Word Similarity Measurement Based on Concept Primitive
CHI Zhejie①②ZHANG Quan②
①(,100049,);②(,,100190,)
Word similarity measurement plays an important role in machine learning, information retrieval and many other fields. Regarding the concept primitive symbol system of Hierarchical network of concepts theory as semantic resource and comparing commonness with difference, a multi-dimensional computational method for similarity is proposed which considers the hierarchy, netted nature, comparability and duality, attached feature and quintuple information of the system. Weight strategy is introduced for node depth and distance measurement to increase the discrimination of node level. Experiment on manual scoring test set shows that the computed similarities are consistent with human judgments. The proposed method achieves 0.812, 0.786, and 0.775 in compatibility degree, correlation coefficient, and ordinal pair conformity respectively. Meanwhile, the result of correlation test further proofs that the computed similarities and human’s scores are significantly correlated.
Word similarity; Semantic distance; Hierarchical network of concepts; Concept primitive
TP391
A
1009-5896(2017)01-0150-09
10.11999/JEIT160176
2016-02-25;改回日期:2016-09-14;
2016-11-14
池哲潔 chizhejie@sina.com
國家863計劃“十二五”項目(2012AA011102),國家語委“十二五”科研項目(YB125-53)
The Twelfth Five-Year Project of National 863 Program of China (2012AA011102), The State Language Commission Twelfth Five-Year Research Project (YB125-53)