甘麗新 萬(wàn)常選 劉德喜 鐘 青 江騰蛟
(江西財(cái)經(jīng)大學(xué)信息管理學(xué)院 南昌 330013)(數(shù)據(jù)與知識(shí)工程江西省高校重點(diǎn)實(shí)驗(yàn)室(江西財(cái)經(jīng)大學(xué)) 南昌 330013)(spiderganxin@163.com)
基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽取
甘麗新 萬(wàn)常選 劉德喜 鐘 青 江騰蛟
(江西財(cái)經(jīng)大學(xué)信息管理學(xué)院 南昌 330013)(數(shù)據(jù)與知識(shí)工程江西省高校重點(diǎn)實(shí)驗(yàn)室(江西財(cái)經(jīng)大學(xué)) 南昌 330013)(spiderganxin@163.com)
作為語(yǔ)義網(wǎng)絡(luò)和本體的基礎(chǔ),實(shí)體關(guān)系抽取已被廣泛應(yīng)用于信息檢索、機(jī)器翻譯和自動(dòng)問(wèn)答系統(tǒng)中.實(shí)體關(guān)系抽取的核心問(wèn)題在于實(shí)體關(guān)系特征的選擇和提?。形拈L(zhǎng)句的句式較復(fù)雜,經(jīng)常包含多個(gè)實(shí)體的特點(diǎn)以及數(shù)據(jù)稀疏問(wèn)題,給中文關(guān)系探測(cè)和關(guān)系抽取任務(wù)帶了挑戰(zhàn).為了解決上述問(wèn)題,提出了一種基于句法語(yǔ)義特征的實(shí)體關(guān)系抽取方法.通過(guò)將2個(gè)實(shí)體各自的依存句法關(guān)系進(jìn)行組合,獲取依存句法關(guān)系組合特征,利用依存句法分析和詞性標(biāo)注選擇最近句法依賴(lài)動(dòng)詞特征.將這2個(gè)新特征加入到基于特征的關(guān)系探測(cè)和關(guān)系抽取中,使用支持向量機(jī)(support vector machine,SVM)方法,以真實(shí)旅游領(lǐng)域文本作為語(yǔ)料進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)表明,從句法和語(yǔ)義上提取的2個(gè)特征能夠有效地提高實(shí)體關(guān)系探測(cè)和關(guān)系抽取的性能,其準(zhǔn)確率、召回率和F1值均優(yōu)于已有方法.此外,最近句法依賴(lài)動(dòng)詞特征非常有效,尤其對(duì)數(shù)據(jù)稀疏的關(guān)系類(lèi)型貢獻(xiàn)最大,在關(guān)系探測(cè)和關(guān)系抽取上的性能均優(yōu)于當(dāng)前經(jīng)典的基于動(dòng)詞特征方法.
關(guān)系抽??;關(guān)系探測(cè);句法特征;語(yǔ)義特征;支持向量機(jī)
處在大數(shù)據(jù)時(shí)代的今天,數(shù)據(jù)呈現(xiàn)出規(guī)模巨大、模態(tài)多樣和高速增長(zhǎng)等特征,使得“信息過(guò)載”問(wèn)題日益嚴(yán)重,因此迫切需要快速、準(zhǔn)確地獲取用戶(hù)真正所需信息的技術(shù)手段——信息抽取技術(shù).實(shí)體關(guān)系抽取是信息抽取中的一個(gè)非常重要的子領(lǐng)域,其任務(wù)是從自然語(yǔ)言文本中提取出2個(gè)命名實(shí)體之間所存在的語(yǔ)義關(guān)系,例如,句子“鄧兆祥游覽廬山.”中的2個(gè)實(shí)體“鄧兆祥”和“廬山”之間存在著“游歷”關(guān)系.作為自然語(yǔ)言處理的基礎(chǔ),實(shí)體關(guān)系抽取為海量信息處理、中文信息檢索、知識(shí)庫(kù)自動(dòng)構(gòu)建、自動(dòng)問(wèn)答、機(jī)器翻譯和自動(dòng)文摘等眾多自然語(yǔ)言處理任務(wù)提供了重要的技術(shù)支持.
關(guān)系抽取的研究是以MUC評(píng)測(cè)會(huì)議和后來(lái)取代MUC的ACE評(píng)測(cè)會(huì)議為主線進(jìn)行的,大量先進(jìn)的信息抽取方法被提出來(lái),有力地促進(jìn)了關(guān)系抽取研究的完善發(fā)展.實(shí)體關(guān)系抽取所遵循的技術(shù)方法基本可以歸納為:基于模式匹配的方法、基于詞典驅(qū)動(dòng)的方法、基于本體的方法、基于機(jī)器學(xué)習(xí)的方法以及混合抽取方法[1].近幾年的研究趨勢(shì)表明,基于機(jī)器學(xué)習(xí)的方法逐漸成為關(guān)系抽取研究的主流思路.關(guān)系抽取通常采用有監(jiān)督的機(jī)器學(xué)習(xí)方法,它可以根據(jù)關(guān)系實(shí)例的表示方式不同分為2類(lèi):基于特征向量的方法和基于核函數(shù)的方法.目前,基于特征向量的關(guān)系抽取取得了較好的成效.由于特征的選擇對(duì)關(guān)系抽取的性能影響很大,因此基于特征向量的實(shí)體關(guān)系抽取的研究重點(diǎn)不在機(jī)器學(xué)習(xí)方法本身,而在于如何準(zhǔn)確地獲取各種詞法、句法和語(yǔ)義等語(yǔ)言學(xué)特征,并把它們有效地集成起來(lái),從而產(chǎn)生描述實(shí)體間語(yǔ)義關(guān)系的各種特征[2-10].
本文對(duì)旅游領(lǐng)域的景點(diǎn)人文信息進(jìn)行實(shí)體關(guān)系抽?。糜晤I(lǐng)域的景點(diǎn)人文信息通常是綜合概括了名人或組織在某景點(diǎn)發(fā)生的事情.
例1.“1937年6月4日,周恩來(lái)第一次登上廬山,入住仙巖旅館,同蔣介石進(jìn)行國(guó)共第二次合作談判.”
該句比較長(zhǎng),由4個(gè)短句構(gòu)成,共包含5個(gè)實(shí)體;若只關(guān)注景點(diǎn)與人物?組織、景點(diǎn)與活動(dòng)之間發(fā)生的顯性關(guān)系,按照實(shí)體出現(xiàn)的順序,可組成8個(gè)實(shí)體對(duì),其中有4個(gè)實(shí)體對(duì)屬于“無(wú)關(guān)系”類(lèi)型,即實(shí)體對(duì)中的2個(gè)實(shí)體之間不存在關(guān)系.具體信息如表1所示:

Table 1 Information of Entities and Entity Relationships in Exp.1表1 例1中實(shí)體和實(shí)體關(guān)系信息
從例1可以看出,旅游領(lǐng)域的景點(diǎn)人文信息中的句子通常比較長(zhǎng),一個(gè)句子中經(jīng)常包含多個(gè)實(shí)體信息,由此構(gòu)成的實(shí)體對(duì)的數(shù)量也較多,且實(shí)體類(lèi)型的數(shù)量分布不均勻.因此,旅游領(lǐng)域的景點(diǎn)人文信息的數(shù)據(jù)特點(diǎn)給實(shí)體關(guān)系探測(cè)和關(guān)系抽取任務(wù)帶來(lái)了挑戰(zhàn).
1)相對(duì)于簡(jiǎn)單句子的實(shí)體關(guān)系探測(cè)和關(guān)系抽取,長(zhǎng)句的句式較復(fù)雜,使得實(shí)體關(guān)系探測(cè)和關(guān)系抽取的任務(wù)更加艱難.
2)長(zhǎng)句中經(jīng)常包含多個(gè)實(shí)體信息,而且跨長(zhǎng)距離的實(shí)體對(duì)所在的句子中通常存在多個(gè)動(dòng)詞,因此,如何選擇能夠有效地表征實(shí)體對(duì)之間有無(wú)語(yǔ)義關(guān)系以及具體關(guān)系類(lèi)型的動(dòng)詞成為關(guān)系探測(cè)和關(guān)系抽取的關(guān)鍵.
3)目前關(guān)系抽取的最大挑戰(zhàn)在于訓(xùn)練數(shù)據(jù)不足,關(guān)系實(shí)例在各個(gè)類(lèi)別上的分布極不均勻,主要集中在幾個(gè)類(lèi)上,如“游歷”關(guān)系、“考察訪問(wèn)”關(guān)系和“無(wú)關(guān)系”;有些類(lèi)別的實(shí)例數(shù)目較少,如“建立”關(guān)系和“離開(kāi)”關(guān)系.這正是目前關(guān)系抽取領(lǐng)域所面臨的數(shù)據(jù)稀疏問(wèn)題,嚴(yán)重影響了關(guān)系抽取的性能,給關(guān)系抽取帶來(lái)了很大的難度.
由于句法結(jié)構(gòu)在關(guān)系識(shí)別中起到非常重要的作用.依存語(yǔ)法通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中核心動(dòng)詞是支配其他成分的中心成分,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者.依存句法分析可以反映出句子各成分之間的語(yǔ)義修飾關(guān)系,它可以獲得長(zhǎng)距離的搭配信息,并與句子成分的物理位置無(wú)關(guān).句子中的實(shí)體必定會(huì)作為一個(gè)短語(yǔ)結(jié)構(gòu)出現(xiàn)在依存結(jié)構(gòu)中,將實(shí)體對(duì)應(yīng)的依存句法關(guān)系進(jìn)行組合能在一定程度上反映出相應(yīng)實(shí)體之間的關(guān)系特征.
文獻(xiàn)[5,7]指出特征子空間中的基本特征以及基本特征的組合能夠有效地提升關(guān)系抽取性能.同時(shí),已有研究表明,依存句法關(guān)系能有效地提高實(shí)體關(guān)系抽取的性能[3,6].因此,本文按照2個(gè)實(shí)體出現(xiàn)的先后順序,將2個(gè)實(shí)體各自的依存句法關(guān)系進(jìn)行組合,得到了依存句法關(guān)系組合特征.
本文提出依存句法關(guān)系組合特征的原因在于:依存句法關(guān)系組合特征具有有序性,即按照2個(gè)實(shí)體出現(xiàn)的先后順序?qū)Ω髯詫?duì)應(yīng)的依存句法關(guān)系進(jìn)行組合,比單獨(dú)使用依存句法關(guān)系特征能更好地表示實(shí)體對(duì)在句中對(duì)應(yīng)的句法結(jié)構(gòu).例如,“張學(xué)良將軍離開(kāi)廬山回武漢.”,該句中存在的實(shí)體對(duì)為〈張學(xué)良,廬山〉,這2個(gè)實(shí)體的依存句法關(guān)系分別為主謂結(jié)構(gòu)(SBV)與動(dòng)賓結(jié)構(gòu)(VOB),表明2個(gè)實(shí)體在句中分別充當(dāng)SBV中的主語(yǔ)和VOB中的賓語(yǔ).如果單獨(dú)使用實(shí)體的依存句法關(guān)系特征,在關(guān)系分類(lèi)判別過(guò)程中,雖然同時(shí)采用這2個(gè)實(shí)體的依存句法關(guān)系特征值SBV和VOB,但是由于分類(lèi)過(guò)程中特征是無(wú)序的,因此可能出現(xiàn)的組合情況為SBV-VOB或VOB-SBV,而這2種依存句法關(guān)系的組合是有區(qū)別的.
從句法結(jié)構(gòu)來(lái)看,例句中的實(shí)體對(duì)〈張學(xué)良,廬山〉表示主謂動(dòng)賓結(jié)構(gòu),用SBV-VOB表示更恰當(dāng),它反映出實(shí)體對(duì)〈張學(xué)良,廬山〉之間可能存在著語(yǔ)義關(guān)系.而在句子“857年(唐大中十一年),距李邕寫(xiě)《復(fù)東林寺碑》126年后,廬山東林寺再次大修,又請(qǐng)人寫(xiě)碑記之.”中,實(shí)體對(duì)〈復(fù)東林寺碑,廬山東林寺〉之間不存在著任何關(guān)系,該實(shí)體對(duì)的依存句法關(guān)系組合為VOB-SBV.第1個(gè)實(shí)體“復(fù)東林寺碑”在子句中充當(dāng)賓語(yǔ)成分;第2個(gè)實(shí)體“廬山東林寺”在子句中充當(dāng)主語(yǔ)成分.而這2個(gè)實(shí)體分別在其子句中構(gòu)成了完整的語(yǔ)義.
由于不同實(shí)體關(guān)系類(lèi)型的依存句法關(guān)系組合特征的分布存在差異性,該特征具有一定的區(qū)分度,可以較好地反映出相應(yīng)實(shí)體之間的關(guān)系類(lèi)型特征.實(shí)驗(yàn)結(jié)果也驗(yàn)證了它在關(guān)系探測(cè)和關(guān)系抽取中的有效性.
由于動(dòng)詞能夠很好地識(shí)別實(shí)體對(duì)之間的關(guān)系類(lèi)型[6,8],很多實(shí)體關(guān)系通??梢酝ㄟ^(guò)動(dòng)詞來(lái)引發(fā),類(lèi)似于事件抽取中的事件經(jīng)常由觸發(fā)詞而觸發(fā)[11-13]的現(xiàn)象.動(dòng)詞特征的提取在整個(gè)特征提取過(guò)程中占有非常重要的位置,直接影響了關(guān)系抽取性能的好壞.由于跨長(zhǎng)距離的實(shí)體對(duì)所在句子中通常會(huì)包含多個(gè)動(dòng)詞,因此,為了解決從多個(gè)動(dòng)詞中選擇有效地表征實(shí)體對(duì)關(guān)系類(lèi)型的動(dòng)詞選擇問(wèn)題,本文提出了最近句法依賴(lài)動(dòng)詞特征.
文獻(xiàn)[8]中提出的依賴(lài)動(dòng)詞特征存在著2個(gè)問(wèn)題:
1)選擇距離位置較后實(shí)體最近的動(dòng)詞作為依賴(lài)動(dòng)詞特征,并非都能提取到真正表征該實(shí)體對(duì)關(guān)系類(lèi)型的動(dòng)詞,因此會(huì)影響實(shí)體關(guān)系類(lèi)型的判別.例如,“毛岸青一行參觀了廬山風(fēng)景點(diǎn),并參觀了毛澤東在廬山居住過(guò)的美廬別墅、175號(hào)別墅以及蘆林一號(hào)別墅和廬山會(huì)議會(huì)址.”,該句中共存在著2個(gè)動(dòng)詞“參觀”和“居住”.對(duì)于實(shí)體對(duì)〈毛岸青一行,廬山會(huì)議會(huì)址〉,文獻(xiàn)[8]抽取出的依賴(lài)動(dòng)詞特征為“居住”,因此很可能將該實(shí)體對(duì)歸為“居住”關(guān)系類(lèi)型.事實(shí)上,該實(shí)體對(duì)之間存在的關(guān)系類(lèi)型為“游歷”關(guān)系,而真正表征該關(guān)系類(lèi)型的動(dòng)詞為“參觀”.
2)依賴(lài)動(dòng)詞特征并非都能有效地幫助實(shí)體之間有無(wú)關(guān)系的探測(cè)以及關(guān)系類(lèi)型的區(qū)分,有時(shí)甚至?xí)?lái)噪音,特別是在關(guān)系探測(cè)上該問(wèn)題尤為突出.這是因?yàn)?,?duì)于關(guān)系探測(cè)中“無(wú)關(guān)系”類(lèi)型的實(shí)體對(duì),大多數(shù)情況下并不存在使實(shí)體對(duì)發(fā)生關(guān)系的依賴(lài)動(dòng)詞.因此,文獻(xiàn)[8]提取的依賴(lài)動(dòng)詞特征給關(guān)系探測(cè)帶來(lái)了大量噪音信息,不利于實(shí)體之間有無(wú)關(guān)系的區(qū)分,從而會(huì)影響關(guān)系探測(cè)的性能.例如,“蔣介石在廬山指揮東北戰(zhàn)事.”,使用文獻(xiàn)[8]的抽取方法,該句中的實(shí)體對(duì)〈廬山,東北戰(zhàn)事〉的依賴(lài)動(dòng)詞為“指揮”,因此很可能會(huì)誤判為“參與”關(guān)系;實(shí)際上該實(shí)體對(duì)之間不存在任何關(guān)系,即為“無(wú)關(guān)系”類(lèi)型.
因此,為了解決上述問(wèn)題,本文提出了語(yǔ)義特征——最近句法依賴(lài)動(dòng)詞特征(由于是通過(guò)依存句法分析來(lái)提取的,故稱(chēng)為最近句法依賴(lài)動(dòng)詞特征).通過(guò)對(duì)數(shù)據(jù)集的分析,我們發(fā)現(xiàn)以下事實(shí).
1)數(shù)據(jù)集中的句子基本上為陳述句和主動(dòng)句.在陳述句中,不管句子怎么變,動(dòng)詞總是在第二位,第一位可以是主語(yǔ)或賓語(yǔ).在主動(dòng)句中,主語(yǔ)是謂語(yǔ)所表示的動(dòng)作行為的發(fā)出者.根據(jù)陳述句和主動(dòng)句的特點(diǎn)可知:如果2個(gè)實(shí)體之間存在語(yǔ)義關(guān)系,那么句中經(jīng)常會(huì)存在這樣的一個(gè)動(dòng)詞,通過(guò)該動(dòng)詞能夠直接或間接地將這2個(gè)實(shí)體連接起來(lái),并且第1個(gè)實(shí)體是該動(dòng)詞所表示的動(dòng)作行為的發(fā)出者.
2)如果2個(gè)實(shí)體之間不存在任何語(yǔ)義關(guān)系,則存在2種情況:①2個(gè)實(shí)體之間不存在動(dòng)詞使得它們發(fā)生語(yǔ)義關(guān)系;②每個(gè)實(shí)體均與不同的動(dòng)詞發(fā)生聯(lián)系,而不同動(dòng)詞之間又不存在語(yǔ)義關(guān)聯(lián),即這2個(gè)實(shí)體無(wú)法通過(guò)一個(gè)相同的動(dòng)詞進(jìn)行語(yǔ)義連接.
因此,為了減少大量噪音的引入,動(dòng)詞特征應(yīng)該僅選擇那些區(qū)分性較強(qiáng)的動(dòng)詞,以便有效地區(qū)分實(shí)體之間有無(wú)語(yǔ)義關(guān)系.
針對(duì)上述分析,本文的目標(biāo)是通過(guò)依存句法分析和詞性來(lái)提取一個(gè)句子中實(shí)體對(duì)〈ei,ej〉的最近句法依賴(lài)動(dòng)詞特征.1)根據(jù)依存句法分析,分別提取實(shí)體ei和ej的依存關(guān)聯(lián)節(jié)點(diǎn)e′i和e′j;2)選擇與第2個(gè)實(shí)體ej的依存關(guān)聯(lián)節(jié)點(diǎn)e′j發(fā)生直接依存關(guān)系的動(dòng)詞Vj;3)獲取與第1個(gè)實(shí)體ei的依存關(guān)聯(lián)節(jié)點(diǎn)e′i直接發(fā)生SBV或FOB(前置賓語(yǔ))關(guān)系的動(dòng)詞Vi;4)根據(jù)動(dòng)詞Vi與Vj的依存關(guān)系,確定實(shí)體對(duì)的最近句法依賴(lài)動(dòng)詞DV,如果Vi與Vj為同一個(gè)詞或存在著并列關(guān)系,則確定Vj為最近句法依賴(lài)動(dòng)詞DV,否則將最近句法依賴(lài)動(dòng)詞DV置為空值Null.
本文提出的最近句法依賴(lài)動(dòng)詞特征能夠有效地區(qū)分實(shí)體之間有無(wú)語(yǔ)義關(guān)系,特別是Null動(dòng)詞,具有較強(qiáng)的區(qū)分性,大大地減少了文獻(xiàn)[8]依賴(lài)動(dòng)詞特征所帶來(lái)的噪音,有利于提高關(guān)系探測(cè)性能.此外,由于最近句法依賴(lài)動(dòng)詞特征經(jīng)常能觸發(fā)實(shí)體之間的關(guān)系,能夠較好地表征實(shí)體關(guān)系類(lèi)型,因此有利于關(guān)系類(lèi)型的識(shí)別;同時(shí)還能解決由于數(shù)據(jù)不平衡引起關(guān)系抽取性能低下的問(wèn)題.實(shí)驗(yàn)結(jié)果表明,加入最近句法依賴(lài)動(dòng)詞特征能夠顯著地提升關(guān)系探測(cè)和關(guān)系抽取的性能,準(zhǔn)確率、召回率和F1值均得到了大幅提升.
1.1 SVM概述
目前,基于特征向量的關(guān)系抽取方法多采用最大熵模型[3]和支持向量機(jī)(support vector machine,SVM)[4-6].研究顯示,SVM在性能上優(yōu)于最大熵模型[5].SVM分類(lèi)效果通常都會(huì)優(yōu)于傳統(tǒng)的算法,曾被稱(chēng)為“現(xiàn)成”的分類(lèi)器,并被評(píng)為機(jī)器學(xué)習(xí)領(lǐng)域10大經(jīng)典算法之一[14].SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論驅(qū)動(dòng)的有指導(dǎo)的機(jī)器學(xué)習(xí)方法,可用于分類(lèi)和回歸問(wèn)題.基于統(tǒng)計(jì)學(xué)習(xí)理論中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,SVM通過(guò)尋找一個(gè)最佳分類(lèi)超平面將訓(xùn)練數(shù)據(jù)分成2類(lèi),并從訓(xùn)練集中挑出有效的實(shí)例作為支持矢量(即決策的依據(jù)).由于最基本的SVM是一個(gè)二元分類(lèi)器,且分類(lèi)過(guò)程較慢,因此,根據(jù)不同的研究與應(yīng)用方向,又出現(xiàn)了許多基于SVM的優(yōu)化算法,如SMO,C-SVM,V-SVM等方法[15-17],使SVM學(xué)習(xí)的過(guò)程更迅速,效果也得到明顯提升.本文采用臺(tái)灣大學(xué)林智仁等人開(kāi)發(fā)的LIBSVM[16]作為SVM工具包進(jìn)行實(shí)體關(guān)系抽取.
1.2 基于特征向量的實(shí)體關(guān)系抽取
基于特征向量的實(shí)體關(guān)系抽取方法的核心在于如何獲取有效的特征表示.特征選取主要是從自由文本及其句法結(jié)構(gòu)中抽取出各種表面特征以及結(jié)構(gòu)化特征.
文獻(xiàn)[3]綜合考慮了實(shí)體單詞、實(shí)體類(lèi)型、實(shí)體引用方式、重疊、依存樹(shù)和解析樹(shù)等特征,實(shí)現(xiàn)了最大熵模型的關(guān)系分類(lèi)器,該研究表明多個(gè)層次的語(yǔ)言學(xué)特征能夠提升關(guān)系抽取的效果.
文獻(xiàn)[4]則系統(tǒng)地研究了如何把包括基本詞組塊在內(nèi)的各種特征廣泛組合起來(lái),探討了各種語(yǔ)言特征對(duì)關(guān)系抽取性能的貢獻(xiàn);深入研究了WordNet和Name List等語(yǔ)義信息對(duì)關(guān)系抽取的影響;實(shí)驗(yàn)結(jié)果表明,基本詞組塊能有效提升關(guān)系抽取性能.
文獻(xiàn)[6]在傳統(tǒng)方法的基礎(chǔ)上提出一種基于句法特征、語(yǔ)義特征的實(shí)體關(guān)系抽取方法,融入了依存句法關(guān)系、核心謂詞、語(yǔ)義角色標(biāo)注等特征,實(shí)驗(yàn)結(jié)果表明該方法的F1值有明顯提升.
特征子空間中的基本特征以及基本特征的組合能夠有效地提升關(guān)系抽取性能[5,7].文獻(xiàn)[7]系統(tǒng)研究了關(guān)系抽取中的特征空間,通過(guò)合一的特征空間表達(dá)形式來(lái)研究不同特征對(duì)關(guān)系抽取性能的影響;特征空間按照序列、句法和依存關(guān)系劃分為不同的子空間;實(shí)驗(yàn)表明特征子空間中的基本特征能有效提升關(guān)系抽取性能,而復(fù)雜特征帶來(lái)的性能提升有限.文獻(xiàn)[5]并不是通過(guò)發(fā)掘新特征來(lái)提高語(yǔ)義關(guān)系抽取的性能,而是通過(guò)在各種詞法、語(yǔ)法、語(yǔ)義的基本特征內(nèi)部及特征之間進(jìn)行有效的組合,從而產(chǎn)生出很多組合特征;實(shí)驗(yàn)證明,這些組合特征對(duì)提高語(yǔ)義關(guān)系抽取性能做出了很大貢獻(xiàn).
動(dòng)詞特征對(duì)于實(shí)體關(guān)系抽取的貢獻(xiàn)較大,能夠有效地提高關(guān)系抽取的準(zhǔn)確率和召回率.文獻(xiàn)[8]將實(shí)體關(guān)系劃為包含實(shí)體關(guān)系與非包含實(shí)體關(guān)系,針對(duì)這2種關(guān)系的差異,提出新的句法特征,構(gòu)建不同的特征空間;在非包含關(guān)系中使用了祖先成分、2個(gè)實(shí)體之間的路徑、依賴(lài)動(dòng)詞以及實(shí)體到依賴(lài)動(dòng)詞的路徑等特征;實(shí)驗(yàn)表明,依賴(lài)動(dòng)詞較大程度地提高了實(shí)體關(guān)系抽取的性能.
文獻(xiàn)[18]提出了一種基于位置語(yǔ)義特征的實(shí)體關(guān)系抽取方法,利用位置特征的可計(jì)算性和可操作性,以及語(yǔ)義特征的可理解性和可實(shí)現(xiàn)性,整合了詞語(yǔ)位置的信息增益與基于HowNet的語(yǔ)義計(jì)算結(jié)果;實(shí)驗(yàn)結(jié)果表明,結(jié)合位置和語(yǔ)義特征的關(guān)系抽取方法優(yōu)于單獨(dú)使用位置或語(yǔ)義特征的方法.
文獻(xiàn)[19]提出了Omni-word特征和軟約束方法實(shí)現(xiàn)中文關(guān)系抽取,Omni-word使用了句中各種潛在詞作為詞法特征,軟約束方法能夠獲取局部依賴(lài),這2種方法能夠更好地利用句子信息,降低了中文分詞和句法分析錯(cuò)誤帶來(lái)的影響;實(shí)驗(yàn)結(jié)果表明,該方法能有效地提高中文關(guān)系抽取的性能.
文獻(xiàn)[20]基于概念模型獲得了有效的空間特征,該特征不僅能獲取句子本身內(nèi)在的信息,而且能提取句子之間的語(yǔ)義信息關(guān)聯(lián);實(shí)驗(yàn)結(jié)果表明,該特征能有效地提升關(guān)系抽取的正確率和召回率.
本文在傳統(tǒng)的詞法和實(shí)體特征基礎(chǔ)上,通過(guò)增加句法特征和語(yǔ)義特征——依存句法關(guān)系組合特征和最近句法依賴(lài)動(dòng)詞特征,以獲取實(shí)體對(duì)之間更豐富的關(guān)系特征,提高中文實(shí)體關(guān)系探測(cè)和關(guān)系抽取的性能.
主要介紹提出的句法特征和語(yǔ)義特征——依存句法關(guān)系組合特征和最近句法依賴(lài)動(dòng)詞特征.
2.1 依存句法關(guān)系組合特征
依存句法通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示句子中各成分之間的語(yǔ)義修飾關(guān)系,即指出句中詞語(yǔ)之間在句法上的搭配關(guān)系,分析出一個(gè)句子的主、謂、賓、定、狀、補(bǔ)結(jié)構(gòu).在Robinson提出的依存句法關(guān)系公理中指出:任何一個(gè)成分都不能依存于2個(gè)或2個(gè)以上的成分.因此,句子中的每一個(gè)實(shí)體必定會(huì)作為一個(gè)語(yǔ)義成分出現(xiàn)在依存結(jié)構(gòu)中.本文對(duì)2個(gè)實(shí)體的依存句法關(guān)系進(jìn)行組合,提出了依存句法關(guān)系組合特征.
例2.“鄧兆祥游覽廬山.”的依存句法分析如圖1所示.其中,Root表示根節(jié)點(diǎn),HED表示指向整個(gè)句子的核心,WP表示指向標(biāo)點(diǎn)符號(hào);PO和TA分別表示旅游領(lǐng)域中的人物/組織實(shí)體和景點(diǎn)實(shí)體;v和wp分別表示詞性標(biāo)注中的動(dòng)詞和標(biāo)點(diǎn)符號(hào).

Fig.1 Dependency parsing and POS tagging for entity relationships.圖1 實(shí)體關(guān)系的依存句法分析和詞性標(biāo)注示例
圖1中,實(shí)體對(duì)〈鄧兆祥,廬山〉存在著“游歷”關(guān)系,而該實(shí)體對(duì)具有SBV-VOB的依存句法關(guān)系組合.
由于旅游領(lǐng)域的景點(diǎn)人文信息是綜合概括了名人或組織在某景點(diǎn)發(fā)生的事情,因此常將多個(gè)句子組合成一個(gè)長(zhǎng)句,并沒(méi)有按照語(yǔ)義或句式進(jìn)行嚴(yán)格的斷句.如例3所示.
例3.“張季鸞抵達(dá)廬山,蔣介石于6月19日在‘美廬’會(huì)見(jiàn)了張季鸞.”的句法分析結(jié)果如圖2所示.其中,COO,ADV,POB和RAD分別表示的依存句法關(guān)系如表2所示;p,nt和u分別表示詞性標(biāo)注中的介詞、時(shí)間名詞和助詞.
從圖2可以看出,實(shí)體對(duì)〈廬山,蔣介石〉之間不存在任何關(guān)系,該實(shí)體對(duì)的依存句法關(guān)系組合為VOB-SBV.從圖2的句法分析還可看出,第1個(gè)實(shí)體“廬山”所在句子的前半部分已經(jīng)構(gòu)成了一個(gè)語(yǔ)義完整的句式,“廬山”在該部分中充當(dāng)賓語(yǔ)成分;而第2個(gè)實(shí)體“蔣介石”所在的后半個(gè)句子也已經(jīng)構(gòu)成了一個(gè)語(yǔ)義完整的句式,“蔣介石”在該部分充當(dāng)主語(yǔ)成分.事實(shí)上,該句可以拆成2個(gè)語(yǔ)義完整的獨(dú)立的句子.

Fig.2 Dependency parsing and POS tagging for none entity relationships.圖2 無(wú)關(guān)系的依存句法分析和詞性標(biāo)注示例
本文利用哈爾濱工業(yè)大學(xué)LTP-Cloud平臺(tái)①對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行依存句法分析,共得到10類(lèi)實(shí)體依存句法關(guān)系,具體如表2所示:

Table 2 Tag Set of Dependency Relations表2 依存句法關(guān)系標(biāo)注集
本文按照實(shí)體在句中出現(xiàn)的先后順序來(lái)構(gòu)建實(shí)體對(duì),若實(shí)體ei在句中出現(xiàn)在實(shí)體ej之前,則可構(gòu)建一個(gè)實(shí)體對(duì)〈ei,ej〉;設(shè)實(shí)體ei和ej的依存句法關(guān)系分別為ei.dp和ej.dp,則實(shí)體對(duì)〈ei,ej〉的依存句法關(guān)系組合為ei.dp-ej.dp.考慮實(shí)體的順序,目的是為了使依存句法關(guān)系組合具有更好的可解釋性.
例如,圖1中的“鄧兆祥游覽廬山.”,實(shí)體“鄧兆祥”的依存關(guān)系為SBV,“廬山”的依存關(guān)系為VOB,按照實(shí)體出現(xiàn)的先后順序構(gòu)成的實(shí)體對(duì)〈鄧兆祥,廬山〉的依存句法關(guān)系組合為SBV-VOB,即第1個(gè)實(shí)體“鄧兆祥”在句中做主語(yǔ),第2個(gè)實(shí)體“廬山”做賓語(yǔ).從圖1分析結(jié)果可以看出,句子的核心謂詞為“游覽”,主語(yǔ)“鄧兆祥”和賓語(yǔ)“廬山”均與動(dòng)詞“游覽”有聯(lián)系.因此,實(shí)體對(duì)〈鄧兆祥,廬山〉之間存在“游歷”關(guān)系.
以廬山數(shù)據(jù)集為例,通過(guò)對(duì)2個(gè)實(shí)體的依存句法關(guān)系進(jìn)行組合,共得到依存句法關(guān)系組合(簡(jiǎn)稱(chēng)為組合類(lèi)型)為64種.在廬山數(shù)據(jù)集上各種依存句法關(guān)系組合的Top-15實(shí)體對(duì)占比分布如圖3所示.其中,橫坐標(biāo)為依存句法關(guān)系組合類(lèi)型,縱坐標(biāo)為占比.

Fig.3 Top-15proportion distribution of entity pairs on Mount Lushan corpus.圖3 廬山數(shù)據(jù)集上依存句法關(guān)系組合的Top-15實(shí)體對(duì)占比分布
從圖3可以看出,各種依存句法關(guān)系組合的實(shí)體對(duì)占比與文獻(xiàn)[21]指出的“在關(guān)系抽取時(shí),對(duì)實(shí)體關(guān)系有表征作用的句法結(jié)構(gòu)主要有主謂賓關(guān)系、介詞賓語(yǔ)、并列成分和修飾關(guān)系”的觀點(diǎn)相吻合.
由于廬山數(shù)據(jù)集的句式基本上為陳述句和主動(dòng)句,因此具有SBV-VOB組合的實(shí)體對(duì)的數(shù)量最多,在“考察訪問(wèn)”、“游歷”、“參與”、“居住”等大多數(shù)實(shí)體關(guān)系類(lèi)型中占主要部分.又由于具有SBV-VOB組合的實(shí)體對(duì)的數(shù)量最多,因此SBV-VOB組合不具有特別強(qiáng)的區(qū)分性.
然而,對(duì)于一些實(shí)體關(guān)系類(lèi)型,其實(shí)體對(duì)的依存句法關(guān)系組合有比較明顯的差異.例如,在廬山數(shù)據(jù)集上的“位于”關(guān)系中,SBV-POB組合占首位;在“發(fā)生”關(guān)系中,F(xiàn)OB-POB組合的實(shí)體對(duì)數(shù)量最多;特別是VOB-VOB,POB-VOB和VOB-SBV組合特征絕大部分只出現(xiàn)在“無(wú)關(guān)系”類(lèi)型中.以圖3中的部分依存句法關(guān)系組合為例,說(shuō)明一些依存句法關(guān)系組合在不同實(shí)體關(guān)系類(lèi)型中的分布也不同,如表3所示:

Table3 Distribution of Partial Composition Types in Most Frequent Entity Relationships on Mount Lushan Corpus表3 廬山數(shù)據(jù)集上最頻繁實(shí)體關(guān)系中部分組合類(lèi)型的分布
在表3中,DRC表示實(shí)體對(duì)的依存句法關(guān)系組合(簡(jiǎn)稱(chēng)為組合類(lèi)型);ENO1表示在數(shù)據(jù)集中屬于該組合類(lèi)型的實(shí)體對(duì)數(shù)量;E-R表示該組合類(lèi)型的實(shí)體對(duì)中出現(xiàn)最多的實(shí)體關(guān)系類(lèi)型(簡(jiǎn)稱(chēng)為最頻繁實(shí)體關(guān)系類(lèi)型);ENO2表示該組合類(lèi)型的實(shí)體對(duì)中屬于最頻繁實(shí)體關(guān)系類(lèi)型的實(shí)體對(duì)數(shù)量;ENO3表示數(shù)據(jù)集中包含的屬于最頻繁實(shí)體關(guān)系類(lèi)型的實(shí)體對(duì)總數(shù)量;C1=ENO2?ENO1×100%,表示在該組合類(lèi)型的實(shí)體對(duì)中屬于最頻繁實(shí)體關(guān)系類(lèi)型的實(shí)體對(duì)的占比;C2=ENO2?ENO3×100%,表示在所有最頻繁實(shí)體關(guān)系類(lèi)型的實(shí)體對(duì)中屬于該組合類(lèi)型的實(shí)體對(duì)的占比.從表3可以看出:
1)在廬山數(shù)據(jù)集上,F(xiàn)OB-POB的實(shí)體對(duì)絕大多數(shù)出現(xiàn)在“發(fā)生”關(guān)系中,占該關(guān)系實(shí)體對(duì)總數(shù)的80.5%.在“發(fā)生”關(guān)系的實(shí)體對(duì)中屬于FOB-POB實(shí)體對(duì)占比達(dá)39.3%,位居第一,其原因在于“發(fā)生”關(guān)系表示某個(gè)活動(dòng)在某個(gè)景點(diǎn)發(fā)生.如“中華世紀(jì)柏取土儀式在廬山舉行.”中的實(shí)體對(duì)〈中華世紀(jì)柏取土儀式,廬山〉屬于“發(fā)生”關(guān)系.
2)同理,SBV-POB在“位于”關(guān)系中出現(xiàn)最多,且該依存句法關(guān)系組合的實(shí)體對(duì)數(shù)量占“位于”關(guān)系的榜首.SBV-POB 為主謂介賓組合,很好地反應(yīng)了某人?組織在某個(gè)景點(diǎn)的“位于”關(guān)系.
3)而VOB-SBV和VOB-VOB在“無(wú)關(guān)系”類(lèi)型中出現(xiàn)最多,因?yàn)椤盁o(wú)關(guān)系”類(lèi)型反映的是2個(gè)實(shí)體之間不存在任何語(yǔ)義關(guān)系.由于這2個(gè)依存句法關(guān)系組合不屬于常用的句法結(jié)構(gòu),2個(gè)實(shí)體之間一般較少發(fā)生關(guān)系.一方面,VOB-SBV和VOB-VOB的實(shí)體對(duì)均在“無(wú)關(guān)系”類(lèi)型中所占比例不高,其原因在于“無(wú)關(guān)系”類(lèi)型的句法結(jié)構(gòu)比較雜亂,屬于“無(wú)關(guān)系”類(lèi)型的實(shí)體對(duì)的依存句法關(guān)系組合特征的取值數(shù)高達(dá)52.另一方面,從C1值可以看出,VOBSBV和VOB-VOB組合對(duì)“無(wú)關(guān)系”類(lèi)型還是具有一定的區(qū)分度.
總體來(lái)看,2個(gè)實(shí)體的依存句法關(guān)系組合特征在不同實(shí)體關(guān)系類(lèi)型中的分布上具有差異性,對(duì)實(shí)體關(guān)系探測(cè)和關(guān)系抽取具有一定的區(qū)分度.基于上述分析,本文考慮將實(shí)體對(duì)的依存句法關(guān)系組合作為實(shí)體關(guān)系中的句法特征進(jìn)行考量.
2.2 最近句法依賴(lài)動(dòng)詞特征
本文的目標(biāo)是通過(guò)依存句法分析和詞性來(lái)提取一個(gè)句子中2個(gè)實(shí)體的最近句法依賴(lài)動(dòng)詞特征.根據(jù)前面對(duì)陳述句和主動(dòng)句的特點(diǎn)分析可知,通過(guò)最近句法依賴(lài)動(dòng)詞可以使2個(gè)實(shí)體之間直接或間接地發(fā)生語(yǔ)義關(guān)聯(lián),且作為主語(yǔ)或前置賓語(yǔ)的第1個(gè)實(shí)體為該動(dòng)詞所表示動(dòng)作行為的發(fā)出者.存在直接語(yǔ)義關(guān)聯(lián)和存在間接語(yǔ)義關(guān)聯(lián)的2個(gè)實(shí)體之間,它們的依存路徑有所不同,具體分析如下.
1)直接語(yǔ)義關(guān)聯(lián)實(shí)體間的最近句法依賴(lài)動(dòng)詞
如果實(shí)體對(duì)〈ei,ej〉中的2個(gè)實(shí)體能夠通過(guò)一個(gè)最近句法依賴(lài)動(dòng)詞直接發(fā)生語(yǔ)義關(guān)聯(lián),則它們之間存在著一條滿(mǎn)足如圖4所示的依存句法路徑.其中,節(jié)點(diǎn)表示實(shí)體或動(dòng)詞,有向邊表示從動(dòng)詞節(jié)點(diǎn)指向?qū)嶓w節(jié)點(diǎn),邊上的內(nèi)容表示實(shí)體節(jié)點(diǎn)與動(dòng)詞節(jié)點(diǎn)之間的依存關(guān)系.

Fig.4 Dependency paths of an entity pair with direct semantic association.圖4 實(shí)體對(duì)直接語(yǔ)義關(guān)聯(lián)的依存句法路徑
提取使2個(gè)實(shí)體發(fā)生直接語(yǔ)義關(guān)聯(lián)的最近句法依賴(lài)動(dòng)詞的步驟為:①找出與第2個(gè)實(shí)體ej直接發(fā)生依存關(guān)系的動(dòng)詞Vj;②找出與第1個(gè)實(shí)體ei直接發(fā)生SBV或FOB依存關(guān)系的動(dòng)詞Vi;③判斷Vj與Vi是否為同一動(dòng)詞,若相同則實(shí)體對(duì)〈ei,ej〉的最近句法依賴(lài)動(dòng)詞DV為Vj,否則置為空值Null.
例4.“蔣介石興致勃勃離開(kāi)廬山.”的依存句法分析和詞性標(biāo)注如圖5所示.其中,i表示詞性標(biāo)注中的成語(yǔ)或習(xí)語(yǔ).
對(duì)于圖5中的實(shí)體對(duì)〈蔣介石,廬山〉,第2個(gè)實(shí)體“廬山”是動(dòng)詞“離開(kāi)”的賓語(yǔ),第1個(gè)實(shí)體“蔣介石”是動(dòng)詞“離開(kāi)”的主語(yǔ),即SBV關(guān)系.因此,實(shí)體對(duì)〈蔣介石,廬山〉的最近句法依賴(lài)動(dòng)詞為“離開(kāi)”.該動(dòng)詞很好地表征了實(shí)體對(duì)〈蔣介石,廬山〉之間的“離開(kāi)”關(guān)系.

Fig.5 Dependency parsing and POS tagging of Exp.4.圖5 例4的依存句法分析和詞性標(biāo)注
2)間接語(yǔ)義關(guān)聯(lián)實(shí)體間的最近句法依賴(lài)動(dòng)詞
如果實(shí)體對(duì)〈ei,ej〉中的2個(gè)實(shí)體能夠通過(guò)一個(gè)最近句法依賴(lài)動(dòng)詞間接發(fā)生語(yǔ)義關(guān)聯(lián),則它們之間存在著一條如圖6所示的依存句法路徑,其中節(jié)點(diǎn)表示動(dòng)詞、實(shí)體或非實(shí)體類(lèi)型的名詞.圖6中的依存句法路徑可以分為2個(gè)部分:實(shí)體部分和動(dòng)詞部分.

Fig.6 Dependency paths of an entity pair with indirect semantic association.圖6 實(shí)體對(duì)間接語(yǔ)義關(guān)聯(lián)的依存句法路徑
從圖6可以看出,本文中的間接語(yǔ)義關(guān)聯(lián)分為以下2種情況:
1)在實(shí)體部分,實(shí)體的依存關(guān)系結(jié)構(gòu)可以分為2類(lèi):
①實(shí)體為并列結(jié)構(gòu).并列結(jié)構(gòu)的實(shí)體一般都是類(lèi)型相同,合在一起表示一個(gè)特定的意思.通過(guò)COO并列結(jié)構(gòu)發(fā)現(xiàn),選擇與實(shí)體發(fā)生COO關(guān)系且依存關(guān)系距離最遠(yuǎn)的實(shí)體作為其依存關(guān)聯(lián)節(jié)點(diǎn).
②實(shí)體為定中結(jié)構(gòu).定中結(jié)構(gòu)的修飾詞語(yǔ)叫定語(yǔ),被修飾詞語(yǔ)叫中心詞語(yǔ),中心詞語(yǔ)在句子中可充當(dāng)主語(yǔ)或賓語(yǔ).通過(guò)ATT結(jié)構(gòu)發(fā)現(xiàn),選擇與實(shí)體發(fā)生ATT關(guān)系且依存關(guān)系距離最遠(yuǎn)的非實(shí)體名詞作為其依存關(guān)聯(lián)節(jié)點(diǎn).
2)在動(dòng)詞部分,動(dòng)詞結(jié)構(gòu)為并列結(jié)構(gòu).如果存在多個(gè)并列結(jié)構(gòu)時(shí),通過(guò)COO并列結(jié)構(gòu)發(fā)現(xiàn),選擇與第2個(gè)實(shí)體發(fā)生依存關(guān)系且依存距離關(guān)系最近的動(dòng)詞作為最近句法依賴(lài)動(dòng)詞.
例5.“1927年1月28日,蔣介石、張靜江、張群、黃郛等人踏雪游覽廬山風(fēng)光.”的依存句法分析和詞性標(biāo)注如圖7所示.
為了更清楚地顯示2個(gè)實(shí)體對(duì)〈蔣介石,廬山〉和〈張靜江,廬山〉的依存路徑,本文將圖7轉(zhuǎn)換成二叉樹(shù)的結(jié)構(gòu)圖,如圖8所示.
對(duì)于圖8中的實(shí)體對(duì)〈蔣介石,廬山〉:第2個(gè)實(shí)體“廬山”的依存關(guān)系為ATT,是非實(shí)體名詞“風(fēng)光”的定語(yǔ),選擇名詞“風(fēng)光”作為“廬山”的父節(jié)點(diǎn).“風(fēng)光”是動(dòng)詞“游覽”的賓語(yǔ).因此,第2個(gè)實(shí)體“廬山”通過(guò)“風(fēng)光”間接與動(dòng)詞“游覽”發(fā)生語(yǔ)義關(guān)聯(lián).同理,第1個(gè)實(shí)體“蔣介石”也與非實(shí)體名詞“人”發(fā)生ATT關(guān)系.“人”是動(dòng)詞“踏雪”的主語(yǔ),即與名詞“人”發(fā)生SBV依存關(guān)系的動(dòng)詞為“踏雪”.動(dòng)詞部分為并列結(jié)構(gòu),“踏雪”和“游覽”為COO結(jié)構(gòu),選擇與第2個(gè)實(shí)體“廬山”最早發(fā)生依存關(guān)系的動(dòng)詞“游覽”作為該實(shí)體對(duì)〈蔣介石,廬山〉的最近句法依賴(lài)動(dòng)詞特征.最近句法依賴(lài)動(dòng)詞“游覽”很好地辨別出實(shí)體對(duì)〈蔣介石,廬山〉之間的“游歷”關(guān)系.

Fig.7 Dependency parsing and POS tagging of Exp.5.圖7 例5的依存句法分析和詞性標(biāo)注
對(duì)于圖8中的實(shí)體對(duì)〈張靜江,廬山〉:第2個(gè)實(shí)體“廬山”與上述分析相同,第1個(gè)實(shí)體“張靜江”與實(shí)體“蔣介石”為COO并列結(jié)構(gòu).根據(jù)上述分析,第1個(gè)實(shí)體“張靜江”通過(guò)實(shí)體“蔣介石”與動(dòng)詞“踏雪”發(fā)生間接語(yǔ)義關(guān)聯(lián).而動(dòng)詞部分為并列結(jié)構(gòu),與上述分析相同,因此,也選擇與第2個(gè)實(shí)體“廬山”最早發(fā)生依存關(guān)系的動(dòng)詞“游覽”作為該實(shí)體對(duì)〈張靜江,廬山〉的最近句法依賴(lài)動(dòng)詞特征.

Fig.8 Binary tree structure of dependency paths of an entity pair.圖8 一個(gè)實(shí)體對(duì)的依存路徑的二叉樹(shù)結(jié)構(gòu)
綜上所述,根據(jù)依存句法分析和詞性,實(shí)體對(duì)〈ei,ej〉的最近句法依賴(lài)動(dòng)詞特征的提取包括4步(如算法1所示):
步驟1.分別提取與實(shí)體ei或ej存在COO并列結(jié)構(gòu)或ATT定中結(jié)構(gòu)關(guān)系的依存關(guān)聯(lián)節(jié)點(diǎn)e′i和e′j,如算法2所示.
步驟2.提取與第2個(gè)實(shí)體ej的依存關(guān)聯(lián)節(jié)點(diǎn)e′j發(fā)生依存關(guān)系的最近動(dòng)詞Vj,如算法3所示.
步驟3.獲取與第1個(gè)實(shí)體ei的依存關(guān)聯(lián)節(jié)點(diǎn)e′i發(fā)生SBV或FOB關(guān)系的最近動(dòng)詞Vi,如算法4所示.
步驟4.通過(guò)判斷動(dòng)詞Vi與Vj是否為同一個(gè)動(dòng)詞或?yàn)镃OO并列結(jié)構(gòu)關(guān)系,確定該實(shí)體對(duì)〈ei,ej〉的最近句法依賴(lài)動(dòng)詞DV.
利用上述算法提取實(shí)體關(guān)系類(lèi)型中的高頻最近句法依賴(lài)動(dòng)詞信息,提取結(jié)果如表4所示.其中,Null表示實(shí)體對(duì)的最近句法依賴(lài)動(dòng)詞為空.
算法1.提取最近句法依賴(lài)動(dòng)詞.
輸入:實(shí)體對(duì)〈ei,ej〉,該句的依存句法分析和詞性標(biāo)注結(jié)果;





Table 4 The NSDV with High Frequency in Entity Relationships on Mount Lushan Corpus表4 廬山數(shù)據(jù)集上實(shí)體關(guān)系的高頻最近句法依賴(lài)動(dòng)詞
從表4可以看出,最近句法依賴(lài)動(dòng)詞算法能夠準(zhǔn)確地捕獲到體現(xiàn)2個(gè)實(shí)體之間關(guān)系類(lèi)型的相應(yīng)動(dòng)詞.因此,對(duì)于每個(gè)實(shí)體關(guān)系類(lèi)型中出現(xiàn)的高頻最近句法依賴(lài)動(dòng)詞,大都很好地表征了該實(shí)體關(guān)系類(lèi)型,并且具有較強(qiáng)的區(qū)分度,有利于提高實(shí)體關(guān)系探測(cè)和關(guān)系抽取性能.
3.1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)采用來(lái)自不同旅游網(wǎng)站上與旅游景點(diǎn)有關(guān)的人文歷史信息,它綜合概述了在某個(gè)景點(diǎn)發(fā)生的事情,包含了豐富的人物?組織與景點(diǎn)之間的關(guān)系,為抽取景點(diǎn)人文信息提供了可靠數(shù)據(jù)來(lái)源.為了驗(yàn)證本文方法在多樣性數(shù)據(jù)上的有效性,采用了3個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn):
1)廬山數(shù)據(jù)集.該數(shù)據(jù)集來(lái)自于“廬山之家”網(wǎng)站上有關(guān)“廬山歷史上的今天”版塊信息.
2)井岡山數(shù)據(jù)集.該數(shù)據(jù)集采用了“井岡山紅色數(shù)字家園”網(wǎng)站中的“人文篇·文化傳承”版塊信息.
3)泰山數(shù)據(jù)集.該數(shù)據(jù)集來(lái)源于“泰山文化”網(wǎng)站中的“泰山紀(jì)年”和“名人與泰山”版塊信息.
本文實(shí)驗(yàn)的3個(gè)數(shù)據(jù)集的特點(diǎn)是:文檔句子多為復(fù)雜長(zhǎng)句,一個(gè)句子中經(jīng)常會(huì)出現(xiàn)多個(gè)人物、組織或景點(diǎn).
本文只關(guān)注旅游景點(diǎn)(TA)、人物?組織(PO)、作品(WOR)、活動(dòng)(ACT)共4類(lèi)實(shí)體.本文中的實(shí)體包括具體實(shí)體和泛指實(shí)體,如“廬山花徑”為具體TA實(shí)體,而“五國(guó)使者”為泛指PO實(shí)體.考慮到人物實(shí)體中的團(tuán)隊(duì)名稱(chēng)和組織名稱(chēng)有時(shí)很難區(qū)分,并且本文不考慮人物與組織之間的關(guān)系,故將人物實(shí)體和組織實(shí)體統(tǒng)一歸為PO類(lèi)型實(shí)體.實(shí)體類(lèi)型信息如表5所示:

Table 5 Information of Entity Types表5 實(shí)體類(lèi)型信息
對(duì)3個(gè)實(shí)驗(yàn)數(shù)據(jù)集,在利用哈爾濱工業(yè)大學(xué)LTP-Cloud[22]平臺(tái)進(jìn)行分詞、詞性標(biāo)注、句法分析和實(shí)體識(shí)別的基礎(chǔ)上,再采用基于規(guī)則的方法進(jìn)行適當(dāng)修訂,以便更好地符合旅游領(lǐng)域特點(diǎn).本文是在實(shí)體識(shí)別正確的基礎(chǔ)上進(jìn)行實(shí)體關(guān)系抽取,因此對(duì)實(shí)體識(shí)別的方法本文不加以敘述.
本文只考慮一個(gè)句子中的2個(gè)實(shí)體之間的顯性關(guān)系,而不考慮跨句子的實(shí)體關(guān)系和隱性關(guān)系.本文主要關(guān)注人物?組織(PO)與景點(diǎn)(TA)、人物?組織(PO)與活動(dòng)(ACT)、人物?組織(PO)與作品(WOR)以及景點(diǎn)(TA)與活動(dòng)(ACT)之間的關(guān)系探測(cè)和關(guān)系抽取,而不考慮同類(lèi)實(shí)體之間的關(guān)系.因此,如果句子中只有一個(gè)實(shí)體或者無(wú)實(shí)體,則說(shuō)明此句中不存在實(shí)體關(guān)系,需要過(guò)濾此句.對(duì)于存在2個(gè)及以上實(shí)體的句子,首先按照實(shí)體在句中出現(xiàn)的順序進(jìn)行兩兩組合,生成候選實(shí)體對(duì),然后根據(jù)實(shí)體關(guān)系類(lèi)型加入實(shí)體對(duì)類(lèi)型約束條件進(jìn)一步進(jìn)行實(shí)體對(duì)的篩選.實(shí)體對(duì)類(lèi)型約束條件為:{〈PO,TA〉,〈TA,PO〉,〈PO,ACT〉,〈ACT,PO〉,〈PO,WOR〉,〈WOR,PO〉,〈TA,WOR〉,〈WOR,TA〉,〈TA,ACT〉,〈ACT,TA〉}.
為了選擇出黃金標(biāo)準(zhǔn)集,本文選用3個(gè)人作為實(shí)體關(guān)系類(lèi)型的標(biāo)注者,以少數(shù)服從多數(shù)決定正確答案,當(dāng)3人的答案都不一致時(shí),則由3人討論確定最終標(biāo)注結(jié)果.3個(gè)實(shí)驗(yàn)數(shù)據(jù)集中的實(shí)體關(guān)系類(lèi)型數(shù)據(jù)信息具體如表6所示.其中,“-”表示數(shù)據(jù)集中沒(méi)有包含該實(shí)體關(guān)系類(lèi)型的數(shù)據(jù).

Table 6 Statistics Information of Entity Relationships of Three Corpuses in Tourism Domain表6 旅游領(lǐng)域3個(gè)數(shù)據(jù)集的實(shí)體關(guān)系統(tǒng)計(jì)信息
3.2 評(píng)測(cè)指標(biāo)
實(shí)驗(yàn)評(píng)測(cè)采用常用的評(píng)價(jià)指標(biāo):準(zhǔn)確率P、召回率R和F1值,針對(duì)某一實(shí)體關(guān)系類(lèi)型的抽取結(jié)果,具體評(píng)價(jià)公式為:

3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
本實(shí)驗(yàn)共采用了3個(gè)數(shù)據(jù)集,對(duì)每個(gè)數(shù)據(jù)集進(jìn)行隨機(jī)選擇其中的80%作為訓(xùn)練集,剩余20%為測(cè)試集.本文采用臺(tái)灣大學(xué)林智仁等人開(kāi)發(fā)的LIBSVM[16]作為SVM工具包進(jìn)行實(shí)驗(yàn).為了驗(yàn)證本文提出的2個(gè)特征的有效性,并與其他同類(lèi)方法進(jìn)行比較,本文從關(guān)系探測(cè)和關(guān)系抽取2個(gè)角度進(jìn)行實(shí)驗(yàn)分析.
3.3.1 關(guān)系探測(cè)
由于實(shí)驗(yàn)數(shù)據(jù)中存在著大量的“無(wú)關(guān)系”類(lèi)型的實(shí)體對(duì),因此從關(guān)系探測(cè)的角度分析本文提出的2個(gè)特征對(duì)系統(tǒng)性能的影響.關(guān)系探測(cè)的目的是為了識(shí)別一個(gè)實(shí)體對(duì)之間是否存在語(yǔ)義關(guān)系,屬于二元分類(lèi)問(wèn)題.因此,本文將實(shí)驗(yàn)數(shù)據(jù)分成2類(lèi):將“無(wú)關(guān)系”(NON)類(lèi)型單獨(dú)作為一類(lèi),剩余的11類(lèi)實(shí)體關(guān)系均存在語(yǔ)義上的關(guān)系,因此合并成另一個(gè)類(lèi),即為“有關(guān)系”(HAS)類(lèi)型.3個(gè)實(shí)驗(yàn)數(shù)據(jù)集中的實(shí)體有無(wú)關(guān)系類(lèi)型數(shù)據(jù)信息具體如表7所示:

Table 7 Entity Relationship Information for Relationship Detection in Tourism Domain表7 旅游領(lǐng)域關(guān)系探測(cè)中的實(shí)體關(guān)系信息
已有許多學(xué)者對(duì)實(shí)體關(guān)系抽取進(jìn)行了研究,結(jié)果已經(jīng)表明實(shí)體特征、實(shí)體上下文特征、位置特征以及句法特征的有效性[3-4,16,18].因此,本文選取的實(shí)體關(guān)系基本特征包括實(shí)體類(lèi)型組合、實(shí)體上下文中每個(gè)實(shí)體的左邊和右邊各2個(gè)詞和它們的詞性組合、實(shí)體間距離以及依存句法關(guān)系特征,具體如表8所示.

Table 8 Basic Features of Entity Relationships表8 實(shí)體關(guān)系基本特征
在上述特征中選擇最佳特征組作為本文實(shí)驗(yàn)的基本特征,在基本特征上加入本文提出的2個(gè)新特征,分析每個(gè)新特征對(duì)關(guān)系探測(cè)所做的貢獻(xiàn),如表9所示.其中,“+”表示在基本特征基礎(chǔ)上加入新的特征.
由表9可以看出,在3個(gè)數(shù)據(jù)集上,選擇實(shí)體上下文信息作為特征的實(shí)體關(guān)系探測(cè)性能最差.實(shí)驗(yàn)中發(fā)現(xiàn),只要使用實(shí)體上下文特征,實(shí)體關(guān)系探測(cè)的性能則會(huì)大大降低.這是由于每個(gè)實(shí)驗(yàn)數(shù)據(jù)集描述的都是某人物?組織與旅游景點(diǎn)發(fā)生的關(guān)系.因此,景點(diǎn)實(shí)體會(huì)反復(fù)出現(xiàn),導(dǎo)致實(shí)體上下文特征不具有很好的區(qū)分性,而且該特征的數(shù)量比較多,也會(huì)導(dǎo)致關(guān)系探測(cè)性能低下.因此,選取實(shí)體類(lèi)型組合和實(shí)體間距離作為基本特征,其關(guān)系探測(cè)性能作為基準(zhǔn)線(baseline).
在基本特征基礎(chǔ)上,分別加入依存句法關(guān)系特征、依存句法關(guān)系組合特征、最近句法依賴(lài)動(dòng)詞特征后,關(guān)系探測(cè)性能都有所提高.具體分析如下:
1)相對(duì)于基本特征來(lái)說(shuō),分別依存句法關(guān)系特征、依存句法關(guān)系組合特征、最近句法依賴(lài)動(dòng)詞特征后,在3個(gè)數(shù)據(jù)集上的關(guān)系探測(cè)性能都有所提高,說(shuō)明了依存句法關(guān)系特征以及本文提出的2個(gè)特征(依存句法關(guān)系組合特征、最近句法依賴(lài)動(dòng)詞特征)在關(guān)系探測(cè)上的有效性.
2)與依存句法關(guān)系特征相比,在廬山和井岡山這2個(gè)數(shù)據(jù)集上,利用依存句法關(guān)系組合特征進(jìn)行關(guān)系探測(cè),準(zhǔn)確率P、召回率R和F1值都有較大提高;但對(duì)泰山數(shù)據(jù)集,關(guān)系探測(cè)性能稍微有所降低.總體上說(shuō)明了依存句法關(guān)系組合特征在關(guān)系探測(cè)上更有效.其原因在于依存句法關(guān)系組合特征在“有關(guān)系”、“無(wú)關(guān)系”類(lèi)型上的差異性比較大,具有更好的區(qū)分性,因此有利于提高關(guān)系探測(cè)性能.
3)相對(duì)于其他特征來(lái)說(shuō),最近句法依賴(lài)動(dòng)詞特征整體上對(duì)系統(tǒng)性能提高的幅度最大.加入最近句法依賴(lài)動(dòng)詞特征后,在廬山數(shù)據(jù)集上的準(zhǔn)確率P、召回率R和F1值均超過(guò)81%;在泰山數(shù)據(jù)集上的準(zhǔn)確率P、召回率R和F1值均超過(guò)86%.說(shuō)明了最近句法依賴(lài)動(dòng)詞特征能有效地提升關(guān)系探測(cè)系統(tǒng)的性能,其原因在于最近句法依賴(lài)動(dòng)詞有效地區(qū)分了實(shí)體之間有無(wú)語(yǔ)義關(guān)系,特別是特征值為Null的實(shí)體對(duì)幾乎都屬于“無(wú)關(guān)系”類(lèi)型.然而,對(duì)于井岡山數(shù)據(jù)集,最近句法依賴(lài)動(dòng)詞特征對(duì)系統(tǒng)性能的提高幅度不如依存句法關(guān)系特征和依存句法關(guān)系組合特征.其原因在于該數(shù)據(jù)集上很多實(shí)體對(duì)之間不存在能夠準(zhǔn)確表征實(shí)體關(guān)系類(lèi)型的動(dòng)詞,而通過(guò)最近句法依賴(lài)動(dòng)詞算法提取到特征值為Null的數(shù)量太多,共有936個(gè),而該數(shù)據(jù)集中的“無(wú)關(guān)系”實(shí)體對(duì)個(gè)數(shù)實(shí)際上僅為685個(gè).因此導(dǎo)致最近句法依賴(lài)動(dòng)詞特征對(duì)于關(guān)系探測(cè)性能提高的效果沒(méi)有上述2個(gè)特征明顯.
4)在基本特征的基礎(chǔ)上,同時(shí)結(jié)合依存句法關(guān)系組合特征和最近句法依賴(lài)動(dòng)詞特征,在廬山和井岡山2個(gè)數(shù)據(jù)集上的效果表現(xiàn)最佳,從總體上證明了這2個(gè)特征在關(guān)系探測(cè)上的有效性.
為了驗(yàn)證本文新增特征在中文旅游領(lǐng)域關(guān)系探測(cè)上的有效性,在使用本文實(shí)驗(yàn)數(shù)據(jù)情況下,用本文提出的方法與同類(lèi)方法進(jìn)行比較.郭喜躍等人在文獻(xiàn)[6]中提出了一種基于句法語(yǔ)義特征的實(shí)體關(guān)系抽取方法,新增了依存句法關(guān)系、核心謂詞、語(yǔ)義角色標(biāo)注等特征,也考慮了“無(wú)關(guān)系”類(lèi)型.文獻(xiàn)[8]所提出的依賴(lài)動(dòng)詞特征是中文實(shí)體關(guān)系抽取領(lǐng)域?qū)?dòng)詞研究較為經(jīng)典的方法之一.因此,在基本特征的基礎(chǔ)上分別加入文獻(xiàn)[6]、文獻(xiàn)[8]和本文提出的特征,得到3組實(shí)驗(yàn)結(jié)果分別為郭方法(Guo[6])、董方法(Dong[8])和本文方法(Ours).具體特征為:
1)基本特征.實(shí)體關(guān)系類(lèi)型組合、實(shí)體間距離.
2)董方法特征.基本特征和依賴(lài)動(dòng)詞特征.
3)郭方法特征.基本特征、依存句法關(guān)系、語(yǔ)義角色標(biāo)注以及實(shí)體與核心謂詞的距離.
4)本文方法特征.基本特征、依存句法組合特征和最近句法依賴(lài)動(dòng)詞特征.
這3種方法在關(guān)系探測(cè)上的性能如表10所示:

Table 9 Contribution of Different Features for Relationship Detection表9 本文特征在關(guān)系探測(cè)中所做的貢獻(xiàn)%

Table 10 Comparison of Our System with Other Similar Systems for Relationship Detection表10 本文方法與同類(lèi)方法在關(guān)系探測(cè)的實(shí)驗(yàn)結(jié)果對(duì)比%
從表10可以看出,本文方法在中文旅游領(lǐng)域關(guān)系探測(cè)任務(wù)中總體上性能最好.具體分析如下:
1)與董方法對(duì)比,利用本文方法進(jìn)行中文旅游領(lǐng)域關(guān)系探測(cè)在3個(gè)數(shù)據(jù)集上的性能都更優(yōu),特別是在井岡山和泰山2個(gè)數(shù)據(jù)集上的效果更為明顯.具體分析如下:
①對(duì)于廬山數(shù)據(jù)集,本文方法的準(zhǔn)確率P、召回率R和F1值分別提高了0.55,0.58和0.56個(gè)百分點(diǎn).在井岡山數(shù)據(jù)集上,本文方法的準(zhǔn)確率P、召回率R和F1值的提高幅度較大,分別為3.76,3.85和3.80個(gè)百分點(diǎn).特別是在泰山數(shù)據(jù)集上,本文方法在關(guān)系探測(cè)上的性能遠(yuǎn)遠(yuǎn)優(yōu)于董方法,其準(zhǔn)確率P、召回率R和F1值的提高幅度高達(dá)78.74,60.86和75.41個(gè)百分點(diǎn).說(shuō)明了本文的2個(gè)特征——依存句法組合特征和最近句法依賴(lài)動(dòng)詞特征——對(duì)關(guān)系探測(cè)性能的提高起到了很好的作用.
②對(duì)于泰山數(shù)據(jù)集,在基本特征集上加入董方法提取的依賴(lài)動(dòng)詞特征后,大大降低了關(guān)系探測(cè)的性能,其準(zhǔn)確率P、召回率R和F1值都遠(yuǎn)遠(yuǎn)低于基準(zhǔn)線.其原因在于:i)董方法的依賴(lài)動(dòng)詞特征提取算法幾乎對(duì)每一個(gè)實(shí)體對(duì)都提取了動(dòng)詞,而該動(dòng)詞特征對(duì)于有無(wú)關(guān)系類(lèi)型的區(qū)分度不強(qiáng),幾乎不能起到區(qū)分作用.ii)利用董方法提取到的動(dòng)詞特征數(shù)量很多,占總特征數(shù)的86%,不具有強(qiáng)區(qū)分性的動(dòng)詞特征卻帶來(lái)了很多噪音干擾.這2個(gè)方面原因?qū)е铝硕椒ㄔ陉P(guān)系探測(cè)時(shí)將實(shí)體對(duì)大部分都分到了“無(wú)關(guān)系”類(lèi)型,因此,對(duì)實(shí)體間有無(wú)關(guān)系根本沒(méi)法起到辨別的作用.然而,在基本特征集上,加入本文的2個(gè)特征后能有效地提高關(guān)系探測(cè)的性能(相對(duì)于基準(zhǔn)線).說(shuō)明了本文提出的最近句法依賴(lài)動(dòng)詞特征能夠有效地表征實(shí)體之間有無(wú)語(yǔ)義關(guān)系,特別是Null動(dòng)詞,具有很強(qiáng)的區(qū)分性,大大減少了文獻(xiàn)[8]的依賴(lài)動(dòng)詞特征帶來(lái)的噪音,顯著地提高了關(guān)系探測(cè)的性能.同時(shí)也說(shuō)明了本文提出的最近句法依賴(lài)動(dòng)詞特征比董方法的依賴(lài)動(dòng)詞特征更具有魯棒性.
2)與郭方法相比,雖然本文方法在泰山數(shù)據(jù)集上的關(guān)系探測(cè)性能略有下降,然而在廬山和井岡山2個(gè)數(shù)據(jù)集上的關(guān)系探測(cè)性能效果更佳,其準(zhǔn)確率P、召回率R和F1值的提高幅度分別為4.13,3.81,4.62個(gè)百分點(diǎn)和2.96,2.96,2.96個(gè)百分點(diǎn).總體而言,證明了本文提出的2個(gè)特征在關(guān)系探測(cè)上的有效性.
3.3.2 關(guān)系抽取
為了驗(yàn)證本文提出的2個(gè)特征在中文旅游領(lǐng)域關(guān)系抽取的有效性,在使用本文3個(gè)實(shí)驗(yàn)數(shù)據(jù)集的情況下,用本文提出的方法與上述關(guān)系探測(cè)使用的同類(lèi)方法(即郭方法[6]和董方法[8])進(jìn)行比較.將這3種方法應(yīng)用于關(guān)系抽取,其整體性能如表11所示:

Table 11 Comparison of Our System with Other Similar Systems for Relationship Extraction表11 本文方法與同類(lèi)方法在關(guān)系抽取的實(shí)驗(yàn)結(jié)果對(duì)比%
從表11可以看出,本文方法在中文旅游領(lǐng)域關(guān)系抽取任務(wù)中取得了最好的性能.具體分析如下:
1)與郭方法相比,本文方法在3個(gè)數(shù)據(jù)上的關(guān)系抽取性能都更佳.本文方法在井岡山和泰山這2個(gè)數(shù)據(jù)集上的關(guān)系抽取性能提升較為明顯,其準(zhǔn)確率P、召回率R和F1值分別提高了9.93,8.08,8.98個(gè)百分點(diǎn)和12.17,9.03,10.61個(gè)百分點(diǎn).在廬山數(shù)據(jù)集上,本文方法對(duì)系統(tǒng)性能的提高幅度最大,其準(zhǔn)確率P、召回率R和F1值分別提高了14.56,9.8和12.29個(gè)百分點(diǎn).其原因在于郭方法較依賴(lài)于實(shí)體關(guān)系類(lèi)型的數(shù)量分布,對(duì)于數(shù)據(jù)量少的實(shí)體類(lèi)型不能進(jìn)行有效地抽取.例如,郭方法對(duì)于廬山數(shù)據(jù)集上的“居住”、“建立”,井岡山數(shù)據(jù)集上的“考察訪問(wèn)”以及泰山數(shù)據(jù)集上的“居住”、“建立”等關(guān)系類(lèi)型無(wú)法進(jìn)行識(shí)別,其準(zhǔn)確率P、召回率R和F1值均為0.從表6中3個(gè)數(shù)據(jù)集的實(shí)體關(guān)系類(lèi)型信息分布可知,這些無(wú)法識(shí)別的關(guān)系類(lèi)型的數(shù)據(jù)量較少,導(dǎo)致文獻(xiàn)[6]中提出的特征無(wú)法起作用.而本文方法對(duì)3個(gè)數(shù)據(jù)集上的每一個(gè)關(guān)系類(lèi)型均能有效地識(shí)別,從而提高了關(guān)系抽取的整體性能.因此,本文方法在3個(gè)數(shù)據(jù)集上的關(guān)系抽取都獲得了最佳性能,說(shuō)明了本文提出的依存句法關(guān)系組合特征和最近句法依賴(lài)動(dòng)詞特征能夠有效地提高中文旅游領(lǐng)域?qū)嶓w關(guān)系抽取的性能.
2)與董方法對(duì)比,本文方法對(duì)于廬山數(shù)據(jù)集的關(guān)系抽取性能提高較小,其準(zhǔn)確率P、召回率R和F1值分別提高了2.12,1.28和1.70個(gè)百分點(diǎn).在井岡山和泰山這2個(gè)數(shù)據(jù)集上的準(zhǔn)確率P、召回率R和F1值都有顯著的提高,在井岡山數(shù)據(jù)集上分別提高了8.89,17.96和13.94個(gè)百分點(diǎn).特別是在泰山數(shù)據(jù)集上,在基本特征集上加入董方法的依賴(lài)動(dòng)詞特征后,大大降低了關(guān)系抽取的性能(相對(duì)于基準(zhǔn)線),說(shuō)明文獻(xiàn)[8]提出的依賴(lài)動(dòng)詞特征帶來(lái)了太多的噪音信息;而在該數(shù)據(jù)集上,本文方法卻表現(xiàn)出絕對(duì)的優(yōu)勢(shì),在準(zhǔn)確率P、召回率R和F1值上的提高幅度分別高達(dá)50.10,42.30和46.56個(gè)百分點(diǎn).同時(shí),也說(shuō)明了本文提出的2個(gè)特征更具有魯棒性.本文方法在3個(gè)數(shù)據(jù)集上的關(guān)系抽取整體性能明顯優(yōu)于董方法,其主要原因分析如下:
①本文提出的最近句法依賴(lài)動(dòng)詞特征值Null,有利于“無(wú)關(guān)系”類(lèi)型實(shí)體對(duì)的識(shí)別.此外,對(duì)比本文方法提取的最近句法依賴(lài)動(dòng)詞與董方法提取的依賴(lài)動(dòng)詞,在廬山、井岡山和泰山3個(gè)數(shù)據(jù)集上不相同的數(shù)量分別占25.4%,32.5%和33.2%.這部分動(dòng)詞特征主要是影響“有關(guān)系”類(lèi)型中的具體關(guān)系類(lèi)型的判別,說(shuō)明了最近句法依賴(lài)動(dòng)詞特征能有效地表征實(shí)體關(guān)系類(lèi)型.
②依存句法組合特征對(duì)關(guān)系抽取性能的提升起到了一定的作用.
為了驗(yàn)證依存句法關(guān)系組合特征、最近句法依賴(lài)動(dòng)詞特征對(duì)關(guān)系抽取的影響,在基本特征的基礎(chǔ)上依次加入這2個(gè)特征,其關(guān)系抽取的整體性能如表12所示.表13為本文各個(gè)特征在關(guān)系抽取中具體關(guān)系類(lèi)型中的表現(xiàn).
從表9與表12可以看出,在3個(gè)數(shù)據(jù)集上,關(guān)系探測(cè)的性能高于關(guān)系抽取的性能,其原因在于:關(guān)系探測(cè)只是一個(gè)二分類(lèi)問(wèn)題,用于確定一個(gè)實(shí)體對(duì)之間有無(wú)語(yǔ)義關(guān)系;而關(guān)系抽取則是一個(gè)多分類(lèi)問(wèn)題,用于確定實(shí)體對(duì)之間的關(guān)系屬于哪一個(gè)具體類(lèi)型,因而難度更高、性能更低.
從表12可以看出:
1)依存句法關(guān)系組合特征對(duì)關(guān)系抽取性能的提高貢獻(xiàn)比較明顯.相對(duì)于基準(zhǔn)線來(lái)說(shuō),依存句法關(guān)系組合特征在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率P、召回率R和F1值提高幅度最大,分別為:準(zhǔn)確率P在廬山數(shù)據(jù)集上的提高幅度高達(dá)11.42個(gè)百分點(diǎn);召回率R在泰山數(shù)據(jù)集上提高了6.24個(gè)百分點(diǎn);F1值在泰山數(shù)據(jù)集上提高了7.29個(gè)百分點(diǎn).這說(shuō)明了依存句法關(guān)系組合特征能夠較好地反映出相應(yīng)實(shí)體之間的關(guān)系特征,有利于關(guān)系抽取準(zhǔn)確率的提高.
2)最近句法依賴(lài)動(dòng)詞特征對(duì)關(guān)系抽取性能的提高貢獻(xiàn)最大.相對(duì)于基準(zhǔn)線來(lái)說(shuō),最近句法依賴(lài)動(dòng)詞特征在廬山、井岡山和泰山這3個(gè)數(shù)據(jù)集上的準(zhǔn)確率P、召回率R和F1值的提高幅度依次為:23.50,9.97和17.75個(gè)百分點(diǎn)(廬山);24.46,14.37和19.65個(gè)百分點(diǎn)(井岡山);24.10,13.69和19.24個(gè)百分點(diǎn)(泰山).這是因?yàn)閷?shí)體關(guān)系大多數(shù)是由動(dòng)詞觸發(fā)的,因此最近句法依賴(lài)動(dòng)詞特征能夠較好地表征實(shí)體之間的關(guān)系類(lèi)型,具有較好的區(qū)分度.
3)綜合本文提出的2個(gè)新特征后,在準(zhǔn)確率P、召回率R和F1值方面的表現(xiàn)都最佳,驗(yàn)證了本文提出的2個(gè)新特征在關(guān)系抽取上的有效性.
從表13可以看出:
1)在3個(gè)旅游領(lǐng)域的實(shí)驗(yàn)數(shù)據(jù)集中,加入依存句法關(guān)系組合特征,對(duì)于某些特定語(yǔ)義關(guān)系的抽取,如“位于”關(guān)系、“游歷”關(guān)系、“其他”關(guān)系以及“無(wú)關(guān)系”類(lèi)型等,可有效地提高關(guān)系抽取的性能.具體分析如下:
①在3個(gè)數(shù)據(jù)集上,依存句法關(guān)系組合特征對(duì)于“游歷”關(guān)系、“其他”關(guān)系和“位于”關(guān)系抽取效果的提高更為明顯,其原因在于它們的關(guān)系實(shí)例數(shù)量相對(duì)較多,而且依存句法關(guān)系組合特征的取值數(shù)量少,具有較好的區(qū)分性.例如,廬山數(shù)據(jù)集中的“游歷”關(guān)系的依存句法關(guān)系組合特征的取值數(shù)量為23,且主要包含SBV-VOB,SBV-COO和SBV-ATT等組合類(lèi)型.
②對(duì)于3個(gè)數(shù)據(jù)集中關(guān)系實(shí)例數(shù)量較少的關(guān)系類(lèi)型,加入依存句法關(guān)系組合特征后依然無(wú)法識(shí)別出這些實(shí)體關(guān)系類(lèi)型,如廬山數(shù)據(jù)集中的“離開(kāi)”、“建立”和“居住”,井岡山數(shù)據(jù)集中的“考察訪問(wèn)”和“離開(kāi)”,以及泰山數(shù)據(jù)集中的“居住”和“到達(dá)”等關(guān)系類(lèi)型.雖然這些關(guān)系類(lèi)型的依存句法關(guān)系組合特征的取值數(shù)量較少,但是加入依存句法關(guān)系組合特征后依然沒(méi)有提高系統(tǒng)性能,其原因在于這些關(guān)系類(lèi)型的關(guān)系實(shí)例數(shù)量太少,并且不具普遍區(qū)分性的SBV-VOB等組合類(lèi)型占主要地位,因此數(shù)據(jù)偏倚導(dǎo)致依存句法關(guān)系組合特征對(duì)這些關(guān)系類(lèi)型的抽取沒(méi)能發(fā)揮作用.
③在3個(gè)實(shí)驗(yàn)數(shù)據(jù)集上對(duì)“無(wú)關(guān)系”類(lèi)型抽取性能提高不明顯,其原因在于,雖然該類(lèi)型的關(guān)系實(shí)例數(shù)量最大,但由于它的依存句法關(guān)系組合特征的取值數(shù)量也最多,且依存句法關(guān)系組合特征的不同取值分布比較均勻.例如,廬山數(shù)據(jù)集中的“無(wú)關(guān)系”類(lèi)型的依存句法關(guān)系組合特征的取值數(shù)量高達(dá)52,而位居第一的SBV-VOB組合類(lèi)型包含的實(shí)體對(duì)也
僅占7.7%,POB-VOB,VOB-VOB,VOB-SBV等組合類(lèi)型包含的實(shí)體對(duì)分別占6.5%,5.8%和4.4%,從而導(dǎo)致具有較高區(qū)分度的依存句法關(guān)系組合特征對(duì)“無(wú)關(guān)系”類(lèi)型抽取的貢獻(xiàn)不是很明顯.說(shuō)明了依存句法關(guān)系組合特征對(duì)數(shù)據(jù)分布具有一定的依賴(lài)性.

Table 12 Overall Performance of Different Features in Our System for Relationship Extraction表12 本文各個(gè)特征在關(guān)系抽取中的整體性能%

Table 13 Performance of Different Entity Relationships with Different Features in Our System for Relationship Extraction表13 本文各個(gè)特征在不同關(guān)系類(lèi)型抽取中的性能%
2)加入最近句法依賴(lài)動(dòng)詞特征,顯著地提高了實(shí)體關(guān)系抽取系統(tǒng)的性能,準(zhǔn)確率P、召回率R和F1值均得到大幅度的提升,證明了該特征的有效性.具體分析如下:
①最近句法依賴(lài)動(dòng)詞特征能有效地提升關(guān)系實(shí)例數(shù)量在總數(shù)據(jù)集中較少的實(shí)體類(lèi)型的抽取性能.例如,廬山數(shù)據(jù)集中的“離開(kāi)”、“建立”和“居住”關(guān)系,井岡山數(shù)據(jù)集中的“考察訪問(wèn)”和“離開(kāi)”關(guān)系,以及泰山數(shù)據(jù)集中的“居住”和“到達(dá)”關(guān)系,在使用基本特征以及加入依存句法組合特征時(shí),這些類(lèi)型的關(guān)系抽取性能均為0.這是由于這些關(guān)系類(lèi)型的實(shí)例數(shù)量在總數(shù)據(jù)集中最少,且各類(lèi)關(guān)系數(shù)據(jù)分布很不均勻,導(dǎo)致基本特征以及加入依存句法組合特征都很難將它們區(qū)分.但是,在加入最近句法依賴(lài)動(dòng)詞特征后,這些關(guān)系類(lèi)型的準(zhǔn)確率P、召回率R和F1均有顯著的提高.例如,廬山數(shù)據(jù)集中的“離開(kāi)”關(guān)系的準(zhǔn)確率P、召回率R和F1分別達(dá)到了100%,70%和82.35%;“建立”關(guān)系的準(zhǔn)確率P、召回率R和F1值分別達(dá)到了100%,44.44%和61.54%;“居住”關(guān)系的準(zhǔn)確率P、召回率R和F1值分別達(dá)到了87.50%,29.17%和43.75%.井岡山數(shù)據(jù)集中的“考察訪問(wèn)”和“離開(kāi)”關(guān)系的準(zhǔn)確率P、召回率R和F1分別提升了100.00,22.22,36.36個(gè)百分點(diǎn)(考察訪問(wèn)關(guān)系)和100.00,40.00,57.14百分點(diǎn)(離開(kāi)關(guān)系).泰山數(shù)據(jù)集中的“居住”和“到達(dá)”關(guān)系的準(zhǔn)確率P、召回率R和F1值分別達(dá)到了100.00%,33.33%,50.00%(居住關(guān)系)和44.44%,26.67%,33.33%(到達(dá)關(guān)系).
②對(duì)于廬山數(shù)據(jù)集中的“參與”關(guān)系和泰山數(shù)據(jù)集中的“發(fā)生”關(guān)系,在加入最近句法依賴(lài)動(dòng)詞特征后,其F1值有所降低.其原因在于這2類(lèi)關(guān)系的最近句法依賴(lài)動(dòng)詞特征中包含較多的Null值,而包含Null的實(shí)體對(duì)主要屬于“無(wú)關(guān)系”類(lèi)型,且該類(lèi)型數(shù)據(jù)占總數(shù)據(jù)集的榜首,遠(yuǎn)遠(yuǎn)超過(guò)其他任何關(guān)系類(lèi)型,因此容易將包含Null值的這2類(lèi)關(guān)系誤分為“無(wú)關(guān)系”類(lèi)型,導(dǎo)致了這2類(lèi)關(guān)系抽取性能的下降.
3)在依存句法關(guān)系組合特征基礎(chǔ)上進(jìn)一步加入最近句法依賴(lài)動(dòng)詞特征后,其關(guān)系抽取性能有了明顯的提升,說(shuō)明了最近句法依賴(lài)動(dòng)詞特征可以減少不具有普遍區(qū)分度的依存句法關(guān)系組合特征帶來(lái)的噪音.
總體來(lái)看,在基礎(chǔ)特征的基礎(chǔ)上綜合加入依存句法關(guān)系組合特征和最近句法依賴(lài)動(dòng)詞特征后,其整體性能表現(xiàn)最優(yōu),說(shuō)明了本文提出的這2個(gè)特征能有效地提升關(guān)系抽取性能.

Continued(Table 13)
中文長(zhǎng)句的句式較復(fù)雜,經(jīng)常包含多個(gè)實(shí)體的特點(diǎn)以及數(shù)據(jù)稀疏問(wèn)題,給中文實(shí)體關(guān)系探測(cè)和關(guān)系抽取任務(wù)帶來(lái)了挑戰(zhàn).為了解決上述問(wèn)題,本文提出了一種基于句法語(yǔ)義特征的實(shí)體關(guān)系抽取方法.在傳統(tǒng)特征基礎(chǔ)上選擇最佳特征組作為基本特征,然后進(jìn)行擴(kuò)展,利用依存句法分析和詞性標(biāo)注結(jié)果獲取依存句法關(guān)系組合特征和最近句法依賴(lài)動(dòng)詞特征,選擇SVM作為機(jī)器學(xué)習(xí)的實(shí)現(xiàn)途徑,以真實(shí)旅游領(lǐng)域文本作為語(yǔ)料進(jìn)行實(shí)驗(yàn),驗(yàn)證了該方法在關(guān)系探測(cè)和關(guān)系抽取上的有效性.
本文的主要?jiǎng)?chuàng)新工作包括:
1)提出了句法特征——依存句法關(guān)系組合特征.通過(guò)將2個(gè)實(shí)體各自的依存句法關(guān)系進(jìn)行組合,分析了不同實(shí)體關(guān)系類(lèi)型的依存句法關(guān)系組合特征的差異性,有助于提升實(shí)體關(guān)系探測(cè)和關(guān)系抽取的性能.
2)提出了語(yǔ)義特征——最近句法依賴(lài)動(dòng)詞特征.通過(guò)依存句法分析和詞性標(biāo)注來(lái)選擇最近句法依賴(lài)動(dòng)詞特征,主要貢獻(xiàn)在于:①最近句法依賴(lài)動(dòng)詞特征的Null值能有效地區(qū)分實(shí)體有無(wú)語(yǔ)義關(guān)系,有利于提高關(guān)系探測(cè)的性能;②最近句法依賴(lài)動(dòng)詞特征能夠較好地表征實(shí)體關(guān)系類(lèi)型,有利于具體關(guān)系類(lèi)型的識(shí)別,而且較好地解決了數(shù)據(jù)分布不均衡帶來(lái)的問(wèn)題,能夠顯著地提升關(guān)系抽取的性能.
在未來(lái)的工作中,將進(jìn)一步研究跨文檔中隱式關(guān)系的抽取,從而挖掘出更多的實(shí)體關(guān)系.
[1]Xu Jian,Zhang Zhixiong,Wu Zhenxin.Review on techniques of entity relaion extraction[J].New Technology of Library and Information Service,2008,24(8):18 23(in Chinese)(徐健,張智雄,吳振新.實(shí)體關(guān)系抽取的技術(shù)方法綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2008,24(8):18 23)
[2]Che Wanxiang,Liu Ting,Li Sheng.Automatic entity relation extraction[J].Journal of Chinese Information Processing,2005,19(2):1 6(in Chinese)(車(chē)萬(wàn)翔,劉挺,李生.實(shí)體關(guān)系自動(dòng)抽?。跩].中文信息學(xué)報(bào),2005,19(2):1 6)
[3]Kambhatla N.Combining lexical,syntactic,and semantic features with maximum entropy models for extracting relations[C]??Proc of the ACL 2004on Interactive Poster and Demonstration Sessions.Stroudsburg,PA:Association for Computational Linguistics,2004:1 4
[4]Zhou G D,Su J,Zhang J,et al.Exploring various knowledge in relation extraction[C]??Proc of the 43rd Annual Meeting on Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2005:427 434
[5]Xi Bin,Qian Longhua,Zhou Guodong,et al.The application of combined linguistic features in semantic relation extraction[J].Journal of Chinese Information Processing,2008,22(3):44 50(in Chinese)(奚斌,錢(qián)龍華,周?chē)?guó)棟,等.語(yǔ)言學(xué)組合特征在語(yǔ)義關(guān)系抽取中的應(yīng)用[J].中文信息學(xué)報(bào),2008,22(3):44 50)
[6]Guo Xiyue,He Tingting,Hu Xiaohua,et al.Chinese named entity relation extraction based on syntactic and semantic features[J].Journal of Chinese Information Processing,2014,28(6):183 186(in Chinese)(郭喜躍,何婷婷,胡小華,等.基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽?。跩].中文信息學(xué)報(bào),2014,28(6):183 186)
[7]Jiang J,Zhai C X.A systematic exploration of the feature space for relation extraction[C]??Proc of Human Language Technologies:The Conference of the North American Chapter of the Association for Computational Linguistics(NAACL-HLT 07).Stroudsburg,PA:Association for Computational Linguistics,2007:113 120
[8]Dong Jing,Sun Le,F(xiàn)eng Yuanyong,et al.Chinese automatic entity relation extraction[J].Journal of Chinese Information Processing,2007,21(4):80 85(in Chinese)(董靜,孫樂(lè),馮元勇,等.中文實(shí)體關(guān)系抽取中的特征選擇研究[J].中文信息學(xué)報(bào),2007,21(4):80 85)
[9]Chan Y S,Roth D.Exploiting background knowledge for relation extraction[C]??Proc of the 23rd Int Conf on Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2010:152 160
[10]Sun A,Grishman R,Sekine S.Semi-supervised relation extraction with large-scale word clustering[C]??Proc of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2011,1:521 529
[11]Chen Z,Ji H.Language specific issue and feature exploration in Chinese event extraction[C]??Proc of Human Language Technologies:The 2009Annual Conference of the North American Chapter of the Association for Computational Linguistics,Companion Volume:Short Papers.Stroudsburg,PA:Association for Computational Linguistics,2009:209 212
[12]Qin B,Zhao Y,Ding X,et al.Event type recognition based on trigger expansion[J].Tsinghua Science &Technology,2010,15(3):251 258
[13]Li P F,Zhu Q M,Zhou G D.Using compositional semantics and discourse consistency to improve Chinese trigger identification[J].Information Processing &Management,2014,50(2):399 415
[14]Harrington P.Machine Learning in Action[M].Greenwich,CT:Manning,2012
[15]John C Platt.Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines[R].Seattle:Microsoft Research,2003
[16]Chang C C,Lin C J.LIBSVM:A library for support vector machines[J?OL].ACM Trans on Intelligent Systems and Technology,2011,2(3):1 27.http:??www.csie.ntu.edu.tw?~cjlin?libsvm
[17]Li X,Lord D,Zhang Y,et al.Predicting motor vehicle crashes using support vector machine models[J].Accident Analysis &Prevention,2008,40(4):1611 1618
[18]Li H,Wu X,Li Z,et al.A relation extraction method of Chinese named entities based on location and semantic features[J].Applied Intelligence,2013,38(1):1 15
[19]Chen Y,Zheng Q,Zhang W.Omni-word feature and soft constraint for Chinese relation extraction[C]??Proc of the 52nd Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2014:572 581
[20]Liu H,Jiang C,Hu C,et al.Efficient relation extraction method based on spatial feature using ELM[J].Neural Computing and Applications,2014,12(30):1 11
[21]Kang Lili.Research and implementation of open Chinese entity relation extraction[D].Shenyang:Northeastern University,2013(in Chinese)(康麗麗.開(kāi)放式中文實(shí)體關(guān)系抽取的研究與實(shí)現(xiàn)[D].沈陽(yáng):東北大學(xué),2013)
[22]Che W,Li Z,Liu T.Ltp:A Chinese language technology platform[C]??Proc of the 23rd Int Conf on Computational Linguistics:Demonstrations.Stroudsburg,PA:Association for Computational Linguistics,2010:13 16


Gan Lixin,born in 1982.PhD candidate.Lecturer at Jiangxi Science and Technology Normal University.Her research interests include information retrieval,information extraction and data mining,etc. Wan Changxuan,born in 1962.Received his PhD degree in computer science from Huazhong University of Science and Technology in 2003.Professor and PhD supervisor at Jiangxi University of Finance and Economics.Senior member of China Computer Federation.His research interests include Web data management,sentiment analysis,data mining and information retrieval,etc. Liu Dexi,born in 1975.Received his PhD degree in computer science from Wuhan University in 2007.Professor and senior member of China Computer Federation.His research interests include information retrieval and natural language processing,etc(dexi.liu@163.com).


Zhong Qing,born in 1991.Master candidate.Her research interests include information extraction and data mining,etc(zhognqingwjj@gmail.com).

Jiang Tengjiao,born in 1976.PhD candidate.Lecturer.Her research interests include sentiment analysis,XML information retrieval and Web data management,etc(tj_jiang@163.com).
Chinese Named Entity Relation Extraction Based on Syntactic and Semantic Features
Gan Lixin,Wan Changxuan,Liu Dexi,Zhong Qing,and Jiang Tengjiao
(School of Information Technology,Jiangxi University of Finance and Economics,Nanchang330013)(Jiangxi Key Laboratory of Data and Knowledge Engineering(Jiangxi University of Finance and Economics),Nanchang 330013)
Named entity relations are a foundation of semantic networks and ontology,and are widely used in information retrieval and machine translation,as well as automatic question and answering systems.In named entity relationships,relationship feature selection and extraction are two key issues.Characteristics of Chinese long sentences with complicated sentence patterns and many entities,as well as the data sparse problem,bring challenges for Chinese entity relationship detection and extraction tasks.To deal with above problems,a novel method based on syntactic and semantic features is proposed.The feature of dependency relation composition is obtained through the combination of their respective dependency relations between two entities.And the verb feature with the nearest syntactic dependency is captured from dependency relation and POS(part of speech).The above features are incorporated into feature-based relationship detection and extraction using SVM.Evaluation on a real text corpus in tourist domain shows above two features from syntactic and semantic aspects can effectively improve the performance of entity relationship detection and extraction,and outperform previously best-reported systems in terms of precision,recall and F1 value.In addition,the verb feature with nearest syntactic dependency achieves high effectiveness for relationship detection and extraction,especially obtaining the most prominent contribution to the performance improvement of data sparse entity relationships,and significantly outperforms the stateof-the-art based on the verb feature.
relationship extraction;relationship detection;syntactic feature;semantic feature;support vector machine(SVM)
TP311
2015-09-22;
2015-12-22
國(guó)家自然科學(xué)基金項(xiàng)目(61173146,61562032,61363039,61363010,61462037);江西省高等學(xué)校科技落地計(jì)劃項(xiàng)目(KJLD12022);江西省教育廳科技研究項(xiàng)目(GJJ12733,GJJ13249)
This work was supported by the National Natural Science Foundation of China(61173146,61562032,61363039,61363010,61462037),the Ground Program on High College Science &Technology Project of Jiangxi Province(KJLD12022),and the Science &Technology Project of the Department of Education of Jiangxi Province(GJJ12733,GJJ13249).
萬(wàn)常選(wanchangxuan@263.net)