[摘要] 基于概念圖理論提出將漢語框架網絡問答系統中問句的語義框架結構與檢索文本中句子的語義框架結構的匹配問題轉化為概念圖匹配問題的思想,將查詢概念圖與資源概念圖的相似度分為框架概念相似度、框架元素概念相似度及句子中語塊相似度三個部分。測試表明,這種新的計算問句與答案候選句的語義相似度的方法較之傳統基于關鍵詞匹配技術的方法效率更高。
[關鍵詞]概念圖匹配 語句相似度 相似度計算
1 引 言
在整個問答系統中,信息檢索模塊處于一個中間地位,一方面,它接受問題分析模塊所返回的帶有加權系數的問句的特征信息;另一方面,它從大量收集到的文檔集合中,找到與給定的查詢請求相關的恰當數目的文檔提交給答案抽取模塊。信息檢索模塊對檢索結果的篩選并不是一個精確的匹配過程,而是一個相似匹配過程,具有一定的模糊值,需要用相似度值來度量查詢與文檔集中某個文檔之間的相似程度[1]。以用戶的自然語言提問為檢索入口的語義檢索系統,需要衡量信息資源中答案候選句與問句的相似度,提取與問句相似度最大的句子,采用適當的格式向用戶提交準確答案。因此,語句相似度的計算是信息檢索模塊的一個關鍵問題。
2 語句相似度的計算方法概述
語句相似度的衡量機制與對語句的分析深度密切相關。從對語句的分析深度來看,目前句子的相似度計算方法主要有兩種:①基于向量空間模型的方法[2-3]。該方法把句子看成詞的線性序列,不對語句進行語法結構分析,相應的語句相似度衡量機制只能利用句子的表層信息,即組成句子中詞的詞性、位置、詞頻等信息。由于不加任何結構分析,該方法在計算語句之間的相似度時不能考慮句子整體結構的相似性。②基于句法語義分析的方法[4-5]。這是一種深層結構分析法,對被比較的兩個句子進行深層的句法分析和語義分析,找出句子的組成詞匯信息及語義結構信息。
本文討論的是封閉式問答系統中問句與檢索文本中句子的相似度,由于漢語句子的表達形式是多種多樣的,因此重點在于考察問句與檢索文本中句子在語義上的相似度。我們采用基于概念圖匹配的方法計算法律框架網絡檢索子系統中用戶自然語言問句與答案候選句的語義相似度,該方法也屬于第二種。
3 概念圖及語義框架結構
3.1 概念圖與概念圖匹配
概念圖是一個由一些結點和弧線組成的層次結構,其中結點用來表示概念,對應于本體中的類、屬性或者實例等;而弧線則表示兩個概念之間的關系,對應本體中的關系。
概念圖的匹配不是概念圖的完全匹配,而是概念圖間的相似度計算。文獻[6]中闡述了通過WorldNet中兩個概念的語義距離得到類之間的語義相似度,然后將各個結點和關系的相似度按權值累加得出兩個RDF圖之間的相似度。文獻[7]也用到了該方法來計算兩個概念圖之間的相似性。在這兩篇文獻中,分別把本體看作一個RDF圖和一個概念圖。為了避免計算時遞歸陷入無限循環,規定用戶指定一個查詢概念圖的入口結點,已有的被檢索的概念圖也有一個入口結點,僅僅比較在兩個概念圖中同等位置的概念的相似性。Poole和Campebll在文獻[8]中為概念圖的匹配定義了三種相似度,即表層相似度(surface similarity)、結構相似度(structure similarity)和主題相似度(thematic similarity),表層相似度和結構相似度分別對應于待匹配的對象和關系的相似性,而主題相似度則取決于同時考慮概念和關系出現的特定模式。
3.2 基于漢語框架網絡本體的句子語義框架結構
3.2.1 漢語框架網絡本體 利用框架語義學原理,我們構建了漢語框架網絡知識本體,并利用該本體知識對本地庫中的文本進行了框架語義標注。按照框架語義學的思想,句子中一個含有述謂意義的詞匯激活一個事件場景,場景中有各種角色參加[9]。在漢語框架網絡數據庫中,這個被激活的事件場景被稱為“框架”(Frame),參與到場景中的角色被稱為框架元素(Frame Element, FE),句子中那些含有述謂意義的詞匯就是所激活框架的詞元(Lexical Unit,LU)。此外,“框架”之間的相互作用形成多樣化的框架間關系,包括橫向關系和縱向關系。例如,依照概念間的相似性比較形成概念的邏輯關系,屬種關系(繼承關系)、使用關系、參照關系等;根據概念的個體在空間或時間上的連接性形成總分關系、因果關系等。
3.2.2基于漢語框架網絡本體的句子語義框架結構 本文所定義的語義框架結構是指利用漢語框架網絡本體知識對本地庫中或網絡上的文本、句子進行概念分析并采用標準化的形式對句子進行框架語義標注所形成的句子的語義邏輯結構,是對句子基于概念層面的、機器可識別的語義理解。
Fillermore曾經這樣定義框架這個概念:“當使用‘框架’這個術語時,我心里想到的是一個互相聯系的概念體系,對這個體系中任何一個概念的理解都必須依賴對其所屬的整個結構的理解” [10]。也就是說,語義框架可以是任何一個概念體系,其中的概念之間相互關聯,要理解這一體系中的任何一個概念,就必須理解整個概念體系。例如,想要知道“victim”、“perpetrator”、“goods”這些概念的意義,就要知道“Theft”這個概念。因為這些詞都是涵蓋在“Theft”框架之中,是該框架的框架元素,框架與框架元素之間的關系為“hasFE”。而對“Theft”框架的進一步理解可能還會涉及到“taking”框架和 “Commiting_crime”框架,因為它分別是后兩個框架的子框架,構成繼承關系(InheritsFrom)。當這樣一個概念結構中的諸多概念中的一個被置入到一個文本或一次交談中時,該概念結構中其相關的概念都自動被激活。
例如,句子S1“近日,被廣東省中山市一家貿易公司招聘為煤場鏟車司機兼看守的一名保安人員周紹海因與他人合伙盜煤被中山市中級人民法院以職務侵占罪判處有期徒刑一年六個月”中的目標動詞“盜” 激活框架Theft(盜竊) ,相應地,句中的語塊(span)“被廣東省中山市一家貿易公司招聘為煤場鏟車司機兼看守的一名保安人員周紹?!?、“煤”和“與他人合伙”激活了該框架中的框架元素Perpetrator (犯罪者)、Means(方式)、Goods (物品)。在數據庫中,我們將語塊與框架元素以及目標詞與框架之間的這種激活與被激活的關系定義為填槽或喚醒關系(Fillerof/evokes)。每個語塊與句子之間是從屬關系(Subsumes)。據此,利用漢語框架網絡本體知識對句子S1的理解所產生的語義框架結構如圖1所示:
根據框架網絡本體知識,一個框架與其它框架之間以及它們的框架元素之間也通過相關關系連接,構成一個概念層級結構。例如,前面提到的框架——盜竊(Theft)、占有(Taking)和犯罪(Committing_crime)及它們的框架元素之間的關系如下圖2所示:
通過對概念圖及句子語義結構的分析及對比,我們發現:可以將句子的語義結構視作一個由表示框架、框架元素及語塊的結點和表示關系(框架關系,框架元素關系及它們與語塊之間關系)的弧線組成的概念圖。對句子的語義理解是就對其語義框架結構的認識,句子間的相似性問題就轉化為其語義框架結構的匹配問題,而框架語義結構的匹配問題又可被視為概念圖的匹配問題。
4 基于法律框架網絡本體的句子相似度計算
基于漢語框架網絡本體的問答系統中,問句處理模塊采用基于規則匹配的方法對問句進行了基于漢語框架網絡本體知識的語義分析,生成問句的框架語義結構并根據疑問詞及相應規則確定了問句的焦點。沿用上述研究的結論,結合所構建的漢語框架網絡本體的特點,我們將問句的語義框架結構與本地庫中經過加工的文本句子的語義框架結構視作概念圖(為敘述方便,前者稱為查詢概念圖CGQ,后者稱為資源概念圖CGR)進行語義相似度計算。
4.1 漢語框架網絡問答系統中問句與答案候選句的相似度計算思路
計算過程中,我們把查詢概念圖CGQ與資源概念圖CGR的語義相似度分為框架概念相似度、框架元素概念相似度、語塊相似度三部分來考量。具體設計思路如下:
?以查詢概念圖CGQ中的根節點即框架概念節點(QFR)為檢索入口節點,與資源概念圖CGR中的根結點((RFR))相比較,依據兩框架概念在框架網絡本體結構體系中的位置及關系,計算兩圖中根節點的相似度。
?讀取CGQ中的次級節點即框架元素概念節點(QFEi),遍歷CGR中的相應層次的節點(RFE),選擇與QFEi相似度值最大的RFEj作為匹配框架元素。
?計算相匹配的框架元素節點所對應的語塊之間的相似度。
?計算兩概念圖之間的相似度大小并進行排序。
4.2 基于法律框架網絡本體的句子相似度計算模型
4.2.1 框架概念相似度 由前述的相關文獻,兩個概念之間的距離可以通過它們在概念層次中的相對位置來決定。一般來說,概念之間的相似度取0到1之間的值,0表示相似度最小,1表示最大。給定概念C1、C2之間的概念相關性為:
(1)
在本體結構體系中,不同層次概念之間抽象跨度不均勻,各概念層次中的每個結點都有一個計算距離用的值,稱為“里程碑”(milestone)。它的計算公式為:
(2)
通常設K=2, 代表節點到根節點的距離(其中根節點 )。這樣,
(3)
其中,ccp代表C1、C2兩者最接近的共同父節點。該計算模型源于這樣一種設計思想:較高層次概念之間的相異程度要大于較低層次概念之間的相異程度;同時,兄弟概念(直接繼承于同一個父類的概念)之間的相異程度要大于父子概念之間的相異程度。
在實際的語義檢索應用中,我們要評估的是資源圖符合查詢圖的程度,而不是查詢圖符合資源圖的程度。因此,在考察概念的匹配時,我們要特別考慮兩個概念間為繼承關系的情形。設概念C1是概念C2的父類,若C1來自查詢圖、C2來自資源圖,那么因為C2 IsA C1,所以應該認為完全符合匹配的條件,相似度為1;反之,若C2來自查詢圖、C1來自資源圖,那么因為C1中可能包含非C2的子類,所以不能認為一定匹配C2,故此時應通過語義距離計算相似度。
框架概念之間相似度也通過兩個框架概念在框架網絡本體中相應位置間的距離來計算??紤]到現有資源條件及效率問題,系統目前只處理到CGQ與CGR中的框架概念在框架網絡本體中位置相同或構成直接父子關系的情形,即CGQ與CGR的入口概念相同或是相互間是具有繼承關系的父框架或子框架。
當QFR與RFR相同或QFR為RFR的父框架時,它們的相似度為1;當RFR為QFR的父框架時,它們的相似度根據它們在本體概念層次中的位置計算;當QFR與RFR不相同且它們在框架網絡本體庫中沒有直接的相關關系時,我們即認為這兩個框架概念之間沒有“共同父結點”,它們的相似度為0。
綜上所述,來自查詢圖的概念框架QFR與來自資源圖的概念框架RFR之間的相似度定義為:
(4)
4.2.2 框架元素概念相似度 當查詢圖中的概念框架QFR與資源圖中的概念框架RFR的相似度不為0時,進一步分析兩圖中作為概念框架的子節點的框架元素概念節點之間的相似性。讀取查詢資源圖中的框架元素概念節點QFEi,遍歷資源圖中的框架元素概念節點RFE,計算二者之間的相似度,直到比完為止。在每個遞歸過程中,選擇資源圖中與查詢圖中框架元素概念相似度最大的框架元素概念作為與QFEi相匹配的框架元素節點。在漢語框架網絡知識庫中,每個框架元素都有唯一的標識符。相互關聯框架所對應的框架元素之間構成映射,在具體的文本中,這些框架元素之間被定義為同一關系(iendtity)。因此,語義角色之間的相似度只有兩個取值:0和1。當兩個框架元素ID相等或二者為同一關系時,相似度為1,否則為0。
4.2.3語塊相似度 本文進行概念圖語義匹配的最終目的是在文本中檢索出符合用戶問句查詢要求的句子。因此,概念圖匹配的最后一步必須落腳到在具體句子中作為概念圖中概念結點實例的語塊之匹配,即進行框架語義結構中框架元素實例的匹配。在得到資源圖中與查詢圖的框架元素概念相似度最大的框架元素概念節點之后,進一步進行這些語義槽中相應值(即句子中為框架元素填槽的語塊)之間的相似度衡量。由于我們已經計算了問句及答案候選句中被句子的目標謂詞激活的相應框架概念的相似性,這里的“語塊”不包括圖1中激活所示的(evokes)語義框架的目標謂詞。
一個完整的漢語句子由句子的關鍵成分和修飾成分所構成,而人們往往從關鍵成分就可以了解一個句子的大概意思。但由于漢語表達形式的多樣性,相同的關鍵成分可用不同的修飾成分來修飾,如果強調修飾成分,這無疑會給句子間相似度的計算增加噪音。因此,在進行語塊的相似度計算時,我們選擇每個語塊中的核心詞匯或有效詞匯。這里,我們將語塊的核心詞匯定義為名詞、動詞、形容詞及限定性副詞,它們由分詞后的詞性標注決定。語塊相似度分為詞形相似度和詞義相似度兩個方面。
?詞形相似度。詞形相似度分析詞的表層相似性,計算公式為:
(5)
其中, 表示是兩個語塊之間的詞形相似度。 和 分別表示兩個語塊中所包含的核心詞匯的集合, 表示兩個詞匯集合中包含的相同詞匯的數目, 表示 和 中包含的核心詞匯數目的最大值。
?詞義相似度。對于 和 中詞形不同詞匯,我們需要考慮這些詞匯在具體的上下文中的確切含義,判斷它們是否具有相同的義原以判斷它們之間的語義相似度。我們采用的工具是哈爾濱工業大學計算機科學與技術學院智能內容管理實驗室所做的語義消歧系統。目前該系統在開放測試下準確率能夠達到91.89%,封閉測試準確率能夠達到98.67%[11]。該系統能夠對經過分詞和詞性標注后的句子進行語義消歧,并在每個詞后面標注上相應的語義號。例如,對于句子:“哈爾濱/ nd在/P什么/r地方/ng? /wj”,經過語義消歧后變為:“哈爾濱/17在/1269什么/468地方/17?/-1”。每個語義號都對應知網中的一個義原。例如,“17”對應的義原為“placel地方”,“1269”對應的義原為 “{location}”, “468”對應的義原為“aValuel屬性值,kind I類型”,“-1”表示在知網中找不到這個詞或者這個詞是沒有價值的語義信息(如標點符號)。對問句和答案候選句執行“語義消歧”并識別句中詞匯所對應的語義號后,通過比較語塊中核心詞匯的語義號可計算語塊的語義相似度。計算公式如下:
(6)
類似地, 表示兩個語塊之間的語義相似性, 和 分別表示兩個語塊中所包含的核心語義的集合。 表示兩個語義集合中共同包含的詞匯語義數目, 表示 和 中包含詞匯數目的最大值。
由于基于詞形和基于語義的相似度計算方法各有優點,因此,我們綜合公式5和公式6,用下面的公式計算句子的語義框架結構中葉節點對應的短語相似度:
(7)
公式中, 。
考慮問句焦點的特殊情況,我們規定查詢概念圖中代表問句焦點的框架元素所在的語塊與資源概念圖中相應框架元素所在語塊之間的相似度為1。
4.2.4查詢概念圖CGQ與資源概念圖CGR的相似度 基于上面框架概念相似度、框架元素相似度以及語塊的相似度計算,最終得出查詢概念圖與資源概念圖語義相似度的計算公式:
(8)
上式中, 是分別代表問句的框架語義結構和信息資源中答案候選句的框架語義結構的查詢概念圖與資源概念圖的相似度。 是查詢圖與資源圖中框架概念節點的相似度。 是查詢概念圖中包含的框架元素概念節點數。 代表表示查詢圖中第i個框架元素概念節點的權重,該權重的計算采取基于統計的方法,根據該框架網絡本體標注例句庫中該框架元素出現的頻率計算。 表示查詢概念圖中第 框架元素概念節點與資源圖中各個框架元素概念節點之間的相似度。選擇資源概念圖中與之相似度最大的那個框架元素概念RFEj作為相匹配的框架元素,進一步計算框匹配的兩個框架元素節點所在的語塊的相似度。對查詢圖中所有框架元素及其所在的語塊與資源圖中最匹配的框架元素及語塊的相似度求和,與它們的框架概念相似度的乘積即是查詢概念圖與資源概念圖之間的相似度或相關度。
查詢模塊計算出問句與答案候選句之間的語義相關度之后,按照相關度大小對答案候選句排序,將相關度達到一定數值的答案候選句提交給答案抽取模塊,答案抽取模塊結合問句焦點信息,抽取準確答案,以適當的形式將答案返回給用戶。
5 結 論
在對問句及檢索文本進行框架語義標注的基礎上,本文利用概念圖相關理論并參照現有的概念圖相似度計算方法,提出了一種基于漢語框架網絡本體知識的問句與答案候選句的語句相似度計算方法。將該語句相似度匹配技術應用于我們所開發的基于法律框架網絡本體的問答檢索系統LawOntoSearch中的檢索模塊,經過系統測試,初步證明了該方法在檢全率和檢準率兩方面都比基于關鍵字的信息檢索系統有一定程度的提高[12]。
本研究的不足之處在于,系統中對漢語框架網絡本體庫中框架及框架元素之間關系的利用還有一定的局限,不能最大限度地發揮這些關系在信息檢索乃至語義推理中的作用,這也將是我們下一步研究的重點。
參考文獻:
[1] 宋俊峰,李國微.信息檢索算法評價指標的分析與改進[J].小型微型計算機系統,2003(10):1800-1803.
[2] 王長勝,劉群.基于實例的漢英機器翻譯系統研究與實現[J].計算機工程與應用,2002, 38(8): 126-127.
[3] 呂學強,任飛亮,黃志丹,等.句子相似模型和最相似句子查找算法[J].東北大學學報(自然科學版),2003, 24(6): 531-534.
[4] 穗志方,俞士反.基于骨架依存樹的語句相似度計算模型[C]//1998中文信息處理國際會議文集.北京:清華大學出版社,1998:458-465
[5] 李彬,劉挺,秦兵,等.基于語義依存的漢語句子相似度計算[J].計算機應用研究,2003, 20(12): 15-17.
[6] Zhu Haiping, Zhong Jiwei, Li Jianming, et al. An approachfor semantic search by matching RDF graphs[C] //Proceedings of the Fifteenth International Florida Artificial Intelligence Research Society Conference. palo Alto:AAAI Press,2002:450-454.
[7] Zhong Jiwei, Zhu Haiping, Li Jianming, et al. Conceptual graph matching for semantic search[C]//Proceedings of the 10th International Conference on Conceptual Structures: Integration and Interfaces. London: Spring- Verlag ,2002:92-106.
[8] Poole J, Campbell J A. A novel algorithm for matching conceptual and related graphs[C]// Proceedings of the 3th International Conference on Conceptual Structrues: Application, Implementation and Theory. London:Springer-Verlag,1995:293 -307.
[9] Narayanan S, Harabagiu S. Question answering based on semantic structures[C]//Proceedings of the 20th International Conference on Computational Linguistics (COLING-2004) . Geneva: COLING , 2004 :693-701.
[10] 楊琳琳. 語義框架在詞匯、語義現象中的運用[J].懷化學院學報,2007,26(5):125-126.
[11] 李彬,劉挺,秦兵,等. 基于語義依存的漢語句子相似度計算.計算機應用研究,2003, 20(12): 15-17.
[12] 邰楊芳,賈君枝. 基于漢語框架網絡本體的問答式語義檢索系統的分析與設計.圖書情報工作,2010,54(12):113-118.
[作者簡介] 邰楊芳,女,1974年生,講師,碩士,發表論文12篇。
賈君枝,女,1972年生,教授,博士,發表論文54篇。