摘要:將知網的義項、義原及其關系映射到形式化概念分析的語境中,生成一個基于知網的形式概念格。一方面,提供了一種將知網中概念關系轉換為概念格的表征方式,從格中任意一個節點出發,可以很方便地訪問到與此相關的各種知識,從而為信息檢索和知識推理提供很大方便;另一方面,也提出了一種通過對形式概念格進行分析來計算概念相似度的方法。實驗證明該方法克服了以往計算方法的若干不足,并能有效地在相關應用領域如協作學習言論分析中加以應用。
關鍵詞: 知網; 形式概念分析; 概念相似度
中圖分類號:TP39文獻標志碼:A
文章編號:1001-3695(2007)11-0032-05
語義分析是自然語言理解的重點和難點。近年來,一些大規模、可計算的語義知識庫,包括WordNet[1]、MindNet[2,3]、FrameNet[4]等的開發和利用,為進行大規模真實文本的語義分析和理解提供了有利的支持。1999年初,由中國中文信息學會常務理事董振東先生所主持開發的知網(HowNet),為自然語言理解提供了一個新的研究資源[5]。
知網的根本思想在于將各個詞語的詞義以義項表示,再通過標準化了的1 600多個義原來描述各個義項;詞語與詞語之間的關聯就主要通過義原的層級及其他關聯關系體現。然而,知網與其他本體相比存在一個問題,即沒有直接定義概念和概念之間的關系。這樣,包括一些本體描述中最常見的上下位將難以獲得。本文在仔細、深入分析知網的基礎上,將知網中隱含的各種語義關系全部提取出來,并按照其義原層級關系進行擴展,形成一個在形式概念分析中稱之為形式化語境的二維表,并進一步轉換為Hasse圖;以此為中心建立出知網中概念與概念、概念與特征以及特征與特征之間的內在聯系,形成一種概念格的信息表示結構。在這個網狀表示上,通過任意一個信息入口,如義項、義原、關系等,均可以很方便地訪問到與此相關的各種知識,從而為基于知網的信息檢索和知識推理提供很大的方便。
1知網簡介
知網是一個以英漢雙語所代表的概念以及概念的特征為基礎,以揭示概念與概念之間以及概念所具有的特性之間的關系為基本內容的常識知識庫。知網系統的哲學是:“世界上一切事物(物質的和精神的)都在特定的時間和空間內不停地運動和變化。它們通常是從一種狀態變化到另一種狀態,并通常由其屬性值的改變來體現。”因此,知網的運算和描述的基本單位是萬物[6]。
知網著力描述了概念之間和概念屬性之間的各種關系,主要包括上下位關系、同義關系、反義關系、對義關系、屬性—宿主關系、部件—整體關系、材料—成品關系、事件—角色關系。在概念詞典中,概念與概念和特征的關系主要體現在每個記錄的概念定義項(DEF項)中。在各個特征文件中,這些關系則體現在特征的層次組織樹、必要角色框架和共性特征描述項中。所有這些,均通過知網提供的知識詞典描述語言(KDML)來實現。有關的詳細內容可參閱董振東先生的有關論文[6,7]。
2形式概念分析
形式概念分析是應用數學的一個分支,它建立在概念和概念層次的數學化基礎之上。運用形式概念分析的方法,可以發現、構造和展示由屬性和對象構成的概念及其之間的關系。目前,形式概念分析的方法已經大量運用在概念聚類、數據分析、信息檢索、知識發現、本體工程的應用之中[8] 。
2.1語境和概念
定義1一個形式化的語境(context) k=(G,M,I),包含兩個集合(G和M) 和一個二元關系(G與M之間的關系I) 。在語境中,G中的元素稱為對象;M中的元素稱為屬性。用gIm,或者(g,m)∈I來表達對象g與屬性m的關系,讀做“對象g具有屬性m”。
根據定義1,可以用矩陣來表示語境。列標題上是對象名,行標題上是屬性名。行g與列m的交叉表示對象g具有屬性m(表1)。
5結束語
形式概念分析是一種對知網進行可視化和表征其概念關系的有效方法。本文通過對知網進行形式概念分析,得到了一種對知網知識新的表征方法,并在此基礎上計算詞語的概念相似度。實驗證明,該方法對相似度的計算結果比傳統方法更為有效。此外,將該方法用于協作學習中交互分析也取得了一定成效。
對知網進行形式概念分析還有諸多需要探索和研究的地方,包括如何利用形式概念格讓知網在專業領域上進行擴展,如何通過生成的Hasse圖來對概念進行檢索、導航以及推理,再進一步將其應用于專業領域中。這些都將成為筆者未來的研究工作。
參考文獻:
[1]MILLER G. WordNet:an on-line lexical database international[J]. Journal of Lexicography,1990,3(4):265-277.
[2]RICHARDSON S D,DOLAN W B,VANDERVENDE L .MindNet :acquiring and structuring semantic information from text[C]//Proc of COLING-ACL’98.1998:1098-1102.
[3]RICHARDSON S D. Determining similarity and inferring relations in a lexical knowledge base[D].New York: The City University of New York,1997.
[4]BAKER C F,FILL M C J,LOWE J B . The Berkeley frame net project[C]//Proc of COLING-ACL’98.1998:86-90
[5]周強,馮松巖.構建知網關系的網狀表示[J].中文信息學報,2000,14(6):21-27.
[6]董振東,董強. 知網簡介[EB/OL].(2006). http://www.keenage.com/zhiwang/c_zhiwang.html.
[7]董振東.語義關系的表達和知識系統的建造[J].語言文字應用,1998 (3):76-82.
[8]黃偉,金遠平.形式概念分析在本體構建中的應用[J].微機發展,2005,15(2):28-31.
[9]SANDERSON M,CROFT B. Deriving concept hierarchies from text [EB/OL] . (1999).http://dis.shef.ac.uk/mark/cv/publications/pa2pers/my-papers/SIGIR99.pdf.
[10]GANTER B, WILLE R. Applied lattice theory: formal concept analysis[EB/OL] .(1996). http://www.math.tu-dresden.de/~ganter/ps2files/concept.ps.
[11]BASHIR F I. Ontology construction for structured textual data[EB/OL]. (2003-04-12). http://multimedia. eecs. uic. edu/faisal/downloads/research/cs580-proj6. pdf.
[12]WOLFF K E. A first course IN formal concept analysis:how to understand line diagrams [EB/OL].(1993). http://www.fbmn.fh-darmstadt.de/home/wolff/Publikationen/A-First-Course-in-Formal-Concept-Analysis.pdf.
[13]LINDIG C. Introduction to concept analysis[EB/OL] .(2002).http://www.st.cs.uni-sb.de/~lindig/talks/fca-intro/slides.pdf.
[14]LINDIG C. Fast Concept Analysis [EB/OL] . (2002).http://www.st.cs.uni-sb.de/~lindig/papers/fast-ca/iccs-lindig. pdf.
[15]龔永恩,袁春風,武港山. 基于語義的詞義消歧算法初探[J]. 計算機應用研究,2006,23(3):41-43,52.
[16]劉群,李素建.基于知網的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學研討會.臺北:[出版者不詳],2002.
[17]許云,樊孝忠,張鋒.基于知網的語義相關度計算[J].北京理工大學學報, 2005,25(5):411-414.
[18]易麗萍,竹勇,雷小春.知網在詞語相似度計算方面的應用[J]. 人工智能與知識工程,2005 (1):24-26.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”