摘 要:本文在對Wordnet和Hownet進行簡單介紹的基礎上,從理論基礎,設計原理與建設方法,目的與應用這三個大方面進行了比較。從而找出兩個系統的相似之處和差異,以期對自然語言處理有所幫助。
關鍵詞:Wordnet;Hownet ;比較;語義
作者簡介:張笛,臨沂大學外國語學院講師,語言學。
近年來,隨著計算機本身以及信息高速公路的飛速發展,人們開始更加重視語義的研究。各國都致力于可用于自然語言處理的大規模語義詞典或大規模知識庫的建設。例如:普林斯頓大學的英語Wordnet,微軟的Mindnet,歐洲有基于Wordnet的Eurowordnet,日本的日語和英語的概念詞典,韓國的Koreanwordnet,中國有以Wordnet為框架而研制的現代漢語概念詞典——中文概念辭書(CCD)和董振東、董強的Hownet(知網)。
Wordnet是一個在線的英語詞匯數據庫(詞匯參照系統),而Hownet是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。現在兩者都被放在網上,供人們使用,并且可以參與他們的完善、擴展和發展。所以,本文擬把二者放在一起進行比較研究,找出兩個系統的相似之處與差異,取長補短,以期為自然語言處理尋求一個較為完善的語義關系系統。
一、理論基礎
首先,二者都以一種“模式假設”(patterning hypothesis)為前提和理論基礎。其次,“理解性假設”(comprehensiveness hypothesis)也是二者的理論基礎。但二者的理論基礎不同之處也很多。Wordnet的一個較主要的理論基礎是“可分離性假設”(separability hypothesis)即語言的詞匯成分可以被離析出來并專門針對它加以研究。
Hownet的最重要的理論基礎是它的哲學。其根本點是:世界上一切事物(物質的和精神的)都在特定的時間和空間內不停地運動和變化。部件和屬性這兩個單位在Hownet的哲學體系中占有著重要的地位,一個事物被視為是整體還是部件,可以因系統的不同而不同對待;而關于對屬性的認識是:任何一個事物都一定包含著多種屬性,事物之間的異同是由屬性決定的,沒有了屬性就沒有了事物。
二、設計原理與方法
二者的建設方法最明顯的相同之處就是自上而下的方法。具體來說,Wordnet是以同義詞集合作為基本構建單位進行組織的。Hownet則是先提取義原,以它為基本構建單位進行組織的。雖然細節不同,但總的指導性建設方法還是相同的。具體的設計原理與建設方法上,兩者的不同點就凸現出來了。
1、Wordnet 的基本設計原理是它的“詞匯矩陣模型”
一個詞匯矩陣從理論上可以用單詞與其同義詞集合之間的映射來表示。當某個詞有多個同義詞時,通常同義詞集合足以滿足差異性的要求。當然,同義詞是詞形之間的一種詞匯關系,但由于這種關系在Wordnet中被賦予了中心角色。因此,同義關系的詞被放在{}中,與其他被放進[]中的詞匯關系的詞區別開來。Wordnet是按語義關系組織,由于語義關系是多個詞義之間的關系,而詞義用同義詞集合來表示,因此很自然地把語義關系看作為同義詞集合之間的一些指針。
2、Hownet的基本設計原理是把概念與概念之間的關系以及概念的屬性與屬性之間的關系形成一個網狀的知識系統。這是它與Wordnet的本質不同。Hownet的建設方法的一個重要特點是自上而下的歸納的方法。通過對全部的基本義原進行觀察分析并形成義原的標注集,然后再用更多的概念對標注集進行考核,據此建立完善的標注集。無論是義原的提取還是義原的考核與確定,在Hownet的建設中都是至關重要的并具有決定意義。
三、描述關系的比較
1、上下位關系
這是二者都有的。Wordnet是詞義之間的語義關系。Hownet的上下位關系由概念的主要特征體現,也具有繼承關系。
2、同義關系
同義關系是二者都有的。Wordnet最重要的關系是同義關系。Hownet對于同義的定義與Wordnet相似,都采取了較寬泛的定義,只是Wordnet的同義關系是顯性的,而Hownet的同義關系是隱性的。
3、反義關系
Wordnet對于反義關系采取了直接反義和間接反義兩種關系都包括的方法。Hownet中的反義關系比Wordnet定義的還要寬泛,只要屬性值一樣就可以形成反義關系。
四、目的與應用
1、目的
Wordnet一開始要建立一個詞典瀏覽器,后來又發展成自足的詞匯數據庫和語義或義類的機讀詞典。而Hownet是要建立一個面向計算機的知識庫,揭示多重語義關系網絡,為自然語言處理系統的建立提供最終需要的知識庫。
2、應用
由于二者都是為自然語言信息處理服務的系統,那么二者的應用有交叉。例如,二者都在進行意義排歧,語義分析,語料庫語義標注,信息過濾和分類,機器翻譯等方面有著十分廣泛的應用。
兩者又有自己獨特的應用領域。例如,Wordnet由于許多國家都在它的基礎上建立了詞匯數據庫,那么Wordnet就可以進行多國語處理的詞匯轉換。由于它的內部結構是以層次為主,所以可進行信息語義層次檢索,還可以進行主題名義識別和圖像檢索等;而Hownet也有它自己的應用領域,如:基于Hownet的內部語義關系建立,語料庫句法關系標注,信息檢索系統自然語言接口。還有它關于漢語方面研究與應用的獨特之處,如:它的信息過濾和分析系統都是雙語的,可以進行事件角色語義特征的提取。把Wordnet和Hownet結合起來的典型應用要算基于兩者建設的雙語語義詞典。
五、小結
經過對Wordnet和Hownet的一番比較,可以看出二者雖然是兩種系統,但把二者結合起來研究,找出各自的不足之處,對自然語言處理研究還是有一點幫助作用的。Wordnet的詞語概念是夠用,但關系方面不足以支持推理。Hownet恰恰就是這樣一種推理的知識庫。Wordnet可向Hownet吸取這一點。Wordnet幾乎沒有關于句法方法方面的標注。而Hownet作為一個面向計算機并借助于計算機建立的常識知識庫,它在語義知識構建方面明顯優于Wordnet,而且許多現在Wordnet正致力解決的問題,在Hownet中都不是問題。所以在面向自然語言的信息處理方面,Hownet要優于Wordnet。當然Wordnet的研究人員也從來覺得這是一個“完工”的項目,Wordnet仍在繼續發展中。
參考文獻:
[1]Miller.G.A, Beckwith, R.., Fellbaum, C., Cross. D., and Miller. K., “Introduction to Wordnet : Lexical Database”[J], in five Papers on Wordnet, CSL report, Cognitive Science Laboratory, Princeton University, 1993.
[2]陳秀群,一個在線義類詞庫:詞網Wordnet [J],語言文字應用,1998(2).
[3]董振東 董強,面向信息處理的詞匯語義研究中的若干問題[J],語言文字應用,2001(3).