摘 要 世博多語語言信息處理亟需一部信息全面、結構合理的多語機器詞典。本文就面向世博語言信息處理的漢英機器詞典的編制展開討論。分析了面向特定用途的機器詞典在內容和組織結構上的要求,利用框架網絡(FrameNet)語言資源和框架語義學思想,構想了該機器詞典的主要內容——“基本詞典+多部專業(yè)詞典”,確定了其組織結構——“基于逐字二分+基于二級Hash”。
關鍵詞 世博語言信息處理 機器詞典 框架語義學 逐字二分 Hash方法
機器詞典又叫電子詞典,是“基于計算機以及計算語言學理論而開發(fā)的語言處理和識別系統(tǒng)”[1]。根據(jù)其用途,機器詞典可以分為機讀人用詞典和機器可循詞典兩大類,前者是為讀者提供服務的,后者是為計算機處理語言信息服務的。機器可循詞典是“具備了MT(machine translation,機器翻譯)系統(tǒng)或其他自然語言處理系統(tǒng)可以直接利用的框架或格式的詞典”[2]。本文討論的面向世博語言信息處理的漢英機器詞典是一種機器可循詞典,是具有特定用途的機器詞典。
2010年上海世博會是多語言信息處理的“練兵場”,而多語機器詞典則是多語言信息處理系統(tǒng)的基礎,本文僅就漢英雙語機器詞典的編制展開討論。
一、世博語言信息處理對機器詞典的要求
漢英機器詞典的質量主要取決于兩方面:一是詞典的內容,即詞典中收錄哪些詞。它對漢語分詞精度有著很大影響,事實上在漢語分詞過程中,該機器詞典的作用就是一部分詞底表。一部好的詞典要具備通用性好、覆蓋率高的優(yōu)點。二是詞典的組織形式。它對系統(tǒng)的速度有著很大影響。系統(tǒng)在進行自動分詞、詞性標注、句法分析、語義分析和譯文生成等時需要頻繁地查詢詞典,詞典的查詢速度直接影響到整個系統(tǒng)的速度并進而直接影響系統(tǒng)的整體性能。
對于世博語言信息處理而言,機器詞典首先是一部漢語自動分詞的底表,因此在詞條的選取上要盡可能全面和通用。世博語言的特點之一就是未登錄詞(即詞典中沒有出現(xiàn)的詞),尤其是專有名詞較多,這是漢語自動分詞的難點。機器無法自動識別未登錄詞,這會導致詞語切分出現(xiàn)錯誤,從而導致后續(xù)的詞性標注、句法分析和語義分析產生錯誤,降低系統(tǒng)處理的準確性。再完備的通用詞典也無法窮盡世博語言中出現(xiàn)的未登錄詞,因此,面向世博語言信息處理的漢英機器詞典的編制就要考慮到大量未登錄詞,尤其是大量專有名詞的問題,不僅通用性要好,詞條覆蓋率也要很高。機器詞典本身又是一個語言知識庫。知識庫中的語言信息是形式化表示和存儲的,以便于計算機的讀取、調用和處理,所以要盡可能詳盡地標出詞條的各種語言信息。對于雙語詞典而言,它既能作為漢語自動處理時的分詞底表,又可作為包含豐富雙語信息的知識庫。如何盡可能窮盡地收錄世博語言信息處理所用的未登錄詞以及添加哪些所需的語言知識,將是該機器詞典在內容編制方面所面臨的首要問題。
機器詞典的組織形式,目前最常用的主要有基于整詞二分、基于TRIE索引樹和基于逐字二分的分詞詞典結構等。從實驗結果來看[3],就綜合性能而言,基于逐字二分的分詞詞典結構更為優(yōu)越。對于最大匹配分詞法和全切分分詞法而言,基于逐字二分的分詞詞典機制與基于整詞二分的分詞詞典機制相比,處理速度分別提高了15.3倍和16.6倍,效果十分顯著。因此逐字二分的分詞詞典機制是一種簡潔、高速的詞典組織模式,最大程度地滿足了實用型漢語自動分詞系統(tǒng)的現(xiàn)實需要。對于雙語機器詞典而言,其查詢和索引方式同分詞詞典,但必須經過二次檢索。在二次檢索過程中不可避免地會出現(xiàn)一些問題,最主要的問題是數(shù)據(jù)塊溢出(沖突)。不過,一種基于Hash(即散列表)方法的機器翻譯詞典組織形式可以很好地解決這個問題[4]。因此,如何很好地將基于逐字二分的詞典組織形式和基于Hash方法的詞典組織形式結合起來,也是面向世博語言信息處理的漢英機器詞典要解決的問題。
二、面向世博語言信息處理的漢英機器詞典編制
針對上述詞典內容和組織結構上的問題,我們的解決方案是:
內容上采用“基本詞典+多部專業(yè)詞典”的模式?;驹~典為通用詞表,收詞134840條??紤]到詞典必須為語言信息處理的各個環(huán)節(jié)所用,每個詞條都靜態(tài)地給出了詞法信息、語法信息、語義(概念)信息、搭配信息和譯語信息等。除了詞法信息和概念信息為定長外,其余信息均為不定長字段。此外,一個漢語詞可能具有不同的語法屬性,具有某語法屬性的一個詞又有可能包含多個概念屬性。我們的做法是將詞按不同的屬性分列為不同的詞條,這樣可以提高訪問速度,以空間換時間。專業(yè)詞典針對世博語言的特點,暫定為10部,包括《世界地名詞典》、《中國城市名詞典》、《中國旅游景點詞典》、《世界文化和自然遺產名錄詞典》、《菜譜、飲料詞典》、《賓館詞典》(包括國內五星級賓館名錄)、《旅游交通詞典》(包括上海市主要街道名稱)、《會展詞典》、《世界各國/地區(qū)貨幣詞典》、《世界各國/地區(qū)度量衡詞典》等,所有詞典均為漢英雙語機器詞典。其中,《中國旅游景點詞典》和《世界文化和自然遺產名錄詞典》里要有具體的內容介紹,《世界各國/地區(qū)貨幣詞典》和《世界各國/地區(qū)度量衡詞典》里要有相互轉換信息。這樣,預計詞典收詞量達到30萬條左右。專業(yè)詞典旨在解決世博語言處理中的未登錄詞的識別問題。該詞典的總體構架為“3個數(shù)據(jù)庫+2個系統(tǒng)”,即詞庫、例句庫和語料庫以及檢索系統(tǒng)和查詢系統(tǒng)。詞庫包括上述基本詞典和專業(yè)詞典;例句庫與詞庫相鏈接,為詞條提供必要的例句支持,例句多選用與世博相關的內容;語料庫為漢英雙語語料庫,旨在為詞庫提取新詞和為例句庫提供更多例句。整個詞典通過檢索系統(tǒng)完成詞條的篩選和例句的選擇,通過查詢系統(tǒng)實現(xiàn)詞典的查詢,從而形成整個機器詞典的架構。如下圖所示:

詞典組織結構方面的工作,主要是詞典查詢系統(tǒng)的設計。本詞典采用“基于逐字二分+基于二級Hash”的形式,即基本詞典采用基于逐字二分的詞典結構,專業(yè)詞典采用基于二級散列表的詞典結構。由于詞典中詞條的長度可變,因此要實現(xiàn)詞典的隨機查詢功能就必須建立詞索引表,詞索引表的一個單元只能含有一項內容,即詞典正文指針,用以指向詞在詞典正文中的位置。通過詞索引表和詞典正文,可以很容易地在基本詞典內實現(xiàn)詞的二分快速查找。專業(yè)詞典的詞條查詢采用二級Hash方法,即以詞條中的詞碼為關鍵字,由兩級Hash函數(shù)求得詞條的地址。兩級Hash函數(shù)是根據(jù)漢字系統(tǒng)和漢英機器翻譯詞典的特點,以及分詞的實際需要而設計的。通過二級Hash方法,我們只需經過一次Hash運算就可以直接定位漢字在首字散列表中的位置。將逐字二分查找與首字Hash映射相結合,經一遍掃描就可以得到全切分結果。同時,將查詢的兩方面內容合二為一,一次查詢就可以獲得所需的數(shù)據(jù)。
三、機器詞典釋義體系的語言學基礎
框架語義學(Frame Semantics)是美國語言學家Fillmore在20世紀70年代末提出來的,源于他本人早先提出的“格語法”(Case Grammar)理論。框架語義學是一種建立在經驗主義基礎之上的意義觀,認為語言的意義在于人類如何對世界進行“范疇化”和“概念化”。Fillmore對“框架語義學”和“框架”的描述是:“一個經驗主義語義學的研究計劃,同時也是一個用來呈現(xiàn)這類研究的結果的一個描述框架??蚣苷Z義學提供了觀察詞語意義的一種特別的方式,同時也試圖刻畫一種語言產生新詞和新短語,以及向已有的詞語里增加新的意義,或將一段文章中各成分的意義組裝到一起,從而形成整篇文章的全部意義等所需要遵循的原則。通過‘框架’這個術語,我在腦海中建立起了全部的概念系統(tǒng)。理解了一個概念系統(tǒng)中的某個概念,將之置入到一個文本或一次交談中,(該概念結構中)其他所有的概念都自動被激活……”[5]也就是說,我們之所以能夠理解語言中詞的意義,首先是因為我們頭腦中有一個概念結構,這個概念結構為詞在語言及言語中的存在和使用提供背景和動因。這個概念結構就是語義框架。[6]Fillmore認為,“框架”作為在對語言意義的描寫中起作用的一個概念,是跟一些激活性語境(motivating context)相一致的一個結構化的范疇系統(tǒng)。一些詞語的存在,就是為了將這些框架知識提供給交際中的參與者,同時完成對框架的范疇化。在框架語義學中,句法與語義的關系可以表述為:詞匯語義框架提供了“內容”,而語法結構則在內容之上來完成“配置”功能。也就是說,任何語法范疇或模式,都把自己的“框架”強加在它建造起來的材料上。因此,一項重要的工作就是“準確地揭示出詞語和范疇之間關系的性質;以及范疇與背景之間關系的性質”[7]。
面向世博語言信息處理的漢英機器詞典的編制就是以框架語義學為理論依據(jù)建立起來的,詞典的釋義體系充分利用了大型詞典知識庫FrameNet(框架網絡)的資源,確立了漢英對應的語義框架803對、核心框架元素765對和非核心框架元素443對,為語義標注賦碼提供了標記集。在此基礎上對詞典中大部分詞條進行語義標注,能方便機器理解自然語言的意義。
四、面向世博語言信息處理的漢英機器詞典的特點
與其他機器詞典相比較,該詞典具有以下特點:
該詞典專門面向世博會,收錄了大量的專有名詞和未登錄詞,這就為在世博語言領域內解決自動分詞的難點之一——未登錄詞識別和處理提供了基礎資源。
本詞典的例句全部來自漢英平行雙語語料庫,而收集到的雙語語料全部為真實語料,內容均涉及世博會主題??梢哉f,該詞典同時又是一部對外漢語教學世博專題的語言教材,具有廣泛的開發(fā)和應用價值。
本詞典不僅具有紙質雙語詞典的所有語言功能,還有詳盡的知識體系和完備的標引系統(tǒng),不僅可以滿足普通用戶的字詞查找對譯需求,也可以滿足專業(yè)用戶對大規(guī)模雙語語料的自動處理需求。同時,還可以應用到非世博語言信息處理領域,也為奧運語言信息處理等提供可資借鑒的思路。
附 注
[1]章宜華.計算詞典學與新型詞典.上海:上海辭書出版社,2004:159.
[2]趙鐵軍等.機器翻譯原理.哈爾濱:哈爾濱工業(yè)大學出版社,2000:58.
[3]孫茂松等.漢語自動分詞詞典機制的實驗研究.中文信息學報,2000(1):1-6.
[4]王秀坤等.基于Hash方法的機器翻譯詞典的組織與構造.大連理工大學學報,1996(3):352-355.
[5][7]Fillmore C J.Frame Semantics.∥Linguistics in the Morning Calm.Seoul:Hanshin Publishing Co.,1982.
[6]李安興.框架語義學、語料庫建設與漢英詞典新詞的譯名.∥張紹麒主編.辭書與數(shù)字化研究.上海:上海辭書出版社,2005:213-218.
參考文獻
1.嚴蔚敏等.數(shù)據(jù)結構(C語言版).北京:清華大學出版社,2002:251-257.
2.劉群等.漢英機器翻譯擴充詞典的建造.∥機器翻譯研究進展.北京:電子工業(yè)出版社,2002:25-33.
(張霄軍 南京師范大學文學院 江蘇 210097 陜西師范大學外國語學院 西安 710062)
(陳小荷 南京師范大學文學院 江蘇 210097)
(責任編輯 王慧敏)