一個用于英語學習詞典編纂的機輔詞編系統的實現

2008-12-31 00:00:00熊文新陳國華

現代教育技術 2008年8期

【摘要】文章探討了國內外機輔詞典編纂系統的研究現狀以及各系統的構架，并圍繞學習詞典編寫體例描述詞典數據庫的結構及詞典語法體系，介紹機輔詞典編纂系統的用戶界面及反饋回顯等人機交互方法如何貫穿于詞典編纂的整個過程，最后給出了系統的改進方向。

【關鍵詞】學習詞典；機輔詞編系統；詞典語法；用戶界面；反饋

【中圖分類號】G40-057 【文獻標識碼】B 【論文編號】1009—8097 (2008) 08—0063—05

一引言

英語學習詞典從20世紀30年代誕生到如今，經歷了從手工編撰到計算機輔助編纂兩個階段。自80年代以來計算機和語料庫的使用發揮著越來越重要的作用[1]。當前英美各種主流英語學習詞典無一不是靠計算機輔助（簡稱“機輔”）編寫的。我國機輔詞典編纂（簡稱“機輔詞編”）系統相對發展較為滯后。最近，在參考國際相關系統基礎上，結合具體詞典項目，我們為一部新型英漢學習詞典開發了一套完善的機輔詞編系統。系統設計原則參考另文[2]。本文主要介紹該機輔詞編系統的設計實現。全文組織如下：首先介紹國內外機輔詞編系統的現狀，然后闡述新一代學習詞典的設計理念及其對機輔詞編系統的要求，接著圍繞詞典體例描述詞典數據庫結構及詞典語法，介紹用戶界面及反饋回顯等人機交互方法如何貫穿詞典編寫整個過程，最后給出該系統的發展方向。

二國內外現狀

計算機用于大型詞典編纂能夠提高詞典編寫效率與質量，減少詞典面世時間，縮短詞典再版周期已成為業界共識。為此，許多商業公司和學術團體參與研制開發此類系統。如法國多媒體傳播工程公司（Ingénierie Diffusion Multimédia）開發的詞典產生系統[3]；美國國際語言學暑期研究所（SIL International）為語言田野調查服務的詞庫管理工具Lexique Pro；捷克Masaryk大學研制的詞典編寫和瀏覽器DEB [4]；南非TshwaneDJe公司出品的詞典編輯系統TshwaneLex[5]；法日發起的開源多語詞庫管理項目彩蝶Papillon[6] 等。中國也有一些單位嘗試利用計算機實現詞典自動生成或輔助編寫工作[7]。

總的來看，計算機在詞典編纂中的應用目前多數集中在對語料庫的例句檢索以及詞條的編寫和維護。前者通過建立語料庫和詞典編纂的接口[8]，使詞典數據內容真實可信；后者多建立客戶機/服務器模式，完成詞典數據的采集整理。一般是在后臺利用關系型數據庫或XML形式存儲詞典數據，前端界面接受用戶的輸入的詞條信息內容。

當前主流機輔詞編系統的設計特點可以概括為：（1）信息輸入借由良好的用戶人機接口環境實現；（2）海量數據的存儲管理由后臺數據庫承擔；（3）編寫過程中不同程度地利用語料庫作為支撐。但應該看到，學術團體圍繞某一具體項目研制的系統常受制于詞典的具體設計，難以推廣；商業系統則常把詞典維護管理當作典型的信息管理系統開發，缺乏詞典學指導，費用也比較昂貴。同時由于國際國內計算機、網絡使用情況不一，難以直接使用。

在沒有一定規模可用的合適語料和較好的自然語言處理方法之前，在實際詞典的編纂中追求計算機的自動生成無疑不太現實。為此，我們把目標限制在計算機輔詞編系統上，即充分利用計算機的存儲和檢索功能，使編寫人員集中精力在提升詞典語言質量上，無需在編寫過程中陷入內容和形式的照應困境，顧此失彼。

三知識庫設計

機輔詞編系統服務于詞典編纂這一終極目的。詞典自身的規劃設計決定系統應用的成敗。在本項目中我們的定位是一部適用于中國英語學習者的高階學習詞典。與市面上現有大多數英漢雙語詞典的不同在于，它切合學生英語學習實際，對詞條的釋義嚴格采用對應詞形式，注重搭配，增設了多個有針對性的學習欄目。

1 詞典編寫體例

一部好的詞典在編寫之初，就應該規劃好詞典的設計原則。這涉及到詞典編寫體例上的安排。詞典編寫體例包含詞典要記錄的信息內容和形式。其中，內容包括要描寫清楚一個詞條需要用到哪方面的信息；形式指特定信息描述項應以何種樣式（包括描述項的排列順序及不同描述項的形式上的區別）呈現。

詞典主要描述結構表示如下：

詞典::=詞條*

詞條::=（主詞條|次詞條）*

我們規劃中的學習詞典有將近10萬個詞條。詞條又可分為主詞條（作為詞目詞單設）和依附于主詞條的次詞條（不單獨立目）。一個典型詞條的完整框架包括詞目詞、注音、構詞、不規則形式、詞類標識、語法標識、語用標識、詞頻標記、釋義、例證及特色欄目等。其中，對主詞條而言，詞目詞、注音、詞類標識、語法標識、釋義等是常見的信息必有項（obligatory information item），此外還可能包含不規則變化形式、構詞、詞頻標記、例證、插圖、短語、習語、短語謂詞、派生詞等內容以及辨析、注意、文化、搭配等信息可選項（optional information item）。短語、習語、短語動詞、派生詞等常以次詞條形式附屬于主詞條之下，但描寫框架類似主詞條，也包含有釋義及例證等必有或可選內容。

雖然根據詞典屬性，我們區分了信息描述項的必有和可選性，出于錄入數據的完整性和簡化操作界面的考慮，我們從滿足最復雜詞條信息項的描寫要求出發，將所有描述信息項設計成一個模板（template），允許其中某些可選項的取值為空。一旦實際出現某些信息項，則對這些信息項的排列將嚴格遵循描寫順序，按照編輯體例中的呈現形式表現出來。

2 數據庫結構設計

根據詞典編輯體例，結合計算機實現技術，我們采用比較成熟的關系型數據庫存儲詞典數據。數據庫中每一張表（table）對應于一部詞典；每條記錄（record）對應于詞典中的每個詞條。每個字段（field）對應于每個詞條應包含的信息描述項。由于不同詞條的描述詳盡程度不一，設計字段時，應充分考慮每個字段的性質和實際容量，以期完整保留詞典數據。

在本項目中，根據詞典編寫體例規范，設置基本數據庫結構如下：

字段“序號”采用自動編號，在將用戶鍵入的信息內容入庫時由機器動態生成。每個詞條具有唯一的確認標識。該序號用來甄別詞形相同，但卻分屬不同詞目詞的同形異義詞。如設有詞形相同的兩個詞條：A1（表示數量的determiner）和A2（表示安培的noun），因其生成序號不同，憑此標識可以區分為兩個不同的同形詞。

大多數字段如“詞目”“音標”“不規則形式”“其他拼寫形式”“構詞”等描述長度有限，可用文本型字段存儲。由于學習詞典的性質，對某些詞語可能會根據中國學生學習英語過程中的常犯的錯誤，補充追加額外信息，像詞語辨析、使用時應注意的問題、特定的文化知識背景與圖片及固定搭配等。這些信息并不是每個詞條都有，描述長度也不確定。我們把它們都各自單獨存為一個文件。數據庫中存儲的是相應文件名，而非數據內容本身。這些情況出現在數據庫的“辨析”“注意”“文化”“插圖”“搭配”等字段。生成詞典時再根據這些文件名獲取數據內容，與其他字段的文本共同構成完整的詞典。因此這些字段也設計成文本數據，以節省空間。

文本型字段的取值，根據它是否與其他字段的取值存在依賴關系，分為獨立取值數據和非獨立取值數據兩類：

（1）獨立取值數據

大部分字段具有獨立取值特性，如任何詞目詞都可能存在不依賴其他字段的“詞類”及“音標”屬性，即這些字段具有自足性。

（2）非獨立取值數據

有些字段的取值依賴于其他字段的取值。譬如“語法標識”“不規則形式”的取值依賴于“詞類標識”的取值，像只有名詞才有“可數”“不可數”的區別，也只有可數名詞才會有復數的不規則變化形式。

針對文本型數據，還可以根據其數據取值是否封閉，分為固定取值和非固定取值兩類：

（1）固定取值數據

“詞類標識”“語域標識”“地域標識”“語法標識”“學科標識”及“詞頻標記”的取值是由編輯體例設置的有限封閉集中的具體某個元素或某幾個元素的組合而成，像詞類標識的取值只能在由11大詞類、4個次類謂詞、2個詞綴和1個符號構成的18種標記中選擇。

（2）非固定取值數據

有些字段取值是開放的，如“詞目詞”“不規則形式”等字段沒有固定取值，不同詞語有不同的拼寫形式，形態變化也不相同，需要編寫人員錄入相關數據。

字段“義項”相對比較復雜。譬如每個詞語的義項個數不一；釋義和例證的數量和長度也不能一刀切；有時還可能插入一些該義項特有的語法語義信息等。數據庫文本型字段的容量有限，難以承載，因此需要引入備注型（memo）字段。

字段“義項”的復雜性還在于詞典數據庫以詞條作為記錄。詞條排列以主詞目詞為起頭詞，某一詞條下可能還有其他依附的次詞條，如從主詞目詞衍生的派生詞、短語等。這些次詞條具有與主詞條類似的信息描寫框架，如詞性、釋義等，這樣就形成詞條描寫中的嵌套關系。一個詞條屬下有多少個次詞條，編寫之前并沒有一個準確的數字，因此義項字段長度仍然不能事先確定，這也促使我們選擇相對具有彈性的備注型字段作為容器。“義項”字段實際包容詞條描寫的其他字段信息。由于各類異質信息都集中在一個字段中，后期詞典加工還需要引入詞典語法（dictionary grammar）來處理。

3 詞典語法

在成品詞典的版式中，詞條的不同信息項有相對固定的編排順序和各自的格式安排。設計數據庫結構時，應該盡可能將需要區分的信息項由不同字段來描述，如從詞目詞字段取出的文本統一用Arial in Bold字體顯示，詞類標識用Italic字形體現。針對復雜的義項等復雜信息，格式化顯示時，對這類信息加以特別解釋。

依據詞典微觀結構，我們構造了一個適應本項目的詞典語法。詞典語法的作用主要有兩類：其一是實現區分詞條信息描述項的通用解釋方法；其二是為強調信息描述項內某些文本提供特定的處理方法。

通用解釋方法主要解決義項中的信息描述項的嵌套使用。根據編寫體例，一條詞語如果有多個詞類，那么以該詞形作為主詞目詞；其他不同詞類及其相應的描寫項不獨立立目，但在形式上單列一行，并加“—”以示凸顯。如果是某一詞語的派生詞及短語搭配則需另立次詞條，并在形式上縮進，以示與主詞條的區別，其他信息描述項與主詞條相同。數據庫存儲時在“義項”字段的描述信息中添加“-”“+”等標識信息，表明該標識之后的文本應采用哪種顯示格式。

在“義項”字段中嵌套描述的信息項內部不再有字段的顯性區分，我們設計了一套原有字段特定的形式標記。在對詞典信息內容形式化輸出時，根據輔助格式標記，取出各自的信息描述項，按照編輯體例的要求統一進行格式化輸出。

信息描述項特定內容的凸顯針對某些需要強調的文本內容，通過插入類XML標識實現。如學習詞典安排有大量例證，其中有典型意義的固定搭配常常淹沒在大量文本中，不容易找到，特別是在信息量大、印張有限的印刷本中。系統支持由等類XML形式標出的特定格式信息，并根據這些標識信息輸出帶有特定格式的文本。

四人機交互實現

由于本項目英漢學習詞典的定位，不僅需要描寫詞語的讀音、拼寫形式及意義，對某一詞語如何使用、與其它詞語的辨析等語言應用方面的知識內容也應該盡可能詳細地列出。這使得本部詞典中每個詞條的描寫信息項遠比普通雙語詞典要多得多，對這些描寫項的格式要求也復雜得多。

對于一部好的詞典來說，語言質量是其生命。我們不能指望編者在專注于提升詞條語言質量的同時還能記住各種復雜的體例格式和繁瑣的排版指令。為此，有必要設計一個良好的人機交互界面，使得編者從內容和形式兼顧造成效率低下并且容易出錯的困境中解放出來。詞典界面如圖1所示。

1 用戶界面設計

在Windows環境下，利用C#制作出前端用戶界面，編者只需通過程序依據編輯體例提供的各種輸入框中鍵入相關信息內容，系統在后臺自動記錄用戶輸入的信息內容并將其保存到數據庫特定表的特定記錄中。

系統工作界面主要可分為數據瀏覽區、詞條編輯區和反饋顯示區三部分。數據瀏覽區提供對數據庫記錄（對應于詞典中的詞條）的基本增刪改操作，實現對指定檢索條件下的特定類（如詞類、詞語起始字母）等的詞條檢索以及詞條在數據庫庫首、庫尾及向前、向后的位置定位。詞條編輯區針對當前處于活動狀態的詞條可以進行任一字段的信息編輯，包括各信息描述項的增、刪、改操作以及同一類型多個信息內容塊的順序調整（如義項或例證的調序）；反饋顯示區用來顯示活動狀態的詞條依據詞典編輯體例的格式化信息內容。

詞典項目的日常工作主要是在詞條編輯區完成。系統根據數據庫結構定義的字段，以列表框（combobox）形式呈現具有固定取值的字段內容，如詞類標識、詞頻標記等，用戶可以直接選取框中預定義的屬性值，防止鍵入其他不規范內容，造成體例的混亂；以輸入文本框（textbox）接受其他開放性字段內容。系統根據當前編輯的主字段取值，動態呈現依附字段的輸入框。嵌套描述的信息描述項采用通用模板呈現。根據用戶在特定輸入框中的鍵入信息，將其保存到相應數據庫記錄字段，或根據編輯體例和詞典語法，添加各類輔助區別信息添加到義項字段，從而實現詞典編寫過程的詞條信息入庫。

本項目一大特色是采用對譯詞釋義，幫助學生準確掌握詞語的確切意義。為方便編者快速選定釋義，系統嵌入了英漢對譯詞檢索器[9]，可以通過菜單調用。同時還配備有從多個語料和詞典資源中篩選的經典例句庫檢索，使得機輔詞編系統不僅具有規范編寫格式的功能，同時還能切實提高詞典的語言質量，從形式和內容兩個方面為詞典項目服務。系統同時結合自然語言處理技術，利用淺層句法分析，結合統計方法，實現了英語詞語搭配的輔助發現，并將其運用到詞典編纂中，使得學習詞典同時具有搭配詞典的特點，更方便學習者學到地道純粹的英語。相關實現處理方法，另文撰述。

詞典數據涉及到知識產權的保護。詞典項目的完成是一個需要多人協作、費時經年的過程。其中涉及到不同角色工作人員之間的數據交換，通過設置登錄口令，賦予不同權限，使得系統能夠在主編領導下實現信息資源的共享，同時杜絕詞典數據的篡改或外泄。

2 信息反饋

詞典編寫是一個實時糾偏的過程，編者對于所編寫詞條應該了然于胸。為使編寫人員能夠隨時自我檢查詞條的編輯質量，系統利用RichEdit控件，依據詞典語法實現了一個讀取數據庫內容并動態顯示當前詞條的反饋界面。其實質是建立一個良好的人機交互環境。

由于系統在接受用戶詞條編寫時，考慮到描述信息的完整性，采用了完全模板形式。為防止用戶在對詞典編寫體例理解不透的情況下，這種設計有可能導致用戶誤輸入錯誤信息，因此在每完成一個詞條編寫的同時，系統將在反饋顯示區展現當前詞條在最終詞典中的版面形式。編者可以直觀地發現可能存在的錯誤，并回到數據編輯區有針對性地在有錯誤的操作區重新編寫該詞條。

信息反饋使詞典數據內容與表現形式有機統一起來。應該指出的是，信息反饋的呈現頁面依據的是詞典語法。而詞典語法又是由編寫體例決定的。當體例變遷時，可以按照新體例動態展現新的詞典格式。這樣就無需重新修正詞典描寫信息內容，隨時輸出不同樣式的詞典排版頁面。

五結語

本系統充分考慮到詞典編寫人員分散；聯機成本較高、在線時間難以保障；用戶計算機操作不夠熟練等各種因素，利用C#設計了一個友好的人機用戶界面，利用數據庫技術進行有效的詞典管理，利用語料庫保障了詞條例證及搭配信息的準確可靠性。同時詞典信息內容的格式反饋也增強了系統的用戶友好性。從目前運用情況來看，項目組成員正在緊張有序地利用這個工具開展工作。我們在本項目中實現的系統對于提升詞典編纂效率，實現詞典編輯過程的無紙化辦公及將來的詞典出版具有重要意義。

當前機輔詞編系統還需要引入拼寫檢查，數據壓縮，并盡可能與專業排版軟件接軌，雖然當前可以直接調用Word拼寫功能，但額外調用耗費資源，我們計劃自主開發或利用第三方資源完成。數據壓縮可以保存更多詞典數據并有效傳遞，這可以利用現有數據庫管理工具實現。當前系統植根于微軟體系，對于輕量級排版系統可以勝任，但針對將來與現有主流排版系統的接軌，實現數據內容直接印刷輸出，可以考慮采用文本的XML化，以尋求更好的數據交換接口。

參考文獻

[1] 陳國華，田兵.基于英漢對譯語料庫的《中國學生英語學習詞典》的研編[R].北京外國語大學，2006.

[2] 陳國華，熊文新.英語學習詞典機輔編寫系統的設計原則與實現[J].外語電化教學，2007，(5):3-7.

[3] McNamara，M. Dictionaries for all:XML to Final Product[A]， XML Conference Exposition Powering the Information Society[C]，2003.

[4] Pala，K.，A.Horak，M.Povolny，et al.DEB II - Platform for a Lexicographic Station[A].Computer Treatment of Slavic and East European Languages[C].Slovakia:Slovensky narodny korpus.2006.

[5] Joffe，D. G-M de Schryver.TshwaneLex:A State-of- the-Art Dictionary Compilation Program[A].Proceedings of the 7th EURALEX International Congress[C]，2004.

[6] Boitet，C.，M. Mangeot-Lerebours，G.Sérasset.The PAPILLON project:cooperatively building a multilingual lexical data-base to derive open source dictionaries lexicons[A].Proceedings of the 2nd Workshop NLPXML [C]，2002.

[7] 高景和. 英漢、漢英雙語詞典編纂出版的發展趨勢[J].大學出版，2002，(3):22-23.

[8] 陳國華，梁茂成，Adam Kilgarriff.語料庫和詞典編纂的接口[A]，廣東外語外貿大學學報(增刊)(中國辭書學會雙語詞典專業委員會第6屆年會暨學術研討會論文專輯)[C]， 2005，(16):116-120.

[9] 陳國華，王立欣，梁茂成等.英漢/漢英對譯語料庫對應詞檢索器[J].外語電化教學，2006，(6):11-16.

現代教育技術2008年8期

現代教育技術的其它文章: 《教育管理研究》與《學科教學研究》征稿函; 北京師范大學等３２所高校招中職教師讀碩士學位; 人力資源和社會保障部、教育部表彰第三批教育系統抗震救災英雄集體和抗震救災英雄; 廣西建立信息平臺貧困學子將網上申請助學貸款; “ＤＯＩ對期刊出版與傳播的影響”研討會順利舉行; 新書預告