傅愛平 吳 杰 張 弘 李 蕓
人機交互式的漢語辭書編纂系統(以下簡稱“編纂系統”)是中國社會科學院語言研究所研制的一個計算機網絡應用系統,用于漢語語文辭書的編纂。這個系統涵蓋了漢語語文辭書編纂的完整流程,包括新編詞典立項,詞條結構設置,選詞立目,詞條編寫、修改和審定,詞條編審歷程的保留與追溯,輔助詞典成書等,同時也集成了各種語料庫、已有辭書和詞表,供詞典編者參考使用。
多年來,傳統的漢語辭書編纂工作一直是手工操作,費時費力,效率低,很不適應當前科學技術迅速發展、信息數量與日俱增的形勢。近些年,國內先是語言信息處理領域的學者提出了辭書編纂自動化的必要性,中國大百科全書出版社和商務印書館先后嘗試用計算機輔助編纂詞典,北京大學計算語言學研究所和教育部語言文字應用研究所也研制了各自的詞典編纂系統。中國社會科學院語言研究所有著數十年漢語辭書編纂研究和實踐的歷史,積累了豐富的專業知識和經驗。我們研制這個辭書編纂系統,是希望以這些知識和經驗為基礎,應用計算機軟件工程和網絡技術,在大規模語言數據資源和互聯網上人機交互機制的支持下,把語言數據建模、語言信息處理與辭書編纂過程結合起來,改變以往辭書編纂和修訂全部由手工操作的工作方式,提高辭書編纂的質量、效率和科學性,同時為辭書研究和漢語詞匯研究提供數字化的語言資源。
人機交互式漢語辭書編纂系統建立在TOMCAT網絡發布系統上,在WINDOWS SERVER下采用瀏覽器/服務器方式運行。系統程序用JSP、JAVA、HTML等語言編制,主要用Berkeley DB XML(以下簡稱BDB XML)數據庫系統在后臺管理各種語言數據。
編纂系統的總體設計思路是:以語言數據資源的開發和管理為基礎,借鑒語言信息處理的相關研究成果,融入漢語語文辭書編纂的知識和經驗,用人機交互方式管理編寫詞典的工作流程,提供編者需要的各種資料和信息。整個編纂系統由人機交互式工作流程控制平臺、在編詞典數據庫和語言數據資源庫三個子系統組成。圖1是編纂系統的組織結構圖,其中:
(1)人機交互式工作流程控制平臺:按照詞典編纂的流程,根據詞典編者的不同權限,提供從詞條結構定制、選詞立目、詞條編寫、修改和審定、編者信息交流,到詞條過錄、排序、生成檢字表、輸出詞典的各種處理功能和操作界面。在處理過程中編者可以隨時調用語言資源庫的內容,進行語料檢索或統計,查詢各種參考詞典,也可以回溯在編詞典庫中保存的詞條修改和編審的歷史記錄。

圖1 編纂系統的組織結構
(2)在編詞典數據庫:在編詞典是編纂系統人機交互式工作流程的主要操作對象和產出目標。在編詞典的每個詞條以義項為單位存儲,每個義項的內容由各種屬性或特征組成。在編詞典數據庫建立之初,要先由主編根據編纂系統提供的詞條結構模型來確定詞條的內容結構,再由編纂系統生成詞條編寫界面。編者就在這個界面上編寫詞條。編好的詞條可以再修改或提交審定,在編詞典數據庫會保留修改和審定的記錄(包括:修改/審定者、改動內容、修改/審定時間等),以供日后查詢,也能為每個編者保存個人編寫日志。在編詞典一旦編寫完成,編纂系統會自動把它的副本轉為參考詞典。
(3)語言數據資源庫:由詞目總表、參考詞典數據庫、語料庫及其檢索統計模塊組成。詞目總表用開放的方式盡量多地收錄現代漢語的詞語,記錄每個詞語的各種屬性/特征,主要為選詞立目提供素材,也可以在編寫詞條時供編者參考。參考詞典數據庫收集各種已有詞典的各個版本,供用戶在編寫詞條時隨時調閱參考,也可以用于詞典查考和詞匯研究。語料庫里集成了編纂詞典需要的各種語料。檢索統計模塊在編寫詞條時隨時調用,對集成在系統里的語料庫和數據庫進行檢索和統計。
在整個編纂系統的設計中,自然語言數據資源的形式化描述和結構化處理是基礎性的工作,有兩個主要內容:一是用數據建模的方法研究漢語語文辭書的內容結構和漢語語料庫的文本結構,建立辭書內容結構模型和語料庫文本描述模型;二是研制詞典內容結構化處理和語料文本描述的軟件工具,建立基于XML的詞典數據庫和語料庫。這些語言數據資源支撐著整個編纂系統的構造和運行。
編纂系統以人工編寫詞典的知識和經驗為基礎,用歸納與分析結合的方法,對編寫漢語語文辭書的全過程進行需求分析,提出要解決的問題,建立需求模型,描述整個系統的任務流程,確定系統的總體結構和設計方案。在編纂系統中,面向用戶的全部應用功能集成在人機交互式工作流程控制平臺上,位于系統的前臺。
這些應用功能可以分為三類:編寫業務流程功能、編寫業務輔助功能和系統管理功能。前兩項包括詞典編寫過程中的各項操作,有詞條內容定制、編寫任務分派、個人任務、待編詞目、詞目確認、詞條編寫、詞條初審、詞條終審、編寫進程處理、詞條統計、詞條提取和詞條刪除,還有缺字處理、規范用詞的補充等。第三項系統管理功能包括辭書瀏覽、語料檢索、項目管理、詞表管理、人員管理、消息管理、數據管理等。詳情可參見編纂系統操作指南(編纂系統課題組2011)。
進入編纂系統的每個用戶都有自己的權限:主編、組長、編者、訪客。權限不同,能夠使用的功能也不同:
訪客:辭書瀏覽、語料檢索。
編者:除訪客的全部權限以外,還有:待編詞目、詞條編寫、詞條初審、詞條統計和詞條提取。
組長:除編者的全部權限以外,還有:人員管理、任務分配、進程管理、詞條終審。
主編:除組長的全部權限以外,還有:詞條內容定制、詞目確認。
此外還設有系統管理員。他除了有上述所有權限以外,還有系統后臺的全部管理權限,負責系統數據安全、數據備份、用戶管理、項目管理等工作。
圖2是人機交互式工作流程控制平臺的主要功能。

圖2 工作流程控制平臺的主要功能
編纂系統里的詞典數據庫有兩種:在編詞典和參考詞典。前者是系統的主要操作對象和產出結果(可以同時編寫多部在編詞典),后者供詞典編者參考(目前系統收錄了六部參考詞典)。詞典數據資源管理系統在編纂系統的后臺運行,負責所有詞典的內容管理,主要是詞典內容描述、詞條信息標注、建立詞典數據庫、詞典數據庫管理和詞條內容查詢。
從語言信息處理和辭書數字化的角度來看,漢語語文辭書里蘊含著大量系統的漢語文字、語音、詞匯、句法、語義、修辭、語用等信息。要把詞典作為一種語言數據資源用計算機來處理,首先需要把文本形式的詞典轉換成結構化的詞典數據庫。這就需要對詞典的內容進行結構化的描述和組織:描述詞條內容的表現形式和其中蘊含的語言知識;并把這些信息組織成合理有效的數據結構。
在編纂系統中為了給漢語語文辭書建立數據結構,我們提出了用XML Schema表示的辭書內容結構模型XML Schema for Dictionary(以下簡稱XSD)。在這個模型支持下對每一部詞典做結構化處理,建立辭書XML數據庫,用原生XML數據庫系統BDB XML管理和訪問[1],形成了基于XML的詞典數據資源管理系統,它可以創建、管理和訪問編纂系統里的全部詞典數據庫,主要功能是:
(1)用XSD描述詞條內容,建立詞典的數據結構;
(2)根據XSD用自動標注程序對詞典文本做XML標注,描述詞條中包含的各種屬性或特征,再通過人機交互方式校對,得到詞典的XML文檔;
(3)根據XSD用通用XML軟件工具對標注好的詞典XML文檔進行良構性(wellformedness)和有效性(validation)檢驗,保證數據的有效性和一致性;
(4)把通過檢驗的詞典XML文檔以節點方式批量導入BDB XML數據庫系統的容器中,并根據訪問方式設定多線程(進程)鎖策略,自動生成詞典數據庫。不同的詞典在數據庫系統的容器里用命名空間加以區別;
(5)詞典數據庫建立以后,根據編纂系統前臺可能提出的各種檢索需求,針對XML文檔元素設置相應的索引類型,編制適當的索引策略,以達到快速讀寫的要求。此外,通過事務子系統、鎖子系統和日志子系統來處理系統的并發策略;
(6)根據編纂系統前臺客戶端生成的XQuery查詢語境,對XQuery導航函數解釋執行,轉換和返回XQuery的查詢結果,實現多層次元素及屬性查詢、多元素復合查詢、多容器查詢等檢索要求。
除了在編詞典數據庫以外,目前詞典數據資源管理系統里可用的參考詞典數據庫有《現代漢語詞典》第4版、第5版等六部,共307670個詞條。
編纂系統集成了多個語料庫供編寫詞條時查詢,語料資源管理系統在后臺運行,目前有內置語料庫六個,外部語料庫一個。用于詞典編纂的語料庫可以有多種來源、多種類型、多種篇章形式、多種標注方法。為了能夠在編纂系統里用統一的方法使用不同的語料資源,我們提出了漢語書面語語料的文檔描述模型XML Schema for Corpora(以下簡稱XSC),用以描述各種漢語語料的文本組織形式、表現語料庫中標記的語言知識信息、記錄語料庫的說明性信息。
XSC規定了語料XML文檔的語法格式,在它的約束下,經過標注的各種語料庫可以自動生成XML結構的文檔,然后在通用的XML開發應用環境下做各種加工處理。例如用XML解析器對語料文檔進行良構性和有效性檢驗,保證數據結構和內容都符合XSC的規定。經過驗證的XML語料文檔,已經完成了從非結構化文本到XML數據結構的轉換,可以直接導入XML數據庫系統進行管理、提供訪問,或者用通用編程接口來實現各種應用。這樣就能夠在同一個數據庫平臺上,用同一種方法和技術管理和訪問多個不同類型的語料庫。
之所以選擇通用可擴充置標語言XML來描述語料庫,是因為它除了能兼容多種標注需求以外,還是正式發布的國際標準,在規范性和通用性方面有優點,便于有效地規范語料文檔的數據結構,有助于與國際語料庫編碼標準接軌,也有助于語料庫的數據交換和資源共享。
語料資源管理系統使用原生XML數據庫系統BDB XML,以XSC為基礎,建立了一個多種語料庫文本標注、文檔管理和數據處理的集成環境。利用BDB XML的XML文檔分析器、XQuery查詢引擎和獨特的索引系統,優化語料內容索引策略,建立基于成本的查詢方案,實現對XML文檔節點、元素、屬性以及元數據的靈活索引,在多層次元素及屬性查詢、多元素復合查詢、多容器查詢等檢索環境中,使復雜的XQuery語句快速命中目標,提供檢索結果。目前在編纂系統里內置的六個語料庫全部采用這種基于XML的方法和技術。
此外,編纂系統還有外部的動態語料庫。這是一個原始語料庫,用動態跟蹤的方式采集了24種報紙語料,單份報紙的時間跨度為2—13年,共采集了142年次、約40億字,用基于Apache Solr的分布式語料全文檢索系統提供查詢。
表1是編纂系統里可用的語料庫:

表1
編纂系統用基于XML的語言數據資源處理方法設計數據結構,這包括以下幾方面的探索性工作:詞典的內容描述和數據組織,語料庫的文本描述和數據組織,以及應用原生XML數據庫系統處理語言數據資源,研究和開發實用的軟件技術和應用系統。
(1)基于XML的詞典內容描述和數據組織
文本形式的詞典可以認為是一種用非結構化形式表現的、具有半結構化特征的語言數據。我們用辭書內容結構模型XSD為詞典做數據建模,用XML Schema定義詞條的內容和詞典的組織結構,提取詞條中蘊含的各種語言學信息,把文本形式的詞典轉換成詞典數據庫。在XSD里,詞典以詞條為基本單位,由眾多詞條組成,每個詞條含有形、音、義、用法等各種屬性。一部詞典的全部內容表現為樹形結構,樹的第一層節點是詞條,每個詞條的各層下位節點是這個詞條的各個屬性。全部詞條的屬性和屬性之間的關系構成了一部詞典的內容結構。在XML Schema框架下,所有代表詞條屬性的節點都表現為元素或子元素,對這些元素進行定義和約束,就可以得到各個屬性節點的確切定義。通過XSD對一部詞典進行結構化標注,再把文本形式的詞典轉換成XML原生數據庫,就能夠系統地組織并完整地描述詞典內容的表現形式和其中蘊含的語言知識。這種詞典數據庫也是一種詞語知識庫,它不僅可以用于詞典的編纂、查考和典藏,也可以為語言研究、詞匯研究和語言工程提供數據資源。
以往的辭書數字化工作大多是把詞典做成二維表,再用關系型數據庫來處理。我們選擇XML Schema代替關系型數據模式作為詞典數據建模的方法,是因為XML的數據結構適合描述語文詞典的結構形式,XML Schema的樹形數據模式正好完全體現了詞條結構的層次關系和管轄關系。用XML Schema可以方便地描述不定長內容的詞條屬性(例如詞條的釋義部分);描述不定量重復出現的詞條屬性(例如詞條釋義中的例句);描述詞條中的嵌套關系(例如多層級義項的嵌套)。更重要的是,可以根據詞條描述的需要,動態地為XML Schema補充子樹或元素、變更對已有元素的約束,只要不改變原有的樹形架構,就不會影響它的兼容性。這些都是關系型數據模式不容易做到的。(傅愛平等2009:28)
辭書內容結構模型XSD也有一種通用性:它定義的是漢語語文辭書中每一個詞條所有可能的屬性,以及每一個屬性所有可能的取值(屬性值)。這樣就可以涵蓋多部詞典的內容和組織結構。也就是說,同一個XSD可以描述多部語文詞典。在編纂系統里,每一個在編詞典數據庫和六部參考詞典數據庫都是用這個XSD定義的,它們都在BDB XML數據庫系統上用統一的方法建立和管理,用統一的技術提供查詢,獲得了理想的使用效果。
除了通用性以外,XSD還有某種抽象性:它描述的詞典內容模式是一種底層數據結構,與詞條及其屬性或特征在具體詞典中的表現形式沒有關系。比如對異形詞的處理,有的詞典用“同××”表示,有的詞典用“也作××”表示,還有的詞典兩者都用或者更隨意。無論在具體詞典中表現如何,在XSD中都定義成一個可選的屬性“異形”,其屬性值為“是”或“否”。這樣就把詞典數據的內容和形式分離開了。詞典編者只需集中精力琢磨詞條內容,無須考慮詞條體例的表現形式,有關體例樣式的工作都由編纂系統通過“詞條定制”的功能用人機交互的方式來完成。
(2)基于XML的語料文本描述和數據組織
用于詞典編纂的語料庫有多種類型,收錄了各種各樣的篇章樣本。這些語料樣本或者表現為原始文本的形式(可帶有原生標記[4]),或者是帶有附加標記的形式(帶有非原生標記[5])。目前國內語料庫研究和開發的情況是,不論帶標語料庫還是原始語料庫,只要研究或應用目的不同,就會有不同的標記集和標注規范,也就有各自的語料庫管理和檢索系統。在分析了各種類型的語料庫及其加工現狀之后,我們用XML Schema構建了一個語料文本描述模型XSC,定義語料標注的描述規則,描述語料的各種原生標記和非原生標記。目的是客觀地表現語料文本的原貌,兼顧各種不同類型的標注需要,盡可能容納不同的標記集,描述各種原始的和帶標的語料庫。與此同時以XSC為基礎,建立了一個語料庫文本標注、文檔管理和數據處理的語料資源管理系統。
XSC面向多種類型的漢語書面語語料。傅愛平等(2011)認為,語料庫中不管是原生態的標注,還是非原生的標注,通常都主要描述三類信息:一是篇章組織和文本結構信息,即組成語料文本的篇章、段落、句子、詞語等語言結構成分,語言成分在文本中是以文字符號等實體形式表現的;二是語言知識信息,是語料在詞匯、語音、語法、語義、語用等各個層面的屬性或特征,它們附著于各個語言成分之上;三是功能性或說明性信息,有兩種:第一種是主題、語體、作者、出版者、版本、承載媒體、出版時間等,一般附著于語料的單位樣本之上;第二種是校注、言者角色、言語伴隨行為、言語環境等關于文本正文的說明,一般情況下,它們附著于各個語言成分之上。語料文本描述模型XSC的主要任務就是描述這三類信息,即描述各種漢語語料的文本組織形式、表現語料中標記的語言知識信息、記錄語料庫的說明性信息。XSC定義的是語料庫的描述規則,不管語料庫是原始的還是帶標的,不管標注的是哪些信息,XSC都應該能用XML把這些語料文檔表現出來。
一般來說,語料標注的主要對象一是語言成分,二是語言知識信息。后者是語言成分的屬性、特征或語言成分之間的關系。在語料文本中,語言成分是文字或符號的實體形式,關系附著于成分之上。不管出于什么需要、用哪個語法體系去研究語言,語言成分及其關系都是基本的研究對象。語料標注不論采用多少種標記集,也無非是從不同的角度去描述各個語言成分及其關系。所以在XSC中,“成分”和“關系”是最基本的描述對象。
在XSC中語料庫表現為樹形結構,含有元素和屬性兩類結點,用元素來定義語言成分,用元素的屬性來定義關系。在語料文本中,語言成分有其客觀實體表現,描述語言成分的主要原則是客觀,要盡可能反映它們的原貌。XSC能夠根據不同的需要,描述各種語言成分及其在語料中的各種出現方式。語言成分的屬性或特征,以及語言成分之間的關系是帶有主觀性的信息,描述它們的原則是兼容。XSC可以提供一種自選參數的兼容機制,描述每個語言成分的多種關系,盡可能表現各種語法體系和分析方法所需要的標記信息。
在編纂系統中,我們應用XSC描述語篇的組織和語言成分的各種組合,能夠兼顧不同類型的語料文本和語言分析方法,生成XML結構文檔并自動導入XML數據庫,使用通用的軟件工具管理和訪問語料庫。編纂系統中六個內置的語料庫(約2.15億字)都是用這個XSC定義的。它們在BDB XML數據庫系統上用同一種方法建立和管理,在統一的語料資源管理平臺上提供查詢,獲得了預期的使用效果。
編纂系統的前臺是人機交互式工作流程控制平臺,它除了為用戶提供參考詞典和語料庫以外,主要任務是詞典編寫全過程的業務流程控制。這個平臺的設計既體現了人工編寫詞典的知識和經驗,也集成了一些應用計算機和網絡技術提高詞典編纂效率和科學性的功能。下面是幾個例子:
(1)可視化的詞條編寫界面
編纂系統給編者提供了可視化的操作界面(見圖3):

圖3 編纂系統的操作界面
這個界面的主要功能是人機交互編寫詞條,同時也提供編纂系統的管理和語言數據資源的使用。
詞條編寫是整個編纂業務的核心部分,主要有詞條內容定制、任務分配、編者任務、待編詞目、詞目確認、詞條編寫、詞條初審、詞條終審、進程處理、詞條統計、詞條提取、刪除詞條、缺字處理等多項功能,逐一列在編寫界面左端。編寫界面的主要部分用來表現詞條的內容和結構。
在詞條界面上,內容按義項顯示,左側給出了整個詞條的結構。語文詞典的一個詞條下面可以有若干個義項,義項下面還可以有子義項。在辭書內容結構模型XSD里,我們用樹形結構定義這種義項之間的嵌套關系,體現在詞條編寫界面上,是主義項、一級義項、二級義項等的層級結構視圖。一個詞條可以只有一個主義項,也可以有若干個一級義項或二級義項,通過這個結構視圖,一個詞條的內容結構可以一目了然。編者可以根據需要打開各個義項查看或填寫內容,也可以增加或刪除各級義項,還可以對義項重新排序。
詞條編寫的操作以義項為單位,編寫界面的中心視圖是每個義項的內容,用列表框給出每一個屬性,編者只需要按照視圖的提示在屬性框中填入內容。有的屬性值編者可以自主填寫,比如詞義和例句。有的屬性值規定了取值范圍,比如詞性,只能在給定的參數里選擇,這樣有助于表達形式的規范和平衡。詞典編纂是多人參與的項目,各位編者在專業水平、編寫經驗和表達習慣上都會有所不同,比如詞條屬性值或標記符號的使用就可能因人而異。編纂系統在詞條編寫界面提供了選項和賦值兩種內容填寫方式。前一種只能在詞條屬性值的取值范圍內選擇,后一種也會對編者自主填寫的內容做一些檢查校核。目前采用選項操作的屬性有:詞目類別、詞性、詞性附類或小類、兒化、語體說明、領域說明、釋義引語、搭配類別、語種、參見、同義近義、對義反義等。各個選項的參數根據需求可以由主編隨時增加或修改。
此外,編寫界面還提供了參考詞典、語料庫、詞條修改記錄等供編者調用。
(2)詞條內容的定制
在編纂系統里新編一部詞典時,先要定制新詞典的詞條內容。詞條內容定制的意思是:以辭書內容結構模型XSD為基礎,根據新編詞典的需要,確定詞條里要包含哪些屬性、屬性之間有什么關系、對屬性值有哪些約束,并規定詞典輸出的體例或版面格式。詞條內容定制實際上是對詞典內容的設計。
漢語語文辭書的一個詞條下包含形、音、義、用法等各種屬性,比如字形、拼音、詞性、釋義、例句等。根據各自不同的編纂理念和應用需求,各個詞典對屬性選擇不同、多少不等。主編給新詞典做了詞條內容定制以后,編纂系統會根據定制的結果,按照XSD的樹形結構規則,自動生成一部新的在編詞典的內容結構(是XSD的一棵子樹),再根據這個內容結構在后臺自動生成新在編詞典數據庫的數據結構,在前臺自動生成供編者使用的可視化操作界面以及數據顯示格式和數據保存格式,為新詞典的編寫做好準備。利用詞條內容定制功能,編纂系統可以同時創建幾部新的在編詞典。
在編纂系統中,利用詞條內容定制還可以控制在文本形式下詞條輸出的體例或版面格式。控制詞條輸出體例的意思是,指定詞條中部分屬性名和屬性值的標志符或縮略符,用于文本形式的詞條數據輸出。例如在有的詞典文本里,詞條的屬性“詞性”用外加□表示;屬性“例詞”“例句”“比喻例”用“◇”“|”等符號表示。通過詞條結構定制可以給屬性值指定表達符號和位置信息(分為屬性值前附加、屬性值間附加或屬性值后附加等幾種位置)。控制文本形式下詞條輸出的版面格式,是為了把詞條從編纂系統的詞典數據庫里取出來,按照印刷文本的形式呈現給詞典編者。版面格式的控制主要包含詞條中各個屬性排列的順序、各屬性值的顯示格式(例如空格、折行、縮進等)。處理得當的版面格式能夠在詞典的編寫過程和排版過程之間起到溝通的作用,編者可以比較直觀地看到詞條的基本排版樣例。
詞條內容定制也可以在詞典修訂時用來變更原有的內容格局,還可以在已有詞典的基礎上減去一些屬性項,不需改動內容,直接自動生成原詞典的屬性縮減本。
在編纂系統的XSD里目前一共有39個屬性,供定制詞條內容結構時選擇。不夠的話,還可以擴充XSD,添加新的屬性或屬性值。對于不同詞典的內容需求,XSD中包含的屬性就像是個最小公倍數,能夠兼容各種屬性。這得益于辭書內容結構模型XSD的通用性和抽象性,它們是詞條內容定制功能得以實現的基礎,也為XSD提供了更多的應用空間。
(3)詞典數據的內容與形式相互分離
前面說過,辭書內容結構模型XSD定義的是抽象的詞典數據,它描述詞條所有可能的屬性,也定義每個屬性所有可能的屬性值,跟詞條及其屬性在具體詞典中的表現形式沒有關系,這樣就把詞典數據的內容和形式分離開了。
這種分離的作用是,利用詞條內容定制功能可以控制文本形式下詞條輸出的體例或版面格式,還可以規范詞條輸出格式、標點符號、特殊標記等。目前編纂系統已經對非正體、詞類、語體說明、語用說明、注釋、用例、外來語等詞條屬性的表達方式做了一致性處理,以避免輸出時的隨意性。
詞典數據的內容與形式分離,還使我們能夠在不同的設備上用不同的格式表現同一部詞典的內容,輸出便于人們查閱的各種文本形式。排版印刷格式是其中之一,還可以是網頁格式、在移動設備上表現的格式(比如手機上顯示),等等。另外還有詞典的排序,可以根據拼音字母做正序排列,也可以做逆序排列。想用什么符號表示每一個屬性,也可以自行設定。
(4)詞條編寫記錄的保存和回溯
一個詞條在編寫、審校過程中,編寫人員和審校人員可能做多次修改。保留詞條編寫和修改的記錄并根據需要回溯詞條的編寫過程,對于語文詞典的編纂來說十分重要。以前人工編寫的時候,編者大都在卡片上用不同顏色的筆來做歷次記錄。通過這些記錄可以追溯詞條編寫的過程,反映語言和詞匯的變化,回顧歷任詞條編者的工作思路。
編纂系統提供了“保存修改記錄”和“回看修改記錄”的功能,根據編者的要求,把每一次編寫和審校的信息記錄和保存下來,供日后回溯。這些信息包括:修改者、修改前后的內容、修改時所處的進程、修改提交日期,還可以留下修改備注(包括修改原因、參考資料、遺留問題等)。回看修改記錄時,會突出顯示修改前后不同的內容。另外系統還有“撤消修改”的功能,在編寫過程中可以根據需要隨時恢復某次修改前的詞條內容。這些功能有助于追溯詞典的編審歷程,不僅對編寫詞條有用,對詞典修訂和詞典研究也有用處。
(5)編纂進程的動態處理
進程處理是控制編纂業務流程的功能,由主編或組長操作,分成編寫、初審、終審、定稿等幾個進程。在不同的進程中,詞條根據需要在編者、組長、主編之間往返傳遞。進程處理的作用是幫助主編和組長了解每個編者當前的工作進度,掌握每個詞條當前所在的進程和處理狀態,在此基礎上設定權限、分配任務、了解編寫中的問題、組織協同作業,借助網絡平臺處理詞條編寫的各個環節,科學合理地管理詞典編纂的全過程。
在詞條編寫過程中,每個編者也都可以在自己的詞條編寫界面中看到當前詞條的操作進程、修改狀態、當前進程是否完成等信息,明確自己的任務和工作進度,還能通過進程處理功能與其他編者交流信息、配合工作。
人機交互式漢語辭書編纂系統是面向應用的計算機網絡服務系統,能否在語言技術、計算機網絡技術和詞典編者的智慧之間實現最佳的結合,還需要在實際運行中驗證和完善。編纂系統和用戶之間應該經歷一段較長時間的磨合,根據用戶的體驗和意見不斷改進系統的設計和功能。
當前信息技術的發展日新月異,新的產品和網絡應用模式不斷涌現,互聯網上開放式的網絡詞典編纂和服務已經成為漢語辭書編纂的一個新的應用方向。我們為這個編纂系統研制開發的關鍵技術和核心模塊,有些已經具有開放應用模式的功能,可以作為下一步工作的基礎。這種開放模式通過互聯網(包括移動互聯網平臺),一方面為公眾提供詞語查詢服務,另一方面開放詞典編寫平臺,讓所有對詞典有興趣、有建設性見解、愿意有所貢獻的各界人士都能參與詞典編寫:提出新的條目,修改已有的詞條,給出形、音、義、用法、來源等新的信息。讀者和編者之間形成互動關系,利用先進的信息技術和海量的互聯網資源,實現龐大的用戶群和眾多領域專家之間的分工協作,使詞典的編纂和研究更好地適應語言生活的實際。
附 注
[1]Berkeley DB XML是由美國Sleepycat Software公司開發的開源嵌入式數據庫管理系統。
[2]廣電語料庫采用了中國傳媒大學傳媒語言語料庫的一部分原始語料,謹向中國傳媒大學國家語言資源監測與研究中心有聲媒體語言分中心誠致謝意。
[3]平衡語料庫采用了國家語委語料庫的一部分原始語料,謹向教育部語言文字應用研究所誠致謝意。
[4]原生標記描述語料文本的篇章組織形式(如冊、篇、卷、章、回、節等)、對正文的說明(如校注等)等信息。
[5]非原生標記描述語料在詞匯、語音、語法、語義、語用等方面的屬性或特征(如詞性、短語結構、語法功能、語義關系等)。
1.常寶寶.基于語料庫的雙語詞典編纂平臺的構建.辭書研究,2006(3):122—133.
2.傅愛平,吳杰,李蕓.漢語語文詞典的詞條結構模型.辭書研究,2009(2):28—37.
3.傅愛平,張弘.漢語語料庫的文本描述.∥漢語語料庫及語料庫語言學圓桌會議論文,香港,2011.
4.劉輝.詞典微觀數據結構標準化和關系數據庫設計.∥羅益民,文旭主編.中國辭書學會雙語詞典專業委員會第七屆年會論文集.成都:四川人民出版社,2007.
5.陸汝占.漢語詞典編纂一體化環境(上、下).辭書研究,2000(2):37—48,2000(3):35—43.
6.張弘,傅愛平.Berkeley DB XML在語料庫管理中的應用.∥第八屆兩岸三院信息技術交流與資源共享研討會論文集.臺北,2010:355—365.
7.章宜華,劉輝.基于微觀數據結構的雙語詞典生成系統初探.外語與外語教學,2007(8):61—64.