XML在語料庫建設中的應用：以UAM Corpus Tool為例

2013-11-15 02:39:30王大鵬

電子測試 2013年16期

王大鵬

（渤海大學大學外語教研部,遼寧錦州,121013）

0 引言

語料庫是為一個或多個應用目標而專門收集，有一定結構、代表性、可被計算機程序檢索、具有一定規模的語料的集合?，F代語料庫語言學基于計算機平臺，并隨計算機技術的發展而逐步走向成熟。目前，國內絕大多數語料庫仍然采用TXT存儲，但在其中融入了TEI 文本編碼及CES標準——兩者均基于SGML或XML標記語言。采用此標注方式的語料庫有：JDEST,CLEC,SWECCL,COLSEC,PACCEL等。但國外權威的語料庫如BNC第二版是完整意義上的SGML，第三版更新為XML，已不再采用TXT模式存儲。

1 基于TXT的語料庫標注體系

TXT存儲模式的優勢在于文本占用空間小，檢索速度快；常用于檢索TXT文本的檢索器有WordSmith, Antconc等。基于TXT并融入XML的標記模式可以滿足簡單的研究需求，但缺點在于此模式并非完整意義上的XML文檔，不適合復雜的多層及和多維度標注。如：對一個語料庫同時進行詞性標注、語義標注和語篇信息標注時，TXT存儲模式的語料庫必須建立相應的新庫以滿足需求，檢索也必須分別、獨立進行，耗時耗力。簡言之，TXT模式的語料庫已不適用于復雜的語言研究需求，取而代之的是真正意義的XML語料庫。

2 基于XML的多層及標注體系

XML(Extensible Markup Language）可擴展性標記語言繼承了SGML(Standard Generalized Markup Language)的優勢并由其簡化而來，由于其描述性強，易讀性好，可跨平臺和系統使用等特性，已成為一種通用的數據交換格式。XML Schema的優勢在于：一、可定義文檔結構和語法標準；二、支持更多的數據類型定義，允許用戶自定義，具有更好的擴展性；三、提供了一套更為完整而易用的機制去規范XML文檔中的標記使用。文檔樹的應用使復雜的信息標記和數據索引更為簡化。以上優勢適用于復雜的多層級和多維度語言研究。目前較為流行的基于XML語料庫建庫和檢索的工具有MMAX和UAM Corpus Tool，本文以UAM Corpus Tool為例介紹XML在語料庫建設及后期檢索、開發中的應用。UAM Corpus Tool的軟件特色是：一、采用Stand-off XML 標注模式，標注文件和生語料庫分離式存儲，便于多維度、多層及分析同一語料庫；二、多個文本或多套語料庫可使用同一標注體系進行標注，由于標注方案獨立存儲在XML文件中，便于跨程序共享。三、提供多層級標注、跨層級檢索和跨標注子集數據對比等功能。

2.1 UAM多層及標注體系的制定

實驗語料選自BNC（第三版）中的書面語部分，隨機抽取其中100篇文章并去除原始標注和標記，分析這些篇章的語法特征、語域分布和語篇銜接特點。語法特征分析即對實驗語料進行句法標注，程序自動調用Stanford Parser對文本進行標注。語域分布研究語篇的分布類型，如：新聞、小說、學術英語和雜志等。語篇分析部分，著重分析語篇的銜接，銜接是語篇特征的重要內容，它體現在語篇的表層結構，可分為語法銜接和詞匯銜接，語法手段又可分為照應、替代和省略和連接；詞匯手段可分為復現關系和同現關系。此標注體系包含了三大維度及其下多個層級的樹狀關系，基于XML的UAM Corpus Tool尤其適用這種復合式標注。點擊Add Layer添加標注維度，點擊Edit詳細制定標注層級（圖1）。在編輯具體的標注層級時候需注意，大括號和方括號表示不同的含義，這與系統功能語言學定義兩種不同括號的功能有關：大括號為包容關系，方括號為互斥關系。多維度、多層及的標注體系制定完成后，便可用其標注語料庫了。

2.2 UAM語料庫的檢索、統計和拓展功能

UAM Corpus Tool是一款多功能的語料庫工具，集建庫、檢索和統計等功能于一身。本程序支持跨標注層級的復合式檢索，如查詢復合句中包含was的從句，通過clause + containing immediately “was”的表達式，可檢索到 They left because[she was tired]之類的句子；檢索使用過去完成時的從句，可編寫表達式：past-perfect + anywhere in clause。檢索語篇銜接中的前指照應可編寫表達式：cohesion + containing anywhere anaphoric-reference。數據統計方面，提供語料庫的文本復合度、詞匯密度、主觀性分析和指稱密度等基本統計。提供兩個標注集的對比功能，即兩個集合在指定層級上所標注特征的數據對比；差異顯著性可通過T檢驗和方差來量化統計，提供多文本數據對比功能。拓展功能方面，提供詞的云圖(word cloud)和詞圖（word plot）功能，使語料庫高頻詞顯示更為直觀化。自動標注部分（Autocode）可根據特征自動的批量標注文本，表達式Select passive if contains 'be% @participle表示：如果句中包含有be動詞及動詞的過去分詞形式，此句會被標注為被動句；Select active if clauses and not passive則將其它的非被動句標注為主動句。

2.3 基于XML的在線語料庫構建

當今語料庫領域，集標注、檢索、統計和兼顧后期在線檢索功能的軟件只有MMAX和UAM，以上兩款程序均基于完整意義上的XML建設語料庫。采用Stand-off XML建設的語料庫，其標注方案獨立存貯，可跨程序應用于其它系統平臺。因此，基于以上兩款程序建設的語料庫便于在線檢索的后期開發。在互聯網迅猛發展的今天，語料庫發展有在線化的趨勢，在線語料庫可以打破時空和版權限制供更多人使用，優勢不言而喻。在線語料庫的建設需要應用SQL數據庫系統，XML可完美應用于此平臺。MMAX和UAM CORPUS TOOL從研究特征的選擇、語料的準備、標注的進行到后期的數據庫索引、在線檢索統計等都要一體設計。世界上較成功的實例是MARK DAVIES設計開發的系列在線檢索平臺，其基于微軟的商用數據庫MSSQL，如COCA（http://corpus.byu.edu/coca/）和 BNC（http://corpus.byu.edu/bnc/）；國內的北京外國語大學和上海交通大學等院校也均設有大型在線檢索平臺。在線語料庫建設的模式很多，如:可采用Dreamweaver與PHP & MYSQL相結合的方式。通過Dreamweaver來完成檢索面板，以及數據庫連接與查詢、插入、更新和刪除等部分；MYSQL為免費開源數據庫，PHP的設計目的是用于編寫Web腳本，對MYSQL支持較好，是一種服務端和跨平臺技術，可完美運行在絕大多數操作系統上。在線語料庫建設完畢后，用戶只需要訪問該網站，便可對語料庫進行基本的查詢和統計；語料庫網站由專人進行維護和更新，用戶不需要學習語料庫后臺維護技術。在線語料庫技術使語料庫的統計和檢索如同使用百度和谷歌一樣便捷。

3 結語

XML技術已成為跨平臺、跨應用程序的一種通用標準，其應用于語料庫領域有利于規范語料庫的標注模式、打破應用壁壘、減少重復建設；使語料庫不僅可以應用在語言學領域，還可應用在軍事、醫學、社會生活等各個方面。基于XML的語料庫技術在“大型在線語料庫建設、基于云計算的語料庫藍圖規劃和安卓系統下的語料庫終端建設等方面都具有重大的理論和現實意義。

[1]馮志偉.序言語料庫語言學的進展 [Z].2009：d9.

[2]朱暾，樓新遠.基于XML Schema XML索引技術研究[J].鐵路計算機應用,2011,20(10):8-10+14.

[3]郭艷艷，吳揚揚.一種基于XML schema的XML索引[J].華僑大學學報:自然科學版,2011,32(1):43-47.

[4]黃國文.語篇分析概要[M].湖南：湖南教育出版社,1988.[5]Halliday,M.A.K.& R.Hason.Cohesion in English[M].London:Longman,1976.