999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

古今漢語(yǔ)平行語(yǔ)料庫(kù)的語(yǔ)料構(gòu)建

2008-01-01 00:00:00宋繼華胡佳佳孟蓬生
現(xiàn)代教育技術(shù) 2008年1期

【摘要】古今漢語(yǔ)之間的明顯差異使得以古代漢語(yǔ)為載體的傳統(tǒng)典籍難以被現(xiàn)代人理解。古今漢語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)旨在為希望了解中國(guó)傳統(tǒng)思想文化的普通讀者及相關(guān)學(xué)科專家提供閱讀、翻譯、檢索古代漢語(yǔ)典籍的平臺(tái)。語(yǔ)料的構(gòu)建是語(yǔ)料庫(kù)建設(shè)的基礎(chǔ),本文從古今漢語(yǔ)語(yǔ)料的設(shè)計(jì)、采集、格式化存儲(chǔ)、雙語(yǔ)對(duì)齊與XML標(biāo)注等方面詳細(xì)介紹了如何系統(tǒng)地構(gòu)建大型古今漢語(yǔ)平行語(yǔ)料庫(kù)中的開(kāi)放資源。

【關(guān)鍵詞】古今漢語(yǔ);平行語(yǔ)料庫(kù);語(yǔ)料;XML標(biāo)注;句子對(duì)齊

【中圖分類號(hào)】G40-057【文獻(xiàn)標(biāo)識(shí)碼】B 【論文編號(hào)】1009—8097 (2008) 01—0092—08

一 緣起

“漢語(yǔ)是世界上正在使用的語(yǔ)言中最古老的語(yǔ)種之一。漢語(yǔ)古籍無(wú)論是數(shù)量還是涉及的范圍及其歷史跨度,在世界上都是無(wú)與倫比的。”①燦爛悠久的中國(guó)思想文化,通過(guò)這些典籍得以保存、傳承,在歷經(jīng)千載的延續(xù)過(guò)程中,又得后人的認(rèn)識(shí)和研究,融入新的內(nèi)涵,由此構(gòu)筑了中國(guó)的古代文明。今天,這些承載著中華民族燦爛文明的典籍仍在被廣泛地使用著,尤其在人文學(xué)科領(lǐng)域的應(yīng)用價(jià)值更是顯而易見(jiàn)。同時(shí),隨著大眾文化水平的提高、經(jīng)濟(jì)的發(fā)展與對(duì)外往來(lái)的增加,越來(lái)越多的非專業(yè)人士希望深入了解中國(guó)傳統(tǒng)的思想文化,但古代漢語(yǔ)與現(xiàn)代漢語(yǔ)之間存在著的明顯差異使得很多現(xiàn)代人難以理解以古漢語(yǔ)為載體的傳統(tǒng)典籍。有鑒于此,我們提出要建設(shè)一個(gè)大型、開(kāi)放的古今漢語(yǔ)平行語(yǔ)料庫(kù)及其應(yīng)用平臺(tái),為古籍整理和翻譯(含機(jī)器翻譯或機(jī)器輔助翻譯)、古代漢語(yǔ)教學(xué)與研究以及辭書編纂提供基礎(chǔ)資源,為需要了解中國(guó)傳統(tǒng)思想文化的普通讀者及相關(guān)學(xué)科的專家提供閱讀、翻譯、檢索、統(tǒng)計(jì)服務(wù),并為與現(xiàn)有的漢英雙語(yǔ)語(yǔ)料庫(kù)的對(duì)接奠定基礎(chǔ),從而為實(shí)現(xiàn)古漢語(yǔ)和英語(yǔ)的翻譯(含機(jī)器翻譯或機(jī)器輔助翻譯)創(chuàng)造條件。

平行語(yǔ)料原指使用不同語(yǔ)言撰寫、相互間具有“翻譯關(guān)系”的文本,本文將其延展為基于同一語(yǔ)言且不同歷史時(shí)期兼具有“翻譯關(guān)系”的文本,就漢語(yǔ)而言,即指“古今漢語(yǔ)”。平行語(yǔ)料庫(kù)已被系統(tǒng)地應(yīng)用到自然語(yǔ)言處理中,包括建立翻譯記憶、編纂詞典和雙語(yǔ)術(shù)語(yǔ)表、跨語(yǔ)言信息檢索、計(jì)算機(jī)輔助教學(xué)、語(yǔ)言對(duì)比研究等。國(guó)外涉及漢語(yǔ)的平行語(yǔ)料庫(kù)中影響較大的是與Freiburg-LOB Corpus of British English(即FLOB)平行對(duì)應(yīng)的漢語(yǔ)語(yǔ)料庫(kù)LCMC②(The Lancaster Corpus of Mandarin Chinese)。國(guó)內(nèi)的主要研究有北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所的漢英雙語(yǔ)語(yǔ)料庫(kù)以及北京外國(guó)語(yǔ)大學(xué)擁有的目前國(guó)內(nèi)最大的雙語(yǔ)平行語(yǔ)料庫(kù)(含漢英和漢日兩個(gè)庫(kù))等[1]。就目前來(lái)看,國(guó)內(nèi)外涉及漢語(yǔ)的平行語(yǔ)料庫(kù)基本上都是現(xiàn)代漢語(yǔ)與外語(yǔ)的平行語(yǔ)料庫(kù),鮮見(jiàn)有影響的、大規(guī)模的古今漢語(yǔ)平行語(yǔ)料庫(kù)。

就應(yīng)用層面而言,古今漢語(yǔ)平行語(yǔ)料庫(kù)的價(jià)值主要體現(xiàn)在:⑴ 為古今漢語(yǔ)的機(jī)器翻譯或機(jī)器輔助翻譯提供基礎(chǔ)資源。古今漢語(yǔ)平行語(yǔ)料庫(kù)中對(duì)齊的語(yǔ)料或作為翻譯資源使用,或用作翻譯統(tǒng)計(jì)建模的訓(xùn)練資源。⑵ 為古漢語(yǔ)教學(xué)與古今漢語(yǔ)對(duì)比研究提供基礎(chǔ)資源。普通用戶通過(guò)該平臺(tái)的閱讀、翻譯、查詢功能,既可以隨時(shí)獲取他們需要的有關(guān)古代典籍和文化的信息,也可以接受系統(tǒng)的古代漢語(yǔ)專業(yè)訓(xùn)練。研究人員則可以通過(guò)檢索統(tǒng)計(jì)在語(yǔ)境中把握特定詞或結(jié)構(gòu)的語(yǔ)義和句法特征,觀察古今漢語(yǔ)之間的傳承關(guān)系,歸納古今漢語(yǔ)的發(fā)展規(guī)律。⑶ 提高古今漢語(yǔ)辭書的編纂質(zhì)量和效率。到目前為止,還沒(méi)有基于大型語(yǔ)料庫(kù)的古代漢語(yǔ)和現(xiàn)代漢語(yǔ)辭書問(wèn)世。該語(yǔ)料庫(kù)及應(yīng)用平臺(tái)的構(gòu)建將為辭書編纂中經(jīng)常遇到的字頻和詞頻的統(tǒng)計(jì)、字頭和詞目的確立、書證和用例的選擇、字義和詞義的表述等技術(shù)操作提供客觀依據(jù),從而為這類辭書的問(wèn)世創(chuàng)造條件。

與現(xiàn)有的一些語(yǔ)料庫(kù)相比,古今漢語(yǔ)平行語(yǔ)料庫(kù)的特點(diǎn)是:⑴ 兩種語(yǔ)料的平行對(duì)應(yīng)性(古代漢語(yǔ)與現(xiàn)代漢語(yǔ));⑵ 服務(wù)對(duì)象的廣泛性(普通人群與專業(yè)研究人員);⑶ 實(shí)用性(研究?jī)r(jià)值與應(yīng)用價(jià)值兼顧);⑷ 通用性(采用XML標(biāo)注體系);⑸ 開(kāi)放性(可以隨時(shí)增加語(yǔ)料)。它的建設(shè)主要包括語(yǔ)料的構(gòu)建、組織與應(yīng)用平臺(tái)的開(kāi)發(fā)三個(gè)方面。

二 語(yǔ)料的構(gòu)建

籌建語(yǔ)料庫(kù)之初,首先應(yīng)考慮的是語(yǔ)料庫(kù)的建設(shè)目標(biāo),這樣才能決定選擇語(yǔ)料的范圍、分布、規(guī)模,建立可查詢的分類體系,進(jìn)而采集實(shí)際的文本[2]。這里需要明確的是,我們所說(shuō)的古漢語(yǔ)是指文言,即以先秦口語(yǔ)為基礎(chǔ)而形成的上古漢語(yǔ)書面語(yǔ),如《詩(shī)》、《書》、《禮》、《春秋》、《老子》、《論語(yǔ)》、《荀子》等所使用的;以及后來(lái)歷代作者仿古作品中所使用的語(yǔ)言,如兩漢詩(shī)文歌賦、唐宋散文等。

1 語(yǔ)料的選擇

選擇語(yǔ)料時(shí)要注意語(yǔ)料的代表性和質(zhì)量。我國(guó)歷史悠久,文化遺產(chǎn)豐富,用文言記錄的典章、制度、史料以及撰寫的文學(xué)作品多到不可計(jì)數(shù)。由于時(shí)間跨度大(上下三千多年),不同時(shí)代、不同體裁的文言作品,其語(yǔ)言特點(diǎn)有很大差異。最能反映文言原貌的,莫過(guò)于先秦兩漢的作品,其次是唐宋以后的仿古文言文。所以,古代漢語(yǔ)的研究對(duì)象,應(yīng)以先秦兩漢作品為主,兼及唐宋以后的仿古文言文。清朝康熙年間吳楚材、吳調(diào)侯叔侄編選評(píng)注的《古文觀止》,上起東周,下至明末,選古代散文二百二十二篇;其中,先秦入選七十二篇,唐代入選四十三篇,宋代入選五十一篇,共占選文的百分之七十以上;先秦散文作為中國(guó)古代散文的源頭,《左傳》、《國(guó)語(yǔ)》、《戰(zhàn)國(guó)策》各有獨(dú)特的成就,對(duì)后世有著深遠(yuǎn)的影響;《古文觀止》中《左傳》有三十四篇、《國(guó)語(yǔ)》十四篇、《戰(zhàn)國(guó)策》十一篇,共占先秦部分的百分之九十五以上③。有鑒于此,我們采用了先秦的三部史書《左傳》、《國(guó)語(yǔ)》、《戰(zhàn)國(guó)策》的原文(計(jì)五十萬(wàn)字)與現(xiàn)代譯文(計(jì)七十萬(wàn)字)共約一百二十萬(wàn)字作為古今漢語(yǔ)平行語(yǔ)料庫(kù)的首批語(yǔ)料錄入。

由于我們建設(shè)的是古今漢語(yǔ)平行語(yǔ)料庫(kù),因此需要同時(shí)考慮古文原文與今文譯文的質(zhì)量。古文原文的質(zhì)量主要由選取的版本所決定。為此,我們選擇了上海古籍出版社1983年版《黃侃手批白文十三經(jīng)》中的《左傳》、1998年版的《國(guó)語(yǔ)》④(以《四部備要》排印清代士禮居翻刻明道本為底本,參校了《四部叢刊》影印明代翻刻公序本)與1985年版《戰(zhàn)國(guó)策》⑤(以姚本為底本,匯集鮑、吳諸人的注文以及清黃丕烈的《戰(zhàn)國(guó)策札記》)作為古文原文的依據(jù)。今文譯文的質(zhì)量比較難以把握,也是古今漢語(yǔ)平行語(yǔ)料庫(kù)建設(shè)的難點(diǎn)。考慮到語(yǔ)料庫(kù)的應(yīng)用目標(biāo),統(tǒng)一采用直譯方式,注重詞匯和語(yǔ)法結(jié)構(gòu)的對(duì)應(yīng),由北京師范大學(xué)漢語(yǔ)言文字學(xué)專業(yè)的研究生⑥負(fù)責(zé)對(duì)已有的譯文進(jìn)行復(fù)查和加工。

2 語(yǔ)料的采集

語(yǔ)料的采集有兩種方法,一是通過(guò)光電掃描或鍵盤輸入制作電子文本,一是利用網(wǎng)絡(luò)上已有的電子文本,并將其轉(zhuǎn)化為所需的格式[2]。我們是在保證質(zhì)量的前提下采用后一種方式,這樣不僅避免簡(jiǎn)單的重復(fù)勞動(dòng),又可以降低語(yǔ)料庫(kù)的建設(shè)成本,提高效率。目前網(wǎng)絡(luò)上已有很多《左傳》、《國(guó)語(yǔ)》和《戰(zhàn)國(guó)策》的免費(fèi)共享資源,雖然所依據(jù)的版本不一、內(nèi)容不盡相同、格式也多種多樣,但經(jīng)過(guò)處理加工后,可以滿足課題的要求。因此,經(jīng)過(guò)大量搜集、整理、比較之后,最終擇定了三種不同的電子版來(lái)源,互為補(bǔ)充。需要強(qiáng)調(diào)的是,這些電子版均是以前述確定的印刷本底本作為制作依據(jù)的。

3 語(yǔ)料的格式化

除了語(yǔ)料質(zhì)量,還應(yīng)保持語(yǔ)料庫(kù)中語(yǔ)料存儲(chǔ)的規(guī)范性。從網(wǎng)上采集的原始語(yǔ)料需加工為統(tǒng)一的格式后才能進(jìn)入到語(yǔ)料庫(kù)中。由表1可看出,網(wǎng)上語(yǔ)料的類型多種多樣,常見(jiàn)的有HTML、PDF、Word等。這些文檔類型的缺點(diǎn)是除了內(nèi)容以外,還包含了許多頁(yè)面顯示的格式標(biāo)記。為了保持語(yǔ)料的純潔性,我們將各種語(yǔ)料統(tǒng)一轉(zhuǎn)化為純文本(TEXT)格式,即以.txt文件的形式存儲(chǔ),以借助TEXT文檔中不含任何頁(yè)面顯示標(biāo)記的特點(diǎn)避免“臟字符”對(duì)語(yǔ)料內(nèi)容的干擾。同時(shí),鑒于這些原始語(yǔ)料所使用的字符集、字體、標(biāo)點(diǎn)符號(hào)以及排版格式也各不相同,需用進(jìn)行規(guī)范化處理,因此我們規(guī)定:⑴ 語(yǔ)料中的古文原文與注釋采用繁體字,譯文采用簡(jiǎn)體字;⑵ 使用“宋體方正超大”字符集;⑶ 采用現(xiàn)代中文標(biāo)點(diǎn)符號(hào)。(「」用“”代替,『』用‘’代替,下劃直線用#61531;#61533;代替,下劃波浪線用《》代替);⑷ 所有文本一律橫排版;⑸ TEXT文本設(shè)置為“不自動(dòng)換行”;⑹ 所有行一律左對(duì)齊,起始處沒(méi)有空格;⑺ 首段是題目,段與段之間空一行;⑻ 古文原文與今文譯文是一句一行(以冒號(hào)、句號(hào)、感嘆號(hào)、問(wèn)號(hào)為結(jié)束標(biāo)志);⑼ 每條注釋單獨(dú)一行,注釋號(hào)為“1,2,……”,注釋號(hào)與注釋之間不空格;⑽ 古文原文中注釋項(xiàng)的結(jié)尾處標(biāo)明注釋號(hào),注釋號(hào)同樣為“1,2,……”;⑾ 古文每段段末有段的起始頁(yè)碼,用中文括號(hào)括起,單獨(dú)占一行。對(duì)于同一語(yǔ)料的兩個(gè)不同電子來(lái)源,我們采用了Beyond Compare軟件⑧自動(dòng)比對(duì)兩者的差異,過(guò)濾了大部分的錯(cuò)誤,再以其中錯(cuò)誤較少的來(lái)源作為底本,進(jìn)行人工校對(duì),從而大大提高了工作效率和語(yǔ)料質(zhì)量。

網(wǎng)上下載的原始語(yǔ)料均是以“書”的形式存儲(chǔ)的,粒度太大,不易于語(yǔ)料庫(kù)的靈活應(yīng)用,需要對(duì)語(yǔ)料進(jìn)行分割與命名。《左傳》是編年體史書,以《春秋》一萬(wàn)六千余字為經(jīng)、為綱,而自己為傳、為目,補(bǔ)敘其歷史原委的著作;《國(guó)語(yǔ)》是國(guó)別體史書,全書二十一卷,記錄了周、魯、齊、晉、鄭、楚、吳、越八國(guó)的史事;《戰(zhàn)國(guó)策》也是國(guó)別體史書,分33卷,按東周、西周、秦、齊、楚、趙、魏、韓、燕、宋、衛(wèi)、中山的次序,輯錄與十二國(guó)有關(guān)的史事497條。為了保持語(yǔ)料分割后的完整性和相對(duì)獨(dú)立性,我們將語(yǔ)料按篇章級(jí)單位存儲(chǔ)。《國(guó)語(yǔ)》、《戰(zhàn)國(guó)策》均以史事為篇章級(jí)別單位,《左傳》則以君王紀(jì)年為篇章級(jí)別單位。每一篇章,又分為古文原文、今文譯文與注釋三個(gè)文件分別存儲(chǔ),篇章級(jí)間的對(duì)齊關(guān)系由相同的文件號(hào)實(shí)現(xiàn)。同一篇文章的古文原文文件名為Gxxyyzz,今文譯文文件名為Jxxyyzz,注釋文件名為Zxxyyzzz。xx為書號(hào)(其中“01”表示《國(guó)語(yǔ)》,“02”表示《戰(zhàn)國(guó)策》,“03”表示《左傳》);yy為卷號(hào)(《左傳》卷號(hào)與卷名按君王謚號(hào),如“01” 表示“卷一隱公”);zz為卷內(nèi)篇號(hào)(《左傳》的篇號(hào)即年號(hào),如“01”表示“某公元年”,“00”表示“前傳”,只在“卷一隱公”中有;《國(guó)語(yǔ)》與《戰(zhàn)國(guó)策》的篇號(hào)篇名參考上海古籍出版社1998年《國(guó)語(yǔ)》與1985年《戰(zhàn)國(guó)策》的目錄)。

4 語(yǔ)料的對(duì)齊

對(duì)于平行語(yǔ)料庫(kù)而言,首先要對(duì)語(yǔ)料進(jìn)行各級(jí)對(duì)齊工作,所謂對(duì)齊也就是原文與譯文之間互為翻譯關(guān)系的篇章、段落、句對(duì)以致短語(yǔ)、詞匯的確定。其中最為重要的是句子一級(jí)的對(duì)齊,這也是各種應(yīng)用對(duì)平行語(yǔ)料庫(kù)的一個(gè)最基本的需求。更深一層的加工包括:短語(yǔ)一級(jí)與詞匯一級(jí)的對(duì)齊、句法標(biāo)注、短語(yǔ)標(biāo)注、分詞、詞性標(biāo)注、注音等[3]。

● 句子的對(duì)齊要求

如上文所述,我們語(yǔ)料庫(kù)中TEXT類型的古文原文與今文譯文之間的篇章級(jí)對(duì)齊是由相同的文件號(hào)來(lái)實(shí)現(xiàn)的。段落之間的對(duì)齊則是由相同的段落號(hào)來(lái)實(shí)現(xiàn)的。不同于以上兩個(gè)級(jí)別的對(duì)齊,句子之間的翻譯關(guān)系除了基本的“1:1”模式外,還存在“1:n”、“n:1”與“m:n”模式。為此,我們把互為翻譯關(guān)系的原文或譯文中的一個(gè)或多個(gè)句子稱為一個(gè)句子對(duì)齊單位,簡(jiǎn)稱句對(duì)。TEXT文檔中句子對(duì)齊單位之間的翻譯關(guān)系是由相同的行號(hào)實(shí)現(xiàn)的,即文檔中獨(dú)立的一行(注意我們?cè)谡Z(yǔ)料格式化時(shí)是不允許TEXT文檔自動(dòng)換行的)就是一個(gè)句子對(duì)齊單位,它可能包含一個(gè)或多個(gè)句子。上文提到,在語(yǔ)料的格式化處理中,原譯文中的句子都是一句一行,因此現(xiàn)在需要人工進(jìn)行句子一級(jí)的對(duì)齊。應(yīng)該注意的是,文中的標(biāo)點(diǎn)符號(hào)如感嘆號(hào)、問(wèn)號(hào)、引號(hào)、句號(hào)、分號(hào)等往往會(huì)反映原譯文之間的翻譯關(guān)系,需要對(duì)齊。此外,由于文言文喜用倒裝的關(guān)系,翻譯時(shí)會(huì)出現(xiàn)句序問(wèn)題。如國(guó)語(yǔ)卷六第一篇中“桓公使請(qǐng)諸魯,如鮑叔之言。”應(yīng)翻譯為“于是照鮑叔說(shuō)的那樣,桓公派人向魯國(guó)提出要求。”也就是說(shuō)原文對(duì)齊單位中有兩個(gè)句子a、b,譯文對(duì)齊單位中也有兩個(gè)句子c、d,且c與b,d與a構(gòu)成實(shí)際的翻譯關(guān)系;此時(shí),需要人工在譯文對(duì)齊單位末尾標(biāo)上“ba”,以表明單個(gè)句子間的對(duì)應(yīng)關(guān)系。如果涉及三個(gè)句子間的句序關(guān)系,則用“a”、“b”、“c”標(biāo)記,以此類推。

● 輔助句子對(duì)齊工具

譯文的質(zhì)量,一定程度上,可以從句子一級(jí)的對(duì)齊工作得以體現(xiàn)。為了保持句子級(jí)對(duì)齊時(shí)的規(guī)范性與統(tǒng)一性進(jìn)而使問(wèn)題簡(jiǎn)單化,應(yīng)盡量使原文的句子對(duì)齊單位只包含一個(gè)古文句子。但鑒于在句子對(duì)齊時(shí)經(jīng)常遇到的以下三種情況:⑴ 一句原文對(duì)應(yīng)多句譯文,此時(shí)需要將譯文的多行合并;⑵ 多句原文對(duì)應(yīng)一句譯文,此時(shí)可能需要將譯文的一行分割成多行;⑶ 多句原文對(duì)應(yīng)多句譯文。因此需要特殊處理。

為此,本課題專門開(kāi)發(fā)了一個(gè)用于句子級(jí)對(duì)齊的輔助工具。如圖2所示,界面分為三部分:左文本框用來(lái)顯示古文文本,右文本框用來(lái)顯示今文文本,并在各自文本框左端顯示行號(hào),且彼此具有對(duì)應(yīng)關(guān)系;底部是兩個(gè)編輯行,上面一行顯示左部當(dāng)前行文本內(nèi)容,下面一行顯示右部當(dāng)前行文本內(nèi)容。并設(shè)定各類功能鍵完成進(jìn)行對(duì)齊工作時(shí)所需的全部相關(guān)操作。

5 語(yǔ)料的XML標(biāo)注

作為一種基礎(chǔ)資源,語(yǔ)料庫(kù)應(yīng)以一種與平臺(tái)無(wú)關(guān)的形式存在并支持相對(duì)廣泛的應(yīng)用,從而便于統(tǒng)一管理以及語(yǔ)料的共享與交換[4]。而純文本類型的語(yǔ)料由于缺少其內(nèi)容結(jié)構(gòu)與含義之間聯(lián)系的標(biāo)記,難于理解與應(yīng)用。為了發(fā)揮語(yǔ)料庫(kù)的作用,需要對(duì)其進(jìn)行標(biāo)注。XML作為一種元標(biāo)記語(yǔ)言,允許用戶定義特定領(lǐng)域的標(biāo)記來(lái)描述文檔內(nèi)容的結(jié)構(gòu)和含義,因此又可以看作一套定義語(yǔ)義標(biāo)記的規(guī)則。作為基于W3C定制的開(kāi)放標(biāo)準(zhǔn),XML能支持廣泛的應(yīng)用,從而成為源文檔與交換數(shù)據(jù)的理想格式。同時(shí)由于知曉文檔內(nèi)容的結(jié)構(gòu)與含義(根據(jù)XML的語(yǔ)法規(guī)則),所以很容易在XML文檔中進(jìn)行與上下文有關(guān)的搜索,提高查全率與查準(zhǔn)率。因此,我們決定采用XML作為古今漢語(yǔ)平行語(yǔ)料庫(kù)的標(biāo)注語(yǔ)言。而語(yǔ)料庫(kù)標(biāo)注的內(nèi)容與語(yǔ)料加工的深度及應(yīng)用的目標(biāo)有關(guān)。表2是我們制定的句子一級(jí)對(duì)齊的古今漢語(yǔ)平行語(yǔ)料庫(kù)XML標(biāo)注規(guī)范。

由于我們?cè)谡Z(yǔ)料的格式化和句子對(duì)齊過(guò)程中已經(jīng)做好了語(yǔ)料的結(jié)構(gòu)化,因此古今漢語(yǔ)平行語(yǔ)料庫(kù)的XML文檔可由對(duì)齊后的純文本格式語(yǔ)料自動(dòng)生成。鑒于XML文檔的結(jié)構(gòu)和內(nèi)容是由其語(yǔ)法定義的,因此XML支持對(duì)文檔內(nèi)容的驗(yàn)證。運(yùn)用XML模式(XML Schema)可以方便地驗(yàn)證文檔的有效性。表3是針對(duì)表2制定的古今漢語(yǔ)平行語(yǔ)料庫(kù)的XML Schema。

表3古今漢語(yǔ)平行語(yǔ)料庫(kù)XML Schema

<?xml version=\"1.0\" encoding=\"GB2312\"?>

<Schema name=\"古今漢語(yǔ)平行語(yǔ)料庫(kù)標(biāo)注規(guī)范\" xmlns=\"urn:schemas-microsoft-com:xml-data\" xmlns:dt=\"urn:schemas-microsoft-com:datatypes\">

<!--屬性說(shuō)明-->

<AttributeType name=\"ID\" dt:type=\"id\"><!--ID--></AttributeType>

<AttributeType name=\"SN\" dt:type=\"ui1\"><!--序號(hào)--></AttributeType>

<AttributeType name=\"PN\" dt:type=\"ui2\"/>

<AttributeType name=\"SENUM\" dt:type=\"ui1\" default=\"1\"/>

<AttributeType name=\"ALC\" dt:type=\"int\" default=\"1\"/>

<AttributeType name=\"COC\" dt:type=\"enumeration\" dt:values=\"人名 地名 …… 待填\" default=\"待填\"/>

<AttributeType name=\"COA\" dt:type=\"string\"/>

<!--頂層標(biāo)簽說(shuō)明-->

<ElementType name=\"TEXT\" content=\"eltOnly\" order=\"seq\">

<attribute type=\"ID\" required=\"yes\"><!--文本號(hào)--></attribute>

<element type=\"TH\" minOccurs=\"1\" maxOccurs=\"1\"/>

<element type=\"TB\" minOccurs=\"1\" maxOccurs=\"1\"/>

</ElementType>

<!--二級(jí)標(biāo)簽說(shuō)明-->

<ElementType name=\"TH\" content=\"eltOnly\" order=\"seq\">

<element type=\"TYPE\" minOccurs=\"1\" maxOccurs=\"1\"/>

<element type=\"BOOK\" minOccurs=\"1\" maxOccurs=\"1\"/>

<element type=\"VOL\" minOccurs=\"1\" maxOccurs=\"1\"/>

<element type=\"TITLE\" minOccurs=\"1\" maxOccurs=\"1\"/>

<element type=\"PAGE\" minOccurs=\"1\" maxOccurs=\"1\"/>

</ElementType>

<ElementType name=\"TB\" content=\"mixed\" order=\"many\">

<element type=\"PH\" minOccurs=\"1\" maxOccurs=\"*\"/>

</ElementType>

<!--TEXTHEAD三級(jí)標(biāo)簽說(shuō)明-->

<ElementType name=\"TYPE\" content=\"textOnly\" dt:type=\"enumeration\" dt:values=\"原文 譯文 注釋\"/>

<ElementType name=\"BOOK\" content=\"textOnly\" dt:type=\"enumeration\" dt:values=\"國(guó)語(yǔ) 戰(zhàn)國(guó)策 左傳\"/>

<ElementType name=\"VOL\" content=\"textOnly\" dt:type=\"string\">

<attribute type=\"SN\" required=\"yes\"><!--卷號(hào)--></attribute>

<!--卷名-->

</ElementType>

<ElementType name=\"TITLE\" content=\"textOnly\" dt:type=\"string\">

<attribute type=\"SN\" required=\"yes\"><!--卷內(nèi)篇號(hào)--></attribute>

<!--篇名-->

</ElementType>

<ElementType name=\"PAGE\" content=\"textOnly\" dt:type=\"ui2\"><!--起始頁(yè)碼--></ElementType>

<!--TEXTBODY三級(jí)以下標(biāo)簽說(shuō)明-->

<ElementType name=\"PH\" content=\"mixed\" order=\"many\">

<attribute type=\"SN\" required=\"yes\"><!--文內(nèi)段落號(hào)--></attribute>

<attribute type=\"PN\" required=\"yes\"><!--段起始頁(yè)碼--></attribute>

<element type=\"AL\" minOccurs=\"1\" maxOccurs=\"*\"/>

<element type=\"CO\" minOccurs=\"0\" maxOccurs=\"*\"/>

</ElementType>

<ElementType name=\"AL\" content=\"mixed\" order=\"many\">

<attribute type=\"SN\" required=\"yes\"><!--文內(nèi)句子對(duì)齊單位號(hào)--></attribute>

<attribute type=\"SENUM\" required=\"yes\"><!--對(duì)齊單位內(nèi)句子數(shù)--></attribute>

<attribute type=\"ALC\" required=\"yes\"><!--對(duì)齊單位內(nèi)句序--></attribute>

<element type=\"SE\" minOccurs=\"1\" maxOccurs=\"*\"/>

</ElementType>

<ElementType name=\"SE\" content=\"mixed\" order=\"many\">

<attribute type=\"SN\" required=\"yes\"><!--段內(nèi)句子號(hào)--></attribute>

<!--句子-->

</ElementType>

<ElementType name=\"CO\" content=\"textOnly\" dt:type=\"string\">

<attribute type=\"SN\" required=\"yes\"><!--段內(nèi)注釋號(hào)--></attribute>

<attribute type=\"COC\" required=\"yes\"><!--注釋類型--></attribute>

<attribute type=\"COA\" required=\"no\"><!--注者--></attribute>

<!--原文中的注釋項(xiàng)或注釋中對(duì)應(yīng)的注釋內(nèi)容-->

</ElementType>

</Schema>

三 語(yǔ)料的組織與應(yīng)用

大量經(jīng)過(guò)XML標(biāo)注的語(yǔ)料要如何有效地存儲(chǔ)和查詢是能否充分發(fā)揮語(yǔ)料作用的關(guān)鍵。常用方法之一是在成熟的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)基礎(chǔ)上擴(kuò)充相應(yīng)功能,使其能夠勝任XML數(shù)據(jù)的處理,又稱為XML使能數(shù)據(jù)庫(kù)[5]。微軟開(kāi)發(fā)的SQL Server 2000 和 SQL XML Web Release 提供了強(qiáng)大的 XML 數(shù)據(jù)管理功能,這些功能致力于關(guān)系數(shù)據(jù)和 XML 數(shù)據(jù)之間的映射。可以使用帶有批注的 XSD (AXSD) 來(lái)定義關(guān)系數(shù)據(jù)的 XML 視圖,以便提供以 XML 為中心的方法,從而支持 XML 數(shù)據(jù)的批量數(shù)據(jù)加載、查詢和更新功能。Transact-SQL 擴(kuò)展則提供了以 SQL 為中心的方法,以便將關(guān)系查詢結(jié)果映射到 XML(使用 FOR XML),以及從 XML 生成關(guān)系視圖(使用 Open XML)。而MS Microsoft SQL Server 2005除了提供以上的支持,還新增了原生 XML 支持:XML值可以自然地存儲(chǔ)在 XML 數(shù)據(jù)類型列中,而后者可以根據(jù) XML 架構(gòu)集合進(jìn)行類型化,或者保持非類型化;可將 XML 列編入索引;使用 XQuery 和 XML DML可以支持細(xì)粒度的數(shù)據(jù)操作。從而提供了一種強(qiáng)大的平臺(tái),以便針對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)管理開(kāi)發(fā)功能豐富的應(yīng)用程序[6]。

鑒于古今漢語(yǔ)平行語(yǔ)料庫(kù)的用戶有普通人員和專業(yè)研究人員之分,而不同方向的研究者由于對(duì)象與方法的不同,對(duì)應(yīng)用的需求亦存在差異,綜合各類需求并參照國(guó)內(nèi)外有關(guān)平行語(yǔ)料庫(kù)的平臺(tái)系統(tǒng),古今漢語(yǔ)平行語(yǔ)料庫(kù)的平臺(tái)除了應(yīng)滿足簡(jiǎn)單便捷、易學(xué)易用的要求之外,應(yīng)包括以下三個(gè)方面的基礎(chǔ)工具:⑴ 閱讀工具:在各級(jí)語(yǔ)料對(duì)齊的基礎(chǔ)上,實(shí)現(xiàn)原文、譯文、注釋之間的一一對(duì)應(yīng)與超文本閱讀,并提供古文的斷句、古漢語(yǔ)詞典以及電子筆記功能。⑵ 檢索工具:用戶既可以對(duì)語(yǔ)料的范圍、時(shí)間、作者、題材、體裁進(jìn)行復(fù)合條件的精確與模糊檢索;也可以通過(guò)各級(jí)索引進(jìn)行句對(duì)、短語(yǔ)、詞匯或任意字符串的集例檢索(指在特定語(yǔ)料庫(kù)中按指定范圍對(duì)目標(biāo)出現(xiàn)的上下文進(jìn)行提取所得的一個(gè)列表),上下文的長(zhǎng)度可由用戶自行指定。檢索結(jié)果既可以按檢索項(xiàng)左右字符的Unicode碼排序,也可以按檢索項(xiàng)左右字符的出現(xiàn)頻率排序。⑶ 統(tǒng)計(jì)工具:提供以下統(tǒng)計(jì)項(xiàng)的計(jì)算,字符串出現(xiàn)的頻次、比例,Bayes估計(jì),搭配間的互信息、相關(guān)度與共現(xiàn)度,假設(shè)檢驗(yàn)等。為進(jìn)一步構(gòu)建統(tǒng)計(jì)語(yǔ)言模型(2元或3元模型,以及HMM模型),實(shí)現(xiàn)古今漢語(yǔ)的機(jī)器翻譯提供計(jì)量依據(jù)。

四 結(jié)束語(yǔ)

根據(jù)前述流程和原則,截止到目前,我們已經(jīng)完成包括《左轉(zhuǎn)》、《國(guó)語(yǔ)》、《戰(zhàn)國(guó)策》三部著作在內(nèi)的原文及譯文的校驗(yàn)、對(duì)齊工作,得到語(yǔ)料2988篇(其中古文996篇,譯文996篇,對(duì)齊文章996篇),古文約50萬(wàn)字,譯文約70萬(wàn)字,句子級(jí)對(duì)齊37587古今漢語(yǔ)互譯句對(duì)。所有語(yǔ)料及對(duì)齊句對(duì)都按照合理的規(guī)則存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中。基于這些語(yǔ)料,完成了自動(dòng)句對(duì)齊算法研究、最相似古文句子檢索研究以及古今漢語(yǔ)平行語(yǔ)料庫(kù)平臺(tái)建設(shè)。進(jìn)一步,推進(jìn)了基于實(shí)例的古漢語(yǔ)機(jī)器翻譯問(wèn)題研究,包括構(gòu)建翻譯任務(wù)的計(jì)算模型,設(shè)計(jì)與實(shí)現(xiàn)一個(gè)實(shí)用、開(kāi)放、易于擴(kuò)展的古漢語(yǔ)翻譯、研究、應(yīng)用為一體的工作站。總之,基于業(yè)已構(gòu)建的古今漢語(yǔ)平行語(yǔ)料庫(kù),衍生出了一系列非常有價(jià)值的研究課題,現(xiàn)在我們正在從語(yǔ)料廣度(擴(kuò)充語(yǔ)料)和加工深度(字、詞一級(jí)標(biāo)注)兩個(gè)方面來(lái)進(jìn)行建設(shè),同時(shí)也在朝構(gòu)建基于Web的、大型開(kāi)放式的平臺(tái)方向演進(jìn)。

運(yùn)用現(xiàn)代計(jì)算語(yǔ)言學(xué)的理論、方法與技術(shù)來(lái)構(gòu)建古今漢語(yǔ)平行語(yǔ)料庫(kù),無(wú)疑會(huì)促進(jìn)漢語(yǔ)語(yǔ)言的研究尤其是歷時(shí)研究向縱深發(fā)展,深化人們對(duì)漢語(yǔ)發(fā)展規(guī)律及古今漢語(yǔ)共性與差異的認(rèn)識(shí)。反過(guò)來(lái),漢語(yǔ)語(yǔ)料尤其是古漢語(yǔ)語(yǔ)料本身的復(fù)雜性和特殊性也會(huì)對(duì)中文信息處理技術(shù)提出一些新要求,如古漢語(yǔ)的自動(dòng)分詞、詞性標(biāo)注,古今漢語(yǔ)的自動(dòng)對(duì)齊等,而通過(guò)對(duì)這些問(wèn)題的處理可以促使我們對(duì)中文信息處理手段進(jìn)行反思,促進(jìn)信息處理技術(shù)的發(fā)展和提高。

——————————

參考文獻(xiàn)

[1]馮志偉.中國(guó)語(yǔ)料庫(kù)研究的歷史與現(xiàn)狀[J]:漢語(yǔ)語(yǔ)言與計(jì)算學(xué)報(bào), 2002,11(2):127-136.

[2]黃昌寧、李涓子.語(yǔ)料庫(kù)語(yǔ)言學(xué)[M].北京:商務(wù)印書館,2002.

[3]柏曉靜、常寶寶、詹衛(wèi)東. 構(gòu)建大規(guī)模的漢英雙語(yǔ)平行語(yǔ)料庫(kù)[A]// 黃河燕.機(jī)器翻譯研究進(jìn)展——2002全國(guó)機(jī)器翻譯研討會(huì)文集.北京:電子工業(yè)出版社,2002:124-131.

[4]常寶寶、柏曉靜.北京大學(xué)漢英雙語(yǔ)語(yǔ)料庫(kù)標(biāo)記規(guī)范[J].漢語(yǔ)語(yǔ)言與計(jì)算學(xué)報(bào),2003,13(2):195-214.

[5]MARK GRAVES.XML數(shù)據(jù)庫(kù)設(shè)計(jì)[M].尹志軍.北京:機(jī)械工業(yè)出版社,2002.

[6]SHANKAR PAL. Microsoft SQL Server 2005 的 XML 最佳實(shí)施策略[OL].中文MSDN, [2004-05-07]. .

注釋

①胡俊峰2001年北京大學(xué)博士論文“基于詞匯語(yǔ)義分析的唐宋詩(shī)計(jì)算機(jī)輔助深層研究”

②蘭開(kāi)斯特漢語(yǔ)語(yǔ)料庫(kù)是由蘭開(kāi)斯特大學(xué)語(yǔ)言學(xué)系承擔(dān)建設(shè)并得到英國(guó)經(jīng)社研究委員會(huì)資助(項(xiàng)目代號(hào):RES-000-220135)的研究項(xiàng)目。

③以上統(tǒng)計(jì)數(shù)據(jù)源自岳麓書社2002年11月第4版的《古文觀止(言文對(duì)照) 》。

④《國(guó)語(yǔ)》相傳為春秋時(shí)期左丘明所作。三國(guó)時(shí)期吳國(guó)韋昭(204-273)的注本是現(xiàn)存的最早注本。《國(guó)語(yǔ)》現(xiàn)存的版本,有宋代刻印的兩種本子,一種是明道本,一種是公序本。

⑤《戰(zhàn)國(guó)策》相傳為戰(zhàn)國(guó)時(shí)期各國(guó)史官或策士輯錄。西漢時(shí),劉向進(jìn)行了整理。東漢高誘曾為之作注。流傳到北宋,正文和注解都有散佚,曾鞏作了校補(bǔ)。到了南宋,在曾鞏校補(bǔ)的基礎(chǔ)上,出現(xiàn)了兩種新本子:一種是姚宏的續(xù)注本,另一種是鮑彪的重定次序的新注本。元吳師道在鮑本的基礎(chǔ)上,又作了補(bǔ)正。

⑥參加翻譯校對(duì)的有孟琢、王誠(chéng)、張翼飛、翟偉星、王子楊等。

⑦表1中鏈接由北師大信息學(xué)院碩士研究生郭銳同學(xué)在2005年6-7月間采集,并不保證此時(shí)段以外的可用性。

⑧該軟件來(lái)源 http://www.scootersoftware.com

The Construction of Corpora in a Classic-Cotemporary Chinese Parallel Corpus

SONG Ji-hua 1HU Jia-jia 3MENG Peng-sheng2WANG Ning3

(1. College of Information, Beijing Normal University, Beijing 100875,China; 2. Institute of Linguistic, Chinese Academy of Social Sciences 100875,China; 3. College of Chinese Language and Literature, Beijing Normal University, Beijing 100875,China)

Abstract: The apparent differences between Classic and Contemporary Chinese make traditional ancient works written in Classic Chinese difficult to understand by modern people. The Classic and Contemporary Chinese parallel corpus has being built to provide a platform for those who hope to appreciate Chinese traditional ideology and culture and experts in relative fields to read, translate, retrieve and compute ancient Chinese works. The construction of corpora is the foundation of building a corpus. This paper explicates the systematic construction of the open resources of a large Classic and Contemporary Chinese parallel corpus from five steps: designing, collecting, formatting, bilingual aligning and XML marking.

Keyword: Classic-Cotemporary Chinese; Parallel Corpus; Corpora; XML Marking; Sentence Level Alignment

主站蜘蛛池模板: 国产毛片片精品天天看视频| 国产激情无码一区二区APP| 97国产成人无码精品久久久| 久久a级片| 国产精品视屏| 国产二级毛片| 特级毛片8级毛片免费观看| 亚洲A∨无码精品午夜在线观看| 亚洲国产欧洲精品路线久久| 亚洲一区二区约美女探花| 久久久久人妻一区精品色奶水 | 老司机午夜精品网站在线观看 | 欧美区在线播放| 久久这里只有精品免费| 日韩欧美国产精品| 在线播放91| 色哟哟国产精品一区二区| 精品视频在线观看你懂的一区| 为你提供最新久久精品久久综合| 国产午夜小视频| 澳门av无码| 国产精品永久不卡免费视频| 久久精品人人做人人爽| 91极品美女高潮叫床在线观看| 亚洲侵犯无码网址在线观看| 毛片一级在线| 毛片免费在线| 欧美日韩亚洲综合在线观看| 免费观看精品视频999| 欧美a在线看| 亚洲第一成网站| 毛片网站观看| 国产精品密蕾丝视频| 色天堂无毒不卡| 久夜色精品国产噜噜| 欧美日韩中文国产va另类| 午夜少妇精品视频小电影| 91精品国产自产在线老师啪l| 精品福利网| 亚洲综合一区国产精品| 国产白浆在线观看| 性视频久久| 青青操国产| 无码一区中文字幕| 亚洲欧美日韩另类| 亚洲AⅤ无码国产精品| 久久综合亚洲鲁鲁九月天| 一区二区理伦视频| 精品福利一区二区免费视频| 亚洲无线国产观看| 91久久大香线蕉| 免费国产黄线在线观看| 久久国产亚洲偷自| 国产在线一区二区视频| 精品国产91爱| 欧美色图第一页| 香蕉视频国产精品人| 欧美国产在线一区| 国产香蕉97碰碰视频VA碰碰看| 成人韩免费网站| 亚洲日韩久久综合中文字幕| 91在线高清视频| 免费一级全黄少妇性色生活片| 国产福利在线免费观看| 国外欧美一区另类中文字幕| 欧美日本在线观看| 亚洲香蕉在线| 国产精品任我爽爆在线播放6080 | 日韩在线1| 国内精自线i品一区202| 国产精品不卡片视频免费观看| 成人在线欧美| 亚洲欧洲免费视频| 国产又大又粗又猛又爽的视频| 成人国产精品网站在线看| 一级毛片免费播放视频| 日本一本正道综合久久dvd| 再看日本中文字幕在线观看| 亚洲一级无毛片无码在线免费视频 | 欧美日韩北条麻妃一区二区| 国模私拍一区二区| 99热这里只有精品在线播放|