999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語史研究中的數字化研究手段簡介

2007-01-01 00:00:00
現代語文 2007年2期

一、最初的方法

漢語史研究中的數字化研究手段是語言學的計算機輔助研究,即CAR(Compute-Assisted Research)的一部分。①(P56)最初語言學引入的數字化手段集中在語料庫,特別是現代語言語料庫的建設方面,即將以往由紙制材料存儲的語料改為由計算機存儲,從而實現了由自然人的閱讀向機器閱讀的轉變。機器閱讀以其速度、精確度方面的優勢為語言研究中的統計、采樣、辭書編纂等提供了方便。數字化最先在漢語史研究中的應用也是從古籍語料庫的建設和利用開始的,其后又引入了關系數據庫等手段,為文獻語料精細分析加工提供了可能。

我們認為,迄今漢語史研究的數字化主要包括語料的數字化(古籍電子語料庫建設)、原有語言知識的數字化(漢語史專家知識庫建設)和新語言知識生成的數字化三個層次。語料的數字化多借助于古籍文獻語料全文檢索系統而實現,原有語言知識的數字化和新語言知識生成的數字化則既借助全文檢索系統,又借助關系數據庫及其編程技術而實現。

(一)古籍文獻語料全文檢索系統

古籍文獻語料全文檢索系統,亦被稱作古籍電子化,是指“利用現代計算機技術,對古籍文獻進行科學系統的整理,主要應解決存儲與檢索問題”,它服務于相關人文社會科學的各個部門。據《國學寶典》的設計制作者尹小林先生的觀點②,古籍全文檢索系統的主要制作程序包括以下十個方面:1.選書;2.數據規劃;3.錄入;4.補字;5.審校;6.標引;7.軟件編寫;8.數據聯調;9.軟件測試;10.界面設計。

漢語史因其主要的工作就是從古代文獻語料中發現語言規律,故而成為古籍文獻語料全文檢索系統的最為主要的用戶之一。古籍文獻語料全文檢索系統的主要優點是“長于檢索,能從各種格式、超大容量的文件中迅速、徹底地搜索目標字串,顯示包含目標字串的句子,并能返回全文檢閱原文,也可以馬上輸出,進行編輯”。③ (P61)如考察某詞的發展,可利用臺灣中央研究院研制的“漢籍全文檢索系統”,輸入一詞,查遍全部《二十五史》四千余萬字,只需一、二秒,并將檢索結果依序窮盡排出,供瀏覽或打印。如將此項工作交由一個學者,只怕皓首窮經,也未必能保證精確不漏。④(P69)一般的古籍數字化工作面向的用戶較為寬泛,對于特定用戶所需要的特殊文獻未必都能照顧到。從事漢語史研究工作的學者需要特定的語料和文獻,這些古代文獻包含大量異體字、古今字、通假字、冷僻字、訛俗字,在制作和顯示方面有著特殊困難,故而其生產缺乏社會認同度,只能由從事語言研究的學者和單位自己承擔。近年來,不少的單位和專家都意識到漢語言文字典籍數據數字化工作的重要,也有了一些初步的成果。

(二)關系數據庫系統

全文檢索系統只是利用數字化資料的最為基礎的應用,它以字符串作為數據,采用的是非組織化的整體存儲方式,數據之間的關系被人為隔開,該方式決定我們只能通過它進行直接的、窮盡性的字符串檢索。然而語言研究中的要求是多種多樣的,絕不滿足于全文檢索系統的檢索字、詞、句。

關系數據庫技術是在全文檢索技術之后又一個深受語言研究者青睞的技術手段,兩者各有所長,互相補充。全文檢索系統主要存儲非線性的、非結構化的數據信息,數據庫系統則主要存儲、管理有組織的、結構化的數據信息,通俗地講,就是類似于表格的數據信息。所謂關系數據庫是指能處理二維表格,能夠進行投影、連接和選擇等關系操作的數據庫。該數據庫既便于人們觀察數據的關系,又具備強大的系統管理功能,能開展一些全文檢索系統不能勝任的工作。

數據庫技術運用于漢語史研究是從漢語史專家知識庫的建設開始的。從事漢語史研究的學者發現大量的語言學典籍,其文獻結構本身就是結構化的。如《廣韻》《集韻》等韻書,文獻本身即構成語言知識,它們是古代語言學家語言研究成果的一個固化。1986年華中工學院陳漢清、鄧希敏完成的《古今字音對照手冊》計算機處理系統通過了技術鑒定。該系統將《古今字音對照手冊》作為信息源全部存入計算機,建立了古今字音對照的原始資料庫、數據資料庫以及面向專家分析、研究、檢索、驗證系統,大大方便了音韻學研究。⑤[P89-91]此外,關系數據庫技術還可應用于漢語史專書詞匯、方言、以及詩文韻部的整理等研究中。這些技術的運用大都必須與數據庫編程語言或其他編程語言結合起來,通過對數字化語料和原有語言知識進行排比、對照、分析來生成新的語言知識。

二、新的方法——XML標注語言

(一)語言研究需要標注技術

“計算機原本是數值計算的工具,后來雖然也可以處理文檔,但這種處理仍然是二進制數值的計算。現在學者最常用的計算機功能就是全文檢索,檢索結果顯示的是字、詞、句子,但計算機不過是在對字符的編碼進行匹配,對記錄字符串的數值進行運算。計算機并不能懂得文檔的內容——知識。不能處理知識,計算機就不能用來進行學術研究。要使計算機‘理解’文檔內容,可以采用標記(Tag)對文檔內容進行標識?!雹蓿≒9)這種標識應該是能夠由語言研究者自主定義的,可根據需要隨時擴充其標記。雖然關系數據庫技術出現后,可以將文檔的內容分析為字段和記錄的形式加以存儲,也在某種程度上實現了內容的可理解。但是數據庫一方面依賴于特定的軟件管理系統,另一方面它又肢解了原文檔內容的整體性,降低了語言學典籍的可讀性。特別是大量的漢語史文獻,其文檔結構為立體型,如用關系數據庫存儲,將不得不建立多個數據庫表進行關聯,如此程序的編寫和語言知識的提取分析都將不勝其煩。所以漢語史研究引入一種自定義的、面向純文本的、能存儲結構化數據的標注技術就顯得非常重要了。

(二)XML標注語言簡介

XML(Extensible Markup language,可擴展標記語言)正是符合我們要求的一門創建結構化數據的技術。它實際上是一種元語言,即一種使用標簽存儲結構化數據的規范,該規范由W3C組織建議使用。XML將加了標簽的數據保存在標準的文本文件中,可以使用任何的文本編輯器,比如Windows操作系統自帶的記事本應用程序,來讀取和編輯XML文件。XML是可擴展的,這意味著在創建XML文檔時,不會局限于一套預先定義的標簽,而可以根據你自己的需要創建所需要的任何標簽,如我們漢語史研究獨有的會意、轉注、初文、或體、亦聲、省聲等均可自行定義。⑥(P9)XML標準還提供了一套與這些細節相關的規則,比如如何創建標簽、XML文檔如何結構化。XML文檔存儲的數據雖被加上了標示語義的標簽,但由于XML保持數據存儲與數據顯示相分離的原則,我們借助標簽提取的數據在顯示上將相對獨立。

(三)XML技術在漢語史研究中應用

在漢語史研究中,我們應用XML技術包括了文本生產、數據建模、文本標注、屬性提取、文本轉換以及應用程序接口的編寫等工作。

漢語史的研究材料首先是古代文獻,目前大量的古代文獻已經被錄入電腦,成為可資利用的電子文檔。適于漢語史研究需要的古籍電子文本,至少滿足以下幾個要求:一、純文本格式;二、繁體文本;三、學術質量高。⑥(P9)就目前情況來看,很多的面向漢語史研究的古籍電子文本還只能由從事語言研究的工作者自己來制作。

有了數字化的電子語料,下面就要對語料文本的自身結構展開分析,為預計生成的XML文檔建立數據模型。數據模型提供了XML文檔的邏輯結構的一種表示。它指定文檔可以包含的元素以及這些元素之間的關系,這種關系往往是一種立體的成樹型的結構。DTD(Document Type Definition)和XML Schema是用于指定數據模型的兩種可用技術。比較而言,Schema是一個更強大和靈活的數據建模工具。XML Schema的W3C的推薦標準叫做XSD,它可以更加準確地描述文檔結構。

建立數據模型后我們就可以根據模型對我們的數據進行標注了,標注并加以聲明的文本就是我們需要的XML文檔。大部分情況下,XML都是通過程序來創建的,而Microsoft Word 2003目前也可以創建XML文檔。

創建的漢語史XML文檔,由于各個元素都被加上了相應的標簽,我們就可以按圖索驥,從中提取我們需要的元素和知識。要從原有XML文檔中提取、轉換并顯示出我們需要的元素和信息,我們可以利用XML的樣式表技術。樣式表有兩種:即層疊樣式表(CSS)和可擴展樣式表(XSL)。目前兩種技術可結合使用,即用CSS控制結果在瀏覽器中的顯示,用XSL轉換XML文檔以生成另一結構的XML文檔。⑦

注釋:

①尉遲治平.計算機技術和漢語史研究[J].古漢語研究,2000,(3).

②尹小林.關于《古籍數字化彩聲不斷完善缺錢》的補充說明.國學網.2002-02-26.

③陳海波.關于數據庫在古漢語研究中的應用[J].古漢語研究,2000,(3).

④于亭.計算機與古籍整理研究手段現代化[J].古漢語研究,2000,(3).

⑤張普.漢語信息處理研究[M].第1版.北京:北京語言學院出版社,1992.

⑥尉遲治平.漢語信息處理與計算機輔助漢語史研究[J].語言研究,2004,(3).

⑦Peter G.Aitken.微軟XML技術指南[M].謝君英譯.北京:中國電力出版社,2003.

(甘勇,華中科技大學中文系)

主站蜘蛛池模板: 日韩精品专区免费无码aⅴ| 亚洲精品视频网| 天堂成人在线| 亚洲国产日韩一区| 在线观看无码av免费不卡网站| 理论片一区| 毛片一区二区在线看| 国外欧美一区另类中文字幕| 青青草国产一区二区三区| 欧美午夜久久| 国产经典在线观看一区| 亚洲欧美日韩成人高清在线一区| 欧美色伊人| 国产成人狂喷潮在线观看2345 | 亚洲精品欧美日韩在线| 亚洲v日韩v欧美在线观看| 伊人蕉久影院| 日韩成人在线视频| 九色免费视频| 午夜精品一区二区蜜桃| 欧美性爱精品一区二区三区 | 欧美亚洲一区二区三区在线| 精品国产美女福到在线不卡f| 欧美精品亚洲精品日韩专区| 亚洲午夜福利在线| 国产高清无码第一十页在线观看| 日韩午夜伦| 色婷婷狠狠干| 免费又黄又爽又猛大片午夜| 午夜激情福利视频| 日韩精品无码免费一区二区三区| 久久国产亚洲欧美日韩精品| 国产高颜值露脸在线观看| 国产精品护士| 中文字幕在线看视频一区二区三区| 亚洲第一成网站| 亚洲欧美成人影院| 国产精品爽爽va在线无码观看| 国产成人h在线观看网站站| 色综合激情网| 亚洲二三区| 久久不卡国产精品无码| 最新加勒比隔壁人妻| 国产一区二区三区精品久久呦| 久99久热只有精品国产15| 久久伊人操| 国产精品欧美在线观看| 91精品国产情侣高潮露脸| 精品免费在线视频| h视频在线观看网站| 免费福利视频网站| 最新国产你懂的在线网址| 中文字幕有乳无码| 六月婷婷激情综合| 久久青草免费91线频观看不卡| 亚洲最大福利网站| 国内精品久久九九国产精品 | 亚洲天堂网视频| 在线看片免费人成视久网下载| 97在线公开视频| 在线人成精品免费视频| 国产成人高精品免费视频| 无码内射中文字幕岛国片| 日本午夜影院| 亚洲无线视频| a在线亚洲男人的天堂试看| 欧美午夜小视频| 欧美综合中文字幕久久| www.av男人.com| 成人在线第一页| 欧美亚洲日韩中文| 2022国产无码在线| 女人18一级毛片免费观看| 精品无码国产一区二区三区AV| 欧美69视频在线| 亚洲欧美精品在线| 五月激情婷婷综合| 久久久久青草线综合超碰| 久久久精品国产亚洲AV日韩| 欧美精品色视频| 亚洲男人在线| 精品无码视频在线观看|