□毛建軍
明清檔案是明清兩朝社會(huì)活動(dòng)的原始記錄,是我國(guó)歷史檔案的重要組成部分。明清檔案內(nèi)容繁多,大致包括內(nèi)閣大庫(kù)檔案、軍機(jī)處檔案、內(nèi)務(wù)府檔案、宗人府檔案、國(guó)史館檔案、清宮中各處檔案和清各部院衙門檔案等。據(jù)調(diào)查統(tǒng)計(jì),現(xiàn)存于我國(guó)大陸、臺(tái)灣及世界各地的明清檔案約有2200萬(wàn)件。①隨著計(jì)算機(jī)技術(shù)的發(fā)展,明清檔案的研究手段和實(shí)踐有了新的突破和發(fā)展。其中尤以計(jì)算機(jī)技術(shù)與明清檔案研究的結(jié)合最為突出。計(jì)算機(jī)巨大的儲(chǔ)存空間和強(qiáng)大的數(shù)據(jù)處理能力,給明清檔案的數(shù)字化帶來(lái)了全新的機(jī)遇,明清檔案的保存和利用也迎來(lái)了數(shù)字化新時(shí)代。
明清檔案數(shù)字化就是采用計(jì)算機(jī)技術(shù),將常見的文字或圖形符號(hào)轉(zhuǎn)化為數(shù)字符號(hào)的過(guò)程。明清檔案數(shù)據(jù)庫(kù)則是指以計(jì)算機(jī)可讀的字符代碼形式或以明清檔案掃描影像形式存貯的數(shù)據(jù)庫(kù)。明清檔案數(shù)據(jù)庫(kù)以明清檔案文字內(nèi)容為揭示對(duì)象,其目的在于保護(hù)和揭示明清檔案信息,從而最終實(shí)現(xiàn)明清檔案的保存和利用。明清檔案數(shù)據(jù)庫(kù)能夠?qū)崿F(xiàn)全文閱讀、全文檢索或智能分析服務(wù),具有傳統(tǒng)文獻(xiàn)所無(wú)可比擬的優(yōu)勢(shì)。
明清檔案數(shù)字化是檔案學(xué)發(fā)展的必然選擇。明清檔案數(shù)字化以其特有的資源特點(diǎn)必將給檔案學(xué)研究和中國(guó)文化的傳播帶來(lái)全新的機(jī)遇。其重要性和意義在于:①有利于明清檔案的搶救和保護(hù)。由于種種原因,我國(guó)明清檔案正處于瀕危階段。明清檔案數(shù)據(jù)庫(kù)以數(shù)字化的形式存貯和利用,是搶救明清檔案的最好形式。②有利于全方位開發(fā)利用明清檔案。明清檔案數(shù)據(jù)庫(kù)是一個(gè)存儲(chǔ)在一起的相關(guān)數(shù)據(jù)的集合,具有高度數(shù)據(jù)集成的特征。明清檔案數(shù)據(jù)庫(kù)實(shí)現(xiàn)了檢索自動(dòng)化,可千百倍地提高檢索速度。③有利于促進(jìn)古籍文獻(xiàn)資源共建共享的形成。隨著國(guó)際互聯(lián)網(wǎng)的迅速發(fā)展,明清檔案實(shí)現(xiàn)了網(wǎng)絡(luò)共享,可以在任意時(shí)間、任意空間傳播,數(shù)字化明清檔案的網(wǎng)絡(luò)共享大大提高了明清檔案的利用效率。
在短短的20年間,國(guó)內(nèi)外利用計(jì)算機(jī)技術(shù)編制了大量明清檔案數(shù)據(jù)庫(kù)。對(duì)明清檔案數(shù)據(jù)庫(kù)資源做調(diào)查分析,既有利于指導(dǎo)下一步的明清檔案數(shù)字化工作,促進(jìn)明清檔案數(shù)字資源的整合,又有利于社會(huì)各界合理利用明清檔案數(shù)字資源,充分挖掘明清檔案信息。
日本收藏有大量的中文古籍。隨著古籍?dāng)?shù)字化進(jìn)程的開展,日本各大科研機(jī)構(gòu)也開始將明清檔案數(shù)字化,并提供網(wǎng)絡(luò)化服務(wù)。其中在明清檔案數(shù)據(jù)庫(kù)的開發(fā)與建設(shè)方面,以京都大學(xué)圖書館建置的中國(guó)清代民國(guó)公私文書數(shù)據(jù)庫(kù)最具成就。中國(guó)清代民國(guó)公私文書數(shù)據(jù)庫(kù)收錄了京都大學(xué)法學(xué)部舊日本法史研究室所藏康熙至民國(guó)年間的295件中國(guó)公私文書的圖像數(shù)據(jù)。內(nèi)容包含田地、房屋、魚池等典賣關(guān)系文書(賣契、典契、稅契等);租佃關(guān)系文書(承攬契、租契、納租督促文書);所有權(quán)確認(rèn)官給文書;稅契稅糧的官給文書;借錢、遺囑、解決紛爭(zhēng)的私文書;以及各種官方公文等。
目前,臺(tái)灣地區(qū)明清檔案數(shù)據(jù)庫(kù)已開發(fā)出許多資源,其開發(fā)建設(shè)單位主要為臺(tái)灣地區(qū)的研究機(jī)構(gòu)。其中以臺(tái)灣“中央研究院”歷史語(yǔ)言研究所建置的內(nèi)閣大庫(kù)檔案數(shù)據(jù)庫(kù)和“國(guó)立故宮博物院”清代宮中檔奏折及軍機(jī)處檔折件數(shù)據(jù)庫(kù)最具特色。
“中央研究院”歷史語(yǔ)言研究所建置的內(nèi)閣大庫(kù)檔案數(shù)據(jù)庫(kù)收錄目錄數(shù)據(jù)16萬(wàn)條,提要數(shù)據(jù)11萬(wàn)條,全文影像3.8萬(wàn)條?!爸醒胙芯吭骸睔v史語(yǔ)言研究所現(xiàn)有內(nèi)閣大庫(kù)檔案總計(jì)31萬(wàn)多件,是研究中國(guó)制度史的重要史料。內(nèi)閣大庫(kù)是清代內(nèi)閣典藏書籍、表章、檔案的場(chǎng)所,館藏檔案內(nèi)容包括詔令、題奏、移會(huì)、賀表、三法司案卷、實(shí)錄稿本、各種黃冊(cè)、簿冊(cè)等。內(nèi)閣大庫(kù)檔案數(shù)據(jù)庫(kù)的建設(shè)始于1996年,目前已基本建成。研究者可通過(guò)互聯(lián)網(wǎng)檢索提要,全文影像則需要在史語(yǔ)所傅斯年圖書館閱覽室使用。數(shù)據(jù)庫(kù)可實(shí)現(xiàn)簡(jiǎn)易查詢、索引瀏覽和全文檢索查詢,檢索途徑有責(zé)任者、職銜、事由、登錄號(hào)、主題等。
“國(guó)立故宮博物院”清代宮中檔奏折及軍機(jī)處檔折件數(shù)據(jù)庫(kù)收錄“宮中檔奏折”15萬(wàn)余件,“軍機(jī)處折件”19萬(wàn)余件,內(nèi)容涵蓋清代國(guó)政大事、國(guó)家政策、軍事外交、典章制度、風(fēng)土人情、文化習(xí)俗、律法刑案、工藝美術(shù)等豐富多樣的數(shù)據(jù)類型。數(shù)據(jù)庫(kù)可提供文獻(xiàn)編號(hào)、具奏人姓名、具奏人官職、具奏時(shí)間、事由、朱批日期等檔案相關(guān)內(nèi)容的檢索。檢索結(jié)果以標(biāo)題索引與原版影像呈現(xiàn)。
其它臺(tái)灣地區(qū)明清檔案數(shù)據(jù)庫(kù)見下表:
中國(guó)大陸地區(qū)是明清檔案收藏最為豐富的地區(qū)。由于計(jì)算機(jī)技術(shù)發(fā)展略滯后于日本和港臺(tái)地區(qū),在明清檔案數(shù)據(jù)庫(kù)開發(fā)建設(shè)上起步較晚,但后來(lái)居上。目前中國(guó)大陸地區(qū)的明清檔案數(shù)據(jù)庫(kù)的建設(shè)已取得豐碩成果。中國(guó)大陸地區(qū)參與明清檔案數(shù)據(jù)庫(kù)開發(fā)建設(shè)的單位主要為公共檔案館和數(shù)字化出版企業(yè)。公共檔案館明清檔案數(shù)據(jù)庫(kù)的建設(shè)以中國(guó)第一歷史檔案館開發(fā)制作的《清代檔案文獻(xiàn)數(shù)據(jù)庫(kù)》為代表;數(shù)字化出版企業(yè)以愛如生數(shù)字化技術(shù)研究中心研制的《明清實(shí)錄》和《清帝朱批奏折》最具特色和影響力。
《清代檔案文獻(xiàn)數(shù)據(jù)庫(kù)》是中國(guó)第一歷史檔案館重點(diǎn)清史檔案文獻(xiàn)數(shù)字化工作項(xiàng)目,是目前國(guó)內(nèi)外首次運(yùn)用先進(jìn)的中文數(shù)字化技術(shù)進(jìn)行大規(guī)模歷史檔案文獻(xiàn)數(shù)字化的成功案例。中國(guó)第一歷史檔案館館藏檔案1000余萬(wàn)件,共74個(gè)全宗。其中,明代檔案3000余件,主要是天啟、崇禎時(shí)期的兵部檔案。清代檔案占絕大部分,內(nèi)容涵蓋了清代的政治、經(jīng)濟(jì)、軍事、文化、農(nóng)業(yè)、工業(yè)、外交、科技、教育、宗教等諸方面?!肚宕鷻n案文獻(xiàn)數(shù)據(jù)庫(kù)》由北京書同文數(shù)字化技術(shù)有限公司提供技術(shù)支持,于2005年底正式啟動(dòng)。目前第一期建設(shè)成果《大清歷朝實(shí)錄》、《大清五部會(huì)典》已經(jīng)完成。《大清歷朝實(shí)錄》共計(jì)3645萬(wàn)字,原文圖像127971頁(yè)。《大清五部會(huì)典》共計(jì)2610萬(wàn)字,原文圖像85582頁(yè)。數(shù)據(jù)庫(kù)以原文圖像與全文數(shù)字化文本相掛接作為基本模式,兩種頁(yè)面可相互切換,使讀者能夠即時(shí)將全文檢索的結(jié)果與原文對(duì)照。數(shù)據(jù)庫(kù)強(qiáng)大的全文檢索功能,實(shí)現(xiàn)了字字可查、句句可檢,全文檢索內(nèi)置漢字關(guān)聯(lián),其中包括簡(jiǎn)繁、正異、通假、正訛、中日、避諱字等各種漢字之間的關(guān)聯(lián),并附帶中西紀(jì)年歷換算工具?!肚宕鷻n案文獻(xiàn)數(shù)據(jù)庫(kù)》是檔案文獻(xiàn)工作者和古籍?dāng)?shù)字化科技工作者共同創(chuàng)造的成果,代表了我國(guó)檔案數(shù)字化的最高水平和發(fā)展方向,標(biāo)志著我國(guó)清代檔案史料的刊布進(jìn)入了信息化新階段。②

名稱 數(shù)字代碼 漢語(yǔ)拼音代碼 漢字代碼公開級(jí) 0 GK 公開國(guó)內(nèi)級(jí) 1 GN 國(guó)內(nèi)內(nèi)部級(jí) 2 NB 內(nèi)部秘密級(jí) 3 MM 秘密機(jī)密級(jí) 4 JM 機(jī)密絕密級(jí) 5 JM 絕密
北京愛如生數(shù)字化技術(shù)研究中心是中國(guó)頗具規(guī)模的古籍?dāng)?shù)字化專業(yè)公司,中心先后研發(fā)了80種兼具學(xué)術(shù)性和實(shí)用性、風(fēng)格多樣的古籍?dāng)?shù)字化產(chǎn)品,包括大型數(shù)據(jù)庫(kù)、系列數(shù)據(jù)庫(kù)、數(shù)字圖書和數(shù)字工具等。在明清檔案數(shù)字化資源開發(fā)方面,北京愛如生數(shù)字化技術(shù)研究中心也取得了豐富成果?!睹髑鍖?shí)錄》匯輯《明實(shí)錄》和《清實(shí)錄》兩部巨著共計(jì)27種書、7356卷,各據(jù)其通行鈔本制成全文數(shù)據(jù),另附原版影像??傆?jì)全文5千萬(wàn)字,影像30萬(wàn)頁(yè),數(shù)據(jù)總量約10G,同時(shí)配備有全文檢索系統(tǒng)?!肚宓壑炫嗾邸饭策x錄大陸和臺(tái)灣兩地檔案機(jī)構(gòu)歷年來(lái)影印公布的清代朱批奏折10萬(wàn)件,時(shí)間跨越康熙、雍正、乾隆、嘉慶、道光、咸豐、同治、光緒八朝,內(nèi)容涉及政治、經(jīng)濟(jì)、軍事、外交、社會(huì)、文化等多個(gè)方面?!肚宓壑炫嗾邸凡捎霉偶?dāng)?shù)字化技術(shù),將奏文及批文全部數(shù)字化,制成可讀可查的全文數(shù)據(jù),并配備檢索系統(tǒng)和功能平臺(tái),提供分類檢索、條目檢索、全文檢索、高級(jí)檢索及原文對(duì)照、圈點(diǎn)眉批、分類收集、下載打印等功能。
除了以上大型明清檔案數(shù)字化成果以外,國(guó)內(nèi)一些公共圖書館和科研單位也積極參與明清檔案的數(shù)字化工作。如大連市圖書館開發(fā)的《清代內(nèi)務(wù)府檔案數(shù)據(jù)庫(kù)》、中國(guó)社會(huì)科學(xué)院歷史研究所開發(fā)的《徽州契約文書數(shù)據(jù)庫(kù)》等也都兼具實(shí)用價(jià)值和精品特色。
明清檔案數(shù)字化是對(duì)已存文獻(xiàn)的再現(xiàn)和加工,是21世紀(jì)明清檔案整理和研究的發(fā)展方向。盡管明清檔案數(shù)據(jù)庫(kù)的建設(shè)已經(jīng)取得了相當(dāng)大的成績(jī),但還存在一些值得思考的問(wèn)題。
一是資源重復(fù)建設(shè)問(wèn)題。由于目前還沒有一個(gè)統(tǒng)一的組織機(jī)構(gòu)去管理和協(xié)調(diào)明清檔案數(shù)據(jù)庫(kù)的建設(shè),加之明清檔案收藏單位和研究單位又十分復(fù)雜,因此,國(guó)內(nèi)外重復(fù)開發(fā)和建設(shè)了大小不一的數(shù)據(jù)庫(kù),造成了巨大的人力、物力和財(cái)力的浪費(fèi)。這種重復(fù)開發(fā)不僅給開發(fā)單位帶來(lái)了巨大損失,而且也增加了讀者檢索和利用上的困難。明清檔案數(shù)據(jù)庫(kù)的建設(shè)是一項(xiàng)系統(tǒng)工程,需要一個(gè)全國(guó)性協(xié)調(diào)機(jī)構(gòu)或組織來(lái)全面實(shí)施數(shù)據(jù)庫(kù)的規(guī)劃,以避免重復(fù)開發(fā)和資源浪費(fèi)。
二是數(shù)據(jù)庫(kù)兼容問(wèn)題。明清檔案數(shù)據(jù)庫(kù)的建設(shè)至今還沒有一個(gè)統(tǒng)一的數(shù)據(jù)庫(kù)著錄和運(yùn)行系統(tǒng)標(biāo)準(zhǔn),系統(tǒng)建置也是各行其是。這勢(shì)必造成未來(lái)統(tǒng)一數(shù)據(jù)庫(kù)的兼容問(wèn)題。明清檔案數(shù)據(jù)庫(kù)的建設(shè)必須依照相應(yīng)的標(biāo)準(zhǔn)和規(guī)范進(jìn)行建設(shè)。規(guī)范化的明清檔案數(shù)據(jù)庫(kù)必須是在相同軟件支持下做出的,在格式、內(nèi)容、標(biāo)引、著錄以及字體等方面都按國(guó)家標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)。
三是資源共享問(wèn)題。明清檔案數(shù)據(jù)庫(kù)的利用在資源共享上還存在資源封閉和利益保護(hù)的弊端。從目前已建成的明清檔案數(shù)據(jù)庫(kù)資源來(lái)看,在使用方面設(shè)立了許多障礙,如限制局域網(wǎng)使用,給讀者帶來(lái)了諸多不便。因此,實(shí)現(xiàn)明清檔案數(shù)據(jù)庫(kù)資源的共享勢(shì)在必行。
需要指出的是,目前明清檔案數(shù)據(jù)庫(kù)的建設(shè)最迫切的任務(wù)是做好資源整合工作。從已開發(fā)的明清檔案數(shù)據(jù)庫(kù)的資源來(lái)看,明清檔案的資源已相當(dāng)可觀。因此,整合利用好這些資源是件很重要的工作。在充分調(diào)查國(guó)內(nèi)外明清檔案數(shù)據(jù)庫(kù)資源的基礎(chǔ)上,相信不遠(yuǎn)的將來(lái)會(huì)有一個(gè)完善且高效的明清檔案數(shù)據(jù)庫(kù)呈現(xiàn)在我們眼前。
注釋:
①?gòu)垥?huì)超:《明清檔案編纂出版的思考》,《檔案管理》2007年第4期:第43-44頁(yè)。
②王光越:《中國(guó)第一歷史檔案館“全文數(shù)字化清代檔案文獻(xiàn)數(shù)據(jù)庫(kù)”建設(shè)成果〈大清歷朝實(shí)錄〉、〈大清五部會(huì)典〉》,《歷史檔案》2008年第1期:第133-137頁(yè)。