◎胡娟 肖獻(xiàn)軍
關(guān)于專業(yè)化、小型化數(shù)據(jù)庫建設(shè)的思考
——以柳宗元數(shù)據(jù)庫建設(shè)為例
◎胡娟 肖獻(xiàn)軍
隨著學(xué)者研究的不斷深入,大型化數(shù)據(jù)庫越來越滿足不了研究者的需要,專業(yè)化數(shù)據(jù)庫的建設(shè)迫在眉睫。學(xué)者要積極參與到專業(yè)化數(shù)據(jù)庫建設(shè)中來,在專業(yè)化數(shù)據(jù)庫建設(shè)中起關(guān)鍵性作用;數(shù)據(jù)庫技術(shù)開發(fā)者要努力設(shè)計出智能化更高的數(shù)據(jù)庫,國家、地方也應(yīng)在專業(yè)化數(shù)據(jù)庫的建設(shè)上給予更多的政策層面和經(jīng)濟(jì)層面上的支持。
專業(yè)化 數(shù)據(jù)庫 柳宗元 思考
近年來,各類大型化古典文獻(xiàn)數(shù)據(jù)庫越來越多,如《中國基本古籍庫》《國學(xué)寶典》《漢籍全文檢索系統(tǒng)》《中國方志》等,港澳臺及國外也有不少,如《瀚典全文檢索系統(tǒng)》(臺灣)《漢達(dá)古籍資料庫》(香港)《全國漢籍——日本所藏中文古籍?dāng)?shù)據(jù)庫》(日本)等。古典文獻(xiàn)的數(shù)據(jù)化極大提高了研究者的效率,也使得研究結(jié)果更準(zhǔn)確化、科學(xué)化。
然而,隨著數(shù)據(jù)庫資料的越來越龐大,學(xué)者在享受其提供的方便時,也帶來了不少煩惱。主要是學(xué)者對相關(guān)資料的分析與辨?zhèn)卧絹碓嚼щy,在一些特大型的數(shù)據(jù)庫中,輸入某個人名或者書名,顯示的可能是幾千條甚至幾萬條檢索信息。面對如此多的檢索信息,對于那些文獻(xiàn)基礎(chǔ)較弱的學(xué)者而言,有這些文獻(xiàn)資料還不如沒有這些文獻(xiàn)資料得好。確實,成千上萬條的文獻(xiàn)資料,究竟有多少條能為學(xué)者利用,有多少條價值確實比較高,真的很難分辨出來。于是學(xué)者陷入了浩瀚的文獻(xiàn)資料中而難以解脫出來,原本可以提高研究效率的數(shù)據(jù)庫反而影響了學(xué)者的研究效率,這一點可能是那些大型數(shù)據(jù)庫開發(fā)者始料未及的。要擺脫這種困擾,數(shù)據(jù)庫建設(shè)者需要改變傳統(tǒng)觀念,一方面要繼續(xù)開發(fā)一些大型的數(shù)據(jù)庫,另一方面需要開發(fā)一些專業(yè)化較強(qiáng)的小型數(shù)據(jù)庫。后一類型的數(shù)據(jù)庫,對于學(xué)者的研究無疑更具有現(xiàn)實價值和實際意義。
但專業(yè)化數(shù)據(jù)庫的建設(shè)不是件容易的事。與大型數(shù)據(jù)庫相比,這種類型數(shù)據(jù)庫的建設(shè)者不僅僅只是技術(shù)的掌握者,還必須是某領(lǐng)域、某方向上的專家。然而,二者兼有的人才少之又少。這就需要有協(xié)作和分工。“人類如何適應(yīng)并利用其獨特的思維方式,將人的創(chuàng)造性思維與計算機(jī)的強(qiáng)大功能有機(jī)結(jié)合起來,把古典文獻(xiàn)研究提升到一個更高境界,是廣大文學(xué)研究者和IT業(yè)者共同面對的挑戰(zhàn)。”[1]一方面,需要相關(guān)技術(shù)公司提供新的技術(shù),另一方面,需要相關(guān)高校、研究所投入一定的人力、物力、財力,搜集整理建庫所需要的資料。這樣就把先進(jìn)的技術(shù)和專業(yè)的知識結(jié)合起來,就能建設(shè)出高水平、高效率的專業(yè)化數(shù)據(jù)庫。
如要建設(shè)一個與柳宗元相關(guān)的數(shù)據(jù)庫,雖然大型數(shù)據(jù)庫中會有一些相關(guān)的柳宗元的資料,但相對起來比較零碎,而且還不全面。如果把搜集資料的任務(wù)交給某些學(xué)者,建立起來的數(shù)據(jù)庫可能會完全不同。就以我所在的湖南科技學(xué)院而言,我校翟滿桂教授就是柳宗元研究方面的專家,在柳宗元方面先后立項了一個國家課題、一個教育部課題、一個省級重點課題。她指出,就版本而言,宋代刊刻柳集有九個不同版本,明代有三種,清代有三種,現(xiàn)當(dāng)代則多達(dá)十多種;柳宗元年譜今存十二種。這些資料的掌握和搜集,不是那些大型數(shù)據(jù)庫的建設(shè)者所能做到的,只有專家學(xué)者才能做到。如果再聯(lián)合尹占華、尚永亮等人的研究成果,建立起來的數(shù)據(jù)庫一定是資料最全面、最具權(quán)威性而又最專業(yè)的柳宗元數(shù)據(jù)庫了。
專家學(xué)者除了可以在資料的搜集上起重大作用外,還能夠?qū)Y料進(jìn)行整理和歸類。今天一些大型的古典文獻(xiàn)數(shù)據(jù)庫,資料的分類大多是依據(jù)四部進(jìn)行的,有些數(shù)據(jù)庫雖然在分類上有所改變,但實際上只是細(xì)節(jié)上的改變。如果建立專業(yè)化、小型化的數(shù)據(jù)庫,四部的分類無疑適應(yīng)不了研究的需要。柳宗元資料搜集起來后,怎樣對這些數(shù)據(jù)進(jìn)行分類,也不是數(shù)據(jù)庫技術(shù)開發(fā)者所能解決的。資料的分類必須以怎樣方便研究者研究為目的。如要建設(shè)柳宗元數(shù)據(jù)庫,再按經(jīng)史子集的標(biāo)準(zhǔn)去分類,就完全不符合實際了。如果從學(xué)者使用方便與否的角度去分類,去請教柳宗元研究方面的專家,就會發(fā)現(xiàn)柳宗元數(shù)據(jù)庫可以按以下五個板塊進(jìn)行分類。
1.版本模塊。將收錄不同時期各種版本的柳宗元文集,同時采用影像和數(shù)字化技術(shù)加以保存。
2.史料筆記模塊。主要收錄與柳宗元的生平、交游和創(chuàng)作情況相關(guān)的史料筆記。
3.地理方志模塊。主要收錄與柳宗元相關(guān)的地理、方志資料及通過田野調(diào)查獲得的數(shù)據(jù)(圖片)。
4.詩文評類模塊。主要收錄歷代學(xué)人對柳宗元及其作品的評價。
5.海外文獻(xiàn)模塊。主要收錄日本、韓國等保存的與柳宗元相關(guān)的文獻(xiàn)資料及學(xué)者的研究成果。
如這樣分類,將比四部分類更準(zhǔn)確,更方便學(xué)者研究。
專業(yè)化數(shù)據(jù)庫的建設(shè),不僅要在資料整理上多下功夫,要把資料搜集整理完整,而且要體現(xiàn)當(dāng)代學(xué)者的最新研究成果。學(xué)者做學(xué)術(shù)研究,文獻(xiàn)資料整理相當(dāng)重要,這是基礎(chǔ)性工作,同時,還要對該專業(yè)的學(xué)術(shù)史有所了解。如果不對學(xué)術(shù)史有所了解,不了解當(dāng)下研究動態(tài),只是埋著頭做學(xué)問,說不定等研究成果出來時,才發(fā)現(xiàn)自己花了大量時間所做的研究,別人早就已經(jīng)研究過了,而且研究的結(jié)論還比較權(quán)威,這種情況相信不少學(xué)者遇到過。因此,數(shù)據(jù)庫的建設(shè),要盡量體現(xiàn)現(xiàn)當(dāng)代學(xué)者研究的成果。可以在上述模塊的基礎(chǔ)上,增設(shè)學(xué)者研究模塊,主要收錄國內(nèi)外現(xiàn)當(dāng)代學(xué)者的代表性研究成果。這一模塊的搜集雖然數(shù)量比較大,但文字的錄入不再是難題,有不少學(xué)者的研究成果已經(jīng)數(shù)字化了。但也有新的問題出現(xiàn),這就是成果的版權(quán)問題。我們在收錄這部分研究成果時,一定要處理好與作者、出版社及相關(guān)網(wǎng)站之間的版權(quán)關(guān)系,要尊重作者的創(chuàng)作成果。在沒有征得個人或者單位的同意時,不要貿(mào)然使用別人的勞動成果。但為了資料的全面性,可以采用存目的方法處理上述問題。當(dāng)使用者手中有了完整的文獻(xiàn)資料,同時又掌握了當(dāng)今學(xué)術(shù)界在該領(lǐng)域的研究動態(tài)后,他們不僅可以大大提高研究效率,同時也可以在有限的時間里,少做重復(fù)工作,多做一些開創(chuàng)性工作。
以上都是強(qiáng)調(diào)專家在數(shù)據(jù)庫建設(shè)中的作用,但這并不意味著數(shù)據(jù)庫的技術(shù)開發(fā)者就不重要了。事實上,專家們雖然掌握了一定數(shù)量的資料,但這些資料利用效率是高還是低,還得依靠技術(shù)。當(dāng)前,隨著現(xiàn)代電子技術(shù)越來越發(fā)達(dá),數(shù)據(jù)庫的作用不僅僅有聯(lián)合檢索功能,而且越來越趨向于智能化了。如北大李鐸教授主持的《全唐詩電子檢索系統(tǒng)》,就能對《全唐詩》的用韻進(jìn)行分析,可以分析出在《全唐詩》中哪些屬于古體詩,哪些屬于近體詩。這一項工作,如果用人工去統(tǒng)計,則不知要花費多少時間,統(tǒng)計結(jié)果還不一定準(zhǔn)確。深圳大學(xué)開發(fā)的《紅樓夢全文數(shù)據(jù)庫》則更是專業(yè)化了,該系統(tǒng)分為若干個專題,直接可以檢索出相關(guān)資料,為紅學(xué)研究者提供了極大的方便。還有的數(shù)據(jù)庫系統(tǒng)能根據(jù)詩文中出現(xiàn)的詞語的頻率,分析出作家作品的情感特質(zhì)。“憑借電子文獻(xiàn)的便利而做窮盡式研究,也是過去所不敢想的。”[2]另外,也可以對一些成熟的技術(shù)升級換代,如數(shù)據(jù)庫中的聯(lián)機(jī)字典。這一技術(shù)目前已相當(dāng)成熟,但由于缺乏研究人員的指導(dǎo),技術(shù)開發(fā)者大多只是選擇極為普通的字典作為聯(lián)機(jī)字典。對于普通的讀者而言,這樣的字典也許能夠滿足閱讀的需要,但對于研究者而言,并無多大益處。如果技術(shù)開發(fā)者征求了學(xué)術(shù)研究者的意見,聯(lián)機(jī)功能將對學(xué)術(shù)研究起巨大的推動作用。我們試想,如果技術(shù)開發(fā)者在程序中植入《說文解字》《爾雅》《釋名》《方言》《康熙字典》等,對于那些給作品作校釋、校注的人而言,是否帶來極大的方便呢?可見,專業(yè)化數(shù)據(jù)庫的建設(shè),離不開技術(shù)的研發(fā)者和學(xué)術(shù)研究者共同的努力。
專業(yè)化、小型化的數(shù)據(jù)庫所帶來研究的方便性,不是那些大型化數(shù)據(jù)庫所能達(dá)到的。專業(yè)化數(shù)據(jù)庫的建設(shè)減少了學(xué)者查找文獻(xiàn)的麻煩,不必為了某個版本奔波于各大圖書館之間,不必為了解該領(lǐng)域的學(xué)術(shù)史而鉆入到浩瀚的文獻(xiàn)之中,同時,還可以通過智能化的分析手段得出準(zhǔn)確而科學(xué)的結(jié)論。如建設(shè)柳宗元數(shù)據(jù)庫,不僅能滿足于柳宗元資料檢索的功能,還要對柳宗元相關(guān)資料,特別是《柳宗元集》中的文本進(jìn)行智能化分析,分析其文本的分類、文本的內(nèi)容,文本的特質(zhì)等。研究者可以借助這些智能化手段分析出來的結(jié)果,進(jìn)行更深入研究,也可以用這些分析出來的結(jié)果判斷自己研究得出的結(jié)論是否具有科學(xué)性。
但專業(yè)化數(shù)據(jù)庫建設(shè)遇到了頸瓶,與大型數(shù)據(jù)庫,特別是那些普及型數(shù)據(jù)庫相比,專業(yè)化數(shù)據(jù)庫的建設(shè)投入的人力、物力雖然少一些,但也存在相當(dāng)大的難度。比如資料的搜集難度就很大,不少資料還需要去國外搜集,而且這些資料數(shù)據(jù)化過程中,包括文字的錄入,都不是普通人員能夠完成的。如果遇到國外文獻(xiàn),數(shù)據(jù)庫建設(shè)的難度可能會進(jìn)一步增加。投入如此多的人力和物力建立起來的數(shù)據(jù)庫,在使用率上遠(yuǎn)不如大型數(shù)據(jù)庫高,也許只有同行業(yè)、同研究方向的人才會使用。使用的人越少,帶來的經(jīng)濟(jì)效益也就越少,這勢必會導(dǎo)致使用者承擔(dān)的費用更高。這樣會形成一個惡性循環(huán),當(dāng)使用者承擔(dān)的費用越來越高時,將會進(jìn)一步限制使用者的數(shù)量,這也就是近年來專業(yè)化數(shù)據(jù)庫建設(shè)與大型數(shù)據(jù)庫建設(shè)相比嚴(yán)重滯后的根本性原因。
但這并不意味著開發(fā)專業(yè)化數(shù)據(jù)庫作用不大,實際上還是很有價值的。一旦專業(yè)化數(shù)據(jù)庫建立起來,它不僅會提高學(xué)者的研究效率,還會提升研究的準(zhǔn)確性。而且它影響的不只是一批學(xué)者,而是一代學(xué)者,甚至數(shù)代學(xué)者。它會促進(jìn)某個專業(yè)、某個方向的研究發(fā)生根本性變革。但專業(yè)化數(shù)據(jù)庫面臨的困境是現(xiàn)實存在的,這是專業(yè)化數(shù)據(jù)庫技術(shù)的開發(fā)者和資料的整理者所面臨的問題,這個問題也不是學(xué)者、數(shù)據(jù)庫技術(shù)開發(fā)者所能夠解決的。要想解決這一問題,首先國家要從政策性層面加以引導(dǎo),要給予這些專業(yè)化數(shù)據(jù)庫建設(shè)更多資助,更多立項。二是加強(qiáng)與地方政府合作,特別是文化類的數(shù)據(jù)庫,大多和地方文化結(jié)合緊密,地方政府對此類數(shù)據(jù)庫建設(shè)要多從經(jīng)費層面進(jìn)行支持。
只有把數(shù)據(jù)庫技術(shù)的開發(fā)者、學(xué)者和相關(guān)政府部門聯(lián)合起來,專業(yè)化數(shù)據(jù)庫才有可能建立起來,數(shù)據(jù)庫建設(shè)也才有可能更加專業(yè)化。
[1]鄭永曉.古籍?dāng)?shù)字化與古典文學(xué)研究的未來[J].文學(xué)遺產(chǎn),2005(05).
[2]李鐸,王毅.關(guān)于古代文獻(xiàn)信息化工程與古典文學(xué)研究之間互動關(guān)系的對話[J].文學(xué)遺產(chǎn),2005(01).
(責(zé)任編輯 劉冬楊)
本文系國家社科基金“歷代柳宗元研究文獻(xiàn)整理及數(shù)據(jù)庫建設(shè)”(課題編號:16BZW034)的階段性成果。
胡娟,女,湖南科技學(xué)院圖書館,館員,研究方向:圖書管理與現(xiàn)代技術(shù);肖獻(xiàn)軍,男,博士,湖南科技學(xué)院人文與社會科學(xué)學(xué)院,副教授,研究方向:地域文學(xué))