[摘 要]對2009年以前我國古籍數字化研究論文的數量、登載期刊、作者、主題進行統計,揭示古籍數字化從書目、索引等初級檢索工具到當前智能全文檢索平臺的發展之路,并根據我國古籍數字化研究的發展趨勢探討其未來的發展方向。
[關鍵詞]古籍數字化;數字化研究;統計分析
[中圖分類號]G255.1;G250.74[文獻標志碼]A[文章編號]1005-6041(2010)02-0011-05
在我國,“古籍數字化”[1]這個術語最早是由劉煒提出的,但相關研究和實踐工作早在20世紀80年代就開始了,其概念和內涵的形成經歷了很長時間,迄今還在不斷演變。2005年,李明杰提出:“古籍數字化是以保存和普及傳統文化為基本目的,以知識發現的功能服務學術研究為最高目標,在對傳統紙質古籍進行校勘整理的基礎上,利用計算機技術將其轉換成可讀、可檢索及實現了語義關聯和知識重組的數字化信息的過程”[2]。2007年,毛建軍認為:“古籍數字化是從利用和保護古籍的目的出發,采用計算機技術,將常見的語言文字或圖形符號轉化為能被計算機識別的數字符號,從而制成古籍文獻書目數據庫和古籍全文數據庫,用以揭示古籍文獻信息資源的一項系統工作”[3]。
以上兩種解釋是從古籍數字化基本理論的高度給予的精辟概括,囊括了很多研究人員的觀點。筆者基于這些認識,對2009年以前我國古籍數字化的研究成果進行了統計分析,認為古籍數字化研究應該包括:古籍數字化基本理論的形成和發展,數字化古籍資源的特點和意義,古籍數字化資源的開發、共享和利用,古籍數字化實踐(書目數據庫、索引數據庫、題錄數據庫、全文數據庫、知識庫的建設),古籍數字化技術研究(加工技術、出版技術、相關軟件和服務平臺等),古籍數字化相關標準研究,古籍數字化成果分析與評估,專題古籍數字化研究(法律、農業、中醫、歷史檔案等),少數民族古籍數字化研究,等等。基于以上的主題范圍,筆者對古籍數字化的相關研究成果進行了搜集和整理,并逐條進行統計分析。
1 數據來源和研究方法
本文以“中國學術期刊網絡出版總庫”[4]作為數據統計源,首先利用“專業檢索”界面輸入檢索式“(題名=‘古籍’or題名=‘典籍’or題名=‘善本’)and(主題=‘著錄’or主題=‘編目’or主題=‘索引’or主題=‘數字化’or主題=‘元數據’or主題=‘書目數據庫’or主題=‘全文數據庫’or主題=‘全文檢索系統’)”檢得518條初始記錄,而后下載詳細題錄,逐條分析,經整理后得出347篇相關文獻,分題名、作者、單位、刊名、年代、主題1、主題2項列成表,利用Excel軟件的數據處理函數進行統計和分析。
2 論文數量增長分析
筆者按論文發表年代分類匯總,得到1987—2008年我國古籍數字化研究論文數量的增長情況(見表1)。
數據庫建設的居多,這表明20世紀80年代到90年代中后期是我國古籍數字化研究的起步階段;從1998年開始年發表論文數量超過10篇,1998—2001年發表論文總數57篇,占歷年論文總數的16.4%,在這一時期我國的古籍數字化工作有較大突破,完成了《文淵閣四庫全書》和《古今圖書集成》的全文數字化工作,這標志著我國的古籍數字化研究在該階段已突破關鍵技術進入一個全新的發展時期;從2002年開始累積論文總數超過100篇,年發表論文數均大于20篇,增長勢頭更加明顯,2002—2008年發表論文總數265篇,占歷年論文總數的76.4%,年均新發表論文在37篇以上,說明該階段我國古籍數字化研究已經進入快速發展時期;當前發展勢頭很明顯,但還沒有形成顯著的高峰期,說明我國古籍數字化研究還有很大潛力可以挖掘。
3 作者分析
對作者的分析可以推斷科研人員的研究能力,分析內容為:研究人員科研的環境和條件,確定核心作者、核心研究單位。筆者按第一作者及其所在單位分別加以分類統計,再進行統計分析。
3.1 核心作者
統計結果顯示:有260人發表1篇論文,占論文總數的74.9%,這表明我國古籍數字化的研究人員較為分散,大部分研究人員發表論文數量較少;發表3篇以上(含3篇)論文的作者為9人,共發表47篇論文,占論文總發表量的13.5%,南京大學中文系博士毛建軍共發表17篇論文,位居第一。根據普賴斯公式N=0.749max(max代表最高產作者發文數),令max=17,則N≈3,所以可以確定毛建軍、包和平等9人為我國古籍數字化研究的核心作者(見表2)。
該領域核心作者發文數量跟其他學科的高產作者相比有很大的差距,這表明我國古籍數字化的研究還在發展中,科研和實踐活動有待進一步的創新和突破。從作者的知識背景來看,有中文、歷史、圖書情報、計算機、電子信息工程、醫學、農業等多個領域,這說明古籍數字化的研究和實踐是一個跨學科、協同化的領域。
3.2 作者合著度分析
[JP+3]對論文作者數的統計數據如表3所示,從表中可以看出著者為2人或2人以上的論文占論文總數量的27.4%,利用公式:合著度=6×1+5×2+4×8+3×17+2×67+1×252347,[JP]求得合著度約等于1.40,這表明我國古籍數字化研究工作者有一定的合作,同時也說明研究人員較為分散、合作力度不大。
3.3 作者所在單位分布狀況分析
對作者單位的統計結果為(對部分屬于同一單位的不同子部門進行了合并):發表1篇論文的單位數為99個,發表論文總數為99篇,占論文總發表量的28.5%;發表2~3篇論文的單位40個,發表論文總數為91篇,占論文總發表量的26.3%;發表4篇以上(含4篇)的單位22個,發表論文總數為157篇,占論文總發表量的45.2%。從數據上來看,一方面說明了從事我國古籍數字化研究的科研單位較為分散,另一方面又明顯看出我國古籍數字化研究在少數單位較突出,它們的相關研究明顯走在該領域的前列。根據普賴斯公式,可以確定發表4篇以上(含4篇)文章的研究單位為核心的研究單位(見表4)。
從單位性質來看,研究部門主要集中在圖書館、情報研究機構、專題古籍研究機構和相關教學單位,部分研發文獻信息數字化軟件的企業也參與進來了,各個單位根據自己的需要開展古籍數字化的研究和實踐活動,一道利用商業化市場運作模式開發出古籍數字化產品。數據表明:處于核心區的研究單位,其研究成果數量上差別也很大,河北師范大學等幾家單位研究成果數量較多,筆者認為這與古籍的館藏占有量和開展古籍數字化實踐有很大關系。比如:國家圖書館已經依托館藏資源建成數字方志、碑帖菁華、敦煌遺珍、西夏碎金、甲骨世界、《永樂大典》等多個古籍全文數字化資源庫。
4 論文登載的期刊分析
按期刊刊名進行分類匯總得到我國古籍數字化研究論文的分布情況(見表5),統計發現相關研究論文主要分布于圖書情報刊物中,只有《古籍整理研究學刊》收入4篇、《電子出版》收入3篇、《數字與縮微影像》收入5篇。
從表中可以看出累積收入論文數量達到10篇以上(含10篇)的期刊為10種,合計收入116篇論文,占論文總數的33.4%;收入論文數量達3~9篇的期刊為23種,合計收入123篇論文,占論文總數的35.5%;收入論文數量達1~2篇的期刊為69種,合計收入108篇論文,占論文總數的31.1%,論文在期刊中的分布比例為10∶[KG-2mm]23∶[KG-2mm]69,核心區、相關區、外圍區的期刊數比例約為1∶[KG-2mm]2.3∶[KG-2mm]6.9。以上數據表明我國古籍數字化研究領域的核心期刊基本形成,相關區期刊也聚集了相當數量的論文,這樣研究者可以集中精力在部分期刊中查找古籍數字化研究的相關文獻。
5 論文主題分析
對古籍數字化相關研究論文的主題分析可以得知該領域的研究重點和難點。筆者逐一對347篇相關論文的文摘進行分析,將古籍數字化研究劃分為12個主題門類(一篇文章有多個主題則分別統計)。統計結果表明我國古籍數字化研究的主要領域為:1)古籍數字化的基本理論,包括古籍數字化的概念、性質、內涵與外延、發展現狀、問題、發展趨勢、定位等;2)古籍數字化標準研究,包括為古籍元數據、著錄規則、分類標引規則、字符編碼等;3)古籍數字化資源的特點和意義,包括古籍數字化資源的優點以及古籍數字化的必要性、作用和重要意義(古籍保護和古籍整理的意義、古籍開發利用及對其他學科發展的作用)等;4)書目數據庫建設,包括書目數據庫建設的前期準備、編目人員的素質和培訓、聯機編目、書目數據共建共享、古籍的著錄、分類標引、機讀書目數據的編制、書目數據的質量控制等問題;5)全文數據庫建設,包括基于圖像的全文數據庫和基于圖像與文本對照的全文數據庫以及全文數據庫中輔助工具(索引、字典、關聯網絡)等;6)專題古籍數字化研究,包括法律、農業、中醫、數學、飲食、地方志等專題性古籍的數字化研究;7)少數民族古籍數字化研究,包括我國各少數民族古籍的數字化研究和實踐、元數據、字符編碼、字符輸入、顯示、檢索等問題;8)其他數據庫建設,包括索引數據庫、資料庫、知識庫建設等;9)數字化技術研究,包括古籍的數字化處理技術(非鍵盤光學輸入、圖像處理、機器校對等)、信息組織技術、存儲技術、全文檢索技術、漢字的關聯擴展檢索技術、數字出版技術、人機接口技術等;10)數字化相關軟件和平臺的應用研究,包括ILAS、SulcmisⅢ、CALIS等書目數據庫和TRS、方正德賽(DESI)等全文數據庫建設實踐等;11)數字化資源的共享和利用,包括古籍數字化資源的共建、共享、檢索、利用等子主題;12)數字化成果分析與評估,包括我國各地區已建成的古籍書目數據庫、索引數據庫、全文數據庫、知識庫等數字化資源的分析和評估。
從各個研究主題分布范圍和所占的比例可以看出,我國古籍數字化建設已經從最初書目數據庫、索引數據庫等簡單的二次文獻揭示形式向全文數據庫甚至具有輔助檢索和研究功能的智能全文檢索系統發展,其中非鍵盤的光學輸入、不常用字符的編碼技術、元數據標準、少數民族的古籍數字化開發以及數字化古籍的深層次開發等問題成為研究的難點與熱點,部分技術上的壁壘已經被攻克,較多人性化、視覺效果好、使用便捷的數字化產品已經提供給用戶使用,這些數字化產品不僅提供全文檢索功能,還包含輔助支撐工具,這些工具能夠幫助讀者更高效的使用數字化產品,還可以讓讀者參與到勘誤中來,比較典型的產品如書同文公司開發出的局域網版、國際互聯網絡版以及單機版的《文淵閣四庫全書》《十通》《四部叢刊》《康熙字典》《大清五部會典》《大清歷朝實錄》等數字精品。
我國古籍數字化研究已經取得了較豐碩的成果,公益性和市場化的產品不斷問世,盡管成果非常豐碩,但是還是存在一些問題:部分數字化古籍錯訛多,僅能用于查詢索引,難以準確引用;重復建設的問題比較突出,如《二十四史》大多數字化產品中都已包含[5];相比世界其他館藏中文古籍的單位,我國古籍數字化水平及網絡化服務水平還有很大差距,目前我國已數字化的古籍占全部古籍的比例無疑是很低的,我國的古籍數字化產品大多由商業公司開發,他們只限于選擇市場開發價值較高、較實用的古籍版本,遠遠不能滿足廣大科研人員的需求;大多數讀者只能使用經單位購買的數字化產品,公益性開放資源較少,這樣古籍數字化資源的利用受到限制;數字化產品的深度開發還需要進一步加強,專題、精深化整理研究還需要不斷深入。
總的看來,在未來很長一段時間,在宏觀和微觀兩個層次上,古籍數字化研究還有很長的路要走:一方面,浩如煙海的古籍將被陸續按照嚴格的標準和加工流程數字化,費時較多,所需人力、物力和財力都較大,如哈佛大學圖書館與中國國家圖書館已達成協議,將合作建立一個中國之外最大的中國國學珍本書籍數字圖書館,哈佛的技術人員將用6年的時間,花費數百萬美元將館藏51 500冊珍本數字化[6],我國以國家圖書館為首的各收藏單位也已經開始啟動更大規模的古籍數字化工作[7];另一方面,我們對古籍數字化資源的深度開發將進入細微化階段,如知識元的標引、相關知識元關聯形成知識網絡、輔助知識庫建設、智能輔助檢索和研究工具建設、信息的統計和分析、專題性資料的自動挖掘等,可以說未來的數字化古籍將是立體的、智能的知識挖掘系統平臺[8]。
[參考文獻]
[1]劉 煒.上海圖書館古籍數字化的初步嘗試[J].圖書館雜志,1997(4):33.
[2]李明杰.中文古籍數字化基本理論問題芻議[J].圖書館論壇,2005(10):98.
[3]毛建軍.古籍數字化的概念與內涵[J]. 圖書館理論與實踐,2007(4):82.
[4]中國學術期刊網絡出版總庫[DB/OL].[2009-03-16].http://acad.cnki.net/Kns55/brief/result.aspx?dbPrefix=CJFQ.
[5]王發社.古籍數字化的幾點思考[J].圖書館論壇,2006(3):122.
[6]哈佛圖書館擬將國學珍本數字化[EB/OL].[2009-10-13].http://book.hexun.com/2009-10-13/121322896.html.
[7]陳 力.中國古籍數字化的現狀與展望[EB/OL].[2009-10-13].http://www.guoxue.com/gjzl/gj398/gj398_03.htm.
[8]徐 清,石向實,王 唯.古籍數字化資源的深度開發[J].圖書情報工作,2007(3):95—97.
[收稿時間]2009-10-15
[作者簡介]李盛慶(1983—),男,助理館員,本科。