郭
(遼寧省圖書館,遼寧 沈陽 110015)
郭 男,1981年生。本科學歷,館員。
民國元年(1911年)至民國38年(1949年)是從清王朝到中華人民共和國成立之間的一個歷史時期,它經歷了辛亥革命、五四運動、北伐戰爭、抗日戰爭和解放戰爭,是中國社會發生深刻變革的歷史時期,圖書報刊等文獻資料作為重要的傳播手段,在這一變革中發揮了重要作用。民國文獻即指1911年辛亥革命到1949年9月期間我國出版發行的中文文獻。這些文獻從不同側面反映了民國時期的政治軍事、社會經濟、教育科學、歷史文化、文學藝術等多方面的內容,既具有重要的史料價值,也具有很高的研究利用價值。
民國文獻的年代雖距今并不久遠,但卻是館藏所有文獻中很不易保存、損壞情況非常嚴重的。由于當時機械造紙工藝落后,造紙材料混雜,使用酸性化學漿紙,使得紙張的酸性強、質量差、保存期短。據2004年國家圖書館完成的“館藏紙質文獻酸性和保存現狀的調查與分析”課題顯示,國家圖書館收藏的民國文獻老化、損毀現象相當嚴重,這些紙張的酸堿度平均值低于4.5。遼寧省圖書館也同樣存在這一情況,民國圖書普遍紙張發黃發脆掉渣,讀者每翻閱一次都加大了其損壞的程度。據國內一些專家研究,民國時期普通報紙的保存壽命一般為50至100年,民國時期圖書的保存壽命為100至200年,也就說,現存的民國文獻大都已經達到或接近保存壽命,如果任由其發展下去,收藏于館內的民國文獻很有可能在50年至100年間消失殆盡。如何有效保護民國文獻,延長其存世壽命,同時又能方便讀者使用,解決保存與利用的矛盾,這是所有收藏有民國文獻的圖書館所面臨的一個重大問題。而對民國文獻進行數字化處理,建立民國文獻全文圖片數據庫,是一個最佳選擇。所有民國文獻進行數字化加工后,讀者可上網瀏覽,而不必翻閱原件,原件可以在適合的環境中保存,這樣就能使民國文獻得到有效的保護。
遼寧省圖書館所保存的民國文獻為讀者研究中國現代史提供了豐富的原始資料,然而繁瑣的借閱手續、損毀的圖書,以及民國圖書不能復印等等不利條件,都給讀者查閱民國文獻制造了不小的障礙,影響了讀者的使用,而建立民國文獻數據庫就能很好地解決這一問題。讀者只需有一臺連通互聯網的計算機,就能隨時隨地上網查詢。讀者可通過書名、著者、主題詞檢索等途徑進行檢索,方便又快捷,并且不受限制,一次可供多人查詢,極大地滿足了讀者的需求。同時民國文獻專題數據庫的建立也極大地豐富、充實了本館的數字資源,為開展網絡信息服務提供了堅實的基礎。
此數據庫將民國文獻進行掃描(或縮微膠片轉換)形成電子文檔,通過著錄得到每本書的題錄信息,入庫形成民國文獻數據庫。因圖書文本為繁體字,豎排版,加之有破損情況,因此很難進行文字識別,所以應以圖片形式存儲為宜。使用TPI(清華同方專業數據庫制作管理系統)系統的電子書制作工具制作成電子書,每條題錄作為一條數據,對應一本CAJ電子書(顯示為CAJ圖片格式),生成圖書名稱索引,實現文獻資料的題名、日期、作者、目錄等的檢索。這樣做的優點是:用戶接口多為菜單驅動型,易學易用,檢索直接。確定收錄范圍后,由工作人員對圖書進行掃描或者縮微拍攝。由于我們制作的是全文數據庫,所以圖書的每一頁包括封面、書名頁、前言頁、目錄、正文、后記頁、封底等等都要掃描進計算機。掃描時要保持與原書頁面內容的一致性和完整性,忠實于原始文獻形態。假如某一頁只有頁碼而無任何文字,這一空白頁也要掃描,以保持頁碼的連貫性。掃描完成后,須從頭到尾檢查是否有漏掃的頁面及重復掃描的頁面,若有,則及時添加或刪除。
此庫的元數據采取學術性和實用性的原則,嚴格按照《中國數字圖書館基本元數據標準規范》制定,著錄時對照規范,結合此庫特點,設立了包括題名、責任者、內容提要、目錄、出版者等10個核心元素和包括副題名、出版發行年、地區、人名等項內容的12個修飾詞,能較全面地反映圖書的客觀信息。同時為方便讀者檢索,將出版發行年同時轉換并著錄公元紀年。元數據在錄入過程中,錄入人員要做到認真核對,仔細校驗,保證錄入數據的準確。在錄入后,上傳已經制作好的電子書,這樣,一條數據就制作完成了。
針對文獻數字化加工的特點,遼寧省圖書館使用清華同方公司開發的TPI平臺系統,以保證加工的高效及數據的質量。清華同方知網自主研發的TPI平臺是基于非結構化文檔管理而開發的大型智能內容管理系統,它圍繞著數字圖書館建設內容而設計,能夠同時管理文字、圖片、多媒體、電子檔案等信息。支持網頁的動態發布,支持分級權限認證;電子圖書制作及元數據加工工具系統共同實現了原始文獻資料的數字化和組織;內容發布、檢索網關和TPI檢索服務器等共同實現資源的發布。平臺具有以下功能:
TPI系統中的電子書加工工具為書籍電子化提供了一種快捷、方便、高效的全面解決方案。Book-Shop尤其支持各類紙質文檔加工成電子書的全過程。其中包括書頁圖像掃描及管理、書面圖像處理、書面圖像識別導入及編改、目錄加工處理、書頁圖像及目錄合并形成電子書。利用這一特色功能,我們可以把掃描的每頁圖片加工成一整本書,便于讀者下載和瀏覽。
MET是通過TCPPIP與FTS(全文檢索服務器)相配合,對分配的元數據進行標引,因此標引工具與檢索服務不必運行在同一臺計算機上,可以進行遠程標引工作,也可以多臺機器同時運行,提高效率。數據標引就是給項目中記錄的部分或全部字段填上合適的值,以此來標識這條記錄,使用戶能通過對字段的檢索來搜索到此記錄。數據標引中對原文類型為KDH、NH、PDF、HTML和WORD文件的記錄可以通過原文進行標引。對不能通過原文進行標引的記錄,需要利用相應的文檔編輯器配合進行間接標引。
檢查工具(CKT)。CKT也是采用TCPPIP與FTS相聯接,實現分布式的并行數據加工。檢查操作是對標引、分類操作結果進行檢查,將錯誤數據記錄重新返回給標引工序,確保數據的正確性、準確性。
內容發布系統(CPS)。CPS完成圖書館數據的分布式采編入庫,實現網站信息的發布與管理,實現動態實時發布,即發即得,立即生效。CPS中提供了多種庫結構模板以供選擇,同時還可以根據需要進行自定義。在CPS中還可以建立Web訪問數據庫的賬號及操作員賬號。前者允許限定賬號的有效期限及指定訪問的數據庫,還可以通過IP地址限定訪問者的范圍。操作員的設置是為了更好地實現職責明確的信息加工,支持多人協同采編,實現信息發布之前的編審控制。根據需要賦予操作員標引、分類、檢查等權限。CPS還可以進行數據庫的分類管理,建立導航分類。
數據加工制作完畢后,就可以使用TPI系統中“內容發布工具”的“Web發布向導”功能進行數據庫網上發布的相關配置。通過該向導可以實現設置數據庫的版權信息、選擇數據庫發布模板、確立檢索點指定字段屬性、配置個性化的初級和高級檢索界面等。根據數據庫內容的不同,TPI系統預制了與之相對應的不同形式和不同特點的發布模板。系統提供了CNKI模板、Google模板、EI模板和OCLC模板等,本數據庫采用的是CNKI模板。
圖書館自建數據庫是為了更充分地滿足用戶對某專題信息的需求。自建數據庫利用率的高低決定數據庫建設效果的好壞。因此自建數據庫的名稱、專業類型是否清晰,在主頁上的位置是否明顯,是否具有使用幫助、檢索界面友好性、檢索策略的多樣性、查準率與查全率、檢索結果的輸出方式、檢索結果輸出速度、系統穩定性等都將直接影響數據庫的使用率。民國文獻數據庫與其他自建數字資源被一并整合在遼寧省圖書館主頁中的數字資源欄目內,檢索界面清晰、直觀、界面友好,同時TPI系統的優點是檢索結果準確,響應時間快,并且可以提供多種排序方式,便于讀者使用,提高了利用率。
民國文獻數據庫數據量比較大,在制作的過程中投入了大量的人力、物力,所以后期的維護與安全防護是一個很重要的問題。在數據庫制作的過程中,每天進行自動備份,在數據庫完成后,我們準備將這些數據刻錄成光盤,作為物理備份,這樣,即使服務器數據出現問題導致無法瀏覽,也可用物理備份進行恢復。這就為讀者查閱使用和數據的安全性提供了保障。
知識產權是數字圖書館發展中遇到的最大阻力。從圖書館發展建設的角度來看,特色館藏資源是具有較高學術和史料價值的資料,比如本館所建立的《盛京時報》數據庫、東北抗戰書目庫、建國前東北期刊數據庫等。但數據庫開發涉及著作權許可和確認問題。如果對已經發表作品進行數字化,會涉及署名權、修改權、保護作品完整權、使用權和獲得報酬的權利。圖書館進行公益性的文獻數字化主要是為保護文獻、方便讀者使用,借助網絡使更多人共享,但這又將侵害權利人的網絡傳播權,是建庫的矛盾所在。為此,我們盡量選擇年代久遠的,過了保障期或即將過期的作品來規避版權問題,同時通過控制用戶權限、IP登陸等方式,避免惡意下載,保護數據的安全性,以此來最大限度地保護著作權人的知識產權。
[1] 黃立華.TPI與我國數字圖書館建設[J].圖書館論壇,2004(4):76-78.
[2] 孫琴.民國文獻數字化建設現狀分析研究[J].山東圖書館季刊,2008(1):71-73.
[3] 溫泉.館藏民國圖書數據庫建設探討[J].河南圖書館學刊,2010(8):96-98.
[4]萬華英.民國文獻數字化建設——以重慶圖書館為例[J].四川圖書館學報,2008(4):31-33.