劉 雅
國家圖書館中文采編部
〔北京市海淀區 100081〕
*劉 雅女,出生于1981年,館員。
目次是書刊上的目錄,表示內容的篇目次序,由篇、章、條、款、項、附錄、題錄等序號、名稱和頁碼組成。目次數據是數字化了的目次信息,目次數據庫則是按照一定的格式與數據模型組織起來的目次數據集合。近幾年數字圖書館如雨后春筍般紛紛建立,與此同時,傳統紙質文獻的電子化、數據化工作也開展得如火如荼。為了讓讀者能更全面、更深入地利用文獻資源,目次數據的制作與利用已經得到了國內很多圖書館的重視,越來越多的圖書館開始制作目次數據,并將其與系統掛接供讀者檢索使用。
圖書的目次是圖書的內容大綱,可以完整真實地反映圖書的整體結構,使用戶在閱讀前對圖書的架構能一目了然。無論是傳統圖書館,還是數字圖書館,相對于圖書的題名、責任者、分類號而言,圖書的目次具有更多、更重要的信息內容。目次可以更深層次地揭示圖書內容,查閱一本書的目次,有助于了解圖書的結構和內容概要,讓讀者對書了解更全面[1]。
關重要的參考作用
目次數據是對文獻內容客觀忠實的反映,它能讓讀者大致了解文獻內容,從而判斷該文獻是否為自己所需要的。曾有學者通過問卷進行調查統計,其中一項針對圖書書名、著者、出版時間、圖書目次、內容簡介等項目對讀者借書決策所起的作用進行調查,調查結果是讀者選擇圖書目次的人數最多。由此可以看出,目次對用戶在選擇圖書方面起到了重要的作用[2]。
對編目員來說,其關注的是如何讓用戶得到更準確、更全面和組織更為合理的信息,他們甚至希望用戶可以只通過對書目數據的瀏覽即可確定對該文獻的需要程度,因此,目次數據對用戶和圖書館員來說都是同等重要的。
2009年,OCLC發表了《Online Catalogs:What Users and Librarians Want:An OCLC Report》(聯機目錄:用戶和圖書館工作人員需要什么)。報告做了基于對WorldCat用戶的三個調查,以不同用戶(最終用戶與圖書館工作人員)對目錄數據質量認識作為調查重點,得出改善目錄數據的建議[3]。調查結果顯示:圖書館員和工作人員希望用目次來加強目錄中的數據,其強烈愿望僅次于“合并重復數據”。在對用戶的調查中顯示,終端用戶認為“提高目錄數據質量”是最希望實現的,排名前兩位的是“增加網絡內容/全文的鏈接”以及“更多的主題信息”。并列排在第三的是“更多的目次”以及“增加概要/摘要”。
可見,目次數據在對文獻內容的揭示、資源的查找等方面具有較強的優勢,對于完善書目數據來說是不可或缺的。
目前,從圖書生產到流通的各個環節都有目次數據產生。大致可以分成四個來源:(1)出版社。出版社交付印刷的圖書都是電子版,所以出版社擁有圖書的電子目次。有些出版社還將一部分圖書的目次數據放在出版社網站上以供檢索,比如北京大學出版社、當代世界出版社等。瀏覽者只要通過點擊一本書,就能看到該書的內容簡介、前言、目次等信息。(2)圖書供應商。當當網、卓越等網上書店一般都提供了數字化的目次、作者簡介、內容簡介等信息。圖書館供應商提供的目次數據雖然多且全,但缺點是格式不規范,目次的等級錄入參差不齊。(3)數字化公司。萬方數據、方正等,他們制作了很多電子圖書,其中都包含目次數據。但目次數據只是圖書數字化的附屬產品,并非這些公司的主營業務。(4)圖書館類機構。比如,中國科學院國家科學圖書館的UNICAT聯合目錄提供目次數據。
既然目次數據的產生渠道這么多,各圖書館可以根據自身特點,整合各種渠道的目次數據,采取以下一種或綜合多種方式制作目次數據,建設目次數據庫。
一方面,可由圖書館員采用傳統人工方式制作目次數據,這種方式的最大優勢在于:遵循一定的著錄規則,格式相對規范,方便用戶檢索和進行數據交換。但是,由人工來制作目次數據的劣勢在于:速度是制作目次數據的瓶頸,還需要投入大量的人力物力進行制作、校對,錯誤量也居高不下。國家圖書館從2000年4月開始手工輸入制作中文學術性圖書的目次數據,主要選擇匯編、個人全集、選集、學術論文集、會議錄等目次有檢索意義的圖書,將每一條目次信息著錄到一個獨立的自定義970字段中,970字段的第二個指示符表示標題的層級,比如子字段$h表示章節號、$i表示章節標題、$f表示著者。截至2009年8月,國家圖書館已經完成77 000多種圖書近840萬條目次數據的制作。在數字化、信息化高速發展的今天,手工輸入目次數據的方式顯然缺乏效率。
另一方面,是采取外包方式委托制作。將目次數據從掃描、OCR識別、校對、數據查重等全流程外包給有編目經驗的第三方,圖書館主要負責校對和驗收工作。這種方式的優勢在于:可以從最初選擇外包公司到最終數據的校對進行全過程的控制,效率高。缺點則是投入較大。
購買的主要對象是數據庫廠商、圖書供應商,主要形式是在購買數據庫或圖書的同時要求其附贈目次數據或通過增值購買目次數據。目前,可獲取目次數據的電子圖書數據庫商中較大的有方正電子圖書。方正電子圖書所收錄內容來自400多家出版社,大概100多萬冊,這些電子圖書一般都帶有目次數據,但它們是單獨保存的XML格式,一種圖書有一個或多個XML目次文件,這些數據的特點是,章節號、章節名和著者是放在同一個標簽字段的同一個屬性中,頁碼是放在另一個屬性中。如果要導出目次數據,需要開發工具批量導出,導出后的數據沒有目次層級關系。
這種方式的優點是:以相對小的成本獲取目次數據,此種方式相對于外包制作而言,可降低40%左右的費用;目次數據完整。缺點是:每個制作商在格式與標引規則上會與各圖書館的既有數據存有較大差異,影響數據的再整合;購買的目次數據會限制使用范圍,無法與其他公益性圖書館共享。
網絡采集包括兩種形式:一種是抓取網絡上提供的免費的目次數據,與書目數據進行掛接;當當網、瑯瑯圖書、豆瓣圖書以及一些出版社的網站上會提供圖書的內容簡介、前言、目次等信息,可以通過自動抓取技術獲取這些目次信息。網頁抓取目次數據是使用解析程序對網頁內容進行解析,得出圖書目次。主要有兩種技術路線,一種是使用網頁爬蟲抓取web數據,另一種方式是按照ISBN號訪問鏈接地址,進行抓取。另一種是在采集網絡電子圖書的過程中,同時采集目次數據,通過技術處理,與電子圖書全文一起為用戶提供服務。網絡電子圖書作為網絡資源的重要組成部分,正在逐漸成為數字圖書館的館藏。2010年建設的國家開放存取資源總庫采集了約5萬本電子圖書。在這個資源庫中,可以利用數字技術對電子圖書的目次數據進行提取,實現目次數據與全文的鏈接,使用戶可以方便地從目次直接定位到正文。
網絡采集方式的優勢在于:成本低,易操作,效率高。劣勢在于:目次數據格式五花八門,十分復雜;目次數據的正確性、完整性得不到保證,有的只有一級目錄,而且沒有進行質量控制,錯誤率很高,要利用的話需要進行大量校對工作;有些PDF格式的電子圖書被放到網上前經過了處理,如:加密不能復制,或者復制后與原文不一致,或者復制內容粘貼后顯示亂碼。這些問題的出現無任何規律可循,若要加以利用需耗費很大功夫。
國外圖書館都比較重視目次數據庫的建設。美國國會圖書館處理目次數據的方式之一是采用856字段方式進行鏈接,將目次數據集中放到一個服務器上后,根據每一條目次所在的地址通過系統為相應的書目數據自動追加一個856字段。英國國家圖書館的部分圖書都提供了目次顯示,主要通過在MARC數據中以字段注釋方式提供鏈接。日本國會圖書館的目次數據是放在書目記錄的“contents”字段中,并進行顯示。
相對而言,國內圖書館在目次數據庫的建設方面還處于落后狀態,也是近幾年才開始重視目次數據庫的建設。目前,國內提供目次數據的圖書館主要有國家圖書館、中科院國家科學圖書館、上海交通大學圖書館等幾家。國家圖書館的特色資源庫、方正電子圖書中都含有目次數據,因各種原因,2009年前手工輸入的目次數據尚未掛接到系統中以供檢索使用。中國科學院國家科學圖書館的UNICAT聯合目錄集成服務系統,2007年開發了圖書目次服務功能,在書目數據中嵌入目次、書評信息。目前,UNICAT聯合目錄集成服務系統有近16 000種圖書數據嵌入了目次信息,3 000余種圖書數據嵌入了書評內容,并逐年增加[4]。
目次數據的制作是一項長期的任務,若是涵蓋所有中文圖書的話,每年需要制作的數量也頗為可觀,如果每個圖書館均按照自己的格式、方式方法建設目次數據庫,將會造成大量人力、物力、財力的浪費。因此,共建共享目次數據庫是信息時代圖書館的最好選擇。
上文已介紹,各種渠道獲取的目次數據格式不一,有的是掃描的圖像格式,只能閱讀不能修改;有的是TXT文本格式;有的是MARC格式。因格式千差萬別,要把各種渠道所獲得的目次數據經過轉化成為各個圖書館能利用的格式有點難度,因此,要想共享目次數據首先要統一目次數據的相關標準規范,避免由于標準、規則等不統一而造成混亂。國家圖書館應發揮行業引領作用,適時制訂目次的生產標準和規范,并推廣到全國。
用戶對目次數據的呼聲越來越高將會推動目次數據庫在全國范圍內的建設與發展,而共建共享是建設目次數據庫的發展方向。要達到這個目的,必然需要一個公益性目次數據采集平臺供上傳和下載目次數據,這個平臺的目次數據可以來自兩個聯合:(1)圖書館界的橫向聯合,即所有生產目次數據(格式統一)的圖書館將其制作的目次數據上傳到該平臺供其他圖書館下載使用;(2)圖書出版商、發行商、用戶的縱向聯合,其提供的目次數據(格式符合規范或能轉化為規范格式)經審核后可以上傳。這樣,通過建設良好的溝通、互動機制,可以將大家的智慧與力量引入目次數據的建設中來,實現資源的最大利用。
目前,已經有一個現成的平臺可以利用——全國聯合編目中心。
共建共享目次數據庫的最終目標是在圖書館界的聯盟基礎上實現目次數據的無障礙交流和共享。近年來,我國圖書館界在聯盟建設方面有了一些發展,已具備在圖書館界的聯盟基礎上進行中文圖書目次數據庫建設工作的條件。可以由國家圖書館進行牽頭,由全國聯合編目中心這個機構進行統一管理,將目次數據與書目數據掛接達到資源的共建共享。
之所以選擇全國聯合編目中心,一是目次數據必須依托書目數據存在和加以利用;二是該中心包括二十幾個書目數據庫,具備推廣共建共享目次數據庫的實力。該中心書目數據的使用單位已超過1 000家,成員館的隊伍已發展到600多家,成立了十四家分中心[5],在書目數據的共建共享方面摸索出很多經驗,在此基礎上進行目次數據的共建共享應是水到渠成。
建設中文圖書目次數據庫是圖書館滿足信息時代讀者的檢索需求,提升服務的一個重要方面,采取共建共享的模式來建設中文圖書目次數據庫既節省了大量的人力、物力、財力,又能在最大程度上實現資源共享,是一個很好的舉措。
[1]武漢大學,北京大學《目錄學概論》編寫組.目錄學概論[M].北京:中華書局,1982:107.
[2]孫維鈞.圖書目錄的缺陷及MARC的完善[J].大學圖書館學報,1999,17(4):65~67.
[3]OCLC報告——聯機目錄:用戶和館員需要什么[EB/OL].[2010-08-06].http://catwizard.blogbus.com/logs/38491121.html.
[4]中國科學院國家科學圖書館.UNICAT聯合目錄集成服務系統[EB/OL].[2011-3-5].http://union.csdl.ac.cn/2.jsp.
[5]國家圖書館聯合編目中心.全國聯合編目中心[EB/OL].[2011-5-1].http://olcc.nlc.gov.cn/about-zxjj.html.