金 華(天津商業大學圖書館)
科學家布林德利預測,2020年,全世界75%的出版物將發表數字形式,或者數字和紙版同時發表。[1]目前看來,文獻資源電子化的程度比預測的要更快一些。電子圖書是一種將文字、圖片、聲音、影像等信息內容數字化的出版物。與傳統印刷書籍相比,電子圖書通過網絡發行,既節省了印刷成本,又不需要繁瑣的運輸配送;電子圖書以計算機、手機、手持閱讀器為載體,因其存儲容量大、閱讀方便、保存時間長,不易污損等優點被用戶廣泛接受。但是,目前還沒有建立一個系統的電子圖書書目數據庫,無法對電子圖書進行統一編目,同時,電子圖書作為“虛擬”館藏,對于其存檔與保存也一直是圖書館界爭議的話題。
電子圖書是從電子資源中分化出來的,目前國內的編目工作仍然參照現有的電子資源著錄規則。早在1991年,美國國會圖書館就提出以USMARC格式為主要構架,進行電子資源編目,聯機計算機圖書館中心(Online Computer Library Center,OCLC)在數據測試之后,對外文電子資源編目進行了擴充與完善。中文電子資源編目主要使用CNMARC格式,其編目標準主要是國際圖聯(International Federation of Library Associations and Institutions,IFLA)世界書目控制中心和國際MARC核心計劃頒布的《UNIMARC指南》。除此之外,還需要參考2004年出版的《中國文獻編目規則(第二版)》第十三章、《文獻著錄(2010年)》第9部分“電子資源(GB/T3792.9-2009)”以及中國國家圖書館內部出版的《電子資源著錄規則和機讀目錄格式使用手冊(2012年)》的規定。
電子圖書的著錄項目主要包括題名與責任說明、版本項、文獻特殊細節項(資源類型與數量項)、出版發行項、載體形態項、叢編項、附注項、標準號與獲得方式項。[2]根據《國際標準書目著錄》(International Standard Bibliographic Description,ISBD)統一版的規定,為了適應文獻資源的多樣化,2011年起“內容形式與媒體類型”項也成為主要的著錄項目。除了與印刷本文獻資源相同的編目字段外,國內現行的電子圖書編目工作還擴展了以下專用數據字段。
(1)135(電子資源編碼數據)字段,對網絡書目數據元素進行編碼。
(2)230(資料特殊細節項)字段,描述與電子資源類型和數量有關的文獻特征。
(3)307(訪問或獲取時間)字段,描述文獻獲取時間或日期范圍。
(4)336(電子資源類型附注)字段,著錄網絡信息資源的文件格式。
(5)337(系統需求附注)字段,記錄有關電子資源的技術細節,也可以描述該資源對系統的需求和檢索模式。
(6)357(文獻傳播控制)字段,著錄在編文獻的作者、制作者,對文獻傳播控制的說明。
(7)362(出版日期、卷期或其他標識項)字段,著錄在編文獻出版信息中起始、終止卷冊的標識,一般電子期刊用的比較多。
(8)500(一般性附注)字段,描述電子資源題名來源及查看日期。
(9)516(計算機文件類型或數據附注)字段,用于描述電子資源的系統技術信息。
(10)538(系統細節附注)字段,著錄文獻的系統技術信息,如,計算機文件的物理特征、軟件程序的語言要求、設備要求等參數。[3]
(11)856(電子文件資源地址與檢索)字段,記錄所描述的電子文獻的獲取信息,可以生成與檢索方法相關的ISBD(ER)電子資源附注。
在現有紙本資源編目的基礎上,融入上述專用字段,形成國內現行電子圖書的編目規則與標準,借助該模式生成的電子圖書編目數據,使無序的信息變為有序,過濾掉無用的信息,實現了電子圖書檢索與使用的便捷化。
以下是國家圖書館相關編目人員對電子圖書《植物那點事》進行的CNMARC著錄實例。
010##$a978-7-900282-32-3$dCNY50.00
135##$domg---auuuu
200 1#$植物那點事$b電子資源$e電子圖書$f武漢博潤通文化科技股份有限公司主編
215##$a1光盤(DVD-ROM)$c彩色$d12cm
230##$a電子書
336##$a文本型
337##$a系統要求:需下載并安裝PDF軟件閱讀電子書
606 0#$a植物$j普及讀物
856 4#$uhttp://ebook.lib.gdpu.edu.cn
這條電子圖書的數據可以導出ISO2709格式的MARC數據,并在支持ISO2709格式的軟件里進行套錄,方便編目工作人員的后臺維護;另一方面,用戶通過OPAC實現數據檢索,借助ISBN、題名、作者、主題詞、分類進行主體檢索,或者通過出版時間、出版社、資源類型等信息進行二次限定檢索。根據檢索結果中856字段著錄的URL,用戶可以直接鏈接到電子書全文顯示的主頁。
隨著信息技術的發展以及電子圖書資源的更新,電子圖書編目模式在編目數據著錄以及用戶體驗方面的弊端也開始顯現。
(1)電子圖書數據重復率高。目前,電子資源編目并無統一標準,主要依靠各個出版商以及數據服務平臺的力量,這種相對獨立的編目模式,不但難以跟上電子資源更新的速度,而且造成了書目數據的雜亂無序,不利于實現資源共享。此外,由于各編目機構采取不同的數據編目標準,每條編目數據的字符冗長且重復,在國際書目數據交流中,存在很多障礙,國際辨識度低。[4]MARC書目數據的保存和轉換主要通過ISO2709格式實現,不能直接閱讀;轉換后的數據,包含許多特殊含義的字符,給讀者用戶造成困擾。
(2)電子圖書數據檢索效率低。圖書館擁有豐富的電子圖書資源,但是用戶并不能從數據庫或是檢索系統中精準定位所需資源。中文字符的處理、Unicode編碼的局限性,已經不再是編目員面對的主要問題;關鍵字段的遺漏、字段格式的錯誤、OPAC系統不支持所提供的字段格式、不兼容的編碼數據的使用,甚至于標點符號的不合理都會造成檢索無效或者訪問失敗的情況。另外,網絡數據資源的URL穩定性差,其信息源質量參差不齊,數據維護不及時,以及電子鏈接的滯后性,最終導致電子圖書資源檢索的低效率。由此,電子圖書編目工作迫切地需要一種新型編目模式,并且配合更便捷的搜索引擎,提高電子圖書編目數據的檢索效率。
(3)電子圖書數據關聯度小。電子圖書編目主要參考電子資源編目要求,其主要信息源取自電子資源內正式出現的信息,包括經過解壓縮、打印或其他處理的信息。[2]這一標準已經不符合電子圖書發展的現狀,電子書大多通過網絡發行,其資源訪問地址變化大。由于電子圖書市場管理的混亂,同一本書經由不同的出版商,提供許多相同的副本資源,有時同一種電子書甚至存在多個ISBN號。這種情況下,只依靠手頭的電子圖書進行編目,并不能反映某種電子圖書的普遍特征。電子圖書編目除了可以參考同種紙本資源的編目數據與著錄細節之外,還應體現不同版本的特殊性。實現同種紙本資源與電子資源的關聯以及相關類型電子圖書之間的關聯是目前編目工作中急需解決的問題。
MARC數據基礎上的ISO2709格式是目前圖書館界書目著錄的主流選擇,每條書目記錄都由揭示資源特征的字段和子字段組成,若干條記錄構成了數據庫。MARC數據重點關注能單獨理解的分類記錄,一條記錄聚合了概念作品及其物理載體信息,同時借助字符串標識記錄之外有價值的個人名稱、企業名稱、主題等信息。[5]電子圖書因其特殊的物理形態,對文獻編目工作提出了更高的要求,減少數據重復性,提高檢索效率,實現數據關聯的新型編目模式是大數據時代文獻編目工作的重中之重。書目框架格式(Bibliographic Framework)在此基礎上應運而生。
書目框架格式(Bibliographic Framework)是美國國會圖書館主導開發的新型書目數據格式標準。自2011年5月起,美國國會圖書館聯合大英圖書館、德國國家圖書館等六個圖書館,由都柏林核心(Dublin Core,DC)元數據的發明人之一、語義萬維網技術的倡導者Eric Miller領銜,正式啟動“書目框架計劃”。[6]2013年初,美國國會圖書館發布了BIBFRAME的完整模型,提供了具體元數據方案,BIBFRAME模型將書目世界的資源劃分為4個核心類,即作品、實例、規范和注釋。[7]2016年6月,BIBFRAME 2.0正式確立,與BIBFRAME 1.0相比,BIBFRAME 2.0取消了規范核心類和注釋核心類,核心類精簡為作品、實例、單件三大類,并且更加注重實體之間以及實體屬性之間關系的描述。
在書目記錄功能需求(Functional Requirements for Bibliographic Records,FRBR)和規范數據功能需求(Functional Requirements for Authority Data,FRAD)概念模型的基礎上,BIBFRAME 2.0模式與RDA編目規則是對應的。2009年,RDA編目規則由美國、英國、加拿大等英語國家正式編制完成,并迅速投入使用。RDA在全球范圍內推動了編目界的變革,其編目規則側重“描述”與“檢索”兩個原則,為大數據時代的編目工作提供了重要依據。
在BIBFRAME 2.0的三個核心類目中,“作品”代表在編資源的內容層次,對應資源描述與檢索(Resource Description&Access,RDA)規則中的作品和內容表達;“實例”代表在編資源的載體層次,對應RDA規則中的載體表現;“單件”主要反映在編資源在館藏中的位置、條碼等館藏信息,對應RDA規則中的單件。作品、內容表達、載體表現和單件是FRBR通過實體——關系模型對書目世界進行抽象化提煉的第一組實體,這組實體概念,是文獻編目工作的基礎內容。通過BIBFRAME 2.0模式與RDA編目規則,實現了編目模式與編目規則的統一,為新型編目模式的推廣奠定了基礎。
(1)電子圖書編目中的“作品”類目表達。在BIBFRAME 2.0實體關系模型圖中,作品(Work)類主要關聯主題(Subject)、代理(Agent)、事件(Event)幾個重要概念,“主題”用來表達作品的一個或多個概念,包括主題、地點、時間、事件等實體;“代理”指人與機構通過角色(如作者、編輯、藝術家、攝影師等)與作品或實例相關聯;“事件”專指發生在某個特定地點和特定時間的事情,該實體能把與某事件相關的時間與地點關聯起來。BIBFRAME 2.0中作品類主要對應著RDA規則中的作品和內容表達,這是兩個抽象的概念,其中“作品”是指獨特的知識或藝術創作;“內容表達”指作品或藝術創作得以實現的方式,包括字母-數字、音符或舞譜、聲音、圖像、動作等多種形式的組合。
在電子圖書編目中,BIBFRAME 2.0實體關系模型中的作品類主要涉及以文字、圖像、音樂等表達方式所展示的作者創意,簡言之,電子圖書與紙本圖書內容一樣,可以通過統一題名進行關聯,在編目工作中單純依靠這個核心類,并不能將兩種類型的資源區別開來。編目工作中所涉及的題名與責任者項在作品類目中并沒有著錄形式上的特別改變;在著錄的內容上,由于BIBFRAME 2.0實體關系模型可以通過主題、代理、事件等屬性建立作品之間的關系,如,整體與部分、繼承與被繼承、翻譯與被翻譯等關聯關系,[8]在實際編目工作中所涉及的主題標引、名稱標目、連接款目幾大項,也可以得到更直觀、更全面的體現。
(2)電子圖書編目中的“實例”類目表現。在BIBFRAME 2.0實體關系模型圖中,實例(Instance)類主要關聯著格式(Format)、出版者(Publisher)兩個重要概念。作為作品的具體化表現,實例反映了作品豐富多樣的表現方式及載體形態。BIBFRAME 2.0中實例類主要對應著RDA規則中的載體表現。載體表現是指在知識或藝術內容上以及物理形式上具有相同特征的所有物理對象,主要涉及編目對象實體;圖書館向書商訂購的書刊,因為針對的是一批書刊,而不是某個具體的對象,所以可以視為載體表現。
在BIBFRAME 2.0中,實例類可以整合出版機構內容,同時著錄在編資源的ISBN、載體表現、風格、分類方式等子目內容。應用到電子圖書編目中主要涉及版本項、文獻特殊細節項、出版發行項、載體形態項、附注項幾大類。①版本項主要介紹電子圖書的版本說明以及與版本說明有關的附加版本說明和責任說明。②文獻特殊細節項主要用于電子年鑒或是電子期刊的編目。③出版發行項是RDA編目規則與BIBFRAME 2.0都很關注的一個著錄項目,屬于BIBFRAME 2.0的重要概念。在電子圖書編目工作中,出版發行項與該資源的供應行為形成映射關系,其中包括出版、發布、生產幾種發行方式。④載體形態項是在編資源物理形態特征的描述,由于電子資源的特殊性,載體形態項只著錄電子資源的顏色內容、方向比例、維度幾項重要內容就可以。⑤附注項具有限定和補充正式著錄項目和處理出版物任何問題的作用,凡是沒有在其他的著錄項目中出現而又被認為是重要的任何著錄信息都可以在本項加以說明。
(3)電子圖書編目中的“單件”類目信息。在BIBFRAME 2.0實體關系模型圖中,單件(Item)類主要關聯著被收藏(Held By)、條形碼(Bar Code)兩個重要概念。單件是作品和實例兩個核心類的進一步深入,是載體表現的一個樣例或實例。BIBFRAME 2.0中單件類主要對應著RDA規則中的單件。單件是一個具體的物質實體,編目員手頭用于編目的書、圖書館館藏中有條碼的復本都可以認為是單件的實體形式。
在電子圖書編目工作中,單件類主要涉及標準號與各館內部的編目附注。國內不同出版商出版的電子圖書,由于缺乏統一管理系統,其相關的標準號也不統一,影響了電子圖書查找的便捷性。借助BIBFRAME 2.0,建立館藏電子文獻的“bf:HeldMaterial”類和“bf:HeldItem”類信息,實現電子文獻的具體定位,讀者用戶可以通過電子地址、館藏分類號、收藏時間等相關信息的記錄,精準地找到所需要的電子圖書。除此之外,RDA編目規則下建立的BIBFRAME 2.0實體關系模式,在電子圖書編目工作中還可以記錄電子圖書的出處、下載閱覽歷史、單件內容狀況、歷史處理信息等。
2009年,國際圖聯發布的《書目及記錄功能需求》(FRBR)報告中明確提出了建立書目世界的實體—關系模型,確定用戶利用書目工具的基本任務,同時通過書目數據的屬性與關系對用戶的映射,確立國家書目記錄的基本需求。[9]RDA編目規則正是在此基礎上按記錄實體的屬性與各種實體間的關系來組織的,旨在創建方便用戶查找、識別、選擇、獲取所需信息資源的數據。RDA以FRBR為模型,BIBFRAME 2.0以RDA為基礎。因此,FRBR關于實體、屬性、實體間的關系、實體與屬性間關系的概念模型是BIBFRAME 2.0對書目信息進行編目的基礎。
RDA編目規則應用于BIBFRAME 2.0格式編碼后,以關聯數據形式發布的編目數據,可以實現書目標引內容與知識信息的緊密聯系,建立網絡化的聯機合作編目。在此基礎上建立的多條書目數據之間的關聯,詳見下圖所示。

圖 實體-關系模型
多條編目數據通過“責任者”與“作品”“創作”與“被創作”兩大類關系實現實體—關系的關聯。每個實體都有諸多屬性特征,如,當實體是“個人”時,可以著錄“個人首選名稱”“生卒年”“個人頭銜”“職業與工作”等屬性信息;當實體是“作品”時,可以著錄“題名”“版本說明”“出版說明”“叢編說明”“載體類型”等屬性。[10]通過BIBFRAME 2.0建立起來的關聯數據,可以打破傳統編目數據單一、孤立的局面,實現書目數據外在特征的關聯和內涵知識的延伸。
在MARC編目模式中,由于編目信息與用戶使用缺少通用性,無法適應大數據時代對信息索取的要求;單一的關鍵詞檢索方式,不能解讀用戶語義檢索需求。如,在中國國家圖書館聯機公共目錄查詢系統中輸入“老舍+作品”可以檢索到144條記錄;輸入“舒慶春+作品”僅可以檢索到82條記錄;如果輸入“老舍+文章”只能定位到一條數據。這是由于現行的檢索方式只是通過服務器對檢索詞的外觀進行單一理解,并不能真正理解語義內含而兼顧“人”的使用感受,BIBFRAME 2.0基礎上的語義搜索框架則可以很好地解決這個問題。借助語義網,加入一些可以被計算機“理解”的語義信息,利用“人工智能”完成信息的搜集、整理、分析、排序與檢索,形成新的檢索源,可以給檢索用戶提供真正需要的信息。在上述檢索實例中,通過關聯數據被統一起來的“老舍”與“舒慶春”,可以實現檢索過程中的統一;在語義模式中“文章”與“作品”因其內含的近似性,可以實現檢索結果的互通。
進入圖書館“大數據”時代以來,圖書館館藏從紙本資源向電子資源轉型,文獻編目工作也有了新的發展方向。以國際編目原則(Inter national Cataloguing Principles,ICP)為指導思想,采用FRBR家族(包括FRBR、FRAD、FRSAD)概念模型,以RDA為編目規則,以BIBFRAME為編碼格式的新型編目體系正在形成。基于關聯數據建立的BIBFRAME 2.0模型,是順應數字化時代的書目格式,具有傳統的MARC格式所不能比擬的優勢。我國圖書情報界應該在借鑒國外編目工作的基礎上,加強編目領域的交流與合作,通過編目理論探討與技術革新,建立新的編目模式,將電子圖書數據發布為關聯數據的形式,并成為語義網的重要部分,是時代賦予每個圖書館人的責任。