,
圖書館一直承載著保存和展示人類文化遺產、傳承和推廣思想智慧結晶、挖掘和開發信息資源、組織和參與社會教育等使命和職責。古往今來的圖書館以雄厚的知識和技術儲備為前提,擁有使用最先進的科技手段以實現規模經濟的悠久歷史[1]和豐富的經驗。圖書館是目錄檢索的發源地,從卡片編目發展到計算機時代的機讀目錄,圖書資源得到有效分類和整理。
1966年,MARC(Machine-Readable Cataloging,機讀編目格式標準)記錄格式誕生于美國;1973年, MARCⅡ被ISO((International Organization for Standardization, 國際標準化組織)審定為國際通用標準。由于其規范性和通用性受到全世界推崇和應用,極大地提高了編目效率。
但隨著時代的變遷,圖書館存儲內容日趨豐富和多樣,加之管理互聯網數據的新需求,被定義為不定長字段的緊湊型格式只能提供給圖書館的OPAC服務的MARC結構,已經阻礙了元素分隔以及在關聯數據環境中使用URL的能力,無法適應網絡時代和圖書館2.0的要求。美國國會圖書館和OCLC(Online Computer Library Center,聯機計算機圖書館中心)都宣布,將于2016年停止對MARC格式的支持[2],這就意味著MARC不得不退出書目控制的歷史舞臺。尋找MARC數據的后繼者的任務迫在眉睫。
面對互聯網信息空間的資源需求,英國國家圖書館、加拿大圖書館和檔案館、美國國會圖書館等聯合發起,潛心制定和搭建了包括DCMI( Dublin Core Metadata Initiative,都柏林核心元數據)、MODS(Metadata Object Description Schema,元數據對象描述模型)、BIBO(Bibliographic ontology,書目本體)、語義網領域、巴黎原則、基于ONIX(Online Information Exchange,在線信息交換)標準的載體術語和RDA(Resource Description & Access, 資源描述與檢索)標準在內的各類數據原則、書目標準和標準平臺[3]。這些原則和標準,成為書目框架計劃BIBFRAME(The Bibligraphic Framework Initiative)的理論基礎,為構建MARC格式通往互聯網世界的橋梁提供了支點。
BIBFRAME是美國國會圖書館和來自Zepheira的小組合作開發的,也被稱為書目數據格式。作為目前MARC格式超越者的有力候選,意在取代MARC成為語義網應用中新一代書目數據編碼格式。
為闡明BIBFRAME的體系結構,必須從RDA談起。RDA是以AACR2(Anglo-American Cataloguing Rules,英美編目條例第二版)為基礎,建立在IFLA(International Federation of Library Associations and Institutions ,國際圖聯)提出的FRBR(Functional Requirements of Bibliographic Records,書目記錄的功能需求)和FRAD(Functional Requirements for Authority Data,規范數據的功能需求)概念模型以及ICP(International Cataloguing Principles,國際編目原則聲明)基礎之上的一種新的編目內容標準,它具體規定了文獻編目工作的著錄內容;而BIBFRAME實體包括作品、實例、規范和注釋,相當于建立在RDA內容標準之上并與RDA標準兼容的書目數據格式[4]。
RDA和BIBFRAME都在剛剛起步階段,其內涵和外延還處于不斷變化的狀態。BIBFRAME的提出,意在將圖書館的現存海量數據完美表現為關聯WEB數據格式[5],并且能夠定義和表達網絡數據,使數字圖書館在工業革命4.0的物聯網世界中得到生存和發展。
為避免成千上萬的編目員重復描述相同的資源,達到“一次編制,無限通用”的設計宗旨,數據模型和格式必須保持相當長時間的穩定性,且數據格式在網絡系統中具有可識別性。也就是說,BIBFRAME格式需要具備共享性、標準性、穩定性和低成本的設計屬性。BIBFRAME格式被設計為融入和參與到更廣泛信息社會中,也同時服務于其使用群體(圖書館以及類似存儲機構)的明確需求,決定了歸屬性、唯一性和關聯性是它的3個基本要素[6]。歸屬性明確區分概念性內容和它的物理表現(如作品和實例),唯一性致力于明確識別信息實體(如規范),關聯性具備表達各實體間相互關系和相互作用的能力。
當用戶使用百度、谷歌等搜索引擎或是微信、Facebook等社交網絡查找信息時,圖書館的資源入口甚至是發現系統也被拋在腦后,圖書館無形中成為一個信息孤島。而BIBFRAME模型就是為了打開圖書館通往互聯網世界的一把鑰匙,把傳統編目數據融入網絡元數據,通過圖書館的介入,幫助用戶快速得到更準確更可靠的答案。
BIBFRAME的模型主要有以下幾種[6]。
創作性作品(Creative Work):反映編目資源概念實質的資源,不同于FRBR/RDA中的作品,相當于其實體中的作品(Work)和內容表達(Expression)。
實例(Instance):反映作品的個例的物理載體表現的資源,相當于FRBR/RDA中的載體表現。一個作品可以對應多個實例,但一個實例只能對應一個作品,而且每個實例都可以用URI標識。
規范(Authority):反映關鍵規范概念的資源,這種關鍵概念定義了作品和實例所反映的關系,規范資源包括人物、地點、主題和機構等。提供一個輕量級的抽象層,使Web級的規范控制更為有效。
注釋(Annotaion):提供更多關于BIBFRAME作品、實例或規范的描述信息,為作品提供評論、目錄、摘要等信息,可以為實例提供封面、館藏等信息,為名稱規范提供作者的傳記信息等。此外,還可以提供管理性元數據。
由美國國會圖書館和來自Zepheira的小組合作開發出一套運用RDF(Resource Description Framework,資源描述框架,一種用于描述Web資源的標記語言)編制的BIBFRAME詞匯表[7]。此詞匯表原來發布在美國國會圖書館的下屬網址http://loc.gov/bibframe/vocab/ 中,后來又轉移到 http://bibframe.org/vocab/的統一網址下。從現在進行中的BIBFRAME開發來看,不再像DCMI那樣嚴格控制元素和術語的數量,而是根據實際需要,經過一定的內部討論流程,隨時發布和修訂詞匯表。
目前詞匯的主要來源是MARC、FRBR、RDA、DC和VAR等相關業界的元數據規范,包括實體類、屬性和資源類型取值。截至2014年12月,該網站發布相關詞匯200余條,每個詞表都用URI標識并賦予標簽,并歡迎元數據工作者增加、修改和補充詞匯。
BIBFRAME初步發布了以下12種創造性作品的資源類型:語言資料和地圖(Language material,Cartography),數據集(Data set),樂譜、舞譜(Notated Music,Notated Movement),音頻資料(Audio Dodument),靜態圖像(Still Image),動態圖像(Moving Image),三維物體(Three Dimensional Object),軟件與多媒體(Software & Multimedia),混合資料(Mixed Material)資源集合(Collection),手稿(Manuscript),觸覺資料(Tactile)[8]。
BIBFRAME模型對資源類型的定義既具備科學性和嚴謹性,又具備實用性和兼容性,應用的時候可以任意組合,基本能夠從概念層面覆蓋現存的圖書館及相關存儲機構的常用資源對象,比RDA中利用內容類型、載體類型和媒體類型三方面組合的定義方式更加簡便易行,更加容易推廣和實踐。
自從2011年5月美國國會圖書館正式宣布與以語義技術起家 的Zepheira公司合作開發BIBFRAME以來,BIBFRAME書目數據新格式日漸清晰,可以預見到數字圖書館的嶄新時代即將到來。由于BIBFRAME的內容涉及10余年來互聯網和圖書館領域的多項前沿技術,而且中文資源近乎為零,研究門檻很高。
本文通過對BIBFRAME這種書目數據新格式的研究背景、體系結構、屬性和內容的具體描述,為讀者初步了解和掌握BIBFRAME書目格式打下良好的基礎,也為圖書館員及其他數據工作者參與開發和實踐BIBFRAME提供一些參考。