宋琳琳,莊玉芳
隨著搜索引擎的出現和網絡資源的激增,人們獲取信息資源的途徑日益豐富,聯機計算機圖書館中心(Online Computer Library Center,OCLC)2005 年發布的《圖書館和信息資源認知》(Perceptions of Libraries and Information Resources)[1]指出,搜索引擎已成為用戶獲取信息的首選途徑。與此同時,圖書館傳統館藏資源卻因為MARC格式書目數據的封閉性、靜態性等[2]特點而無法被圖書館OPAC以外的系統發現和獲取。為增強用戶對館藏書目數據的利用,圖書館及相關機構開始面向更廣泛的網絡開展關聯數據研究和實踐。
OCLC 開發的關聯書目數據模型——The OCLC Schema Model(OCLC Model/OCLC 模型)是影響力較大的研究成果,它以主要搜索引擎支持的結構化數據標記(詞表)Schema.org 為基礎,幫助圖書館實現數據關聯,增強圖書館資源在網絡中的識別度[3]。OCLC將Schema.org應用于WorldCat,令其網絡訪問量在6個月內(2014年5-10月)增長65%[4],其中發揮主要作用的是整合、族性關聯、網絡鏈接和實體標識符;采用Schema.org的圖書館編目,可以與規范數據集鏈接,增加數據質量;提供一種更具指向性、只需點擊鏈接就可以編目的方式,使編目工作從記錄管理走向實體管理;可與RDA 協調一致。具體應用中,OCLC Research 已通過內部研究資源“WorldCat 提升計劃”關聯利用LSCSH、VIAF、FAST 等規范數據集;通過“WORKS”項目整合了DDC、MeSH、LCTGM、GTT、GMGPC、GSAFD等詞表。OCLC以這兩個項目為中心,關聯OCLC 外部研究系統,如“Kindred Works”“Fiction-Finder”“Identities”“Classify”,并提供產品服務“WorldCat Linked Data”“WorldCat Entities”。OCLC 所構建的關聯數據資源和平臺為圖書館關聯數據化,尤其是采用OCLC模型的圖書館資源建設提供了強大支撐。因此,OCLC模型是一種不可忽視的關聯數據建設路徑。
美國國會圖書館(Library of Congress,LC)作為應用最廣的編目格式MARC的創建者和維護者,為適應以FRBR為基礎的新編目規則RDA,將圖書館資源推向更廣泛的關聯數據環境,2011 年發布將取代MARC21 以適應更廣泛社區和用戶需求的書目框架轉變聲明[5],2012年底發布BIBFRAME1.0版本,希望將其作為下一代編目格式標準[6]。自BIBFRAME發布起,OCLC就致力于關聯書目數據模型與BIBFRAME間的關聯與互操作研究,希望增強二者的兼容性。
反觀我國圖書館界,自2008年開始的關聯數據研究主要圍繞兩個方面展開:一是語義網環境下書目數據的關聯數據化,二是關聯數據的查詢與服務[7]。筆者對近5年上述兩個研究主題發表的論文進行綜述后發現,在書目數據關聯化方面,研究側重于關聯數據集的發布和關聯書目數據模型開發[8-10],但尚未開發出較為成熟的通用關聯書目數據模型;當前較理想的通用模型是BIBFRAME,一些學者和圖書館機構已經開展CNMARC 和 BIBFRAME 之間的轉換 研究[11-12]。在關聯數據查詢與服務方面,研究集中于關聯書目數據可視化處理[13-14],但還沒有可行的利用搜索引擎促進關聯書目數據被發現的研究或實踐。因此,詳細介紹以發現為目的的OCLC模型,并對OCLC 模型與BIBFRAME 之間的兼容性進行梳理,以期對今后研究具有一定的借鑒意義。
1997年OCLC加入W3C,展開“如何在互聯網上更好表示圖書館書目數據”的討論。2011年Bing、Google、Yahoo!共同提出Schema.org,作為主要搜索引擎支持的結構化數據標記通用詞表。一直關注搜索引擎發展的OCLC專家看到以Schema.org為基礎建立關聯書目數據模型的可能性,加之OCLC在關聯數據方面的研究已取得一定成果,如2011年OCLC發布FAST,為關聯數據環境提供受控的主題詞表,于是OCLC決定開展以Schema.org為基礎的關聯書目數據模型的研究和試驗,希望直接以網絡搜索引擎可理解的格式發布圖書館書目數據,促使圖書館資源在更廣泛的網絡中被搜索引擎發現。
Schema.org 并不是為圖書館而設計的,Schema.org詞表對圖書館專業領域的描述程度較淺顯,且允許在更適合使用URI 的地方使用文本字符串。因此,起初許多圖書館專家對Schema.org 能否支持關聯書目數據的描述持懷疑態度。OCLC研究人員最初也認為,該詞匯表似乎過于側重商業產品,僅與圖書館的書目描述需求部分重疊[15]76-77,具體表現為:首先,Schema.org沒有FRBR第一組實體(即作品、內容表達、載體表現和單件)的概念表示。其次,在Schema.org中,內容和載體之間也沒有明確的區別。此外,還存在一些問題,如創作作品之間的關系很少被定義、沒有收藏或系列的概念、沒有關于圖書館和提供或接收圖書資源的組織(如大學、出版商、數據服務提供商)的事務模型[16]。
不過,在完成對Schema.org 的初步測試后,OCLC的關聯數據專家和圖書館技術專家發現,對圖書館館藏書目描述而言,Schema.org本體定義了一個合理、一致的概念模型,它包含的類和屬性,如創作作品、個人、作者、導演、地點、組織、出版者、版權日期、書籍、ISBN,適用于描述基本的圖書館館藏書目資源。此外,Schema.org本體中的概念可以以多種形式序列化,并與語義網所倡導的建模理念相兼容[16]。
2012年OCLC以WorldCat為試驗基地,將WorldCat 上約 3 億條 MARC 書目記錄用 OCLC的Schema草案模型表達,使用RDFa序列化并發布成關聯書目數據。該實驗證明Schema.org幾乎可以覆蓋WorldCat 中所有類型的書目資源,但不足以滿足圖書館的全部細節描述需求。
2012年,Schema書目擴展小組(W3C Schema Bib Extended Community Group)在OCLC的推動及W3C(萬聯網聯盟)支持下,集合圖書館員、出版商和集成圖書館系統供應商等代表展開研究,贊同OCLC關于Schema.org的看法,認可Schema.org 在圖書館傳統書目數據向關聯數據轉換過程中的重要性[15]79-80。該小組的目標是研究Schema.org標記,使其更適合于描述書目信息,提高以Schema.org 標記的書目數據的共享性,研究成果主要為Schema.org擴展詞表,同時就擴展詞匯征詢W3C意見[17]。
2013年OCLC發布關聯書目數據模型——“OCLC模型”,為Schema.org中的術語賦予了對應FRBR第一組實體4個概念的意義,因此比OCLC草案模型更符合FRBR第一組實體的層次結構。也是從2013年起,OCLC展開在公開獲取的數據集(如FAST、VIAF)中進行關聯數據的實驗,如將VIAF中的數據以Schema.org所定義的類(如個人、組織、創作作品、題名等)重新發布,并以“作品”和“內容表達”聚類。2014年OCLC為WorldCat發布的關聯數據更新了URI,這些URI 來自最新發布的WorldCat 作品數據集,該數據集使用FRBR 驅動的聚合和數據挖掘算法,以相似內容聚合規范文檔和WorldCat書目記錄。事實證明,Schema.org對個人、組織、創作作品、地點、主題等概念的定義足以作為VIAF和FAST中關聯數據的URI的現實參照。
OCLC關聯書目數據模型主要利用Schema.org 的“創作作品”(CreativeWork)本體。為使其適合關聯書目數據描述,OCLC通過試驗收集反饋意見,不斷完善模型。
2012年6月,OCLC發布第一代關聯書目數據草案模型[15]79,試圖從圖書館角度解決Schema.org 在圖書館資源描述中存在的問題,最終以一個圖書館擴展詞表“Library”來彌補這方面的不足?!癓ibrary”擴展詞表使OCLC 草案模型得以區分作為內容的對象和作為載體的對象,它增加了表示文獻類型的類(如“Archive Material”“Newspaper”“Periodical”),增加了對象屬性(如“has carrier”“place of publication”),以及數據屬性(如“holdings count”“oclcnum”)[15]80-83。不過,“Library”擴展詞表雖然基于Schema.org開發,但尚未形成一套完整的術語體系,它缺少一些必要的術語且匹配了一些不準確的術語,在書目描述的表達能力上仍存在不足。
OCLC草案模型證明了Schema.org幾乎可以滿足圖書館書目資源描述的基本需求。OCLC也強調該模型的試驗意義,并征求反饋意見。OCLC草案模型發布后不久成立的Schema書目擴展小組,就Schema.org在圖書館資源描述中存在的問題,使用Schema.org中定義的術語人工編制一組語句,開始進行建模。該小組發現Schema.org原有實體已成功覆蓋圖書館的許多資源描述,揭示了本體中存在的不足、不一致或術語不準確。在W3C管理的郵件列表(如“public-schemabibex”)[18]上, 該小組討論Schema.org 修訂問題,向 Schema.org 提出提案且取得了較理想的成果[15]80-81。
2013年OCLC發布關聯書目數據模型——“OCLC 模型”。此前OCLC 草案模型主要通過“Library”擴展詞表來提高Schema.org 描述圖書館資源的適用性。而OCLC 模型則采用了Schema書目擴展小組提出的建議,即為已有的Schema.org概念賦予圖書館專業人員所理解的意義,只在完全必要時才提出擴展。例如,在館藏事務的建模中,最初研究人員的想法是提出圖書館專用的類與屬性,后來發現可以通過對Schema.org原有術語的含義作出調整以滿足圖書館的使用,如Schema.org的“Offer”類,除具有出售的含義,還可以包含出借或共享的含義,這樣就可最大限度地使用Schema.org原有術語來滿足圖書館描述需求。此后,剩下的就是一些具體工作,如用新屬性來描述書架號、索取號等圖書館特定的事項。由于Schema.org本體的類和屬性鏈既有層次結構又有靈活性,對類和屬性分配的要求較為寬松,因此,OCLC模型可以相對容易地對Schema.org進行優化。
2.2.1 集成GoodRelations本體
隨著Schema.org發展,詞匯表中逐漸加入第三方開發的本體,其中某些本體的關注點與圖書館利益一致,如電子商務本體GoodRelations。專業人員對其進行評估后,發現該本體中的某些詞匯不僅適合描述圖書館館藏,而且相比于圖書館專業繁復的文本描述標準,更容易被通用搜索引擎搜索和理解。因此,OCLC 模型增加了GoodRelations 本體,以提供一種方法來表示FRBR第一組層次結構中的一些概念,使OCLC模型不必提出大量的新詞匯表就足以對許多圖書館資源和事務進行豐富而細致的描述。

圖1 Schema.org中“Creative Work”本體和新增的“GoodRealtions”本體[16]
如圖 1 所示,“CreativeWork”“Product”層次結構中的多個繼承有助于區分作為內容的作品和作為對象的作品,是OCLC 作品模型的基礎 。 在 引 入 GoodRelations 后 ,“schema:CreativeWork”和“schema:Product”之間產生一些冗余,對象的多類型繼承也帶來一些本體認識上的困難。比如,“bgn:toy”有兩個父類 “schema: CreativeWork” 和 “schema:Product”[19],于是“bgn:toy”可以從兩個角度解釋,作為“schema:CreativeWork”的子類,它可以被理解為一種類似于圖書或電影的體裁或資源類型,但作為“schema:Product”的子類時,“bgn:toy”卻可以理解為一個在真實世界中可以被買賣、借出和使用的物體[20],“schema:CreativeWork”和“schema:Product”之間的冗余需要進一步精簡。
2.2.2 對應FRBR第一組實體的層次結構
OCLC模型的設計充分利用Schema.org對類型分配的靈活性,為“CreativeWork”本體中的實體賦予了圖書館領域的意義,并與Good Relations本體中的實體結合,以表示FRBR第一組實體的4 個概念?!皊chema:CreativeWork”類對應FRBR第一組實體的“作品”或“內容表達”,并通過最佳實踐的約定來選擇“schema:CreativeWork”分別與“作品”或“內容表達”相關聯的屬性,當屬性包括創作者、題名、主題或體裁時,“schema:CreativeWork”對應的是FRBR作品(見圖2,#bundle2);當屬性包括版權日期和類型時,“schema:CreativeWork”相當于FRBR的“內容表達”(見圖2,#bundle4)。不過,由于最佳實踐約定幾乎不足以確定如此重要的概念,OCLC和Schema書目擴展小組成員研究替代方案。更現實的做法或許是承認標記為“schema:CreativeWork”的類對 FRBR“作品”和包含更多細節的“內容表達”的描述始終是模糊的。在實際操作中,OCLC 作品模型只將不同語言的翻譯作品作為FRBR“內容表達”層的描述對象,見圖3。

圖2 FRBR第一組實體層次在OCLC模型中的具體表現[16]

圖3 FRBR第一組實體與OCLC作品模型的類的對應關系[21]
“schema:Creative Work”和“schema:ProductModel”對應FRBR 的“載體表現”,“schema:CreativeWork”和“schema:Individual Product”對應FRBR 的“單件”。如圖2 所示,# bundle5 中為描述對象分配“schema:Movie”和“schema:ProductModle”類,對應于FRBR的“載體表現”;#bundle7中為 描 述 對 象 分 配“schema:Book”和“schema:IndividualProduct”類,對應FRBR 的“單件”。在一些情況下,只需要為 描述對象分配“schema:Creative Work”和“schema:Product”其中一個本體下的類即可。比如,當作品的物理表現未知或無關緊要時,則只需分配“schema:CreativeWork”表示“載體表現”或“單件”。
2.2.3 提高模型的層次結構表現能力
盡管 Schema.org 的“Thing-Creative Work-Book”層次結構定義了一個“類和屬性鏈”,但該鏈中的所有類和所有屬性都是可以自由選擇的,子類可以繼承一個或多個父類的屬性,甚至可以向上移動。因此,該層次結構實際上形成了一個類型松散的描述標識符集,可以自由構建有關資源或詳或略的陳述。圖 4 是 Schema.org“CreativeWork”本體的部分層次結構,其子類如“schema:Book”除了擁有“schema:bookEdition”等自身屬性外,還可以繼承父類“schema:Creative-Work” 的 “schema: author” “schema:About”等屬性。

圖4 “創作作品(CreativeWork)”的層次結構
OCLC 模型新增了一些必要的屬性,如“schemap:hasInstance”“schemap:isInstance Of”“schemap:CommonEndeavor”;“schemap:hasInstance”“schemap:isInstanceOf”用于定義同一個層次結構中實體之間的關系,而“schemap:CommonEndeavor”則用于定義不同層次結構中實體之間的關系(見圖2)。但后來并沒有將OCLC 模型最初提出的這3 個屬性納入“schema:命名空間”,現在使用“schema:exampleOfWork”和“schema:workExample”屬性來表示相似的意思(見圖3),即作品的例子、實例、實現或衍生[22]。
雖然Schema.org具有一定的潛力,可以支持詳細程度相當于DC 元數據的描述,但Schema.org的設計者從未打算將其作為一個覆蓋所有領域的本體,而是將Schema.org作為一個起點,或者說一個框架,然后在此基礎之上附加各領域更詳細的本體。因此,在OCLC 以Schema.org作為關聯書目數據模型基礎的研究中,術語詞表的研究起到重要的補充作用。
Schema.org是通用搜索引擎支持的網頁結構化數據標記通用詞表,在OCLC關聯書目數據模型中,它為圖書館書目描述提供了豐富的詞匯基礎。Schema.org詞表中最重要的類、子類和屬性由“Schema:”命名空間中定義的術語表示。OCLC關聯書目數據模型主要利用Schema.org 詞表的“schema:CreativeWrok”本體(見圖4),它是“Schema:Thing”包含的子類之一,包含FRBR作品和載體表現描述中經常用到的屬性,如“schema:publisher”“schema:datePublished”“schema: typicalAgeRange”“schema:inLanguage”“schema:about”[15]77。在OCLC 關聯書目數據模型研究過程中,一些擴展術語陸續加入到Schema.org 正式詞表 。 比 如 , Schema.org 采 納 了 Schema 書目擴展小對期刊引文結構部分提出的改進建議,為“schema:PublicationIssue”類添加屬性“schema:issueNumber”,為“schema:Publication Volume”類添加屬性“schema:volumeNumber”[15]81。此外,為擴展 OCLC 模型的資源描述類型,同時盡量使用Schema.org中原有實體,一些“Creative Work”本體以外的 Schema.org 術 語 也 進 入 OCLC 模 型 的Schema.org詞表,如“schema:VidelGame”。
3.2.1 “Library”擴展詞表
“Library”是OCLC 草案模型中定義的關于格式和內容類型的擴展詞表,目的是填補Schema.org 在書目描述方面的空白。作為一種小型本體草案,它在描述中添加了如“OCLCnumber”和“Holding”這樣的術語,是OCLC草案模型中非常重要的一部分。不過,正如OCLC在發布初始草案時所說,第一代OCLC關聯書目數據模型更多是試驗性的,意在接受反饋,OCLC不打算將該詞表作為永久性的詞表。在進一步研究中,Schema 書目擴展小組提出“盡量為Schema.org原有實體賦予圖書館領域的意義,以表示關聯書目數據描述所需的類和屬性”的建議。而且,該關聯書目數據擴展詞表導致了OCLC 草案模型和BIBFRAME 之間的冗余。因此,在2013 年發布的OCLC Model(模型)中,Library擴展詞表被OCLC廢棄。
3.2.2 BiblioGraph.net擴展詞表
在缺乏統一標準的情況下,OCLC 模型的擴展詞表在提交公眾審查之前需要一個試驗場,為此,OCLC 于2014 年建立了試驗性的BiblioGraph.net 擴展詞表(簡稱“BiblioGraph.net詞表”)。它具有與Schema.org詞表相同的形式外觀,因為它們源自相同的開源軟件平臺,且都是基于通用代碼庫構建的[20]。為了使這兩個詞表的更新保持同步,構建BiblioGraph.net的過程中會使用Schema.org 的最新副本,將其與BiblioGraph.net合并,這項工作幫助研究者把對Schema.org提出的擴展性詞匯建議實現可視化。
BiblioGraph.net 擴展詞表比 Library 擴展詞表更復雜,具有更高層次,詞表中的概念、實體、關系由“bgn:”命名空間中定義的術語表示。BiblioGraph.net 詞表中的大部分術語定義了“schema:CreativeWork”的新子類或屬性,如“bgn:Newspaper”“bgn:Thesis”。BiblioGraph.net詞表可以使得類和屬性優先選擇“schema:”“bgn:”兩個命名空間,從而將OCLC 模型的命名空間數量最少化[23]。比如,2014年9月的VIAF更新中將原有的一些類和屬性由“dbpedia:”“foaf:”等命名空間轉換而來,包括將“dbpedia:Place”“foaf:Name”轉變為“schema:Place”“schema:name”,也增加了“schema:”“bgn:”命名空間內的新類和屬性,如“bgn:Agent”“schema:inLanguage”[24]。
BiblioGraph.net擴展詞表有兩個長期目標。第一個目標是試驗簡單的常識性術語,如“Translation(翻譯)”。這些術語的含義很容易理解,大多由各興趣社區提供,如選擇大眾在使用通用搜索引擎時使用頻次較多的關鍵詞作為描述圖書館資源的術語。第二個目標是試驗滿足圖書館領域需求的專業且繁復的術語,如“Agent(代理)”(在不確定創作者、出版者等是個人還是組織結構時使用,見圖5)。這些術語大多來自BIBFRAME,通過對比其在BIBFRAME 和BiblioGraph.net中的定義和用法是否相似,決定其是否可以與Schema 結合使用等。但是,BiblioGraph.net 不會包括太多在 BIBFRAME 中定義的術語,專家要經過謹慎的分析來選擇可以滿足更廣泛需求的BIBFRAME術語。

圖5 BiblioGraph.net的bgn:Agent擴展
BiblioGraph.net擴展詞表由OCLC維護,詞表中除Schema.org正式詞匯外,其余均為候選詞,經過編輯和顧問的分析和評估決定其去留[20],并由Schema書目擴展小組向Schema.org提出提案,經采納后方可正式納入Schema.org詞表。比如,“translation”已經成為Schema.org 詞匯表中正式的術語,表示為“schema:translation”。當與書目擴展詞表中相同概念的詞,通過其它途徑進入了schema.org 正式詞表,BiblioGraph.net 會刪除重復術語以消除冗余或沖突。比如,“schema:VideoGame”進入Schema.org正式詞表后,BiblioGraph.net便將“bgn:VideoGame”刪除。自2015 年2月 16 日發布 bgn1.1 版本后 BibliGraph.net 沒有再發布更新的版本[25]。
3.2.3 bib.schema.org詞表
bib.schema.org的建立意味著BiblioGraph.net 擴展詞表的成果得到 Schema.org 的官方認可,擴展詞表中的類型和屬性術語進入Schema.org 命名空間,成為Schema.org 在書目領域的擴展子域,bib.schema.org于2015年5月24日發布1.0版本。Bibliograph.net擴展詞表包括已經納入OCLC作品模型的Schema.org正式術語和正在接受審查的候選術語,該擴展詞表由編輯者在實踐社區(如Schema書目擴展小組)支持下維護。在bib.schema.org中,Schema.org的管理員會對書目擴展詞表的通用模型進行形式化;建立 bib.schema.org 后,BiblioGraph.net 詞表即上傳到 Schema.org 的 Github 存儲庫,可從http://bib.schema.org 查看。該界面會將擴展詞表與最新版本的Schema.org 整合,就像Bibliograph.net 所做的一樣,因此BiblioGraph.net自2015年后不再更新。在擴展模型完全實施后,Schema.org僅維護其詞表,而不維護提供其詞表的網站。
2012年,OCLC和LC先后發布OCLC草案模型和BIBFRAME1.0。在此之后,二者都意識到兩個獨立模型的覆蓋范圍可能存在重合之處,甚至可能存在競爭。LC為使用范圍最廣的書目描述格式MARC的創建者和維護者,OCLC為世界最大的文獻信息中心,二者都不可能忽視對方的重復勞動而造成的資源浪費,或由于沖突加劇而給將來的普及使用帶來麻煩。為此,OCLC幾乎從BIBFRAME1.0發布后即開始就OCLC草案模型和BIBFRAME1.0進行兼容性研究。
2012 年 6 月 OCLC 將 WorldCat 上 近 3 億條記錄發布成Schema標記,12月將WorldCat上的記錄轉換為BIBFRAME1.0 格式,轉換所使用的腳本只是在早前將WorldCat 記錄轉換為Schema.org 標記所用的腳本基礎上進行了修改[26]。試驗后,OCLC對轉換的BIBFRAME記錄進行分析,并于2013 年6 月發布《關于BIBFRAME 和OCLC 關聯書目數據模型之間關系的研究工作報告》(The Relationship between BIBFRAME and OCLC’s Linked-Data Model of Bibliographic Description:A Working Paper)[16],報告展示了OCLC在BIBFRAME早期實驗小組中的工作,以及OCLC草案模型與 BIBFRAME1.0 的關系分析。2014 年8 月,OCLC 和LC 正式開始兼容性研究合作,并于2015 年發布合作研究報告《Common Ground:探索LC和OCLC的關聯數據模型之間的兼容性》(Common Ground:ExploringCompatibilities Between the Linked Data Models of the Library of Congress and OCLC)[6]。
兩個模型兼容性研究的目標可以概括為兩點:(1)兩個模型中相同概念的URI 指向同一對象;(2)兩個模型中的描述可以相互轉換而不丟失信息。這樣,兩個模型既可以達成各自的目標,又能使二者的書目描述在統一的標準下相互轉換,減少不必要的工作浪費,滿足圖書館和信息用戶雙方的需求。
4.1.1 積極因素
在OCLC草案模型和BIBFRAME1.0兼容性研究中,研究人員發現兩個模型之間存在兼容基礎。首先,二者在許多高層概念上是相似的,如作品、實例、組織和個人,反映了兩種出于不同動機和使用目的而設計的模型之間的共同點。其次,在兩個模型的詞表中很多術語擁有相同意思,如“Person”“Organization”“Place”“Author”[27]。
4.1.2 阻礙因素
盡管OCLC草案模型和BIBFRAME1.0有著兼容的基礎,但二者之間仍然存在很多阻礙兼容的問題。
(1)二者在書目描述的深度和廣度上存在較大的差異。在2013年1月LC舉辦的BIBFRAME會議上,OCLC展示了Schema擴展詞表和BIBFRAME1.0之間的關系:OCLC草案模型覆蓋范圍更廣但對書目描述不夠深入,因為Schema.org中的創作作品本體也用于描述信息領域的其它資源。作為圖書館書目描述的下一代標準,BIBFRAME1.0 的情況則相反(見圖 6)。因此,兩個模型所定義的不同術語甚至是相同術語之間會存在具體與抽象、專業與廣泛的差異。比如,BIBFRAME1.0的作品與實例之間用專指的“bf:isInstanceOf”和“bf:instanceOf”屬性連接,而OCLC草案模型中的作品和實例則用可以連接多個類的泛指的“schema:isExampleOf”和“schame:exampleOf”屬性連接。

圖6 BIBFRAME和Schema作品模型之間的關系[16]
(2)BIBFRAME1.0 的設計以 FRBR 為基礎,雖然并沒有完全對應FRBR第一組實體的4個概念,但也具備基本的層次結構,而OCLC 草案模型則不具備這種結構。這增大了兩個模型兼容的難度。
(3)OCLC 草案模型的“Library”詞匯表與BIBFRAME1.0作品和實例類在很大程度上是重復的。圖6中OCLC草案模型與BIBFRAME1.0中存在交叉重合部分,正是由OCLC草案模型的擴展詞表“Library”造成的。
與OCLC草案模型相比,OCLC模型改動較大,與BIBFRAME1.0的兼容性隨之變化。
4.2.1 改進
(1)OCLC模型與BIBFRAME1.0之間的關系變為互補。在OCLC 模型中,新加入的GoodRelations本體可以表示FRBR第一組層次結構中的一些概念,OCLC 草案模型中的“Library”擴展詞匯表被廢棄。對BIBFRAME而言,這意味著OCLC 作出了讓步,不再設置與BIBFRAME存在競爭性的擴展詞表來描述內容、載體、館藏和其它圖書館特有的資源。因此,圖6 所顯示的交叉重合關系將不復存在,BIBFRAME1.0和OCLC作品模型之間的關系變為互補[6],在語法上更兼容,語義上更互補[16]。
(2)OCLC 模型的實體與 BIBFRAME1.0 的核心實體間出現了對應的映射關系。OCLC作品模型的“Creative Work”類可以映射到BIBFRAME1.0 的“Work”類;而“Creative Work,Product Model”類可以映射到BIBFRAME1.0的“Instance”類;“Creative Work,Individual Product”類可以映射到BIBFRAME1.0的“Instance”類(見圖7)。

圖7 BIBFRAME1.0與OCLC作品模型的映射關系[28]
(3)OCLC 模型更加符合BIBFRAME 的層次關系。由于FRBR層次結構的應用需要在抽象程度不同的實體之間建立關聯,于是OCLC 模型為原有屬性賦予新的意義或增加新的屬性,以描述不同層次實體之間的關系[16]。例如,為“schema:CreativeWork”類增加屬性“schema:workExample”和“schema:exampleOfWork”,用以表示作品的實例,與BIBFRAME的屬性“bf:hasInstance”和“bf:isInstanceOf”含義相似。
4.2.2 新問題
基于Schema.org的OCLC模型和BIBFRAME之間的關系相比之前更加清晰,但是新的兼容性又面臨了一些重要的問題。
(1)兩個模型的開發研究和實踐運作之間的關系需要協調一致。OCLC擴展詞表和BIBFRAME詞表之間的關系由重合變為互補,那么這兩個模型詞表的設計開發者在之后的工作中也需要各自扮演互補的角色,否則會出現重復性工作而再次導致資源的浪費。為了促進兩個模型的合作研究和并行發展,或許需要定義一個從抽象到具體的互補任務集合,一開始由少量模型專家引導,并逐漸擴展為其它興趣社區的充分參與。
(2)BIBFRAME1.0 定義的一些重要的類與OCLC模型存在差異。BIBFRAME1.0為作品和實例都定義了RDF類,而OCLC模型只為作品定義。BIBFRAME1.0定義了“Authority”類,而OCLC模型中雖然也有“Authority”這一術語,但并沒有作為一個類。在OCLC 模型中術語“Authority”用法十分廣泛,可以是任何資源的非正式名稱,如有關人員、地點、組織、概念和其他經過審查的實體信息;而在BIBFRAME 1.0 中,“bf:Authority”類主要用于對主題的描述。BIBFRAME1.0 還定義了“Annotation”類,描述評論、摘要、封面和館藏的結構化數據,而OCLC模型中雖然沒有與其對應的術語,但卻提供替代的且更簡潔的表述。
雖然OCLC模型和BIBFRAME1.0在一些重要的類上定義不同,但在描述“人員、地點和組織”時,兩個模型都不以分配的字符串或概念形式來表示,而是以現實世界的指示對象來表示。因此,BIBFRAME1.0 一些重要的 RDF 類,如“work”“instance”“helditem”“authority”,其子類與OCLC模型中的對應術語在本體上足夠相似,BIBFRAME1.0和OCLC模型之間有可以互用相應的URI。
(3)在兩個模型中,仍有一些重要的概念需要在兼容性研究時協調一致。盡管FRBR 第一組實體對圖書館資源描述十分重要,但無論是OCLC 模型還是 BIBFRAME1.0 中都沒有 FRBR第一組實體概念的充分表示,并且還缺少其它一些重要的概念,如藏品、系列和館藏。雖然研究人員都在努力定義兩個模型中的這些概念并使其更具可操作性,但是仍沒有推動這兩個模型進行合作的倡議。如果兩個模型對于這些未明確的概念采用了完全不同的定義,將會阻礙二者的兼容。
2016 年 4 月,LC 發布了 BIBFRAME2.0,希望將其作為圖書館資源描述的持久性標準。在BIBFRAME2.0中,BIBFRAME1.0的2個核心類(作品和實例)修改為3個核心類:作品、實例、單件。
修改后的BIBFRAME2.0 由于增加了單件類而更加符合FRBR 第一組實體的層次結構,于是OCLC模型的“Creative Work,Individual Product”類可以映射到 BIBFRAME2.0 的 Item類(見圖8),兩個模型的層次結構更加兼容。

圖8 BIBFRAME2.0與OCLC作品模型的映射關系[28]
經歷了OCLC草案模型到OCLC模型,以及BIBFRAME1.0到BIBFRAME2.0的轉變,OCLC模型和BIBFRAME之間的兼容性不斷增強,但二者之間仍然存在較多差異(見表1)。

表1 OCLC模型和BIBFRAME的差異
一些差異是必要的,這是雙方發展目標不同而導致的。OCLC模型和BIBFRMAE的兼容性研究必須立足于一個基礎,即OCLC模型和BIBFRAME都需堅持各自的目標,以實現不同的功能。
OCLC模型的目標是增強書目資源在通用搜索引擎中的發現,這就需要OCLC采取一些注重描述經濟性的策略。例如,盡可能使用Schema.org 詞表,只在必要時提出修訂。也就是說,OCLC模型的描述永遠不可能達到BIBFRAME的細致程度,BIBFRAME中一些專業繁復的術語在以發現為目的的OCLC模型中永遠不可能出現。站在OCLC的立場,OCLC模型應該盡量采用最易于讓大眾理解的術語來描述圖書館資源,一旦圖書館資源通過Schema.org標記被發現,就可以借助BIBFRAME的功能,在圖書館支持的豐富的關聯數據環境中利用書目所描述的資源。
BIBFRAME 的設計相對獨立,但在兼容性發展中,不可避免會在一定程度上受到Schema.org 的影響。站在圖書館專業的立場,合理的兼容發展是:BIBFRAME 模型的設計應該最少程度地依賴于Schema.org,這樣當Schema.org將來在根本上發生變化或不再使用時,圖書館社區不會受到較大的影響。畢竟信息時代網絡的發展速度超乎人們的意料,Schema.org 當前在網絡標記語言中的地位也可能只是暫時的。而BIBFRAME 的目標卻是為圖書館乃至文化機構的資源描述所長期使用。當然,BIBFRAME模型的重要概念仍需要與主流搜索引擎支持的任何通用本體兼容,但是BIBFRAME中更加專業的概念則不希望受到搜索引擎的影響,要立足于圖書館等文化機構資源描述的專業需求。
OCLC 模型和BIBFRAME 兼容性研究的目的不是為了融合這兩個模型,而是在保證兩個模型獨立性的前提下,實現二者之間不損失信息的書目描述映射。
在 2017 年 1 月 ALA 冬季會議上,OCLC 的報告展示了BIBFRAME的兩輪映射試驗。第一輪是2012年開始在WorldCat和VIAF上進行的試驗;第二輪是OCLC模型與BIBFRAME2.0之間的映射。OCLC模型的作品和內容表達層映射到BIBFRAME 的作品類,其中OCLC 模型的內容表達層目前只描述不同語言的翻譯作品對象(見圖 9)。

圖9 OCLC模型和BIBFRAME2.0的兼容性[22]
OCLC模型和BIBFRAME2.0的映射是基于FRBR第一組實體層次結構的,但是OCLC研究人員在兼容性研究中發現,即使是FRBR的定義也會隨著使用和應用環境的變化而改變,而這種改變并不總是能被明確記錄下來,最重要的“作品”的定義甚至會因為用例的不同而不同。但作品在模型中的重要性不言而喻,因此,OCLC在報告中指出,合作編目項目(Program for Cooperative Cataloging,PCC)的“作品”工作小組與OCLC 的目標重合,該小組的任務是分析不同圖書館關聯數據模型中的“作品”定義:這些定義有什么相同點或不同點;它們怎么與經典FRBR定義聯系;作品的用例有哪些。2017年10 月該小組發布報告PCC SCS/LDAC Task Group on the Work Entity[29]。
在2017 年(1 月)ALA 冬季會議的報告中,OCLC還強調了協調一致的作品文檔和標識符可能是關聯書目數據模型開發的關鍵,因此OCLC和LC在兼容性合作研究中重點探討如何緊密關聯LC和OCLC關聯書目數據模型的作品文檔和標識符。此外,OCLC與PCC的“URI”工作小組一同探索向MARC記錄添加URI以促進其向關聯數據轉換的最佳實踐,并分析這些做法會對編目或資源描述工作流程造成的影響。這些工作促進了OCLC關聯書目數據模型研究的深化。在展望下一步工作時,OCLC提出將發布一個包括BIBFRAME 和OCLC 作品標識符的數據集;為多語種作品定義作品模型,并且提供使用示范;提高WorldCat作品數據挖掘算法效能。
在2017年6月ALA年會BIBFRAME更新論壇上,OCLC在報告中展示了PCC作品工作小組的工作成果,即FRBR、BIBFRAME和OCLC模型中“作品”的不同含義,見表2。
2018 年ALA年會BIBFRAME更新論壇上,OCLC提出隨著BIBFRAME多種擴展和變體的出現,OCLC需要對支持這種更廣泛更復雜的兼容性進行更深入的思考[30]。
在2019年ALA舉行的冬季會議上,OCLC的報告展示了將WorldCat書目記錄通過LC提供的轉換器轉換為BIBFRAME關聯書目數據的成果,再次強調了URI的重要性;因為缺少URI的節點相當于一個空節點,不能進入關聯數據環境中參與互操作,在試驗中OCLC使用Hash URI代替空節點[31]。2019年ALA年會的BIBFRAME更新論壇上,OCLC介紹了OCLC關聯書目數據模型以及BIBFRAME 關聯數據的轉換工作,OCLC提出使用VIAF、FAST等來源的URI以及WorldCat作品集的ID,減少空白節點以保證互操作性[32]。2019年9月份,OCLC開展了一項永久標識符的調查,了解圖書館界在工作中使用永久標識符的程度以及對永久標識符的需求[33]。OCLC對統一標識符的重視程度不僅源于OCLC與LC關聯書目數據模型的兼容性研究,還反映了OCLC以WorldCat、VIAF等關聯書目數據集為基礎關聯全世界書目數據的愿望。

表2 FRBR、BIBFRAME、OCLC模型中作品概念的區別
在過去一段時間,OCLC模型研究的重點放在多語種作品模型的開發。未來OCLC要開發除了圖書以外更多資源類型的模型,如電影、音頻,以滿足用戶對多媒體資源不斷增長的需求。在多媒體資源模型的研究中,OCLC需要進一步擴展Schema.org 以提高描述多種資源的可行性,必須在更廣泛的使用群體中開展試驗,并聽取專業編目人員的意見來進行完善。而在已經展開的多媒體資源模型的研究中,研究人員發現OCLC當前通過轉換已有MARC記錄來補充關聯數據模型的策略已達到上限,必須對其進行升級。在實際工作中,OCLC將先在Schema.org中以相對較小的擴展集描述童話、表演、芭蕾、電影等創作作品,考慮到公眾對多媒體表演的強烈興趣,可以借鑒流行和權威的資源,如網絡上訪問量最高的電影數據庫,以獲取更多的線索來定義資源模型。OCLC相信,將圖書館資源更緊密地集成到網絡中,將圖書館更緊密地連接到網絡,可以實現圖書館在網絡信息時代的價值。這是關聯書目數據研究的目標,也是圖書館界下一代建模工作的目標。
文獻調查發現,我國圖情領域的關聯書目數據研究存在一種現象,一些研究者只就某一學科或某一體裁的文獻資源建立專門的關聯書目數據模型。開放數據五星技術規范提出:“描述資源時,盡可能使用已有的公共本體,便于資源的發現與關聯。”[34]隨著時間的推移,文獻資源的載體類型逐漸增多,各個學科或主題的文獻資源也會逐漸開放,因此研究者應該擁有更大的格局、更長遠的目光,在開發關聯書目數據模型之前先了解國際上或國內已有的通用本體,盡量基于通用本體進行擴展。
促進大眾對關聯書目數據的發現和利用,意味著必須在數據模型的專業程度上作出讓步。從MARC 到BIBFRAME,書目描述格式由以載體為中心發展到以內容為中心,但BIBFRAME仍然繼承了圖書館自古以來的要將人類所有文獻收藏起來的夙愿,因此它力求盡量詳細地保存文獻資源的所有信息,這決定了BIBFRAME的描述成本高,利用門檻高,其關聯數據的利用范圍也限制在圖書館、檔案館、博物館等文化遺產機構中;而OCLC模型的目的是促進圖書館資源被大眾發現和利用,這意味著它不能設置過高的標記門檻和使用門檻,那么OCLC模型就必須在描述的細致程度和專業程度上作出取舍?;蛟S將來隨著計算機、網絡、存儲等信息技術的進一步發展,真的可以在一個模型中實現兩者兼得。就目前來說,使用兩個互補的關聯書目數據模型分別實現收藏和利用的目的或許更為現實。
目前國內圖書館利用OCLC數據模型開展關聯數據建設的項目并不多,可能是該模型專業性較弱、描述深度不夠或軟件平臺缺乏等原因所致。但在國外,OCLC數據模型已在圖書館中成功應用。芬蘭國家圖書館在關聯數據發布過程中更看重實體與其之間的關系,認為OCLC數據模型更符合其發展需求。為此,該館以BIBFRAME為中介,將MARC數據發布成關聯的Schema.org格式的數據。除此之外,多個國際組織、出版機構等也紛紛采用OCLC數據模型,如ISNI、ISSN、Spring Nature等,主要還是考慮到該模型與網絡資源的兼容性強。隨著OCLC數據模型與BIBFRAME兼容性的增強,相關映射方案的發布,圖書館的使用障礙也會進一步降低。國內圖書館使用OCLC數據模型進行關聯數據發布與消費時,主要需要解決的是模型本地化和詞表復用等問題。確保實體與關系的識別和聚合,以及轉換成RDF模式描述,才能有效支持搜索引擎的發現與檢索。