張喆昱,張 磊
圖書館、美術館、博物館、檔案館等作為傳承人類文化遺產的記憶機構(以下簡稱“記憶機構”),致力于收集、保存和管理人文科學資料,為大眾提供知識服務。在互聯網和數字化浪潮下,記憶機構紛紛將實體資料數字化、加工整理,組織成可用程度不一的網絡數據資源,最終開放為社會所用。伴隨“數據驅動”新興研究范式到來,人們對記憶機構數字資源的共享和利用的期望急劇攀升,導致記憶機構傳統的資源分享模式與社會需求之間的鴻溝日趨加大。記憶機構在新形勢下的數字化服務轉型勢在必行。
在社會需求和技術推動雙重作用下,國內外記憶機構開展了積極探索,推出開放數據服務,挖掘人文資料的潛在價值,促進文化創新。記憶機構的社會定位也在悄然改變,從資源持有者轉向創新的使能者。隨之而來的挑戰包括數字化時代記憶機構的定位、記憶機構如何利用人類文化知識寶藏支持數據驅動的創新活動、如何實現記憶機構的數字化服務轉型等。本文在總結國內外記憶機構人文開放數據建設實踐的基礎上,嘗試以開放數據內容深度、開放數據內容廣度、開放數據的利用3個分面對國內外記憶機構的開放數據建設及使用情況進行梳理,為我國記憶機構的數字化服務轉型提出建議。
在信息通信技術支持下,記憶機構可以在傳統的基于物理介質文獻的人類文化遺產保藏和運用方面,借助數字化手段,提升服務能力。通過資源的數字化建設、數據的開放共享,記憶機構不僅可以在更大范圍內更全面地傳播藏品資源、挖掘資源價值、提升服務水平,更能在文化創新活動中起到積極作用。近年國內外記憶機構紛紛將推進開放數據建設作為發展方向,采用關聯數據技術促進記憶機構中結構化與語義化數據的建設和再利用[1]。雖然圖書館、博物館、美術館和檔案館記憶人類文明的宗旨相同,但鑒于服務目的的差異和組織機構的分離,本文將按形態歸類,總結國內外記憶機構的開放數據建設實踐。
傳統圖書館肩負著搜集、整理、收藏文獻資料,開發信息資源,進而為民眾服務的職能。其特點在于藏品是經過文獻作者的凝練、圖書管理人員加工整理后的權威信息。新形勢下,各國圖書館不同程度地開展了開放數據探索。
歐洲圖書館的開放數據探索非常活躍。德國數字圖書館(Deutsche Digitale Bibliothek,DDB)2013年向公眾發布API(應用編程接口)[2],提供基于關聯技術的德國文化和科技數字資源的開放數據服務,促進了數據創新[3]。從2014年起,德國數字圖書館聯合其他機構,每年共同舉辦“達芬奇編碼”競賽活動,以開放數據形式為大眾提供元數據、圖像、音頻、視頻、3D模型,不僅揭示了這些文化機構數據的潛在價值,且進一步促進了開發者、游戲玩家、設計師與各文化機構之間的交流,競賽結束后不少獲獎項目跟專業機構開展了進一步的合作[4]。英國大英圖書館建設了多個開放數據平臺[5],其中2016 年推出的data.bl.uk公開了74個數據集[6],除提供JPEG、PDF等部分數字化館藏外,還提供結構化的機讀格式信息,甚至以關聯數據方式組織和發布所有書目數據BNB(British National Bibliography)[7],以研討會、數據利用大賽等方式推廣開放數據,開設British Library Lab,鼓勵公眾參與研究[8]。
在北美地區,美國國會圖書館(Library of Congress,LC)2009 年起致力于將主題詞表(LCSH)、名稱規范檔(LCA)、圖書分類法(LCC)等規范性文件以關聯數據方式開放,提供API 訪問和批量下載,幫助開展自動化的關聯和推理[9]。美國數字公共圖書館(Digital Public Library of America,DPLA)提供所有DPLA 記錄的批量下載,這些數據可以通過API 用于關聯應用開發[10]。加拿大多倫多公共圖書館發布了開放數據政策及使用條款,公布了涉及書目、網站搜索、持證讀者、流通等方面的30多個開放數據集[11]。
在亞太地區,作為新西蘭開放獲取許可框架和開放政府信息、數據再利用計劃的一員,新西蘭國家圖書館制訂《開放數據計劃》[12],開放出版物、論文、報刊索引等的元數據以供下載,DigitalNZ API整合150多個組織的元數據用于應用集成,鼓勵對這些數據進行深度分析或開發[13]。韓國國家圖書館發布國家書目的關聯開放數據(LOD)網站,涵蓋書目、主題、作者等方面的信息,為關聯和融合其館藏及網絡數據帶開了方便之門[14]。
在我國,上海圖書館從館藏特色資源——家譜開始,建設了集人、地、時、事、物、文獻為一體的人文數據基礎設施[15],以關聯數據形式提供數據服務。在此基礎上,連續4年舉辦開放數據應用開發競賽,數據種類和開放數量也從首屆5萬種家譜元數據發展到第二屆新增開放24萬種名人手稿檔案元數據[16],2019年更與國內外6家單位聯合推出涉及家譜、名人、建筑、紅色文獻、電影、詩詞、民國書刊、藏印等多類型歷史人文內容的數據數千萬條,開放數據競賽為數據合作單位、歷史人文愛好者和數據創客提供了良好的學習交流平臺,各方共同挖掘歷史人文數據背后的應用潛力,豐富了數據資源利用手段,在國內記憶機構開放數據應用中起到了引領作用。
博物館美術館收藏具有代表性的人類文化遺產,供來訪者觀賞和研究。其特點是歷史性強,藏品稀有度高。為讓世界各地的使用者體驗特定的歷史文化特色,對特定類別的文物展開全方位研究,國內外博物館美術館在藏品元數據、藏品的數字化對象等多個層次開展了開放關聯數據探索,其中以美國洛杉磯Getty博物館、大英博物館最全面。
美國洛杉磯Getty博物館免費提供自有版權藏品及10萬余張無版權對象的高清數字圖像下載,這些豐富的數字化資源反映了Getty研究院和Getty博物館的數千件藏品,內容范圍還在不斷擴大[17]。Getty敘詞表關聯數據包含藝術、建筑、裝飾藝術、檔案、書目材料等領域的結構化術語,為編目員和數據加工者提供了權威規范,為數字藝術史研究和發現提供了強大的渠道,促進了博物館數據與網絡資源的結合[18]。
大英博物館開放了藏品的數字化檔案、高清圖像供下載。作為關聯數據建設的先驅,2011年大英博物館就基于館藏目錄創建了關聯數據項目ResarchSpace[19]。
在藏品數字化服務方面,洛杉磯郡立美術館開放了2萬份高清圖像資料,只要注明出處便可無限制使用[20]。2017年起,美國大都會博物館將無版權藏品的高清圖像開放給公眾免費使用[21]。荷蘭國立博物館[21-22]和芬蘭國家美術館[23]更勝一籌,不僅提供藏品的高清數字化圖像供大眾下載,還提供有關藝術品及藝術家數據的API,鼓勵人們進行資源整合、應用程序創新和藝術品的衍生創作。
亞洲具有代表性的關聯開放數據應用當屬日本關聯開放數據學術博物館。該館以關聯數據技術整合全國博物館、館藏文物、作者、設施等元數據記錄,供大眾進行SPARQL查詢,有利于與事件數據、GIS數據、日本DBpedia、物種數據等數據資源的整合[24]。
檔案館記錄了特定歷史人物或事件的事實性信息,往往具有原始記錄性。在檔案領域推進開放數據活動有利于公眾了解或核實某些事實。開放數據應用較全面的有英美兩國的國家檔案館。英國國家檔案館整合2,500 多家檔案機構的3,200 萬份記錄,公開了API Discovery,向社會提供數字化服務,形成全面的歷史人文記錄數字化資源[25-26]。美國國家檔案館提供以聯邦法規編碼規范檔和總統公共文件為代表的大批數據集、以國家檔案目錄API為代表的訪問接口,以及眾包工具Transcribr[27],促進了大眾對檔案數據的創新應用。新西蘭檔案館2005年起成為政府開放數據運動的重要伙伴,開放了包括公共服務、歷史文化在內的4個數據集,提供API訪問或直接下載,供大眾二次開發利用[28]。德國聯邦檔案館在維基百科網站投放了幾千份德國歷史照片[20]。
在資源協作方面,英國博物館、圖書館和檔案館理事會(Museums,Libraries and Archives Council,MLA)和加拿大國家圖書檔案館(Library and Archives Canada,LAC)[29]等做出了表率。澳大利亞昆士蘭州立圖書館將近3萬名士兵一戰前拍攝的照片數字化,作為開放數據集發布在政府網站,同時與澳大利亞檔案館合作,通過國家檔案館API,將這些士兵肖像與國家檔案館的個人檔案進行匹配[12]。另一個著名的記憶機構開放數據建設協作是始于2008 年的Europeana,它整合歐盟數十個國家不同類型記憶機構的書籍、繪畫、音樂、檔案、電影等數據資料,向全球提供免費的數字資源獲取平臺,在跨機構、跨領域文化資源融合中取得了良好效果;2012年建設關聯開放數據,提供批量下載、API、SPARQL 查詢等服務,Europeana Lab網站為促進文化遺產創新和創造提供了良好的平臺[30-32]。
整體而言,記憶機構的開放數據建設具有3個特點:(1)國外記憶機構的開放數據建設和數字化服務實踐較豐富,尤以世界級頂尖圖書館和博物館的探索更突出,數字化內容開放程度高,開放比例也大[20]。(2)開放數據項目集中在歐美,亞洲地區日韓的開放數據建設較先進[18]。(3)我國記憶機構的開放數據整體水平不高,從事開放數據探索的機構不多,開放數據數量少,級別較低。比如,國內博物館藏品的數字化資源呈封閉狀態[20]。盡管國內早有基于關聯數據實現記憶機構數字資源整合的研究,但鮮有不同類別的記憶機構聯合開展開放數據建設和聯合提供數字化服務的成果[28]。
國內外記憶機構的開放數據建設特征,可從開放數據內容深度、內容廣度及利用形式3個分面進行梳理,見表1。

表1 國內外開放數據建設特點
開放數據的深度按照Tim Berners Lee 提出的開放數據五星評價體系[33]劃分。第一級對應五星評價體系的四五星,其特征在于以RDF數據模型存儲數據,利用URI命名數據實體,使數據之間互相關聯。第二級對應五星評價體系的二三星,以結構化數據或非專有格式提供開放。第三級對應五星評價體系的一星,數據可在互聯網上訪問。這樣分級的意義在于,具備第一級特征的開放數據可以支持自動化的關聯和推理,更適合專題研究者和跨領域研究者開展深入或跨界的高水平研究;第二級開放數據滿足人們對精準獲取數據和訪問廣泛數據資源的需求,更利于大眾創新應用;第三級標準降低了開放數據的利用門檻,更加激發公眾對人文藝術的創意。
從開放數據的廣度來說,完整藏品、多種類別數據的完全開放最為理想。可是,一些常見的約束條件,如知識產權、法律法規、社會影響等使得開放數據的廣度呈現多樣化特征。此外,數字化制作、加工和維護成本也是一個不容忽視的要素。
開放數據的利用程度是一個常被忽視但對記憶機構職能轉型意義深遠的一個維度。與記憶機構傳統職能定位相吻合,以關聯數據形式開放的規范檔會幫助記憶機構更好地揭示藏品內容,編織數字化資源的知識網絡。但開放數據的爆炸式增長和記憶機構專業人手不足的矛盾也會激發一些新的數據建設和數字化服務形態的出現。例如,利用眾包方式開展數字化藏品的信息補全可以成功地將記憶機構的數字化服務對象(開放數據的消費者)轉變為開放數據的建設者。這將引發記憶機構原有組織關系的調整。此外,帶有地域特征、表現風格和文化底蘊的文創設計也將促使記憶機構人類文化保藏者的社會定位發生改變。
依據上述分面的多類特征審視國內外開放數據實踐,可勾勒出我國記憶機構的數字化服務轉型模式。
(1)根據各機構的能力、預期受眾和愿景探索獨特的數字化服務模式。記憶機構定位的不同,藏品內容、級別和豐度的差異意味著我們不能限定于唯一一種記憶機構的數字化服務模式,而應根據各機構的能力、預期受眾和愿景探索獨特的數字化服務模式。即便是跨機構、跨領域的開放數據協作,也應根據預期受眾形成有針對性的數字化服務模式。
以上海圖書館(以下簡稱“上圖”)為例,該館一直致力于推動歷史人文數據的開放利用,倡導多源數據融合。一年一度的上圖開放數據應用開發競賽為各數據合作單位、歷史人文愛好者和數據創客提供了良好的學習交流平臺,通過競賽宣傳推廣了上圖和各家數據合作機構的開放數據資源,以豐富的數據內容、種類和數量催生高附加值的數據應用和服務。在上圖歷年開放數據競賽中,達到第一級開放內容深度,廣泛關聯多種數據源,富有創意的數據利用作品盡管占有一定比例,但在與參賽者的溝通過程中,對各類文獻資料原文掃描圖像的需求占比更大。可見,低端的開放深度(第三級)和極大的開放廣度或許是這一類受眾獲得數字化服務的最佳形態。上圖推出的中文古籍聯合目錄及循證平臺,以古籍目錄和古籍文獻中蘊含的數據、事實和知識,以及基于它們的統計、分析和推理來協助各類人文、歷史、社會科學研究;而歷史文獻眾包平臺為用戶提供元數據深度著錄和全文標引的功能,對無法OCR的全文進行抄錄,是低端數據深度開放的良好應用。
數字化服務的目標定位也將影響開放數據建設和服務的形態。例如,如果要重現老街道、老建筑的文化風采,就需要關聯眾多機構/數據源中歷史上的建筑、人物、事件等信息,這就需要開放數據達到第一級深度。從另一個角度來說,如果只滿足查閱原版文獻等需求,則建立可查詢(第二級深度)和網上瀏覽(第三級深度)的數據庫不見得不是一種恰切的數字化服務模式。
開放數據的開放深度和廣度以及數字化服務能力不得不受到其他因素的制約,如資源持有人開放意愿,資源內容涉及人物后代(如家譜)。所以,采用因地制宜的數字化服務模式是有效的方法。
(2)加強跨組織的協作和資源、成果共享。跨組織跨領域的協作能更全面地揭示隱藏在不同數據源間的知識聯系,協作成果也將使資源得到更充分的利用。不同類別記憶機構的協作、國內各地區機構的協作、大范圍的國際協作都有必要[34-35]。比如,歷史街道及歷史建筑重現可以由圖書館提供數字化服務來完成,但為了深度發掘其人文價值(建筑風格、設計圖檔)或出于歷史建筑保護的目的,則需要跨部門(檔案館、博物館)協作。目前國內跨圖博檔機構的協作較少。上圖古籍聯合目錄將多館館藏目錄進行融合,包括柏克萊加州大學東亞圖書館、哈佛大學哈佛燕京圖書館以及澳門大學圖書館等,提供古籍書目數據查詢和全文影像瀏覽。相比單一部門的開放數據建設,多方協作能產出更全面、更深入的技術成果。充分的資源利用和數據共享能破除片面采集、數據私有、重復勞動等現象,節約開放數據建設和數字化服務的成本。
(3)人類記憶機構的職能定位應從記錄文化演變的資源庫轉為數據驅動創新的使能者。在生產能力逐步提高、產品日益豐富的社會,借助記憶機構的開放數據和數字化服務,通過活用歷史人文開放數據,更能在物質產品和精神產品開發的競爭中掌握優勢。支撐帶有地域特征、表現風格和文化底蘊的文創設計能促使人類記憶機構的職能從記錄文化演變的資源庫轉變為數據驅動創新的使能者,這種職能轉型將從傳統職能的根上開出數據驅動的萬眾創新之花。
(4)制訂適應于數字化服務快速變化的法規框架。開放數據建設和數字化服務必須在法規框架中實施,也將伴隨這一框架的演變而發展。有別于傳統物理世界的產品和服務,數字化產品和服務天生迎合了世界快速變化的特質。再加上人們的數字化服務需求瞬息萬變,加大記憶機構數字化服務實踐的快速發展與相對滯后的法規框架之間的沖突。數據的安全與保密、個人隱私與知識產權的保護、內容的合規性和平臺的法律責任等一系列問題是最大限度發揮數字人文開放數據和記憶機構數字化服務效用所面臨的挑戰,迫切需要研究和立法跟進。
本文從開放數據的內容深度、廣度、利用形式等維度梳理國內外記憶機構的開放數據建設實踐經驗,認為我國人類記憶機構的數字化服務轉型應根據各機構的能力、預期受眾和愿景探索差異化的數字化服務模式;加強跨記憶機構的跨組織協作和成果共享;記憶機構的職能定位應從記錄文化演變的資源庫轉型為數據驅動創新的使能者;應及時制訂適應數字化服務快速變化的法律法規框架。上圖陸續進行一系列探索,今后將結合上圖數字化服務轉型實踐,對上述建議逐步檢驗并加以落實。