作為數字人文基礎設施的圖書館：從不可或缺到無可替代

2020-01-09 02:12:47劉煒

圖書館論壇 2020年5期

劉煒

根據CNKI數據，國內迄今發表的近700篇以“數字人文”為主題的論文中，來自圖書情報檔案領域的文章超過60%。對比國外，Web of Science(Core Collection)收錄了1，590篇以“digital humanities”為 topic 的論文，其中Inforamtion Science Library Science 領域的文章約300篇，占比不到20%。這兩組數據顯示了國內外數字人文研究學科來源的巨大差異。這說明什么呢？雖然我們并不認為國外的比例就是數字人文知識版圖的“完美”配方，但我們的比例一定是不合理的。人文學科的數字疆域，第一批居民主要來自圖書情報領域，怎么說都不能讓人服氣。這其中固然有國內圖書情報學者更喜歡追新的原因，其實也是國內人文領域的學者尚未覺醒、尚未充分準備好的結果。就像當初美國舊金山發現了金礦，涌入的首批淘金者并沒有賺到錢，而各類服務業卻異軍突起。圖書館作為歷史文獻的主要保存機構，由于數字圖書館帶來先知先覺，理所當然地成為數字人文最早的基礎設施建設者。

傳統的文獻考據和現代的文獻計量學都為數字人文作為一個整體的跨學科研究領域提供了方法論借鑒，書目控制帶來的規范控制借助于語義技術，天然地為知識的形式化組織(采用本體技術)和知識服務提供了可信的編碼基礎，也為機器學習和人工智能的發展提供了寶貴的標注語料庫。如果說不了解目錄之學就無法窺知傳統學術門徑的話，那么不懂得以文獻計量為代表的統計分析方法就無法真正從事數字人文研究。當然，如今數字人文的方法體系已經得到了極大拓展，統計分析的對象從文獻深入到了語詞文本、社會關系、時空關系乃至經過模型化之后的各類關系。但無論多么復雜，數據永遠是基礎，擁有大量數據的圖書館永遠是人文研究的可靠伙伴。

圖書館要提供基于知識的服務還需要在數字圖書館的基礎上不斷提升水平，包括提升資源加工的語義化水平、提供分析統計及可視化工具。上海圖書館在國內屬于數字人文的先知先覺者之一，借助于20多年前開始的持續不斷的數字化工作，大量的傳統文獻和特色文獻已被搬運到數字世界，一旦數字人文的研究方法和相關技術得以成熟，很自然地占據了有利的跑道。

本專題的4篇文章雖然反映不了上海圖書館在數字人文領域積極開拓的全貌，但包含了一些新的思考。圖書館這類人類記憶機構在數字人文發展過程中，固然由于其資源收藏而不可或缺，但真正使其無可替代的，并不是這些館藏資源，而是服務能力。在當今以“ABCD”(人工智能、區塊鏈、云計算和大數據)為特征的數字時代，“知識作為一種服務”(KaaS)才是圖書館的立身之本。本專題反映了數字人文平臺建設的兩大趨勢：邊服務邊建設的開放眾包思想；從數字圖書館到“數據圖書館”的必要升級。這兩者是在“后數字圖書館時代”向數據驅動型或數據密集型研究轉型時必須首先實現和超越的。

賀晨芝和張磊的《圖書館數字人文眾包項目實踐》[1]重點介紹了數字人文領域的眾包應用現狀，以及上海圖書館自2016年以來的實踐經驗。上海圖書館開發了兩個獨立的眾包應用，即歷史文獻眾包平臺和驗證碼項目，都可以以SaaS方式開放給同行使用。

劉倩倩和夏翠娟的《家譜知識服務平臺眾包模式的設計與實現》[2]針對上海圖書館的家譜特藏，在原來提供基本查詢和關聯功能的數字人文平臺基礎上，開發了上傳家譜、在線識譜、在線修譜等功能，嘗試引入眾包模式不斷優化系統，并與用戶社區積極互動、密切合作，使用戶不僅作為數據的消費者，也作為平臺資源的貢獻者。

朱武信和夏翠娟的《命名實體識別在數字人文中的應用——基于ETL的實現》[3]介紹了借助于專門詞典、批量自動進行名稱實體識別的ETL方法。該方法在上海圖書館的數字人文平臺建設中已普遍采用，取得了良好的效果。其原理是將文本中有意義的名稱(如人物、地點、時間、事件、專有概念)利用程序進行自動析取，經過判斷之后進行數據化轉換(通常是加上URI)，并提供豐富的語義關系。

張喆昱和張磊的《記憶機構的開放數據建設和數字化服務轉型》[4]觸及兩個關鍵性主題：數據化和開放服務，試圖將上海圖書館的實踐一般化和通用化，分析了如何通過數據化讓圖書館的服務更加貼近人文學者的需求，讓系統更加人性化，然后通過開放服務引入外部資源，反過來促進系統的數據化。

上海圖書館希望通過自己的實踐，為人文研究的Cyber基礎設施建設提供一個參考樣本。發表這些做法，并不是說我們的做法有多先進，而只是一種不揣淺陋的拋磚引玉。我們深知，國內的數字人文目前還處于起步階段，爭論大于共識、口水多于實踐，但只要大家積極參與，前景可期。迄今為止形成的有關數字人文的最大共識，就是大家都同意它是一個人人都歡迎從而能各得其所的“大帳篷”。愿這個大帳篷能促進各門人文學科都得到繁榮興旺！