賀晨芝,張 磊
隨著新技術的滲透,圖書館除提供紙質文獻保存與服務外,還嘗試將信息技術融入傳統服務,提供全面、精準、智能的知識服務。數字人文作為一門將關聯數據、文本分析、機器學習、UGC(用戶生成內容)、數據可視化等新興技術應用于傳統人文研究的計算與人文交叉學科,契合圖書館發展方向,是圖書館發展趨勢之一[1]。在數字人文研究中,圖書館因擁有豐富的館藏資源和元數據,以及其知識收集、存儲、服務的職能,主要承擔資源的管理和組織角色,為人文研究提供大規模高質量的數據[2]。
“眾包”(crowd sourcing)概念由美國《連線》雜志記者杰夫·豪(Jeff Howe)于2006年提出[3],核心思想是利用用戶的知識盈余來共創價值。隨著Web2.0技術的發展,基于用戶貢獻的眾包理念被應用于各領域,數字人文領域也在不斷嘗試各類眾包應用模式。Terras Melissa 指出,眾包模式在數字人文中的應用,在利用民眾知識盈余來建立可應用于數字人文研究的數據集的同時,將大眾融入人文研究領域,為人文學科與公眾建立了更緊密的關聯[4]31。趙宇翔提出,眾包模式在數字人文中的應用不僅能夠促進數字人文研究的深化和突破,也能提高民眾的人文素養[5]。圖書館數字人文眾包項目是請大眾為機構工作,更是為用戶提供深入參與公眾記憶建設的機會[6]。用戶和數字人文研究機構的雙贏局面使眾包成為數字人文研究發展的趨勢。
上海圖書館(以下簡稱“上圖”)自2016年開始嘗試在數字人文項目中融入眾包模式,試圖利用共創價值理念,吸納用戶盈余知識,以較低成本收集資源,實現資源文本化,從而為用戶提供更豐富精準的知識服務,加強人文知識大眾化和普及化。通過分析已有數字人文眾包項目,結合本館實際需求,上圖有選擇性地開發建設數字人文眾包項目,先后推出歷史文獻眾包平臺、驗證碼項目,并在家譜、上海年華之從武康路出發、文化名人手稿等數字人文項目中加入在線識譜、上傳家譜、上傳照片、標識留言等功能,不斷嘗試將眾包模式應用于數字人文項目,取得了初步成效。本文以上圖數字人文眾包項目為例,從建設需求、用戶對象、眾包形態3個方面入手,結合應用現狀分析,為圖書館數字人文眾包項目建設提供參考。
澳大利亞國家圖書館2008年推出澳大利亞報紙數字化項目,項目開發的Trove網站為民眾提供了對澳大利亞報紙OCR 文本化結果進行校對的平臺,是最早的具有廣泛影響力的數字人文眾包實踐項目[7]。隨后,一些圖書館和大學紛紛推出各類數字人文眾包項目,包括:卡耐基梅隆大學的“reCAPTCHA”系統以OCR軟件無法識別的文字掃描圖代替原來的驗證碼圖片,借助用戶登錄進行文字識別,為紐約時報、Google 圖書等完成文字識別工作[8];芬蘭國家圖書館digitalkoot項目中的Mole Hunt游戲吸引用戶在玩游戲的同時,對影像圖片文本化結果進行核對,已完成超過650萬次校驗工作[9];愛爾蘭美奴斯大學“Letters 1916-1923”項目向用戶征集信件,并為用戶提供信件內容的抄錄平臺,2018年該項目將由大眾捐獻、抄錄的3,000余封信件建設成知識庫供用戶查詢[10];美國國會圖書館“By the People”平臺邀請大眾標引、抄錄、審核圖書館館藏資源[11];中華書局的數字化整理平臺為在線用戶提供共同參與古籍審校的工作機會[12];倫敦大學學院發起的邊沁手稿抄錄項目將已有邊沁手稿發布于平臺,通過收集用戶抄錄的手稿全文數據,建設可全文搜索的邊沁文集知識庫[13]。
學者對諸多數字人文眾包項目進行綜合分析,提出相關分類方法。分類角度主要有建設需求、用戶對象、眾包形態3個方向。這3個方向恰好是建設數字人文眾包項目需要重點思考的內容。
數字人文眾包項目建設綜合考慮了數字人文研究的需求及眾包模式的特色。劉煒等指出,數字人文研究的內容是基于數據的、細粒度的、可分析的文本資源,是數字人文項目建設的基礎之一[14]。數字人文眾包項目以聚集大眾智慧為數字人文研究提供可分析資源為目標。Oomen等借鑒新西蘭國家圖書館有關電子產物生命周期“描述、管理、揭示、利用/再利用、創造”的概念,將數字人文眾包項目從內容上分為:文本糾錯/抄錄與分類(對資源進行文本化、分類等描述工作);內容補充(對已有資源進行注解、知識補充);共策(非專業大眾與專家共同策劃展示內容);資源征集(向公眾收集主題資源);眾籌(籌集資金購買資源或加工資源)[15]。Carletti等將該分類進一步歸納為已有資源擴充深化(如抄錄、標引、分類、校對)和新資源收集,分別針對有明確主題的數字人文項目及籌建中的數字人文項目[16]。
在用戶方面,邊沁手稿抄錄項目負責人Terras Melissa指出,與一般商業化眾包模式不同,人文領域的眾包項目并非面向任意大眾群體,而是針對具有一定人文領域知識、極具熱情并愿意貢獻知識的群體[4]7。Claude等將眾包按用戶動機分為3類:自愿、有償、無參與者[17]。自愿類項目吸引用戶自愿開展眾包工作,是數字人文眾包項目中最常見的類型。有償類項目是指用戶在完成眾包任務后會獲得一定報酬,如亞馬遜的土耳其機器人。無參與者類項目是令用戶在無意識中開展眾包工作,如驗證碼項目(reCAPTCHA)。同樣從用戶維度來分類,Bonney等的分析側重點為用戶與項目組織方的關系,將數字人文眾包項目分為貢獻、協作、共創3類[18]。Simon在這一分類的基礎上再添加“自主創建”類,特指由機構提供數據資源、用戶利用資源自主開發的數字人文項目[19]。
眾包在數字人文項目中的應用旨在為用戶提供一個可以貢獻盈余知識的平臺和入口,多以網站平臺形式出現,包括自建平臺、使用第三方平臺、以功能形式融入網站,以及游戲等。Andro等將數字人文眾包項目從形態上分為3類:顯性式、游戲式、隱性式[20]。顯性式眾包泛指傳統的任務發布及領取模式。游戲式眾包是指將眾包任務融入游戲,令用戶在娛樂中開展文本化糾錯等眾包工作。隱性式眾包特指驗證碼項目(reCAPTCHA),取其沒有明顯的形態、巧妙融入眾包任務之意。
通過對照自身的需求以及上述各維度眾包分類,上圖分析建設需求、定位用戶群體、選擇眾包形態,創建了符合上圖特色的數字人文眾包項目。部分項目已投入使用,取得了初步成效。
上圖2014年開始探索數字人文項目,依托各類特色館藏資源(如家譜、盛宣懷檔案、上海年華、手稿)建設了一系列特色主題文獻知識庫及服務平臺,取得了較好的成效,也遇到了可分析資源不足瓶頸。上圖數字人文項目主要是基于各類特色館藏資源的元數據分析、關聯與展示,而對于蘊藏最多知識信息的資源文本內容,由于資源數量龐大且具有專業性,文本化的時間成本與資金成本對圖書館都具有很大壓力,從而造成文本資源不足,無法進行深入挖掘與分析。此外,圖書館對民眾愿意分享的民間資源,由于沒有便捷的收集入口,無法進行有效征集,錯失了豐富館藏的機會?;谝陨蠁栴},眾包在數字人文項目中的應用需求可以分為兩大類:影像圖片文本化、資源征集。
上圖擁有大量特色館藏資源,大部分已完成了數字化、影像化工作。目前市場上主流的圖片文本化技術OCR(光學字符識別)對印刷品中的中文識別效率非常高,但手稿、古籍、家譜等由于書寫筆跡凌亂、風格迥異、形式復雜,OCR識別正確率低下,文本化成本極高。因此,影像圖片文本化是上圖數字人文眾包的最大需求。面對這一問題,上圖根據不同的抄錄需求,分別建設了提供元數據深度標引和全文著錄的“歷史文獻眾包平臺”,將難度較低的抄錄內容切割成單字作為驗證碼的“驗證碼項目”,以及專門針對家譜世系圖形式的家譜抄錄“在線識譜”功能。
眾包在數字人文項目資源拓展上的助力主要表現為:向公眾收集各類資源,從數量和形式上豐富館藏。該類需求主要出現在已確定的數字人文項目中,針對某一特定主題,向公眾征集資源,對征集到的資源進行再加工、展示,從而更好地服務大眾。針對該類需求,上圖在“家譜知識服務平臺”增加“上傳家譜、在線修譜”功能,向公眾征集家譜資源;在“上海年華之從武康路出發”(簡稱“武康路項目”)中開發分享空間,提供上傳照片入口,收集武康路老照片、用戶自拍照片;在“名人手稿檔案庫”(又稱“文化名人手稿項目”)中設計“標注、留言”功能,獲取用戶對手稿的見解,收集手稿背后的故事。
上圖作為非盈利機構,無法開展有償的眾包項目,主要依靠用戶自愿或無意識地參與眾包,因此眾包需求明確,項目多為完全由機構指定的“用戶貢獻”類型。此外,為了解、吸納大眾對數字人文的想法與創意,上圖連續多年推出開放數據開發競賽,為參賽團隊提供海量數據,由參賽者自主開發數字人文項目,屬于賦予用戶最大自由度的“自主創建”眾包類型。
不同主題的數字人文眾包項目,其眾包需求和用戶群體各有不同。歷史文獻眾包平臺作為一個文本抄錄及元數據深度標引平臺,目前推出的任務主要針對上圖特藏檔案資源,需要用戶在繁體字識別、手寫字跡辨認、人文歷史背景上具有一定的知識儲備;在冷啟動階段,上圖與高校合作舉辦文獻招錄競賽,邀請歷史、中文、藝術等專業的大學生參與平臺的試用。家譜作為上圖最早推出的數字人文項目,已聚集比較穩定的用戶群體,這一成熟的用戶群體也是在線識譜、家譜上傳、在線修譜等眾包任務的主要目標群體。武康路項目旨在通過用戶收集更多建筑及馬路照片,因此將主要用戶群定位為武康路游客,該項目與“老洋房閱讀之旅——行走武康”活動合作,供游客使用。文化名人手稿項目中的標注及留言功能,主要面向具有專業知識或歷史淵源的用戶,希望用戶能夠提供手稿背后的故事以及關于手稿的獨到見解,依賴他們的知識積累,豐富上圖已有資源。驗證碼(項目)嵌入上圖主頁和上圖數字人文項目登錄界面,面向上圖所有線上用戶。開放數據開發競賽具有一定的開發技能要求,目標用戶主要為具有開發能力、對上圖特藏數字資源感興趣、有獨到見解的群體。
在數字人文眾包項目群體定位時發現數字人文具有較強的領域性。不同主題的眾包項目,其目標群體需要具有相應的人文領域知識,對用戶的人文素養要求較高,在推廣使用上面臨的難度要高于一般眾包項目。為此,需進行定點推廣,并配以具有吸引力的激勵機制。
參照顯性式、游戲式、隱性式等眾包形態特征,上圖選擇了顯性式與隱性式這兩種較易實現的眾包形式。游戲式眾包需要進行專業的游戲化設計,開發成本高,且市場上的游戲式眾包多用在文本識別糾錯及資源分類上,上圖尚無這方面需求。對于顯性式眾包,上圖分別開發了綜合性開放眾包平臺以及嵌入已有數字人文項目的眾包功能來滿足不同的需求;對于隱性式眾包,上圖借鑒reCAPTCHA項目,開發了驗證碼項目。
2.3.1 綜合性開放眾包平臺
文本資料是數字人文研究的必要素材,影像圖片文本化是通用于所有數字人文項目的基本需求。面對包括古籍書本、創作手稿、信函電報等在內的種類繁多的文獻文本化需求,上圖建設了綜合性開放眾包平臺——“歷史文獻眾包平臺”(見圖1),在支持用戶對文獻影像圖片進行全文抄錄的同時,還允許其對文獻中的人、地、時、事等的內容特征進行深度標引。館藏文獻在收集、數字化的過程中由館員進行元數據著錄,豐富的元數據信息可以幫助用戶更好地理解文獻。由于不同類型文獻的元數據字段組成不同,平臺特別建立了靈活的元素集管理機制,允許發包方在導入待抄錄文獻圖片的同時,導入相匹配的元數據信息并顯示在抄錄界面上,方便用戶抄錄。

圖1 上海圖書館歷史文獻眾包平臺主頁
開放性是該平臺的一大特色。文本化資源的匱乏不僅是上圖面臨的問題,更是業界普遍存在的現象。對此,上圖選擇建設一個能夠支持不同機構及個人發包的開放性平臺,將發包過程功能化、流程化,向可信賴的機構、個人開放;再結合可發布不同元數據結構類型文獻的特色,為暫無獨立開發眾包抄錄平臺計劃但想進行眾包嘗試的個人或機構提供便捷的任務發布渠道,也不失為一種避免重復建設平臺而造成資源浪費的方式。
2.3.2 嵌入式眾包功能
對已有數字人文項目,考慮到其眾包需求主要針對某一主題,且網站已聚攏了相當數量的用戶群體,上圖以在已有平臺基礎上增加新功能的方式進行任務眾包。(1)家譜二期項目中的在線識譜,是專門針對家譜這一特殊形態文獻的抄錄平臺。家譜中的世系圖形式多變,蘊含了大量的關系信息,普通的抄錄平臺無法滿足這一需求。因此,上圖特意設計能夠揭示家譜知識的在線識譜功能,并能可視化展示識譜結果。(2)武康路項目需要大量關于建筑及馬路的照片,通過在項目中加入“分享空間”的方式,讓用戶在分享觀賞感受的同時豐富上圖的館藏資源。(3)文化名人手稿項目的眾包重點是收集用戶對手稿的標注。手稿的珍貴之處除了其蘊藏的內容外,其展示形式也值得研究。該項目融入標注功能,并為用戶提供圈劃功能(見圖2),令用戶能夠準確表達對手稿每一處的見解,這是簡單的文字描述所不能替代的。

圖2 文化名人手稿項目用戶圈畫、標注、展現界面
2.3.3 隱形式眾包工具
驗證碼項目借鑒了卡耐基梅隆大學reCAPTCHA項目的理念,在驗證碼中融入待識別文字,將繁復的文獻抄錄眾包任務分劃為單字識別微任務,讓用戶在登錄過程中輸入圖片內的文字,無意識地完成文本化抄錄。這種去任務化、碎片化的眾包形態能最大化地利用大眾智慧,令網絡用戶在日常操作中“主動”貢獻認知盈余。對發包方而言,需把待識別的文字圖片導入驗證碼項目操作平臺,配置驗證碼形式,然后通過調用接口將驗證碼嵌入網站(見圖3)。

圖3 上海圖書館門戶網站登陸界面
在上圖多個數字人文眾包項目中,歷史文獻眾包平臺、驗證碼項目、武康路微站已投入使用,并進行了適當推廣;家譜、手稿等項目僅在平臺中添加眾包功能,尚未正式推廣使用。下文從質量保障機制、用戶激勵機制、平臺/系統使用情況等方面探討上圖眾包項目的管理、使用和成效。
數字人文眾包項目旨在為數字人文研究提供可分析的數據,因此眾包所得數據需在質量上得到保障。上圖眾包項目中的抄錄任務(如歷史文獻眾包平臺、家譜在線識譜功能)采用專家審核制度進行質量管控。其中,歷史文獻眾包平臺還支持多人抄錄,即同一份任務由多人分頭開展,通過綜合多份抄錄結果,進一步保證抄錄質量。驗證碼項目則是每次在驗證碼中放入多個字,其中包含至少1個已知值的字用于判斷抄錄結果正確與否,當待抄錄字被抄錄為同一值的次數超過設置的閾值時,判定該值為正確答案。通過后期人工抽驗,驗證碼項目準確率介于80%~90%;準確率可通過調高閾值來提升,但相應地會降低抄錄效率。對資源擴充類眾包任務,以手稿為例,由于尚未找到合適的判斷內容準確性的審核機制,僅將標注內容以彈幕形式展示在手稿中以豐富手稿內容,暫不納入可研究的范圍。現有質量保障機制對人力投入要求較高,未來或可考慮引入自動對比、機器學習等元素以提高審核效率;亦可借鑒國外項目經驗,增加糾錯類眾包任務,以游戲化形態展示,讓用戶來審核抄錄結果。
驗證碼項目作為用戶無意識參與的眾包形式,無需激勵措施。與現有數字人文項目相結合的眾包功能由于項目前期已具有一定的用戶積累,且原有系統沒有用戶激勵需求,因此尚未匹配相應的激勵機制。唯有歷史文獻眾包平臺,作為一個從零開始的眾包項目,發布內容難度高,在開發過程中設計了積分排行榜進行用戶激勵;該項目冷啟動階段開展的抄錄競賽設有獎金及證書,以激勵大家參賽。當用戶積分達到一定額度后,管理員會視其專業水準賦予專家頭銜及相應的任務審核權限,以茲鼓勵。
上圖與南京大學聯合舉辦“文化遺產數字化”競賽,對上圖發布的“盛宣懷檔案”主題資源進行抄錄比拼,作為歷史文獻眾包平臺的冷啟動。共有來自南京大學、復旦大學等多間高校的60余人參賽,歷時3個月,完成抄錄任務200余件。競賽結束后,由于沒有后繼推廣活動,平臺用戶活躍度明顯下降,每月抄錄任務僅5~10份。目前平臺用戶171人,共計完成任務346項。
驗證碼項目應用于上圖主頁(https://library.sh.cn/#/index)和各數字人文平臺的登錄界面。以上圖首頁登錄界面為例,2018年11月-2019年7月,用戶登錄達50余萬次,輸入字數152,315個(用戶多次刷新驗證碼均失敗后,會轉入常規驗證碼登錄方式),其中正確驗證了109,228 字,約為網站用戶登錄量20%。在使用中,部分用戶反饋驗證碼難度不合理;目前設定3次刷新后出現常規驗證碼,刷新率為40.92%。
“上海年華之從武康路出發”與上海“老洋房閱讀之旅——行走武康”活動項目合作,作為武康路的導覽平臺,活動期間(2018年6-11月)網站瀏覽量達1萬余次。但由于平臺缺乏指向性引導,鮮有用戶使用“分享空間”上傳照片。
上圖形式多樣的眾包項目為數字人文研究提供了更多的可分析數據,歷史文獻眾包平臺豐富了上圖館藏資源中的文本化數據,驗證碼項目已對家譜、古籍、信函等多種類型的資源完成抄錄。在建設與使用過程中,遇到缺乏活躍用戶、質量保障成本過高等問題。結合上圖數字人文眾包項目建設經驗,對眾包在數字人文領域中的應用提出4個建議:
(1)加強機構間的合作力度,擴大眾包平臺用戶群體。通過與南京大學的合作,上圖歷史文獻眾包平臺成功啟動,并完成了一定數量的抄錄任務。該平臺具有開放性,可以供其他有需求的高校或機構發布任務、開展活動。而此類機構本身就具有一定的用戶群,與其建立穩定的合作關系,能為上圖眾包平臺帶來大量活躍的用戶。
(2)定向推廣眾包項目,提高用戶活躍度、粘合度。由于數字人文眾包內容具有特殊性,參與群體需要具備相關人文領域的知識,而不同主題的眾包項目面向的群體也有所不同。因此,項目應在特定的用戶群體中進行推廣,如在已有數字人文項目中加入眾包功能或實現跳轉引導,以形成或加入相關人文主題社區,獲取更多活躍、有粘合度的使用者。
(3)細化眾包任務顆粒度,增強任務可完成性。同為抄錄類眾包項目,驗證碼項目將任務碎片化,讓每一個登陸用戶無意識地參與抄錄工作,抄錄量遠遠高于其他眾包平臺或項目。而在眾包領域,現有的所有游戲式眾包項目皆為細粒度的眾包任務。由此可見,細粒度、簡易化的任務呈現形態更豐富、有趣,更容易為大眾所接受。
(4)引入自動審核功能,優化質量保障機制。為了在保障質量的前提下降低審核成本,建議引入自動化審核功能。比如,歷史文獻眾包平臺支持多人抄錄同一份任務,未來可考慮引入機器自動對比合并功能,減輕專家工作量,提高審核效率;對驗證碼項目而言,可考慮將前期成果數據作為機器學習訓練集,用以提高OCR(文字識別)準確率;未來可在審核前先進行自動識別,將識別結果作為參考答案供專家審核時作對比。
眾包是圖書館開展數字人文研究的必經之路。上圖結合國內外已有項目的經驗,根據自身研究需求,針對不同用戶群體,嘗試開發上海圖書館歷史文獻眾包平臺、驗證碼項目、家譜在線識譜、名人手稿標注留言等不同形態、不同內容的數字人文眾包應用及功能。經過觀察和分析各項目的測試和使用情況,發現若要作為成熟應用向大眾推廣,將面臨使用群體小眾及質量保障成本高昂兩大阻礙。本文結合所有項目的使用現狀,借鑒國內外數字人文眾包的應用經驗,提出4 點建議,作為上圖數字人文眾包項目的改進方向:加強機構間的合作力度,擴大眾包平臺用戶群體;定向推廣眾包項目,提高用戶活躍度、粘合度;細化眾包任務顆粒度,增強任務可完成性;引入自動審核功能,優化質量保障機制。