徐璐瑤 陳建
(山東大學歷史文化學院 濟南 250100)
在數字時代,“數字人文”是信息技術和人文學科之間的一個跨學科領域,作為一門新興學科,可以追溯到20世紀中期出現的人文學科計算[1]。而檔案眾包指的是教育或文化遺產機構(主要是檔案機構)依托館藏豐富檔案資源,借助互聯網平臺,將原本屬于自身開展的部分數字檔案資源開發利用工作通過任務細分給大量非特定網絡大眾,依托公眾力量和智慧共同開展的行為。檔案眾包在數字人文研究中發揮著重要作用并具有特殊地位。從兩者的具體關系來看,首先,檔案眾包有助于建立豐富而優質的檔案資源,是數字人文項目知識挖掘、生產和傳播的基礎和依據。其次,檔案眾包項目中,用戶的作用是根據項目的需要提供和轉化資源,而數字人文的跨國性和包容性,在客觀上推動了眾包活動更開放的共享與合作。
目前我國學者對于數字人文與檔案眾包的研究關注較多,研究內容主要涵蓋了數字人文與檔案記憶功能[2],數字人文眾包任務的績效管理[3],用戶參與數字人文眾包的意愿和影響因素[4],眾包任務的發布與實施[5]等方面,研究不足在于對于數字人文與檔案眾包的融合研究不夠,對于檔案眾包項目中的數字人文特征闡述不足,對項目實際開展中的細節性問題的關注仍然有所欠缺。在檔案眾包實踐領域,我國目前已開展的檔案眾包(或有眾包色彩的)項目主要有上海圖書館:盛宣懷檔案抄錄項目[6]、中國人民大學:“我的北京記憶”互動網站項目[7]、沈陽市檔案局(館):家庭檔案網站項目[8]、遼寧省檔案館:社會檔案人欄目[9]等,國內項目任務主要集中于檔案著錄、抄錄、征集等方面,但在檔案開放性、眾包管理機制、數字人文特征、數字技術參與、社會媒體激勵等方面存在不足,對于個人、社會、數字人文三者相互融合的體現有所欠缺,對于信息時代數據廣泛性和人文融合性的適應程度還需進一步加強。
調研發現,目前在數字人文與檔案眾包進行深度融合方面做的較為成功的案例是德國阿羅爾森檔案館(Arolsen Archives)(以下簡稱阿羅爾森檔案館)的檔案眾包項目,它擁有高度開放和共享的檔案資源、便捷高效的智能與數字技術、周詳完備的數據安全與隱私規范、多維多元的眾包管理機制以及廣延外展的矩陣傳播模式,適應了數字人文時代的信息管理需求。作為交叉學科的數字人文積極參與阿羅爾森檔案館的眾包實踐,為檔案眾包提供理論與技術支撐,二者相互促進,相互推動。因此,本文以開展新興眾包項目的阿羅爾森檔案館作為案例對象,分析其如何與時俱進地將檔案資源的歷史性與數字人文的先進性巧妙融合,同時結合我國的眾包實踐現狀,探討該項目對于我國數字人文視閾下開展檔案眾包實踐的啟示。
阿羅爾森檔案館是納粹受迫害者檔案的國際保管中心和國際尋人服務組織(the International Tracing Service,以下簡稱ITS),擁有世界上最全面的納粹受害者和幸存者檔案,已被聯合國教科文組織列入“世界記憶工程”名錄。它收藏了各種納粹政權受害者群體的文件,其中包含5000萬張索引卡,保管了約1750萬人的命運信息。
1998年,工作人員開始將阿羅爾森的檔案數字化。在數字化過程中,需要細致掃描各種格式的問卷、索引卡和裝訂書籍。阿羅爾森檔案館為此設有專門的掃描站。在數字檔案館的建設中,阿羅爾森檔案館編制了適應于瀏覽的電子指南。電子指南用五個關鍵問題描述了誰在何時、為什么以及如何使用檔案中的卡片和表格。指南中的交互式元素解釋了各部分的縮寫和符號。還提供了指向各種其他背景信息的鏈接,賦予其數字性特征。
該眾包項目的開展有其特定的原因。從阿羅爾森檔案館在追蹤和記錄方面進行的工作來看,受害者姓名仍然是館藏的關鍵。每一份單獨的文件都經過適當的評估,這種評估為研究人員的工作提供了重要的視角。但是,追溯記錄這些信息是一項耗時且艱巨的任務。為了支持和補充檔案管理人員在現場進行的工作,阿羅爾森檔案館與Zooniverse眾包平臺和家譜門戶網站 Ancestry 等私營公司開展合作項目,有助于快速便捷地搜索盡可能多的文檔。在2020年,眾包項目計劃啟動,讓志愿者有機會幫助檔案館捕獲數據,其中包括大量受害者名單以及迫害者的盟軍文件。這對阿羅爾森檔案館有重要意義,同時學校和其他機構有機會參與,以一種對整個社會有意義的方式紀念納粹迫害受害者的命運,借此來了解那段沉痛的歷史。眾包計劃“everynamecounts”以其創新的技術方法獲得了“數字參與創新”提名下的智能英雄獎,得到了世界各地的肯定。
2020年,阿羅爾森檔案館在Zooniverse眾包平臺上發布了名為“everynamecounts”的檔案眾包項目,旨在創建包含名稱和所有者信息的數字記錄數據庫。
該項目的目標是為受納粹迫害的人們建造一座數字紀念碑,使其后代能夠記住受害者的名字和身份,以此來幫助受害者澄清過去的命運,幫助受害者的子孫研究自己的家族史。眾包項目預計到2025年完成對所有數據的轉錄?!坝辛恕甧verynamecounts’,任何人都可以支持尊重、多樣性和民主”。到2022年,該項目的目標有了新高度。下一階段,除了呼吁公眾直接參與并創建檔案數字記錄外,還呼吁人們采取鮮明的個人立場,同時檔案信息可以進一步用于記錄、研究或教育等社會目的。
該項目以個人記憶為主要研究視角,利用數字人文的方法,以個人記憶參與構建社會整體的戰爭記憶史,以受害者姓名和具體信息反證其受迫害的史實,以個人檔案重筑集體和社會檔案。該項目既是“眾包性”的,又是“個人性”的,是檔案記憶與人本情懷交織的產物,也是數字時代“人文性”的體現。項目致力于保存納粹受害者檔案并在全球范圍內提供這些檔案,以期幫助因大屠殺和種族主義而失散的家庭團聚。
“everynamecounts”項目的眾包倡議也提供了一種新的、直接的、動態的聯系歷史的形式,提供了一個紀念納粹迫害受害者并捍衛和平與團結的機會。同時,在該項目下,阿羅爾森檔案館的“東歐外展”部門將檔案管理方式及其服務進行外延,帶到中歐和東歐國家,并與當地公司合作開發新的教育和信息服務。
(1)前期準備階段——以眾包平臺為主導
在前期準備階段,以眾包平臺為主導。作為第一步,Zooniverse提供獨特的眾包項目生成工具,項目開發人員可以使用區域標記和繪圖工具等來免費創建自己的Zooniverse項目。阿羅爾森檔案館與Zooniverse平臺合作,檔案館負責提供原始檔案,這些檔案將被掃描并以專題的形式上傳至Zooniverse,供志愿者查看和選擇。Zooniverse是一個世界各地的志愿者可以免費注冊的平臺。志愿者們根據項目分配的任務執行,他們提交的數據會被分類存儲在Zooniverse的安全在線數據庫中。審查員負責檢查任務完成的準確性,平臺也允許用戶在線搜索資源。以平臺為主導的前期準備階段,為后續的項目實施奠定了良好的物質基礎和保障。
(2)項目運行階段——以志愿者參與為主導
在項目運行階段,以志愿者參與為主導。志愿者的招募和選擇是眾包成功的關鍵。志愿者主導進行著文字和圖片數據的轉錄工作及部分分析工作,該項目為志愿者提供了各種有利于開展工作的工具,例如在錄入地理信息數據時,志愿者可以使用維基數據Q-Item和GeoNames ID來輔助輸入正確位置的標識符。在Zooniverse網站上,還設立了一個專門的志愿者社區,社區由三部分組成:志愿者,志愿者論壇和采訪調研。同時給予志愿者自我研究的空間,如果志愿者了解最新的街道地址或GPS坐標,可以在“研究信息”中分享。在志愿者的幫助下,研究人員可以更快更準確地分析既得信息,由此節省時間和資源,提高信息獲取和分析的效率。
(3)成果保留階段——以實體和數字檔案館為主導
在成果保留階段,以實體和數字檔案館為主導。截至目前,該項目已經擁有22422名注冊志愿者,510萬份文件,同時在眾包平臺上處理了200153條信息數據。在Zooniverse平臺上,現有26556個志愿者參與,886701個分類,共365632個科目,已經完成251956個科目。在眾包項目后期階段,實體和數字檔案館發揮作用,眾包的大量成果會以數據形式存入阿羅爾森的實體和數字檔案館,供公眾瀏覽和利用。實體和數字檔案館的建立為成果保留提供了重要基礎。
眾包的過程是將工作外包給互聯網上不確定的群體,參與者可以自主行動,然而眾包結果的質量難以標準化[10]。對于眾包在數字人文領域的應用,一個關鍵問題是如何有效地消除虛假和劣質內容,提高結果的整體質量。阿羅爾森檔案館的眾包項目通過監測和管理全過程,減輕識別偏差造成的質量不均情況,來控制項目風險,提高項目質量。
監測和管理過程主要由國際尋人服務國際委員會(ICITS)負責,ICITS由來自11個成員國的政府代表組成,負責監督阿羅爾森檔案館的全過程工作。自1955年《波恩條約》以來,國際委員會成員國每年輪流擔任主席——在2022-2023年度,由法國尼古拉斯·奇巴夫擔任主席。
風險在很多方面與收益相同。數以百萬計的納粹迫害受害者檔案是否應該在互聯網上免費提供,這是在線數據庫投入開發后阿羅爾森檔案館激烈討論的問題,問題主要集中在以在線方式發布文件是否會侵犯人格權和版權方面。阿羅爾森檔案館仔細考慮了這些問題:大多數專家和受害者的親屬都認為在線檔案館提供的效益遠大于其風險。
在質量控制上,總體來看,對內容質量的審核方式分為人工審核與系統自動審核兩類?!癳verynamecounts”項目設有檢查員檢查程序。檢查員通常在項目開始時設置,僅選用具有相關經驗的項目負責人或志愿者擔任。質量控制的及時性和事后調節性并存,具體而言,每份文件至少轉錄三次,任何錯誤都將在質量控制階段得到糾正。如果三次輸入的結果不同,項目工作人員會檢查并進行更正。如果遇到無法糾正的錯誤,可以隨時使用“Doubts”標簽在論壇中告訴項目負責人。另外檢查員在最終檢查時可通過“Report”標簽向項目經理反饋志愿者的錯誤,以此規范志愿者的參與行為。
首先是公眾參與策略?!癳verynamecounts”項目最突出的公眾參與策略是利用社交媒體建立傳播矩陣進行宣傳,分為幾個層級,即從個人社交媒體平臺到公眾新聞媒體平臺,從傳統紙質媒體形式到新興數字媒體形式,從線上數字網站宣傳到線下實體海報宣傳,多維度多層面利用公眾與社交媒體參與激勵,由此構建公眾參與策略上的傳播矩陣。例如,利用Twitter和Facebook平臺發布個人參與感受,在公眾新聞媒體例如《紐約時報》上公開報道,上傳新興數字媒體如“Hadassa Magazine”網站,利用視頻社交平臺Youtube上傳項目視頻介紹,在法國駐柏林大使館外墻上顯示“everynamecounts”受害者名字的光投影等。媒體不再是單一的傳播渠道,而是一種“矩陣”形式。新舊媒體的融合使得覆蓋面更大,強調了通過矩陣傳播的優越性。檔案信息根據不同信息傳播平臺的特點進行編碼,從而提高媒體的影響力和知名度,并根據傳播矩陣的不同渠道改善媒體的聚合[11]?!癳verynamecounts”項目的公眾參與方式很好地利用了媒體傳播矩陣,使公眾參與覆蓋面更廣,傳播性更高,宣傳力更強,適應了數字人文時代的要求。
其次是制定有效的志愿者激勵策略,吸引和激勵大量的一次性志愿者,減少或避免志愿者流失,保持或增加志愿者的貢獻度和專業度,是眾包成功的關鍵措施[12]。參與項目的志愿者們在項目前期和后期都會收到一份調查問卷,來探討他們參與項目時遇到的問題和得到的感悟。志愿者們也可以在志愿者社區的“Talk”討論區進行交流,收集和共享數據,分享參與項目的心得體會。同時在“Bookshelf”討論區志愿者們可以自我發現、建議和鏈接,上傳自己在參與項目過程中聯想到的相關書籍和知識,同時可以利用平臺內的相關信息撰寫論文和出版物,達到雙向共贏,項目給予志愿者充分的自由度以激勵他們積極參與。
2011年的《柏林條約》為阿羅爾森檔案館的眾包項目提供了法律基礎,它取代了1955年的《波恩條約》,規范了聯邦政府文化和媒體專員對阿羅爾森檔案館的管理。阿羅爾森檔案館不受國家數據保護指令的約束,但受特定國際規定的約束:國際尋人服務國際委員會(ICITS)負責監督該機構的工作,由ICITS所有成員國批準的國際條約第11條規定,“ICITS應獨立頒布從阿羅爾森檔案館館藏中公布個人數據的指令”。2017年,德國文化局決定在線出版期限為25年,這意味著檔案中的所有保管期限在25 年之內的文檔都可以訪問和查詢。
與此同時,在線存檔需要嚴格遵守法律要求和隱私政策。阿羅爾森檔案館遵守《歐盟通用數據保護條例》(GDPR)中有關數據保護的規定。條例規定保護個人數據的權利必須從其社會功能中進行審查,并且必須根據相稱性原則與其他基本權利進行權衡。在某些情況下,允許出于存檔和發布目的處理個人數據。阿羅爾森檔案館根據GDPR條例在Zooniverse上詳細列出了眾包項目的免責聲明、審核政策、版權及隱私政策、使用條款等法律規范。
多年來,由于法律的限制,特別是隱私法和版權法,檔案館中的材料無法訪問。但隨著信息時代到來,人們已經認識到,保護尊嚴的隱私法和保護財產的版權法不應該阻礙重要歷史檔案的公開。阿羅爾森檔案館通過公開歷史檔案,為人權事業和納粹受害者的利益服務,通過眾包項目支持反戰爭和反侵略意識教育,由此促進正義和真相。與大屠殺和種族滅絕有關的數據具有特殊的社會相關性,它們的公開有利于尋找真相和銘記受害者。根據以上法規和條例,阿羅爾森檔案館的眾包項目已經獲得授權,能夠在在線數據庫中提供包含個人數據的檔案。
阿羅爾森檔案館檔案眾包項目數字人文特征顯著。主要體現在眾包的數據類型與特征、數據眾包任務特征、數字技術特征三個方面。數字技術參與阿羅爾森檔案館的眾包項目,體現了數字人文時代對于檔案眾包的新要求,反映了一些適應信息社會發展的新特征。
3.1.1 文字數據的離散性
該眾包項目需要轉錄數以萬計的文字數據,文字數據是各種數據類型中最主要也是最重要的部分。文字的離散性意味著從語流或文字中極易析出,即具有可分析性。此外,離散的特點意味著文本數據非常獨立,具有很高的自由度。文本數據作為意義單位被獨立編碼,但同時又總是可以作為結構單位進行重組。人們注意到文本數據的離散性,因為它可以以排列組合、替換、分割、插入及其組合的形式進行重組。在阿羅爾森檔案眾包項目的大量文本數據中,文本的語義和連續完整性是不確定的,可重組的,同時通過文本識別和轉錄技術,可以確定相關受害者文本信息的最佳組配。
3.1.2 圖像數據的歸一化
由于阿羅爾森檔案館眾包項目包含了大量真實的納粹受害者檔案文件,且這些文件都是由圖片的形式予以呈現的,因此需要對大量的圖像進行歸一化,分類并建立起統一的標準形式,以便于識別和轉錄。圖像數據的歸一化是指通過一系列的變換將待處理的原始圖像轉化為單一的對應標準格式,目標是找到一組參數,利用圖像的不變矩,消除平移、旋轉和縮放等微調變換對圖像的影響。在后續志愿者參與的轉錄環節,也提供了對圖像的翻轉、縮放、染色等功能,依據不同信息將圖像數據進行初步的模塊化區分,便于志愿者使用。
3.1.3 信息數據的個人性與公共性
阿羅爾森檔案館眾包項目擁有眾多有關于納粹受害者的個人信息和經歷數據。這些數據天然具有私權屬性和排他性。而在數字人文視閾下,信息成為重要的公共資源。首先,個人信息具有識別他人的工具性,這種工具性決定了個人信息的社會性和公共性。其次,關于個人數據的信息不僅是私有財產。個人信息往往是由他人的服務和管理系統產生的,在產生時已經處于與他人共享的狀態。最后,個人信息是數字人文時代社會發展的重要資源,觸及到廣泛的公共利益。大量關于受害者的信息數據,既是受害者本人及其家族記憶的體現,具有個人性,更是廣泛的社會記憶承載者,具有公共性,與公共利益密切相關。在這點上,要積極討論個人信息的保護與知識產權的合規性問題。
3.2.1 文本識別任務
對于內容易于索引的中小型館藏,阿羅爾森檔案館通過“everynamecounts”眾包項目取得了良好的效果。通過在線平臺,志愿者可以識別信息并將其傳輸到在線數據庫。在相關檔案的轉錄工作流程中,眾包平臺要求志愿者輸入囚犯及其親屬的個人數據。某些情況下,數據庫中已經輸入了文檔中主要人物的姓名。但是親屬的姓名和地址并未登記過,輸入他們的名字很有必要,因為囚犯的父母、兄弟姐妹和配偶也經常受到迫害,有關他們遭遇的信息有時只能在這些個人檔案上找到。
3.2.2 數據轉錄任務
轉錄任務主要包括文檔所有者的序號、名字、年齡、出生日期、出生地、國籍、囚犯類別等內容。在編制文字索引時,對于數據轉錄的任務格式也有特定的要求。如果沒有關于特定條目的信息,需要輸入連字符。如果信息難以辨認,需要輸入“不清楚”。如果信息已被劃掉,需要輸入原始和更正版本,并用分號分隔。
受害者清單中記錄了受害者進入集中營前后的“變化”,包括進入營地、轉移、“釋放”和死亡。囚犯在集中營中被分配到的拘留地和囚犯類別反映了不同的納粹意識形態,因此需要志愿者在檔案中找到所有帶有“變化”性質的信息并進行數據轉錄。
在對轉錄文本的理解上,也有一定的任務要求。名單上的類別反映了特定的納粹意識形態,志愿者不應只從字面上理解。例如,術語“ASO”代表“Asozial”(反社會),用于描述各種不同類型的人,包括失業或無家可歸的個人、福利領取者、辛提人和羅姆人。如果根據納粹種族主義和反猶太主義意識形態,囚犯則被視為猶太人,在轉錄任務過程中,諸如上述的情況也被要求加以注意。
3.2.3 標引分類任務
該眾包項目要求志愿者對檔案信息進行分類和標記,在基本信息欄中給每個檔案標引上元數據和文件編號。標引任務要求志愿者使用描述數字信息資源屬性的元數據,添加標簽和評論來評估和跟蹤資源,并支持高效的數據檢索。大多數標引任務不需要志愿者具備廣泛的知識,標引分類也不需要花費很多時間。
3.3.1 數據采集技術
因為文本的識別和轉錄主要依靠圖片識別,所以在數據采集上,眾包項目提供了一些利于采集的方法。可以放大或反轉圖像,提高圖像的對比度和像素,利用縮放和反轉顏色工具可以加強數據收集與閱讀的便利性(見圖1)。如果遇到無法閱讀的文檔,可以利用刷新鍵來獲取新的頁面和文檔并進行數據采集。

圖1:反轉圖片顏色[13]
3.3.2 數據識別技術
(1)OCR識別技術
阿羅爾森檔案館的眾包項目十分龐大,因此用于文本識別和分類的技術非常重要。OCR(光學字符識別)是成功文本識別的關鍵之一。從狹義上講,OCR可以識別字符,但極易出錯。從廣義上講,OCR是將圖形信息轉換為文本信息(即元數據)。但OCR只是工作流程的一個方面,阿羅爾森檔案館眾包項目中的大多數檔案都非常多樣化,OCR只能在標準化程度很高的文檔上產生良好效果。
(2)文檔聚類技術
阿羅爾森檔案館對于需要進行識別的文檔集合使用OCR的“特殊類型”。從根本上說,成功識別文本需要材料分析、方法的選擇和定義、表單識別(聚類或分類)、圖像準備、光學字符識別、數據檢查傳輸等多種不同方法的組合。光學字符識別只是整個過程中的一部分。
阿羅爾森檔案館眾包項目收集的一個特殊方面是利用文檔聚類技術將不同類型文件的統一歸檔。聚類技術是將不同類型的表單分類為組,過濾掉特定的文檔類型,包括了與囚犯有關的各種類型的索引卡、問卷和表格。檔案工作人員使用純文本識別來確定如何讀取材料,以確保在OCR期間正確識別信息元素。文檔聚類是布局和表單類型的一種OCR(見圖2)。

圖2:OCR識別與文檔聚類[14]
對于大約50%的館藏,OCR和聚類都發揮了作用。眾包項目已經使用OCR 處理和數字化了約50萬份文檔,并且已經對超過800萬份文檔進行了聚類。
3.3.3 數據分析技術
在轉錄時,對于不同信息,“everynamecounts”項目采用不同的數據分析策略供志愿者使用。
在日期方面,如果文檔包含多個或已更正的數據,需要志愿者分析并假定正確的日期同時在字段中進行更正。在出生地的轉錄上的要求有所不同,志愿者需要在字段中輸入與文檔中與檔案完全相同的地址,且不能進行任何更正。對于不同信息的真實性要求采取不同的數據分析策略,能保證轉錄分析任務的原始真實性。
當遇到需要進行討論或者輸入錯誤的情況時。項目也提供了相應的數據分析技術。每張登記卡的數據可以輸入三次。如果三次輸入的結果不同,項目工作人員會檢查輸入并進行更正。輸入完成后,志愿者可以使用線上“Talk”功能向阿羅爾森檔案館發送特定文檔的信息或問題。志愿者還可以使用討論板留下對項目的評論和想法,與其他志愿者進行討論。
3.3.4 數據呈現技術
在數據呈現技術上,該眾包項目將每份檔案進行模塊化區分,不同信息在圖片上用不同區域進行標注,列出該份文檔的名稱、規格與檔號進行存檔。同時附有每份文檔的詳細介紹,利于志愿者進行轉錄(見圖3)。

圖3:數據模塊化轉錄[15]
每份檔案都提供數據庫條目,有其特定的編號ID以供查詢,在數據庫中編號分配采用單次分配制,具有唯一性和專指性。利用字段呈現文檔的元數據,包括收藏者的名稱和文檔 ID。
在對納粹受害者的信息轉錄中,文件的每一頁都包含有關30-40名迫害者的信息。為了便于志愿者工作,項目進行前端控制,將每個頁面分為幾個部分。每個志愿者僅轉錄文檔中未被藍色和灰色陰影覆蓋的名稱。同時陰影區域中的名稱可見,以便志愿者可以看到所有相關信息,每個志愿者被分配到頁面的不同部分,這樣就不會丟失任何名稱或信息。
我國數字人文參與檔案眾包實踐還處于初步發展階段?,F存的上海圖書館盛宣懷檔案抄錄項目和中國人民大學:“我的北京記憶”互動網站項目等檔案眾包項目在“選題與內容、平臺與設計、管理與合作、法規和技術方面”存在一定特色和創新性[16]。但在諸如眾包平臺選擇、項目管理系統建設、媒體宣傳激勵策略、數據開放共享程度、監督機制建立等方面還存在亟待解決的問題。特別是在數字人文時代,信息數據的廣泛共享性對于檔案眾包項目提出了更高層次的要求,如何適應信息社會的要求,將歷史檔案資源、眾包項目平臺以及電子信息技術有機結合起來,從阿羅爾森檔案館的檔案眾包實踐中我們能得到一些啟示。
在數據庫建設上,通過與Yad Vashem世界大屠殺紀念館合作,阿羅爾森檔案館建立了開放型在線數據庫,并將“everynamecounts”的數據信息錄入其中,世界各地的任何訪問者都可以通過在線數據庫研究相關檔案,借此了解受迫害者的苦難經歷。開放型數據庫提高了數據的可訪問性,同時提高了信息文件的透明度。對比來看,我國上圖盛檔抄錄項目平臺僅開放全部盛檔的0.3%,檔案開放程度嚴重不足,信息文件不易于訪問和利用,眾包項目的效率因此得不到很好提高。效仿阿羅爾森檔案館的眾包項目,我國的檔案眾包實踐也應積極促進館際互聯,在項目前期建立開放型數據庫,項目中期充分利用數據庫處理信息數據,項目后期也要利用數據庫保留眾包成果。數字人文參與檔案眾包,開放型數據庫的建設是基礎和保障。
在眾包平臺選擇上,阿羅爾森檔案館選擇“Zooniverse”第三方眾包平臺發布任務和收集數據,沒有選擇利用自建平臺,這是因為任務中需要處理的檔案數據類別豐富、數據間相似性高。利用數字人文科學數據的眾包平臺可以分為三大類[17]:一是自建平臺,二是非營利平臺,三是商業性平臺。就我國目前的檔案眾包實踐而言,應該根據所要處理的檔案數據類型合理選擇眾包平臺,當眾包項目對數據的專業性和完整性有特殊要求時,可以開發自建平臺,借此保證數據的完整性和安全性;而在大多數情況下,數據要求不那么嚴格或者眾包數據量很大,就可以選擇第三方數據眾包平臺開展合作,合理分配資源來開展項目。
我國現存的檔案眾包項目較少,沒有建立完善智慧的檔案眾包管理機制,更多地是依托助捐平臺或高校開展,存在管理不完善、技術不健全、任務層次性不明顯和與公眾聯系不緊密等問題。阿羅爾森檔案館的眾包項目依托平臺建立了一個智慧的檔案眾包管理機制,這得益于檔案機構、在線平臺和公眾用戶三個關鍵因素的共同參與。
同時,檔案眾包項目的實施是一個完整的過程,從檔案館作為發起者開始到平臺項目運行再到最終檔案項目的驗收。在未來我國的檔案眾包實踐中,可以借鑒阿羅爾森檔案館眾包項目,確保發包方在全過程進行有效管理,其中的關鍵是建立一個智慧管理機制,完善項目運行、質量控制、公眾激勵、風險排查等管理機制。全過程的智慧化控制,既能監控眾包項目的實施進度,也能及時保留眾包成果,將成果以數字化形式保留下來。
阿羅爾森檔案館的眾包項目利用社交媒體建立傳播矩陣,對我國檔案眾包項目的宣傳也有著借鑒意義。
新的媒體時代,新的信息革命,給檔案工作者的思維、業務和管理方式以及檔案信息的傳輸方式帶來了新的變化。社交媒體不僅可以為檔案部門提供數量龐大、年齡結構合理、平臺使用率高的潛在用戶資源,還能夠憑借其自身的交互性、分享性、參與性實現檔案知識的快速廣泛傳遞,又能讓公眾在獲取檔案知識的同時參與檔案管理。數字人文視閾下,我國的眾包項目宣傳應該變革傳播觀念,打破片面的思維壁壘,要將受眾置于傳播的主要地位。利用去中心化的傳播格局,使廣大公眾既成為信息接受者同時也成為信息傳播者,適應受眾群體的個體化、特色化、差異化、分眾化發展。
阿羅爾森檔案館的工作人員說:“這不是工作,而是使命。我們的工作與人類歷史上最黑暗的時刻之一有關?!边@是一種強大的社會激勵與公眾呼吁——即利用身份認同與民族意識參與檔案眾包活動。
我國的眾多歷史檔案資源,有些是個人家族史,有些是歷史變遷記錄,但歸結起來,都是中華民族的集體記憶,其受眾面是廣大人民。與此同時,眾包項目也充分強調“個人性”與“公眾性結合”,它首先是一項基于個人參與的公眾合作活動,因此有必要將個人的身份認同、公眾的民族意識與與眾包項目有機結合起來,煥發公眾內心的共鳴,利用認同來喚起公眾參與的積極性,因為這不僅是個人的參與行為,更是發揮個人力量創建民族記憶的過程,這是廣大參與者最基本的共性因素。
同時,數字人文眾包項目也需要靈活地在不同階段提供不同的激勵措施。例如初期問卷調查,中期的自由討論與后期的研究出版,這些措施能夠幫助參與者更好地認識到任務的效益性和目的性,并激勵更多的用戶參與到數據眾包項目中。
在項目設計方面,也需要提高項目的參與趣味性,加強數據可用性和易用性,由此增強公眾參與意識。
檔案作為承載記憶的載體,可以見證個人的生平經歷和家族的興衰存亡,也能反映國家的發展史和民族的抗爭史。在信息時代,數字人文為檔案學研究提供了新視角和新方法。在數字人文視閾下,阿羅爾森檔案館的檔案眾包實踐發展成熟,同時我國的眾包實踐還有著很大的發展空間,我國應該積極與眾包平臺合作,構建智慧眾包管理機制,同時利用媒體矩陣進行宣傳,加強身份認同和民族意識,呼喚更廣泛的公眾參與,以數字人文參與檔案眾包,以檔案眾包適應數字人文,為現階段和未來的檔案眾包提供新的發展路徑。