劉晉如
摘 要:本文通過對中美檔案館、圖書館和高校數字人文科研機構相關網站的調研,從研究主體、項目類型和技術應用方面介紹和歸納了中美代表性檔案數字人文項目,進而對比中美檔案數字人文項目的差異,并建議從檔案數字人文觀、跨界合作、人才培育三方面推進我國檔案數字人文項目的深入發展。
關鍵詞:數字人文;檔案項目;人文項目
Abstract:Through the investigation of the websites of Chinese and American archives, libraries and digital humanities research institutions, this paper introduces and summarizes the representative humanities and Chinese digital files in the research subjects, project types and technology applications, and then compares the Chinese and American archives figures. The differences in humanities projects, and suggestions for the in-depth development of China's archives digital humanities projects from the three aspects of archival digital humanities, cross-border cooperation and talent cultivation.
Keywords: Digital humanities; Archive project; Humanities project
1 緒論
隨著信息技術的發展,人文研究和信息領域的交叉融合越來越明顯,信息服務于人文研究的方式發生變化,關于數字人文的研究日趨興盛。數字人文是指將人文研究所需的信息資源結合數字技術以一種全新的形式服務于人文學科的研究方法,也可以理解為按照人文研究的需求設計信息數字形態的技術手段。數字人文經歷了一個由低級到高級的發展階段,目前的數字人文更加強調數據的整合、關聯、挖掘,是一種數據驅動型的科學研究范式。
檔案作為人文研究的重要信息資源,毋庸置疑地成為數字人文項目的重要開發對象。但是目前檔案界關于數字人文的研究數量很少,處于探索階段。以“檔案”并含“數字人文”在中國知網進行篇名檢索,檢索時間為2018年12月15日,得到相關中文文獻6篇。趙生輝介紹了國外檔案領域數字人文項目的概況、特點及對我國的啟示;董聰穎以威尼斯時光機為例說明了數字人文對檔案信息資源開發利用的影響,并從宏觀、中觀、微觀三個層面提出了促進數字人文在檔案信息資源開發中的應用;李子林、王玉玨、龍家慶指出了數字人文與檔案工作的相互關系以及數字人文背景下檔案工作發展的新思路;吳加琪提出了檔案工作參與數字人文建設的必要性以及檔案工作在數字人文中的參與機制和保障措施。相關研究大多是探索檔案工作與數字人文的關系及其參與;數字人文在檔案信息資源開發中的應用;國外數字人文項目的介紹與啟示。
由此可見,目前有關研究缺乏國內檔案數字人文實踐和項目的介紹。數字人文中心是數字人文實踐的基地和展示窗口,數字人文的實踐需要集合各方面的資金、技術、人才,許多數字人文中心相繼成立。“國際數字人文中心網絡(center-Net),自2007年4月成立以來,已將來自19個國家約100個中心的200多名成員加入國際數字人文中心目錄。”[1]全球各個數字人文中心運行方式基本都采用項目制。美國是數字人文實踐的先驅,占據全球數字人文中心的半壁江山。對中美檔案數字人文項目的調查和比較,最能直觀、客觀地體現國家數字人文檔案實踐的發展水平,進而從中尋找差距,借鑒經驗,結合國情采取切實可行的改進方法。
2 概念界定
2.1 數字人文。“數字人文源于20 世紀40 年代出現的人文計算( humanities computing) ,最初著眼于計算語言學和文本資料的數字化,隨后被應用于眾多人文學科領域。”[2]“2001年《數字人文指南》出版后,數字人文一詞逐漸代替了人文計算,作為一個新的研究領域,在2009年的語言協會年會(the Modern Language Association)上,獲得了北美文學界的承認。”[3]首先,數字人文是一項跨學科研究。“數字人文是將數化工具和技術(包含數字化、數據管理、數據分析、可視化、虛擬現實等技術)應用于傳統人文學科的一項跨學科研究,涉及語言、文學、歷史、藝術、文化人類學、考古學、哲學等眾多人文社會科學領域。”[4]此外,數字人文是一種新的研究范式。“數字人文是指結合各種數字化材料,借助電腦的分析能力開展的人文研究。”[5]“數字人文以數據密集型計算為基礎,改變了傳統人文社會科學的研究范式,從定性到定量輔助加定性,為人文研究提出問題、界定問題和回答問題提供新的視角。”[6]綜上所述,數字人文的內涵隨著數字技術發展不斷深化,數字人文已經從開始的數字化文本服務人文研究轉變為基于數據密集計算服務人文研究。運用數字技術和工具實現以數據驅動人文研究的跨學科研究范式。這是問題驅動范式向數據驅動范式的轉變,通過數據驅動人文研究,側重發現而非解釋的人文研究方法。
2.2 檔案數字人文項目。數字人文的實踐成果往往以項目的形式體現。“項目是指一系列獨特的、復雜的并相互關聯的活動,這些活動有著一個明確的目標或目的,必須在特定的時間、預算、資源限定內,依據規范完成。”[7]從條件來看,檔案數字人文項目是運用數字人文技術,利用檔案資源為解決某一主題的人文問題形成的一系列有聯系、有條件(實踐、資源、預算)限制的活動。從內容看,檔案數字人文項目是數字人文項目的一種,是指利用數字技術和工具對檔案資源進行整合、加工從而服務于人文研究的項目。檔案資源是一個寬泛概念,不局限于檔案館藏,還包括其他企事業單位、行業機構和散落在個人手中的檔案。數字人文的內涵隨著數字技術的發展不斷演化,可分為數字化人文——數據化人文——可視化人文三個發展階段,也可看作檔案數字人文項目的三個層次。分別是指利用檔案數字化信息、檔案數據化信息和檔案可視化信息服務人文研究,三者逐層遞進,都可視為檔案數字人文項目建設的內容。
3 中美檔案數字人文項目比較
3.1 項目研究主體。中國檔案數字人文項目的研究主體較為分散。除我國臺灣外,我國其他地區為數不多的數字人文中心目前并未開展專門的檔案數字人文項目。中國檔案數字人文項目一般由圖書館、檔案館、高校科研機構分別開展。如中國國家圖書館的“中國記憶”項目、上海圖書館開放數據平臺中的“盛宣懷檔案知識庫”和“名人手稿檔案庫”、天津市檔案館的“津沽史料”項目、上海市檔案館的“上海記憶”項目、青島市檔案館的“老青島”項目、中國人民大學人文北京研究中心開展的“北京記憶”項目、臺灣大學數位人文研究中心的“大型數位典藏”項目。圖書館、檔案館的檔案數字人文項目一般由檔案館、圖書館提供檔案資源并提出項目需求,外包給信息技術公司完成。高校的檔案數字人文項目由高校數字人文科研中心、政府、企事業單位或個人合作完成。中國人民大學人文北京研究中心是中國人民大學與北京市政府合作組建的專門進行“人文北京”課題研究的校屬跨學科研究機構。臺灣大學數位人文研究中心設置的咨詢委員會的成員由校內圖書館館長及計算機資訊網絡中心主任及聘請的校內外相關專長領域人士共同構成,同時根據研究發展需要聘請校內外學者專家為特約研究員。
美國檔案數字人文項目的研究主體較為集中,大多由高校數字人文中心進行研究。如,美國普林斯頓大學數字人文中心提供莎士比亞書店內書籍流通和名人借閱情況的“莎士比亞書店”項目、密歇根州立大學數字人文與社會科學中心提供奴隸身份信息開放數據庫的“奴隸傳記”項目、布朗大學數字學術中心轉錄和翻譯碑文文字并提供數字化開放利用的“以色列碑文”項目、斯坦福大學空間與文本分析中心關于追溯舊金山城市規劃史的“想象中的舊金山”項目。截至2017年6月,數字人文合作組織“數字人文中心網絡”(center-Net)所收錄的數字人文中心已達192個,覆蓋32個國家和地區,其中一半以上來自美國。[8]美國高校數字人文中心的成員構成可從兩個角度劃分。按照職責范圍劃分,包括:項目負責人、項目管理員、項目研究員、項目執行人員、項目咨詢委員會。按照專家系統劃分,包括:專業學科專家、計算機系數字技術專家、專業科學館員以及其他相關人員。如“布朗大學數字學術中心的專家包括:社會科學數據專家、數字人文專家、數字技術顧問、GIS專家,還包括其他高校中心專家和擅長文本挖掘等技術的跨學科人才”。[9]高校數字人文科研中心集結了高校內外的信息技術人才和資源支持,因此具備開展優質檔案數字人文項目的條件。
3.2 項目類型。中國檔案數字人文項目的類型較單一,以檔案數字歷史文化項目為主。受中國歷史文化的影響,中國特別注重歷史檔案的保存,加之公眾文化需求的日益增長,中國檔案數字人文項目大多服務于史學研究和文化傳播。中國國家圖書館的“中國記憶”項目是“整理中國現當代重大事件、重要人物專題檔案,并通過在館借閱、在線瀏覽、多媒體展覽、專題講座等形式向公眾提供服務的檔案資源建設與服務項目”。[10]通過口述檔案、影像檔案,手稿、信件、照片和實物檔案的收集和采集,形成多載體、多種類的專題檔案資源集合,包括我們的文字、中國年畫、絲綢刺繡、東北抗日聯軍等專題。中國人民大學人文北京研究中心的“北京記憶”項目是一個北京文化大型數字平臺,融合北京城市多維文化的檔案資源,囊括了鐵路、飲食、建筑、藝術等專題,對京城文化進行數字化展示與傳播,滿足北京文化研究者資料獲取和信息查詢需求。“上海圖書館開放數據平臺中的盛宣懷檔案知識庫包含了盛宣懷家族自1850至1936年間的日記、文稿、信札、電報、賬冊、電文、合同、章程等17.5萬件檔案,內容涉及政治、經濟、社會、軍事、外交、金融、貿易、教育各方面,是研究中國近代史的檔案寶庫。”[11]
美國檔案數字人文項目的類型多樣,包括檔案數字史學項目、檔案數字文學項目、檔案數字地理項目、檔案數字文物項目、檔案數字社會學項目。美國檔案信息環境和信息思維較為開放,并且數字人文中心的建立使得美國檔案數字人文項目具備相關領域的專家和相應的技術資源條件。如,美國普林斯頓大學數字人文中心的“重建過去”項目,通過對破損文物建筑的檔案記錄進行數字化,并搜集相關建筑的文本、圖片和其他材料屬性描述信息,開發一個用于文物建筑遺址VR模型重建的建筑材料數據庫。哈佛大學地理信息中心的“漫步伊甸園”項目,是根據普利策獎獲獎作家保羅·薩洛佩克的檔案記錄結合地理信息系統繪制的反映人類遷移路徑的空間檔案地圖。該作家在全球范圍內行走了人類的遷徙之路,并通過文字、照片、音頻和視頻記錄了他的所見所感,哈佛大學地理信息中心將其行程中的GPS數據繪制成地圖,并將其所生成的檔案信息融入其中,提供可視化圖像,在地圖上使用富勒投影和光譜著色來說明人類通過這條路徑的行程距離和時間。這些項目通過檔案數據的跨學科融合,拓寬了檔案數字人文項目的服務范圍,從文史學延展到地理發現、文物保護甚至社會學問題的研究。
3.3 技術應用。中國檔案數字人文項目以數字化技術為主。數字化技術是構建數字人文資源的基礎,包括掃描技術、OCR文字識別技術、多媒體技術等。國內通過對實體檔案的掃描以人文項目形式建立了大量人文主題的專題檔案數字資料庫,包括文本檔案資料庫(全文數據庫、目錄數據庫)和多媒體檔案資料庫。中國國家數字圖書館項目已經建設了館藏甲骨實物與拓片數字化資源庫、敦煌遺珍數字化資源庫、館藏年畫數字化資源庫等多個數字人文資料庫。一些綜合檔案館也在檔案信息網站中設置了專題檔案數字化資源庫,通過數字化的文本、照片、音頻、影像反映城市歷史文化。如上海檔案館的“上海記憶”、天津市檔案館的“津沽史料”、青島市檔案館的“老青島”等。還有一些資料庫實現了檢索功能和檢索結果的優化。“臺灣大學數位人文研究中心目前已建立了35個大型數位典藏資料庫,內含超過600萬份全文資料、近3000萬幅影像、4億字的全文、數百小時的影音資料,開發了20多種信息檢索和分析工具。”[12]其中大多是一手的檔案史料,包括臺灣文化資料庫、日治法院檔案資料庫、臺灣舊照片資料庫等。這些檔案資料庫通過檔案元數據的著錄,運用資訊勘探分析工具和分類、統計方法分析并呈現檔案材料中的關系型脈絡,優化線索方式,如在臺灣文化庫中可進行關鍵詞檢索、時間軸檢索、分類檢索、地圖檢索。
美國檔案數字人文項目以數據技術為主。“數據技術包括本體技術、語義萬維網技術(包括關聯數據)等專門針對知識單元(語義單位)的數據管理技術;文本分析(詞頻分析、共現分析、關聯關系分析等)、內容(主題)分析、時序分析、空間分析、社會關系分析等數據分析技術;可視化技術、人機交互技術等數據展示技術。”[13]通過數據技術可以構建檔案知識庫即提供知識服務的結構化數據庫,實現文本的內容分析、時空分析、歷史人物的社會關系分析,并以可視化的形式直觀展現檔案數據的內在聯系。可視化是指通過聚合和提取來展示數據的方法,可分為統計可視化、文本可視化、地理可視化。美國斯坦福大學圖書館和法國國家圖書館合作開發的“法國革命數字檔案館”項目,通過檔案類別、數量和時間的量化分析和數據關聯,在選擇不同的檢索類別時,在可視化圖表中可實時觀察相關檔案在不同時間點的數量的變化,確定某一檢索條件下檔案的年代分布和數量多寡。美國內布拉斯加大學林肯分校數字人文研究中心開展的“鐵路與現代美國的形成”項目,對大量鐵路公司的員工信件、商務合同、薪資記錄、舊照片等歷史檔案進行數字化,創建了鐵路工人數據庫,并通過文本分析、數據關聯技術進行統計和挖掘,繪制了鐵路工人時空變化分布地圖。這種基于檔案數據關聯和分析的可視化直觀高效地提供了檔案背后的知識,為人文研究提供了新的研究思路。
4 對我國檔案數字人文項目建設的啟示
4.1 檔案工作者要樹立正確的數字人文觀。首先要加強檔案工作人員的數字人文意識,主動參與檔案數字人文項目建設。目前國內具有代表性的檔案數字人文項目都是圖書館和高校發起的,如上海圖書館的上海年華項目、中國人民大學的北京記憶項目、中國國家圖書館的中國記憶項目等,國內檔案領域的數字人文項目案例較少。這些項目依托綜合圖書館和高校檔案館館藏開展,檔案資源有限且缺乏檔案專業人才的指導。檔案館擁有豐富的檔案館藏資源,應主動發起和參與數字人文項目。檔案館員對于社會檔案需求和檔案價值有更加專業的把握,由檔案館牽頭發起檔案數字人文項目更易全面整合相關檔案資源,挖掘館藏檔案資源的深層價值。此外,檔案館在開展數字人文項目時要樹立正確的數字人文觀念。數字人文不等于數字記憶,數字人文強調數據驅動人文研究,僅僅通過檔案數字化和檢索方式的升級無法實現。檔案工作者要樹立持續發展的數字人文理念,不能止步于檔案數字記憶的留存和人文研究的查詢服務,要充分運用數字人文相關技術建立量化數據庫,融合地理信息系統等相關專業領域,實現檔案數據對人文研究的可視化服務和知識服務。
4.2 加強跨領域、跨國際的交流合作。要加快檔案領域數字人文中心建設,整合國內檔案數字人文領域的數據、人才、技術、資金等資源。目前國內檔案領域數字人文項目存在高校科研機構、圖書館和檔案館各行其是的現象,不利于資金、人力、物力的集中,容易導致數據標準不統一,項目質量參差不齊,造成資源浪費、重復建設。檔案數字人文項目除了需要檔案、圖書、人文、信息技術等各個領域的專家學者共同籌謀,還可借助網絡平臺,以眾包模式發動公眾參與檔案數字人文項目。“盛宣懷檔案抄錄”項目是上海圖書館2017年啟動的在線眾包抄錄平臺。上海圖書館收藏的盛檔記錄大多是書信形式的繁體手寫稿,因年代久遠而字跡模糊,OCR識別困難,加之數量巨大,僅靠專業人員難以完成數字化工作。因此,上海市圖書館集結社會智慧與力量,招募業余愛好者參與盛檔的元數據和全文數字化抄錄和標注,完成提交后由圖書館專家進行質量審核。同時,要加強與國外數字人文中心合作,解決技術難題和檔案資源流失海外的問題。如浙江大學和哥倫比亞大學合作的“甲骨文數字化”項目,北京大學、哈佛大學費正清中國研究中心、中央研究院歷史語言研究所等多所高校和研究機構共同主持的“中國歷代人物傳記資料庫”項目等。[14]通過與國際間、行業間、民眾間的合作,可以減少技術、資源阻力,提高檔案數字人文項目的質量。
4.3 加快檔案領域數字人文人才的培育。檔案數字人文項目開展的前提是檔案數據的齊全完整,檔案數據庫的建設與維護相當于檔案數字人文項目的前端,這對于檔案工作者的業務技能和知識儲備都提出了更高的要求。檔案數字人文項目的跨學科屬性決定了數字人文項目團隊的多樣性,需要人文專家、信息技術專家、圖書檔案專家、項目管理專家等結構多元的專家團隊。但是從我國的現實情況來看,大多數檔案館員的知識結構和檔案數字人文項目的專家結構都比較單一。因此,要積極推進檔案館員的數字人文人才培育工作,培養檔案館員跨學科研究的能力,關注數字人文技術的學習和數字人文工具的使用。如,北京大學圖書館開設的“數字人文工作坊”,旨在激發計算機等信息科學領域師生人文研究的興趣、充實人文和社會科學領域師生的數字技術知識,并促進二者的協調互動與跨界融合。通過邀請數字人文學者作專題講座,就人文和技術的某些專題進行交流和討論;對學員開設社會網絡分析軟件培訓課程;以建立“數字人文”社交網絡群等方式進行數字人文技術傳播與分享,營造數字技術與人文結合的學術氛圍。
參考文獻:
[1]centerNet.Centers[EB/OL].[2018-11-13].http://dhcenternet.org/about.
[2][8]林澤斐,歐石燕.美國高校數字人文研究項目研究內容解析[J].圖書情報工作,2017(22):52-58.
[3]宋丹丹,戴凡,王安萌,周曉紅.國內圖書館數字人文研究綜述[J].晉圖學刊,2017(5):74-78.
[4][12]金玲娟.我國圖書館數字人文服務現狀、障礙與對策研究[J].圖書館工作與研究,2018(9):15-20.
[5]梁晨.量化數據庫:“數字人文”推動歷史研究之關鍵[J].江海學刊,2017(2):162-164.
[6]朱本軍,聶華.跨界與融合:全球視野下的數字人文——首屆北京大學“數字人文論壇”會議綜述[J].大學圖書館學報,2016(5):16-21.
[7]百度百科[EB/OL].[2018-11-13].https://baike.baidu.com/item/%E9%A1%B9%E7%9B%AE/477803?fr=aladdin.
[9]鄧要然,李少貞.美國高校數字人文中心調查[J].圖書館論壇,2017(3):26-34.
[10]中國國家圖書館.中國記憶項目實驗網站[EB/OL].[2018-11-13].http://www.nlc.gov.cn/cmptest/.
[11]上海圖書館.盛宣懷檔案知識庫[EB/OL].[2018-11-13].http://sd.library.sh.cn/sd/home/index.
[13]劉煒,葉鷹.數字人文的技術體系與理論結構探討[J].中國圖書館學報,2017(5):32-41.
[14]鄧要然.美國圖書館領域數字人文項目研究[J].圖書館工作與研究,2017(8):29-35.
(作者單位:上海大學圖書情報檔案系 來稿日期:2018-12-20)