平 碩 黃永勤 楊安蓮/國防大學政治學院軍事信息與網(wǎng)絡輿論系
數(shù)字人文起源于“人文計算”,是近年來人文社會科學與計算機技術(shù)、數(shù)字技術(shù)相互融合的新型跨學科研究領(lǐng)域。學者們對于數(shù)字人文的定義莫衷一是,沒有確切的統(tǒng)一定論,其中2004年John Unsworth等專家編寫的《數(shù)字人文指南》成為最早系統(tǒng)研究數(shù)字人文的著作[1]。2009年現(xiàn)代語言協(xié)會年會(the Modern Language Association)上,“數(shù)字人文”作為一個新的研究領(lǐng)域獲得北美人文學界的關(guān)注;同年,武漢大學王曉光教授發(fā)表《“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿》[2],最早將數(shù)字人文概念引入國內(nèi)。數(shù)字人文被提出之后,國內(nèi)外學者發(fā)現(xiàn)通過信息技術(shù)手段重塑和改造人文知識,可以使深奧的人文學術(shù)領(lǐng)域被更為廣泛的民眾所理解和利用,進而提升學術(shù)領(lǐng)域的影響力[3]。
檔案是傳統(tǒng)人文研究的重要對象和資源,蘊含豐富的國家、社會和民族記憶,數(shù)字人文以一種新型學術(shù)模式和組織形式為檔案學研究和檔案工作提供了新思路。數(shù)字人文連續(xù)4年(2018年[4]、2019年[5]、2020年[6]、2021年[7])入選圖情檔學界研究熱點問題,馮惠玲教授[8]等權(quán)威專家也將“檔案與數(shù)字人文”研究作為“十四五”期間檔案學重點研究領(lǐng)域展望之一。經(jīng)過數(shù)年發(fā)展,檔案領(lǐng)域的數(shù)字人文研究已經(jīng)積累了一定數(shù)量的成果,但目前尚未發(fā)現(xiàn)有相關(guān)論文對其進行總結(jié)。本文嘗試梳理國內(nèi)外的相關(guān)研究進展,以期為后續(xù)研究提供參考。
筆者選擇圖書館和信息科學文摘數(shù)據(jù)庫(LISA)作為國外文獻來源數(shù)據(jù)庫,中國知網(wǎng)CNKI(含中國學術(shù)期刊〔網(wǎng)絡版〕、中國博士學位論文全文數(shù)據(jù)庫、中國優(yōu)秀碩士學位論文全文數(shù)據(jù)庫、中國重要會議論文全文數(shù)據(jù)庫和國際會議論文全文數(shù)據(jù)庫)為國內(nèi)文獻來源數(shù)據(jù)庫,檢索范圍從2004年1月至2021年9月,分別構(gòu)建檢索式“(SU digital humanity OR SU digital humanities OR SU humanities computing) AND (SU archive* OR SU records)”和“SU=(數(shù)字人文+人文計算+數(shù)字記憶)*(檔案+檔案館+檔案研究+檔案工作+檔案管理)”,經(jīng)過數(shù)據(jù)去重和補全,獲得國外文獻239篇、國內(nèi)文獻222篇(注:檢索并下載數(shù)據(jù)時間為2021年9月10日—14日)。
對文獻初步統(tǒng)計分析發(fā)現(xiàn):第一,從發(fā)表時間看,國內(nèi)外學者十分關(guān)注檔案領(lǐng)域的數(shù)字人文研究。整體而言,國外開展研究的時間比國內(nèi)早,而國內(nèi)有87%的論文發(fā)表在最近3年,研究迅速勢頭迅猛,已成為當下的研究熱點。第二,從文獻來源看,國內(nèi)研究論文多發(fā)表在檔案領(lǐng)域?qū)iT期刊上,國外研究論文多發(fā)表在圖書館和信息科學領(lǐng)域的期刊上。第三,從發(fā)文作者看,國內(nèi)外學者大多采取合作的方式進行研究,但國內(nèi)學者多在本研究領(lǐng)域內(nèi)合作,而國外學者多是跨領(lǐng)域、跨學科合作。第四,從研究機構(gòu)看,國內(nèi)外研究學者多集中于高校、圖書館和數(shù)字人文研究中心,表明數(shù)字人文在檔案領(lǐng)域的研究還需要逐步發(fā)展和完善。
筆者利用VOSviewer,分析國內(nèi)外研究成果的關(guān)鍵詞。分析發(fā)現(xiàn),國內(nèi)外研究熱點可以分為4個方面,且相互之間聯(lián)系密切。一是基本理論研究,涉及的關(guān)鍵詞包括數(shù)字人文、數(shù)字檔案、檔案、數(shù)字記憶、知識組織、Digital Humanities、Archives And Records、Digital Archives、Digitization、Metadata等。二是學科建設(shè)研究,涉及的關(guān)鍵詞包括檔案學、檔案工作、檔案館、數(shù)字轉(zhuǎn)型、人才培養(yǎng)、Humanities、Library and Archives、Digital Libraries、Research、Interdisciplinary、Cooperation等。三是應用技術(shù)研究,涉及的關(guān)鍵詞包括關(guān)聯(lián)數(shù)據(jù)、可視化、數(shù)據(jù)挖掘、Social Networks、Data Mining、Semantic Web、Geographic Information Systems(GIS)、Visualization等。四是實踐拓展研究,涉及的關(guān)鍵詞包括社會記憶、城市記憶、數(shù)字人文中心、非物質(zhì)文化遺產(chǎn)、Museums、Semantics、Library And Information Sciences、Digital Preservation等。
綜合上述文獻分析結(jié)果可以發(fā)現(xiàn),目前數(shù)字人文在國內(nèi)檔案學領(lǐng)域的研究思路主要是對數(shù)字化的檔案資源進行組織,建立檔案資源數(shù)據(jù)庫,運用信息技術(shù)手段進行數(shù)據(jù)挖掘和知識加工,向用戶提供可視化展示和利用服務。具體研究主題可以歸納為以下4個方面。
一是基礎(chǔ)理論研究。數(shù)字人文作為一種理念和方法,在融入檔案學領(lǐng)域的過程中應批判性地加以應用。很多學者對數(shù)字人文與檔案工作之間的關(guān)系進行探討,認為數(shù)字人文有助于檔案學科創(chuàng)新發(fā)展。加小雙[9]對檔案領(lǐng)域與數(shù)字人文領(lǐng)域的檔案概念進行分析和界定;張衛(wèi)東[10]認為檔案學科在實施數(shù)字人文的過程中,應運用辯證思維,既要積極利用,也不盲目追捧;左娜[11]提出保持對數(shù)字人文理念的持續(xù)批判,實現(xiàn)由“作為檔案研究重構(gòu)策略的數(shù)字人文”向“作為數(shù)字人文重構(gòu)策略的檔案理念”的轉(zhuǎn)變。
二是檔案資源建設(shè)和開發(fā)利用。數(shù)字人文背景下,檔案資源建設(shè)是開發(fā)利用的基礎(chǔ),檔案資源開發(fā)利用是開展項目和服務的重要環(huán)節(jié)。越來越多的研究借鑒國內(nèi)外的研究成果,以自建或復用本體、構(gòu)建知識圖譜和專題數(shù)據(jù)庫的方式進行檔案資源的開發(fā)利用,實現(xiàn)檔案資源知識組織和關(guān)聯(lián)推理,進而提供查詢和利用服務。同時,還有學者以檔案學科話語體系為標準,提出以“發(fā)現(xiàn)”“重構(gòu)”“故事化”三原語為主線的檔案研究路徑基本模式,形成數(shù)字人文視角下檔案研究的方法論體系[12]。
三是數(shù)字人文技術(shù)。數(shù)字人文技術(shù)是實現(xiàn)檔案資源服務、保證數(shù)字人文項目開展的重要手段。數(shù)字人文的技術(shù)與理念從檔案組織、著錄、管理、服務等層面給檔案業(yè)務活動帶來了巨大變革[13]。數(shù)字人文技術(shù)的應用取決于檔案資源的特點和類型,整體而言,對檔案內(nèi)容挖掘與知識發(fā)現(xiàn)是數(shù)字人文研究的重要組成部分[14]。地理信息系統(tǒng)(GIS)、數(shù)字地圖等可視化技術(shù)可以直觀展示檔案數(shù)據(jù)形象;人機交互、虛擬現(xiàn)實(VR/AR)等技術(shù)可以提供更好的用戶體驗,實現(xiàn)多媒體檔案的價值;文本分析、內(nèi)容挖掘等數(shù)據(jù)分析技術(shù)可以在語義層面提供更為廣泛的檔案信息檢索和利用服務。
四是數(shù)字人文項目。我國檔案領(lǐng)域的數(shù)字人文項目雖起步較晚但成果頗豐。從空間維度看,研究者以美國、日本、歐美等國家具有代表性的數(shù)字人文項目為研究對象,為我國數(shù)字人文項目提供參考和借鑒。從時間維度看,檔案機構(gòu)和研究者開展以文化遺產(chǎn)檔案、歷史檔案、紅色檔案、機構(gòu)檔案等為主體的數(shù)字人文項目,以實現(xiàn)檔案資源的價值。此外,研究者對我國具有代表性的歷史建筑、山川河流、文化名人等檔案資源進行整合,形成特色資源知識庫、知識圖譜、知識地圖等產(chǎn)品,為用戶提供檔案查詢和利用服務。
目前數(shù)字人文在國外檔案學領(lǐng)域的研究多由研究機構(gòu)推動,從具體領(lǐng)域項目實踐出發(fā),實現(xiàn)檔案資源的保護與利用。其研究主題可以歸納為以下3個方面。
第一,機構(gòu)主導特點明顯。國外檔案機構(gòu)主動服務和接受新思維的理念與意識要強于國內(nèi)檔案機構(gòu),因此國外的數(shù)字人文項目實踐大多由檔案機構(gòu)和數(shù)字人文中心合作組織開展。Lavinia Ciuffa[15]闡述了數(shù)字人文中心(DHC)對于數(shù)字化檔案描述的作用,認為其可以為研究檔案資源提供幫助;Megan E. Macken[16]探討了數(shù)字人文學科與GLAM(Galleries、Libraries、Archives、Museums)之間的合作優(yōu)勢及可行性;Tanya Clement[17]等人采用訪談的方式,討論了數(shù)字人文背景下檔案館未來的動態(tài)發(fā)展特點;Bernhard Fetz[18]闡述了奧地利國家檔案館在開發(fā)和利用檔案館藏資源和數(shù)字人文發(fā)展方面所做出的努力。
第二,數(shù)字人文技術(shù)和方法。國外學者對于信息技術(shù)在人文學科的應用非常重視,自然語言處理、語義關(guān)聯(lián)、虛擬現(xiàn)實、空間重建、文本分析等信息技術(shù)在實證研究方面得到了很好的應用和拓展。以“威尼斯時光機”(Venice Time Machine)項目為例,科研人員運用了掃描、圖形設(shè)計、3D建模等數(shù)字化技術(shù),文本搜索、語義搜索等數(shù)據(jù)管理技術(shù),文本分析、內(nèi)容挖掘等數(shù)據(jù)分技術(shù),視覺搜索、地理信息系統(tǒng)(GIS)等可視化技術(shù),為檔案資源的保存管理、信息搜索、內(nèi)容分析和可視化呈現(xiàn)等開辟了新的途徑。此外,A. Miller[19]等人認為交互式數(shù)據(jù)可視化可以用于深入探索數(shù)字館藏并激發(fā)用戶驅(qū)動;Sheila Bair[20]等人認為以規(guī)范化名稱標題和主題的形式添加元數(shù)據(jù),可以極大增強關(guān)鍵詞搜索體驗、有效滿足用戶需求。
第三,檔案資源保存與保護。國外研究學者對于檔案文化遺產(chǎn)的保存與保護十分重視。相比于傳統(tǒng)的檔案文化遺產(chǎn)保存與保護,開展數(shù)字人文項目能夠有效修復、組織、管理和保存數(shù)字化的檔案文化遺產(chǎn),為檔案文化遺產(chǎn)的數(shù)字長久保存提供解決方案。如,Marjan Balkestein[21]等人討論了使用ADA(數(shù)字學術(shù)遺產(chǎn)存檔)方法對舊的數(shù)據(jù)文件進行追溯歸檔,并發(fā)現(xiàn)其在檔案保管中具有現(xiàn)實作用;Cait Coker[22]等人建立關(guān)系型數(shù)據(jù)庫中的樹形結(jié)構(gòu),用以保存和恢復原始文本和數(shù)字化知識。
結(jié)合國內(nèi)外研究現(xiàn)狀,筆者認為國外數(shù)字人文與檔案學領(lǐng)域的研究雖然沒有發(fā)展成完整的研究體系,但從理論研究和實踐研究看,其相比國內(nèi)更加成熟。因此,國內(nèi)檔案領(lǐng)域數(shù)字人文研究需要在理論體系建設(shè)、技術(shù)開發(fā)與應用、項目成果與產(chǎn)品服務、跨學科交流合作中進一步發(fā)展。
第一,數(shù)字人文理念在檔案領(lǐng)域生根發(fā)芽。綜合國內(nèi)外的研究問題和項目實踐來看,一是數(shù)字人文與檔案學科領(lǐng)域的融合,革新了檔案領(lǐng)域的研究方法,拓展了檔案學科研究的邊界;二是數(shù)字人文理念為檔案資源整合提供了思路和方法、優(yōu)化了資源配置,有利于檔案資源建設(shè);三是數(shù)字人文一定程度上改變了傳統(tǒng)的檔案資源的開發(fā)利用模式,有利于實現(xiàn)檔案資源的內(nèi)在價值;四是數(shù)字人文為檔案學研究提供了先進的技術(shù)工具,為開展知識服務和組織聚合提供了有力的保障;五是項目實踐為數(shù)字人文與檔案學研究融合奠定了基礎(chǔ),進而在檔案管理、教育、科研等工作中發(fā)揮作用。2018年以來國內(nèi)數(shù)字人文研究經(jīng)歷了追捧熱議和辯證思考,正處于系統(tǒng)深入研究的階段,需要檔案學者們共同努力,為檔案學領(lǐng)域的數(shù)字人文研究積累經(jīng)驗。
第二,數(shù)字人文技術(shù)不可或缺。技術(shù)的支撐作用主要體現(xiàn)在以下方面。在信息組織過程中,自動標引技術(shù)、數(shù)據(jù)管理技術(shù)等數(shù)字化技術(shù)可以將非結(jié)構(gòu)化或半結(jié)構(gòu)化的檔案資源結(jié)構(gòu)化,使結(jié)構(gòu)化的檔案資源有序化,讓資源更加有效地被計算機識別從而進行挖掘和展示。在內(nèi)容分析過程中,文本分析技術(shù)、內(nèi)容挖掘技術(shù)等數(shù)據(jù)分析技術(shù)在發(fā)現(xiàn)、提取知識,以及數(shù)據(jù)描述、數(shù)據(jù)挖掘等方面有不可或缺的作用。在可視化展示過程中,虛擬現(xiàn)實技術(shù)、VR/AR技術(shù)等數(shù)字人文技術(shù)的應用,可以使計算機中的數(shù)字資源轉(zhuǎn)化為直觀的展覽形式,提供可視化的動態(tài)展示。但由于漢語具有特殊性,在古漢語識別和自然語言處理方面,我國數(shù)字人文技術(shù)相對國外還需要進一步發(fā)展和完善,這也是國內(nèi)檔案領(lǐng)域開展數(shù)字人文項目需要重點解決的問題。
第三,數(shù)字人文項目成果豐碩。國外的數(shù)字人文項目主要依托高校和數(shù)字人文中心進行,主題大多是歷史記憶和檔案管理,如“影谷(The Valley of The Shadow)”“9·11電子檔案(The September 11 Digital Archive)”“歐洲時光機”“莎士比亞手稿”等項目。國內(nèi)主要以高校數(shù)字人文研究中心和圖書館為主體,相繼開展了“中國家譜知識服務平臺”“北京記憶”“盛宣懷檔案知識庫”等一系列數(shù)字人文項目。國內(nèi)外在這方面也有合作,如,敦煌研究院和美國梅隆基金會合作的“數(shù)字敦煌”項目、北京大學和哈佛大學合作的“中國歷代人物傳記資料庫(CBDB)”等,都是典型代表。從形成的產(chǎn)品和服務來看,國內(nèi)的數(shù)字人文項目多以某個主題為主,成果相對分散;國外數(shù)字人文成果更加豐滿,更能滿足大多數(shù)用戶需求,相比國內(nèi)其產(chǎn)品服務和應用范圍更廣。
第四,學科和行業(yè)間合作交流是必經(jīng)之路。從國內(nèi)外研究論文看,數(shù)字人文研究涉及計算機學、文學、地理學、考古學、歷史學、經(jīng)濟學等研究領(lǐng)域,學者們試圖從新的技術(shù)角度構(gòu)建當代知識系統(tǒng)和認知方式,在數(shù)字時代重構(gòu)人文知識的脈絡和內(nèi)容,這使得數(shù)字人文有了普遍的跨學科意義。國外數(shù)字人文研究論文的關(guān)鍵詞中,涉及的學科領(lǐng)域非常豐富,不僅需要多個學科的學者共同合作完成,研究成果也往往會根據(jù)具體的研究內(nèi)容設(shè)置多個學科關(guān)鍵詞,這些關(guān)鍵詞體現(xiàn)了不同學科之間的交流合作。國內(nèi)檔案領(lǐng)域數(shù)字人文研究多集中在圖情檔學科內(nèi)部,雖然部分高校開始培養(yǎng)不同學科背景學生的數(shù)字人文素養(yǎng),但還需要以項目為牽引,進行跨領(lǐng)域的開放合作。
第五,數(shù)字人文在檔案學領(lǐng)域研究持續(xù)深入。截止到2021年5月,通過centerNet網(wǎng)站認證登記的國際數(shù)字人文建設(shè)實體共計168個。截止到2021年9月,我國有11所高校(清華大學、北京大學、武漢大學、南京大學、中國人民大學、上海大學、上海師范大學、南京師范大學、南京農(nóng)業(yè)大學、曲阜師范大學、臺灣大學)先后成立了數(shù)字人文研究中心,這說明數(shù)字人文的研究實體逐漸獲得學術(shù)界認可。從文獻來源看,國內(nèi)外有DHCommons、DHQ:Digital Humanities Quarterly、DSH:Digital Scholarship in the Humanities,以及《數(shù)字人文》《數(shù)字人文研究》《數(shù)位典藏與數(shù)位人文》等專業(yè)期刊,國內(nèi)于2019、2020、2021年連續(xù)召開的3屆數(shù)字人文年會,推動了數(shù)字人文研究的迅猛發(fā)展,為數(shù)字人文在檔案領(lǐng)域研究的持續(xù)深入提供了學術(shù)交流平臺。
下一步,筆者將嘗試在數(shù)字人文背景下對軍隊檔案資源的開發(fā)和利用進行研究,針對軍隊檔案資源的特點和內(nèi)容,采取信息組織與整合的方法,構(gòu)建軍隊檔案領(lǐng)域本體,進而構(gòu)建軍隊檔案資源專題數(shù)據(jù)庫和知識圖譜,實現(xiàn)軍隊檔案資源的檢索查詢與關(guān)聯(lián)利用服務,滿足軍隊備戰(zhàn)打仗和指揮決策的需求。