周文泓 賀譚濤 吳瓊 黃小宇
摘要:文章解析了計算檔案學的典型實踐案例,旨在明晰數字技術與檔案領域融合的理論框架及實踐內涵,由此推動行動方法論的形成與后續發展。運用案例分析法,通過對NARA專題探索成果的歸納、整合,解析計算檔案學在檔案管理中的實現維度與具體內容。由此,從認識層基于跨學科特性的計算思維和技術意識,以及行動層的跨領域團隊建設、問題解決流程呈現出計算檔案學的實踐內容,以此明確計算檔案學后續在理論體系與行動策略這兩大層面亟待拓展的空間。
關鍵詞:計算檔案學;檔案管理;數字轉型;計算思維
分類號:G270.7
Analysis and Prospect on Multifaceted Practices in Computational Archival Science:A Case Study of NARAs Thematic Practices
Zhou Wenhong,He Tantao,Wu Qiong,Huang Xiaoyu
(School of Public Administration of Sichuan University, Chengdu, Sichuan, 610064)
Abstract:This article describes multiple representative cases of computational archival science, aiming to help build a theoretical framework and upgrade its intension in practices, thus promote its application and development. Adopting case study as a basic method, the dimensions and contents of computational archival science implemented in records management are clarified based on the synthesis and integration of NARAs thematic practices case. As a result, the practical contents of computational archival science are presented from computational thinking and technological awareness based on interdisciplinary nature at the cognitive level to interdisciplinary team building and problem-solving processes at the action level and so, the continuing space in the theoretical system and action strategies of computational archival science is clear.
Keywords:Computational Archival Science; Records Management; Digital Transformation; Com? putationalThinking
信息與數字技術的發展和應用正引發檔案領域的數字轉型與數字革命。面對諸多挑戰,將計算方法應用于檔案處理、分析、長期保存和訪問的計算檔案學正成為檔案領域的熱點議題,拓展了已有十余年探索進程的計算社會科學。計算檔案學被定義為一個跨學科的研究領域,主要涉及對大量文件或檔案進行處理、分析、長期保存和利用的計算方法與應用的研究,目的是為提高檔案資源的利用率,高效、精準地支持鑒定、處置、描述、保存及提供利用決策,參與和開展各項研究。隨著檔案領域同數字技術的深度融合成為重點發展方向并上升至國家戰略層面,計算檔案學亟待從理論建構延伸至實踐內涵的明確[1]。
實踐層面,關于計算方法及技術在檔案管理中的應用已有長足進展,重點體現在為面向檔案數據的創建描述、評估鑒定、長期保存、開放利用、敏感信息保護等提供技術支持[2]。如美國基于區塊鏈技術開展的個人健康檔案服務系統項目[3]、我國由大數據技術支持的數字檔案館建設項目[4]。然而,現有檔案實踐同計算機科學的理解偏重于單純對技術的工具性應用,對所使用的技術背后的社會要義、文化內涵、哲學認知等均欠缺充分認識,不利于檔案領域適應計算機科學所推進的數字轉型。
研究層面,依據截至2020年8月的調查結果來看,國外主要以IEEE下設專題年度研討會將計算檔案學設定為顯性主題,或是從計算科學的理論內涵與要件推導結合了檔案思想的結果,或是從檔案領域的數字技術應用實踐角度分析歸納了關于計算檔案學的主要問題與內容;而國內除對國外正開展的計算檔案學的相關成果如概念、發展趨勢予以介紹外,大量研究聚焦于檔案學與相關技術關系的研究,為計算檔案學理論的建構提供了基礎。這從認知上解析了在技術推進數字轉型的背景下,檔案理論與實踐變革的要點、方向、思路等,確認了檔案學內核與應變框架[5-6]。同時,技術如何應用于多樣化的檔案以及不同的檔案管理環節,同樣促進了檔案學領域的技術融合進程,數據存儲、數據分析、可視知識挖掘等數據科學具體技術應用于檔案管理的收集、鑒定等環節,深化了對檔案領域關于檔案、檔案真實性、檔案管理理念等頂層問題的探討[7-11]。然而,研究關于檔案領域如何從認知、方法、行動等多層面系統地融入數字技術并落定于實踐中的具體內涵闡釋卻有限,有待進一步基于計算檔案學已確認的基本要義并結合典型實踐案例予以說明。
由此,文章以美國檔案與文件署(以下稱NARA)的計算檔案學專題探索為例,旨在從項目內容中解讀計算檔案學貫穿于實踐的內涵。將其認定為典型實踐案例的原因在于,NARA計算檔案學專題探索的實踐主體成員為計算檔案學的發起人之一Richard Marciano,該專題由多個項目組成,且均在可持續發展中。文章將對組成專題的多個項目進行整合梳理與分析,以此明確計算檔案學在檔案實踐中的具體內涵與表現,展望更面向實踐的計算檔案學。
NARA的第二次世界大戰日裔美國人監禁營地系列文件數量大,極具檔案價值。針對海量檔案的不同保管及開發利用需求,NARA與馬里蘭大學信息學院數字策展創新中心(以下稱DCIC)合作,以計算檔案學為框架,面向不同檔案管理問題選取不同技術開展系列項目。
1.1項目背景
隨著數字轉型趨勢的加強,如何實現檔案管理與數字技術最大程度的結合,已成為NARA提升檔案管理工作的方向。
一方面,加快對開放重要館藏檔案的數字轉化、在線利用以及高效挖掘已成為重點業務內容,NARA以代表性館藏如極具社會與人文研究價值的第二次世界大戰日裔美國人監禁營地系列文件為對象,探索利用數字技術完成大批量開放檢測、元數據提取、檔案開發利用等業務工作,由此構建出融合了計算思維與方法的檔案管理體系。
另一方面,計算社會科學得到檔案學者與專家的關注,推動檔案管理與數字技術的深度結合,學者由此提出計算檔案學的建設倡議。在對計算檔案學的探索進程中,理論學者與實踐專家的合作成為重要方式,計算檔案學發起人之一的馬里蘭大學的教授Richard Marciano基于地理優勢尋求與NARA的合作。
1.2項目主體
基于上述背景,該實踐項目由NARA與DCIC領銜,在美國國家科學基金會“Brown Dog”項目以及IMLS的資助下,聯合致力于保護二戰時期日裔監禁故事的Densho、馬里蘭大學信息學院及其學生團隊、獨立研究員Sandra Laib等機構、團體和個人共同推進,是一個由多方合作開展且得益于多主體的項目,在2016至2019年間開展了系列實踐項目。在此過程中,NARA主體為主要需求提出者和二戰日裔美國人監禁營地系列文件提供者;此外,Densho也提供了基于系列文件提取的數據集;DCIC是項目的主要領導者和實踐開展者;其他機構、團體和個人則為本項目提供了大量技術和資源的支持。
1.3項目對象
受珍珠港事件影響,1942年3月18日,戰時安置管理局(以下稱WRA)正式成立,處理二戰期間強行安置和拘留日裔美國人的事宜,形成了一系列聯邦文件,包括“被拘留日裔美國人數據文件,1942—1946”(以下稱WRA Form 26),其中有被疏散的日裔美國人的入營文件;“1944—1946年安置中心疏散人員的最終責任名冊”(以下稱FAR),包含營員獲釋或轉移時的文件;具有100多個系列的各類WRA文件(以下稱RG 210),其中包括十分重要的“內部安全案例報告”索引卡(以下稱索引卡)。
1.4項目內容及成果
為實現高效的檔案管理及其業務目標,NARA積極理解與應用數字技術,基于計算思維與方法面向檔案管理需求設計出不同的實踐項目:
(1)檔案開放檢測
為促進WRA中RG210系列文件中25000多張索引卡(共21盒)的對外開放,NARA特殊利用和信息自由法案辦公室發布了個人身份信息(PII)公布政策,用于公開成年人索引卡。創新辦公室根據上述政策,將9996張JPEG格式的索引卡移交給DCIC,希望依靠DCIC的數字技術能力識別出不滿足開放政策的索引卡。
為驗證數字技術的可行性,DCIC選擇了247張索引卡進行測試。首先,DCIC使用ABBYY FineReader軟件將索引卡圖片轉化為UTF-8編碼文本,形成結構化數據。隨后,項目團隊在開源通用文本工程框架(以下稱GATE)下,利用英文信息提取插件ANNIE,將UTF-8編碼文本加載至GATE中,對索引卡中的信息進行識別,提取了姓名、英文名、日期、年份、年齡、住址ID以及家庭編號等元數據字段,并將其轉換成OWL/RDF語句,存儲于圖形數據庫中。最后,DCIC利用Densho提供的WRA Form 26、FARshu數據集,設計流程圖,編寫偽代碼和應用程序,并將索引卡結構化數據依次與Form 26、FAR數據集進行比對,若上述兩組數據集中任意一組的索引卡中姓名被發現有日本名字,且該人的年齡大于18歲,則滿足開放政策要求。
最后通過運行程序發現,247張索引卡中的228份滿足政策要求可以開放,12張信息索引卡為滿足政策要求但需限制開放,只有7張索引卡信息未出現在WRA Form 26、FAR系列文件中因而無法判定開放與否。換言之,通過初步測試發現,利用該檢測程序可以實現絕大部分索引卡的開放檢測工作。
(2)檔案組織整理
一方面,NARA希望為索引卡圖片提供描述性元數據,從而方便后續的文件管理活動;另一方面,檔案資源的開發利用也需要檔案組織整理工作的支持。上述原因使得需要對數字化后的索引卡信息進行組織和整理。除在檔案開放檢測項目中,利用計算機語義分析技術成功提取了描述性元數據外,DCIC還進行了兩項實踐項目,以支持后續的開發利用工作。
一是利用編程技術開發形成姓名登記表,從而通過姓名將各類文件關聯起來,追蹤個人經歷和行為。為達到這一目的,DCIC需要將營地中每個人都會擁有的兩組文件WRA Form 26和FAR進行匹配,確定營地內的人員姓名,形成姓名登記表。為此,DCIC將Densho整理的Form 26和FAR的數據集用于姓名登記表的開發工作。首先,DCIC設計了匹配方法,即標識WRA Form 26和FAR兩組文件中都出現的每個信息或字段。然后確定哪種組合可能會始終如一地返回至同一個人。隨后,DCIC與Densho合作,在Jupyter Notebook上以Python語言創建了用于發現兩組文件關聯的代碼。最后,項目團隊采取分而治之的策略,即針對不同的數據集采取不同的匹配策略,從而最大限度地實現對兩組文件的匹配。由此發現,家庭編號——出生年份是兩組文件最成功的匹配方式。此外,姓名——出生年份、家庭編號——姓名、撤離前城市——出生年份也是極為有效的文件匹配策略。
(3)融合技術意識
不同于單純地將技術看作檔案數字化的簡單工具,項目團隊以檔案管理過程中的各類具體需求與問題為導向,尊重技術的內涵,以深化積極使用技術的意識。
從廣度上看,NARA將對計算機技術的靈活應用覆蓋至檔案整理、鑒定、開發利用等檔案管理的重要環節。以個人身份信息的檢測實踐為例:在檔案整理環節,運用掃描技術、OCR、實體識別程序和數據清理軟件,實現紙質檔案數字化、數據化和標準化,形成便于后續利用的數據基礎;在開放鑒定環節,運用算法設計、偽代碼編寫、計算模型構建等多種技術分析數據,確認開放權限;在開發利用環節,展開數據可視化實踐,并開發了眾包交互式程序。
從深度上看,計算機技術被緊密嵌入檔案活動中。以檔案開放鑒定為例,項目團隊將檔案管理決策問題運用計算機思維分解為可量化與流程化的邏輯判斷問題,并進行了深入的數據分析。首先,設計個人身份信息檢測的算法并形成流程圖和圖表,在檔案人員和計算機人員的合作下編寫偽代碼,構建計算模型。然后,將偽代碼算法轉化為Python編寫應用程序,開發模塊化計算解決方案,最后進行故障排除和調試,剔除不符合開放要求的檔案,為后續的數據開發或其他實踐提供可用的數據集。
2.2行動層面
計算檔案學認知的拓展直接影響與指導具體行動,推動了計算檔案學框架下的系列實踐:
(1)建設跨領域的協作團隊
跨學科的特性使計算檔案學實踐涉及其他學科的專業知識或特定技能,跨領域的項目團隊建設以資源提供與專業能力支持為必要的行動策略。
首先,跨領域的項目團隊意味著不同領域專業人員的參與其中。例如,項目負責人多具有跨學科的研究和實踐背景,Richard Marciano教授在以機器學習和數據科學等計算機科學為研究方向的同時,也關注數字策展等信息管理內容。項目成員來自不同專業領域,其中包括信息管理、計算機科學、數學等領域。其次,檔案學語境下的計算檔案學使得實踐側重點表現為檔案學對其他學科的方法借鑒和技能使用,因而跨學科的項目團隊仍需堅持檔案學成員在其中的主導地位。以實踐項目為例:項目負責人Richard Marciano和William Underwood都是檔案學的研究者和關注者。此外,在20多名項目成員中,MLIS學科成員占50%以上。最后,計算檔案學作為理論與實踐前沿兼具的學科,往往依賴于領先性實踐單位與前瞻性科研機構的協作,這在NARA的實踐中就體現為NARA優質實踐團隊與馬里蘭大學品牌研究中心以及教育團隊的合作。
(2)識別實踐中的關鍵問題
計算檔案學能落實于實踐中的另一關鍵是問題導向。
明確需求是問題得以識別的基本前提。在計算機技術應用于檔案管理的過程中,需求的不同將直接影響解決問題的思路、方法和對所運用技術工具的選擇。例如,在設計受控詞匯表的實踐項目中,由于事故索引卡中對事故類型并無固定記錄要求與統一的記錄標準,事故類型無法直接用于索引卡的分類,事故索引卡的有效分類需求在項目設計中得到明確,這就為設計具體項目內容提供了方向。
問題聚焦,即明確實現需求所需解決的關鍵問題。例如,在設計受控詞匯表的項目實踐中,DCIC通過分析后發現,重點問題在于如何從索引卡中提煉出受控詞匯,從而將其用于事故索引卡的分類,這為項目設計具體活動與選取相應支撐技術提供了直接性的依據。
問題轉化,用以實現檔案管理問題向計算機問題的轉化,在促進問題解決的同時進一步推動檔案管理與計算機技術的融合發展。例如在設計受控詞匯表的項目實踐中,鑒于提煉受控詞匯與聚類分析有著極大的相似性,DCIC成功將檔案整理中的分類問題轉化為了計算機領域的聚類分析問題,從而為從技術角度解決分類問題創造了前提。
(3)實現對問題的抽象建模
從案例中不難發現,抽象建模是有效解決經轉化的檔案管理問題的通用策略。這是由于檔案管理問題已被轉化為計算機問題,而計算機問題本身具有結構化的特征,解決步驟相對固定,且問題解決過程中所采用的技術工具也是標準化的,這與抽象建模所要求的結構化、模塊化十分契合。NARA的實踐呈現了抽象建模的具體流程。
模型建構,即通過有層次地分析,將重點問題解構為一系列模塊化的子問題,從而形成流程化的問題解決模式。如關于個人身份信息檢測,項目團隊對這一問題進行了模型建構,設計了初始PII檢測算法的流程圖。首先,判斷索引卡中姓名是否為日文名稱,如果結果為真,則進入下一流程;在FAR姓名登記表以及WRA Form26姓名登記表中查找該日文名稱,根據出生日期和監禁日期計算年齡,以確定是否可以公開。
算法設計,將計算問題的模型以偽代碼的方式加以表達,有效彌補檔案管理人員與計算機從業人員之間的專業認知差距,便利了計算機專業人員對照需求編寫程序。一方面,利用偽代碼這一被簡化的編程語言,將問題模型轉化為算法流程。例如,為將個人身份信息檢測流程圖轉化為偽代碼,項目團隊首先學習了偽代碼編寫的相關要求和要點,隨后依照編程規則形成了專業編程人員可讀的If-Else語句。另一方面,對算法代碼進行結構性優化以便于后續維護和修改。例如,在該項目實踐過程中,項目團隊采取了模塊化的計算解決方案,即將程序設計為相對獨立的代碼塊。項目團隊設計了日期檢測的代碼塊PII Datecheck、查詢Form 26姓名登記表的FORM 26_Lookup代碼塊以及查詢FAR姓名登記表的Far_Lookup代碼塊。上述代碼塊彼此獨立且可進行計算,生成計算結果,而將其組合則可用于對個人身份信息的檢測活動。此種設計保證了對一處代碼的修改不會涉及對整體的改動,一來降低了代碼維修的時間成本,二來有助于后續功能的添加。
(4)運用多元化的技術工具
在技術意識充分融合于檔案管理的認知時,技術應用的關鍵在NARA的實踐中顯示為技術選擇過程中應當考慮實用性,并提供了兩方面的判定策略。
一是具有廣泛的應用場景,這在有效降低技術工具使用成本的同時也有助于提升項目人員對技術工具的熟練程度。例如,DCIC開展的諸多實踐項目,選擇了開源數據清理工具OpenRefine,并在諸如個人身份信息檢測、開發姓名登記表等實踐中被多次使用。再如,基于網頁的用于交互計算的應用程序Jupyter Notebook,一方面,DCIC將其用于多個實踐項目的代碼編寫與調試;另一方面,其內容都以文檔形式加以保存,從而便于DCIC與利益相關者進行有效的交流與溝通。
二是解決問題的針對性如何。一方面,在現有問題相對普遍的情況下,可直接利用現有技術工具進行解決。例如,在數據鏈接與可視化的實踐項目中,有一個小組需要實現對實體的關聯,而圖數據庫Neo4j在這方面具有成熟的經驗,故該小組直接基于圖數據庫Neo4j,將項目團隊在GATE中提取并存儲在數據庫中的人員、組織或事件等實體及其物理關系存儲在一起,從而建立一個社交網絡,用于數據分析等操作。同時,實踐顯示,若問題為實踐過程中獨有的問題,則需通過自行開發的方式加以解決。項目中最為典型的實踐即個人身份信息檢測工具的設計與開發工作。由于個人身份信息檢測中剔除18歲及以下的索引卡這一需求過于具體,市面上的大多數程序都無法直接適用,故在實踐中選擇自主開發。
計算檔案學的實踐項目從認識和行動兩個層面顯示了檔案領域與數字技術可持續融合的無限空間。例如,于我國而言,在數字檔案館全國聯動建設、電子文件單軌制管理為數字中國建設所驅動等背景下,檔案領域的數字轉型亟待完備的理論體系支撐與系統的行動策略指導。計算檔案學于全球范圍內亦有較大的發展必要性與空間,NARA的探索項目從整體上顯示了計算檔案學兼具理論與實踐的內涵及相應的行動內容,并提供了可供參考的經驗與待深化和擴充的方向。
3.1有待系統充實的理論體系
在指導實踐的理論框架建構方面,NARA充分凸顯了計算檔案學應有的跨學科、系統、數據思維,可借鑒并可深化拓展的空間表現為:
其一,跨學科在計算檔案學中表現為什么內容。盡管計算檔案學涉及的學科有多樣化的可能性,但以信息為載體跨界連接的有哪些學科、每個學科在信息與信息技術下表現為什么形態、各學科圍繞檔案學與計算機科學產生了什么樣的關系、跨學科集成的結果是什么等,還需更系統地認知和說明。
其二,作為計算檔案學的核心內容,計算思維盡管得到識別并嘗試同檔案管理融合,但無論整體的計算思維體系還是微觀的單一計算活動,仍待進一步確認同檔案領域的連接方向、相互作用關系以及連接之后的融合過程與結果。
其三,在實踐中,技術意識主要體現為計算機技術在檔案管理中多個重要環節的覆蓋以及在較復雜的重點環節中的主動應用,那么將技術融合至檔案管理情境后,檔案管理的思維、方法、活動過程等將如何應對與變革仍有待明晰。
3.2尚需完備擴充的行動策略
計算檔案學作為面向應用的跨學科事物,落實行動的策略亦是不可或缺的部分,NARA的實踐立足于經驗之上并提供了明確方向:
一是如何實現跨領域多主體的協同參與。首先,從眾多實踐行動來看,跨領域多主體的共同參與已成為該領域的發展趨勢,如何吸納多方主體和跨領域人才的加入、實現與多元主體的有效溝通、保證不同領域的專業性的同時維護檔案的核心地位等,均待探索。二是計算檔案學呈現出的計算科學范式下,規范化問題解決流程如何同已有的檔案管理流程全方位融合問題逐步凸顯,這在于以管理為中心的流程設計如何同以建模、算法設計等以工具為中心的方法有效結合,且結合之后重構的檔案管理體系為何等,均需進一步確認。三是如何對技術工具的精準應用提出更高要求,即技術與檔案問題的匹配如何實現最優化,技術背后的社會文化本質如何被深度理解,技術的使用方法是什么,技術如何成為檔案管理中常規穩定的模塊得以自動化使用等,有待明晰。
*本文系2018年國家社會科學基金項目“基于多元數字技術的網絡空間參與式歸檔研究”(項目編號:18CTQ037)階段性研究成果。
[1]國家檔案局.國家檔案局舉辦區塊鏈技術視頻專題講座[EB/OL].[2020-08-12].http://www.saac.gov.cn/daj/yaow/202006/488af1411812435ea7f3ac5ebefff7f1.shtml.
[2]傅天珍,鄭江平.計算檔案學的興起、探索與啟示[J].檔案學通訊,2019(4):28-33.
[3][10]Chen Z , Zhu Y.PersonalArchive Service System using Blockchain Technology:Case Study,Promising and Challenging[C]//IEEE International Conference on AI & Mobile Services. Honolulu:IEEE,2017:93-99.
[4]周耀林,朱倩.大數據時代我國數字檔案館的建設與發展[J].信息資源管理學報,2015(2): 108-113.
[5]于英香.檔案大數據研究熱的冷思考[J].檔案學通訊,2015(2):4-8.
[6]陶水龍.大數據視野下檔案信息化建設的新思考[J].檔案學研究,2017(3):93-99.
[7]王蘭成,劉曉亮.網上數字檔案大數據分析中的知識挖掘技術研究[J].浙江檔案,2013(10): 14-19.
[8]Lee C. Computer-Assisted Appraisal and Selection of Archival Materials[C]// IEEE International Conference on Big Data(Big Data).IEEE,2018:2721-2724.
[9]Post C,Chassanoff A,Lee C,et al.Digital Curation at Work: Modeling Workflows for Digital Archival Materials[C]//Proceedings of the 19th ACM/IEEE Joint Conference on Digital Libraries(JCDL). New York:IEEE,2019:39-48.
[11]LEMIEUX V L.A typology of blockchain recordkeeping solutions and some reflections on their implications for the future of archival preservation[C/OL].[2020-08-12].https: //www. researchgate.net/publication/322511343.