摘要:隨著數(shù)據(jù)要素價(jià)值的社會(huì)共識(shí)不斷加強(qiáng),人工智能對(duì)高質(zhì)量、大規(guī)模數(shù)據(jù)需求的凸顯,數(shù)據(jù)概念和數(shù)據(jù)工作不斷發(fā)展,促使檔案界從數(shù)據(jù)的視角來思考檔案資源建設(shè)問題。論文從需求升級(jí)、結(jié)構(gòu)擴(kuò)張、內(nèi)容拓展三個(gè)方面分析了數(shù)智轉(zhuǎn)型背景下檔案數(shù)據(jù)資源體系建設(shè)的整體性變化。即檔案資源體系由檔案數(shù)字資源體系向檔案數(shù)據(jù)資源體系轉(zhuǎn)變,其結(jié)構(gòu)由檔案原文數(shù)據(jù)向衍生檔案數(shù)據(jù)資源擴(kuò)展,其建設(shè)內(nèi)容在收集保管的基礎(chǔ)上新增數(shù)據(jù)生產(chǎn)和數(shù)據(jù)治理,由此形成新的實(shí)踐空間和研究空間。
關(guān)鍵詞:檔案資源體系 檔案數(shù)據(jù)化 數(shù)據(jù)生產(chǎn) 數(shù)據(jù)治理 數(shù)智轉(zhuǎn)型
Abstract: The societal consensus on the val? ue of data elements continues to strengthen, and the increasing demand for high- quality, large- scale data by artificial intelligence, along with the ongoing development of data concept and data work, have led the archival community to think about archival resources system from a data perspective. This article analyzes the issues related to the overall changes of the archival data resources system in the context of digital-intelli? gent transformation from three aspects: demand upgrade, structural transformation, and content expansion. Specifically, the archival resources system is transforming from a digit-oriented dig? itsystem to a data-oriented system, and its struc? ture is expanding from original data to derivative data. Data production and data governance are standing out in the process of the construction of the archival data resources system besides collection and custody, thereby creating new practical and research spaces.
Keywords: Archival resources system;Archi? val datafication;Data production;Data governance; Digital-Intelligent transformation
檔案資源體系建設(shè)是檔案事業(yè)的基石,因而也是我國檔案事業(yè)的政策部署和實(shí)踐開展的關(guān)鍵內(nèi)容。隨著信息化工作的推進(jìn),檔案資源體系建設(shè)不斷推進(jìn)數(shù)字化轉(zhuǎn)型。首部全國檔案信息化工作專項(xiàng)規(guī)劃《全國檔案信息化建設(shè)實(shí)施綱要》將“目錄數(shù)據(jù)庫建設(shè)”“機(jī)讀目錄移交”“檔案全文數(shù)據(jù)庫和多媒體數(shù)據(jù)庫建設(shè)”“電子文件歸檔”“電子檔案接收、保管、利用”“檔案數(shù)字化”作為信息化背景下檔案資源建設(shè)的主要任務(wù)。[1]這奠定了數(shù)字時(shí)代檔案資源體系建設(shè)的基本格局,即將數(shù)字形式的檔案原文、檔案目錄及其數(shù)據(jù)庫作為建設(shè)對(duì)象,將移交接收、保管利用作為建設(shè)環(huán)節(jié)。隨著“利用體系”概念的興起,利用逐漸從檔案資源體系建設(shè)任務(wù)中剝離,收集保管成為其核心內(nèi)容,“存量數(shù)字化”和“增量電子化”成為數(shù)字檔案資源建設(shè)的代表性表述。《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》要求“加快檔案資源數(shù)字轉(zhuǎn)型。加強(qiáng)國家檔案數(shù)字資源規(guī)劃管理,逐步建立以檔案數(shù)字資源為主導(dǎo)的檔案資源體系。大力推進(jìn)‘增量電子化’……繼續(xù)做好‘存量數(shù)字化’”[2]。這意味著從21世紀(jì)第3個(gè)10年開始,檔案數(shù)字資源將是檔案資源的主要構(gòu)成。
恰好就在這個(gè)時(shí)期,人類社會(huì)進(jìn)入數(shù)智轉(zhuǎn)型驅(qū)動(dòng)新質(zhì)生產(chǎn)力發(fā)展的新階段。數(shù)據(jù)要素價(jià)值的社會(huì)共識(shí)不斷加強(qiáng),人工智能對(duì)高質(zhì)量、大規(guī)模數(shù)據(jù)需求的凸顯,數(shù)據(jù)概念和數(shù)據(jù)工作不斷發(fā)展,促使檔案界從數(shù)據(jù)的視角來審視檔案資源和檔案數(shù)字資源。檔案數(shù)據(jù)概念興起,相關(guān)研究比重不斷加大。在此語境下,檔案資源體系數(shù)字化轉(zhuǎn)型即檔案數(shù)據(jù)資源體系的建設(shè)。從檔案資源體系到檔案數(shù)字資源體系,再到檔案數(shù)據(jù)資源體系,并非僅僅是適應(yīng)當(dāng)下形勢的、簡單的概念替換,而是意味著檔案資源體系視角的轉(zhuǎn)變、構(gòu)成的變革及建設(shè)環(huán)節(jié)的拓展。馮澤宇等[3]提出構(gòu)建“制度、組織、業(yè)務(wù)、技術(shù)、人才”五位一體的檔案數(shù)據(jù)資源體系建設(shè)策略;丁家友等[4]提出動(dòng)態(tài)平衡的檔案數(shù)據(jù)資源生態(tài)要素、多主體協(xié)同的檔案內(nèi)容服務(wù)、多源異構(gòu)檔案數(shù)據(jù)共享等檔案數(shù)據(jù)資源生態(tài)圈構(gòu)建維度;金培中等[5]分享了嘉興市檔案館數(shù)據(jù)資源建設(shè)的成果。但是,尚未有研究對(duì)檔案資源體系建設(shè)整體變革加以體系化梳理和方向性建構(gòu)。本文從檔案數(shù)據(jù)資源體系建設(shè)需求變化入手,闡述數(shù)智化演進(jìn)過程中其結(jié)構(gòu)變化和建設(shè)內(nèi)容的拓展。
《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》中所明確的檔案資源體系的主導(dǎo)——檔案數(shù)字資源是《中華人民共和國檔案法》中的概念,根據(jù)權(quán)威釋義,檔案數(shù)字資源是對(duì)“電子檔案、傳統(tǒng)載體檔案數(shù)字化成果以及其他具有檔案屬性或檔案價(jià)值的數(shù)字資源的統(tǒng)稱”[6],該概念側(cè)重強(qiáng)調(diào)檔案作為數(shù)字形式的數(shù)據(jù)資源的全面覆蓋性。而檔案行業(yè)標(biāo)準(zhǔn)《檔案數(shù)字資源備份實(shí)施規(guī)范》(DA/T 99—2024)則指出,檔案數(shù)字資源是“以數(shù)字形式存在的各類檔案信息資源,包括電子檔案及其元數(shù)據(jù)、檔案目錄數(shù)據(jù)、傳統(tǒng)載體檔案數(shù)字化成果等”[7],該概念則強(qiáng)調(diào)數(shù)字形式的檔案及其元數(shù)據(jù)、目錄數(shù)據(jù)。
檔案數(shù)據(jù)資源是從數(shù)據(jù)視角對(duì)檔案數(shù)字資源概念的豐富、深化和發(fā)展。我們當(dāng)然可以顧名思義地理解為由檔案數(shù)據(jù)構(gòu)成的資源體系。鑒于學(xué)界和業(yè)界現(xiàn)有多種關(guān)于“檔案數(shù)據(jù)”的理解,其邊界寬窄不同,既有將其界定為數(shù)字檔案(包含原生性電子文件和檔案數(shù)字化成果)及元數(shù)據(jù)和目錄,也有將其描述為檔案數(shù)據(jù)化的結(jié)果,還可能包括檔案管理業(yè)務(wù)的數(shù)據(jù)。[8]面對(duì)數(shù)智轉(zhuǎn)型時(shí)代背景下國民經(jīng)濟(jì)和社會(huì)發(fā)展對(duì)數(shù)據(jù)資源質(zhì)量和規(guī)模的迫切需求,本文提倡立足資源定位,即以檔案資源為基礎(chǔ),盡可能包容地來建構(gòu)檔案數(shù)據(jù)和檔案數(shù)據(jù)資源體系的概念。檔案數(shù)據(jù)資源體系是指通過采集、整合、加工等方式所構(gòu)建起來的檔案及其衍生、關(guān)聯(lián)數(shù)據(jù)的有機(jī)整體,其體系性不僅表現(xiàn)在多種類型的數(shù)字檔案上,也表現(xiàn)在由數(shù)字檔案衍生、與數(shù)字檔案關(guān)聯(lián)的其他數(shù)據(jù)上,包括元數(shù)據(jù)(目錄)、檔案數(shù)據(jù)化結(jié)果、相關(guān)數(shù)據(jù)等。
從檔案資源體系到檔案數(shù)據(jù)資源體系的概念轉(zhuǎn)變,是實(shí)施數(shù)字中國戰(zhàn)略的需要。2023年2月,中共中央、國務(wù)院聯(lián)合頒布《數(shù)字中國建設(shè)整體布局規(guī)劃》,[9]數(shù)據(jù)資源體系成為數(shù)字中國的兩大基礎(chǔ)之一。雖然廣義的數(shù)據(jù)是任何形式的信息記錄,[10]但作為在數(shù)字時(shí)代不斷加強(qiáng)的概念,數(shù)據(jù)自帶數(shù)字屬性,在數(shù)字空間,數(shù)據(jù)通常是數(shù)字?jǐn)?shù)據(jù)的代名詞。檔案是經(jīng)過選擇的、有保存價(jià)值的業(yè)務(wù)信息記錄,具有真實(shí)性、關(guān)聯(lián)性和不可再生性,因而也是重要的、法定的數(shù)據(jù)類型。從數(shù)據(jù)的視角來看,數(shù)字空間中的檔案資源體系是無可爭議的檔案數(shù)據(jù)資源體系,因而也是數(shù)字中國數(shù)據(jù)底座重要的構(gòu)成。
從檔案資源體系到檔案數(shù)據(jù)資源體系的概念轉(zhuǎn)變,也是激活檔案數(shù)據(jù)要素價(jià)值的需要。中國是最早提出數(shù)據(jù)要素的國家,2019年10月,黨的十九屆四中全會(huì)首次將數(shù)據(jù)納入生產(chǎn)要素范疇,《中共中央國務(wù)院關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》《中共中央國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》等數(shù)據(jù)政策相繼出臺(tái),通過數(shù)據(jù)資源流通應(yīng)用發(fā)揮其經(jīng)濟(jì)價(jià)值的政策路線非常堅(jiān)定。檔案界也掀起檔案數(shù)據(jù)要素研究的熱潮。[11]人工智能技術(shù)的發(fā)展進(jìn)一步激發(fā)了檔案數(shù)據(jù)價(jià)值的潛能。數(shù)智轉(zhuǎn)型不斷發(fā)展形勢下,要求更多從價(jià)值實(shí)現(xiàn)的角度推動(dòng)檔案數(shù)據(jù)資源體系的建設(shè)。
如果說傳統(tǒng)環(huán)境下檔案資源體系的構(gòu)成主要是“檔案+目錄”,數(shù)字環(huán)境下檔案資源體系的構(gòu)成變?yōu)椤霸臄?shù)據(jù)庫+目錄數(shù)據(jù)庫”,到了數(shù)據(jù)作為人工智能重要燃料和產(chǎn)出內(nèi)容的數(shù)智時(shí)代,檔案數(shù)據(jù)資源體系的構(gòu)成不應(yīng)止步于此,而要在面向業(yè)務(wù)場景發(fā)揮檔案數(shù)據(jù)價(jià)值觀念的引導(dǎo)下不斷豐富資源體系構(gòu)成。在橫向上,在“應(yīng)歸盡歸,應(yīng)收盡收”的工作導(dǎo)向下不斷優(yōu)化資源結(jié)構(gòu),同時(shí)加強(qiáng)對(duì)其他信息記錄、文獻(xiàn)數(shù)據(jù)的主動(dòng)收集;在縱向上,伴隨“存量數(shù)字化”和“增量電子化”的不斷推進(jìn),以獲得可供計(jì)算機(jī)理解、分析和計(jì)算的數(shù)據(jù)為目標(biāo)的檔案數(shù)據(jù)化不斷深入,面向新一代用戶的檔案數(shù)據(jù)產(chǎn)品不斷發(fā)展,檔案數(shù)據(jù)資源體系以原文數(shù)據(jù)及其描述性數(shù)據(jù)為基礎(chǔ),通過加工處理不斷衍生,擴(kuò)展至包括多維標(biāo)簽、知識(shí)單元、檔案信息產(chǎn)品等多層次資源在內(nèi)的復(fù)雜體系。
(一)檔案數(shù)據(jù)資源體系的構(gòu)成
檔案數(shù)據(jù)資源體系的構(gòu)成如圖1所示。該圖左側(cè)反映的是檔案數(shù)據(jù)資源體系建設(shè)初級(jí)階段的構(gòu)成,右側(cè)則揭示檔案數(shù)據(jù)資源體系建設(shè)高級(jí)階段的構(gòu)成,其包含的資源類型并無明顯變化,改變的是各類數(shù)據(jù)資源的占比。在初級(jí)階段,原始檔案數(shù)據(jù)資源占比最高,而隨著檔案數(shù)據(jù)資源體系建設(shè)的推進(jìn),經(jīng)衍生、加工形成的檔案數(shù)據(jù)不斷增多,體現(xiàn)了檔案領(lǐng)域?qū)?shù)據(jù)資源建設(shè)的主動(dòng)作為。
完整的檔案數(shù)據(jù)資源體系構(gòu)成包括四類資源。
一是原始檔案數(shù)據(jù),這是資源體系的基座。其主體是數(shù)字檔案,即作為檔案的數(shù)字?jǐn)?shù)據(jù),包括原生性電子文件和傳統(tǒng)載體檔案的數(shù)字化成果,以及伴隨數(shù)字檔案一起接收的、描述數(shù)字檔案的元數(shù)據(jù)(目錄)、說明文檔等數(shù)據(jù)。
二是外聯(lián)數(shù)據(jù),是指與原始檔案數(shù)據(jù)相關(guān)聯(lián)的數(shù)據(jù)資源。這類數(shù)據(jù)包括但不限于文獻(xiàn)、標(biāo)準(zhǔn)、互聯(lián)網(wǎng)數(shù)據(jù)等信息。外聯(lián)數(shù)據(jù)是否收集,主要視數(shù)據(jù)查詢利用和產(chǎn)品開發(fā)的需要。
三是衍生檔案數(shù)據(jù),是由原始檔案數(shù)據(jù)經(jīng)過數(shù)據(jù)化、知識(shí)化加工而來的產(chǎn)物。這類數(shù)據(jù)包括但不限于對(duì)檔案資源進(jìn)行轉(zhuǎn)錄識(shí)別、模態(tài)轉(zhuǎn)換后的數(shù)據(jù),如文字識(shí)別、聲音識(shí)別的結(jié)果,圖像識(shí)別的標(biāo)注;增強(qiáng)描述的標(biāo)簽;原始文檔解構(gòu)后產(chǎn)生的關(guān)于文檔主題(如人、事、時(shí)、地、物等)、特征、式樣等知識(shí)單元,“實(shí)體—屬性—值”三元組是其經(jīng)典表現(xiàn);由知識(shí)單元關(guān)聯(lián)形成的知識(shí)圖譜等;還包括數(shù)據(jù)庫、專題庫、知識(shí)庫、向量庫等各類組織有序的數(shù)據(jù)集合。
四是檔案數(shù)據(jù)產(chǎn)品,是指按照用戶需求和應(yīng)用場景需要,對(duì)原始、衍生、外聯(lián)數(shù)據(jù)進(jìn)行整合開發(fā)并提供應(yīng)用的數(shù)據(jù)資源。比如數(shù)據(jù)集、數(shù)字出版物、數(shù)字展陳、數(shù)字游戲等多類型內(nèi)容產(chǎn)品及與服務(wù)集成在一起的多渠道服務(wù)產(chǎn)品等。
(二)檔案數(shù)據(jù)資源體系的特性
檔案數(shù)據(jù)資源體系具有以下四個(gè)特性。
一是層次性。檔案數(shù)據(jù)資源體系具有多層次的結(jié)構(gòu),從基礎(chǔ)性的原始檔案數(shù)據(jù),拓展性的外聯(lián)數(shù)據(jù),到細(xì)顆粒度、高集合度的衍生檔案數(shù)據(jù),再到多樣化的檔案數(shù)據(jù)產(chǎn)品,檔案數(shù)據(jù)資源體系內(nèi)容不斷豐富,其建設(shè)也是一個(gè)逐步深化和擴(kuò)展的過程,在此過程中,檔案數(shù)據(jù)資源的價(jià)值得以提升。
二是開放性。檔案數(shù)據(jù)資源體系并非封閉的,一方面,它能接納多種外部來源數(shù)據(jù)的不斷融入,歸檔、移交、采集、征集等檔案收集工作的正常開展是檔案數(shù)據(jù)資源體系開放性的基本保證。隨著文件歸檔、檔案移交接收政策的完善,檔案管理系統(tǒng)對(duì)接業(yè)務(wù)系統(tǒng)能力的加強(qiáng),檔案資源的種類不斷豐富,如多地檔案館加強(qiáng)對(duì)民生相關(guān)的專業(yè)檔案的收集和音視頻資料的采集。另一方面,它能結(jié)合當(dāng)下技術(shù)的應(yīng)用輸出多種形式、形態(tài)的數(shù)據(jù)和數(shù)據(jù)產(chǎn)品。如某企業(yè)利用人工智能技術(shù)對(duì)特定公文進(jìn)行結(jié)構(gòu)分解,形成知識(shí)庫,以開展此類公文作者群體、主題分布的分析。

三是關(guān)聯(lián)性。不同層級(jí)的檔案數(shù)據(jù)資源并非孤立存在,檔案之間、檔案及其描述數(shù)據(jù)之間,檔案及其加工數(shù)據(jù)之間具有緊密的內(nèi)在聯(lián)系。檔案數(shù)據(jù)資源建設(shè)的一項(xiàng)重要的任務(wù)就是揭示并序化檔案聯(lián)系,通過檔案分類、專題匯聚、關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜、數(shù)字?jǐn)⑹碌确绞匠尸F(xiàn)關(guān)聯(lián)。
四是生長性。檔案數(shù)據(jù)資源體系的生長性是其開放性和關(guān)聯(lián)性的結(jié)果。隨著檔案資源的增加、數(shù)據(jù)化程度的加深,數(shù)據(jù)關(guān)聯(lián)的挖掘及業(yè)務(wù)需求、利用方式的改變,檔案數(shù)據(jù)資源體系持續(xù)擴(kuò)展和演變。
數(shù)智轉(zhuǎn)型對(duì)檔案數(shù)據(jù)資源體系提出了構(gòu)成更為豐富、質(zhì)量和規(guī)模相匹配的建設(shè)要求,檔案界需在“掌握檔案數(shù)據(jù)形成機(jī)理、流轉(zhuǎn)規(guī)律與演化趨勢的基礎(chǔ)上……重構(gòu)檔案數(shù)據(jù)‘收管存用’的業(yè)務(wù)環(huán)節(jié)與方法模式”,重組檔案數(shù)據(jù)管理流程。[12]在2024檔案數(shù)據(jù)產(chǎn)教融合大會(huì)暨第十四屆中國電子文件管理論壇上,《檔案管理》期刊主編劉永教授用“從收、存、用到生、治、慧”形容檔案管理關(guān)鍵環(huán)節(jié)的變化。其中“生”即生產(chǎn),“治”即治理,“慧”即智慧服務(wù)。在收集保管的基礎(chǔ)上,檔案數(shù)據(jù)資源體系建設(shè)的工作內(nèi)容新增數(shù)據(jù)生產(chǎn)和數(shù)據(jù)治理,由此形成新的實(shí)踐空間和研究空間。
(一)面向數(shù)據(jù)要素的檔案數(shù)據(jù)生產(chǎn)
圖1所示的檔案數(shù)據(jù)資源體系構(gòu)成中,自下而上不同類型檔案數(shù)據(jù)資源之間的內(nèi)在邏輯,已經(jīng)彰顯了數(shù)據(jù)生產(chǎn)任務(wù)的必要性。這意味著在從外部收集檔案之余,檔案部門作為數(shù)據(jù)生產(chǎn)者,由收集而來的檔案數(shù)據(jù)加工生產(chǎn)出更多的檔案數(shù)據(jù),將成為數(shù)智時(shí)代掌握檔案數(shù)據(jù)資源的另一條途徑。
數(shù)據(jù)已經(jīng)成為繼土地、勞動(dòng)力、資本、技術(shù)之后的第五大生產(chǎn)要素。但數(shù)據(jù)并非天然成為生產(chǎn)要素,必須經(jīng)過加工使其具有使用價(jià)值并與業(yè)務(wù)場景相銜接的“要素化”過程。清華大學(xué)金融科技研究院院長廖理認(rèn)為數(shù)據(jù)要素化包括將“原始數(shù)據(jù)加工成機(jī)器可讀的,具備投入生產(chǎn)使用條件的生產(chǎn)數(shù)據(jù)”和“讓數(shù)據(jù)可以通過流通進(jìn)入到社會(huì)化大生產(chǎn)中”兩個(gè)過程。[13]在檔案學(xué)語境中,能夠?qū)⑵渎鋵?shí)為“可機(jī)用”和“可流通”兩個(gè)方面,前者泛指將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可以識(shí)讀、理解和分析的衍生數(shù)據(jù),加工成業(yè)務(wù)和用戶需要的產(chǎn)品數(shù)據(jù);后者包括檔案數(shù)據(jù)開放、共享、授權(quán)運(yùn)營、交易、服務(wù)等若干檔案利用體系建設(shè)的任務(wù)。由此可見,保證檔案數(shù)據(jù)“可機(jī)用”是面向數(shù)據(jù)要素價(jià)值實(shí)現(xiàn)的檔案數(shù)據(jù)資源體系建設(shè)任務(wù),具體可包括數(shù)字化、數(shù)據(jù)化、知識(shí)化、語料化、產(chǎn)品化等工作內(nèi)容。其要點(diǎn)如表1所示。
1.數(shù)字化:生產(chǎn)機(jī)器可讀數(shù)據(jù)。數(shù)字化是將傳統(tǒng)載體檔案轉(zhuǎn)化為數(shù)字?jǐn)?shù)據(jù)的過程。數(shù)字化是檔案數(shù)據(jù)的初級(jí)生產(chǎn)。數(shù)字化的時(shí)機(jī)可能在歸檔、移交之前,也可能在接收檔案之后,無論何種情況,均需要保證數(shù)字化成果的質(zhì)量,技術(shù)指標(biāo)符合相關(guān)規(guī)定,檔案原文與目錄之間能夠準(zhǔn)確掛接,避免因精度不夠、掛接不明、著錄不準(zhǔn)等問題出現(xiàn)二次加工的情況。

2.數(shù)據(jù)化:生產(chǎn)機(jī)器可算數(shù)據(jù)。數(shù)據(jù)化是對(duì)非結(jié)構(gòu)化檔案原文進(jìn)行加工處理,將文檔轉(zhuǎn)變?yōu)闄C(jī)器可識(shí)別、可分析、可計(jì)算的數(shù)據(jù)的過程,完整的數(shù)據(jù)化工作包括轉(zhuǎn)錄識(shí)別、描述增強(qiáng)、關(guān)聯(lián)構(gòu)建和矢量處理等環(huán)節(jié)。[14]數(shù)據(jù)化是面向人機(jī)協(xié)同利用的數(shù)據(jù)結(jié)構(gòu)化和粒度細(xì)化,是數(shù)智轉(zhuǎn)型背景下檔案數(shù)據(jù)生產(chǎn)的核心環(huán)節(jié)。當(dāng)下階段檔案界強(qiáng)調(diào)的數(shù)據(jù)化工作以轉(zhuǎn)錄識(shí)別和描述增強(qiáng)為主。其中轉(zhuǎn)錄識(shí)別是將文檔的內(nèi)容數(shù)據(jù)變?yōu)闄C(jī)器可操作的數(shù)據(jù),比如通過光學(xué)字符識(shí)別技術(shù)將掃描后的紙質(zhì)檔案圖像轉(zhuǎn)換為文本數(shù)據(jù),以提高檔案內(nèi)容數(shù)據(jù)的可訪問性和可搜索性。描述增強(qiáng)是對(duì)檔案及其內(nèi)容進(jìn)行標(biāo)注的工作,可以通過自然語言處理技術(shù)、大語言模型等技術(shù)對(duì)檔案內(nèi)容進(jìn)行語義分析和標(biāo)注,形成富語義描述數(shù)據(jù)庫和標(biāo)注數(shù)據(jù)集。
3.知識(shí)化:生產(chǎn)新知識(shí)。知識(shí)化是對(duì)檔案數(shù)據(jù)資源進(jìn)行整合、分析的基礎(chǔ)上,面向用戶形成不同于原始數(shù)據(jù)新的知識(shí)發(fā)現(xiàn)的過程。知識(shí)化是對(duì)檔案、檔案內(nèi)容、元數(shù)據(jù)、檔案標(biāo)注數(shù)據(jù)之間關(guān)聯(lián)加以揭示的過程,也可以被理解為構(gòu)建檔案數(shù)據(jù)之間多維關(guān)聯(lián)的工作,是檔案數(shù)據(jù)生產(chǎn)的高階環(huán)節(jié)。其覆蓋面較廣,既包括相對(duì)傳統(tǒng)的檔案分類、聚類,生成分類索引、專題數(shù)據(jù)庫等;也包括基于細(xì)粒度數(shù)據(jù)的知識(shí)關(guān)聯(lián)構(gòu)建,如關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、知識(shí)圖譜、知識(shí)網(wǎng)絡(luò)等。在知識(shí)關(guān)聯(lián)構(gòu)建中,本體、詞表、知識(shí)圖譜是信息資源管理領(lǐng)域知識(shí)化的常規(guī)方法,主要過程包括本體建模、詞表構(gòu)建、實(shí)體識(shí)別、關(guān)系抽取、圖譜呈現(xiàn)等,在干部人事檔案[15]、家譜檔案[16]、地質(zhì)資料[17]等多類型資源中得到實(shí)證應(yīng)用。知識(shí)化的過程雖然是人機(jī)協(xié)同的,但知識(shí)化的結(jié)果最終是為人服務(wù)的。
4.語料化:構(gòu)建數(shù)據(jù)集。語料化是將檔案數(shù)據(jù)作為人工智能算法模型開發(fā)原料加以匯集處理的過程。面對(duì)不同類型的、不同階段的模型訓(xùn)練和測試任務(wù),可提供的語料包括多模態(tài)檔案原文及其元數(shù)據(jù)、標(biāo)注數(shù)據(jù)、檔案知識(shí)單元等。語料化不僅僅是檔案數(shù)據(jù)的簡單收集,也涉及檔案數(shù)據(jù)的深度加工,從而生產(chǎn)出能夠直接支持機(jī)器學(xué)習(xí)和人工智能應(yīng)用的高質(zhì)量數(shù)據(jù)集。語料化是人工智能應(yīng)用這一特定場景下的檔案數(shù)據(jù)生產(chǎn),是對(duì)數(shù)字化、數(shù)據(jù)化、知識(shí)化成果的綜合應(yīng)用,可視作一種特定用途的產(chǎn)品化。語料集可以免費(fèi)公開,也可以上市交易,前者如美國國家檔案與文件署在開放數(shù)據(jù)網(wǎng)站上公布了50個(gè)數(shù)據(jù)集;[18]后者如我國2023年7月上海數(shù)據(jù)交易所正式上線語料庫,3個(gè)月后語料數(shù)據(jù)集達(dá)218個(gè),占比高達(dá)86.5%。[19]
5.產(chǎn)品化:開發(fā)用戶所需數(shù)據(jù)。產(chǎn)品化是在綜合應(yīng)用各類原始、關(guān)聯(lián)和衍生檔案數(shù)據(jù)的基礎(chǔ)上,形成滿足用戶需求的最終產(chǎn)品的過程。如果說語料化是面向人工智能用戶的產(chǎn)品化,那么一般的檔案數(shù)據(jù)產(chǎn)品化則以人類用戶需求的滿足為目標(biāo)。數(shù)智時(shí)代下的檔案數(shù)據(jù)產(chǎn)品開發(fā),依托的是經(jīng)過數(shù)字化、數(shù)據(jù)化、知識(shí)化等步驟加工處理后的顆粒度更細(xì)、數(shù)據(jù)體量更大、知識(shí)關(guān)聯(lián)更強(qiáng)的數(shù)據(jù)成果,故而可以突破編研、展覽等傳統(tǒng)檔案開發(fā)的局限,產(chǎn)出更具文化內(nèi)涵、科技屬性和經(jīng)濟(jì)價(jià)值的產(chǎn)品,產(chǎn)出更具交互性、沉浸感、趣味性,更加適應(yīng)網(wǎng)絡(luò)原住民使用習(xí)慣的新型數(shù)據(jù)產(chǎn)品。如上海市檔案館推出“跟著檔案觀上海”數(shù)字人文平臺(tái),以50多個(gè)上海地標(biāo)為基點(diǎn),將記錄相關(guān)建筑、人物、事件的千余份檔案文獻(xiàn)建立時(shí)空關(guān)聯(lián),反映城市發(fā)展的變遷。[20]南京市檔案館和南京大數(shù)據(jù)集團(tuán)合作南京云錦、南京金箔兩大類非遺檔案專題數(shù)據(jù)庫,率先在國內(nèi)開展非遺檔案數(shù)據(jù)資產(chǎn)轉(zhuǎn)化試點(diǎn)。[21]
(二)面向數(shù)據(jù)質(zhì)量的檔案數(shù)據(jù)治理
隨著檔案數(shù)據(jù)資源數(shù)量、類型的不斷增加,原始檔案數(shù)據(jù)之外的檔案數(shù)據(jù)類型的豐富,檔案數(shù)據(jù)資源的規(guī)模劇增,將引發(fā)海量檔案數(shù)據(jù)的治理問題。這里的治理不僅是對(duì)接收檔案的質(zhì)量把關(guān),對(duì)數(shù)字檔案長期保存過程的風(fēng)險(xiǎn)防范,更是圍繞著多類型檔案數(shù)據(jù)的真實(shí)性、完整性、可用性、安全性、一致性、規(guī)范性等綜合質(zhì)量目標(biāo)開展的一系列管控活動(dòng)。數(shù)據(jù)治理旨在實(shí)現(xiàn)檔案數(shù)據(jù)質(zhì)量和規(guī)模的同步發(fā)展。
檔案數(shù)據(jù)治理是近幾年檔案學(xué)界關(guān)注較多的研究領(lǐng)域。相關(guān)研究集中在宏觀的檔案數(shù)據(jù)治理內(nèi)涵、檔案數(shù)據(jù)治理體系[22]、檔案數(shù)據(jù)治理能力體系[23]等方面,亦關(guān)注具體的檔案數(shù)據(jù)治理策略問題,包括完善檔案數(shù)據(jù)治理的制度框架,健全檔案數(shù)據(jù)治理的組織架構(gòu),創(chuàng)新檔案數(shù)據(jù)治理的參與機(jī)制,優(yōu)化檔案數(shù)據(jù)治理的方法體系[24],注重元數(shù)據(jù)管理工具、區(qū)塊鏈技術(shù)[25]等治理技術(shù)的應(yīng)用[26]等。本文則立足檔案數(shù)據(jù)資源體系建設(shè)者的角度,參照國際數(shù)據(jù)協(xié)會(huì)的數(shù)據(jù)治理框架,闡述檔案數(shù)據(jù)資源體系治理工作的框架和內(nèi)容,以建立對(duì)該項(xiàng)工作的完整認(rèn)識(shí),涉及檔案數(shù)據(jù)資源建設(shè)戰(zhàn)略、治理架構(gòu)以及治理活動(dòng)三個(gè)層面,如圖2所示。三個(gè)層面的數(shù)據(jù)治理相互銜接,互為支撐。

1.明確檔案數(shù)據(jù)資源體系建設(shè)戰(zhàn)略。戰(zhàn)略是根據(jù)選擇和決策的集合繪制出一個(gè)高層次的行動(dòng)方案,以實(shí)現(xiàn)高層的目標(biāo)。與在檔案領(lǐng)域內(nèi)部的火熱推行相比,檔案數(shù)據(jù)在政府?dāng)?shù)據(jù)治理、公共數(shù)據(jù)治理、企業(yè)數(shù)據(jù)治理等領(lǐng)域則面臨邊緣化的風(fēng)險(xiǎn)。與金融、醫(yī)療等數(shù)據(jù)密集型行業(yè)相比,檔案數(shù)據(jù)在數(shù)據(jù)驅(qū)動(dòng)的決策和創(chuàng)新中的作用尚未得到廣泛認(rèn)可。在國家和地方相關(guān)數(shù)據(jù)法規(guī)政策中,檔案數(shù)據(jù)也表現(xiàn)出不同程度地被“忽略”問題。檔案數(shù)據(jù)資源因其真實(shí)可信在數(shù)據(jù)資源體系中具有獨(dú)特的價(jià)值,一定規(guī)模的檔案數(shù)據(jù)補(bǔ)充能夠有效擴(kuò)展數(shù)據(jù)要素池,提升數(shù)據(jù)整體質(zhì)量。面向數(shù)智時(shí)代發(fā)展的新要求,檔案部門需要實(shí)現(xiàn)從數(shù)據(jù)保管者向數(shù)據(jù)生產(chǎn)者的角色擴(kuò)展,兼顧數(shù)據(jù)要素可機(jī)讀、可流通、可確權(quán)、可計(jì)量等要求和檔案的特有屬性及工作邏輯,從整體全局的高度審視檔案數(shù)據(jù)治理的重要性和必要性。一方面,聚焦檔案資源體系建設(shè)的關(guān)鍵問題,對(duì)接國家戰(zhàn)略需求、地方和行業(yè)的發(fā)展重點(diǎn),制定數(shù)據(jù)資源體系建設(shè)的規(guī)劃,明確數(shù)據(jù)治理目標(biāo)和主要任務(wù);另一方面,通過內(nèi)外協(xié)作,將檔案數(shù)據(jù)資源體系建設(shè)切實(shí)納入國家、地方和行業(yè)數(shù)據(jù)資源體系建設(shè)、數(shù)據(jù)要素化的政策和實(shí)踐中,積極加入數(shù)字化轉(zhuǎn)型、人工智能應(yīng)用試點(diǎn)、數(shù)據(jù)資產(chǎn)評(píng)估、公共文化服務(wù)等相關(guān)工作中,通過項(xiàng)目推動(dòng)和帶動(dòng)檔案數(shù)據(jù)資源體系建設(shè)。
2.建立檔案數(shù)據(jù)治理架構(gòu)。治理架構(gòu)確立檔案數(shù)據(jù)資源建設(shè)的組織、標(biāo)準(zhǔn)和技術(shù)等核心要素,從而形成數(shù)據(jù)治理的基本格局。具體工作內(nèi)容包括:其一,明確檔案數(shù)據(jù)治理部門、人員及其職責(zé)分工。數(shù)據(jù)治理不是一個(gè)單獨(dú)的流程性環(huán)節(jié),而是面向檔案全生命周期,覆蓋所有檔案數(shù)據(jù)資源類型,因此需要數(shù)據(jù)治理一方面要有高層領(lǐng)導(dǎo)直接負(fù)責(zé),另一方面需要數(shù)據(jù)收集、生產(chǎn)、保存、服務(wù)等各部門的職責(zé)分擔(dān)和工作協(xié)同。其二,制定數(shù)據(jù)治理的相關(guān)標(biāo)準(zhǔn)。檔案部門需要深入理解所藏檔案數(shù)據(jù)資源的特性,掌握檔案管理環(huán)節(jié)、應(yīng)用場景、訪問權(quán)限等方面的治理需求,制定覆蓋檔案數(shù)據(jù)治理標(biāo)準(zhǔn)規(guī)范,細(xì)化檔案數(shù)據(jù)收集、生產(chǎn)、保存、利用方面的具體流程與操作要求,明確數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理、分級(jí)分類、數(shù)據(jù)安全合規(guī)等方面的規(guī)范細(xì)則。其三,明確檔案數(shù)據(jù)治理的技術(shù)路徑,涉及技術(shù)選型、系統(tǒng)接口、數(shù)據(jù)庫設(shè)計(jì)等方面,涵蓋一致性檢查、格式遷移、區(qū)塊鏈存證、數(shù)據(jù)脫敏等技術(shù)應(yīng)用。實(shí)際開展工作中,為了一項(xiàng)數(shù)據(jù)治理任務(wù),可能會(huì)同時(shí)選擇兩個(gè)以上的治理方案,比如采用多個(gè)廠商的OCR工具開展數(shù)據(jù)校核。其四,開展檔案數(shù)據(jù)治理評(píng)估和改進(jìn)。定期評(píng)估數(shù)據(jù)質(zhì)量、系統(tǒng)性能、用戶滿意度等檔案數(shù)據(jù)治理效果,識(shí)別檔案數(shù)據(jù)治理中可能存在數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)冗余、訪問延遲、安全漏洞等問題,調(diào)整檔案數(shù)據(jù)治理的策略和流程,以解決存在的問題。
3.開展檔案數(shù)據(jù)治理活動(dòng)。數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理、分級(jí)分類、安全保障、合規(guī)保障等治理活動(dòng)是基礎(chǔ)性、通用性數(shù)據(jù)治理活動(dòng),檔案數(shù)據(jù)治理的相關(guān)工作需結(jié)合檔案資源、檔案工作的特點(diǎn)和實(shí)際情況展開,確保檔案數(shù)據(jù)保持高質(zhì)量和可訪問。在數(shù)據(jù)質(zhì)量管理方面,需要在真實(shí)性、完整性、可用性和安全性的基礎(chǔ)上,針對(duì)檔案數(shù)據(jù)資源體系規(guī)模大、層級(jí)多、類型繁的特點(diǎn),增加數(shù)據(jù)一致性、準(zhǔn)確性、規(guī)范性等數(shù)據(jù)質(zhì)量目標(biāo),實(shí)施嚴(yán)格的數(shù)據(jù)質(zhì)量控制流程,定期開展數(shù)據(jù)質(zhì)量審計(jì),確保檔案數(shù)據(jù)資源體系在兼具檔案與數(shù)據(jù)雙重屬性的同時(shí),滿足其雙重質(zhì)量要求,從而發(fā)揮雙重價(jià)值。在元數(shù)據(jù)管理方面,需要開發(fā)和維護(hù)一個(gè)全面的元數(shù)據(jù)框架,為各類檔案數(shù)據(jù)提供包括來源、內(nèi)容、格式、日期等在內(nèi)的詳細(xì)描述,并利用元數(shù)據(jù)提高檔案數(shù)據(jù)的可發(fā)現(xiàn)性、可檢索性和可理解性,支持有效的檔案數(shù)據(jù)管理和利用。在分級(jí)分類方面,需要確保分類系統(tǒng)與機(jī)構(gòu)內(nèi)外的安全政策和法規(guī)要求相一致,根據(jù)檔案數(shù)據(jù)的重要性、敏感性和使用頻率對(duì)其進(jìn)行分級(jí)分類,以便實(shí)施差異化的管理和開發(fā)。安全合規(guī)是每個(gè)機(jī)構(gòu)開展數(shù)據(jù)治理的底線保障,檔案數(shù)據(jù)治理也不例外。檔案內(nèi)容涉密涉敏情況較為普遍,檔案開放審核工作難度較大,檔案利用服務(wù)受到一定的限制,由檔案數(shù)據(jù)化、知識(shí)化、語料化、產(chǎn)品化之后的成果數(shù)據(jù),也需規(guī)制其使用范圍、使用條件,并采取數(shù)據(jù)脫敏、數(shù)據(jù)摘錄等技術(shù)規(guī)避涉密數(shù)據(jù)、敏感數(shù)據(jù)的使用。
檔案數(shù)據(jù)資源體系是數(shù)據(jù)視角下檔案資源體系的深化發(fā)展。本文從檔案數(shù)據(jù)資源體系建設(shè)需求變化入手,對(duì)檔案資源體系建設(shè)整體變革加以體系化梳理和方向性建構(gòu)。數(shù)智轉(zhuǎn)型的時(shí)代發(fā)展提出了從檔案數(shù)字資源體系向檔案數(shù)據(jù)資源體系升級(jí)的需求,其結(jié)構(gòu)正在經(jīng)歷從檔案原文數(shù)據(jù)到衍生檔案數(shù)據(jù)的擴(kuò)展,其建設(shè)則面臨從收集保管到生產(chǎn)治理的內(nèi)容拓展。由此可見,檔案與數(shù)據(jù)屬性的碰撞與統(tǒng)合給檔案數(shù)據(jù)資源體系建設(shè)帶來廣闊空間。
但與此同時(shí),檔案工作具有鮮明的內(nèi)向型特征,多在遵守保密屬性與安全意識(shí)的前提下從供給端對(duì)檔案數(shù)據(jù)進(jìn)行可信管理;數(shù)據(jù)要素化則具有顯著的外向性,強(qiáng)調(diào)以用戶為中心從需求端對(duì)數(shù)據(jù)資源進(jìn)行利用和復(fù)用。[27]檔案與數(shù)據(jù)交融也面臨發(fā)展難題,本文對(duì)這些難題并未深入展開,如外聯(lián)數(shù)據(jù)捕獲范圍如何確定;在人工智能不斷發(fā)展、用戶需求不斷提級(jí)的背景下,數(shù)據(jù)化、知識(shí)化、語料化等檔案數(shù)據(jù)生產(chǎn)方式方法如何升級(jí);檔案數(shù)據(jù)治理如何融合數(shù)據(jù)治理和檔案治理的思維和方法等。在面向數(shù)智轉(zhuǎn)型的檔案數(shù)據(jù)資源體系建設(shè)發(fā)展中,上述問題尚需進(jìn)一步探索與應(yīng)對(duì)。
*本文系國家社科重大項(xiàng)目“新一代人工智能背景下的計(jì)算檔案學(xué)研究”(項(xiàng)目編號(hào):24ZD326)的階段性研究成果。
注釋及參考文獻(xiàn):
[1]國家檔案局中央檔案館.全國檔案信息化建設(shè)實(shí)施綱要[EB/OL].(2002-11-25)[2024-12-02].https:// www.saac.gov.cn/zt/2010-03/18/content_3205.htm.
[2]中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].(2021- 06- 09) [2024- 12- 02] .https://www.saac.gov.cn/daj/ toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.
[3]馮澤宇,郭若涵,徐擁軍.“檔案數(shù)據(jù)化”與“數(shù)據(jù)檔案化”雙向融合視角下的檔案數(shù)據(jù)資源體系建設(shè)[J].浙江檔案,2024(7):24-29.
[4]丁家友,周涵瀟.數(shù)字?jǐn)⑹乱曈蛳聶n案內(nèi)容管理的發(fā)展趨勢——檔案數(shù)據(jù)資源生態(tài)圈的構(gòu)建探索[J].檔案學(xué)研究,2022(6):80-85.
[5]金培中,慈波.強(qiáng)化檔案數(shù)據(jù)資源治理提升檔案公共服務(wù)效能——以嘉興市檔案館為例[J].浙江檔案,2023(12):16-17;20.
[6]袁杰.中華人民共和國檔案法釋義[M].北京:中國民主法制出版社,2020:86.
[7]中華人民共和國國家檔案局.檔案數(shù)字資源備份實(shí)施規(guī)范:DA/T 99—2024[S/OL].(2024- 10- 14)[2024-12-02]. https : // www.saac.gov.cn/daj/hybz/ 202410/79d6bc3062a944ca815b384336a7f2f8.shtml.
[8]何思源,劉珂.檔案與數(shù)據(jù)關(guān)系的多維解析——兼論檔案數(shù)據(jù)的概念定位[J].檔案學(xué)通訊,2024(1):37-44.
[9]新華社.中共中央國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃》[EB/OL].(2023- 02- 27) [2024- 12- 02].https://www.gov.cn/ zhengce/2023-02/27/content_5743484.htm.
[10]第十三屆全國人民代表大會(huì)常務(wù)委員會(huì).中華人民共和國數(shù)據(jù)安全法[EB/OL].(2021-06-10)[2024-12-02].http://www. npc.gov.cn/c2/c30834/202106/t20210610_311888.html.
[11]趙躍,李琪,王月.關(guān)于檔案數(shù)據(jù)要素若干基本問題的思考[J].檔案與建設(shè),2024(5):3-11.
[12]金波,楊鵬.檔案數(shù)據(jù)治理賦能的思維意象與行動(dòng)具象[J].檔案學(xué)研究,2024(3):4-12.
[13]清華大學(xué)金融科技研究院.數(shù)據(jù)要素化100問:可控可計(jì)量與流通交易[M].北京:人民日報(bào)出版社,2022:序6-7.
[14]楊建梁,劉越男,祁天嬌.文檔數(shù)據(jù)化:概念、框架與方法[J].中國圖書館學(xué)報(bào),2022,48(3):63-78.
[15]周娟娟,李澤鋒,劉竟一.基于知識(shí)圖譜的干部人事檔案知識(shí)化服務(wù)研究[J].檔案管理,2021(6):87-89.
[16]朱蘭蘭,霍婕,高玉婷.館藏家譜文獻(xiàn)知識(shí)化開發(fā):價(jià)值、主體與過程[J].數(shù)字圖書館論壇,2023,19(11):38-45.
[17]廉永海,王斌,胡瑞斌,等.成果地質(zhì)資料知識(shí)化方法初探[J].中國礦業(yè),2023,32(6):175-182.
[18] 50 datasets found [EB/OL]. [2024-12-22]. https://catalog.data.gov/organization/nara-gov.
[19]袁炯賢,紀(jì)依.語料含“原材料”和“半成品”要讓大模型“吃”得下能“消化”[EB/OL].(2024- 11- 29) [2024- 12- 22]. https:// www.163.com/dy/article/JI58DGO905129QAF.html.
[20]周程祎.“跟著檔案觀上海”,走進(jìn)城市歷史“元宇宙”[EB/OL].(2024-06-14)[2024-12-22].https:// www.workercn.cn/c/2023-06-14/7876245.shtml.
[21]徐光平,呂永明.市檔案館率先在國內(nèi)開展非遺檔案數(shù)據(jù)資產(chǎn)轉(zhuǎn)化試點(diǎn)[EB/OL].(2024- 11- 29) [2024- 12- 22]. https:// www.163.com/dy/article/JI58DGO905129QAF.html.
[22]金波,楊鵬.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)治理研究[J].檔案學(xué)研究,2020(4):29-37.
[23]楊智勇,謝雨欣.面向善治的檔案數(shù)據(jù)治理能力體系構(gòu)建[J].檔案與建設(shè),2022(2):9-13.
[24]常大偉,潘娜.檔案數(shù)據(jù)治理能力的結(jié)構(gòu)體系與建設(shè)路徑[J].浙江檔案,2020(2):27-29.
[25]周林興,林凱.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)質(zhì)量治理:因素、框架和路徑[J].檔案學(xué)研究,2023(2):111-119.
[26]胡曉慶.信息生命周期理論視角下的檔案數(shù)據(jù)治理策略研究[J].山西檔案,2020(6):58-61.
[27]許曉彤,張嘉瑋,李照川.檔案數(shù)據(jù)要素化的歷史源流、關(guān)鍵問題與價(jià)值空間[J].檔案與建設(shè),2024(5):12-21.
作者單位:1.中國人民大學(xué)信息資源管理學(xué)院2.中國人民大學(xué)電子文件管理研究中心3.多模態(tài)檔案保護(hù)與開發(fā)國家檔案局重點(diǎn)實(shí)驗(yàn)室