摘 要:檔案開放審核工作是依法治檔的體現,要在保障國家安全與公眾隱私的基礎上確保檔案及時、平等地對外開放,也是響應國家關于通過提升公共服務、社會治理水平,更好地服務社會公眾的要求。隨著人工智能技術在檔案開放審核工作中的應用,傳統檔案數據質量對于技術應用效率提升的影響日益凸顯,新技術、新流程的應用也不斷促使新型數據類型產生,因此應在開放審核工作中,對歷史數據質量進行治理,加強新增進館數據的前端控制,并對新型數據進行規范化管理,從而推進檔案開放審核工作提質增效、促進檔案公共服務水平提升。
關鍵詞:檔案開放審核;檔案數據治理;檔案數據化
檔案開放審核“是指由國家檔案館會同檔案形成單位或移交單位對形成時間達到一定年限且仍限制利用的館藏檔案,在形式與內容上進行全面審查核實,確定其是否可以面向社會公眾開放的過程”[1]。由于傳統審核工作存在標準理解執行不一致、鑒定結果可解釋性較差、人工成本與耗時較高等問題,全國各地綜合檔案館紛紛將人工智能技術應用于開放審核工作,如福建省檔案館利用智能分庫、文本分類與分庫重構檔案開放審核流程[2],江西省檔案館運用數據挖掘技術支持檔案開放審核鑒別,綜合使用敏感詞庫和深度學習算法進行探索[3],江蘇省檔案館利用語義工程構建語義審核模型,多維分析、深度理解檔案內容,幫助人工快速鎖定檔案內容、提質增效[4],人工智能技術與開放審核相融合構建數智化新模式已成為主流趨勢。
伴隨數智化檔案開放審核工作新模式的推進,以及新型技術、工具、流程的構建,數據作為核心的生產要素,對于開放審核工作中應用流程的重構與工作質量效率的提升也有著關鍵性的作用。傳統檔案數據資源的內容、格式、目錄規范性、數據一致性等質量問題限制了新型技術的應用效率,新技術應用過程中產生的新型數據類型、數據層級、組織維度缺少統一規劃、設計、實施、監督,在客觀上阻礙了開放審核工作中形成的數據資產的進一步價值挖掘與釋放,也不利于檔案工作的數智化轉型。
1 數智化檔案開放審核中的檔案數據問題分析
數據治理的需求來源于檔案工作的目標與期望。[5]當前我國檔案館數據資源主要以檔案元數據(目錄)+紙質檔案數字化副本(圖像)為主,開放審核工作也從傳統的對檔案實體進行審核轉移到以電子目錄+數字化副本圖像為主,而現有館藏歷史檔案數據由于技術水平、標準差異及執行力度的因素,存在一定比例的數據無法直接進行利用,需對其進行質量治理;與館藏歷史檔案數據相對的,是檔案室等立檔單位向檔案館移交的新增進館檔案,由于無法采用統一的數據質量治理標準,導致無法從源頭上控制檔案數據,無法實現前端控制。
同時,數智化檔案開放審核工作模式突破了傳統的元數據+目錄的資源體系范疇,對基于OCR識別形成的檔案全文文本數據進行深入挖掘與分析,形成包括目錄、圖像、全文、印章、圖片、表格、知識、主題、關系等多維度、多類型、多層次的新型數據資源體系,客觀上對于檔案數據標準的兼容性、可擴展性提出了新的要求。
1.1 存量檔案數據資源質量問題
由于檔案數據數量眾多、來源廣泛、標準不一,同時在以往歷史過程中缺乏高效精準的質檢工具,導致檔案數據存在以下問題:
(1)檔案數據真實性問題。根據開放審核工作過程中的檔案數據人工復核與清點,館藏全宗中普遍存在檔案元數據著錄錯誤、元數據與檔案圖像掛接錯誤等問題,在部分全宗中可達到8%的比例。以上問題將會導致支撐檔案開放審核的元數據、圖像信息失真或空缺,無法滿足基于檔案真實數據進行審核的要求,更無法對外提供利用。
(2)檔案數據完整性問題。由于檔案數據標準規范不一,或在數字化加工過程中的誤操作,數據信息未同步,存在檔案總數不一致、檔案目錄數據缺失遺漏、無法找到檔案圖像的空目錄等問題,不完整的數據將會影響檔案信息的全面性與可信度,進而限制檔案開放審核工作的后續進行。
(3)檔案數據可用性問題。由于在不同歷史階段執行的數據標準要求不同,或在檔案數字化加工中執行錯誤的參數,導致圖像本身質量偏低(分辨率、色彩、傾斜度、重度噪聲、頁面缺失)、數據無法正常讀取或打開,進而影響檔案全文識別、語義挖掘與開放利用的效果。
1.2 增量檔案數據質量控制問題
檔案開放審核工作需要立檔單位、檔案館、檔案主管部門、國家保密部門多主體協同工作。《中華人民共和國檔案法》第三十條明確規定,“館藏檔案的開放審核,由檔案館會同檔案形成單位或者移交單位共同負責”,從而改變了單純依賴檔案館作為唯一責任主體進行開放審核工作的做法。[6]然而在實踐過程中,往往由檔案館采購檔案智能開放審核系統,系統的流程、規則、功能主要以檔案館意見為準,立檔單位雖然按照檔案館的移交進館數據標準進行數字化加工,但在數據質量檢查、數據治理優化過程中由于缺乏相應的協同平臺與技術賦能手段,在實際工作中缺乏統一化、標準化的前端控制機制,從而導致新增進館數據又成為開放審核工作中亟待解決的重要問題。因此,應充分考慮如何通過共享模式,將檔案館數智化檔案開放審核工作模式中的數據質量檢查、治理能力向立檔單位進行賦能、共享與協同,這也是開放審核工作的重中之重。
1.3 新型檔案數據類型治理問題
在引入數智化技術對于檔案開放審核工作進行模式重構的過程中,新型的技術促使數智化檔案開放審核工作“改變了對信息資源的把握尺度和價值追求,賦予信息管理者知識挖掘、組織、管理與再造的能力”[7]。在數智化檔案開放審核工作新模式下,由于廣泛采用了OCR識別技術進行全文識別,需要從檔案目錄、圖像資源中進一步深入,獲取更加豐富、深刻的檔案版面版式、文件結構、語義特征,支撐檔案開放審核規則的推理與溯源,需要深入檔案數據資源進行細粒度的數智化檔案數據治理,從而獲取全面、深度的語義信息,隨之而來的是開放審核工作中的檔案數據類型、結構也發生了巨大變化。
(1)檔案全文數據。相較于傳統的目錄、圖像資源,在數智化檔案開放審核工作中,往往基于檔案全文數據進行語義特征提取與多源融合推理,因此全文識別的準確率對于開放審核工作的準確率影響較大,在實際工作開展中需對檔案數據字體多樣、版式豐富、重度噪聲干擾與內容跨頁等普遍問題進行針對性訓練。
(2)圖像版式數據。除全文數據外,對于檔案中如文號、密章、公章、表格、圖片等各類版式數據的分析,有助于獲取開放審核工作所需的上下級、涉密標識、責任者、空間語義信息,并進一步實現多種審核規范的融合推理。
(3)結構化要素數據。傳統的檔案目錄數據主要反映檔案內容及形式特征,對于檔案形成的背景與管理過程揭示較少,檔案開放審核工作的規則中包含文件擬寫、審核、發布、接收、辦理過程中的業務信息,因此需對其進行檢測、識別與提取,形成結構化要素數據,支持檔案開放審核與對外利用。
(4)檔案細顆粒度數據。反映檔案件、頁、段落、行、詞、字等不同顆粒度層級的檔案數據,細粒度的檔案數據為基于檔案語義內容進行檢索、定位、溯源提供了自由靈活的數據組織方式,也可提供更加精細的檔案資源利用方式與權限控制體系,從而提升檔案數據信息利用安全水平。
(5)檔案語義數據。檔案語義是指“所有檔案本身的數據化和描述檔案的數據的含義,包括檔案內容數據、背景數據和結構數據的含義”[8]。檔案語義數據在全宗、案卷、件及檔案內部存在不同層級、不同實體間的語義關聯關系,基于多維的數據關聯關系可以支撐以類似于數字人文中的“遠讀”視角,對于檔案數據進行數據驅動的深度分析、資源整合、關系路徑,從而形成對數據的深度洞察與全新的多維組織模式。
以上在數智化檔案開放審核工作中產生的新型數據類型,具備多類型、多層次、細粒化、語義化、關聯化的數據特征,不僅能夠應用于開放審核,更能夠為檔案智能、高效、便捷服務社會公眾提供堅實的數據基礎。然而現有的數字檔案館建設大部分缺少對于以上數據的業務和技術標準,平臺往往無法兼容以上數據類型,無法形成可供進一步復用、共享、挖掘的數據資產,客觀上導致了檔案數據資產的浪費,也限制了檔案工作數字化轉型。
2 面向數智化檔案開放審核的檔案數據治理措施
2.1 提升檔案數據質量檢測能力
高效精準便捷的檔案信息公共服務基礎是高質量的數據資源,高質量的檔案數據不僅影響開放審核工作的質量與效率,同時也影響社會公眾對于檔案開放共享后提供服務的滿意度與檔案部門的公信力。因此,應面向公眾對于檔案利用的業務需求,梳理現有檔案數據資源體系中存在的問題,建立檔案數據質量治理評估指標,并針對不同的評估指標,通過數據樣本標注與模型訓練,提升智能數據質量檢查能力,夯實檔案數據基礎。
根據檔案開放審核工作中常見的檔案數據問題,從檔案真實性、完整性、可用性的角度,梳理現有館藏檔案原始數據中元數據、檔案圖像、元數據與圖像一致性等維度存在的問題,并利用機器視覺、OCR識別、結構化要素抽取、文本比對等技術構建智能檔案數據質檢模型,實現對于檔案原始數據中圖像質量、元數據質量以及數據掛接一致性的自動高效質檢,從而在檔案原始數據進入數據預處理、智能開放審核等環節前及時發現數據問題,避免無效的資源消耗。同時,提供人機協同的檔案數據復核與糾錯,經過統計的檔案數據復核結果可用于支撐館藏檔案數據資源整體質量評估,可通過獨立的數據平臺建立原始檔案數據與質檢檔案數據的映射關系,避免對已有數字檔案館系統的數據結構進行變動。
2.2 構建館室協同的數據質量檢測體系
由檔案館牽頭,構建包括檔案館、立檔單位或移交單位等多主體共同參與的智能檔案開放“預審核”協同機制。根據檔案開放審核工作中不同參與主體,厘清各主體的角色與職責,充分調研、吸收并明確各單位的檔案數據標準與開放審核規則,對檔案開放審核工作中各業務環節的責任、操作、結果進行明確與細化,形成檔案開放“預審核”標準與規范,并進行培訓與考核。
檔案館將各單位的檔案數據質量標準、開放審核規則進行統一維護,同時將數智化質量檢測能力與開放審核智能推理能力進行標準化的微服務封裝,并統一部署于政務網,各立檔單位通過統一的AI能力集成接口調用智能化數據質檢與檔案開放預審核能力。在檔案移交進館前根據數據質量標準與智能檢測能力進行數據統一質檢、人工復核,從而提高檔案數據質量。
在數據質檢后,對待移交進館檔案發起檔案預審核任務,將封裝形成的標準化檔案信息包推送給檔案開放審核系統。檔案開放審核系統對檔案信息包校驗、解析并獲取檔案目錄與圖像數據,根據預置的單位標識與該單位的開放審核規則,返回檔案開放審核結果、理由與定位溯源信息。立檔單位或移交單位人員在人工復審頁面進行人工復審、終審,并向數字檔案館系統移交帶有“預審核”結果的檔案。上述流程確保檔案在正式開放前經過嚴格的審核,保證檔案的安全性和合規性,提高檔案開放審核工作的質量和效率。
2.3 建設新型數據業務與技術標準
傳統的檔案OCR識別主要關注檔案的文字及坐標位置信息,但以上信息不能反映檔案的版式、段落、上下文關系,丟失了大量可對檔案進行深度挖掘與分析的語義信息(如印章、表格、圖像、公文要素),因此,需要對OCR技術升級,使OCR具備輸出從檔案圖像頁—段落—文字塊—文字的多層次細粒度聚合與還原能力,并支持對于檔案圖像版面布局、公文要素與段落等語義信息豐富的數據資源的揭示,制定數據輸出標準,從而支持深入檔案內容層面,實現檔案數據資源向細粒度的數據資源轉化,以便進行檢索、分析和挖掘。主要包括如下數據標準:
(1)細粒度、多維度的檔案數據標準。具體包括檔案全文文本內容、頁數、文件唯一標識、檔案文字內容、坐標位置、檔案版式信息(標題、正文、圖片、表格、印章)、頁、段落、表格空間語義信息等,基于新型的檔案數據標準,采用基于深度神經網絡的人工智能技術,實現支持不同字體、不同版面、不同粒度的全文文本識別、版面分析、版式還原、要素抽取,并提供具有高度可兼容性和可擴展性的檔案數據描述規范,支撐后續的檔案數據挖掘、開放審核、專題知識庫建設與檢索利用等場景。
(2)面向檔案語義數據構建不同檔案數據層級的檔案語義框架。如江蘇省檔案館以國家頒布的二十項檔案劃控原則為基礎架構,參考了《江蘇省檔案館開放審核控制使用檔案參照清單(2022年)》的 18 類鑒定條件,按照包含關系對每類鑒定條件向下進行解析,解析成顆粒度更細的語義鑒定條件,再根據該鑒定條件的語義框架向下解析到機器可以識別的語義元。通過基于高保真語義解析器自檔案全文文本數據中獲取了具有多層級語義框架數據,包括了基于中文自然語言處理常用的20余種語義框架及在此基礎上擴展的200余種檔案開放審核語義框架,作為支撐檔案開放審核的語義引擎,發現檔案全文文本中隱藏的檔案語義關系,賦予檔案數據的多維度關聯,有效解決了檔案數據分散、孤立的問題。
3 結 語
檔案開放審核工作作為較早引入大數據、人工智能技術的典型性應用領域,隨著數智化檔案開放審核工作新模式的不斷推廣,檔案數據質量問題、新型檔案數據的治理對于檔案開放審核及其他檔案業務工作的影響也必將不斷凸顯。因此,必須正視檔案數據資源在檔案工作中的基礎性地位,加強檔案數據質量能力,推動新型檔案數據治理工作開展。檔案數據治理是融合多種不同參與主體的體系化活動,包括了一系列構成要素,具備多元性、全面性、關聯性和協調性的特征。[9]在檔案數據治理的過程中,要充分考慮檔案館、室在檔案數據治理中的角色、價值、職責與能力,充分推動館室協同,通過一體化的方式實現統一賦能,有助于從根本上解決數據治理的問題。
在檔案開放審核工作及其他業務工作的數智化轉型中,通過不斷探索新模式、積累新經驗、沉淀新知識、形成新標準,以業務需求為導向,以標準規范為抓手,以新型技術為工具,同時充分考慮檔案數據資源的可擴展性與可復用性,最終實現檔案內容深入挖掘,檔案價值活化釋放,推動檔案工作向檔案數據顆粒度更加細化、數據治理更加深入、公共信息服務更加高效的方向發展,在此也期望學界、業界的持續關注與深化研究,通過更多的業務切入口,實現檔案數據的優化治理,推動檔案工作提質增效,實現檔案工作數字化轉型。
注釋與參考文獻
[1]施浩然,呂元智.我國檔案開放智能審核問題與優化策略研究[J].山西檔案,2024(6):20-26.
[2]黃建峰,顏梓森,張楓旻,等.福建:運用人工智能技術搭建開放審核模型[J].中國檔案,2023(7):27-29.
[3]毛海帆,李鵬達,傅培超,等.基于數據挖掘技術構建輔助檔案開放鑒定模型[J].中國檔案,2022(12):29-31.
[4]李軍,徐志國,王楠.智能語義助推檔案開放審核的研究與實踐[J].中國檔案,2023(11):56-57.
[5]周楓,金波.基于PDCA模型的檔案數據質量治理研究[J/OL].情報科學,1-18[2024- 09-07]. http://kns.cnki.net/kcms/detail/22.1264. G2.20240506.1623.006.html.
[6]肖哲.從《檔案法》的修訂談檔案開放政策的進步與完善[J].檔案管理,2022(1):45-46.
[7]劉石,李飛躍.大數據技術與傳統文獻學的現代轉型[J].中國社會科學,2021(2):63-81,205-206.
[8]祁天驕,馮惠玲.檔案數據化過程中語義組織的內涵、特點與原理解析[J].圖書情報工作,2021(9):3-15.
[9]金波,王潔菲,添志鵬,等.檔案數據治理運行機制探究[J].檔案學通訊,2023(4):22-29.
(責任編輯:劉鴻浩 邵澍赟)