檔案部門一直積極推進從封閉性管理向開放性服務、從傳統保管職能向現代服務職能的優化轉型,以提升檔案資源的社會化利用價值。檔案開放利用是檔案工作至關重要的環節,而檔案開放審核是檔案開放利用的前提和基礎,其工作質量直接影響到檔案開放利用的水平和效果。《中華人民共和國檔案法》《“十四五\"全國檔案事業發展規劃》等明確要求檔案開放審核工作法治化、規范化、常態化。
一、智能檔案開放審核系統構建背景
在應審盡審、應開盡開原則下,因檔案開放審核的協同機制落實不夠理想、執行標準不夠具體,綜合檔案館普遍面臨審核人才匱乏、審核任務繁重、審核意見分歧多發等問題,無法有效應對檔案封閉期縮短、審核量驟增帶來的現實壓力。在科技賦能的當下,智能技術在檔案開放審核業務中的創新應用正逐步深化,呈現出明顯的發展趨勢。國內多家綜合檔案館積極開展相關實踐探索,如江西省檔案館構建了輔助檔案開放鑒定模型、福建省檔案館開發了智能開放審核輔助系統、江蘇省檔案館研制了基于語義層次網絡的智能開放審核系統。上述系統在實際應用中均表現出較高的準確率,顯著提升了檔案開放審核的效率。這些實踐探索表明智能技術可以有效應用于檔案開放審核,有助于緩解檔案館在開放審核工作中的現實壓力。
作為檔案業務體量較大、數字化轉型起步較早的區級綜合檔案館,其館藏檔案數量龐大、開放壓力集中,具備開展智能技術輔助檔案開放審核實證研究的特點。本研究聚焦朝陽區檔案館開放審核的現實需求,探索智能技術輔助檔案開放審核實現路徑,開發建設了一套集成高精度智能OCR識別、智能算法模型與專家規則庫的智能檔案開放審核系統。系統構建過程中注重開放審核制度規范、技術能力與業務流程的深度融合,突出“規則驅動、模型賦能、多元協同\"的整體構建邏輯。規則驅動強調數字技術與開放審核制度的雙向嵌入,以實現制度的技術化轉變、技術的制度化賦能;模型賦能即開發基于智能算法模型的AI自學習平臺,實現智能算法自動審核、在線算法自主優化;多元協同則設計基于優先級決策機制的多重審核機制,并構建智能審核與人工支持的協同架構。
朝陽區檔案館智能檔案開放審核系統自2024年3月上線以來,已完成超19萬件檔案的審核任務。本研究從審核效率與審核準確性兩個維度評估了該系統中智能技術輔助檔案開放審核的性能。在審核效率方面,智能技術輔助檔案開放審核效率達到了人工審核的4.6倍。在審核準確性方面,智能技術輔助檔案開放審核結果的綜合準確率為91.40% 。智能檔案開放審核系統的上線應用有力推動了朝陽區檔案館的檔案開放審核工作。
二、智能檔案開放審核系統整體架構
智能檔案開放審核系統的總體架構分為六層,涉及三大標準規范體系及三大系統保障機制,如圖1所示。
該系統的六大層次分別是基礎設施層、數據資源層、服務中臺層、服務開放平臺層、應用中心層及服務對象層。基礎設施層是系統運行的物理場所及資源建設的工作環境,主要包括軟件平臺、硬件平臺、網絡平臺等;數據資源層負責為上層服務提供數據支持,主要包括目錄數據庫、全文數據庫、系統運行數據庫、業務工作數據庫等,覆蓋結構化數據、非結構化數據和半結構化數據;服務中臺層承載業務核心邏輯,并以微服務方式供其他模塊調用,為應用系統提供支撐,其核心涉及業務服務、工具服務、數據服務三大板塊;服務開放平臺層基于服務聚合網關,提供標準化的接口和服務目錄,包括開發接入中心、服務注冊、調用鑒權、負載均衡及運維監控中心;應用中心層提供面向開放審核工作的功能矩陣,覆蓋開放審核、檔案管理、檔案設置、應用管理、系統管理五大功能模塊,支撐用戶執行具體的業務操作;服務對象層明確了系統的主要使用群體,包括館領導、移交單位鑒定人員、檔案館鑒定人員、系統管理員。

系統的三大標準規范體系包括服務標準、技術標準及數據標準。服務標準規范化涉及服務內容、接口協議、權限控制,確保業務服務有序對接、穩定運行,提升系統整體服務能力;技術標準聚焦平臺技術架構、API接口規范、數據模型統一等關鍵技術規范,保障系統在多模塊融合及擴展性方面的通用性與兼容性;數據標準針對結構化與非結構化數據制定統一的數據分類、標簽體系等,為智能審核提供可靠依據。
系統的三大保障機制包括運維機制、調度機制及安全機制。運維機制實現系統的高可用性與穩定運行;調度機制確保系統各模塊協調運行,保障系統操作過程中的安全性、可控性與合規性;安全機制確保開放審核過程中數據的安全性。
三、智能檔案開放審核系統所采用的關鍵技術
智能檔案開放審核系統中應用的關鍵技術主要包括智能OCR文字識別、智能算法模型及專家規則庫等。
(一)數據支持:智能OCR文字識別系統
OCR文字識別結果直接影響后續專家規則庫與智能算法模型審核的準確性與有效性。因此,選用一套性能可靠、環境適配性強的OCR文字識別系統至關重要。
鑒于當前多數檔案館的基礎設施普遍缺乏GPU算力資源,難以支撐高精度智能OCR系統的穩定運行,本研究在系統選型過程中重點關注智能OCR算力適配性問題。試驗結果表明,當嘗試在機器上加裝NVIDIA等品牌的GPU卡來提升算力時,通常會遇到與自主可控技術路線不兼容的問題。此外,當前檔案館普遍需要對檔案掃描件進行批量文字識別。因此,智能OCR文字識別系統不僅需要保持高精度的文字識別效果,還必須具備良好的并發處理能力,以滿足高并發、高吞吐量的業務場景需求。
經過綜合考量與深入分析,本研究最終選定了一款基于計算機視覺和自然語言處理(NLP)技術的國產智能OCR文字處理系統。該系統集成高精度OCR文字識別引擎,能夠有效支持印刷體和部分手寫體文字的精準識別。在硬件適配方面,本研究引入國產GPU算力卡,并開展自主可控技術路線兼容性適配與并發處理能力改進工作,成功解決了系統在國產環境下的部署與運行能力瓶頸問題。實踐表明,智能OCR文字處理系統在國產化軟硬件環境中運行穩定,識別準確率顯著提升,能夠高效提取任意制式文檔中的關鍵信息,滿足檔案開放審核場景下的實際應用需求。
(二)智能審核:智能算法模型及專家規則庫
智能審核以智能算法模型和專家規則庫為核心,待審核檔案需要接受兩種審核規則的檢驗。在判定邏輯上,系統遵循從嚴劃控的原則:只要其中任一審核規則給出“控制\"的推薦意見,那么該檔案就會被標記為“控制\"狀態;若智能算法模型推薦檔案為“開放”,而專家規則庫無法推薦,則將綜合考慮所有規則的審核結果,并依據預先設定的邏輯算法,判定該檔案為“開放”或“無法推薦”。所有的智能審核結果均需人工復審,以確保最終結果的準確性和可靠性。
1.智能算法模型設計及構建。智能算法模型是智能審核的核心部分,直接影響著智能審核推薦結果的準確率和效率。智能算法模型依托大語言模型構建,以計算機可讀、可處理的結構化檔案數據資源庫為支撐,通過機器學習、深度神經網絡驅動的AI自學習平臺,融合完成識別、分析和運算任務,給出開放或控制的結果“預推薦”。在人工復審后,模型將審核依據與結果轉化為審核訓練數據,并自動轉化為訓練樣本供智能算法模型持續學習,不斷提升審核準確率。
智能算法模型構建包括數據準備、模型訓練、模型驗證、模型調優迭代等環節。
數據準備階段:選取朝陽區檔案館1992一1993年包含手寫體和印刷體檔案等多種類型的21萬條歷史案例數據樣本,用于訓練支持基于OCR文字識別技術的深度學習模型。
模型訓練階段:按照9:1的比例將可用數據進行數據分割,訓練集占原始數據的 90% 。
模型驗證階段:可將數據集其余 10% 的數據樣本用作測試集,對智能算法模型的性能進行驗證。
為評估其性能表現,本研究采用綜合準確率作為評價指標,其計算方式為智能算法推薦結果與人工審核結果一致的樣本數量與全部樣本數量的比值。結果顯示,智能算法達到了 96.65% 的綜合準確率,在測試集上表現出色。需要注意的是,智能算法在測試集上呈現較高的準確率,并不意味著所有情況下都能達到該準確率水平。
模型調優迭代階段:采用數據迭代的方式對模型進行調優迭代,通過不斷監控模型的性能評估結果,定期收集新完成審核的檔案數據形成訓練集,對模型進行再訓練,完成多輪功能升級和性能提升。
2.專家規則庫設計及構建。專家規則庫由敏感詞庫和鑒定規則庫兩部分組成。敏感詞庫預置高敏感關鍵詞,用于初步篩選和標記可能的敏感內容。鑒定規則庫用于進一步分析和判斷內容是否符合特定的審核標準,分為人名類與非人名類規則。
專家規則庫的判定邏輯為:系統讀取待審核檔案的OCR全文或者抽取的目錄信息后,將著錄信息或者原文段落句子拆解,與敏感詞庫、鑒定規則庫進行智能匹配與交叉驗證。若未命中任何敏感詞或者鑒定規則,則輸出結果為“無法推薦”。若命中了某個敏感詞或者鑒定規則,再看命中的鑒定規則是否為人名類規則。若命中非人名類規則,則輸出審核結果為“控制”。若命中人名類規則,根據規則中特定的位置查找人名,如包含人名,則輸出審核結果為“控制”;如不包含人名,則輸出審核結果為“無法推薦”,以避免僅憑關鍵詞產生的錯判問題。
當前專家規則庫的構建主要依賴人工采集,已建成的專家規則庫在覆蓋面、完整性和準確性方面均存在不足。4本研究基于數字技術與開放審核制度雙向嵌入機制來構建專家規則庫。具體來講,一方面將開放審核制度體系嵌入專家規則庫技術中,實現技術的制度化轉化,即通過詳細梳理國家及地方出臺的檔案開放審核相關政策法規,提取信息形成開放控制表,并編制《朝陽區檔案館檔案開放劃控指南》,將制度安排精準嵌入技術框架,形成規則與工具深度融合的專家規則庫;另一方面將專家規則庫技術嵌入開放審核制度中,實現制度的技術化升級。本研究以朝陽區檔案館1992—1993年的21萬條具有人工審核結果的數據樣本為基礎,結合朝陽區機關檔案的內容特點,提取高頻受控詞及規則,細化、補充和完善《朝陽區檔案館檔案開放劃控指南》。
截至目前,專家規則庫中已收入敏感詞和鑒定規則共1300多個。系統設置敏感詞和鑒定規則的動態更新機制,支持收錄各個領域的敏感詞和鑒定規則,并根據實際情況不斷完善和擴充。
四、結語
智能檔案開放審核系統的實踐應用,有效緩解了朝陽區檔案館的人工審核壓力,展現出較強的現實適用性與推廣潛力。未來,隨著智能技術的發展升級、檔案數據的不斷累積,相似場景間的協同、共享或不同場景的適用、兼容等需求亦將逐步顯現,智能技術將與檔案開放審核實現更多場景下的深度融合。面對多樣化的檔案類型和不斷演變的審核需求,智能技術如何進一步推動檔案開放審核工作效率提升仍是值得探討的問題。
*本文系2023年度北京市檔案局科研項目“智能技術輔助檔案開放審核實現路徑研究”(項目編號:2023-09)的研究成果之一。
注釋及參考文獻:
[1]卞咸杰,黃楊.“檔案開放審核”與“檔案開放鑒定\"概念辨析J].檔案管理,2023(5):36-39.
[2]周書生,林紅,劉金霞.檔案開放審核標準化體系研究[J].中國檔案,2024(9):66-67.
[3]閆靜,謝鵬鑫,張臻.新《檔案法》背景下國家綜合檔案館檔案開放審核的挑戰及對策[J].北京檔案,2022(7):7-10.
[4]孟蘇.檔案開放審核協同機制:理論闡釋、制度困境與構建路徑[J].檔案學通訊,2025(2):39-45.
[5]劉力超,陳曉瓏.面向檔案開放審核的檔案敏感詞庫眾包構建模式研究[J].山西檔案,2024(12):24-31.
作者單位:1.光典信息發展有限公司2.