依據中華人民共和國檔案行業標準,檔案為“國家機構,社會組織或個人在社會活動中直接形成的有價值的各種形式的歷史記錄”[]。檔案是最原始的記錄資料,歷史再現性是它的本質屬性,同時還具有另外一些特點,如信息性、政治性、文化性、社會性、價值性等[2,3]。由此,檔案在歷史、政治、文化、社會等各個領域都擔任見證者與傳承者的角色,承載著最原始最真實的知識[。檔案本身的原始性、真實性以及珍貴性同樣賦予了檔案保護與檔案利用工作重大價值[5.6]。
檔案管理系統是機構改革后啟用的新系統,該系統借鑒大數據、人工智能和地理信息系統等先進信息技術,在遵循國家、行業和地方各種檔案標準規范的基礎上,結合常州檔案業務管理與社會化服務實際,制定合理的檔案目錄元數據管理方案,建立檔案數據的外部和內部特征的關聯關系,開發檔案數據管理系統,實現檔案目錄數據的多元化文件保存和全要素的著錄、管理、檢索,不僅為我局更好、更快地發展提供了參考,而且為檔案數據管理與服務建設提供了新思路。
1.遵循的原則與技術路線
1.1遵循的原則
一是遵循國家和行業標準規范。標準規范是對過程、成果、應用的嚴格準確性的重要約束,是我們工作的重要依據和工作高效率的重大保障。
二是遵循原始成果準確性。項目涉及的檔案數據具有高度的原始性與真實性,在人工目視識別校正檔案數字化建設成果時,需要尊重事實,高度保證校正結果的準確性、匹配性和可靠性。
三是遵循人工校對機制智能化。人工校對工作量較大,在確保檔案數字化建設成果校對工作質量的同時,需要充分發揮信息技術的先進性,在人工校對機制中尋求智能化解決方案,以提升質效。
1.2技術路線
針對實驗過程中的主要技術難點,對檔案中要素信息抽取方法、關聯組織方
法、基于檔案知識智能檢索模式展開實驗驗證與分析。研究技術路線如圖1所示。主要涉及如下內容。
1.2.1檔案文本OCR識別錯誤修改
針對OCR識別檔案文本過程中產生的數據質量問題,擬將PDF文件中的文字層提取后展示,并通過人工目視檢查的方式,與原始PDF文件進行比對、審核與校正。人工比對可以發現原有OCR識別中產生的錯誤字符、遺漏字符等問題。在此基礎上,手動修改存在的OCR識別錯誤問題,進而提升檔案數字化建設成果的質量,為后續檔案數字化成果的管理和應用提供更好的支撐。
1.2.2人工修改結果復查審核
在完成檔案數字化建設成果的第一輪人工目視檢查與修改后,為進一步提高數據精度、確保數據質量,需對人工修改后的OCR成果進行第二輪審查,通過抽樣檢查的方式,對修改后的OCR成果進行審核,如果仍然存在遺漏缺失、錯亂、亂碼等質量問題,需要進行二次修改,或視情況退回重新進行人工目視對比檢查與校正。最終需要確保檔案文本字符正確率達 98% 以上。
1.2.3檔案數據庫建設
基于“提升檔案數字化建設成果質量、提升多元化檔案應用服務水平”這一目標,對本次所有通過人工目視比對校正以及二次檢查的檔案電子化建設成果數據,建立數字檔案信息庫,完成檔案數據資源的準確、合理、智能的整合,以確保數據的高效管理與利用,提高檔案數字化成果的管理與利用水平。
1.2.4檔案目錄數據管理方案制定
參考國家、行業和地方檔案信息化相關標準規范,按照我國檔案的多層級行政管理要求、檔案的載體形式和全生命周期發展規律,結合檔案目錄數據實際情況,圍繞“人、事、物、地點、時間”五個基本元素,構建檔案目錄元數據分類體系,為我局檔案目錄數據管理系統提供有力支撐。
1.2.5檔案目錄數據管理系統建設
針對各類檔案管理人員和各相關部門的使用需求,在支持、兼容我局現有信息管理系統的基礎上,充分對大數據、人工智能及地理信息系統等加以利用,對檔案目錄數據管理系統進行搭建,實現檔案目錄的數據管理、檢索功能。
1.2.5.1系統導航
利用大數據可視化技術,對系統中檔案目錄數據的來源及空間分布進行可視化展示;同時,提供其他系統功能的導航入口,幫助管理人員從宏觀上直觀地了解檔案目錄數據情況。
1.2.5.2目錄管理
按照“錄入一審查一維護”的工作流程,實現簡捷、高效、準確的檔案目錄數據管理功能。具體要求如下:
一是數據錄入。數據錄人分為單條錄入與批量錄入兩種形式。其中,單條錄入要求提供統一的檔案目錄數據錄入表單,即檔案目錄數據的“一張表”。同時,允許操作人員針對不同類型檔案的特點,對部分數據項進行擴展。操作人員錄入完畢后,要求自動檢查錄人數據的規范性和準確性。批量錄人要求提供目錄數據的文件模板,系統能夠自動檢測上傳文件是否符合規范。如果出現不符合規范的情況,將對相關內容進行提示。
二是數據審查。具有審查權限的操作人員,能夠對錄入的檔案目錄數據進行一致性和正確性檢查。通過審查的數據直接入庫,未通過審查的數據由審查人員給出反饋意見,再由負責數據錄入的操作人員進行修改,然后提交審查,直到審查通過為止。
三是數據維護。要求實現檔案目錄數據的更新操作,包括數據項和記錄的修改、新增與刪除。
1.2.5.3目錄檢索
利用全文檢索、模糊檢索和組合檢索等技術,實現檔案目錄數據的高性能查詢。具體檢索功能分為簡單檢索和高級檢索兩種方式。檢索結果要求以表格和圖形兩種形式進行展示。
2.檔案數字化過程中存在的問題
一是模型關系復雜性高。各類檔案門類對應的知識圖譜中的實體和關系種類繁多,而且實體之間可能存在復雜的語義關系,這使得模型訓練的復雜度較高,大量的數據需要處理和標注。
二是語義信息難以獲取。模型的語義信息是通過文本要素標注獲得的,但是文本的多樣性和不確定性使得語義信息的獲取變得十分困難。
圖1技術路線圖

三是訓練代價高。使用文本要素標注方法進行知識圖譜的建立需要進行大規模的訓練,需要消耗大量的人力和物力資源,訓練代價較高。
四是模型可擴展性、通用性差。使用特定門類檔案數據訓練的模型是對具有同一特征的圖譜內容的補全,模型在訓練時也只是針對訓練集中已有的三元組,無法推測出數據中未知的三元組數據,這種靜態的補全方式難以適應外界環境變化,模型的可擴展性差。
五是路徑數量增長過快。在模型中進行路徑查找可以進行更加復雜的知識推理,但在大規模的圖譜中存在路徑數量增長過快及冗余信息過多等問題。
六是數據安全問題。使用大數據知識化處理會將原檔案信息進行重新整理、組織,形成新的脈絡,產生新的價值。這些新產生的檔案可能匯聚了相當數量的信息,具有與其來源完全不同的保管和利用價值,對其信息安全必須給予高度重視,防止數據被泄露或篡改。
3.檔案數字化建設工作的意義
3.1有利于提高檔案信息的知識轉化能力
檔案是人類智慧的結晶,是檔案數據匯聚和傳播的重要場所。幫助人們運用前人經驗解決新問題,必須依靠檔案數據提供的知識服務。大數據與云計算的應用可以提供一種基于“數據倉庫”的,能夠搜尋、組織、分析、重組檔案數據的數據利用方式,實用性信息產品形成,檔案使用者的知識創新可獲得支持,知識也能向生產力轉化。通過加工、分析、挖掘特定數據內容,專業知識產品形成,在政府、企業及社會團體進行決策時,可提供一定的智力支持和科研信息素材。
3.2有利于提升檔案信息的知識服務水平
所謂檔案個性化服務,就是從信息用戶的信息使用行為、習慣、偏好、特點,以及用戶特定的需求出發,為用戶提供信息內容及系統功能,確保其個性化需求得到良好滿足。其一,服務應對數字檔案用戶的個體信息需求予以滿足;其二,服務應能夠對個性進行培養,對需求加以引導,有助于個體對個性進行培養、發現,且可以引導需求,以此可促使社會發展更加多樣化和多元化。通過對檔案利用信息進行統計分析,可對檔案信息或服務受歡迎程度予以確定;對檔案用戶的類型及個人喜好進行分析,確定用戶的訪問模式及用戶需求趨勢,以便對潛在檔案用戶進行發掘,并對檔案信息推送服務予以提供。對用戶開展跟蹤分析時,需從多方面對用戶的信息需求進行研究,找到行為規律,以此促進數字檔案的檔案信息資源建設實現優化,為其資源組織及管理模式的完善提供科學的依據。
3.3有利于推動智慧檔案的信息資源建設
在智慧檔案的資源建設方面,檔案大數據信息挖掘能夠找到庫藏資源的缺漏,并針對性補充檔案信息資源或其他文獻資料;對檔案資源的利用情況進行分析,便于提前了解用戶群體興趣的改變;關聯分析用戶每次對檔案信息進行利用的情況,對不同檔案信息間的關聯規則及比例關系進行挖掘,對庫藏加以優化;借助路徑分析模式,對用戶瀏覽訪問次數較多的路徑加以捕捉,對數字檔案站點結構設計加以優化。
3.4有利于推動大數據在檔案領域的應用
檔案數字化工作可為全國綜合檔案館大數據應用提供理論與現實參考,促進檔案館利用新理念和新技術提高檔案信息化管理水平,促進檔案信息化發展進度。用于檔案工作實際,推動大數據在檔案建設中的應用[8-10]
除此之外,建設具有主題鮮明、超大容量、穩定安全的“數據倉庫”也是大數據檔案信息挖掘的重要內容。通過關聯、分類、聚類等方法,檔案工作者可突破原有整理體系的束縛,依照專題,在海量檔案信息中挖掘、分類、加工、整理,進行有序化重組,完成特色檔案信息庫、專題檔案信息庫的構建。針對當前檔案數據庫信息量不足的問題,利用Web挖掘方法,檔案管理者可在海量網絡信息資源中,將和專題有關的文獻信息資料檢索出來,隨后進行分類整合,二次、三次數字文獻信息資源形成,且具有知識性、系統性的特征,信息資源主題指南得以建立。以上辦法都可以為數字檔案館向智慧型檔案館轉變起到強力的助推作用。
參考文獻
[1]顏旭喆.企業檔案數字化轉型:傳統檔案管理模式的挑戰與應對之道[].現代班組,2024(4):47-49.
[2]陳博.電子檔案數字化轉型創新模式的管理研究[].檔案記憶,2023(9):55-57.
[3]林娟.數字化時代企業檔案管理轉型發展探討[].辦公室業務,2023(17):156-158.
[4]李俊連.“一站式”學生社區管理模式下高校學生檔案數字化服務平臺建設與探索[].陜西檔案,2023(2):32-33.
[5]顧睿涵.大數據背景下檔案管理模式的轉變[].蘭臺內外,2023(9):15-17.
[6]焦浩.數字化轉型視角下干部人事檔案管理模式研究[D].鄭州:鄭州航空工業管理學院,2023.
[7]王竹溪.基于PDCA質量循環的檔案數字化管理模式構建研究——以某航天研究所為例[J].中國管理信息化,2022,25(17):208-212.
[8]鄭曉紅.大數據下檔案管理和數字化建設研究[].內江科技,2022,43(5):3-4.
[9]陳曉.大數據背景下檔案管理與數字化建設思考[].城建檔案,2021(11):64-65.
[10]任星.大數據時代背景下檔案管理和數字化建設研究[J].蘭臺內外,2021(13):1-3.
作者單位:常州市金壇區土地征地勘測中心
作者簡介:謝芳,碩士研究生,研究方向:檔案管理與應用。