摘 要:信息技術的發展推動了檔案工作模式的轉變。檔案數據信息呈爆發式增長,傳統的檔案數據信息管理模式已經不能適應當前檔案管理需求。本文引用數據治理理念,從高校檔案數據信息管理的困境出發,提出構建以檔案館為主導的檔案數據治理制度框架,協同多主體分權限數據管理的機制,以智能提取、在線編研、知識資源共享、智慧利用檔案數據平臺的檔案數據整合資源庫等策略,最大效度發揮檔案數據資源的價值。
關鍵詞:檔案;數據治理;數據管理;檔案數據資源
基金項目:2023年安徽省高等學校檔案工作協會基金研究一般項目(2023YB007)
伴隨信息技術的發展與廣泛應用,檔案工作的模式正在經歷一個從接收保管紙質檔案到接收保管電子檔案,從管理檔案實體信息到管理檔案數據信息的轉變期。檔案數據信息呈現爆發式增長、海量式集聚,信息量的劇增給檔案工作帶來了挑戰。在浩如煙海的數據信息中,如何高效高質量地提取、利用數據信息,成為當前檔案工作急需解決的一大難題。在信息社會,數據的核心地位和價值將日益凸顯,應轉變當前檔案數據管理模式,從檔案數據的提取走向數據的治理。
1 檔案數據治理的概念
2017年,國家發布《信息技術大數據術語》(GB/T35295-2017),將數據治理定義為對數據進行處置、格式化和規范化的過程。同年,我國的數據治理模型也應運而生——《信息技術服務治理》(GB/T34960)。該治理模型從頂層設計、數據治理環境、數據治理域、數據治理過程四部分進行了闡述,為組織在實現數據價值的過程中做到運營合規和風險可控提供了方法和思路[1]。檔案數據治理是指檔案部門、社會組織和公眾等多元主體合作,對檔案數據生成、采集、加工、存儲、利用等整個生命周期進行的全程管理。檔案數據治理的出現并非偶然,而是在信息技術發展、數據價值凸顯和檔案治理理念普及等背景下發展而來[2]。高校檔案數據治理是高校檔案部門、信息中心和其他部門等基于一定的規則,共同對檔案數據的全生命歷程(生成、管理、儲存、利用)整個周期進行科學、規范的全程管理,促進高校檔案事業的發展。
檔案數據治理主要是對不同生命周期的檔案數據進行質量管控、組織管理、開發利用等活動,需要從技術、制度等方面構建相應的保障體系,以提高檔案數據治理能力和水平。檔案治理內容更加廣泛,涉及與檔案相關的一切事物[3]。檔案數據治理能力的提升,有利于更好地開發檔案數據資源,減少各部門不必要重復性的所耗費的人力、物力和財力,提高檔案利用的效率,符合時代對檔案事業發展的需求,也契合國家治理現代化的整體要求。
2 高校檔案數據提取的局限
2.1 以“人工方式”分類為主的數據整理
當前高校檔案部門對檔案數據的提取是建立在傳統檔案工作模式上,先對紙質檔案進行人工分類、整理,再進行數字化加工和利用。這種以人工分類組織數據的方式,效率低下,忽略了數據內容之間的關聯性?,F有高校使用的檔案管理軟件,一般只對檔案數據信息只能進行簡單的羅列與基礎的統計分析,數據庫的設計依賴于檔案人員的經驗,具有一定的不確定性和不科學性。這種傳統的數據管理無法滿足智能、智慧化檔案管理的要求,在一定程度上還會阻礙對海量數字化檔案數據進行快速、準確的分類、查找,也不能對檔案信息資源進行充分有效利用,進而產生了一些低價值檔案、死檔案的情況,這些問題是高校檔案管理領域所面臨的一項重大挑戰。
2.2 以“單一“部門為主的數據管理
大數據時代,高校檔案數據來源主要是學校科研、電子政務、教務、人事、學生管理等各類系統產生的信息資源。各部門按照歸檔范圍,將歸檔的文件材料主要以紙質和電子兩種載體移交給檔案部門。檔案部門對這些“辦理完畢”的數據進行管理。這種管理是“單一”性管理,在單一職能部門管理下的數據與檔案管理軟件、電子文件中心的匹配性不高,在一定程度上造成信息數據的丟失或者資源的浪費。傳統的“單一”部門為主的數據管理模式,還容易造成數據孤島,不利于檔案信息的提供利用。
2.3 重量不重質的數據信息的重復提取
近些年來,信息化、網絡化辦公的普及,使得各種應用系統應運而生。以高校為例,各類應用系統高達20個,檔案數據來自于不同的管理系統,每個系統數據基礎標準、安全技術標準、運行平臺標準等是不一致的,獲取的歸檔數據準確性和完整性不高,數據的關聯性也不強。為了確保電子數據信息的完整性,數據中也包括大量非結構及半結構數據,其中有大量重復性數據和垃圾數據,占據太多數據存儲空間,導致檔案存儲空間不足,系統運行速度慢,從而影響數據資源整體的質量性、整體性、可用性和安全性。這與2009年發布的《電子文件管理暫行辦法》(中辦、國辦廳字〔2009〕39號)所強調的對檔案數據的“真實性、完整性、可用性和安全性”要求不符,導致檔案數據利用速度緩慢,利用率不高,影響檔案工作效率。
2.4 低配置的檔案系統不能承載高效的檔案利用
對比國家檔案局2006年發布的8號令《機關文件材料歸檔范圍和文書檔案保管期限規定》和2011年發布的9號令《各級各類檔案館收集檔案范圍的規定》,不難發現,國家越來越重視檔案資源體系的擴充,要求各級各類檔案部門做到應收盡收,檔案部門庫存量不斷攀升,尤其是電子文件和音視頻文件。以安徽師范大學檔案館為例,校檔案館每年呈遞增趨勢,與2020年相比,2021年歸檔量增加了1萬卷件。校檔案部門一般都處于“邊緣”位置,在資金投入上,與其他部門相比,不會作為優先支持的部門。很多高校檔案管理系統只能提供簡單的目錄檢索和全文檢索,不能提供高配置的檔案編研和個性化的網上檔案查詢、展覽。尤其是面對不斷攀升的檔案數據,低配置的檔案系統無法滿足高效精準的檔案利用,導致很多檔案數據成為“死數據”,甚至在一定程度上延緩、阻礙檔案利用、編研等工作,反而在一定程度上增添了檔案工作人員的工作負擔。
3 檔案數據治理效力的提升策略
3.1 構建以檔案館為主導的檔案數據治理制度框架
2014年,中共中央辦公廳、國務院辦公廳印發《關于加強和改進新形勢下檔案工作的意見》,明確提出“要科學整合檔案信息資源。建立以檔案行政管理部門為主導、各行業主管部門密切配合、檔案館(室)集中統一管理的檔案資源管理架構”。在大數據時代,要求數據全量儲存與檔案鑒定的有用性儲存之間的沖突如何破、非數據化的格式文件如何實現檔案數據治理、電子文件的法律效應等問題,都是需要行業制度和技術規范來解決。檔案數據治理工作需加強前期規劃,做好頂層設計、分步實施的規劃。其中制度是數據治理工作的基礎,科學、規范、合理的制度建設有利于保證數據治理工作順利推進。
檔案數據治理工作是一個以制度為基礎的框架,它包含數據的決策權和職責的分配,還包含檔案數據要素特點。其他數據應用系統在設計之初,需要考慮檔案本身要素特點,不同領域的應用系統,其要素特點有所不同。就高校而言,包含十幾個類別的檔案分類,如文書類則需要文號、時間、單位、正文等要素,科技類則需要項目名稱、類別、主持人等要素,聲像類則需要時間、地點、人物、事由、背景、拍攝者六要素。如何將數據庫中的數據自動提取到檔案數據庫,進行高效治理,這就需要檔案部門根據國家、地方和高校檔案特點,考慮數據與數據之間的關聯性、連續性,融合數據對象、技術、理念、環境等要素,編制數據管理的規則、技術要求和相關制度,讓數據進入到制度的規范中,形成一條科學有序的治理程序。
3.2 構建以檔案館為主,協同多主體分權限數據管理的機制
檔案數據治理包括數據的產生與采集、分類與整理、歸類與傳輸、開發與利用、數據的清理等五個程序。在單純的檔案數據治理過程中,數據治理主體至少需具備這五個程序相應的能力[4]。數據治理是高層次的管理,需要多部門來管理。高校應該設立檔案數據治理小組,以檔案館為主,協同學校其他部門為輔,信息中心做好數據內部技術把控的,分工明確的組織體系。
高校信息中心需要把控各應用系統在基礎數據標準、安全技術標準、運行平臺標準、安全管理標準等方面的部署和要求,保持一致性,有利于檔案部門的采集。各應用系統的主管部門需要考慮檔案數據要求,完善信息的完整性,有利于檔案應用系統進行直接提取。檔案部門需要分配好各應用系統的權限,檔案系統對各應用系統中的數據進行層層篩選、提取、儲存,在檔案利用環節以區塊鏈技術對各部門進行訪問權限分配、數據開放管理等,方便校內各部門利用,提高辦公效率。
3.3 構建以智能提取的在線電子檔案數據編研體系
眾所周知,高校檔案部門目前依據的是國家教育委員會1994年實施的《高等教育檔案實體分類法》《高等學校檔案工作規范》,保證了館藏檔案的完整性、檔案內容的系統性和檔案分類的統一性,促進了高校檔案事業的發展。伴隨信息化時代辦公方式和載體的巨大變化,產生的愈來愈多的電子文件、媒體信息等,原生數據、衍生數據大量存在,如何將《電子文件歸檔與管理規范(修訂)》與《高等教育檔案實體分類法》有效結合,不在數據庫中多次重復出現,是值得我們探討的問題。館藏檔案和電子文件的劇增,雖然豐富了檔案編研的基礎數據,但檔案數據的不聯系、不完整,重復等情況,又給檔案編研帶來挑戰,僅靠傳統的人工方式去搜索、歸類,從浩如煙海的大數據中尋找所需的信息將耗費更多的時間和精力,大大降低檔案編研的進度。
對檔案數據進行治理,可以有效提升檔案編研的能力。以基礎數據為基礎,通過全文搜索、人臉搜索、以圖搜圖等,提取所需檔案關鍵信息,對搜索的檔案信息進行在線分類,自動生成參考素材,在線電子編研檔案數據,大幅度提升檔案編研進度。同時可以滿足共性檔案與個性檔案的需求,在基礎檔案基礎上,增加個性化、專題化檔案數據庫,創建名師檔案、口述校史、紅色檔案、主體圖片檔案等,既豐富檔案的資源,又拓寬檔案利用的途徑和平臺,真正為學校做到決策參考、憑證依據、育人平臺等方面的服務功能,實現檔案數據治理的最終目標。
3.4 構建以知識資源共享的檔案數據整合資源庫
檔案數據治理的終結目標就是實現檔案資源的共享利用和檔案數據的增值。高校檔案部門保管的大量科研、教學、社會服務等方面檔案數據,如果不能合理重組和融合,就會變成只進不出的“數據垃圾填埋場”。
檔案是賦能知識社會的底層數據,檔案是治理知識社會的智能工具,檔案本身也可以作為治理工具[5]。把握檔案數據的保密與開放,加快檔案數字化進程,利用人工智能技術,將各類具有開放權限的檔案資源按需整合,適時對廣大師生提供開放利用,這樣不僅使檔案資源流動起來。讓廣大師生利用開放的檔案資源進行研究和挖掘,會衍生出更多的檔案編研作品和文化產品,提升高校校園文化建設,豐富高校文化資源。
3.5 構建以便捷服務為主的智慧利用檔案數據平臺
近些年來,人們的檔案利用意識不斷提升,檔案利用需求越來越多,高校檔案大多為師生、校友提供學歷學位成績翻譯、畢業生成績打印、學籍檔案補辦、人事檔案查閱利用、研究生論文查詢、各類文件及財務憑證查詢等服務。檔案利用率居高不下,安徽師范大學檔案館基本每周接待查檔量高達110人次,查檔量居高不下,高校檔案部門人員一直緊缺,檔案利用工作占據了檔案工作人員的大部分精力。疫情環境中,檔案數據的智慧利用越來越迫切,很多檔案部門都提供遠程檔案利用服務平臺,避免用檔人員無法現場辦理業務,這種遠程利用也是處于比較低端的利用,有時還需要郵政快遞作為輔助,從而延遲了檔案利用的時效,增加了檔案利用的成本。
國家檔案局原局長楊冬權針對檔案數據化的問題這樣回答:“檔案數據化就意味著我想利用檔案了,不要求我自己去查詢,而是資料能夠自動推送過來。”通過數據治理技術建立智慧利用檔案數據平臺,查檔者可以通過虹膜識別技術對人臉進行識別,在線核對查檔者身份信息,填寫檔案利用需求的關鍵信息,系統自動根據輸入的關鍵信息在檔案數據利用系統自動檢索,檔案工作人員根據檢索信息,鎖定最終信息,以PDF格式,蓋上檔案部門檔案利用專用電子簽章,在線發給檔案利用者;同時高校應考慮檔案載體、檔案個性化內容和用戶個性化需求的變化等因素,對檔案數據挖掘、統計、匯總、關聯,以適應檔案編研、數據分析等其他個性化需求的用戶,讓檔案數據流動起來,充分發揮它的利用價值,提升檔案服務的質量。
參考文獻
[1][2]姚恒.大數據環境下的高校檔案數據治理路徑研究[J].辦公室業務,2010(10):124.
[3]趙躍,孫寒晗.“數據”范式演進中的檔案數據治理多維解析[J].檔案管理,2021(5):108.
[4]王樹嫻.高校檔案數據治理能力提升路徑探究[J].蘭臺內外,2021(1):74.
[5]譚必勇,邵亞偉,李躍.譚必勇老師談檔案數據治理與電子證據——2020年“國際檔案周學者談”第五期.中國檔案研究,2021(6):10.
[6]張玉昭.新冠疫情防控背景下檔案數據治理效能提升策略研究[J].山東檔案,2021(3).
作者簡介:杜勇(1981— ),研究生學歷,安徽師范大學檔案館副研究館員,研究方向為檔案管理。