林偉宏/浙江省檔案館
當今社會已經進入大數據時代,世界是互聯的,資源是互通的。檔案工作機構的理念、目標、方式、手段也應當主動求變,才能更緊密、更高效地融入大數據治理、融入數字化變革,才能在大數據時代占據一席之地。大數據與檔案兩者之間的異同和關系、大數據怎么形成檔案、檔案怎么形成大數據不是本文討論的重點,本文重點討論的是省域范圍內如何構建一個整體上的檔案大數據。
本文所指的檔案大數據包括檔案資源大數據、檔案管理大數據、檔案開發大數據等。如圖1所示,檔案資源大數據是指檔案工作中存量數字化、增量電子化所形成的大數據;檔案管理大數據是指檔案管理過程數字化所形成的大數據;檔案開發大數據是指檔案編研、知識挖掘等開發利用過程中形成的大數據。

圖1
某個機構或個人擁有的數據夠多、數據量夠大,通常來說這個機構或個人擁有的就是大數據。但是,究竟多少數量以上、多少容量以上才能稱為大數據,并沒有明確的指標?,F在,大多數檔案機構都分別擁有大量的檔案資源數據。經過多年來的檔案信息化建設,一般每家檔案機構都有幾十萬條、幾百萬條、幾千萬條目錄,幾十萬頁、幾百萬頁、幾千萬頁、幾億頁全文。再加上數字檔案館、數字檔案室、檔案利用服務平臺等系統中形成的大量檔案管理數據,以及數字形式的檔案編研、檔案展覽等開發成果,可以說每家檔案機構都擁有檔案大數據。但是檔案機構的大數據是否互聯互通,有沒有一個整體上的檔案大數據,是我們必須回答的一個問題。
筆者認為,除了寄存、征集等有特殊約定要求的內容,以及有涉密管理要求、不宜聯網使用的內容外,檔案數據作為公共數據,整體上可以形成一個區域性檔案大數據的概念(圖2)。在全國范圍內,所有檔案機構的可聯網使用的檔案數據整體就是一個全國檔案大數據;在一個省的范圍內,所有檔案機構的可聯網使用的檔案數據整體就是一個省域的檔案大數據。

圖2
結合浙江省近年來的實際工作,特別是結合浙江省檔案數據共享中心建設,筆者對構建省域檔案大數據、實現共建共享有如下粗淺的思考。
這是建設主體問題,要明確由單一主體建設到聯合主體建設。國家檔案館、機關、國有企事業單位檔案室,從機構性質看,應該是公共檔案資源的管理者,履行公共檔案資源的收集、保管、利用職責,當然也是檔案數據資源的管理者、檔案大數據的建設者。但是,它們不是檔案數據資源的所有者,檔案資源是國家的,檔案數據資源也歸國家所有。按照《關于加強數字政府建設的指導意見》(國發〔2022〕14號)國家構建開放共享的數據資源體系的要求,以及《檔案法》建設檔案信息資源共享服務平臺,推動檔案數字資源跨區域、跨部門共享利用的要求,這些檔案機構都應該積極參與檔案信息資源共享服務平臺的數據資源建設,而不應該抱有“我的資源我舍不得拿出去”的想法。所以,構建省域檔案大數據,平臺的建設可以由省里統一完成;資源的建設不同于以往各地數字檔案館、數字檔案室建設,資源建設的主體不再是一家檔案館、一家檔案室這樣的單一主體,而是區域內的各家機構的聯合主體。這些檔案機構既是省域檔案大數據資源建設的主體,也是各自所提供的數字資源的管理主體。各個主體根據檔案的實際情況履行利用管控、開發等職責,同步形成檔案管理大數據、檔案開發大數據。
這是發展規劃問題。省域檔案大數據肯定不同于原先各個檔案機構各自在局域網構建自己的檔案資源庫、資源池,更應該強調規劃先行。檔案工作有自己的特殊性,檔案有開放的、有限制的,有涉密的、有敏感的,有涉及知識產權的、有涉及個人信息的,有條目信息、有全文信息。構建共建共享的省域檔案大數據,肯定不能眉毛胡子一把抓,必須要按照分類分級、先易后難、統一標準等原則逐步實施,而且不能越過安全保密、意識形態等紅線。檔案大數據的應用也要根據實際分成不同等級:社會公眾可自由獲取、檔案機構工作人員可按權限查詢、僅限數據提供檔案機構工作人員可查詢及權益相關用戶匹配等不同等級。
這是數據匯集問題。主要指的是檔案數據資源在符合法律法規、政策規定的前提下,盡可能多地從檔案機構的局域網搬遷至政務網絡(一般是政務外網),從而實現檔案機構間的互聯互通和遠程訪問。放在政務外網上的檔案數據資源,還可以根據實際開放和控制情況,向互聯網提供一定數量的信息。當然,這些檔案資源能夠從局域網搬出來,必須要經過一些必要的處理,包括檔案開放審核、數據脫敏脫密、細化數據顆粒度、草稿正文分離等基礎工作,工作量肯定是不小的。各地檔案館經過努力可以匯集共享的檔案資源大致可以劃分為:館藏開放檔案資源、民生檔案資源、可開放的專題檔案資源,以及非密檔案脫敏目錄、檔案編研成果、檔案網上展廳等。檔案資源從局域網復制到政務外網,可以直接上傳到浙江省檔案數據共享中心項目平臺,也可以放在各檔案機構在政務外網上部署的區域數字檔案管理服務一體化平臺(圖3)。但是如果放在區域數字檔案管理服務一體化平臺,需要實現和省檔案數據共享中心的系統對接。

圖3
這是數據治理問題。檔案數據資源從局域網搬到政務外網后,將會暴露出一些原來外界看不到或者想不到的問題。如,數據標準不統一、格式不規范、差錯比例高等??梢哉f,聯網環境下省域檔案大數據的構建過程,必定同時是問題數據糾正補齊的過程。因此,浙江省檔案數據共享中心在數據匯集的推進過程中,允許各檔案機構先把尚有質量問題的數據匯集上來,再開展數據治理。治理過程中,數據提供方(各檔案機構)和檔案數據共享中心平臺建設方(省檔案館)可以雙向發力,批量地或逐個地通過技術手段或人工方式排查問題、糾正錯誤、補齊缺漏,從而逐步提高整體數據質量。
這是數據共享問題。長期以來,檔案機構對檔案資源偏向于不共享,習慣于“一對一”提供服務,甚至覺得“我的檔案不共享才體現我的資源有價值”。但是,大數據的理念截然相反,要共享才能挖掘價值。因此,檔案大數據在構建中要樹立共享導向,檔案目錄、檔案全文、編研成果和網上展廳等,都要盡可能地實現共享,具體實踐中可以根據實際情況采取自由獲取、管控利用等不同的分層共享方式。通過資源共享,可以進一步完善檔案便民利用服務機制,發揮檔案數據集中優勢,提高在線利用用戶體驗;也可以促進聯合編研、協同辦展等館際協同業務;還有助于形成規模效應、集聚效應,有利于檔案資源從信息向知識的提煉挖掘。
省域檔案大數據的直接來源是省域范圍內所有檔案機構的可聯網使用的檔案數據,初始來源包括實體檔案存量數字化,數字檔案增量電子化,以及檔案管理開發過程數據的積累沉淀等。當前,檔案載體正處于紙質載體向電子載體轉換的重要時期,電子文件單套制管理必然是電子文件管理模式調整的目標和方向。相比而言,存量紙質檔案數字化早一天、晚一天對匯集來說只是時間問題,增量電子文件、電子信息更容易散失、損毀,增量電子化歸檔、數字化管理開發對匯集來說會關系到數據有還是沒有的問題。因此,檔案機構尤其要善于從辦公系統、業務系統等外部大數據中找出最重要、最關鍵、最有價值的數據,以適當的形式形成檔案資源大數據,還要善于從檔案管理開發過程中積累沉淀形成檔案管理大數據、開發大數據。
各檔案機構形成各自的檔案大數據后,構建省域檔案大數據的步驟是:篩選—匯集—治理—共享。
首先,做好篩選。確定好需要匯集的檔案資源的類型和標準,包括文書檔案、科技檔案、會計檔案、業務檔案要匯集哪一些類型,未開放檔案是否需要匯集、是否能匯集,匯集檔案目錄還是檔案全文,檔案全文數據中的草稿和文件辦理單是否要去除,各地檔案開發成果是否要匯集等。全省各檔案機構按照統一標準從各自資源總庫中篩選出可共享資源。
其次,開展匯集。各檔案機構按照統一技術要求對共享資源進行數據處理和轉換,匯集上傳至省級檔案信息資源共享服務平臺。相對來說,檔案機構中檔案館更為全面、更為專業,檔案室數據更廣泛、更新鮮,省域檔案大數據構建初期可以先匯集檔案館的大數據,條件成熟時再擴大到檔案室的大數據匯集。
再次,進行治理。治理是從容缺容錯到完整規范的過程。進行治理,一方面使平臺上匯集的共享資源提高數據質量,另一方面推動各檔案機構檔案管理日常業務實現標準化、規范化。
最后,實現共享。以共享的理念和方式構建省域檔案大數據,提升檔案機構從檔案大數據中挖掘知識的能力,推動方便人民群眾的檔案利用體系建設,打造泛在可及、智慧便捷、公平普惠的檔案數字化服務體系。