■ 陶 冶
互聯網自誕生以來,為全世界信息化帶來了極大的便利,自此,人類社會從工業文明向信息文明轉變,同時,互聯網也為云計算、大數據、人工智能的快速發展提供了契機。近年來,中國在互聯網領域的發展速度讓世界驚嘆。中國互聯網信息中心報告顯示,截至2020年一季度,中國互聯網用戶總數達9.04 億,占世界網民總數的1/5,居全球第一。截至2019年底,中國網站數量達497 萬家,“.CN”下網站數量341 萬個,中國網頁數量2978 億個。我國“互聯網+ 政務服務”也不斷深化發展,信息公開工作不斷推進,據《2019年中國政府網站績效評估報告》指出,80%的政府網站積極公開機構職能和政策文件、動態要聞等基礎信息;86%的政府網站積極開通政策解讀專欄,對政策進行解讀。各級政府還依托網上政務服務平臺,推動線上線下集成融合,實時匯入網上申報、排隊預約、審批審查結果等信息,通過“數據多跑路”,實現“群眾少跑腿”。
“互聯網+ 政務服務”工作不斷推進,讓億萬人民在共享互聯網發展成果中擁有更多獲得感,隨之而來的網頁發布的信息呈指數型增長,這些網頁都真實記錄和反映了機構運行的軌跡,是各方面活動的真實寫照,許多還有憑證價值和作用。如何及時存儲并高效利用網頁電子文件特別是重要的黨政網站網頁信息,已成為當前檔案工作的重要課題。如果收集不全、存儲不善,將導致大量具有追朔憑證、記錄歷史、提供決策參考、教育后人的,具有歸檔保存價值的真實記錄丟失。特別是在機構撤并、網站改版、整合遷移、主題更換等重要節點,如果不對政府網站網頁作及時歸檔處理,許多重要網頁檔案有滅失的危險。
2017年,國務院辦公廳印發了《政府網站發展指引》,要求各級政府網站做好網頁歸檔工作。2019年,國家檔案局發布檔案行業標準DA/T80- 2019《政府網站網頁歸檔指南》,對政府網站網頁歸檔的歸檔原則、歸檔范圍、責任主體、保管期限、收集時間、收集內容、歸檔格式、整理和移交接收方式以及要求都作了具體明確,為各級機關及其檔案部門開展網站網頁歸檔工作提供了堅實的理論支撐。
政府網站網頁資源是各級機構各種網絡活動的真實記錄。由于各自的網站構架、運行模式、內容設置等都存在較大差異,網站主辦單位的檔案部門開展網站網頁資源的歸檔前,需要在本區域檔案管理部門的指導下,對目標網站進行全面梳理,形成較為可行的采集、歸檔預定方案。方案用以明確網站網頁資源采集、歸檔的主體責任,科學界定網頁分類,細化采集、歸檔策略,包括元數據和網頁電子文件的保存方式,數據采集方式、采集范圍、采集頻率、編號方式、存儲格式、歸檔時間等一系列策略。優化的方案,不僅保障了歸檔文件的質量,還將之后的科學安全保存和開發利用打下基礎。
網頁電子文件具有可分離性、可操作性、不穩定性和流動性,為保證網站網頁資源采集歸檔過程中歸檔文件的真實性、可用性、可靠性和完整性,實現對網頁文件長期安全保存,滿足之后的調閱和開發利用,網頁電子文件元數據的保存和關聯就顯得尤為重要了。
網頁歸檔時,按照《政府網站網頁歸檔指南》上的標準,可以將網站名稱、網站域名、標題、副標題、欄目、發布時間、來源、關鍵詞、作者、摘要、網址、采集時間、采集人等基本元數據進行保存。還可以根據具體需要,將資源類型、圖片文件ID、音頻文件ID、視頻文件ID 等其他元數據也做相應保存處理。
基于XML 的標準開放、可擴展性強、可跨平臺等多種特點,可以選擇XML 做為元數據保存的方式,將需要保存的元數據整體置標為一個XML 文檔。另外,也可以考慮選擇JSON 作為數據保存格式,JSON 也有較強的可擴展性,而且JSON 是一種輕量級的數據交換格式,層次和結構更加簡潔和清晰,易于閱讀和編寫,同時也易于機器解析和生成,可以有效地提升網絡傳輸效率。保存后的元數據可以選用嵌入式、鏈接和封裝等多種方式進行關聯。封裝是較為合理和常見的方式,可以將網頁電子文件和元數據打包做為自我包含的實體,形成網頁電子文件信息總體封裝包來安全保存,而且也比較方便管理。
為充分滿足網頁歸檔后可長期保存的要求,我們應盡量選用開放式通用保存格式,比如WARC、OFD 等格式。WARC(Web Archiving File Format)格式是一種比較理想的網絡資源歸檔格式。該格式由互聯網檔案館等機構在IIPC 資助下共同開發,并以ISO28500 國際標準發布。
WARC 是ARC 格式的延續和擴展,對ARC向上兼容,它將多個數據對象和相關信息聚合到一個文件中。WARC 由一系列WARC 記錄組成,記錄大量數據信息。除了記錄靜態網頁、圖片、URL、音頻文件、視頻文件等內容,還可記錄如網絡爬行信息、服務器信息、請求信息、訪問信息、響應信息、分段信息等背景信息或者資源詳細描述。通過這些信息可以重現當時的網絡環境,對于網絡資源長期安全保存和開發利用具有重要意義。WRAC 格式還十分便于存檔和壓縮,可以打包、壓縮、加密文件,也支持自解壓和自擴展,適合數據量大、內容復雜、交互性強的網絡資源。便利的打包壓縮并保存,降低了長期保存的空間開銷和處理小文件的計算開銷,方便存儲后的文件管理。
從目標網站的主管部門或歸檔工作的主管部門視角出發,對網站網頁數據的采集可分為主動采集和被動采集。
主動采集是通過目標網站的內置歸檔功能模塊完成目標網頁的采集。內置網頁歸檔功能模塊在網站建設之初就已經在系統規劃設計和安裝部署,或者在后期補充設計制作,集成部署進去。如果采用內置網頁歸檔功能進行采集歸檔,采集策略設置簡便,采集質量和效率較高,人工干預需求較少。
采集策略又可以分為定期不定期兩種,或者定期不定期相結合。定期采集可以設置采集的時間頻率,即多長時間觸發一次采集歸檔任務,設置的頻率過高,將加大數據的存儲的空間和開發利用時對比數據時產生的麻煩,設置的頻率過低,又難以保證網頁數據的安全,影響該網站網頁采集歸檔系統的有效性。另外,網站網頁的更新速度和網頁內容的重要程度也是決定采集頻率的重要參數。鑒于政府網站的更新速度和重要程度,每月一次應該是較為合理的設置采集頻率。或者設置內容發生一定規則的變更后進行自動采集歸檔。對已歸檔的網頁,還應置標該網頁為“已歸檔”并且標注真實歸檔時間,避免重復歸檔,也為之后的查找提供便利條件。
被動采集通過外置程序進行采集。例如使用Python 等腳本語言編寫的爬蟲程序,定義帶參的頁面爬取函數,通過requests 庫的gets 函數爬取所需頁面內容。爬蟲程序通過預制規則,自動從海量網絡資源中爬取所需信息,程序通過模仿瀏覽器對網頁的URL 地址訪問的方式,不需要人工操作即可獲得所需數據。被動采集由于是通過外置程序進行采集,外部程序的規則最后實現的結果仍然受到目標網站相關功能的制約和限制,所得到得網頁資源的可用性和完整性難以保證,后期需要人工檢驗,采集效率不夠理想。
完全采集是對目標網站網頁的完整采集,完全采集不對網頁內容進行判斷,直接進行整體保存,包括全部的靜態網頁、文本、音頻、視頻等文件。如果小型網站使用完全采集,可以提高采集速度,提升采集效率。
部分采集以價值判斷為基礎,主要采集目標網站的核心板塊和項目中的重點領域,或者以特色主題或者重要事件為線索開展采集,這種采集方式保存的資源主題鮮明,指向性較強,價值較高,對之后的開發利用較為有利。另外,還可以把完全采集和專題采收結合起來,首先完成最重要指定目標的網站的完全采集,在此基礎上對特定范圍內,目標不是特別確定的網站使用部分采集,做為首次采集的補充,既能提高采集效率,又能兼顧資源質量,最終保證采集的可用和穩定。
專題采集是指在國家和社會遇到自然災害、事故災難、公共衛生事件和社會安全事件等突發事件時,對一些重點指定網站的專題收集。比如2020年初,浙江省檔案館以抗“疫”為主題開展了網頁檔案采集歸檔,對指定網站自2020年1月新冠肺炎疫情發生之后發布的有關各地疫情防控工作開展的通知、公告、通報、新聞報道等內容進行了專題采集。共采集視頻文件總時長3316 分鐘,圖片文件2826 張,靜態網頁11528頁,數據量達51GB。
除此之外還可以對國家和社會發生的重大影響事件作專題收集,例如“改革開放40年”、“建國70 周年紀念”、“脫貧攻堅”等。有些網站網頁內容在國家和社會發生的重大影響事件時產生大量有價值,可反映當時社會的原貌,保存利用好這些檔案,能充分發揮檔案部門“存憑、留史、資政、育人”的作用。
在目標網站產生主題或者展現形式發生重大變化之前,例如網站改版、網站撤銷、網站核心板塊撤換、網站數據結構變更、網站服務遷移、網站運維部門變更等發生重大變化,處于關鍵節點,發生重大變更時,需要進行專門采集。專門采集時要注重數據的可用性和完整性。如果未能及時采集,將造成數據資源的滅失,難以再現網站網頁的原貌。重要節點和發生重大變更時所進行的專門采集最好為完全采集。
所采集網頁的網頁資源在歸檔整理之前,應該根據關鍵字提取元數據信息,并將網頁轉換為開放式通用保存格式,確保電子文件不綁定軟硬件,具有顯示已知悉、可轉換、易于利用等性能。經轉換完畢的電子文件應根據分類排列方案進行編號,按照《政府網站網頁歸檔指南》規定,一般以“全宗號- 檔案門類代碼- 網站代碼-年度- 保管期限代碼- 類別代碼- 順序號”或《全宗號- 檔案門類代碼- 網站代碼-年度- 類別代碼- 保管期限代碼- 順序號》格式進行編號,如2020年某廳局官方網站抗“疫”專題板塊網頁“云南省首批援鄂醫療隊出征”可按“0001(全宗號)- WY- 01- 2020- Y- KYZT- 云南省首批援鄂醫療隊出征- 0001”。全宗號、檔案門類代碼、網站代碼、年度、保管期限代碼、類別代碼、順序號編碼規則均在該指南上有詳細介紹,本文不再贅述。
編號完成后,在網頁檔案存儲時,可以簡便地以按編號時使用的所對應的“全宗號、檔案門類代碼、網站代碼、年度、保管期限代碼、類別代碼、題名、順序號”等組成分段元素作為文件夾層級使用,層級文件夾建立后,將網頁檔案放置于相應的文件夾下。如果索引建立得比較完善,網站數據量不大,也可以更為簡便地以“網站順序號+年度”作為文件夾進行網頁檔案的存儲,后期開發利用效率更高。為了實現采集網頁的長期安全保存,如果條件允許,可以采用在線或者離線的方式,將采集好的目標電子文件和元數據遷移至本單位檔案部門的電子檔案管理系統進行存儲保存。
隨著信息技術的不斷進步和互聯網科技的飛速發展,互聯網已深入我們工作生活的每一個角落,網上政務相關工作也持續不斷地推進,隨之產生的大量網站網頁將成為我國的重要檔案資源。但是,我國網站網頁歸檔研究工作起步晚,實踐項目少,相關規范和管理辦法還不夠完善,許多問題亟待我們去研究解決。在未來的實踐中不斷探索,我們還需要解決好一些關鍵問題。
一是保障檔案資源的真實性和完整性
互聯網信息是公開的,但是由公開的互聯網信息向網站網頁檔案轉變過程完成之后,數據變成了電子檔案,還必須保護數據抵御外界環境的影響,保障數據的真實性和完整性,以確保文件的法律效力和保存價值,最終實現檔案的憑證價值。常用的方法有電子簽名、時間戳、數字摘要等技術。近年來,區塊鏈技術日益發展,由于區塊鏈技術從本質來講,就是一個共享的“數據庫”。數據存儲其中,就具有了“不可偽造”“公開透明”“可以追溯”等特征。基于這些特征,也奠定了區塊鏈技術堅實的“可信任”屬性。區塊鏈技術通過網絡中所有節點共同參與計算,待寫入數據在全網互相驗證的基礎上,方才被允許寫入,這樣就保證了數據的真實性。另外,區塊鏈技術采用去中心化的分布式存儲方式,這樣還可以有效解決網站網頁數據存儲時各類數據相分離的問題,維護網站網頁檔案的完整性, 其分布式的特點也將數據丟失的可能性大大降低。且區塊鏈技術的核心是實現了沿時間軸記錄數據與合約,數據一旦通過驗證被寫入區塊并加入區塊鏈中,就只能讀取,不能修改和刪除,這樣又確保了數據的安全性。因此,區塊鏈技術可以為網站網頁檔案數據的真實性和完整性提供堅實的技術支撐。
二是建立網站網頁檔案開放數據共建共享機制
信息資源開放與共享是建設陽光政府的重要途徑,是提高社會生產力、保障公平正義的重要前提,是促進信息消費、發展新興產業的重要支撐。數據開放利用程度越高,信息知識作為生產要素的作用就會越強。
即使各單位已完成各自網站數據采集,但是這些數據仍然處于分散狀態,仍然存在安全風險。如果檔案部門可以整合區域內網站網頁檔案資源,匯聚區域內各行業黨務數據、政務數據、經濟數據、行業數據、企業數據、社會組織數據、自然資源數據、個人數據等各類公共數據資源,逐漸形成“海量數據”,才能更安全地保存好數據,更好地發揮數據資源的價值。目前,雖然我國在政府開放數據共建共享協作領域已有積極探索,但實際實踐中普遍仍然“各自為戰”,存在嚴重的數據分散重復、標準不一、使用效率低下等問題。所以,在現有理論基礎上,圍繞各主體要素間的協同關系,逐漸構建政府網站網頁開放數據共建共享框架,設計共建共享平臺,能有效推進政府服務,有效提高資源使用效率和質量。一方面可以突破公共數據從源頭到采集、整合、傳遞等過程中組織界限壁壘,消除信息孤島,實現信息的共享、創造與有效利用。另一方面,可以為國家云計算、分布式處理技術、存儲技術、數據庫技術和感知技術等眾多技術的孕育發展提供數據支撐。
三是網站網頁檔案的開發利用
檔案的最終目的是利用,只有利用好網頁檔案,才能更好地發揮檔案的價值。尤其是網站網頁檔案,蘊藏著巨大價值。網頁檔案資源數據量巨大,內容豐富,基本可以囊括社會各行業方方面面,且一般都為社會發展最前沿的內容,是社會各行業快速發展中最直接的記憶。互聯網技術的飛速發展,也使這類數據井噴式增長。如此海量數據,如果只是存儲于存儲陣列之中,作用毫微。但是若搭配大數據技術,掌握數據間的相關性,利用數據的相連關系,使用數學模型計算分析,將使這些數據煥發巨大的能量。應用大數據分析,對網站網頁檔案中的民生、經濟、智慧型城市建設等熱點信息進行數據深度挖掘、趨勢分析,在科學決策、維護社會穩定和解決歷史遺留問題等方面,為政府決策提供客觀依據,發揮好檔案信息“思想庫”、“信息庫”的作用,服務黨委政府中心工作。還可搭建“政府網站網頁檔案館”,開發網頁歷史數據開放查閱平臺,提供多種檢索途徑,提供用戶對歷史政府網站網頁數據進行查詢。
互聯網技術發展迅速。政府網站網頁資源呈指數型增長,網頁歸檔的重要性日益顯現,歸檔工作日益得到重視。隨著政府網站網頁歸檔相關法律法規不斷出臺,相關行業標準規范不斷制定,相關理論實踐探索在不同領域逐漸開展,必將帶動各級各單位網站網頁歸檔工作快速發展,更好地實現網頁檔案的科學、安全管護,發揮網頁檔案的歷史價值、文化價值、研究價值和經濟價值。