何玉顏
[摘要]英國政府網頁檔案館負責保存1996年以來英國政府產生的英國政府網頁檔案,其對于政府網頁的歸檔和開發利用一直走在世界前端。近兩年,英國政府網頁檔案館在建設模式、技術手段、服務利用方式等方面都有了新的實踐,這些新的實踐對于我國政府網頁歸檔和開發利用有著重要的借鑒意義,我國應積極構建政府網頁歸檔政策框架,對政府網頁資源進行細顆粒化開發與利用,開展面向全社會的深度合作,走出一條符合我國實踐情況的政府網頁歸檔與開發之路。
[關鍵詞]政府網頁檔案館政策框架細顆粒化社會合作
[分類號]G279.1
The New Practice and Enlightenment of the UK Governments Web Archiving and Development
He Yuyan
(Department of Library, Information and Archives of Shanghai University, Shanghai, 200444)
Abstract: The UK Government Web Archives is responsible for preserving the British governments webpages archives that generated by the British government since 1996. It has been at the forefront of the world for governments webpages filing and development. In the past two years, the UK government web archives have had new practices and attempts in construction mode, technical support, and service utilization methods. These new practices have important reference value for our country. Based on these experiences, we should Actively construct a policy framework for the governments webpages filing, fine- grained develop and use of government webpages resources, and in-depth cooperate with the whole society, in order to develop a road to file and develop governments webpages, which conform to the condition of our country.
Keywords: Governments Web Archive; Policy Framework; Fine Grained; Social Cooperation
1引言
1999年1月,政府上網工程啟動大會在北京舉行,標志著“政府上網”工程正式啟動。項目啟動至今的近20年時間內,該項工程取得了良好的成效。《全國檔案事業“十三五”規劃綱要》中指出,到2020年的發展目標之一是實現檔案資源的多樣化和利用的便捷化。政府網頁是展現政府形象的重要窗口和履行政府職能的關鍵工具,是不同歷史時期社會面貌的全面反映,政府網站中的信息可以為政府、社會組織和個人提供知識,具有憑證價值、記憶價值和知識價值,理應成為珍貴的數字檔案資源被歸檔保存,并加以更加細顆粒化的開發和利用。如今,大數據、云計算等新興技術的發展為政府網頁的歸檔保存和資源開發提供了新的契機。
英國政府是互聯網的早期使用者,其網站可追溯到1996年,英國政府網頁檔案館負責保存1996年以來英國政府產生的英國政府網頁檔案、英國政府社交媒體賬戶的推文和視頻檔案,用戶可以在其中瀏覽英國政府網站的整個歷史,甚至可以瀏覽到一些已被剔除的部門舉措,例如2010年已經停止使用的教育維護津貼等舉措的信息記錄。自成立以來,英國政府網頁檔案館已經保存了巨大規模的數據,包括5000多個網站以及來自政府社交媒體賬戶的推文和視頻,截至2018年檔案數據的擁有量超過120TB[1]。如何實現如此大規模體量的數據管理與開發利用,是英國政府網頁檔案館近年來不斷探索的主題。近年來,隨著用戶需求的變化和技術的飛速進步,英國政府網頁檔案館開始了變革和創新的新實踐,這些實踐經驗對于我國政府網頁的歸檔具有重要的借鑒意義。因此,本文以英國政府網頁檔案館的近幾年來的實踐新動態為例,從建設模式、技術手段、開發方式等方面進行解析,并提出對于我國政府網頁歸檔保存及資源開發的借鑒和啟示。
2英國政府網頁檔案館的實踐新動態
2.1以合作共建為主要建設模式
英國政府網頁檔案館隸屬英國國家檔案館,自2003年以來,國家檔案館一直通過英國政府網絡檔案館定期拍攝英國中央政府網站的“快照”。英國國家檔案館產生的網絡流量比所有其他國家檔案網絡服務的流量高出數倍,因此政府網頁檔案館一直與擁有專業知識的外包商合作,管理這種規模的網頁收集和開發。2016年之前,英國政府網頁檔案館還是主要以自主管理模式為主,但由于數據量的不斷增多,自主管理模式面臨困境,因此逐漸開始探索合作共建模式。2017年7月,英國政府網頁檔案館開始與互聯網記憶研究基金會(Internet Memory Research,簡稱IMR)合作,互聯網記憶研究基金會于2011年在巴黎成立,是最早一批專門從事網頁歸檔的組織,該組織借助大規模網絡爬蟲,數據存儲和處理的技術和能力,幫助客戶收集,處理和利用海量數據[2]。英國政府網頁檔案館通過IRM構建的數據中心來保管捕獲到的大量政府網頁數據。伴隨著英國政府檔案館需求的更新,為了滿足英國國家檔案館的“云優先”存儲要求,即網絡資源必須存儲在云上,英國政府網頁檔案館開始尋求新的合作伙伴。他們最新的合作商Mirrorweb是檔案云存儲方面的專家,該公司的主要業務是提供動態的、可擴展的網頁歸檔與社交媒體歸檔的云存儲平臺[3]。為使訪問者獲得更佳的用戶體驗,英國政府網頁檔案館還曾與美國洛斯阿拉莫斯國家實驗室合作,使用其開發成果Memento,以添加插件的形式允許用戶通過使用Web檔案訪問特定的Web資源(例如,網頁,文檔或數據),并在過去的某個時間訪問特定的Web資源,從而為Web添加時間維度[4]。與此同時,英國政府檔案館也通過博客、推特等新媒體平臺發布當前他們遇到的技術或管理障礙,廣泛接納用戶的反饋并呼吁公眾為其建言獻策,提供更好的解決方案。
以上可以看出英國政府網頁檔案館積極尋求與外界的合作共建。他們立足自己的需求,尋求與技術供應商、研究所、基金會、用戶等組織和個人開展廣泛合作。這種合作共建的模式一方面為英國政府網頁檔案館實現超大規模數據的長期安全保存提供了保障,另一方面也能夠不斷適應理念和技術的更新迭代,保持技術先進性和活力,為檔案館訪問者提供最佳的用戶體驗。
2.2以云存儲為核心技術支撐
為響應英國“云優先”政策,即在進行技術投資時優先選擇云服務,英國政府網頁檔案館開始探索以云存儲為核心的技術支撐。云存儲對于英國政府網頁歸檔的主要優勢主要有:首先,云存儲技術可以應對檔案館超過120TB的龐大數據量的管理;其次,云存儲便于存儲空間的擴展;最后,云存儲使得基于網頁的服務更加安全與便捷。深化與云服務提供商Mirrorweb的合作,對大量數據進行云遷移并建立數據索引是英國政府網頁檔案館的最新實踐。在與Mirrorweb合作之前,大量數據存儲在標準格式ARC文件中,最初檔案館采用互聯網直接傳輸加密文件的傳輸手段,但這種方法效率低且易出錯。后來英國政府網頁檔案館嘗試使用物理媒介傳輸,使用英國國家檔案館物理數據傳輸標準媒介2TB USB-3硬盤。在2015年至2017年之間,大約120TB的數據通過這種方法傳輸,數據通過外包公司的捕獲后到達檔案館自己的Kew站點,再轉移到硬盤上進行長期保存,這種方式雖然利于保存,但很難實現大量數據的快速訪問。而后英國政府網頁檔案館采用PB級數據傳輸解決方案亞馬遜Snowball傳輸技術,將數據復制并加密到內部硬盤驅動器,然后將其運送到亞馬遜網絡服務數據中心以便傳輸到云端。云傳輸技術的使用使得英國政府網頁檔案館得以在兩周之內完成120TB數據的遷移,大大節省了數據遷移的時間成本,也保證了海量數據的安全可用。在網頁的捕獲上,英國政府網頁檔案館使用最先進的技術來捕捉網站并使存檔網站可以訪問。包括使用Heritrix(專為網絡歸檔設計的網絡爬蟲。由Internet Archive撰寫,可以通過免費軟件許可獲得,并以Java編寫[5])網絡爬蟲的最新穩定版本來捕捉網站并使用pywb來回放存檔網站,這一方法已幫助政府網頁檔案館解決了舊的web檔案中存在的許多訪問上的問題[6]。
除了將云存儲技術作為當前英國政府網頁檔案館的核心技術支撐以外,英國國家檔案館目前正在積極調研和探索區塊鏈技術在檔案管理中的運用,該研究項目名為Archangel,由薩里大學(University of Surrey)主導,合作伙伴包括開放數據研究所等。該計劃還將探討區塊鏈可以在多大程度上解決與檔案管理有關的緊迫問題。該項目旨在通過區塊鏈技術的運用保證檔案館記錄的真實可信[7]。英國政府網頁檔案館也是英國國家檔案館的組成部分之一,在未來也將會共享此項目的成果,運用區塊鏈等更新的技術來保障保存的政府網頁和社交媒體記錄真實可信和長期可用。不斷進行支撐技術的創新迭代,是英國政府網頁檔案館得以長久穩定的運行和為公眾提供利用的關鍵因素之一。
2.3以檢索功能為利用服務特色
英國政府網頁檔案館網站隸屬于英國國家檔案館,以在線網站的形式為社會各界提供利用。政府網頁檔案館網站設置在英國國家檔案館網站中“幫助你的研究(Help with your research)”欄目下,并列的項目還有“探索我們的目錄(Search discovery our catalog)”“從這里開始你的研究(Start your research here)”等欄目,因此可以看出,政府網頁檔案館的定位是英國國家檔案館為用戶的研究提供利用服務的一種重要方式,因此,政府網頁檔案館十分重視不斷完善檔案館網站的信息檢索服務,不斷探索如何使得用戶能夠更便捷地利用已歸檔的政府網頁和社交媒體。英國政府網頁檔案館強大的檢索功能,主要體現在其為用戶提供了多種多樣的檢索方式。檔案館首頁中涉及檢索功能的模塊有兩個:一個為直接檢索(Search),用戶在檢索框中直接輸入檢索關鍵詞即可。同時檢索功能支持對直接檢索結果進行進一步篩選,用戶可以通過關鍵詞、網址、文件格式類型(目前支持Excel、HTML、Text、Word、PDF、CSV六種格式類型)和年份對簡單檢索結果進行進一步篩選,提高檢索效率。另一個檢索模塊為字母A-Z的索引檢索,用戶可利用需要查詢內容的首字母與索引進行比對,更加直觀和快速地找到所需內容。此外,用戶使用指南被放在網站首頁顯眼的位置,用戶可以通過查詢操作指南,最快速和全面地了解如何使用該檔案館的檢索功能。
2015年底英國政府網頁檔案館進行了一次全面的用戶調研,結合現代化技術,對其服務功能進行了改進和完善,截至目前已取得了一定成效。首先從網頁視覺設計上,新改版的網站摒棄了之前首頁多圖片的設計,僅僅在首頁中呈現一張圖片,其余只設置六個板塊以供用戶檢索。通過關注小細節,實現更流暢的用戶體驗。2015年的用戶調研結果表明,用戶反映之前的全文搜索不可靠,功能有限,檢索功能需要改進。英國政府網頁檔案館的最新實踐是:第一,在云端運行檢索,以保證檢索的流暢可靠運行。第二,將OCR(光學字符識別)軟件作為索引過程的一部分運行在PDF格式文件中,因此現在可以搜索從紙質原件掃描的文檔內容,也可以實現包括政府部門,類別和捕獲年份等搜索結果。第三,全文搜索索引從之前的每季度更新轉變成每月更新,以保證新捕獲的網站能夠更加快速地實現檢索。自2016年以來的以上新嘗試,都體現了英國政府網頁檔案館將為用戶提供更加優質的服務作為首要任務,不論從技術上還是管理上,都進行了不斷的探索和完善。
3對我國政府網頁歸檔的啟示
3.1構建政府網頁歸檔政策框架
2017年5月《國務院辦公廳關于印發政府網站發展指引的通知》發布,其中提到“網頁歸檔是對政府網站歷史網頁進行整理、存儲和利用的過程。政府網站遇整合遷移、改版等情況,要對有價值的原網頁進行歸檔處理。歸檔后的頁面要能正常訪問,并在顯著位置清晰注明“已歸檔”和歸檔時間”。我國網頁歸檔項目最早始于2002年1月,在國家“973”和“985”項目支持下,由北京大學網絡實驗室開發建設的中國網頁歷史信息存儲與展示系統,稱為中國Web信息博物館,截至目前已經維護有9056638059個網頁。2003年初,我國國家圖書館正式啟動“網絡信息資源保存”試驗項目(Web InformationCollectionand Preservation, WICP)并于同年11月20日開通“網絡信息資源保存”項目主頁提供服務[8]。目前,一些省市檔案館也開始進行政府網頁歸檔的探索,將政府網頁作為珍貴的數字檔案資源加以保存。總體來看,我國政府網頁歸檔工作還處在相對分散、自成體系的階段,缺乏法律、政策和標準上的統一。因此,首先應從政策和法律上明確政府網站歸檔的重要性和價值,將政府網頁納入國家電子文件管理與數字檔案資源建設體系中去;其次應從宏觀層面對政府網頁的概念、特征、屬性、類別、技術標準等基礎問題進行界定;最后應明確政府網頁歸檔的責任主體與權責分配,檔案館在政府網頁歸檔、長期保存與開發利用上不可缺位,應從制度上強化檔案館在此方面的職責。
3.2探索政府網頁資源的細顆粒化開發與利用
政府網頁中這些高密度的信息具有顯著的價值,對政府網頁加以歸檔保存的最終目的,是為了充分挖掘政府網頁中蘊含的知識和價值,為社會提供利用。長期以來,我國的檔案管理傳統傾向于粗顆粒的保管,“重管輕用”的工作模式依然存在,顯然這種模式已不適合于像政府網頁這樣的新型數字檔案資源。如今,新興技術的發展為政府網頁資源的細顆粒化開發創造了諸多有利條件。首先,政府網頁資源的開發應做好基礎利用工作,保障用戶可以獲取到已歸檔的政府網頁資源。這需要對已歸檔的政府網站資源進行整合,提供開放查詢平臺和多樣化的檢索工具,正如英國政府網頁檔案館提供首字母檢索索引。其次,隨著用戶需求的不斷提升,開發利用工作應不僅僅局限于為用戶提供原生資源利用,而是應廣泛應用文本挖掘、語義關聯、知識圖譜、可視化等技術,對已歸檔政府網頁中的數據進行語義級的開發,還可以聯系其他檔案資源類型進行聯合開發,探索如何為用戶提供更多樣化、知識化的內容和產品,如利用政府網頁中的數據舉辦在線專題展覽、開發文化創意產品等。最后,在政府網頁資源的開發和利用過程中,應充分調動公眾的參與積極性,采用眾包形式匯聚更多人的智慧,實現對政府網頁資源的多角度、多層次的開發和利用。
3.3開展面向全社會的深度合作
總結英國政府網頁檔案館項目的經驗可以發現,英國政府網頁檔案館根據自身不同時期的業務需求,與社會各界廣泛開展合作,而我國政府網頁歸檔進程中在這一方面則有所欠缺。為此,檔案館在開展政府網頁歸檔項目時,其一,應積極尋求與社會資本合作,如將海量政府網頁數據的捕獲、存儲、遷移和長期保存等工作交由有經驗和資質的技術供應商來完成,諸如IBM、SUN等國外知名網絡服務供應商或浪潮、曙光等中國本土企業都可以為政府網頁歸檔提供更加專業化的解決方案。通過英國在“云優先”背景下選擇改變以往的技術手段,與云服務供應商合作這一舉動可以看出,服務外包模式的優勢在于有助于保持政府網頁歸檔和保存項目的先進性和靈活性,檔案館可以根據不同時期的現實需求選擇不同的技術服務商,以保障這項工作的長期穩定開展。除了與外包服務商合作以外,還需要對政府網頁資源的生成者,以及政府職能部門及政府網頁資源的使用者,即政府網頁檔案館的用戶開展深入的調研和互動。英國政府網頁檔案館不斷完善的動力,很大程度是為了解決用戶調研中發現的問題,從而提供更好的用戶體驗。我國在開展政府網頁歸檔工作時,也應開展深入的調研,利用更多量化數據,以便形成適合我國實際情況的政府網頁歸檔與開發利用方案。
4結語
英國政府網頁檔案館長期以來能夠穩定運行,并能為用戶提供良好的服務得益于合作共建的建設模式、不斷更迭的技術支撐和不斷改進的服務利用方式。我國政府網頁歸檔和資源建設尚未形成成熟完善的發展態勢,在思維轉變、法規政策、建設模式、技術水平等方面都需要進一步的探索和提升。英國政府網頁檔案館的成功實踐給了我們很多有益的借鑒和參考,我國政府網頁檔案的歸檔保存和開發利用工作應該積極吸納這些先進經驗,并在充分調研的基礎上,走出一條符合我國實際情況的政府網頁歸檔和開發之路。
參考文獻
[1]How to move a 120 TB web archive to the cloud in two weeks[EB/OL].[2018-6-13].https://blog.nationalarchives.gov.uk/blog/move-120-tb-web-archive-cloud-two-weeks/.
[2]About internet memory research[EB/OL].[2018-6-17]. https://internetmemory. net/en/about/#about.
[3]Web & Social Media Archiving for Business and Government[EB/OL].[2018-6-17]. https://www.mirrorweb.com.
[4]Memento in the UK Government Web Archive[EB/OL].[2018-6-17]. https:// blog.nationalarchives.gov.uk/blog/memento-in-the-uk-government-web-archive/.
[5]Heritrix[EB/OL].[2018-6-27]. https://en.wikipedia.org/wiki/Heritrix.
[6]The UK Government Web Archive is now even better[EB/OL].[2018-6-27]. https://blog.nationalarchives.gov.uk/blog/uk-government-web-archive-now-even-better/.
[7]英國政府官方檔案館正測試區塊鏈技術[EB/OL].[2018-6-27]. http://bitejie. net/news/19098.html.
[8]曹玲,顏祥林.美國國會圖書館網頁歸檔項目的新動向[J].檔案學研究,2018(2): 125-128.