夏立新 楊元 郭致怡
(華中師范大學信息管理學院,武漢 430079)
文獻信息資源作為一種社會智力資源,是人類活動與知識的載體。隨著互聯網的發展與普及,網頁已經逐漸成為人們日常獲取、記錄信息的重要平臺,網頁所載文字、圖片、音像等成為記錄和反映當代社會人類活動與知識的重要信息資源。從文獻信息資源保障的視角看,以一定采集策略篩選獲得的網絡信息資源是當代社會新興的一類文獻信息資源。與傳統文獻信息資源相比,網絡信息資源的內容與形式更加豐富、體量龐大。然而,網絡信息資源的易變性、不穩定性、流動性、不可再生性以及對軟硬件環境的強依賴性,也為網絡信息資源的長期保存與開發利用帶來較大挑戰[1]。如何確保網絡信息資源的可靠使用和永續利用是互聯網時代文獻信息資源保障工作亟需解決的問題。
我國網頁歸檔實踐尚處于起步階段,對網絡信息資源的自動化處理與長期保存的理論研究和實踐經驗十分有限,當前僅有中國國家圖書館和北京大學較系統地開展了相關實踐。本文面向擁有大量活躍互聯網用戶和豐富內容與形式的高校網絡信息資源,通過分析國外高校網絡信息資源自動化處理與長期保存的優秀案例,總結其網絡信息資源管理策略,為我國網絡信息資源建檔、歸檔工作提供方法與路徑。
本文回顧已有研究成果,發現當前高校網絡信息資源自動化處理與長期保存策略相關研究主要圍繞網絡信息資源自動化處理與長期保存現狀和高校文獻資源保障兩方面展開。
國際互聯網保存聯盟(IIPC)將網頁歸檔定義為采集萬維網的一部分內容并且以檔案形式保存,并支持檔案的后續訪問和使用[2]。其中,網絡信息資源的自動化處理與長期保存的技術與策略是網頁檔案建設的主要內容,經過自動化處理并進行長期保存的網絡信息資源集合稱為網頁檔案資源。在實踐方面,美國互聯網檔案館于1996年率先開展網頁歸檔相關實踐。同年,澳大利亞、瑞典、法國也相繼于20世紀末展開網頁歸檔實踐[3]。目前,歐美國家的網絡信息資源歸檔主題已不斷細分,涵蓋國家歷史文化、社會生活、突發事件、政府信息等。隨著項目的推廣和深入,國外學者在利用網頁檔案的過程中產生了多學科、多主題的研究成果,同時不斷提出網絡信息資源的新需求與相應的保障策略[4-7]。我國的網頁歸檔實踐開始于21世紀初,2001年北京大學計算機系網絡與分布式系統實驗室發起了“中國Web信息博物館”項目,該項目能夠采集我國絕大多數的靜態網頁并提供網頁搜索和數據分享功能[8]。中國國家圖書館于2003年發起了“中國國家圖書館的網絡信息資源保存試驗項目”(Web Information Collection and Preservation,WICP)對中國境內的網絡資源進行采集與保存實驗,并于2019年啟動“互聯網信息戰略保存項目”,建設覆蓋全國的分級分布式中文互聯網信息資源采集與保存體系[9]。然而國家圖書館的互聯網資源尚處于建設階段,還未開展相關服務。在網頁歸檔的理論研究方面,我國網頁歸檔的有限實踐導致我國網絡信息資源保障工作的相關研究大多集中于理論研究,學者對網絡信息資源的采集、保存相關的技術與策略進行研究,而利用網頁檔案開展的研究成果較少,我國歷史網絡信息資源尚未得到有效地開發與利用。我國網頁歸檔實踐尚處于起步階段,且現行網頁歸檔項目較少且尚未面向社會進行網頁檔案資源保障工作。
肖希明[10]提出,文獻信息資源保障工作的總目標是最大限度地滿足用戶對文獻信息最廣泛的需求。劉敏等[11]提出高校圖書館應為高校教學、科研提供“紙質文獻信息—電子文獻信息—共享文獻信息”的全方位服務。蔣巖波等[12]以江西省昌北高校圖書館聯盟為例,認為圖書館聯盟中各高校應當注重資源采購計劃的針對性,凸顯本校學科特色;完善重點學科三級文獻資源保障體系建設。現有研究多以保障高校內部用戶的文獻信息需求為目標展開,忽略了高校圖書館在我國文獻信息資源保障工作開展中承擔的使命與責任,導致高校文獻信息資源建設模式相對封閉,主要側重通過常規采集方式獲得的各種文獻信息資源,滿足高校用戶教學、科研的文獻信息需求,忽略了記錄以及反映高校知識和歷史的網絡信息資源的采集保存工作,從而嚴重制約了此類重要資源的開發利用。
綜上所述,網絡信息資源已成為互聯網時代記錄和反映人類生產生活的重要文獻資源之一,然而我國的網絡信息資源的自動化處理和長期保存工作尚處于起步階段。一方面,我國開展網頁歸檔實踐的組織與機構較少,且尚未正式對公眾開展網頁檔案資源服務;另一方面,作為我國文獻信息資源保障工作的重要基礎性機構的高校圖書館對于網絡信息資源的長期保存意識較為淡薄,忽略了網絡信息資源的文獻價值。基于以上問題,本文借鑒國外優秀高校網絡信息資源歸檔項目——美國密歇根大學本特利歷史圖書館(以下簡稱“本特利歷史圖書館”)的網頁歸檔實踐,深度剖析該項目的實踐情況,在總結其歸檔資源特征、自動化處理和長期保存具體工作流程的基礎上,研究適合我國高校網絡信息資源自動化處理與長期保存的策略。
互聯網記錄和傳輸信息的便捷性,使得人類越來越多地將信息記錄和分享在各類網站以及互聯網平臺上。從文獻信息資源保障的角度看,高校網絡信息資源已然成為能夠廣泛、多形式記錄和反映高校知識成果和歷史發展的重要文獻信息資源之一,然而,網絡信息資源易丟失、難保存的特點又為其可靠使用和永續利用帶來嚴峻挑戰[8]。此外,高校作為我國文獻信息資源保障工作開展所依托的重要機構,其網頁歸檔實踐對我國網頁歸檔事業發展具有重要參考價值。因此,高校網頁歸檔實踐是當前文獻信息資源保障工作所面臨的重大挑戰,又是互聯網時代文獻信息資源保障的必要工作。
互聯網時代,網絡信息資源是記錄人類活動和知識的重要文獻信息資源之一,實現對網絡信息資源的長期保存是文獻信息資源保障工作的重要內容之一[8]。高校網絡信息資源的內容和形式豐富多樣,是記錄和反映高校發展歷程、管理制度、科研成果、學術活動、學生生活、校園文化等多方面歷史信息的第一手資料,是互聯網時代記錄高校管理制度和發展歷史的重要原始文獻。因此,探索網頁信息的自動化處理與長期保存策略對保留高校歷史資料和知識產出具有重要意義[12]。
文獻信息資源保障工作的目標是最大限度地滿足用戶的文獻信息需求。網絡信息資源作為互聯網時代新興的文獻信息資源類型,既是人類數字記憶的重要組成部分,又是教育學家、歷史學家等研究者的重要參考文獻[12]。一方面,隨著Web2.0時代的到來,網絡信息資源相比傳統文獻信息資源以文檔、圖片、視頻等多種形式,更加全面翔實地記載了人類的知識與活動,彌補了傳統文獻信息資源的記錄空白;另一方面,網絡信息資源高度依賴于其所在的軟硬件環境,易丟失且難恢復。因此,網絡信息資源作為一種新時代我國文獻信息資源采訪與自建工作的重要對象,只有通過有效的自動化處理與長期保存工作及時識別重要、具有長期保存價值的網絡信息資源并對其進行分類、歸檔和存儲,才能保障網絡信息資源的可靠使用和永續利用,促進立體化、多樣態文獻信息資源體系的形成。
高校網絡信息資源歸檔實踐較易開展且能夠獲得較豐富的實踐經驗。一方面,高校是一個管理體制較完善且擁有本校網絡信息資源知識產權的組織,其網絡信息資源歸檔實踐面臨的外界阻礙較小;另一方面,高校網絡信息資源內容與形式豐富,擁有其不同部門及附屬單位,甚至由教職工和學生創建、管理,服務于學校各項業務或高校成員業余生活的各類網站,其網絡信息資源歸檔實踐能夠為不同主題、不同信息資源類型、不同更新頻率、不同運營機構特征的網絡信息資源的自動化處理與長期保存工作提供經驗和參考。因此,研究和開展高校網絡信息資源歸檔工作能夠推進我國網絡信息資源保障事業發展。
美國國家數字化管理聯盟(National Digital Stewardship Alliance,NDSA)2016年和2017年的網頁歸檔項目調查報告顯示,近年來美國高校開展網頁歸檔項目的機構數量明顯增長,美國高校圖書檔案機構成為網頁歸檔的重要實踐單位[13]。本文以高校網頁歸檔最佳實踐案例本特利歷史圖書館的網頁歸檔項目為例,進行深入分析其網頁歸檔實踐中自動化處理與長期保存策略。
密歇根大學所屬本特利歷史圖書館成立于1935年,其主要職能是收集并管理密歇根大學相關歷史的第一手證據和數據并促進對它們的歷史研究,以確保運營的連續性和有效的管理,履行法律、監管和財政責任,并優化其對空間和時間的利用。自2010年以來,本特利歷史圖書館一直在通過網頁歸檔實踐來識別、評估和選擇能夠反映大學運營管理和具有檔案收藏價值的網站并定期進行對這些網站進行自動化處理與保存。截至2021年6月1日,本特利歷史圖書館已建立了9個網頁檔案,共歸檔2 803個網站[12]。這些網頁檔案向公眾開放,用戶可通過Archive-It官網、U-M Library(密歇根大學圖書館的在線公共訪問目錄庫)或BHL Finding Aid 3個網站對其網頁檔案信息進行訪問。同時,本特利歷史圖書館還積極地與其他檔案機構合作分享它的檢索工具,以便公眾和遠程研究人員能夠了解本特利的館藏并加以利用[14]。
本特利歷史圖書館于2019年修訂的《檔案政策與程序手冊》中明確了其篩選歸檔網站所必須滿足的5項條件:①網站由大學所有且用于開展大學相關業務;②網站反映與大學相關的基本功能或活動;③網站是對現有檔案和手稿收藏的補充;④網站填補了收藏中的空白;⑤網站包含定期更新的獨特且有意義的內容[12]。
目前,本特利歷史圖書館已建立檔案的內容包括密歇根州的歷史收藏以及密歇根大學管理、校友和粉絲、體育、衛生系統、新聞與活動、附屬單位(學校、學院、研究、中心和研究所、學生組織)、mBLog(移動博客)。從數量上看,密歇根大學附屬單位的網絡檔案所包含的網站數量最多(1 283個),而密歇根大學校友和粉絲網絡檔案所包含網站數目最少(19個)。從內容上看,本特利歷史圖書館進行歸檔的網頁包含八大主題,分別為大學與圖書館、社會與文化、藝術與人文、博客和社交媒體、科學與健康、自發事件、計算機與技術和政府-美國各州。此外,本特利歷史圖書館所收藏網站既包含密歇根大學附屬的學院、研究機構和學生組織,也包含學校的教職工和學生合作或獨立創建的網站[15]。通過對歸檔網站的篩選原則和密歇根大學已歸檔網絡信息資源的調研分析,本文發現密歇根大學的網頁歸檔資源具有以下特點。
(1)網站為密歇根大學所有。本特利歷史圖書館所歸檔網站均由密歇根大學附屬單位、教職員工或學生創建、擁有或使用。此類網站所記錄的信息資源,不僅在內容上與密歇根大學密切相關,具有一定保存價值,而且其知識產權歸密歇根大學所有,合理規避了潛在知識產權糾紛。
(2)網站服務于該校的各項工作與活動且能夠反映其開展情況。本特利歷史圖書館要求網站用于大學且能夠反映有關的業務、功能或活動。此類網站能夠從不同視角廣泛、形象地記錄和反映密歇根大學的管理事務、校園活動和發展歷程,是密歇根大學的重要歷史遺產,可以幫助解釋事件發生的方式或原因,為歷史學家、教育學家、新聞工作者等提供優質信息源。
(3)網站中網頁信息具有永久且持續記錄價值的內容。本特利歷史圖書館要求所歸檔網頁信息能夠填補已有收藏的空白并會定期進行更新。考慮到長期保存的成本問題,本特利歷史圖書館館員在進行網頁歸檔前會對網站的信息資源內容進行評估,刪除明顯重復和歷史價值不足的網站。
網頁歸檔涉及網絡信息資源的采集、歸檔、編目、存儲4個關鍵步驟。本特利歷史圖書館負責確認采集對象、規范網站建設、提供訪問接口和管理知識產權等問題,同時通過Internet Archive推出的Archive-It程序,進行網絡信息資源的收集、歸檔和保存工作。
本特利歷史圖書館網頁歸檔的具體工作流程如圖1所示,依托Archive-It程序并制定輔助Archive-It順利開展網站識別、網絡信息資源爬取和編目工作的相關制度與規范,實現網絡信息資源的自動化處理與長期保存。

圖1 本特利歷史圖書館網頁歸檔工作流程
本特利歷史圖書館網頁歸檔過程中的工作分為三個階段:一是在采集網絡信息資源前,制定便于Archive-It程序進行自動化處理的網站建設規范,并提供便于網站預歸檔名單、網站信息資源采集方案,如對各網站信息資源采集的時間和頻率;二是在采集網絡信息資源過程中,選用Archive-It程序對網絡信息資源定期進行自動化識別和采集,與Archive-It相關負責人員及時溝通,根據實際情況調整網頁歸檔計劃;三是在完成網絡信息資源采集工作之后,繼續利用Archive-It程序對網絡信息資源進行編目、歸檔和存儲。
Archive-It在密歇根大學網頁歸檔實踐中主要負責在特定的時間點獲取所需歸檔網站的快照并創建網站的存檔副本,將副本文件規范化存儲于Internet Archive的互聯網數據庫和密歇根大學的機構資料庫Deep Blue中,實現多服務器網絡信息資源存儲與服務。具體而言,Archive-It的工作分為網絡信息資源采集和網絡信息資源編目與存儲兩個階段:在網絡信息資源采集過程中,Archive-It在不干擾網站訪問的情況下通過爬蟲軟件進行網絡信息資源的爬取。大多數網絡信息資源的爬取工作每年僅運行幾次并持續幾天,在網絡信息資源采集工作完成后,爬蟲軟件將停止與服務器進行交互。此外,Archive-It會對密歇根大學預歸檔名單中的網站進行持續性跟蹤和監測,提供網站最佳采集時間的建議,當網站發生重大變更時,提醒檔案管理員增加臨時采集計劃。在完成網絡信息資源采集工作后,Archive-It采用柏林核心元數據和網絡資源存檔國際標準WARC格式對網絡信息資源進行規范化著錄和保存。
通過對密歇根大學網絡歸檔工作流程的梳理,可以總結出本特利歷史圖書館網頁歸檔工作各環節采取的關鍵策略如下。
(1)選擇性網絡信息資源采集。本特利歷史圖書館根據網頁歸檔資源的篩選原則,預先確定需要采集的網站,忽略保存價值低的網絡信息資源。對于高校網頁歸檔工作而言,受到成本、法律等多方面外界因素限制,采取選擇性采集策略有以下優勢:一是通過人工的預先篩選能夠保證所采集網絡信息資源的內容質量;二是大大縮小網絡信息資源采集的范圍,能夠降低網絡信息資源采集的技術、設備成本,也有利于網絡信息資源的知識產權合規管理,有效規避高校網頁檔案資源開放的法律風險。
(2)規范化的網站建設。為提升本校網站的可訪問性,方便網絡信息資源的自動化識別和歸檔,本特利歷史圖書館發布了《網站可訪問性指南》對密歇根大學的各網站創建出規范化要求,具體包括:①所有大學網站和印刷材料上均應包含版權行;②要確保網頁有效且符合HTML規范;③在網站站點的robots.txt文件開頭添加規定代碼,明確允許Archive-It對站點進行歸檔;④要求網站在HTML標頭中使用描述性元數據元素來提供有關網站的文檔。
(3)定期捕獲和及時捕獲相結合的網絡信息資源采集。本特利歷史圖書館在利用Archive-It程序進行網頁歸檔的自動化處理過程中,本特利歷史圖書館根據需要歸檔網站內容的一般變化情況,確定各網站的采集時間和頻率,將網站地址及其捕獲頻率提供給Archive-It。Archive-It按照本特利歷史圖書館設定好的捕獲頻率,定期對本特利選定的網站進行數據爬取,創建網頁存檔副本并進行存儲。此外,當密歇根大學對其網站進行臨時性重大更改時,本特利歷史圖書館可以在Archive-It人工添加新的捕獲計劃。
(4)國際標準化的網絡信息資源編目與存儲。本特利歷史圖書館網頁歸檔資源的編目和存儲也在Archive-It程序的輔助下進行,在網絡信息資源的存儲上,采用WARC格式(網絡資源存檔國際標準ISO 28500:2009)進行網頁數據的存儲。在對所采集網絡信息資源的描述上,采用國際上廣泛使用的柏林核心元數據集對網絡信息資源的文件類型、標題、內容、URL、主題及發布者等進行描述與著錄。此外,Internet Archive還開發了一種能夠從WARC文件中抽取結構化數據的方法WAT(Web Archive Transformation),便于對大規模數據集進行數據分析。采用國際通用的數據描述標準和存儲范式,有助于所收集網絡信息資源的整合共享、高效使用、二次開發和永續保存。
(5)多副本多服務器的網絡信息資源存儲。本特利歷史圖書館的網頁檔案不僅保存在Internet Archive的互聯網數據庫中,還備份存儲在密歇根大學的機構資料庫Deep Blue中,支持通過Archive-It官網或密歇根大學的數字圖書館擴展服務訪問其網頁檔案。這種保存策略不僅能夠增強網絡信息資源存儲的安全性,而且能夠支持該校網頁檔案的多途徑訪問和利用,更好地滿足校內和社會用戶的相關文獻信息需求。
本特利歷史圖書館提供多渠道網頁檔案資源檢索服務、網頁檔案資源索引與指南服務。一方面,用戶利用Archive-It的時光機項目(Wayback Machine)、本特利歷史圖書館檢索工具BHL Finding Aid和密歇根大學圖書館的數字圖書館擴展服務進行網頁檔案的檢索和訪問,便利本校用戶和公眾對本特利歷史圖書館網頁檔案的訪問和利用。另一方面,本特利歷史圖書館的檔案管理員整理并提供了網頁檔案的描述性指南與索引,列出了網頁存檔信息資源和網頁檔案的名稱、主題、摘要、創建者、采集日期等內容,方便用戶確認自己所需的網絡信息資源或按某一分類標準進行獲取具有特定特征的網頁存檔信息資源和網頁檔案。
本特利歷史圖書館的網頁歸檔實踐已初具規模,然而,其自動化處理和長期保存工作中依舊面臨網站存檔版本不完整的問題。具體而言,本特利歷史圖書館的網頁歸檔策略是針對html格式的靜態網頁,在對其他類型的網絡信息資源進行采集和存儲時,難以保留其完整形式、功能和內容,主要包括:①存儲在不同域或子域上的鏈接內容;②動態腳本或應用程序,如JavaScript或Adobe Flash;③具有視頻或音頻內容的流媒體播放器;④受密碼保護的材料;⑤需要與網站進行交互的表單或數據庫驅動的內容[12]。
網絡信息資源是互聯網時代記錄和反映人類生產生活的重要文獻信息資源,是新時代我國文獻信息資源保障體系建設中關鍵的組成部分。然而,我國網頁歸檔工作尚處于起步階段,尚未形成系統性的網絡信息資源自動化處理和長期保存機制,學界、業界對歷史網絡信息資源潛在價值的二次開發與利用十分有限。由此,以習近平總書記“融合發展思想、開放發展理念”為指導,將網絡信息資源納入我國文獻信息資源保障體系,建設便于社會各界獲取與利用的網頁檔案尤為必要。鑒于我國在網頁歸檔實踐中存在的問題,本文提出優先進行高校網頁歸檔實踐,及時保留高校網站所記錄和反映的高校知識與歷史的網絡信息資源,為我國網頁歸檔事業提供經驗和參考方案。
在借鑒國外最佳實踐的基礎上,要實現我國高校網絡信息資源的自動化處理與長期保存,完善高校文獻信息資源體系,確保高校重要網絡信息資源的可靠使用和永續利用,就要建立適合我國高校發展特點的網絡信息資源歸檔與保障模式。本文從文獻信息資源保障工作的核心內容文獻信息資源的建設和服務兩方面出發,結合本特利歷史圖書館的最佳實踐經驗,構建我國高校網絡信息資源歸檔與保障模式,如圖2所示。

圖2 高校網絡信息資源歸檔與保障模式
(1)網絡資源層。該層是服務于高校成員辦公和日常活動的各類知識產權歸本校所有的網站中所承載各類數據及資源的集合。高校官方網站、高校網頁論壇和高校成員用于高校各類活動自建的網站所承載的高校辦公、圖像、音頻、視頻的文件及高校數據庫、相關新聞報道、高校地圖等數字資源共同構成高校的數字記憶[16]。網絡資源層的涵蓋范圍廣泛,資源內容豐富,資源類型復雜且資源質量不一,需要高校圖書館員對網絡資源層的海量資源進行篩選,保留具有長期保存價值的網絡信息資源。
(2)建設開發層。該層主要包含高校網絡信息資源的采集、組織、保存三方面的工作。本文從高校圖書館在建設開發中所需要采取的管理模式和網頁歸檔所需的相關技術兩方面出發,梳理高校網絡信息資源建設開發過程各階段的組織和技術保障需求。在網絡信息資源的采集方面,需要圖書館為本校網站建設制定統一標準,便于網絡信息資源的爬取和著錄。同時,在此階段,需要高校圖書館根據所需歸檔的網絡信息資源特點,選取成本合適、能夠可靠爬取網絡信息資源的爬蟲軟件。網絡信息資源的組織過程中,需要根據網絡信息資源的內容特征進行歸檔,自動化處理軟件應該按照統一標準進行編目。在網頁檔案資源保存階段,圖書館需要確保網頁檔案資源保存的安全性,采取多副本分布式存儲策略,網頁檔案資源的存儲格式應與WARC相一致。
(3)應用服務層。該層主要包含實現高校網頁檔案資源有效可靠保障的各類服務。通過多服務器存儲拓寬高校網頁檔案資源的服務對象范圍,便于高校用戶和社會用戶對高校網頁檔案資源的開發利用。一方面,提供全文搜索和瀏覽列表等多種檢索方式,將托管的網頁檔案集合直接鏈接到機構本地的搜索頁面。同時,推出便于網頁檔案資源開發利用的相關知識服務,提供數據驅動研究方法,如網絡分析、文本與數據挖掘、縱向內容分析等擴展用戶訪問和分析歸檔網頁資源的方式[13],確保高校網頁檔案資源的保障效果。
我國高校網絡信息資源的自動化處理與長期保存工作,不僅要探索適應我國高校當前發展水平和特點的網絡信息資源歸檔與保障模式,更要構建能夠長期有效指導的我國高校網絡信息資源自動化處理與長期保存的策略框架,從而保證高校網絡信息資源建設與服務能夠適應時代發展,不斷提升高校文獻信息資源的保障水平。本文從文獻信息資源保障的視角出發,通過分析本特利歷史圖書館在高校網絡信息資源的自動化處理與長期保存中運用的技術和管理策略,發現網頁歸檔中的策略制定主要包括三方面內容,分別是網頁歸檔的對象網絡信息資源,網頁歸檔所用的自動化處理與長期保存相關技術,以及網頁歸檔所需要的組織管理。因此,本文從資源、技術和管理三個維度構建我國高校網頁檔案資源的自動化處理與長期保存策略框架(見圖3)。

圖3 高校網絡檔案信息自動化處理與長期保存策略框架
(1)基于開放聯合的高校網絡信息資源規劃與采集。當前高校文獻信息資源建設的邊界仍需拓展,不僅要建設傳統文獻信息資源和數字出版物,還要關注網絡信息資源的文獻價值,將高校有關網站及各互聯網平臺上與高校相關的文獻信息資源納入高校文獻信息資源建設的整體規劃,進行網絡信息資源采集與建設的探索和實踐。具體而言,高校應主動承擔起本校重要網網絡信息資源的歸檔工作,對外主動聯合先進的網絡信息資源管理機構,吸收先進的網頁歸檔自動化處理技術與方案;對內規范網站建設,篩選出具有長期保存價值的網站,主導各類網絡信息資源的采集、網頁檔案自建工作,豐富高校文獻信息資源保障類型,形成立體化、多樣態高校文獻信息資源體系。
(2)基于多元協同的高校網頁檔案資源組織與長期保存。在開放環境下,高校應積極開展高校間及社會各文獻資源保障機構間的合作交流,促進各主體網頁檔案資源的共建共享,探索多主體協同合作的文獻信息資源長期保存模式。具體而言,高校在進行網頁歸檔實踐時應該充分吸收社會各界的技術、經驗,吸收先進的網絡信息資源自動化處理和長期保存技術,確定統一的網頁檔案資源編目標準和存儲格式,一方面方便網絡信息資源的整合、更新和共享;另一方面,便于網頁檔案資源的多副本分布式存儲,增強網頁檔案資源的容災性和安全性[17],保證網頁檔案資源的可靠使用和永續利用。
(3)基于跨界融合的高校網頁檔案資源開放與共享。高校作為知識、發現和教育的中心以及公共資助的機構,應該積極承擔文獻信息資源建設、服務與創新性實踐的使命與職責。在我國網頁歸檔事業的發展進程中,率先開展實踐,探索高校網絡信息資源的自動化處理與長期保存方案,對內完善網站建設規范,采集、組織和保存有歷史價值的網絡信息資源,形成更加立體化、多樣態的高校文獻信息資源保障體系;對外提供開放接口,向社會研究人員與機構提供優質的信息源,促進高校網絡信息資源的社會化開發。
網絡信息資源是互聯網時代我國文獻信息資源體系的重要組成部分,高校網頁歸檔實踐不僅完善了高校文獻信息資源體系,為挖掘高校歷史和開展相關研究提供了優質文獻信息源;同時,還能夠為我國網頁歸檔事業提供參考。本文通過本特利歷史圖書館的網頁歸檔實踐,總結其對網絡信息資源自動化處理和長期保存的策略,從網絡信息資源的規劃采集、組織保存、開放共享三方面構建了我國高校網絡信息資源自動化處理與長期保存策略的系統框架。