●朱天慧(曲阜師范大學 圖書館,山東 曲阜 273165)
隨著信息技術的飛速發展,網絡資源正逐漸成為使用最多最頻繁的信息資源。在這浩瀚的信息海洋中,有95%的Web信息是可以公開獲取的,其容量比美國國會圖書館的館藏量還多出50倍。然而,Web信息的存在又是短暫的,美國數字信息基礎架構和保存項目的報告中指出網絡信息的平均壽命為44天。中國互聯網中心2009年1月的調查數據表明,中文網頁的更新周期在6個月以內者占80%,[1]可見網絡信息資源更新頻率相當高。因此,網絡信息資源的長期保存已經成為一個刻不容緩的問題。近10年來,國內有關網絡資源備份保存方面的研究論文呈逐年遞增趨勢,從研究的內容看,主要側重于介紹國外網絡資源備份保存項目以及元數據、技術、管理策略、法律法規等方面的研究,但從用戶消費利用的角度對網絡資源備份保存進行的研究尚不多見。本文基于國內網站被InternetArchive和WebInfomall備份保存的情況進行調查研究,揭示網絡資源保存面臨的幾個主要問題,并提出了相關建議。
網絡資源備份保存(Web Preservation或Web Archiving)就是將網絡資源定期存檔備份并整理編目,以供使用者查詢過去的網站或網頁信息。從20世紀90年代開始,許多國家就開始積極探索網絡資源的保存問題,并提出了多種解決方案,如澳大利亞國家圖書館啟動的PANDORA項目、挪威的Paradigma項目、瑞典的Kulturarw項目、歐洲的NEDLIB計劃、美國的互聯網檔案館、美國國會圖書館的NDIIP項目等。[2]進入21世紀后,我國也啟動幾個保存網絡信息資源的項目,如國家圖書館“網絡信息資源保存”實驗項目(WICP)和“中國Web信息博物館(Web Infomall),其中后者已經初具規模。
互聯網檔案(Internet Archive)是美國舊金山的一個非贏利組織,創立于1996年,其創立的目的是為收集所有可以公開檢索到的網絡信息并構建一個網絡圖書館。該網站的數據來源多由該網站自行搜尋保存,也有來自于其他典藏機構寄存的信息。2003年,InternetArchive將所備份保存的資料全部寄存一份給埃及的亞歷山大圖書館(LibraryofAlexandria),建立了一個鏡像站點。InternetArchive的搜集備份保存政策是限定edu、gov、org等域名為搜集范圍,并選擇性地收集一些com網站信息,另外該網站還收費性地接受個人網站的備份申請。InternetArchive保存的網絡資源類型除了網頁檔案外,還包括文字數據、影音數據、動畫、軟件等。Internet Archive通過WayBack Machine提供對歷史網頁的記錄存儲,向研究者和普通公眾提供免費訪問,允許人們通過網頁地址進行查詢,[3]網址是 http://www.archive.org/index.php。
中國Web信息博物館是在國家973和985項目支持下,由北京大學網絡實驗室開發建設的中國網頁歷史信息存儲與展示系統,是目前全國最大、最完整的互聯網內容信息收集與倉儲中心。WebInfomall的基本使命是以一種集中的形式,全面展現中國互聯網上信息的歷史;為社會提供多種海量網絡信息產品,供相關科研人員進行研究。作為一項服務社會的公益事業,可以查找網頁存檔情況以及網頁鏈入和鏈出等信息。借助“天網中英文網頁和文件搜索引擎”,該系統目前已經維護有2002年1月以來30億個以中文為主的網頁,而且以每天100—200萬網頁的速度不斷增加,并以平均每月4500萬個網頁的速度擴大規模。這些網頁不僅來源于不同的URL,而且還包含同一個URL的不同內容版本,其中許多內容目前在中國互聯網上已經不復存在。人們通過HisTrace實驗性系統框架從WebInfomall中盡量準確、完整地提取與重要歷史事件相關的網絡新聞報道,并按照報道發生的時間順序將它們不重復地展示出來,[4]其網址是http://www.infomall.cn/。
為了解國內網站的備份保存情況,筆者選擇了104個國內網站(域名為 .edu的有75個、.gov的有17個、.org的有7個以及.com的有5個),分別在InternetArchive和WebInfomall兩個系統中檢索了各類網站主頁的保存情況,檢索日期為2008年12月13日—14日),記錄各網頁保存的起止日期,存檔次數以及網站的自我更新次數,并對結果進行統計分析,見下表。

表 部分國內網站的備份保存情況統計
由上表可見,104個國內中文網站分別被存檔65947次和24789次,平均每個網站每個月的被存檔次數分別是6.98次和3.32次,顯示出兩個系統在保存數量上存在較大的差異。此外,不同域名類型網站被存盤備份的頻率以.com類為最高,其余類型網站則相差不多。
除了在收錄網頁數量上的差異外,Internet Archive和Web Infomall之間還存在一些明顯的差別,比如兩個系統分別自不同時期開始進行備份保存,前者備份保存時間范圍從1996年12月至2008年2月,而后者的時間范圍為2002年1月到2008年12月。顯示出InternetArchive備份網頁的歷史早于WebInfomall,但在從存盤后到可提供檢索舊網頁之間,至少有10個月的滯后期;而WebInfomall中沒有顯示出這種滯后性。另外,在InternetArchive的查詢結果中,可以顯示網頁備份起止日期、起止日期之間的備份存檔次數及更新次數等;而在Web Infomall中沒有顯示出更新次數。
網絡信息資源的保存是一項系統工程,涉及政府、新聞出版、教育、科技、文獻收藏等部門和單位,因此,充分運用現代信息技術,采取分工協作的機制是構建適合我國國情的網絡資源備份保存體系的必由之路。筆者認為,以國家宏觀管理層面為指導,構建以國家圖書館為核心,聯合其他組織和機構建立分布式保存體系是目前較理想的選擇。該體系的建立有助于資金的統籌及人員的協調,有利于全面、經濟、合法、有效地實施對網絡資源的長期保存。InternetArchive雖然不是由美國國會圖書館牽頭實施的,但它與眾多學術機構與紀念館建立了合作關系,比如,其網絡檔案主管MicheleKimpton致力于國際互聯網備份保存協會籌備,并提出了Internet Archive聯盟的構想,即由國家圖書館負責網絡資源備份保存的選擇標準制定、收集和提供檢索,Internet Archive負責技術上的支持以及研發新的工具。[5]因此,借鑒其做法,加強與各個部門之間的分工協作,也應該是今后WebInfomall發展的主要方向。
資源收集與保存的最終目的是為當前與未來用戶群體提供服務。對InternetArchive資源的選擇性評價結果表明,網絡資源保存應該以特定用戶群體為中心來進行。[6]因此,掌握和了解當前用戶的需求,預測未來用戶的需求與信息行為,是完善網絡資源備份保存的必要前提。
Web資源的備份保存,除了選擇合適的采集方式外,還要確定合理的采集頻率。由于各個網頁的更新頻率不同,因此必須基于中文網絡信息資源的種類與特點,探索合適的采集頻率,否則就可能遺漏很多重要信息。采集頻率需要針對不同性質的網站、不同內容信息的網頁來確定,對于一般穩定性的或內容積累性的網站,每半年采集一次較為合適,動態性較強的網站則應該進行跟蹤采集。
美國InternetArchive于1996年開始對包括我國網絡信息資源在內的全球網絡信息進行批量收集,他們搜集和保存了我國官方網站的大量信息,甚至包含許多我們現在已經無法找到和再現的信息。Internet Archive起步早,其備份中文網頁的歷史遠早于Web Infomall。調查還顯示:Internet Archive對中文網頁的月均存檔次數也遠高于WebInfomall。因此,如果能夠與之建立合作關系,利用其過去備份保存的國內網絡資源,就可以更完整地建立我國網絡資源典藏體系。另外,加強與國外同行的合作,充分借鑒其經驗、管理模式和先進的技術,可促進我國網絡學術信息保存工作的發展。
目前Web資源備份保存面臨著人員和技術兩大“瓶頸”。就人員方面講,網絡資源在備份保存后還需要自動和/或人工編目,尤其是后期的數據檢索和開發等,這些都需要具有相關專業技能的人員廣泛參與,在網絡時代,只有具備網絡信息技術與信息組織才能的人員,才能圓滿完成這些任務。美國學者WilliamY.Arms提出網絡資源備份保存是圖書館學與信息科學之間的新領域(Librarianship in a New Domain)。隨著圖書館事業的迅速發展和信息技術的廣泛應用,圖書情報學和信息學教育應該與時俱進,不斷調整和改進課程設置,對教學方式和內容進行改革,增加新興學科和現代科技的比重,如將網絡資源備份保存的策略和技術等內容列入相關課程之中,為網絡資源備份保存的實施提供充分的人力資源后盾。
[1]第23次中國互聯網絡發展狀況統計報告[EB/OL].[2009-12-20].http://www.cnnic.cn/index/0E/00/11/index.htm.
[2]李曉明.Web InfoMall:過去、現在與將來[EB/OL].[2009-12-20].http://www.hainu.edu.cn/sewm2007/20070310SEWM.pdf.
[3]Internet Archive[EB/OL].[2009-12-20].http://www.archive.org/index.php.
[4]中文 Web 信息博物館 [EB/OL].[2009-12-20].http://www.infomall.cn/.
[5]Internet Archive:Bios[EB/OL].[2009-11-02].http://www.archive.org/about/bios.php.
[6]趙俊玲.國外關于網絡信息資源保存的研究[J].中國圖書館學報,2004(5):80-83.