陳建平/浙江工商大學
高校重要網(wǎng)頁信息指高等院校在網(wǎng)絡上直接形成的、有保存價值的數(shù)字化信息資源,這些信息具有原始性、憑證性特點,是“高校記憶”的重要組成部分,是數(shù)字時代高校檔案部門的重要收集內容。高校重要網(wǎng)頁是一種不斷變化與更新的動態(tài)資源,保持高速增長的同時也大批消亡,若不及時采取措施進行收集,其消亡之后再也無法獲取。因此,高校重要網(wǎng)頁信息采集歸檔重要而且緊迫。
高校重要網(wǎng)頁信息形式多樣,包括文本、圖像、音頻、視頻等多種表現(xiàn)方式;所屬網(wǎng)址雖不盡相同,但總體上所屬網(wǎng)站、版塊相對集中,較其他類別的重要網(wǎng)頁信息更易采集歸檔??紤]到高校重要網(wǎng)頁信息特點以及采集歸檔所需的人財物等因素,高校重要網(wǎng)頁信息采集歸檔一般采取網(wǎng)絡爬蟲收集和人工采集相結合的方式,以實現(xiàn)對有價值的網(wǎng)頁進行采集、過濾、提取與批量上載等一體化歸檔工作流程。為此,高校檔案部門應該配備相應的專業(yè)技術人員,以及采集工具、計算機及存儲設備等軟硬件設施。
首先,確定采集歸檔范圍,明確采集對象。高校檔案部門可以根據(jù)實際需要確定重要網(wǎng)頁信息歸檔范圍,以及歸檔網(wǎng)頁信息的保存方法。目前一些高校主要針對本校官方網(wǎng)站、各部門(處、室)、各學院辦公網(wǎng)站發(fā)布的動態(tài)新聞以及各大主流媒體網(wǎng)站中有關本校的重大事件的報道進行采集歸檔,如浙江大學以其官網(wǎng)上的浙大簡訊版內容塊作為采集歸檔的主要對象之一。關于歸檔網(wǎng)頁的保存方法,大多數(shù)高校選擇網(wǎng)頁快照。
其次,確定采集歸檔標準,設置采集模式。技術人員對采集對象的網(wǎng)站及頁面信息結構進行分析,在本地安裝采集軟件并設置采集模式。一般來說,采集軟件經(jīng)過設置可以自動采集指定網(wǎng)站、所需版塊以及特定頁面,生成網(wǎng)站鏡像或網(wǎng)頁快照等,并獲取著錄所需的字段信息,比如題名、發(fā)布者、發(fā)布時間、來源網(wǎng)址等;同時采集軟件支持各種標準格式信息資源的采集,如HTML頁面、文件信息、表格、圖片、聲音、視頻等。借助采集軟件,技術人員對高校重要網(wǎng)頁與內聯(lián)圖片進行統(tǒng)一采集;在視頻文件采集過程中對關鍵幀進行提取,生成高質量無損壓縮影像;對單篇網(wǎng)頁及網(wǎng)站歷史數(shù)據(jù)進行批量采集。
再者,確定組件方式,整理入庫。技術人員對歸檔網(wǎng)頁信息的著錄性規(guī)范進行審核,審核內容包括題名命名規(guī)則、檔號自動編制格式、元數(shù)據(jù)采集標準等,在此基礎上將采集的文本內容批量上傳到全文數(shù)據(jù)庫中,實現(xiàn)內容發(fā)布與全文檢索等利用服務。
高校重要網(wǎng)頁采集歸檔是一個新興的課題,目前還沒有完美的采集工具和歸檔標準。檔案行政管理部門也沒有對采集工具進行過測試,沒有推薦采集工具,更沒有出臺相應的行業(yè)標準。為此,高校要根據(jù)實際情況選擇采集工具及標準,并要考察工具能否保留網(wǎng)頁內容的元數(shù)據(jù)和功能。
采集工具經(jīng)過設置能夠自動對相應的網(wǎng)頁信息進行采集,生成網(wǎng)頁檔案,并進行初步分類。在此基礎上技術人員要對系統(tǒng)自動生成的網(wǎng)頁檔案及其元數(shù)據(jù)信息進行審核和完善;必要時要進行全文閱覽,以便制作高質量的著錄及標引;還要進行分類審核及完成入庫工作。
在采集歸檔實踐中,既要保證高校重要網(wǎng)頁信息的質量,也要保證數(shù)量。目前的做法是,使用自動過濾系統(tǒng)跟蹤目標站點,將網(wǎng)頁中的信息(如日期、標題、作者、版塊等)提取出來,再對采集工具設置自動去重功能,實現(xiàn)信息自動去重。在采集過程中,可以定義一個或多個主題詞,對網(wǎng)頁內容進行過濾,較為精確地獲取與采集主題相關的網(wǎng)頁內容;對于下載的網(wǎng)頁,采集工具自動進行信息過濾,剔除廣告及其他無用的信息,智能提取有價值的信息內容,生成網(wǎng)頁快照,用于歸檔保存。