楊云鵬
(國家圖書館,北京 100081)
第46次《中國互聯網絡發展狀況統計報告》顯示,截至2020年6月,網絡新聞的使用率達77.1%,網絡視頻和娛樂的使用率達94.5%,此外40.4%的網民通過微博等社交媒體獲取信息[1]。2020年上半年,面對突如其來的新冠肺炎疫情,網絡新聞行業深入開展疫情相關報道,通過多種形式助力抗疫斗爭[2]?;ヂ摼W上存儲著類似新冠肺炎這種重大事件的全部信息,然而網絡信息的壽命一般在90~100天,因此互聯網信息存檔尤為迫切。
互聯網網站存檔由于網站部分內容的改變,而必須反復對其進行采集。采集系統如何處理未改變的網站內容是互聯網網站存檔的一個新的發展方向。采集時如何只保留更改的內容,剔除重復的內容,需要根據不同采集網站的采集需求而采用不同的方式。對于那些需頻繁采集且大范圍深入采集的網站,重復數據量會非常龐大。如從中國國家圖書館年鑒的互聯網網站存檔欄目發現2009—2018年隨著每年頻繁采集相同網站,存儲量迅速增加達到了93.73TB[3],導致國家圖書館服務器存儲空間嚴重不足,由于采集系統沒有增量采集功能,導致大量重復資源占據存儲空間,造成存儲空間的嚴重浪費。因此,互聯網網站存檔增量采集是一個亟需解決的問題。
互聯網網站存檔過程中,使用增量采集主要基于以下4個方面考慮:①減少采集系統服務器的運行負載;②減少單位網絡帶寬的占用;③降低互聯網網站存檔存儲空間;④提高采集資源展示質量?!?br>