網絡信息資源歸檔挑戰與對策

2024-06-20 03:29:27劉冰

蘭臺內外 2024年16期

劉冰

摘要：根據西方網絡信息資源歸檔最新理論與實踐成果及將異常現象作為示蹤劑的研究方法，本研究嘗試將網絡信息資源歸檔系統的后臺異常現象引導至前臺討論，從URL無序性和時效性差異的研究視角闡釋解構、規范URL的必要性以及通過自動代碼或搜索工具對時間戳展開簡單聚合或排序的弊端，提出超越以算法為中心的歸檔邏輯并廣泛關注網絡基礎設施動態與關系互動或對我國網絡信息資源歸檔研究具有一定啟示。

關鍵詞：網絡檔案；異常現象；算法；URL；時效性

中圖分類號：G250.73文獻標識碼：A

在某個環境中開發的解決方案，應充分考慮悖論，識別和解決異常現象（Star和Ruhleder，1996）。網絡信息資源歸檔是目前國際檔案研究的前沿領域，在前人研究的基礎上，本研究探索網絡信息資源歸檔的異常現象，從URL順序和時間性兩個維度對網絡信息資源歸檔過程中的故障展開分析，基于兩者數據中的潛在離散值和歸檔過程中的痛點，通過異常現象定位不同過程、系統和標準化數據結構下的計算邏輯局限，推動網絡信息資源歸檔機理研究。本研究對歸檔系統數據開發固有邏輯和秩序質疑，建議超越以系統算法為中心的數字檔案歸檔邏輯（Milligan， 2019），并對當下網絡檔案研究關注收集決策算法和數據素養的流行觀點做出回應。

一、URL無序性

1.URL的基本概念

URL（Uniform resource locator），統一資源定位符，最初由英國計算機科學家、萬維網發明者Tim Berners-Lee提出。URL是互聯網標準資源地址，互聯網上的每個文件都有唯一的URL，URL是與網絡相連機器上可訪問對象的指針，URL為資源位置提供抽象識別方式，系統可以對資源存取、更新、替換和屬性查找。URL包含模式（協議）、服務器（IP地址）、路徑和文件名，相當于文件名在網絡范圍的擴展。

2.URL的構成特征

從Web和Internet標準角度看，URL被視為特定資源標識符，與HTML文檔或媒體文件關聯，與HTTP等協議共同在整個網絡分布式服務器上查找特定網絡資源。URL對于網絡用戶來說可識別、在日常生活中無處不在，較易掩蓋其復雜性。URL根據國際標準形成，但其構成并不是清晰一致的，通常是無序的，不是標準化的數字地址，URL通過多種方式構建，有時會偏離互聯網標準設定規則，不符合期望規則。在網絡信息資源歸檔過程中，需要分析URL的特定構成，對URL組織和排序，降低不確定性。

3.URL無序化對策

網絡信息資源歸檔系統可通過規范化歸檔順序，對URL分類，轉換URL網絡存在形式，使URL數據有序化、可知化和可識別化。歸檔過程中，URL是其他資源的分類標簽，面向接口，圍繞存檔資源訪問設計，使用域和種子作為訪問主要單位。但是，對網絡存檔的研究不應局限于將URL作為HTML頁面或整個域的符號分析，應當進一步擴展將URL視為分析對象。

（1）URL解構及網絡基礎設備設施的研究視角

爬蟲遇到的URL與特定組件相關，通過分析URL結構，可以發現網絡資源順序，原始順序是原生網絡檔案的重要組成部分（Acker，2014）。解構URL可以解析網絡元數據，單個文件路徑和核心要素描述了資源在網絡的生成和存儲方式， URL被發現和分析之前不可預測，網絡信息資源無法依據過去經驗預測未來配置，對基于計算規則的選擇提出挑戰。網站有一定的規范秩序，但在檔案環境中處理URL，或抵制易于解析的方法和規則，URL根據網絡動態而非標準或存檔順序存在、活動和傳播，URL未實現完全自動化，排序相對較難，需要確定網絡基礎設施的域、服務器、文件層次結構和管理系統，處理應沿著不同基礎結構維度排序。同時，還應考慮生成網絡資源的底層系統，如特定平臺施加順序以及歸檔基礎設備設施應用程序。目前，較少有計算分析工具專注于解構URL并將其作為通過字符表示的數字對象展開系統研究，網絡歸檔需充分了解URL的復雜性，重構對URL的理解，掌握給定URL特定技術的基礎結構，規避URL作為簡單或可預測構造數據模型的弊端，通過網絡基礎設施視角與URL互動，了解互聯網和檔案基礎設施的構建機理，將URL視為與域、主機和服務器的底層基礎設施相關的復雜對象，充分考慮跨網絡分布式數據及多元影響。

（2）Heritrix規范化

Heritrix是由 Java 開發的網絡爬蟲，包括范圍部件、邊界部件和處理器鏈，可以用來從網絡上抓取目標資源，具有良好的可擴展性，方便實現抓取邏輯。Heritrix網絡爬蟲是IIPC和許多其他機構網絡存檔使用最廣泛的爬蟲（Costa等，2017）在網絡信息資源歸檔過程中，URL是爬蟲處理的主要單元，可以通過開發爬蟲范圍、定義爬蟲遇到新的URL時采取的行動確定爬蟲處理URL的方式，爬蟲范圍記錄在作業配置文件中作為計算決策樹，確定爬蟲對URL的操作。Heritrix可自動應用規范化，將URL錯誤格式轉換為標準格式。每個網絡服務器配置以不同方式顯示URL，使用非標準編碼的錯誤URL格式，通過不同方法替換無效URL字符，服務器和鏈接以不同方式配置或導致編碼不匹配，給爬蟲、存檔及網絡整體導航帶來一定問題。網絡歸檔應分析、綜合解釋給定URL的構成，推斷URL的各個表示部分與特定域和服務器的關系。在抓取過程中應用特定規則對URL分類，并對存在于網絡上的URL排序。在開發和指定作用域參數時，可以爬蟲受限的方式查看URL，通過范圍界定、定義收集數據，將需求轉換為爬蟲可明確解釋和應用的命令。捕獲系統需要編寫過濾器使爬蟲避免捕獲重復或不需要的數據，決定系統范圍。

（3）網站測試的促進作用

與可能導致誤報或難以解析的URL不同，模糊的URL遵循可預測的不匹配原則存在于網絡中，可以通過創建小型網站，記錄已知或可預測的異常問題，識別問題URL集并自動編碼。網站測試可以針對給爬蟲帶來問題的URL，通過網絡服務器和瀏覽器，基于已知問題執行測試，測試對于轉換和規范特定形式數據發揮重要作用，便于在存檔中使用和管理，并通過索引促進更有效的訪問。網站上可測試工作流程，確保歸檔和索引系統按照計劃工作，記錄和編目網絡上不同類型的URL異常、突變等標準偏離，可以促進URL排序工作自動化、規范化。

（4）收集系統解決方案

Archive-it由美國互聯網檔案館推出，提供全球領先的網絡檔案存檔服務，用于獲取網絡信息資源，在默認情況下提供四種程度不同的作用域。在開發抓取范圍時，Archive-It注重正確指定種子URL，強調特定站點和確定范圍經驗法則，Archive-It提供站點指導和內置范圍界定模板。NAS網絡存儲器是一種專用數據存儲服務器，以數據為中心，將存儲設備與服務器徹底分離，集中管理數據，從而釋放帶寬，提高性能，其成本遠遠低于服務器存儲，效率卻遠遠高于后者。與Archive-It相比，NAS系統支持自定義用戶生成的抓取配置文件。Netarchive開發了規范的抓取作業配置文件，參與爬蟲應用不同分類，記錄爬蟲根據嵌入和鏈接，解釋網站上的URL和資源。NAS系統中可定制的配置發揮促進作用，可以編寫代碼片段過濾爬蟲陷阱，指定爬蟲從歸檔數據中排除或過濾掉URL，代碼片段，使用正則表達式指定URL組件模式，與CMS或數據庫自動生成的URL相匹配。

二、時效性差異

1.差異產生原因

網絡存檔中不同網絡設備設施的時間性影響產生時效性差異，目前，已有研究關注資源創建時間和網絡檔案收藏記錄時間之間的不一致，該時間間隔影響網絡材料的讀取和存檔，爬蟲捕獲頁面日期通常比資源創建日期晚。在抓取過程中，網絡上的文件資料可能發生變化或更新，時間上不連貫，存檔網頁由跨越不同時間框架的不匹配資源組成，最終或導致存檔呈現頁面未存在于現有網絡（Ainsworth等，2015；Spaniol，2008）。一方面，網絡資源收集缺乏同步性，通常爬蟲持續截獲需要跨越數周或數月時間；另一方面，網絡檔案時效性差異源于計算系統使用的標準化時間，時間的協調性是WARC和其他網絡檔案數據的核心要求之一，由于標準化時間無處不在，在分布式系統和網絡服務器之間跟蹤和比較時間戳較為復雜，通過計算機跟蹤生成時間戳的過程比較困難，時間看上去是標準化和精確的記錄，但這些時間戳在分布式機器上不一定準確，存在不協調與不同步的問題。人工作業模式也對網絡存檔活動產生影響。爬行程序可以24小時工作，服務器可以從不同地理位置自動響應，但是監視爬行過程的人工管理活動只能在工作時間開展。因此，也會對數據的生成方式產生影響。

2.時效性差異對策

（1）收集系統解決方案及網絡基礎設備設施的研究視角

Netarchive為所有進程加上時間戳，并將它們記錄在WARC文件中，確保一致、可靠的時間記錄。在本地化時間方面，Netarchive調整并適應計算進程始終在線的性能。Heritrix網絡爬蟲顯示，重要日期和重大事件可以用來區分收藏的時間軸，但是這種斷點不絕對，對數據系統和流程的更改、更新和升級不是即刻發生，技術更改以分布式方式開展并在長時間跨度內發揮作用。同樣，新系統的引入不是即時變化，或需要許多年才產生新版本。Internet Archive于2009年12月正式推出Heritrix Version 3（以下簡稱“H3”），在NAS系統內的Netarchive本地集成需要更新NAS代碼，更改測試并跨越多個站點。NAS V5.0整合H3生產版本，比最初版本晚了6年。從基礎設備設施角度來看，對H3的逐步更新可用Star（1999）確定的中心特征解釋，即基礎設備設施以模塊化增量固定，不是全局或一次性全部固定，就數據實踐而言，變化的分布式特性突出了變化在局部發生的必要性，揭示了依賴于網絡的時間性差異，由于各系統是局部的。因此，它們無法實現整體一致的充分協調。

由于基礎設備設施的互聯性，許多不同的變化可能同時發生，形成多米諾骨牌效應，即基礎設備設施系統中不相關的部分可能會同時調整，對相同的外部變化做出反應。Netarchive對H3的更新對收集的策略產生影響，顯示了新舊系統之間的配置文件不兼容導致出現問題，定期維護檢查梳理模板較為重要，應改進現有模板，解決過去決策積累的問題。此外， Netarchive變更收集策略，基于對過去抓取數據的經驗總結更新收集流程，這些變化不是由H3的轉變引起，顯示了不可預測相互作用。滾雪球式的變化和本地化活動對事件產生影響，NAS開源軟件系統有與特定更新或新版本相關的技術文檔，但由于文檔通常也在網絡上，容易受到基礎設備設施變化的影響。

（2）時間戳的科學解讀

Tejon將時間體驗簡化為數據化的時間戳（Finn，2013），網絡信息資源的轉移無法做到無縫銜接，不同平臺上文檔周期重復或在遷移過程中丟失某些特殊屬性、元數據或準確地發布日期，當軟件代碼發生更改、設置更新時，沒有集中的文檔源用于跟蹤，需要做大量工作梳理特定時期給定數據集上應用的軟件組合。因此，亟須開發工具記錄和解釋網絡檔案數據中測量和事件發生時間的差異，確切了解時間戳記錄的時間和對資源的作用，而非簡單通過自動代碼或搜索工具聚合或排序時間戳。同時，需要關注人為活動的時間周期及對工作實踐的影響。收藏通常跨越長時間框架，通過離散的時間戳表示精確時間與模糊時間存在一定沖突。對時間的基礎解讀需要更多關注事件的局域性及特定時間、地點等體驗，基于Drucker對信息系統和可視化時間及時間性的人文探索研究，本研究建議考慮檔案時間標記的情感維度，對數據展開情感排序有利于在網絡基礎設施和檔案基礎設施上看到更加豐富的時間圖。同時，應注重本地化時間讀取數據，充分考慮根據特定地理位置、文化實踐、組織實踐和集成軟件組件之間的關系要求和時間線的周期變化。

三、結語

借鑒西方數字化檔案研究理論和網絡信息資源歸檔實踐，本研究嘗試探索網絡信息資源歸檔過程中的異常，利用異常現象揭示歸檔邏輯。本研究建議URL排序、清理和規范化，將異常的URL視為有價值的研究對象，以更加廣泛的視角對URL展開研究。時效性差異揭示了歸檔數據受到局部偶然事件和網絡動態更新的影響，需要介入更復雜的時間研究框架，并通過關鍵網絡基礎設施的視角，與互聯網的其他相關理論研究形成批判性互動。異常現象揭示了決策不完全基于爬蟲選擇算法邏輯，由復雜和不斷發展變化的組合決定，包括搜索引擎、管理系統、服務器管理以及跨時空的人工服務，基于這種生成張力，網絡信息資源研究應找到驅動決策更復雜的邏輯。未來，我國應以多樣性為中心構建并分析數據，研究開發更多分析工具和監測流程，降低對特定簡化數據的形式依賴，識別數據攜帶邏輯并超越計算邏輯。同時，還應關注網絡基礎設施動態及互動，以更廣闊的視野開展我國網絡信息資源歸檔研究。

參考文獻：

[1]Milligan，I.（2019）.History in the Age of Abundance？： How the Web Is Transforming Historical Research. McGill-Queens University Press，Montreal.

[2]Costa，M.，Gomes，D.，and Silva，M.J.（2017）.The evolution of web archiving. International Journal on Digital Libraries，18（3）：191–205.

[3]Acker，A.（2014）.Born Networked Records：A History of the Short Message Service Format.Doctor of Philosophy，University of California Los Angeles， Los Angeles，Calif.

[4]Costa，M.，Gomes，D.，and Silva，M. J. （2017）.The evolution of web archiving. International Journal on Digital Libraries，18（3）：191-205.

[5]Ainsworth，S.G.，Nelson，M.L.，and Van de Sompel，H.（2015）. Only One Out of Five Archived Web Pages Existed as Presented. In Proceedings of the 26th ACM Conference on Hypertext & Social Media， pages 257-266，Guzelyurt，Northern Cyprus.ACM Press.

[6]Spaniol，M.（2008）.”Catch me if you can”.Temporal Coherence of Web Archives. In 8th International Web Archiving Workshop（IWAW08），Aarhus， Denmark. http：//iwaw.net/08/IWAW2008-Spaniol-pres.pdf.

[7]Star，S.L.（1999）.The Ethnography of Infrastructure.American Behavioral Scientist，43（3）：377-391.

[8]Finn，M.（2013）.Information Infrastructure and Descriptions of the 1857 Fort Tejon Earthquake.Information & Culture，48（2）：194-221.https：//www.jstor.org/stable/43737461.

作者單位：大連商品交易所行政服務有限責任公司

蘭臺內外2024年16期

蘭臺內外的其它文章: 大數據分析技術在企業檔案管理中的應用; 大數據時代背景下醫院檔案管理的創新路徑研究; 新時代人力資源檔案信息化管理研究; 基于7-S模型構建智慧檔案館策略探析; 關于基層疾病預防控制檔案管理模式信息化建設; 互聯網環境下檔案業務監督服務的安全保密管理