周 祺 張照余/蘇州大學社會學院
近年來,國內檔案界對于檔案數據安全與長久保存策略的研究與實踐集中于元數據的采集和數據存儲備份兩個方面。然而,隨著讀取信息的軟、硬件環境的不斷迭代更新以及新型數據結構的涌現,存儲于介質中的原始檔案數據將面臨無法被讀取的風險。解讀信息的應用軟件及其對應的文件本格式成為影響文件長期可讀的關鍵因素。全球檔案界對文件格式的關注始于21世紀初,很多國家的檔案機構已開始限定歸檔文件的格式。文件格式管控逐漸成為信息長期傳輸、存儲與利用關注的焦點。2007年起,西方國家提出應采取收集與分析文件格式信息并長期追蹤格式變化的方法來保證檔案數據的長期可讀,并且開發出文件格式登記數據庫、格式識別軟件系統等。本文遴選出全球范圍內8個典型的文件格式項目加以綜述,以期為我國檔案界對文件格式的管控研究提供經驗。
在進行問題分析之前,需要明確和統一對“電子文件格式”的認知。本文綜合OAIS參考模型[1]、英國國家檔案館、全球數字格式注冊中心[2]對“格式”的定義,認為格式的定義有廣義和狹義之分。廣義的“文件格式”是傳遞人類可識別的“表達信息”與機器可識別的“記錄信息”之間的描述,包括信息存儲介質、信息傳播語言;狹義的文件格式指電子文件媒體的結構與編碼方式,可以分為文件包裝器和編解碼器。
Archivematica是COPPUL(Council of Prairie and Pacific University Libraries,系加拿大西部4個省的22所大學圖書館組成的聯合體)開發的一個免費、開源的數字保存系統。它以標準的、可長期訪問的數字集合為管控對象,目標是為技術和財政能力有限的檔案管理員或圖書館員提供工具、方法等,以便更好地保存數字信息。由于COPPUL在此之前的項目缺少數據保存的部分特征與功能,如格式轉換、保存元數據等,該系統很好地發揮了這些作用并彌補了數據難以長期保存的短板,同時也契合OAIS功能模型從信息“輸入”到“訪問”的架構。此外,項目人員參考系統運行過程中的經驗及用戶反饋,在“數字對象”進入“提交信息包(SIP)”這一過程的功能模塊擴展到了OAIS模型之外[3]。
FPR(Format Policy Registry)是Archivematica系統重要的格式策略登記數據庫。格式策略規定了需要應用于特定文件格式的相關操作、工具和設置(如轉換為保存格式或轉換為訪問格式)。隨著地區標準、實踐和工具的發展,格式策略也將發生變化[4]。在登記新的格式信息入庫時,FPR推薦使用“格式說明”“格式版本”“PUID”“訪問格式和保存格式”等字段類型作為格式信息元數據。在FPR中,每個“格式記錄”的是一個或多個相關的文件格式,而每個“格式版本”記錄著一個特定的文件格式。如,圖像格式GIF的“格式記錄”由GIF 1987 A和GIF 1989 A兩個“格式版本”組成;“PUID”是英國國家檔案館格式登記系統的唯一識別符號;“訪問格式”和“保存格式”可明確此格式是否適合作為最終用戶的訪問格式和保存格式。
PRONOM是TNA(英國國家檔案館)早期針對電子文件格式問題開展的項目,它也是一項格式技術登記服務平臺,描述了數字對象的技術依賴性,以支持文件格式的長期保存。這些技術依賴性與OAIS參考模型表示信息的概念相對應,包括對對象進行編碼的格式、對這些對象執行操作(如創建、渲染和遷移)可能需要的軟件工具以及這些工具對系統和硬件的依賴性[5]。此外PRONOM不僅是一個技術信息的數據庫,還包括一系列支持數字保存功能的工具和服務,如保存風險評估、遷移路徑規劃、對象識別和驗證以及元數據提取。PRROOM已經經歷了多個開發階段,目前的版本是PRONOM 6.2。
1.2.1 PUID
PUID(Persistent Unique Identifier,持久唯一標識符)為PRONOM登記系統中記錄的信息單元提供持久、唯一且明確的標識符。該標識符對于數字對象格式的交換和管理至關重要[6]。開發PUID方案是為了記錄和區分不同格式以及同一種格式不同版本的身份標識,該方案是可擴展的,在未來將擴展到包括其他格式登記系統中的各類記錄信息,如壓縮方法、字符編碼方案和操作系統。PUID結構和編碼限于表示具有技術規范的正式格式,而現實中很多文件格式沒有正式的規范,或可能與軟件無關,或是與特定軟件產品一起開發的,因此PUID的缺點在于其粒度僅限于將一種格式與另一種格式區分開來,而不能體現某種格式的固有功能。
1.2.2 DROID
DROID(Digital Record Object Identification,格式識別軟件)是TNA開發的一種支持PUID文件格式識別的工具軟件,目前已在世界各地的文化記憶機構、政府部門等得到廣泛應用,并嵌入到多種商業和開源數字保存產品中[7]。DROID的核心功能是準確識別文件格式,即使文件擴展名錯誤或丟失也能進行準確識別。進行識別的范圍從廣義類型到格式版本級別,如“Adobe PDF v.1.6—便攜式文檔格式”。所有有關文件格式的信息(包括DROID所使用的識別簽名)都保存在PRONOM格式登記系統中。DROID目前可識別1400多種文件格式,并且這個數字一直在增長。此外DROID提供API接口,支持與ERMS(電子文件管理系統)或數據庫進行集成,識別結果通過XML文件形式返回。
Format Profile(格式概覽)是NARA(美國國家檔案與文件署)基于數字保存計劃(Digital Preservation Program)提出的。2018年NARA重新修訂《永久電子文件移交格式指南》(以下簡稱《指南》),這份指南充分反映了各機構在創建和使用電子文件方面不斷發生著的格式變化過程[8]。NARA認為,格式是數據長期保存風險評估和保護規劃的重要檢測指標,因此應定期對數字檔案資源格式進行測評,確定館藏數字資源格式風險等級。等級包括“即將丟失信息的格式”“高危格式”“中危格式”“低危格式”“無風險格式”,以確認哪些資源缺少長期保存措施或者需要更新長期保存策略,哪些保存策略需要優先選擇和實施等。目前NARA已檢測超過16種文件類型中350個格式的變化。
1.3.1 Collection Profile(館藏概覽)
為更好地理解風險,NARA創建了Collection Profile(館藏概覽)。它是一個記錄歸檔要求及保管目標的工具,為擬定“保存計劃”而提供關鍵信息,以便采取可量化的方案來評估文件格式的可持續性和電子檔案長期保存問題。電子文件保管部門還與系統所有者、IT部門合作,統計所有電子文件系統的文件格式,最終明確NARA館藏格式種類與數量。
1.3.2 Risk And Prioritization Matrix(風險和優先級矩陣)
2014年,NARA創建了一個量化的移交格式適用性矩陣,即Risk And Prioritization Matrix(風險和優先級矩陣),其中包括了37個關于可能影響格式可持續性的風險數據點,即公開程度、采用程度/可行性、透明度、自描述、外部依賴性、許可和專利、使用加密/權限管理等,每個數據點和類別的權重各不相同。該矩陣幫助《指南》的編制團隊確定并排列了永久電子文件移交至NARA的“首選”或“可接受”格式。在此基礎上,團隊成員可根據數據點對格式風險的影響程度來調整權重,如格式對軟硬件的需求、格式轉換損失等。這一概念性認識已被應用到《指南》中的所有格式以及館藏中的70多種格式。由此確定了2種高風險、26種中等風險和42種低風險格式,較為熟悉的有:高風險圖像格式RAW及中風險文本格式Microsoft Word Office等。
在完成以上驗證分析后,NARA借鑒模擬信息保存中常用的“需要—使用—價值”矩陣模型,并進一步將其調整為“使用需求—流行度—可行性”三個維度。“使用需求”指風險矩陣中確定的風險值,“流行度”由文件形成機構創建并移交到NARA的格式流行來定義,“可執行性”系NARA當前格式轉換的能力或轉換工具的可獲取性。該矩陣模型工具從2018年夏季開始直至今日仍在持續使用,這種審查館藏剩余格式的方法為“保存計劃”的風險和優先順序勾畫出一個更完整、切實的圖景。
1.3.3 ERA2.0(電子文件檔案系統2.0版本)
ERA是NARA基于OAIS模型開發的專門用來接收、管理、保存和利用美國聯邦政府永久性電子文件的綜合數字檔案館系統。2018年8月,ERA2.0核心功能模塊上線并投入使用。NARA對該版本的原始保存庫進行全面更新,并且嵌入格式風險評估的功能模塊,使其能夠報告和監控所有館藏數據,甚至可以提供格式風險和格式遷移計劃方面的部分文檔[9]。
該項目由美國國會圖書館(LOC)建立,它曾與GDFR和JHOVE協同合作開發文件格式識別編譯器。項目目的包括:制定有關數字內容格式的戰略規劃,確保國會圖書館能夠長期保存數字內容;提供關于當前和新出現格式的信息清單,包括確定所需工具和詳細文件,確保國會圖書館能夠管理這些按照格式要求創建或接收的內容,以及識別并描述有希望實現長期可持續發展的格式;找出并描述存在風險的格式,并制定策略來維持它們所包含的內容[10]。
L O C 將“文件擴展名”“因特網媒體類型(MIME)”“格式版本”“特定功能格式實例”等字段作為元數據并做了具體文字說明和透徹分析。其中“特定功能格式實例”字段指對可持續發展具有重要意義的格式,如從網絡播放器下載的音頻文件格式受到版權保護,其專有格式可以防止用戶非法利用[11]。
與數字格式可持久性項目配套的基礎設施是“數字格式信息網”(http://www.digitalpreservation.gov/formats/)。該網站于2004年首次公布,它提供詳細的格式描述文檔或提供有關數字內容格式的信息,并定期增加擴展和更新資源并深入分析與文件格式技術層面的問題。
PREFORMA(Preservation Format for culture information/e-archives,歐盟文化信息/電子檔案保存格式項目)項目由歐盟委員會資助,自2014年1月啟動,為期48個月。PREFORMA項目總體意圖是研究影響電子文件標準執行質量的關鍵因素,以便與相關群體圍繞開發的工具建立長期可持續的保管生態系統,使信息機構可以完全提取和控制要收錄文件的格式信息[12]。項目規定了媒體的類型和標準,對圖、文、聲、像四類文件格式規定了需要檢查的功能和所屬的國際標準,并開發了對應的“一致性檢查器”開源軟件,最大程度地降低失去數字資源的控制風險,采用這種開源軟件的用戶都有權自由閱讀、使用、改進和重新分配這些軟件的源代碼。
1.5.1 veraPDF
veraPDF是專門用于PDF/A驗證的開源軟件,它提供了評估用于備份存檔PDF格式的權威方法。veraPDF還可生成權威的測試文件集,并將開發其他檢查器及元數據修復軟件,目前最新產品是針對PDF/A-1、PDF/A-2和PDF/A-3格式的行業支持的一致性檢查軟件。另外veraPDF鼓勵世界各地的文檔軟件開發人員保持其PDF產品與PDF/A格式一致,并在整個行業的專家委員會監督下開發專用驗證軟件。
《綠野仙蹤》的創作較明代小說帶有更加強烈的自寓色彩,作者李百川經歷了從富家子弟到“疊遭變故”的失落,遭遇了累歲破產又為人所騙的事故。在看透了時態炎涼之后,他聚散縈懷,思想激蕩澎湃,決定著書自娛。作品中的人物部分是作者的理想和想象,部分是自身的寫照和化身,故事情節表面看呼風喚雨,荒誕不經,實則時刻滲透著社會現實。《綠野仙蹤》繼承了明代文人獨立創作小說的傳統,在創作意識上推動了自寓性小說的發展,在許多層面超越了前人的創作,我們可以通過小說前面的“自序”略窺一斑。
1.5.2 DPF Manager
DPF Manager是一個開源模塊下的TIFF一致性檢查器。開發這一軟件的目的在于幫助檔案管理員和數字內容制作者確保TIFF格式文件能長期保存,并能夠自動提出改進建議并糾正保存問題。開發團隊擁有數十年的圖像格式和數字保存經驗,獲得了60多家存儲機構的支持,起草了專門為靜止圖像長期保存而設計的新ISO標準提案,即TIFF/A。
1.5.3 Media Conch
Media Conch是由Media Area團隊開發的保存級視聽文件一致性檢查器,它由“實現檢查器”“策略檢查器”“報告程序和修復程序”組成。Media Conch可通過命令行、圖形用戶界面或基于Web界面使用,其功能是集成現有的歸檔處理基礎架構作為微服務,對本地不規則的視頻文件做詳細檢查,或者在分布式處理系統中檢查基于服務器的批處理級文件。此外,Media Area團隊還致力于進一步推動Matroska和FFV1格式的標準化。
這是美國維基百科公司的文件格式保護項目,目的在于創建一個不屬于任何特定組織權限的通用空間,并允許行業內外群體或個人跟蹤并提供文件格式的分類體系。它依賴Wikipedia龐大的網絡資源及其DBpedia結構化獲取工具,通過大批志愿者把不同的文件格式信息條目化地放在一個地方,形成開源的格式獲取工具,便于有信息獲取需求用戶的參考。項目負責人Jason Scott認為,目前檔案館和圖書館負責的文件格式項目傾向于處理確定的文件格式且文件數據庫難以共享[13]。因此,Wiki的項目特點是能提供更廣泛的文件格式信息。哈佛圖書館軟件工程師Gary McGath對該項目評價道:“盡管格式的質量、完整性和可靠性各不相同,但在格式信息的廣泛性方面,它可能是一個有價值的資源。”[14]項目除了數據庫格式種類多、數量大之外,格式信息的收集來源也非常廣泛。它幾乎遍歷了所有全球有關文件格式的項目網站,實時了解其項目發展成果及進展,同時整合優勢與不足,最終共享研究成果。
Focus是馬里蘭大學高級計算機研究所(UMIACS)在DIGARCH計劃研究項目中的組成部分,它是一個用于呈現、編輯、轉換和驗證已有格式的軟件工具。該系統包含了一些最常見的格式和應用程序,并提供了基于JHOVE的格式識別服務[15]。項目認為,確定某個文件屬于哪種格式不是一件容易的事,雖然文件的擴展名(如“.doc”、“.pdf”或“.xls”)可以很好地提示文件的實際格式,但有時一個文件的擴展名可能較少,甚至錯誤或根本沒有擴展名。格式識別除了擴展名還需要解析整個文件,如有必要還要進行格式轉換。
1.7.1 Fider
1.7.2 GFR
GFR(Global Format Registry全局數字格式登記表)是文件格式和應用程序信息的主要存儲庫。由于GFR主要用于查詢而不非更新內部數據,因此項目選擇輕量級目錄訪問協議(LDAP),并使用OpenLDAP作為程序的服務器。
1.7.3 Focus客戶端
Focus 客戶端(Format Registry Client)是一個獨立的LDAP客戶端應用程序,用于獲取有關給定文件的格式和應用程序的信息。用戶通過該客戶端將想要查詢的文件上傳,Fider格式識別系統首先初步猜測該文件的格式。接著由GFR數據庫查詢上一步猜測格式對應的格式檢查器地址,格式檢查器會對文件進行詳細的對比校驗,如果一致則確認格式并返回給Focus客戶端。
FILExt是一個文件擴展名和與格式有關程序的數據庫,致力于幫助用戶識別、訪問、打開、查看或轉換未知文件,由美國最著名的軟件程序員Tom Simondi創立于20世紀90年代,多年來已經幫助數百萬用戶確定和打開未知文件,同時也被世界各地的軟件專家用作為件擴展名的信息來源[16],《 個人電腦》雜志(PC Magazine)還將其收錄進“100個未發現的最佳網站”。FILExt的主要功能是在線文件格式分析(https://filext.com/online-file-viewer.html),可將任意格式文件上傳至網頁查看并分析該文件格式信息,同時提供能打開此類格式的相關軟件,且保證用戶上傳文件的私密性與安全性。另外所有文件擴展名信息由系統用戶通過filext_filetype.bat軟件上傳。
FILExt認為,文件格式可以從三個特征來確定:一是根據文件的擴展名初步判斷。二是根據檔案或文件簽名判斷,即用一定的軟件工具(如EditPad Pro)將文件轉換為二進制文件查看文件的編碼方式以及“關鍵代碼(Magic Number)”,可以發現有一些用于各種常見文件類型的標準指示符,例如若代碼中有前兩個字符是“BM”,則文件可能是.bmp位圖圖像。三是根據文件MIME型元數據類型判斷。
以上8個項目都是以保護電子文件長期存取為基本出發點,但各個項目的具體方法與研究深度有所不同。幾乎所有項目都涉及建立格式登記庫、開發格式識別軟件等,但是具體的項目策略及系統設計又有許多不同。
項目開展的規劃與所屬服務性質有關。其中,Archivematica、PRONOM、NARA Format Profile、Sustainability of Digital Formats、PREFORMA是從國家記憶保存角度開展的項目,這些項目規劃有共通之處。首先,項目大多依照OAIS參考模型來設計數據庫系統和其他軟件工具。其次,對登記的歸檔文件格式范圍做了較為明確的規定,比較典型的是NARA提出并更新《永久電子文件移交格式指南》、PREFORMA項目推薦歸檔或備份的文件使用開放且有國際標準的格式。第三,格式范圍具有有限性的特征,如PRONOM項目賦予登記格式唯一的標識,并推測該格式的壽命以及是否需要進行格式遷移。
而Wikipedia、Focus、FILExt則是從網絡或廣義的信息服務角度開展的項目,格式管控項目規劃較為廣泛且各有特點。如Wikipedia盡可能全面收集和反映更多格式的變化情況;Focus項目有著較為清晰的文件格式識別流程,針對格式信息服務有專門的客戶端應用程序;FILExt可幫助用戶確定與打開未知文件格式,并推薦轉換格式的軟件工具。
以上項目中與格式管控功能有關的系統有:格式信息數據庫、格式識別工具、格式檢查器等。從服務架構角度看,以上項目格式信息數據庫多采用B/S的訪問服務,通過網頁上傳和查詢格式信息。另外,項目的格式識別工具都有相應的客戶端可供用戶下載,如DROID下載后可在Java環境下使用,歐盟的三個標準格式檢查器均支持常見的操作系統。
從功能模塊的應用角度看,功能越全面越強大,系統發揮的作用也相應越大。有些項目提供的格式服務功能較為單一,如Wikipedia僅提供格式概覽與最新格式信息發現, PREFORMA項目僅提供三種格式的標準檢查功能;FILExt提供格式識別及支持軟件信息功能。此外一些項目將格式管控系統納入自身電子數據管理系統中,如ERA2.0系統中嵌入了格式風險評估功能模塊,FPR是Archivematica系統的一個重要子系統等。比起單一的格式登記系統或工具,被嵌入的功能模塊有了更大的被頻繁使用的可能。
從系統收錄信息數量和信息粒度角度看,數量和粒度分別代表了格式信息的廣度和深度,數量越多、粒度越細則代表信息的利用價值越大。據筆者統計,以上項目中登記系統格式信息收錄:格式名稱、格式版本、格式代碼、格式標準、唯一識別符、特定功能格式實例、上下級格式名稱、支持軟件等描述或識別字段。字段越多說明描述的格式信息完整性更強。以上Wikipedia、FILExt所收錄的格式數量相較其他項目多但粒度相對較大,LOC數字格式可持續性項目、PRONOM系統等收錄的格式數量較小但信息粒度較細。
從源代碼開放程度看,開源系統必將贏得更好的包容和發展。如Archivematica、DROID、PREFORMA標準格式檢查器等都是開源系統,為以后格式問題的解決提供幫助與參考。
格式登記與管控并非簡單的工作,不僅涉及軟件系統整體架構的設計,還需要根據系統服務功能考慮需錄入文件格式數量及軟件信息的粒度。目前國內還沒有檔案格式登記與管控項目,但格式終究是影響電子文件可持續長期保存的關鍵因素之一,應得到重視。筆者認為,規劃我國電子文件格式登記與管控系統時,可從以下幾方面入手。
首先,在系統數據來源方面,建設初期可根據館藏格式占比情況,從常用的檔案類型和市面流行格式開始設定歸檔文件格式范圍,將歷史與現存的格式信息及相應軟件信息及元數據盡可能多地錄入數據庫,中后期登記更多文件格式信息。
其次,在系統開發方面,數據庫的設計要規劃好數據粒度大小以及元數據項,也可采用其他項目系統的開源代碼。此外還可以發揮系統用戶的作用,如允許用戶上傳文件進行格式分析并與系統已有格式進行匹配,若存在相同格式,則提供格式相關信息及其可識別該格式的軟件服務;若不存在則允許用戶新增格式條目,由系統管理員負責對數據的審核與數據庫的更新。這樣能使整個系統數據庫保持動態與活力并不斷拓展文件格式的深度與廣度,從而提供更為廣泛的文件格式服務。
最后,系統需要不斷服務并作用于信息機構的格式規劃或指南。檔案與圖書機構在接收數字文件時需對其格式有一定的規定以便可持續存儲與利用,但格式隨時代的發展是不斷變化的。因此系統應對格式的變化做出即時反映,使機構可以較為準確地更新格式規劃或指南。