王子鵬/江蘇開放大學
2019年10月,習近平總書記在中央政治局第十八次集體學習時強調,要把區塊鏈作為核心技術自主創新重要突破口,加快推動區塊鏈技術和產業創新發展[1]。在我國大力發展區塊鏈技術創新應用的大背景下,“區塊鏈+”必然給檔案工作帶來機遇和挑戰。一方面,檔案的根本屬性是原始記錄性,檔案工作的內容與方式必然會根據社會的變革作出相應調整;另一方面,區塊鏈可以實現數據記錄永不被刪除、不可篡改,這一特性與信息時代電子文件管理的要求高度契合。近年來,區塊鏈成為檔案學研究的熱門前沿話題,同時還涌現出相應的實踐探索項目,這些項目為我們理解區塊鏈提供了較好的途徑。正如劉越男教授所言,“當我們對區塊鏈下的文件檔案管理沒有太多思路的時候,收集、跟蹤并挖掘這些案例,分析不同方案中文件構成及其管理要點,是我們獲取理論和方法的重要源頭”[2]。基于這個思路,本文采用多案例研究方法,試圖厘清區塊鏈和電子文件管理的邏輯契合點,探究區塊鏈在電子文件管理方面的應用前景。
在檔案領域結合區塊鏈方面,國外的相關研究起步較早,且在實踐探索上取得了一定成果。薩里大學聯合英國國家檔案館等機構聯合開展ARCHANGEL項目研究,旨在探索通過區塊鏈技術確保公共數字檔案記錄的完整性[3];InterPARES Trust 歐洲團隊基于“帶時間戳、電子印章的數字簽名可信保存模型項目”[4],開發出TrustChain模型,嘗試采用區塊鏈加密數字簽名的方法長期保持電子文件的可信度[5];劉越男從數字檔案長期保存視角介紹了上述兩個項目相關情況[6],楊茜茜著重分析了英國ARCHANGEL項目的啟示[7]。我國檔案學界關于區塊鏈的研究緊跟世界發達國家步伐,正從純粹的理論探討轉向應用性研究。張倩提出構建高校學生檔案區塊鏈征信管理平臺[8]和藝術檔案管理系統[9];聶云霞分析了基于區塊鏈的政務檔案信息共享策略[10];王平借鑒OAIS模型構建基于區塊鏈的電子文件可信保護框架[11];馬仁杰設想基于聯盟區塊鏈搭建長三角檔案信息資源共享模式[12]等。從現有的項目或論文中,筆者遴選了RecordKeeper項目、TrustChain模型、可信保護框架模型、ARCHANGEL項目作為研究對象。選取原則有三點:一是案例針對性強,側重解決檔案管理中突出的問題;二是案例均提出了明確的技術框架,具有很強的實踐性;三是案例技術路線各異,有利于橫向比較分析。
該項目的中文名稱為“記錄保存和數據安全解決方案”,是一個沒有檔案機構參與、以電子文件管理為主題的區塊鏈商業項目。項目擬為組織和個人提供結構化的、易于訪問的、安全可靠的電子文件可信保存服務。其技術邏輯為,當用戶上傳一份電子文件時,RecordKeeper將文件本身存儲于中心數據庫,同時對文件簡要記錄和元數據進行加密形成哈希值,并將哈希值推送至區塊鏈分布式賬本。一旦電子文件發生變更,區塊鏈上記錄的哈希值將隨之改變。用戶也可以通過客戶端的哈希校驗功能,來檢驗電子文件是否被篡改。關于共識機制,本項目采用工作量證明(Proof of Work,PoW)方式進行數據驗證和記賬工作,各網絡節點需要“挖礦”來爭奪記賬權。RecordKeeper的目標為盈利,其網絡共識節點亦是自利的,最大化自身收益是各節點參與數據驗證和記賬的根本目標。所以,項目通過發行虛擬貨幣的方式實現自身盈利和節點激勵。作為用戶,需要購買虛擬貨幣才能享受電子文件可信保存服務。
RecordKeeper項目值得被關注的原因在于:一是項目屬于純商業性質,預示著未來可能存在非傳統檔案機構從事電子文件管理服務;二是項目毫無檔案專業背景,只關注電子文件的真實性,其技術框架極為簡潔;三是為檔案機構提供了一種可能性,即面向全社會開展有償的電子文件可信管理服務。但從檔案學視角分析,該項目存在嚴重問題。RecordKeeper聲稱可以解決電子文件安全可信管理的所有問題,這恰好反映了項目人員對檔案學的了解尚淺;項目目前對電子文件全生命周期管理沒有概念,亦不關注電子文件的完整性、可用性、可靠性和長久保存問題,只關注電子文件的真實保存,保存期限取決于該項目在市場競爭中的生存周期。
2019年12月18日,筆者已無法訪問該項目的官方網站。如果網站無法正常訪問就意味著該項目的失敗,那么RecordKeeper商業項目存活周期不足2年。
數字簽名是歐洲檔案領域用來確保電子文件真實性、權威性、完整性的有效手段,而其長期可信保存一直是電子文件管理的重難點。原因在于,手寫簽名與數字簽名存在明顯差異,前者在不同紙質文檔上表現出一致性,而后者作為二進制字符串在不同電子文件上必須相異。如果將相同字符串用于多個文檔,那么任何收到電子文件的人都可以簡單地復制該字符串并將其附加到另一個文檔,偽造數字簽名。所以,數字簽名通常是加密的、非開源代碼的數字格式,隨著軟硬件環境的變化會出現簽名失敗、驗證失效等問題。區塊鏈技術的出現,為解決數字簽名可信保存問題提供了可靠的技術路徑。InterPARES Trust“帶時間戳、電子印章的數字簽名可信保存模型項目”在上述背景下應運而生,該項目由克羅地亞薩格勒布大學Hrvoje Stan?i?教授領銜的研究團隊完成,TrustChain模型為該項目主要研究成果。該模型采用聯盟鏈的方式,擬由檔案機構及相關權威組織承擔區塊鏈分布式賬本的節點功能。這種方式工作效率校高,亦無需發行虛擬貨幣。TrustChain模型技術邏輯為:第一步,當一份含數字簽名的電子文件接收入館時,首先向數字簽名頒發機構查詢數字簽名真偽;第二步,在數字簽名為真的情況下計算數字簽名和文檔的哈希值,并形成由哈希值、文檔鏈接、時間戳、元數據等組成的TrustChain記錄值;第三步,所有或部分節點對TrustChain記錄值進行投票,在通過的情況下將其登記入區塊鏈賬本永久保存。


TrustChain模型存在明顯的邏輯冗余:數字簽名確保電子文件為真,區塊鏈再證明數字簽名為真。歐盟認可數字簽名的法律效力,所以TrustChain模型無法繞過數字簽名這一環節。如果歐盟修法認可區塊鏈的法律效力,則區塊鏈可以繞開數字簽名獨立承擔責任;反之,直接改進數字簽名技術(而非疊加兩個技術)將更為簡潔。區塊鏈是分布式數據存儲、點對點傳輸、共識機制、加密算法等技術的融合體,數字簽名亦可借鑒區塊鏈技術框架、吸收融合先進技術進行自我革命,解決現存問題。否則一味用新技術去保障舊技術,這種“貪吃蛇”的模式將導致檔案管理模式愈加繁瑣。
武漢大學王平等提出國內目前比較完整的“區塊鏈+電子文件管理”解決方案,本文簡稱為“可信保護框架模型”。該框架模型以OAIS(Open Archival Information System,開放檔案信息系統)為基礎,將數據區塊劃分為提交信息區塊(Submission Information Block,SIB)、檔案信息區塊(Archival Information Block,AIB)、分發信息區塊(Dissemination Information Block,DIB)三個部分,分別對應電子文件管理的移交和接收、存儲和管理、利用與銷毀三個階段,遵循全程管理原則加強電子文件可信性的安全保護。該框架模型較好的融合了OAIS和區塊鏈技術,針對可信電子文件信息區塊封裝、分布式賬本存儲和信息區塊提取三個核心技術環節均提出了具體的技術方案。
可信保護框架模型結合OAIS改造區塊鏈技術,理論創新性強。與其他案例相比,不僅關注電子文件管理和利用階段的真實性管理問題,而且嘗試解決電子文件全生命周期可信安全保護問題;并非簡單套用區塊鏈技術,而是基于OAIS對區塊鏈進行細致的改造,定義了區塊體、區塊頭等技術細節,研究了區塊封裝、存儲和提取三個關鍵技術節點。不過,該模型目前停留在理論階段,尚未研發出系統原型,對諸如共識機制等區塊鏈實踐的核心問題亦未提及??紤]到OAIS僅是參考模型和基本概念框架,而非電子文件管理強制標準,真實的電子文件管理實踐并非嚴格遵循OAIS模型,所以可信保護框架模型的普適性還有待進一步檢驗。
ARCHANGEL項目由薩里大學聯合英國國家檔案館等機構聯合開展(2017年6月—2019年6月),目的為探索如何利用區塊鏈技術確保公共數字檔案記錄的完整性,以及保證存檔內容長期穩定、以不被篡改的形式展現,提高檔案管理員和公眾對數字檔案的信任。英國國家檔案館既是建設方也是最終用戶,其從檔案專業視角評估項目的可行性、可持續性以及公眾的認可度。
ARCHANGEL提供聯盟鏈和公有鏈兩種共識模式,方便檔案機構根據實際情況靈活選擇。該項目的工作模式是,當檔案館接收一份電子文件時,首先采用文件格式識別工具確定電子文件的格式(例如PDF、Word等),然后通過與格式匹配的哈希算法從文檔中提取哈希值等內容證據。完成操作后,將電子文件存入檔案館中心數據庫,將哈希值、全局唯一標識符(GUID)、哈希計算過程唯一標識符等內容證據一起存儲在區塊鏈分布式賬本。一旦電子文件解密完成,公眾便可以利用區塊鏈驗證電子文件的真偽及完整性。項目組在以太坊公共測試網上實施了ARCHANGEL原型,清晰呈現了上述過程。在實施過程中,通過英國國家檔案館開發的DROID(數字記錄對象識別)應用程序來識別電子文件格式,采用經典的SHA-256哈希算法計算哈希值。用戶界面主要呈現“上傳(Upload)”“搜索(Search)”兩項功能,前者用來上傳電子文件副本,運算出哈希值;后者搜索存儲在檔案館的電子文件哈希值,與前者運算出來的哈希值進行比對,如果兩者一致即證明電子文件未被篡改。
ARCHANGEL項目從設計理念到原型實現,都抓住了區塊鏈和電子文件管理的契合點,是目前最貼近檔案實踐的區塊鏈項目。下一步,項目組打算研發特定算法以匹配特殊格式電子文件,比如擬采用深度神經網絡(DNN)從視覺內容中提取穩健的視覺特征,該視覺內容對于該文檔的外觀屬性(例如照明、老化)是不變的。對于這項計劃,筆者持保留態度。第一,對于文檔來說,現有加密完全可以解決電子文件保真需求,深度神經網絡(DNN)更適合博物館而非檔案館;第二,檔案機構自行研究加密算法,用來驗證自身保存的電子文件,相當于既當裁判員又做運動員,缺乏公信力。
確保電子文件“四性”的要求與目前信息技術手段有限的矛盾,導致了電子文件管理流程繁復,這個問題一直被檔案從業者詬病,實際上也成為推進電子文件單套制、單軌制的主要瓶頸因素。區塊鏈可以確保電子文件的真實性,而真實性又同時影響完整性。原有流程中確保電子文件真實性的技術手段,可以被區塊鏈以某種形式替代。以元數據而例,區塊鏈的引入可以減少元數據的種類、簡化元數據封裝標準,大大降低電子文件管理負擔。再如,引用區塊鏈可以減少電子文件對版式文件的依賴。以ARCHANGEL項目為例,該項目對不同格式電子文件進行類型識別,然后根據對應算法進行加密,即任何格式的電子文件都可以利用區塊鏈來保障其真實性。
在紙媒時代,檔案具有載體和信息統一的特質,即物理結構和邏輯結構一致,檔案解密和開放時被質疑的壓力不大。而在數字時代,電子文件載體和信息可分離的特性容易導致公眾質疑。區塊鏈的技術特點可以長期有效保障電子文件的真實性,有助于檔案解密與開放,ARCHANGEL項目即是最好的注解。比如,英國國家檔案館接收7/7恐怖襲擊或Chilcot調查等電子文件,保密期限可能長達一個世紀。待解密開放之日,公眾能夠利用ARCHANGEL驗證這些電子文件的真實性和來源。同時,區塊鏈的智能合約功能,可以實現在電子檔案保密期滿后自動強制開放。檔案解密和開放的難點在于,檔案館員需要對大量的到期檔案進行二次鑒定并承擔相應責任,以至于檔案機構傾向于遺忘、回避檔案解密和開放問題。如果在定密之時即利用技術手段明確檔案開放日期,且無需二次鑒定,則檔案解密與開放的矛盾將迎刃而解。當然,智能合約強行開放檔案的風險需要得到恰當評估。
目前,關于“區塊鏈+電子文件管理”的研究主要基于檔案館視角,忽略了區塊鏈對電子文件生命周期上游生態產生深刻影響的可能性。比如,奧地利數據市場為了自身的可持續發展,委托奧地利理工學院開展“區塊鏈和奧地利數據市場項目”,旨在通過區塊鏈管理奧地利數據市場中的電子文件,確保數字記錄的真實性、完整性和可靠性[17]。如果該項目付諸實踐,奧地利數據市場中的電子文件本身即是在區塊鏈系統中產生和管理。因為區塊鏈系統本身具有檔案館屬性,所以檔案是否進一步歸檔有待實踐檢驗。在此種情況下,檔案機構的最優選擇是,作為網絡共識節點接入該區塊鏈系統,并利用側鏈技術接收其電子文件。
檔案機構收集管理特定范圍的電子文件,無法滿足全社會每個機構、每個個人的訴求。而利用區塊鏈技術提供確保電子文件真實性、權威性的服務,將成為互聯網創業的重要方向之一。而一旦法律認可區塊鏈的憑證價值,未來各類型電子文件服務機構將應運而生。類似于圖書館領域,一方面公立圖書館仍然存在,成為社會不可缺少的公共服務機構;另一方面數字圖書館、網絡搜索引擎(谷歌、百度)也成為人們生活不可缺少的一部分。