錢秀芳



摘要:檔案具有歷史記錄性,有重要的憑證價值,檔案的數字化為長期保存和開發利用提供了解決方案,但是在傳統的中心化檔案管理模式下,電子檔案的真實性、安全性問題不容忽視。文章分析總結區塊鏈技術在保證檔案的真實性、降低檔案歸檔成本和防篡改等方面的優勢,探究基于區塊鏈技術的高校檔案管理模式,以期對區塊鏈技術全面應用于檔案部門有所幫助。
關鍵詞:高校檔案管理;中心化;區塊鏈;防篡改
檔案是人們在各種社會活動中直接形成的數據記錄,能夠還原真實的歷史,具備重要的保存與參考價值,并且擁有法律效力[1],因此保證檔案的完整性和真實性十分重要。目前我國檔案的保存形式主要是以紙質檔案和電子檔案相結合的形式存在,隨著信息技術的不斷發展,為解決紙質檔案不易保存、管理低效等問題,檔案數字化應運而生。
一、我國的檔案數字化進程
20世紀90年代末,國家檔案局提出了構建數字檔案館的規劃,指出實現各類檔案的數字化,以期達到檔案的長期存儲、高效共享和快捷查詢等目標[2][3]。在2000年12月通過的《全國檔案事業發展“十五”計劃》中提出要加快現有檔案的數字化進程。2014年國家檔案局《數字檔案室建設指南》中明確提出了數字檔案室的建設原則及內容[4]。2017年南京市建鄴區建成全國首家集中式示范數字檔案室[5]。如今數字檔案的相關規范標準已日趨完善,大數據、云計算、物聯網等新技術正逐步應用到數字檔案館的建設中。在推進檔案數字化的進程中也出現了許多新問題,如王卓在2019年提出大數據時代數字檔案信息的安全風險以及防范策略[6],檔案界給予了高度關注。
二、高校檔案數字化帶來的問題
檔案數字化改變了高校檔案工作的局面,極大地提高了工作效率,檔案的宣傳、編研、開發等工作成果初步展現。同時,數字檔案的真實性、安全性等問題時有顯現。
1.數字檔案高度易變
檔案形成過程包括諸多環節,需要多部門人員共同配合,數字檔案在收集、存儲、傳輸和處理等過程中存在不確定性。以高校科研檔案為例,檔案涉及教師個人科研信息提交、學院科研管理人員審核、學校科技部門各科室(項目科、成果科等)的管理人員審核和確認以及相應檔案管理人員的歸檔,因此過程中很容易出現數據誤差、丟失或損壞的問題。
2.數字檔案易被篡改
現有的數字檔案保護方案大多是通過數字水印和數字簽名等技術實現,這些保護技術防篡改能力弱,而且在檔案遭到篡改或破壞后一般難以恢復。
現有模式下,保障數字檔案的真實性和原始性前提是出于對檔案館人員和各類檔案收集人員的絕對信任,一旦出現中心系統數據庫遭入侵,或管理員被脅迫或收買,檔案數據的真實性將蕩然無存[7]。以高校人事檔案為例,重慶安全技術職業學院原黨委副書記、院長杜曉陽借向主管單位移送個人檔案之機,篡改、偽造個人檔案資料32處。
3.數字檔案存儲成本高
檔案館為了保證檔案的可靠性,需要存儲多個檔案數據的副本,因此存儲性能會有所降低。另外,由于部分檔案涉及的部門較多,檔案信息的存儲存在大量相同信息,導致大量的數據冗余。還要考慮數據存儲的電腦出現設備老化、系統缺陷、網絡攻擊等情況。為了保證檔案存儲性能,需要購買高性能和大容量存儲設備,這樣就大大增加了檔案存儲的運行和維護成本。
三、檔案管理去中心化
檔案管理不僅具有很強的專業性,而且還具有保密性強的特點,這就要求檔案人員必須具備高度的責任感,才能保證檔案的安全和完整[8]。目前我國檔案管理都是遵從中心化原則,檔案數據的真實性完全建立在對檔案管理人員和中心數據庫完全信任的基礎上。
高校檔案目前都是由單一機構來管理和維護的,而高校檔案數據并不是由檔案管理人員產生的,其涉及學校里面的每一個人。檔案數據的收集又需要多個部門協作完成,因此在填寫、收集數據的過程中很容易出錯,檔案數據庫中的數據并不能保證完全真實可信。檔案管理員并不能獨立驗證檔案系統中信息的真實性,如果檔案數據被惡意篡改,用戶和檔案管理機構很難察覺。這些不能保證真實的檔案就不具備還原真實歷史的作用以及保存與參考價值。
傳統中心化的數據庫因無法解決多方互信問題,使得每個參與方都需要獨立維護一套保存自己業務數據的數據庫,這些數據庫實際上是一座座信息孤島[9]。以學生檔案為例,學生的黨員發展信息由學校組織部保存,學生成績檔案由教務部門保存,學生日常信息由學工部門管理,而學生的科研檔案由學校科研部門管理。另外,中心化架構存在著天然的不平等性,因此檔案管理的去中心化是必然趨勢。
四、區塊鏈技術方興未艾
區塊鏈(blockchain)是一種去中心化、不可篡改、可追溯、多方節點共同維護的分布式數據庫,每筆交易需要全網大多數節點達成共識后,才能存儲到區塊鏈中[10],能夠很好地解決中心化管理中數字檔案產生的問題。區塊鏈包含五層核心架構,如圖1所示。
在高校區塊鏈檔案系統中的角色按功能可分為兩類,分別為參與節點(檔案數據產生人員)和維護節點(檔案數據驗證人員)。參與節點包括學生、教師等,該類節點進行信息交互,用戶在客戶端節點發起數據修改、增加請求,并廣播到網絡。維護節點就是檔案數據真實性驗證人員,該類節點用于驗證用戶請求,并最終把檔案數據上傳到區塊鏈中,是區塊鏈檔案系統中的核心角色[11]。以高校二級學院為例,具體角色分類如圖2所示。以教師科研檔案為例,由于國家重點實驗室開放課題并不是由直屬部門直接統一申報和下達,因此這類項目成果就需要教師個人去申請添加,然后由維護節點中的科研管理人員去審核真實性,最后由節點投票決定是否上傳到區塊鏈中。
五、區塊鏈在高校檔案管理中的應用探討
1.檔案數據真實性高
如前所述,中心化管理模式下,檔案不是由檔案管理員形成,產生檔案的個人又無權錄入或隨時查看自己的檔案信息,因此檔案的真實性和完整性很難驗證。以高校教師的個人科研檔案為例,在傳統管理模式下教師在填寫數據時,只會選擇性地填寫學校和個人認為比較重要的科研數據,過程中還可能存在著填寫錯誤的情況。比如教師個人在填寫自己某年發表的論文情況時,把某篇CSSCI擴展論文填寫成CSSCI源刊,如果審核人員不專業、不認真,該教師的個人檔案里就會保存錯誤的信息。

區塊鏈技術應用于高校檔案管理后,高校教師可以方便快捷地查看個人檔案,一旦發現檔案中的錯誤可以向區塊鏈中的節點申請修改。修改的信息需要經過大多數節點投票通過后才能寫入區塊鏈,寫入的檔案信息上會有時間戳,申請修改檔案的人都會經過實名認證,修改前后的檔案信息都會被保存,因此修改的檔案可以被追溯。由于區塊鏈技術是采用分布式數據存儲管理和P2P網絡,寫入區塊的檔案信息會在區塊鏈中的每個節點存儲相同的檔案信息,這樣可以達到去除檔案管理中心化的目的。這種分布式檔案存儲模式可以避免因某個節點受到攻擊,影響整個檔案數據的真實性。區塊鏈中的共識算法又增加了系統信息的可信性,同時保證了所有節點間的數據信息一致性。正是由于區塊鏈的去中心化、不可偽造、全程留痕、可以追溯的特點,能夠保證檔案的真實可靠[12]。
2.檔案數據安全性高
區塊鏈的數據結構如表1所示。哈希算法是一個函數,將任意長度的數據輸入都會被映射為固定長度的字符串。同時,它也是一個單向函數,由輸入信息可以輕易地算出哈希值,卻無法由哈希值逆向推出原數據信息[13]。
一個優秀的哈希算法具備正向快速、輸入敏感、逆向困難、強抗碰撞等特征。以高校檔案管理為例,正向快速指是當輸入檔案數據時能夠快速地產生哈希值;當檔案數據中某一個字符輸入錯誤,得到的哈希值會和正確輸入數據所生成的哈希值有極大的不同;逆向困難指根據哈希值很難在短時間內算出輸入信息;強抗碰撞指輸入不同的檔案數據不可能產生相同的哈希值。
每個區塊頭包含了上一個區塊數據的哈希值,這些哈希層層嵌套,最終將所有區塊串聯起來形成區塊鏈。區塊鏈里包含了自該鏈誕生以來所有的檔案記錄,因此,要篡改一份檔案,意味著它之后的所有區塊的父區塊哈希全部要篡改一遍,這幾乎是一個不可能完成的任務。因此區塊鏈檔案數據被泄露,泄露的也只是檔案的哈希值,數據獲得者無法獲得具體的檔案信息。
在基于區塊鏈技術的分布式檔案存儲方式中,所有參與節點都可以保存一份相同的檔案數據,新加入的參與方可以下載完全一致的檔案并驗證檔案的正確性[14]。這種方式降低了傳統集中檔案存儲中檔案人員的多副本數據維護成本,同時參與方也可以通過訪問本地檔案數據來提高訪問效率。在區塊鏈系統中,檔案錄入采用數字簽名和加密算法處理,從而提高了檔案系統中數據的安全性。區塊鏈中的數字簽名是通過非對稱加密來實現的,用戶將私鑰保存在自己手中,將自己的公鑰分發到網絡節點上。用戶使用私鑰生成簽名,其余節點可使用公鑰驗證簽名的正確性。相反,如果沒有私鑰,用戶無法偽造簽名[15][16]。通過數字簽名來保證檔案的實名寫入,不可偽造。區塊之間通過哈希值串聯的數據關聯方式和基于共識算法確認區塊數據的寫入機制,能夠保證區塊鏈上的數據不能被篡改[17]。“防篡改”并不等于不允許編輯區塊鏈系統上記錄的內容,只是整個編輯的過程被以類似“日志”的形式完整記錄了下來,這個“日志”是不能被修改的。通過在智能合約上存儲檔案的修改記錄和歷史檔案,可以實現對修改操作人和歷史檔案的追溯,從而保證了檔案的安全性。
3.檔案數據形成成本低
傳統的檔案收集需要冗長的歸檔審查、確認、檔案數據信息核對,而基于區塊鏈技術的高校檔案管理可以大大簡化流程。以高校學生檔案為例,涉及學生成績檔案方面,只要學生本人、任課教師、班主任、輔導員、教學院長和教務處在各自節點投票確認,學生成績便可歸檔(寫入區塊鏈中)。檔案被存儲在多方共同維護的多個節點上,節點按照嚴格的規則和共識進行維護與添加,從而實現了多方間的檔案信息共享和監督,避免了煩瑣的人工對賬,提高了業務處理效率,降低了人力成本[18]。

高校均采用教育網,因此高校區塊鏈網絡環境是安全可信的,所以共識算法可以采用結合可信執行環境(Trusted Execution Environment,TEE)的軟硬件結合的共識算法。另外,采用可信執行環境的共識算法可以與現有檔案管理系統并存,因此節約了資源成本。
*本文系江蘇省高校社科基金一般項目“大數據環境下高校圖書館數字資源的知識發現及個性化知識服務研究”(項目編號:2017SJB1748)階段性研究成果。
注釋與參考文獻
[1][2][4][7]譚海波,周桐,趙赫,趙哲,王衛東,張中賢,盛念祖,李曉風.基于區塊鏈的檔案數據保護與共享方法[J].軟件學報,2019(9):2620-2635.
[3]史志偉.循序漸進穩步進取——談山東數字檔案館(室)建設[J].山東檔案,2013(3):10-11.
[5]沈夢瀅.鎮江市檔案局圓滿完成2017年度省級數字檔案館(室)創建工作[J].檔案與建設, 2018(1):95.
[6]王卓.大數據時代數字檔案信息安全風險分析及防范策略[J].中國檔案, 2019(9):74-75.
[8]韋衛.加強檔案管理建設,促進學校持續發展——淺談新形勢下技師學院檔案管理現狀及規范化、信息化建設[J].檔案學研究,2017(S2):117-123.
[9]Morkunas VJ,Paschen J,Boon E. How blockchain technologies impact your business model[J]. Business Horizons 2019,62(3):295-306.
[10][14]邵奇峰,張召,朱燕超,周傲英.企業級區塊鏈技術綜述[J].軟件學報,2019(9):2571-2592.
[11][15]蔡曉晴,鄧堯,張亮,史久琛,陳全,鄭文立,劉志強,龍宇,王堃,李超,過敏意.區塊鏈原理及其核心技術[J].計算機學報,2019(115):1-51.
[12]張倩.數字檔案在線利用避偽防護技術應用研究[J].檔案與建設,2007(11):21-24.
[13]王秀利,江曉舟,李洋.應用區塊鏈的數據訪問控制與共享模型[J].軟件學報,2019(6):1661-1669.
[16]袁勇,王飛躍.區塊鏈技術發展現狀與展望[J].自動化學報,2016(4): 481-494.
[17]于戈,聶鐵錚,李曉華,張巖峰,申德榮,鮑玉斌.區塊鏈系統中的分布式數據管理技術——挑戰與展望[J].計算機學報,2019(116):1-28.
[18]邵奇峰,金澈清,張召,錢衛寧,周傲英.區塊鏈技術:架構及進展[J].計算機學報,2018(5):3-22.