郭立鑫 陳潞輝

摘? 要:本文基于電子政務平臺服務,分析聯盟鏈技術及檔案數據的特點,在基于政務云檔案數據共享的基礎上,詳細闡述了聯盟鏈在電子政務檔案數據共享中的應用策略,提出了共享模型和實施方案,這對優化傳統檔案數據共享模式諸多弊端,促進檔案數據治理水平提升,具有積極的現實意義。
關鍵詞:檔案數據;聯盟鏈;電子政務云;共享模型
Abstract: Based on the e-government platform service, this paper analyzes the characteristics of alliance chain technology and Archives data. On the basis of government cloud Archives data sharing, this paper expounds the application strategy of alliance chain in e-government Archives data sharing in detail, and puts forward the sharing model and implementation scheme, which has positive practical significance for optimizing many disadvantages in traditional Archives data sharing mode and promoting the improvement of Archives data governance level.
Keywords: Archival data; Alliance chain; E-government cloud; Shared model
1 引言
1.1 檔案數據的特征。檔案數據是各檔案機構收集保存的具有重要價值的數據記錄,涵蓋了檔案數字化成果、業務系統數據和用戶數據等,有六個特征:一是存儲海量化,各地檔案數據量級從GB級達到TB級,甚至PB級,特別是非結構化檔案數據在快速增長;二是類型多樣化,數據類型有TXT、DOC、XML、PDF、TIFF、JPEG、DFD、DBF、XLS、WAV、MP3、AVI、MP4等,不同文件格式并存;三是內容知識化,既注重檔案自身知識挖掘,又在不同數據間尋找信息關聯,產生數據價值之外的價值;四是結構規范化,數據結構更加遵循標準規范,檔案數據管理成本和共享難度極大降低;五是界定法理化,檔案法明確電子檔案與傳統載體檔案具有同等法律效力,檔案數據的真實性要求更高;六是利用遲滯化,受保管期限和封閉年限約束,數據需伴隨實體檔案經劃控鑒定和審批后才能對外發布。當前,檔案數據共享主要依托電子政務云開展,由檔案部門和云服務商共同管理,面臨著整合效率低、存儲中心化、信任程度弱、安全性能差等問題。
1.2 檔案數據與聯盟鏈。區塊鏈中的聯盟鏈較適用于機構間的信息共享,是一種許可鏈,典型特點是:一是各節點通常有對應的實體機構;二是只有得到聯盟的批準才能加入或退出系統;三是各個利益相關機構在區塊鏈上共同維護系統。而檔案數據除具有以上所述六個特征外,還要求參與共享的單位和數據都進行許可,按照發布安全和所有權要求,既不能在全網公開,也不能完全由一個機構管理,須按照某個規則或共享協議管理對應權限的數據,且不必采用代幣機制來鼓勵節點競爭參與記賬,使共享要求與聯盟鏈的技術特點極具耦合性。
1.3 檔案數據與電子政務云。隨著政務外網接入普及,云服務模式按照“以上云為常態,不上云為例外”要求,要求檔案機構不能也不用再新建獨立的機房、數據中心、專用網絡和檔案數據所依賴的服務器、存儲、數據庫、支撐軟件、信息安全、數據備份等。這類基礎設施統一歸口到電子政務云來承擔,極大降低數據共享成本。
同時,各地陸續出臺電子政務云平臺服務管理規范,明確按照統一管理、按需選擇、彈性擴展、高安全性和高可靠性的原則,開展基礎設施、平臺、軟件層服務建設,而PaaS層安全容器服務的引入也促使參與共享機構只需關注數據和應用,共享過程更加安全快捷。
2 基于政務云檔案數據的共享利用
2.1 傳統模型。在一體化在線政務平臺與檔案服務的深度融合的大背景下,檔案數據上云、數據設備托管成為必然,基于政務云的檔案數據共享成為主流,傳統意義上包括檔案數據供給側、管理側和需求側三部分,而作為核心的檔案數據管理側實際由第三方機構控制。
2.2 流程分析。傳統模型下檔案數據共享流程是:(1)聚合數據。各立檔單位依托機關數字檔案室在線或離線方式向檔案機構移交數據,社會檔案資源數據通過征集或捐贈流向檔案部門,完成檔案數據的原始積累。(2)申請資源。檔案機構向大數據管理部門申請計算、存儲、網絡等政務云資源,大數據部門協調第三方機構完成虛擬化資源分配,提供相應服務、調度和資源等管理。(3)搭建平臺。檔案機構依托相應層級政務云資源申請共享服務,依據電子檔案信息系統建設等規范指導,搭建共享業務系統。(4)上載數據。檔案機構組織檔案數據開放鑒定并上傳所屬資源,政務云提供統一的數據服務保障體系,檔案數據進入數字資源中心集中管理。(5)共享利用。面向網站、平臺、自助設備、移動終端、微信APP等不同平臺,在共享系統上開設通用或專題共享應用,數據需求側通過政務云平臺統一身份認證在公共云或私有云獲取相應檔案利用數據。
2.3 優勢與弊端。政務云與檔案業務的深度融合,有效促進了檔案數據開放化水平,共享優勢有:(1)極大節約數據共享成本,檔案部門通過申請虛擬化資源,節省了基礎設施建設支出。(2)檔案數據管理更加專業,第三方機構采取統一管理,使用專業存儲設備提供數據托管,技術保障力量相較一般檔案部門更加雄厚。(3)數據容災備份能力增強,通過虛擬機提供軟硬件支撐環境,數據備份與恢復更加靈活。(4)數據安全性提高,政務云平臺有較完善的信息安全保障體系,檔案數據遭受外部攻擊或篡改的可能性極大降低。
同時,弊端也是顯然的:(1)檔案數據有泄露風險,風險主要發生在數據運維人員和高權限管理人員,檔案數據采取統一集中存儲,雖然有相應的數據安全規范,但檔案部門監督難以實施,難免出現未經授權越權訪問,違規下載和使用檔案數據。(2)共享數據會出現新孤島,由于缺少統一頂層設計,各級檔案數據會向所屬政務云平臺匯聚,以一省為例,會出現省市縣層級化數據流向,不同平臺不同接口會造成新的縱橫分割,從而產生新的數據壁壘。(3)檔案數據質量參差不齊,檔案數據直接對接政務云平臺,數據質量缺少統一審核,可能標準不統一,非結構化檔案數據在不同業務系統共享前仍需清洗。(4)檔案數據資源歸屬模糊,目前主要通過簽訂三方協議明確歸屬,存在有協議無措施或協議執行不夠剛性,特別是在共享利用過程中會產生諸多元數據,這部分數據資產歸屬仍難以界定。(5)檔案數據并非絕對安全,雖然國家出臺有數據安全法,但法規過于籠統僅停留于指導層面,在政務云平臺檔案數據上下傳輸過程中傳輸保密和傳輸控制缺少有效手段,檔案數據的安全防護定級存在雙重標準,第三方機構往往僅提供基礎防護,高等級安全防護仍需長期高價購買,變相增加了檔案數據共享成本。
3 聯盟鏈視域下政務云檔案數據的共享利用
3.1 模型設計。在傳統基于政務云檔案數據共享利用基礎上,引入聯盟鏈關鍵技術,按照數據供應、管理、需求的關系,改進后的模型如圖1所示。
3.2 模型描述。模型采用區塊鏈技術與電子政務云相結合的邏輯架構。(1)區塊鏈模塊,數據層使用鏈上鏈下相結合的旁路數據存儲模式,鏈下以參與單位共享目錄及全文數據為主,鏈上以數據摘要為主,建立半中心化存儲體系;網絡層選用P2P點對點傳輸技術搭建區塊鏈網絡,網絡規模根據參與節點自由擴展至固定數量,并由參與數據共享的單位共同推薦的一名信任方建立創世區塊;共識層使用實用拜占庭容錯算法,不依賴硬件算力和數據多少產生共識,參與共享節點按照少數服從多數策略,各節點具有公鑰發布權,以簽名所有通過節點的消息來驗證其準確性,當可用簽名數量達到要求,該操作就被認定為有效;激勵層由于參與共享節點非復雜群體,無需復雜激勵機制,采取贏取積分方式來體現該部門在檔案數據共享中的綜合貢獻,積分作為基礎業務評價、信息化建設等考核考評加分項;合約層采用智能合約方式進行數據源管理、數據發布檢索、數據授權、數據訂閱等控制;應用層由檔案共享業務系統和終端APP\WEB界面等組成提供檔案數據共享服務。(2)政務云模塊,IAAS層提供檔案數據共享的場外服務器、存儲和網絡硬件,PaaS層提供檔案數據共享的虛擬服務器和操作系統,SAAS層使用檔案行業聯盟自建共享業務應用,數據以上載的共享數據為主。
3.3 模型流程。(1)獲取云服務。檔案聯盟成員向政務云平臺申請或租用PaaS 層服務,政務云平臺根據檔案聯盟數據要求,完成網絡、計算、存儲資源分配,完成操作系統、數據庫、中間件、交換接口、共享應用的調試安裝。(2)搭建聯盟鏈。參與單位采用P2P定制產品,由推薦單位配置創世區塊文件,各節點使用創世區塊文件初始化各自配置,而后啟動聯盟鏈網絡并獲取各參與節點地址。(3)交換數據。參與聯盟單位將業務系統數據或數據庫中的數據按照聯盟要求推送計劃共享的檔案數據,通過業務適配將數據通過加密方式傳遞給政務云數據交換平臺。(4)傳輸數據。政務云數據交換平臺由數據采集、數據共享、數據轉換、服務共享、任務調度、數據傳輸接口組成,對待共享的檔案數據統一轉換格式,根據事先確定的數據方案調度不同的數據單向傳遞給電子政務云PaaS層安全容器。(5)交易記賬。交換平臺向安全容器單向傳輸的操作記錄在區塊鏈上,保證記錄的可溯源、不可篡改、不可偽造。同時,在各個數據方都將檔案數據傳送到電子政務容器服務平臺后,安全容器對收到的數據進行操作,此操作過程和結果也記錄在區塊鏈上。(6)建立目錄。檔案數據進入安全容器后,與區塊鏈網絡服務相并列,建立數據資源目錄和模板目錄服務,提供數據索引、匹配及查詢服務。(7)對接應用。通過數據接口服務,將安全容器中數據資源目錄與數據共享業務系統對接,并與區塊鏈網絡服務連接,信息之間傳遞采取加解密方式。(8)共享利用。聯盟單位經政務云統一身份認證后接入系統,維護系統和享受系統提供的服務,非聯盟單位經批準后,通過物理隔離的數據交換接口來傳遞數據。所有操作過程和結果均記錄在區塊鏈上。
4 聯盟鏈視域下政務云檔案數據共享利用的技術路線
4.1 數據分布式存儲??紤]到檔案數據種類有文本、音視頻、數據庫等,類型多樣,且體量大小差別較大,非結構化數據較多,而鏈塊節點存儲方式具有局限性,可拓展性較差,[1]不能滿足檔案數據存儲要求,模型采用鏈上鏈下相結合的政務云數據旁路方式,具體是:
對于數據量小于100KB的數據,數據摘要部分可以存儲檔案數據原文(如現行文件),數據類型可以是鏈接、文本、圖片或者檢驗視頻等。檔案數據大于100KB,數據摘要存儲在鏈上分塊,目錄或原文數據加密后以旁路形式存儲在政務平臺安全容器。鏈上數據摘要可以對數據進行四性校驗,也可以作為在數據庫中查找數據的索引,作為綁定用戶的唯一標識,查證用戶的數據記錄以及訪問權限;對于某個區域,通過區塊鏈網絡對各層政務云進行分級鏈接后,形成多中心節點的分布式存儲架構。
4.2 數據交換記賬。分布式賬本首要是建立共識算法,完成存儲數據資源、權限控制、存儲分析。模型比公鏈(如以太坊)結構更加簡單,節點間是具有良好合作關系并尋求整體效益最大化的聯盟,類似工作量或權益類等公鏈共識算法難以適用,更適合使用可以脫離加密代幣的實用拜占庭容錯算法。具體是:
交易的發起方會以接收方的公鑰對交換的檔案數據進行加密,并以自己的私鑰進行數字簽名,接收方則會以自己的私鑰對交換的檔案數據進行解密、并以發起方的公鑰驗證對方的數字簽名,P2P檔案數據交換完成后,數據發起方通過私鑰對交易結果數字簽名并向全網廣播,接收到廣播的各節點再以數據發起方公鑰驗證數字簽名可信度,并再次通過私鑰對該交易結果進行數字簽名并向全網廣播。循環若干次后,當各節點收到總節點數量一半以上的廣播交易結果后,各節點便可自行更新賬本,最終達到分布式數據賬本同步的目的。
4.3 數據跨層級交換。對于同一個區域不同層級聯盟,以上級政務云為主鏈,分別建立子鏈,并部署智能合約,解決數據共享利用問題。具體是:
通過主鏈在每一條子鏈上部署不相同的智能合約,主鏈定期間隔接收子鏈智能合約發送的數據,之后封裝所有數據轉存至主鏈對應區塊。當接收到子鏈間的數據查詢請求時,控制主鏈從所述區塊中獲取子鏈供應方數據,控制主鏈將該數據發送至子鏈需求方,以此解決不同層級數據鏈數據隔離問題。
4.4 數據安全容器服務。檔案數據在權屬關系上具有特殊性,安全性不宜與其他數據共用虛擬化服務資源,而容器技術類似于一個集裝箱,容器與容器之間相互獨立,容器內所存儲的內容可以提前定制和預裝,針對需要的內容提取對應的容器,允許在檔案數據隔離的過程中運行相應虛擬化程序。因此,模型中運行的共享利用所需組件都會被封裝為單個鏡像,鏡像運行在獨立的環境中,與其它應用生產的元數據互相隔離,避免因為其它應用元數據節點宕機時整個系統的癱瘓。[2]具體是:
為檔案數據建立索引樹,能夠根據索引找到每一個數據塊的位置并進行訪問和讀取,通過在保存數據節點的主機上尋找數據存放在存儲空間的那個位置,然后由數據節點將位置返回給客戶端,進而達到檔案數據查詢目錄作用。這種系統架構模式能有效避免部署環境不同,版本不兼容的問題。
4.5 數據交換接口服務。為實現各節點業務系統或數據庫與政務云安全容器的對接,需按照統一規范與交換接口實現技術對接。此外,交換接口還起統一管理作用,控制接口訪問權限和策略,監控和分析接口調用結果。具體是:
發送方通過業務適配將待共享檔案數據包和參數信息單向上傳到交換接口服務存儲模塊,交換接口服務完成數據的檢測后,按照接口參數下載、驗證和處理發送方上傳的數據包,并將操作過程和結果實時記錄在鏈上。同時,根據調度任務,將檔案數據包單向傳輸到安全容器,安全容器通過數據交換接口或共享應用系統的方式,將檔案數據傳送到相關的需求側,向聯盟或公共成員提供共享。上述操作過程和結果均記錄上鏈。
5 結語
5.1 模型價值。模型引入聯盟鏈創造了新的檔案數據交互范式,實現在政務云檔案數據的共享利用,將傳統的電子政務平臺集中式數據交換共享模式變為不可篡改的分布式記賬模式,有效提高了檔案數據交換共享的安全性。同時,借助政務云計算服務,極大降低了數據共享成本,提高了運行效率,對未來數字檔案館或智慧檔案館建設都是值得探索的方向。實踐中,比如“浙江政務服務網有關系統電子文件歸檔”試點案例中,省檔案局牽頭組建聯盟鏈,有關單位以不同鏈節點加入檔案鏈,實現了與歸檔公共組件、檔案交換平臺的對接,各方歸檔信息操作都能快速上鏈。該檔案鏈與模型結構雖非完全相同,但可視為模型在電子出證文件共享的初步案例,未來隨著其它檔案數據上鏈,模型應用會更加廣泛。
5.2 存在的問題。實際中,當前階段聯盟鏈在檔案數據共享利用上的應用,并不能完全取代傳統主流共享模式,將區塊鏈技術與原有業務系統結合,將涉及網絡和電子政務云計算部分系統的改造升級工作,需要充足的經費和成熟的技術支撐。同時,也會面臨共享利用場景設計復雜,檔案聯盟機制不健全,業務終端設備跟不上等問題,進而增加共享成本。而在多館共識形成上,如何激勵節點參與熱情,制定獎勵機制,保證區塊鏈的穩定性,都是當今面臨的現實難題。
參考文獻:
[1]賈大宇、信俊昌、王之瓊.區塊鏈的存儲容量可擴展模型[J],計算機科學與探索2017第9 期.
[2]李剛健.基于虛擬化技術的云計算平臺架構研究[J].吉林建筑大學學報,2011:28(01)