常廣炎 楊彬



摘要:大數據熱潮正在席卷各領域,多源數據的融合提高了數據的價值,當前,大數據發展道路上最大的瓶頸是數據的流通、共享、開放和隱私保護問題,其原因為現有的大數據相關技術的服務設計思想都是基于中心化的,如數據庫、數據中心、云計算,這必然導致數據高度集中,形成數據孤島,產生數據壟斷。區塊鏈本質是一個去中心化的數據庫,以去中心化為特征區塊鏈技術的出現是對云計算、大數據等中心化技術有益的補充和平衡。區塊鏈與大數據技術的融合應用將創造巨大的社會價值。文章就“區塊鏈+大數據”的技術框架及融合發展進行闡釋,區塊鏈與大數據必將完美融合,從而產生巨大的社會價值。
關鍵詞:區塊鏈;大數據;去中心化;數據庫;共識機制
中圖分類號:TP311? ? ? ?文獻標識碼:A
文章編號:1009-3044(2020)35-0015-03
開放科學(資源服務)標識碼(OSID):
1 大數據技術架構
大數據處理系統中數據源經過分析挖掘到最終產生價值數據需要5個主要環節,即數據準備、存儲管理、計算處理、數據分析和知識展現,其技術框架如圖1所示。
1.1大數據的關鍵技術
1)存儲管理
大數據存儲管理重點解決復雜結構化、半結構化和非結構化大數據管理與處理技術。大數據的可表示、可存儲、可處理及有效傳輸是大數據存儲的關鍵問題等。現采取的主要技術為分布式存儲、超融合、刪重和壓縮、虛擬化Hadoop、創建彈性數據湖、整合分析等技術。HadoopDFS是當前最流行的分布式存儲系統,Ceph和Swift也有一定的用戶群。
2)計算處理
大數據的計算處理是指選擇適當的算法和模型進行快速的數據處理。分布式計算是大數據主流的計算架構,分布式計算框架主流是Hadoop的MapReduce、Storm和Spark。MapReduce是把并行計算、容錯等細節問題封裝到庫里,程序員只需要編寫map和reduce函數就可以。
3)數據分析
大數據處理與應用的關鍵環節是數據分析,分析預測結果的準確性決定了大數據集合的價值。數據分析技術包括分布式統計分析、未知數據的分布式挖掘和深度學習技術。分布式統計分析完成數據初期處理,分布式挖掘用以挖掘大數據集合中的數據相關性,生成對事務的描述模式,預測事務的發展趨勢。深度學習通過海量數據和構建機器學習模型,提升數據分析能力與預測結果的準確性。
1.2 大數據處理過程
大數據是重要的基礎性戰略資源和可參與分配的生產要素,其蘊藏著巨大價值,可廣泛地應用于企業生產、政府管理和社會治理、民生等領域,經過深入挖掘并加以應用,能夠產生難以估量的大價值。大數據處理過程圖2所示。
1.3 大數據技術發展趨勢
大數據技術的主要推動力來源于將原始數據轉化為分析洞察。智能分析、數據科學、數據安全、自助服務將廣泛地應用于各個方面,而人工智能、深度學習、區塊鏈、VR、AR技術的發展,將使大數據的解決方案進入新的階段,摩爾定律的邊界將不斷被延伸。
2 區塊鏈技術架構
區塊鏈是去中心化的分布式賬本數據庫。具有透明可信、防偽造、防篡改、可追溯等特點的數據鏈,它具有去中心化的、集體維護、可編程性、數據可信等特征。被視為下一代全球信用認證和價值互聯網的基礎。從系統架構上看,區塊鏈可分為核心層、服務層和用戶層,如圖3所示。
2.1 區塊鏈的存儲結構
區塊是一塊存儲空間,用以存儲數據。鏈是哈希指針,用來指向前一個區塊位置的指針,同時也是位置數據的哈希值。區塊和區塊鏈構成,如圖4、圖5所示。
2.2 區塊鏈核心技術
1)分布式賬本
區塊鏈上的區塊按時間順序依次排列,區塊鏈網絡中的每個節點都存儲著整個區塊鏈的副本,節點之間共享網絡交易信息。區塊鏈網絡最新增加的區塊,存儲了全網最近交易的記錄,存儲在區塊鏈系統中所有節點共享的信息,稱為分布式賬本。分布式賬本提供區塊鏈分布式數據的存儲機制,通過不同節點對賬本的共同記錄與維護,形成區塊鏈數據的公共管理、防篡改、不需要第三方協調、驗證的可信任機制。
2)對等網絡
對等網絡又稱點對點通信技術(P2P),對等連接的互聯網技術是區塊鏈底層拓撲結構,區塊鏈各個網絡節點使用對等網絡協議,網絡中沒有服務器和客戶機的概念,各結點同級平等,結點之間可高效安全通信、具有點對點通信多播功能及結點信息和狀態的及時獲取。
3)密碼學應用
區塊鏈中使用非對稱加密、安全散列算法等密碼學應用來確保數據安全。非對稱加密算法進行加密和解密時需要兩個密鑰。一個公開的密鑰稱為公鑰,一個私密的密鑰稱為私鑰。如果使用公鑰對數據進行加密,只能使用對應的私鑰才能解密;如果使用私鑰進行數據的簽名,只能使用公鑰才可以驗證(數字簽名),公鑰和私鑰是一對的。
區塊鏈通過哈希算法(SHA256密碼散列函數)對一個交易區塊中的信息進行加密。SHA256密碼散列函數是美國國家安全局設計的一系列密碼散列函數之一,其功能是將任意一串數據輸入到SHA256函數,將得到一個與之相對應的256位Hash值(散列值),輸入相同的數據將得到輸出相同的結果,輸入的數據稍有變化,輸出的結果將千差萬別,變化的結果無法事先預知。正向計算十分容易(由數據計算其對應的Hash值);逆向計算(俗你“破解”)極其困難(由Hash值計算出其對應的數據),在當前的科學技術條件下被認為不可能實現。
4)共識機制
共識機制是區塊鏈系統中實現不同節點之間建立信任、獲取權益的數學算法。
去中心化的點對點通信的區塊鏈網絡,采用共識機制算法來保持整個系統各結節數據的一致性。常用的共識機制算法有工作量證明、權益證明和股份授權證明三種算法。
工作量證明PoW(proof-of-work)是依賴機器進行數學運算來獲取記賬權(挖礦),礦工們爭著計算出區塊的哈希特定唯一值,率先算出區塊唯一哈希的礦工會得到這個區塊的獎勵,多勞多得。
權益證明PoS (Proof-of-Stake) 是根據你持有加密貨幣的數量和時間,誰持幣的數量多、時間長,誰就有更大的機率獲得記賬權。
股份授權證明DPOS( Delegated Proof of Stake)指持幣者投出一定數量代表,代理他們進行驗證和記賬,類似于董事會投票方式。
5)智能合約
智能合約是一套以數字定義的承諾集合,合約參與方可以在上面執行這些承諾協議。一個合約就是一個存儲在區塊鏈里的應用小程序,代碼就是法律,不可以篡改,透明可信,在系統上無須第三方的參與便可由虛擬機自動執行。虛擬機被沙箱封裝起來,完全隔離,提供區塊鏈中智能合約的運行環境。
6)跨鏈技術
跨鏈技術是解決兩個或多個不同鏈上的資產以及功能狀態不能互相傳遞、轉移、交換的問題。跨鏈技術能夠增加區塊鏈的可拓展性,能夠從根本上解決不同公鏈/側鏈之間交易困難產生的“數據孤島”問題。目前主流的跨鏈技術包括Polkadot異構多鏈系統、0x協議跨鏈技術、墨客跨鏈技術等。
3 大數據與區塊鏈主要差異
大數據是數據集足夠大、足夠復雜的數據信息,或很難用傳統方式來處理的數據信息。區塊鏈能夠承載的數據信息是有限的,離大數據標準差得很遠。主要差異如下。
1) 結構化與非結構化
區塊鏈是典型的結構化數據,以結構定義的塊并通過HASH指針組成鏈,而大數據是非結構化數據,需要處理更多的數據信息。
2) 直接與間接
區塊鏈系統本身就是一個數據庫,而大數據的價值就是通過對數據的深度分析和挖掘,獲取數據的相關性,是一種間接數據。
3) 代碼與數據
區塊鏈系統中智能合約就是一個存儲在區塊鏈里的應用小程序,代碼就是法律,不可以篡改,透明可信自動執行;大數據是用海量數據分析和挖掘獲取相關數據,用獲得數據來實現其價值。
4 “區塊鏈+大數據”的融合發展
區塊鏈與大數據作為兩個獨立的技術發展方向在共生發展,一方面,區塊鏈為大數據突破樊籬提供了可能的解決方案;另一方面,日漸成熟的區塊鏈技術也需要大數據這樣的平臺支持。
4.1 將區塊鏈作為單純的技術融入大數采集和共享
利用區塊鏈的分布式存儲技術,提供一種底層技術支持的數據結構和接口,各類應用和相應的操作型數據庫都可以利用其提供的API(應用程序接口)和SDK(開發者工具)將重要信息寫入區塊鏈,并可以從區塊鏈上獲得已有的信息。區塊鏈作為一種分布式存儲的數據結構和接口,可以實現低成本高效能關鍵重要數據的互聯和共享,一定程度上打破數據孤島并形成多方信任的數據鏈條。
4.2 將區塊鏈作為數據源接入大數據分析平臺
區塊鏈技術實現了數據采集、存儲、流通、整理、交易及計算分析的每一步都被記錄留存,使區塊鏈數據具有可追溯性。從區塊鏈上獲取數據作為大數據分析的補充,能夠保證數據分析結果的正確性和數據挖掘的有效性。數據隱私保護一直是大數據發展的一個掣肘,大數據時代所需要的數據互通、數據共享和保護個人隱私之間存在劇烈的沖突,區塊鏈通過數字加密技術能夠只讓那些獲得授權的用戶才能對數據進行訪問,數據統一存儲在去中心化的區塊鏈上,在不訪問原始數據的情況下進行數據分析,即可對數據的私密性進行保護,又可安全地提供社會共享,為大數據的發展提供關鍵性的幫助。
4.3 將數據作為一種資產在區塊鏈網絡中進行交易
將大數據視為一種資產,可以通過區塊鏈技術實現其資產的注冊、確權和交易。區塊鏈平臺可以支持大數據資產的互聯互換參與交易,通過將大數據作為一種資產并和區塊鏈結合,是打破信息孤島的另一種解決方案,引入了市場機制和利益分配機制,將促進大數據的實質性流通和產業化應用。
4.4 區塊鏈和大數據促進社會共治
通過“區塊鏈+大數據”各地方政府可以將與百姓日常生活相關的公共服務流程變得精準、透明、公開和高效。如今大數據能夠處理越來越多的現實預測任務,而區塊鏈技術能夠通過智能合約來自動運行大量的任務,幫助把這些預測落實為行動。未來的社會治理中,地方政府作為供給方,在諸如精準扶貧、公益服務、政府項目管理、社會養老等方面都可以通過區塊鏈作為中介,通過智能合約為標準化的公共產品提供自動流程,達到大大減輕地方政府所需編制,也可以優化和提高社會服務水平。
5 結語
區塊鏈技術和大數據技術是隨著人類社會科技進步發展而來的,大數據的核心技術仍然是統計分析,根據數據的相關性,人類能夠對未來進行精準預測;而區塊鏈的底層邏輯是去中心化、自制、開放、共享和透明,是一種全新的底層協議構建模式,將徹底解決互聯網環境下的信任問題。科技發展的大原則是要更好地服務于社會,“區塊鏈+大數據”技術相結合,將進一步促進社會協同融合,加快數字中國的實現。
參考文獻:
[1] 湯嘯天.加強區塊鏈、大數據分析等科技應用[N].中國社會報,2020-03-30.
[2] 井底望天.區塊鏈與產業創新[M].人民郵電出版社,2018.
[3] 井底望天.區塊鏈與大數據打造智能經濟[M].人民郵電出版社,2017.
[4] 王琪,許云林.中國區塊鏈技術發展及應用研究[J]. 農村經濟與科技,2020(6):357-358.
[5] 云瑤,徐少山.區塊鏈技術概述[J]. 質量與認證,2020(5):56-58.
【通聯編輯:王力】