王新元 張孝臨 祁金才 張鳴洲 關小明
1.遼寧科技大學計算機與軟件工程學院 遼寧 鞍山 114000
2.鞍鋼集團礦業有限公司 遼寧 鞍山 114000
區塊鏈的結構構想早在20世紀90年代就被提出,而到2008年區塊鏈才真正進入了大眾的視線。區塊鏈技術作為一個由多方共同維護、去中心化的分布式賬本技術,核心在于通過對等(peer to peer,P2P)網絡協議、共識算法、非對稱加密、哈希等關鍵技術解決數據傳遞與交換過程中的信任問題。區塊鏈的鏈式結構是一種將數據區塊按時間戳順序相連,進行數據存儲與驗證的一種數據結構,是一種憑借共識算法對數據進行廣播交易,基于密碼學原理保證數據傳輸和訪問的安全性;具備難以篡改性和難以偽造性的分布式賬本技術。其可利用智能合約來編程和操作數據。
數據孤島(通常稱為信息孤島)是只有一組人可以輕松訪問的數據集。這意味著其他人很難獲得這些信息,或者更糟糕的是,他們根本無法訪問它。
當企業發展到一定階段時,會出現多個事業部,每個事業部都有各自數據,事業部之間的數據往往都各自存儲,各自定義。每個事業部的數據就像一個個孤島一樣無法(或者極其困難)和企業內部的其他數據進行連接互動。我們把這樣的情況稱為數據孤島。
簡單說就是數據間缺乏關聯性,數據庫彼此無法兼容。這樣的情況會造成很多的不便。專業人士把數據孤島分為物理性和邏輯性兩種。物理性的數據孤島指的是,數據在不同部門相互獨立存儲,獨立維護,彼此間相互孤立,形成了物理上的孤島。邏輯性的數據孤島指的是,不同部門站在自己的角度對數據進行理解和定義,使得一些相同的數據被賦予了不同的含義,無形中加大了跨部門數據合作的溝通成本。
尤其是我們現在的需求管理現狀:工作量巨大,每次需求管理時都是N對1,統一集中式的管理讓效率變得及其的低下。而且數據需求很難控制,當業務變化時,需求數據需要一改再改。并且數據需求難以責任化,因為需求雙方是非點對點的溝通,還會有同一需求反復提的問題,因為需求清單是不共享的,現有資源價值是很難發揮的,因為現有資源清單沒有前置到需求端。而且需求管理過程不透明,難以監管督辦。
在面對這么多問題時,我們一定要擺脫數據孤島,但同時擺脫數據孤島是十分困難的。擺脫數據孤島如此困難的主要原因通常歸結為:“我們一直都是這樣做的。”當數據孤島成為您組織的常態時,適應一種新的信息共享方式可能具有挑戰性,因為部門可在過去的數年甚至數十年的時間都是這樣單獨訪問數據集的。一些部門還可以將自己視為特定數據集的“看門人”,并且當組織中的其他團隊可以查看和編輯它們時會感到緊張。所以我們一定要解決數據孤島問題。
每個企業的發展情況不同,到底要不要構建數據中臺?我們可以從企業數據應用的成熟度來評估企業要不要構建數據中臺。數據應用能力成熟度可以總結為統計分析、決策支持、數據驅動、運營優化四個階段。以上四個階段數據應用能力成熟度依次增高,數據應用能力成熟度越高,則代表數據對業務的支撐能力越強,應用能力成熟度越低,則意味著業務對數據的依賴程度越低。企業數據應用能力程度越高構建數據中臺越有價值。
不同行業數據中臺需求不同,數據中臺的構建并沒有行業限制,任何行業都可以構建數據中臺,只是不同行業、不同階段的企業所需要的數據應用能力不同,對數據的依賴度也不同。
數據中臺建設是一個持續完善的過程,任何企業構建數據中臺不是一下完成,下面是一些行業所處的階段以及對數據中臺的共性需求。處于數據驅動向運營優化過度階段的訴求是業務強依賴于數據,是數據使用最深的行業,對中臺是真實的強需求。基本都是自己的數倉和垂直數據應用,也有較完善的數據團隊。希望自主可控,對中臺服務商要求較高。處于決策支撐向數據驅動過度階段的像公共安全行業(食品安全、信息安全等)的訴求是業務對數據有強需求,數據中臺、數據治理也都提上日程。對業務的專業性要求高,對中臺服務商資質要求較高。處于統計分析向決策支撐過度階段像零售行業的訴求一般都是多端多渠道,包含門店、app、小程序、服務號、電商等渠道。對多渠道的數據整合運營有強需求,需要數據中臺的能力支撐。大多看重短期收益,不注重建設完整的數據中臺能力。而處于決策支撐向數據驅動過度階段像地產行業的訴求則是業務迫切:市場從黃金期進入白銀期,增量時長有限。有數據整合需求:多業態發展,需要數據整合能力。需要信息化基礎:地產企業信息化基礎一般,需借助外部開發力量。需要業務配合:業務部門強話語權,數據中臺需加強技術部門話語權。處于決策支撐階段像工業制造行業的訴求是,要有數據基礎:物聯網、5G等普及,工業制造數據有了完善采集的基礎。場景清晰:效率提升、工藝優化、質量監督等場景清晰。采集困難:大部分工控軟件不開放數據,且對行業的專業知識要求高。處于決策支撐向數據驅動過度階段像政府這樣的,訴求是數據豐富:掌握最好、最全的數據,智慧城市的推進,帶來更豐富的資源。類目繁雜:來源于各種部門、企業,歷史包袱比較重,冷啟動艱難。項目規模大:一般只有大的中臺服務商才能承建。所以具備以下特點的公司可以加速考慮建立數據中臺:1.企業有一定的信息化基礎,沉淀了數據,實現了業務數據化過程。2.企業業務復雜,有豐富的數據維度和多個業務場景,特別是多業態型集團企業。3.企業有數字化轉型、精細化經營的需求。
其中數據中臺解決數據孤島問題上面主要體現在智慧城市的管理上,截至2020年12月底,合肥智慧城市已累計匯集63個市直部門,96個區縣部門310億條數據,數據范圍覆蓋了政務數據、社會數據、經濟數據,通過大數據平臺,改變了傳統的網狀數據交換模式,全市以統一的政務信息資源目錄為基礎,建立了數據共享交換模式。通過構建企業統一數據資產目錄,提供多種分類方式,匯聚企業數據資產;包含1153個部門能力,199個基礎能力、496個主題能力、21個省部級能力。在數據資產服務提供上基于數據資產目錄進行數據使用申請、審批、授權管理過程,統一數據使用入口;為全市60多個政務部門、400余個業務應用場景提供了超859萬余次的賦能服務。安全方面統一數據授權控制,敏感數據的識別發現及數據脫敏;建立數據追溯體系;同時構建數據標準體系,助力數據交換體系;
一個就是貴州城市智慧中臺他也是構建城市數據中臺體系,通過數據治理能力,建立智慧中臺數據資產目錄,將數據資產統一納入管理,提供數據資產地圖、數據知識庫能力;通過數據標準和稽核檢查能力,推動數據標準化落地,形成統一的數據語言;主要的方法有1.數據資產集中注冊管理,形成智慧中臺數據資產目錄;2.數據地圖的建設,形成數據資產全局視圖,方便掌握數據資產狀況以及資產治理情況;3.數據資產標準的建設,形成統一的數據語言,為共享交互提供支撐;4.數據標準的稽核檢查能力,及時發現不合規的數據,并引導修復;
從以上智慧城市的數據中臺中看到了數據中臺的建立可以解決數據孤島的問題:1)數據孤島是不安全的:許多數據孤島可以在Excel電子表格、Google文檔甚至U盤中找到。這可能不符合公司的數據保護政策,從而增加了數據泄露和信息落入壞人之手的風險2)數據孤島會導致不一致的客戶消息傳遞:如果一個部門擁有一組數據,而另一個部門擁有另一組數據,這可能會導致客戶體驗不穩定和信息混雜,尤其是在我們的需求管理上面3)數據孤島可能會無法追溯到數據的源頭
1.數據供需求雙方依托區塊鏈,憑借數據監管方頒發的可信證書加入數據共享與交易網絡;2.數據提供方發布數據資產目錄上鏈;3.數據消費方從區塊鏈獲取數據提供方發布的數據資產信息;4.數據消費方從目錄選擇需要獲取的數據,發起數據授權請求;5.數據提供方從區塊鏈獲取數據消費方發起的數據授權請求,按照標準規則進行批復,并將批復結果發布到區塊鏈;6.數據需求方拿到批復結果,發起數據訪問請求,數據訪問請求經代理發送到數據提供方的訪問代理,請求認證通過,則可以訪問大數據中心數據;7.數據監管方作為區塊鏈節點加入網絡,同步所有區塊鏈數據塊,對大數據共享與交易進行監管;
場景介紹:數據生產加工和消費使用過程中,接觸的人員多,不乏有人利用職務之便或者保管不善,有意無意將數據泄露[4],通過區塊鏈無痕水印技術,實現泄露數據的反向追溯,發現泄露人員及泄露點,及時進行補救。
當前現狀是數據生產加工參與人多,系統授權粗放,有不授權訪問、非最小化授權模式,沒有數據泄露保障機制,只知道泄露,很難去追溯其中的相關人員有數據運維人員,數據開發人員,數據使用消費人員。在治理動作有兩套方案,第一個是基礎方案包括數據最小化授權使用,數據庫、數據倉庫安全防護和敏感數據加密存儲或者動態化脫敏進行數據提供。還有就是優化方案首先要建立數據安全等級,在數據創建[1]的時候就明確等級及授權范圍,并配合工具,建立安全存儲訪問機制;還有數據平臺出口的安全防護和數據下載限制及多因素驗證,當數據泄露追溯,通過一些手段將特征信息隱藏(數字水印)在下載或者導出的文件中以方便追溯[2];
當前需求管理的痛點頗多,但是通過區塊鏈改造可以打破數據孤島[3],實現業務一網通辦,一窗受理。通過區塊鏈[5]改造方案優勢去中心化,將任何部門能提出并看到所有需求可追溯,版本管理,并可查詢變化軌跡數據共享交換,需求責任方點對點溝通公開透明,需求流轉信息各節點可見數據共享交換,資源和能力清單前置化數據需求運營數據需求運營結果統計分析功能。
要將企業內部各個業務系統的數據實現互聯互通,打破數據孤島,主要通過數據匯聚和交換來實現。企業采集的數據可以是線上數據采集、線下數據采集、互聯網數據采集、內部數據采集等。1.線上數據采集主要載體分為互聯網和移動互聯網兩種,對應有系統平臺、網頁、H5、小程序、App等,可以采用前端或者后端埋點方式采集數據。2.線下數據采集主要是通過硬件來采集,例如:WiFi信號采集、攝像頭、傳感器、信令數據采集、圖像視頻采集等。3.互聯網數據采集就是說的網絡爬蟲,當企業的內部信息不足時,可以考慮利用外部互聯網數據與內部數據進行有效融合,從而讓內部數據在應用上有更多的價值。4.內部數據匯集主要是針對業務庫中的數據通過工具進行匯集。一些公司也會開發自己的數據交換產品來屏蔽底層工具的復雜性,以可視化配置的方式提供給企業用戶。數據開發涉及的產品能力主要包括是三個部分:離線開發、實時開發、算法開發。1.離線開發主要包括離線數據的加工、發布、運維管理,以及數據分析、數據探索、在線查詢和即席分析相關工作。2.實時開發主要涉及數據的實時接入和實時處理。3.算法開發主要提供簡單易用的可視化方式實現數據價值的深度挖掘。針對以上三個部分,構建數據中臺時可以使用原生的技術來實現也可以通過數據開發套件對大數據的存儲和計算能力進行封裝,通過產品化的方式讓用戶更容易的使用大數據。
當企業已經進入了數據管理的高級階段,需要全局的數據治理、數據能力的復用和共享以及云原生架構的支撐。在這個階段需要解決的一個重要問題是如何避免數據孤島和應用孤島。首先必須有全局的數據治理系統來管理所有子系統的數據,確保它們能互聯互通。除了技術方案以外,明確責權利也很重要。出現孤島的原因之一就是各部門的責權利不明晰。在進行全局的數據治理的同時,治理的結果必須能為公司創造價值。構建數據中臺就是一個很好的解決方法,可以有效的解決數據安全,數據溯源,數據重復等問題。