999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于重塑數據湖的探討

2020-05-20 00:33:24安徽劉揚
網絡安全和信息化 2020年5期

■ 安徽 劉揚

編者按:大數據時代,可以存儲原始的、不受數據類型限制的數據湖被視為信息化建設的技術演進方向。但數據沼澤成為建設數據湖過程中普遍遭遇的難題。如何重塑數據湖、規避數據沼澤成為目前數據湖建設的瓶頸。本文探討了數據沼澤產生的根源,梳理了重塑數據湖的技術路徑,為規避數據沼澤陷阱和建設高質量、高價值的數據湖提供建議。

從信息化建設的實踐來看,數據湖隨著Hadoop等技術的快速普及而被廣泛用于大數據平臺的存儲與使用。盡管目前對數據湖的定義尚有許多分歧,但其核心理念已得到接受,亞馬遜、IBM等科技公司已將數據湖作為向企業級客戶提供的重要產品。

由于數據湖最初的理念在于不對原始數據進行數據治理,通過原始數據提升了數據使用的靈活性和低成本,使得數據湖在建設中始終無法回避一個核心難題——數據沼澤。

一旦進入數據湖的數據完全沒有經過數據治理,那么在使用時,原始數據自身以及在存儲、維護過程中存在的任何缺陷都有可能成為使用障礙,讓用戶在使用時無從下手,從而減少使用,而使用頻率的降低又會使這些缺陷更加難被發現并解決,最終會導致數據湖淪為數據沼澤。但是,如果在進入數據湖時進行數據治理,那么治理成本可能高于經濟效益。同時,也有可能在治理過程中舍棄潛在的經濟效益,難以體現出數據湖有別于數據倉庫的根本價值。

規避數據沼澤陷阱的探索

從規避數據沼澤陷阱的探索來看,主要有三類方向:

一是聚焦簡單關聯關系數據的分析,在單一系統或模塊中構建數據湖。通過人工智能與大數據相結合,直接將結構化、半結構化、非結構化數據一起計算分析。這方面的商業實踐已較成熟。

二是專注存儲與計算方式的技術革新。這類探索順應存儲和計算分離的技術潮流,充分考慮帶寬和內存成本下降速度遠快于存儲成本的現實情況,將原本的集中式存儲改為分布式存儲。

三是加強元數據管理。元數據管理的核心思路是將對原始數據的描述編纂成電子目錄,其技術實質是數據治理的基礎工作。

在實際應用中,第二類與第三類探索通常結合使用,逐步實現數據資產存儲從傳統數據倉庫向數據湖的技術演進。

這些探索在數據湖建設過程中規避了數據沼澤陷阱,但也付出了相應的成本,例如數據湖的數據來源受限、數據存儲的復雜性與脆弱性上升、數據入湖時的數據治理等。

實際上,這些探索的實質是解決數據湖建設中經濟效益顯著或者數據治理成本可控的部分,用確定性收益規避不確定性風險。換言之,沒有觸及到數據沼澤的產生根源。

數據沼澤的產生根源

事實上,與數據倉庫相比,數據湖的最大價值在于入湖數據潛在價值的再發現,最能產出超額收益的部分來源于數據價值發掘過程中的不確定性風險。而數據沼澤的產生根源不在于人工智能等數據價值再發現工具缺乏、數據存儲與計算的能力不足,也不在于元數據管理的水平限制,而在于入湖數據的數據間內在關聯性的缺失,在于業務邏輯無法完整的體現在入湖數據的數據間內在關聯性上。

數據間內在關聯性,總體來說可以分為三類:

一是業務邏輯上數據間本質的映射關系。即如果不同的系統或模塊在同一個業務邏輯上存在上下游關系,那么在該業務邏輯下這些系統或模塊內的數據之間一定存在某種保持不變的特性。(這種映射關系和數據內在的數據映射機制在機理上相通,關于數據內在的數據映射機制可參看筆者拙作《系統通用模塊建設思考》)例如在資金使用的業務邏輯下,財務模塊的支付數據與采購模塊中的合同數據之間的映射關系。

二是系統或模塊間的耦合關系。耦合關系在數據層面主要關系到數據的內在一致性,系統或模塊間的耦合程度一旦達到數據耦合或更高類型,那么在數據湖建設中無需額外考慮其內在一致性。

三是數據間時空一致性。由于數據湖目前普遍采用分布式存儲,不同節點內的數據在同一時點可能存在差異,同時不同系統或模塊的數據采集機制也不盡相同,因此數據間時空一致性涉及到數據的更新機制、同步策略、校驗方法等,并且直接影響到數據進行關聯分析時的可信度、可用性等。

同時,數據湖中業務邏輯直接體現在入湖數據的數據間內在關聯性上,不再需要數據倉庫中業務邏輯到數據邏輯的人工轉換。傳統的數據倉庫是將業務邏輯由人工操作轉換成數據邏輯,即我們通常所使用的ETL等。

這種人工操作主要憑借人對業務邏輯和數據本質的理解,其開發質量取決于用戶需求的表達和開發人員對用戶表述的了解,開發效率直接受到雙方溝通效率的制約。也就是說,一旦入湖數據的數據間內在關聯性無法完整的體現業務邏輯,為了數據可用,勢必要再次處理數據,從而付出高昂的數據治理成本。

圖1 數據湖重塑

重塑數據湖的技術路徑

針對數據沼澤的產生根源,重塑數據湖需要建立通用的技術路徑,對入湖數據進行全面的數據重構。重塑數據湖的技術路徑總體來說如圖1所示。

第一階段,廣泛梳理業務邏輯,通過數據庫切片技術將數據源按業務邏輯進行預切片(即只提取出數據結構、不同屬性項的完整性等關鍵信息,不進行真實切分),確定每一類業務邏輯涉及的上下游系統或模塊。

第二階段,以業務邏輯為出發點,使用數據建模技術對預切片進行數據間映射關系進行分析,看上下游系統或模塊中的數據之間能否以屬性項為中心構建出1對n或者n對1(n為正整數)的映射關系。

第三階段,使用可視化技術逐類梳理數據間映射關系,尋找在各類業務邏輯中可以構成單一方向映射關系的樹狀結構(或者一一映射結構)。

第四階段,回溯該樹狀結構所涉及的數據源,分析其所包含系統或模塊間的耦合關系以及數據間時空一致性,通過關聯數據技術構建支持該業務邏輯的底層數據關聯規則。

總結與展望

本文探討了數據沼澤產生的根源,梳理了重塑數據湖的技術路徑。但是,在重塑數據湖的過程中還可能遇到一些復雜情況,比如說復雜的數據間映射關系(如n對m、非結構化數據間映射關系等)、數據間時空不一致情況下底層數據關聯規則的建立等。對這些復雜情況的處理解決還需要進一步的分析探討。

主站蜘蛛池模板: 精品亚洲国产成人AV| 国产99在线| 精品久久人人爽人人玩人人妻| 日韩免费中文字幕| 亚洲天堂免费观看| 黄色网页在线观看| 久热99这里只有精品视频6| 国产成人精品在线| 国产一区二区三区免费观看| 亚洲αv毛片| 成年人福利视频| 国产精品免费电影| 国产亚洲男人的天堂在线观看| 国外欧美一区另类中文字幕| 亚洲动漫h| 国产美女91呻吟求| 国产综合另类小说色区色噜噜| 国产亚洲第一页| 亚洲天堂网在线观看视频| 综合久久五月天| 欧美专区日韩专区| 日韩精品一区二区三区免费| 91精品啪在线观看国产91九色| 又大又硬又爽免费视频| 国产不卡国语在线| 久久综合亚洲色一区二区三区| 美女无遮挡被啪啪到高潮免费| 成人在线不卡| 91九色最新地址| 免费毛片全部不收费的| 黄色片中文字幕| 亚洲精品天堂自在久久77| 99免费在线观看视频| 久久久波多野结衣av一区二区| 欧美天天干| 国产免费a级片| 青草免费在线观看| 毛片免费高清免费| 免费国产一级 片内射老| 亚洲免费福利视频| 久久精品国产电影| 米奇精品一区二区三区| 天天操精品| 日韩精品少妇无码受不了| 精品国产一区二区三区在线观看| 欧美日韩亚洲国产主播第一区| 不卡国产视频第一页| 在线看片中文字幕| 老司机久久精品视频| 一级毛片免费不卡在线视频| 精品无码一区二区三区电影| 国产精品综合久久久| 午夜福利在线观看成人| 国产经典在线观看一区| a级高清毛片| 国产资源免费观看| 不卡无码h在线观看| 中文国产成人精品久久| 国产日本欧美在线观看| 亚洲精品无码久久久久苍井空| 国产日韩欧美视频| 日韩天堂视频| 亚洲无码日韩一区| 亚洲有码在线播放| 精品三级网站| 国产一级在线观看www色| 成人亚洲视频| 狠狠色香婷婷久久亚洲精品| 91久久偷偷做嫩草影院精品| 久久狠狠色噜噜狠狠狠狠97视色| 天堂在线亚洲| 青青极品在线| 日本不卡在线视频| 2020极品精品国产| 国产网友愉拍精品| 99re精彩视频| 欧美亚洲日韩中文| 国产乱人伦AV在线A| 日韩精品一区二区深田咏美| 国产精品播放| 亚洲人成网线在线播放va| a天堂视频在线|