999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據湖技術研究綜述

2023-02-21 02:01:53蔡珉官王朋
計算機應用研究 2023年12期

蔡珉官 王朋

摘 要:傳統存儲技術已經不適合大數據時代的數據分析和應用,數據湖概念的出現有效解決了數據存儲成本高、靈活性低、異構數據多樣化等問題。目前數據湖研究還處于早期階段,缺乏覆蓋數據處理全過程的綜述性研究。為了更全面地了解數據湖技術,調查分析了近幾年數據湖技術的研究成果。首先,梳理了數據湖發展歷程和概念,并與其他類似的概念進行了比較;其次,對數據湖架構進行了調查,并根據架構特征把數據湖關鍵技術分為存儲、數據攝取、數據維護、數據探索、數據治理等部分,分析和討論了關鍵技術的最新研究進展、技術方案、研究缺陷以及今后研究方向;最后,調查了數據湖在各個應用領域的典型應用,為各行業數據湖的實施者提供了參考。

關鍵詞:數據湖;元數據管理;數據組織;數據發現;數據探索

中圖分類號:TP311?? 文獻標志碼:A?? 文章編號:1001-3695(2023)12-002-3529-10

doi:10.19734/j.issn.10013695.2023.05.0173

Survey of data lake technology research

Abstract:Traditional data storage technologies are no longer suitable for data analysis and application in the era of big data.The emergence of the concept of data lake effectively solves the problems of high data storage costs,low flexibility,and heterogeneous data diversification.Currently,the research on data lake is still in the early stage,and there is a lack of comprehensive research and discussion covering the entire process of data processing.In order to understand data lake technology more comprehensively,this paper reviewed the research results of data lake technology in recent years.Firstly,it sorted out the development history and concepts of data lake,and compared them with other similar concepts.Secondly,it investigated the data lake architecture,and divided the key technologies of the data lake into storage,data ingestion,data maintenance,data exploration,and data governance according to the architecture of characteristics.It analyzed and discussed the latest research progress,technical solutions,research deficiencies,and future research directions of key technologies.Finally,it investigated the typical applications of data lake in various application fields,providing references for implementers of data lake in various industries.

Key words:data lake;metadata management;data organization;data discovery;data exploration

云計算、社交媒體、物聯網、短視頻等新一代互聯網技術的飛速發展帶來了數據的爆炸式增長。很多企業和組織經過多年的信息化發展,已經積累了各種類型的海量數據。隨著時間的推移,海量數據的存儲和分析是每個組織所面臨的挑戰,如何有效地處理和分析海量數據是每個組織在數字化轉型過程中需要解決的關鍵問題。

大數據的興起給數據庫研究帶來了許多挑戰。大數據具有數量、多樣性、速度和真實性四個典型特征。針對大數據的這些特征,準確地收集、存儲和處理并提供有價值的信息,是目前大數據存儲技術需要研究的內容。尤其是物聯網、社交網絡、科學研究、音/視頻產生了大量的半結構化/非結構化數據,并且這些復雜多變的數據都是煙筒式的分散數據集。企業和組織需要通過更有效的數據架構來存儲和處理這些雜亂的數據,以及采用更靈活的方法進行數據分析。

雖然很多企業和組織還在通過傳統的數據集和數據倉庫進行數據處理和分析,但在大數據時代擅長處理結構化數據的數據倉庫已經不能滿足復雜數據分析的需求。靈活性不高、存儲成本高以及不善于處理多類型數據,這三點是傳統數據存儲技術所面臨的最大挑戰。

為了實現對這些復雜數據全面、靈活的分析,近年來出現了數據湖的概念。數據湖是以原始數據格式存儲各種來源數據,簡化和改進大數據存儲、管理和分析的一種技術[1]。數據湖的優點[2,3]引起了大數據領域的商業技術專家和學術研究者的廣泛關注,而近幾年對數據湖相關的研究也得到了飛速發展。迄今為止,已經提出了多種數據湖解決方案和系統架構,但是由于數據湖概念的發展還處于早期階段,很多研究和方案都是針對特殊的應用領域。而數據湖關鍵技術方面的研究也集中在架構和元數據管理等部分領域[4],缺乏數據處理全過程中各階段詳細技術分析和討論。尤其是在國內數據湖概念比較陌生,很多組織和企業對數據湖的概念還沒有充分的認識,而國內的學術領域對數據湖相關的技術研究非常有限,很多學者還沒有對數據湖和大數據技術平臺相關的概念進行系統地比較和解析。

本文作為數據湖技術的研究綜述,主要貢獻包括:a)為國內的數據湖實施者提供了目前最先進的技術和參考方案;b)為數據湖研究者提供了比較全面的數據湖概念和技術介紹,為后續的數據湖研究者提供了參考;c)介紹了數據湖的一些典型應用,為行業領域的數據湖應用提供了參考。

1 數據湖發展歷程

在谷歌學術搜索引擎上以“data lake”為關鍵詞搜索每年的文章數量,得出了圖1所示的統計圖。從圖中可以看到2014年之前,數據湖仍處于萌芽階段,文章數量在低位緩慢增長;2015—2017年,數據湖概念開始被業內熟知,并開始積累相關技術,對應論文數量有了明顯的增加趨勢;2018—2022年,數據湖技術得到了蓬勃發展,相關文章和論文數據量迅速增加。根據以上分析數據,數據湖發展可以分為萌芽期、技術積累期和快速發展期三個階段。

1.1 萌芽期

此階段,數據湖主要在商業界經歷了“提出—炒作—批評—改進”等發展過程。數據湖的概念最早在商業界以大數據平臺的解決方案提出。2010年,pentaho首席技術官Dixon[5]首次提出了這個方案,嘗試解決傳統數據集市只能處理預定義問題的缺陷和數據被聚集后丟失數據最低級別可見度的問題。其利用Hadoop優化了存儲在“湖中”數據的組織方式,讓用戶在數據湖中提取自己解決問題時需要的數據塊。經過一年多的發展,商業界高管們開始注意到數據湖概念,CITO Research公司的Woods[6]呼吁積極采用數據湖架構作為處理大數據的新架構和新方法,并提出了具體的解決問題的思路和工具,但這些工具和方法還沒有形成體系,沒有提出完善的整體架構方法。

2013年,文獻[7]為了解決傳統數據倉庫所面臨的問題,提出了業務數據湖架構,該架構采用了分層設計,包括數據接收層、數據處理層、數據洞察層、數據行為層等。該架構嘗試以數據湖的思想解決數據集成和分析數據的即時訪問問題,同時還給出了相應的工具,但這些工具只是該公司的技術方案,并沒有給出具體的數據治理內容。

2014年,商業領域普遍接收數據湖,以數據湖作為數據中心,提高可擴展性和靈活性的基礎上以業務與數據緊密結合,開發基于業務的數據應用[8]。很多大數據供應商開始炒作數據湖概念,于是Gartner公司為了大數據市場的健康發展提出了對數據湖的批評和質疑[9]。其中提出了“數據沼澤”的問題,即如果沒有元數據管理,數據湖里的數據是無法使用的數據,同時也指出需要進行數據治理的必要性。Gartner公司的觀點指明了其后幾年數據湖技術發展的方向。

普華永道將數據湖應用到企業數據集成方案,認為低成本存儲、靈活的數據模式以及數據的方便獲取程度是大數據時代數據集成需要考慮的內容[10]。而IBM公司把數據治理和數據管理納入到數據湖,提出了面向業務主題的大數據分析方案[11]。另外,學術界也開始關注數據湖,并提出建議通過AI和眾包來克服數據湖在數據集成、訪問和數據質量等方面所面臨的挑戰[12]。

1.2 技術積累期

2015—2017年為數據湖技術積累期,在這個階段數據湖在商業界和學術界得到了更多的認可,豐富了技術方面的積累。

2015年,IBM的Terrizzano等人[13]在數據爭論中提到當前數據湖實施過程中的種種挑戰,分別在數據采集、數據梳理、數據供應、數據保障等方面所碰到的問題進行了詳細的討論。該技術文檔是蓋特納公司提出數據湖質疑之后,首次全方位闡述了數據湖所面臨的挑戰,并指明了今后需解決的問題方向。

2015年,作為國內學者,Huang等人[14,15]發表了大數據時代的數據湖管理,數據湖在學術界開始得到廣泛的關注,同時期數據湖應用方面的研究也開始出現[16,17],這期間數據湖相關的專業圖書也陸續出版[18,19]。同時許多IT商業巨頭紛紛推出自己的數據湖產品,如谷歌的goods system、微軟的Azure Data Lake Store、SAP的Vora等。

這期間,數據湖的研究主要集中在概念定義方面,數據湖架構研究擴展得非常有限,主要的研究重點還是圍繞著元數據管理。而且數據湖的應用研究數量也是非常有限,數據湖的用途都停留在大數據存儲的方面,沒有達到更深層次的應用高度。

1.3 快速增長期

2018年至今,數據湖在商業界和學術界得到了蓬勃發展。這一期間數據湖在架構、概念、應用、治理等方面都得到了豐富的補充。

首先許多IT大廠商都提出了自己的數據湖解決方案,國外有亞馬遜、微軟、谷歌,國內有阿里、華為、騰訊、星環等,在數據湖的各個組成部分都可以提供成熟的方法和工具。

與此同時,學術界對數據湖的原型實現相關的研究也得到了廣泛的關注,包括元數據管理、數據質量、數據來源、數據準備、數據集組織、數據集成、數據發現等。也可以看到這一時期出現了大量的數據湖應用研究,這些應用領域包括醫療、電力、智慧城市、教育、通信等各個方面,為大數據平臺在各領域的深度融合起到了非常關鍵的作用。這個階段國內研究者也開始關注數據湖技術,研究領域涉及到數據湖架構[20]和安全技術[21,22]。

經過近幾年的快速發展,再加上數據湖在產業界和學術界不斷突破,給企業和組織的數據湖落地提供更加豐富的解決方案和建議。但是,數據湖的概念目前還處于早起階段,其架構還沒有形成行業標準,技術細節方面需要解決的難題層出不窮,解決方案過度依賴機器學習等問題需要解決。

2 數據湖概念梳理

2.1 數據湖定義

回顧數據湖相關文獻,學者們對于數據湖的定義給出了自己的見解,但到目前為止其定義范圍非常模糊,沒有明確的定義。文獻[13]認為數據湖是基于低成本的存儲海量數據的方法;文獻[15]提到數據湖是現有數據架構的發展產物;文獻[23]認為數據湖是一個數據呼吸系統;文獻[24]提出數據湖是一種靈活、可擴展的數據存儲和管理系統;文獻[4]把數據湖定義為一種可擴展的數據存儲和分析系統。

從上面的定義中可以看到數據湖的概念還沒有明確,學者們根據自身的理解和研究角度把數據湖的一些特點進行了概述。本文認為,數據湖無疑是應對大數據挑戰的一種解決方案,它能夠更廉價、更靈活、更安全地處理各種來源的原始數據,為大數據分析提供有力的支撐。

2.2 數據湖與其他概念的比較

2.2.1 數據湖和數據倉庫

數據倉庫概念最早由IBM公司提出,根據Inmon的定義,數據倉庫是支持管理決策的、面向主題的、非易失的、集成的、時時變化的數據集合[25]。數據湖概念的出現,很多人聯想到數據倉庫,有些人甚至認為數據湖就是大數據時代的數據倉庫。因為兩者都集中存儲不同來源數據,為組織的數據集成提供了重要依據;同時兩者都為組織提供了數據分析、挖掘和決策方面的數據管理和處理平臺。但兩個概念產生的背景和時間有巨大差異,更重要的是兩者在數據處理思想上存在著巨大的不同。表1匯總了數據倉庫和數據湖之間的比較。

兩者之間的主要區別之一是數據獲取方式不同。數據倉庫以處理過的數據和過濾過的數據為獲取對象,而數據湖是以原始或未處理過的數據為獲取對象。具體來說,數據在放入倉庫之前被處理(通過ETL過程),而放入數據湖的數據是不經過數據處理的原始數據。數據倉庫中的數據是清理后的數據,可以直接執行分析,即寫模式。相反,在數據湖中采用了讀模式,數據是根據需要選擇性地組織和分析,能夠更加靈活地處理數據。

另一個關鍵區別是使用的主題或目標。數據倉庫所獲取到的數據通常用于特定主題,因此不會浪費存儲空間,對數據分析者的專業知識要求不高。相反,數據湖中使用目的預先沒有確定,可用于今后任何分析目的,分析者要熟知大量未處理過的數據,需特定技能的數據科學家。

數據存儲庫的可訪問性或易用性是區分數據倉庫和數據湖的另一個方面。由于數據倉庫的結構比較固定,調整數據結構的成本非常高,相反,數據湖是沒有固定數據結構,所以具有很高的靈活性。

從表1的對比中可以看出,數據湖技術彌補了大數據時代傳統數據倉庫面臨的問題,尤其是在廉價存儲成本、架構可擴展性、數據訪問靈活性等方面,數據湖是不可或缺的技術方案。

2.2.2 數據中臺和數據湖

中臺的概念最早是由阿里巴巴集團提出的,是企業內部共享業務思想的產物,而中臺又分為業務中臺、數據中臺、技術中臺。其中數據中臺(data platform) 以數據為中心,在數據集成(特別是語義集成) 的基礎上以服務的方式提供數據的全生命周期管理,為業務構建提供便利,實現數據對于應用業務的價值[26],其本質就是數據平臺。

數據中臺和數據湖都是企業應對內外部大數據生態挑戰的數據架構方案,兩個概念的核心中都包括數據統一集成、開放數據能力以及靈活數據訪問等特點。

雖然兩個概念都產生在大數據時代,但針對解決的問題范圍不同。數據湖強調的是應對大數據挑戰的數據存儲和治理方案,而數據中臺是一種全局的數據解決方案。數據中臺是數據湖概念的超集,數據中臺除了包含數據湖概念特性之外,還需要滿足更多的系統功能,包括數據資產管理、治理機制、數據安全、數據能力共享等。兩者解決的問題背景是不同的。數據湖概念的出現帶來了數據存儲和探索方式轉變,有效應對了大數據帶來的技術挑戰,而數據中臺則解決了企業大數據平臺實施層面的問題,其關注的問題是如何更好地發掘數據價值,屬于企業信息管理的范疇。

國內很多數據廠商和企事業單位在數字化轉型方案中都引入了數據中臺概念,可見數據中臺概念在國內已經覆蓋了數據湖的概念。數據中臺概念目前更多應用在商業領域,在學術領域中仍沒有受到足夠重視。相比之下,數據湖概念在國外的學術領域中發展得非常迅速,并已經形成了一定的學術體系。從第1章所述的發展歷程可以看出,盡管數據湖仍處在發展的初期階段,但在業內和學術領域已經形成了共識,是今后大數據技術研究過程中不能忽視的重要內容。

3 數據湖架構

數據湖架構主要描述了各組件以及組件之間的關系,說明了數據的存儲、處理和訪問過程。數據湖架構研究最初主要涉及到數據的劃分、管理和使用方式。隨著研究的進展,數據湖的架構包含了更深層次的關鍵技術和方案。

3.1 分區架構

在最初的數據湖架構設計中,數據預處理起著非常重要的作用,其中最主要的架構是池架構和分區架構[27]。

池架構是Inmon[28]設計的數據湖架構,把數據根據不同的特征劃分到原始數據池、模擬數據池、應用數據池、文本數據池和歸檔數據池五個數據池中。在池架構中不同池中所存儲的數據,同時只能使用一個池的數據。池架構的最大缺陷是沒有保留數據原始格式形態,這違背了數據湖的思想。

相反,分區架構在保留數據的原始格式方面做了很多處理。分區架構中比較有代表性的是數據管理廠商Zaloni[19]提出的架構,在架構中根據數據處理程度劃分了臨時加載區、原始數據區、精煉數據區、可信任數據區、數據探索區、數據消費區。當然,分區架構中的分區名稱和數量是不固定的,很多分區架構都有各自的分區解決方案[27],但也有共同點,就是都按照數據的處理程度來劃分分區,也可以根據自己的需求同時調用不同分區中的數據。

一些研究者基于分區架構開發了特殊的架構方案,文獻[27]把Lambda架構的批處理和數據流處理特點結合到分區架構,滿足數據湖用戶的及時訪問需求。文獻[24]的分區架構中引入了工作流,不同分區之間的數據處理實現了自動化操作。

分區架構在數據湖中的數據預處理方面提供了很多方法和建議,但分區架構無法覆蓋數據湖所涉及的全部范圍,最近的分區架構中引入了很多技術架構因素[4],可以看出數據湖架構已經開始演變為更加全面的技術架構。

3.2 數據湖技術架構

數據湖技術架構能夠更加深入地描述數據湖中技術組件之間的關系,IT廠商和研究者已經提出了各種數據湖架構[24,29~32],這些架構的共同點是通過對數據處理的不同階段進行分類,劃分了架構組件,即分為數據采集、數據存儲、數據維護(處理)、數據探索等。隨著數據湖技術架構的不斷完善,架構中增加了數據治理相關組件[33],包括數據安全、質量管理等。

從研究者提出的數據湖技術架構中可以看出,數據湖的技術架構在數據處理階段和數據治理方面豐富了許多架構內容。但其發展仍處于早期階段,離成熟的架構標準還有很長的路要走。主要問題是其主要架構邏輯依然借鑒了分區架構的數據預處理過程,缺乏數據治理相關的組件等。

本文根據文獻[24,33]技術架構重新設計了全面數據數據湖技術架構,如圖2所示。本文根據這個數據湖技術架構,再結合至今為止研究者在數據湖領域的關鍵技術關注度,把數據湖關鍵技術劃分為數據存儲、元數據管理、數據維護、數據探索和數據治理五大領域。下一節將詳細地討論目前最先進的數據湖關鍵技術和方案。

4 數據湖關鍵技術

數據湖發展到現在面臨著各種技術挑戰,各種技術難題需要不斷地完善和解決。如今數據湖是大數據技術研究的一種范式,研究者通過該范式解決大數據技術碰到的各種挑戰。這些關鍵技術的突破不斷完善大數據技術,同時也不斷豐富數據湖技術,其中,這些先進的技術和方案起到了關鍵作用。

4.1 數據存儲

數據存儲問題一直是數據湖概念中最重要的問題也是最基本的問題。在數據湖環境中,存儲系統的選擇關系到存儲成本、可擴展性和安全性,甚至影響到數據訪問的有效性和靈活性。數據存儲在數據湖架構中扮演著底層基礎設施角色,影響著整個數據處理過程。

廉價方式存儲各種類型原始數據是很多數據湖實施者關注的問題。在數據湖存儲系統中使用最廣泛的是Hadoop的分布式文件存儲系統HDFS[10],HDFS以廉價的方式存儲很多類型的數據,包括半結構化(例如CSV、XML、JSON)和非結構化(例如圖和視頻)數據[24]。

存儲方式方面,數據湖可以采用單一存儲系統,也可以采用多存儲系統[30,33]。單存儲系統只支持一種類型的數據庫,例如CLAMS存儲系統[34]、personal data lake[16]都屬于單一存儲系統。而多存儲系統集成了訪問各種異構數據的多個數據存儲配置。例如,Constance[29]系統和SQRE[35]架構都采用了包含關系、文檔、圖形等類型的多存儲數據庫系統來存儲獲取到的原始數據。多存儲系統是數據湖存儲海量異構數據的必然結果。

數據湖存儲的另一種發展特點是混合使用關系型和NoSQL存儲,這種存儲方式有效提升了關系型數據庫在大數據分析中的價值,例如谷歌數據湖的Dataset Search[36]、CoreDB[37]、CoreKG[38]等產品和架構系統。微軟的Azure數據湖存儲系統(ADLS)[39]是對關系數據庫和分布式存儲技術(HDFS)深度集成的云存儲服務。ADLS采用了分層存儲結構,通過跨存儲層訪問方式實現了成本和性能之間的最佳權衡,并且提升了安全性。

云存儲是數據湖存儲的一個重要的發展趨勢[40],尤其是一些商業數據湖都是建立在云存儲,包括AWS、ADLS、阿里云存儲、騰訊云存儲等。相比于本地環境,數據湖的廉價存儲、多用戶、可擴展等特點在云環境中發揮的優勢更加明顯。

根據現有文獻的調查發現,云端存儲異構類型數據的多存儲系統是數據湖存儲技術發展的必然趨勢。雖然文獻[41]研究了大數據相關的多模型數據存儲技術,但是在基于數據湖的多存儲機制優化問題上,研究者們的討論相對較少,是今后需要進一步完善的研究內容。

4.2 數據攝取

數據攝取旨在將各種異構數據源的數據移入到數據湖的過程。大數據行業已經提供了非常豐富的數據攝取工具,數據湖中可以采用這些工具來實現數據攝取階段的工作。

數據攝入不是簡單的數據復制和粘貼,它是一個復雜而重要的階段,必須確保攝入的數據在任何時候都可查找、可訪問、可互操作和可重復使用。這個過程中最主要任務是維護所攝取數據的元數據結構,防止數據入湖過程中變成不可使用數據。

4.2.1 元數據獲取

提取元數據是數據攝入階段主要面臨的挑戰,為了適應異構數據源的不確定性,采用靈活、可擴展的元數據結構是非常必要。GEMMS[42]是一個靈活可擴展的數據湖元數據管理系統,該系統可以從異構數據源中提取元數據,并將元數據存儲在一個可擴展的元模型中。該框架首先通過鍵值對方式存儲元數據屬性,再通過結構元數據識別原始數據結構(例如矩陣、樹、圖形等),最后以附加語義數據方式連接到語義模型。

Constance[29]系統是一個智能數據湖系統,在數據攝取階段為了提取盡可能多的元數據,系統中使用了結構元數據發現(SMD)組件,但該組件主要解決了半結構化數據源的元數據結構提煉問題。而Sawadogo等人[43]提出了在數據湖中提取文本文檔元數據結構的方法,彌補了非結構化數據中提取元數據的問題。Datamaran[44]是一個適合數據湖環境中轉換復雜日志文件的算法,該算法以無監督方式在半結構化日志數據中自動提取元數據結構。Datamaran算法解決了數據邊界確定、數據字段確定、復雜結構、冗余結構以及語義結構等問題。

數據攝入階段所獲取的元數據通過各種模型進行管理,4.2.2節中將詳細討論元數據管理相關的技術。

4.2.2 元數據建模

自從Gartner公司提出數據沼澤問題以后,很多研究者都設法通過元數據管理來解決該問題,元數據被認為是描述和指引數據湖海量數據的關鍵[4]。元數據管理涉及到數據來源管理、數據攝入過程、數據準確性、數據安全性、數據集關聯性等方面[45],而元數據建模技術是元數據管理的主要內容[42,43]。

數據湖元數據模型的研究成果非常豐富,已經出現了很多元數據模型。為了展示所獲取的元數據,Constance系統[29]采用圖形建模技術的語義元數據匹配(SMM)組件,這個組件包括語義建模、屬性注釋、連鎖記錄、語義豐富等功能。

實現通用元數據模型的一個重要挑戰是識別各種類型的元數據,MEDAL模型[46]中元數據類型被劃分為對象內(intraobject)、對象間(interobject)、全局(global)元數據,詳細解釋語義數據、數據版本、數據的血緣關系、相似性等關鍵屬性。而Diamantini等人[47]把元數據分為參考業務元數據、操作元數據、技術元數據,并基于網絡和語義驅動建模方法增強了元數據表現形式。

除此之外,元數據通用模型還有HANDLE模型[48]和goldMEDAL模型[49],是現階段比較完善的元數據模型。

數據湖元數據模型的設計關系到數據湖整個數據生命周期過程,每個階段的元數據都有該階段的特點和作用。本文基于文獻[48,49]確定語義豐富、多態性、數據版本、使用跟蹤、分類法、相似性連接、元數據屬性和多粒度級別八個比較項,并根據八個比較項對現有七個模型進行了比較,如表2所示。

通過比較可以發現,元數據模型在整個數據生命周期過程中都發揮著重要的作用。在數據湖研究領域,元數據技術無疑是占據著非常重要的地位,而數據攝入過程是元數據技術開始發揮重要作用的階段。從元數據模型的發展趨勢中可以看出,數據湖的各個數據處理階段對元數據的依賴越來越大。大數據攝入階段,商業界和學術界已經提供了許多豐富的技術和工具[52],數據湖研究者不能僅僅依賴于元數據技術,應該多參考和借鑒大數據攝取技術和工具[53],研究適合數據湖環境的數據攝取技術和方案。

4.3 數據維護

攝入到數據湖的數據十分龐大且復雜,為了達到數據分析目的,把這些海量原始數據進行有效的維護是非常必要。數據維護階段的任務包括準備數據、發現相關數據集、數據集成、清洗數據等。本文把數據準備、發現、集成、清洗等問題歸結為數據組織問題,將在4.3.1節中討論相關的關鍵技術,在4.3.2節中更深入地討論數據相關性發現技術。

4.3.1 數據組織

海量大數據組織面臨著許多挑戰,包括人工干預的有限性、數據處理的效率、相關數據發現以及異構數據轉換等。數據組織效果直接決定著數據的使用和分析,是數據湖中關鍵的數據處理環節之一。數據組織問題在大數據技術研究領域中屬于最活躍的研究范圍,也是很多研究者感興趣的數據湖關鍵技術。

在數據湖環境中人工方式組織數據已經變得不太可能,所以數據組織首先需要解決的問題是自動化。Kayak[54]是一個幫助數據科學家定義和優化數據準備管道的框架,在該系統中數據使用者可以根據需求自定義數據發現管道。該系統通常提供一個近似結果來提高管道的執行效率,通過快速預覽原始結果的方式縮短數據準備時間。但也有學者提出了數據組織過程中人工干預的必要性,Brackenbury等人[55]通過實驗證明了人工干預在數據發現過程中的重要性。

元數據管理在數據維護過程中也扮演著重要的角色。GOODS[36]是為了組織谷歌數據湖中的數據集而設計的系統。GOODS在數據管道創建、訪問、更新數據集的過程中收集相關數據集的元數據,并通過該元數據目錄管理和組織數據集。Alserafi等人[56]在數據湖中關注重復數據集、相關數據集(即數據集之間的“可接合”數據屬性)和不相關數據集,通過端到端的內容元數據管理流程,為數據組織提供了系統化方法。

數據發現是數據組織過程中研究者最關注的領域之一,也是很多數據科學家比較關心的問題。相似性是數據發現技術中最重要的領域,Brackenbury等人[55]以數據本質、起源、當前特征等維度提出了相似性比較框架,為數據相似性發現提供了研究基礎。為了使非IT專家也可以根據需求發現數據, BARENTS[57]中通過本體方法在數據湖中創建了數據準備分區,該分區中用戶可以根據需求定制數據準備過程。Nargesian等人[58]為了提高相關性數據集發現效率,提出了Markov導航模型,該模型能夠計算發現感興趣主題相關表的概率。機器學習在數據關聯性發現中也起到關鍵作用,DLN [59]是一個建立并使用關聯模型來構建Cosmos(微軟數據湖)數據圖的系統,該模型通過機器學習訓練相關數據列特性,再結合元數據特性建立相關性模型。

從數據湖的非結構化數據中提取主題視圖是目前面臨的又一個重要挑戰,Diannantini等人[60]通過非結構化數據轉換為結構化數據的方式解決了該問題。首先,在Zaloni元數據[61]概念基礎上結合社會網絡和語義技術統一表示了結構化、半結構化、非結構化數據,然后利用圖的表示方式提取了主題視圖。

數據湖中長期積累的數據語義隨著時間的推移不斷變化,再加上數據格式的異構性和龐大的數據收集量,如果沒有靈活多變的模式管理,很難從數據湖中提取價值。Klettke等人[62]把數據湖中靈活多變的模式問題歸結為模式演化過程,在數據湖中提取模式版本序列,并建立模式版本之間的映射關系,解決恢復模式演化的歷史。

回顧數據組織技術相關文獻可以發現,數據湖環境中非常重視自動化技術[44,54,56]和元數據技術[36,56,58,60],尤其是元數據管理技術在數據組織中扮演著非常關鍵的角色。數據組織問題中前期的數據相關性發現技術、基于主題的數據導航技術是目前研究的熱點,而語義、本體、機器學習以及圖譜等技術起到了關鍵作用。目前,數據湖的數據組織研究范圍比雜亂,包括數據管道、數據清洗、數據相關性、數據模式演化,而且很多研究者把數據組織和數據探索結合到一起研究。可以發現,研究者對數據湖中數據處理階段的劃分還不夠明確,也從另一個角度證明了分析需求直接驅動數據維護的數據湖特點。

4.3.2 關聯表格數據集發現

已經裝載海量數據的數據湖中,集成或者查詢數據湖中的所有數據是沒有意義且沒有必要的。相反,有效、準確地發現當前主題相關的數據是很多數據湖使用者關注的焦點。關聯數據集發現技術解決了使用者花費大量時間發現數據的問題,是解決大數據集成問題的重要內容。數據集發現技術的很多研究工作集中在表格數據,因為表格數據是目前企業內部數據集的主要存在方式,包括網絡表格、電子表格、CSV文件和關系數據庫等。

為了快速發現關聯表格數據,利用企業知識圖(EKG)中捕獲數據集之間的關系,幫助用戶在不同的數據資源之間指引。AURUM[63]是基于企業知識圖(EKG)實現的數據集發現系統,EKG通過兩步驟算法解決了在數據湖中海量數據匹配的性能問題。為了分析者更容易找到相關的、屬于同一個主題的數據集,KNN[64]檢測覆蓋相關分析主題的相似數據集分組和底層結構,將數據湖中的數據集預先定義為感興趣的主題類別。文獻[65]延伸了DSProx技術[64],提出了屬性級近似度度量,以找到最合適的度量來分配數據集對之間的相似性。JOSIE[66]采用topk重疊集相似度搜索算法,數據集粒度可擴展到大集合和大字典大小,也屬于關聯表搜索問題的解決方案。JOSIE同時還具備了數據分布的自適應能力,可以在不同的數據湖中執行數據發現任務。Juneau[67]是一種能夠度量數據表相關性的框架,該框架通過行和列的重疊、來源關系、相似度等度量來返回最相關的數據表。Starmie[68]是數據湖中表數據關聯搜索框架,該框架通過對比學習方法把多個預先訓練的表格列編碼進行比對,捕獲表格數據中豐富的語義信息,在搜索效率和匹配度方面有顯著提升。基于文獻[24]整理比較了數據湖中相關表格數據發現技術,如表4所示。

基于重疊度量的相關數據集發現技術無法適應數據湖環境中無模式和異構數據引起的表格數據表述和語義不相同的問題。Dong等人[70] 在PEXESO框架中基于樞軸過濾的塊驗證方法找到語義不相同關聯表的相似性問題,但該方法只局限于查詢記錄嵌入為高維向量和基于相似謂詞連接的方向條件。除此之外,PEXESO框架中通過一種分區技術來解決數據湖中數據較大且無法裝入主存的問題。Helal[71]提出了基于知識圖譜的數據集發現平臺,該平臺把無模式數據集變成有模式數據集,通過可擴展和可查詢的知識圖來解決相關表格數據發現問題。

表格關聯數據發現技術的研究比較豐富,從前期的列表重疊技術發現相關性到基于元數據、高緯度、知識圖譜、機器學習等相關性發現,不僅在相似性發現的效果上得到了很大的提升,而且解決了數據湖環境下異構數據靈活多變的問題。但是表格數據關聯性的現有文獻中,針對數據靈活多變問題的研究還是不夠充分,尤其是這個問題上的評估和實驗非常有限,需要研究者進一步深入分析和探討。

4.4 數據探索

數據異構性特點決定了數據湖中獲取數據價值的難度,主要問題體現在多種數據模型查詢、模式不確定關鍵字搜索、數據訪問有效性以及個性化數據探索等方面。數據探索技術的先進程度不僅影響著用戶的數據使用體驗,而且直接影響著數據分析質量。

數據湖環境中針對表格數據的探索,主要方法可以歸結為查詢驅動的數據發現方法(querydriven data discovery)[72],該方法的核心是相似性查詢。該部分研究綜述已經在4.3.2節中進行了討論,在這里不再贅述。

與表格數據關聯性查詢不同,異構數據查詢需要處理各種不同類型數據源,并提供一種統一查詢方法。Constance[29]架構在數據探索中采用了查詢重寫方法,但目前只支持半結構化數據查詢。文獻[35]也提出了一種查詢重寫引擎,該引擎將基于聲明式映射的數據集成邏輯方法與可擴展的大數據查詢處理系統(即Apache Spark)相結合,不僅有效地執行已重寫的查詢,而且將查詢結果協調到一個集成數據集中。

數據探索中關鍵字搜索是普遍采用的方法,但傳統關鍵字搜索僅限于特定數據模型,不適應數據湖環境。Yuan等人[73]提出了在數據湖異構數據中搜索關鍵字的統一框架,將查詢語義內容以樹型方式表述,解決了模式不確定數據的關鍵字搜索問題。而關鍵字搜索和導航技術之間的結合提升了用戶探索的效率,RONIN[74]把數據集搜索和層次結構導航集成在一起,使用戶在不知道導航起點的情況下也可以搜索到相關數據集。

語義Web技術通過知識表示模型和基于本體的映射方法,在數據探索互操作性和有效性方面起到了非常重要的作用。Garda[75]提出了一種Web語義方法,適合于數據探索服務和個性化探索體驗,該方法中利用語義信息(也稱為語義元數據)調解數據探索過程,建模探索過程中用戶所需要的知識。

Web語義與數據湖的結合產生了語義數據湖概念[76],其核心是為數據集配備詞匯表、本體、知識圖映射,用作底層數據的語義訪問層[77]。Squerall[78]是一個建立在本體數據訪問(OBDA)原則之上的語義數據湖實現框架,可以使用一種獨特的查詢語言(SPARQL),查詢不同的異構源。Ontario[79]是針對語義數據湖環境的異構數據源之間高效互操作的查詢引擎,數據源選擇、復雜查詢分解、查詢規劃是該引擎特有的處理方法。Diamantini等人[80]提出了一種基于知識方法的語義數據湖,能夠支持數據源的高效集成,并將其對齊到表示感興趣的指標、數學公式和分析維度的知識圖。

通常領域專家了解數據湖中的相關領域數據,但是定義探索指標的是數據分析師。為了使領域專家以個性化方式探索數據,Bagozi等人[81]在語義數據湖上建立適當的概念化查詢指標,通過該查詢指標來實現個性化數據探索,該框架分語義建模層、基于查詢指標的語義表示探索層和個性化探索圖選擇層三層實現。Bianchini等人[82]在文獻[81]基礎上,在數據探索中引入用戶偏好和語境偏好函數,增強了個性化數據探索能力。

數據湖中數據探索研究集中在查詢技術的改進和完善。針對表格數據集的查詢驅動技術以及針對異構數據集的查詢重寫和搜索技術是應對數據探索需求的關鍵技術。Web語義、本體論、知識圖譜等底層技術的運用有效改進了數據探索效果。基于Web語義技術的語義數據湖概念(雖然還處于早期階段)得到了該研究方向的共鳴。滿足最終數據使用者和分析者的個性化需求是研究者關心的另一個重要問題,但該方面的研究還停留在探索需求指標層面,需要進一步探究。

4.5 數據治理

數據湖治理通過策略和標準等管理手段實施異構數據源的轉換和分析,以確保高效、安全地使用數據,并獲取可靠的分析結果[83]。數據治理本身包括很多管理內容,本文不擴展管理方面的技能,集中討論數據治理中的一些技術問題。元數據管理也是數據湖治理的重要內容,但在4.2節中已經討論了該技術,在這一節中介紹數據追溯和數據安全。

4.5.1 數據追溯(data provenance)

通過不同階段的加工和處理,數據湖中的數據項可能存在于其生命周期的不同階段,導致數據的來源關系變得非常復雜,需要一種追溯機制來進行管理和記錄,通過這個過程可以管理數據來源和數據血緣關系。這種來源信息告訴人們如何獲取數據集,并幫助人們正確地訪問數據集。

數據湖通常攝入各種不同來源的異構數據,而管理這些不同來源的數據軌跡是一個難題。Suriarachchi等人[84]提出了在數據湖環境中可以追溯數據源的參考架構,該架構能夠捕獲異構數據集的來源事件信息。然而,大數據追溯面臨著數據量大、開銷大、難以存儲分布式來源數據、忽視數據源頭應用等挑戰[85]。文獻[86]為了彌補這些問題提出并行流處理算法,該算法使用有狀態的單次并行流處理,降低來自異構數據集成的信息流,同時保留了向后和向前的信息流。

4.5.2 數據安全

大數據在安全方面的挑戰前所未有,需要解決的問題非常復雜[87],目前所提出的一些技術和方法還尚未成熟,仍然存在進一步研究的空間。到目前為止數據湖環境中對安全技術相關的討論很稀少,只有一些架構[37]討論了數據訪問控制方面的內容。分區存儲是數據湖中最普遍的訪問控制實現形式[83,88],Zhao等人[89]在數據湖分區架構中劃分出能進行安全管理和監控的分區,允許用戶控制數據湖體系結構及其資源。很多研究者都認為區塊鏈技術是解決數據湖安全問題的有效方法。為了在數據湖中安全地跨域共享,謝裕清等人[21]優化了區塊鏈智能合約模塊,不僅實現了數據湖中原始數據的安全存儲,也降低了系統吞吐量。Panwar等人[90]提出了一種基于區塊鏈的加密曲線哈希簽名(BCCCHS)技術的認知方法,保護數據湖中的醫療保健數據。

5 典型應用

數據湖在許多應用場景下取得了不錯的效果,本章將討論數據湖在各個行業里的應用情況,通過這些應用來發現數據湖應用技術的研究機遇和挑戰。

5.1 智能電網

隨著智能電網的發展,大量的智能電表和傳感器被部署,產生了海量、多源、異構的智能電網數據。而這些智能電網數據中所提取的價值不僅提高電網的管理質量,還可以為不同類型的用電客戶提供更好的服務。然而,傳統的智能電網數據管理系統無法擴展并提供足夠的存儲和處理能力,而數據湖存儲系統正好彌補了這個短板。

Munshi等人[91]提出了基于Lambda架構的智能電網大數據生態系統,該系統通過數據湖存儲原始格式的各種類型智能電網數據,并對分布式數據執行并行批處理和實時操作,有效解決了數據分析過程中的延遲問題。針對電力物聯網邊緣設備之間、云主站平臺營配調各系統之間的數據存儲和共享的需求,曾飛等人[22]提出了一種基于區塊鏈與數據湖的電力數據存儲與共享方法。該方法不僅縮短了最高存儲延遲時間,而且吞吐量和安全性也得到了較高的提升。

5.2 醫療保健

隨著物聯網的快速發展,醫療行業也配備了許多智能設備并集成到現有的業務系統。同時醫療行業數字化轉型過程中存儲了大量的醫療健康數據,而這些健康數據的價值提取直接關系到個性化醫療的實施。醫療健康數據包含著各種類型的異構數據,大部分是非結構化和半結構化數據。Rangarajan等人[92] 在醫療保健大數據管理中引入了數據湖體系結構,以便從供應商那里獲取醫療保健數據,為個性化醫療保健提供了分析依據。VisLake[93]是基于DeepEye改進的醫療大數據自動可視化系統,是適合多源數據湖環境的可視化系統。

5.3 教育

教育應用程序、學生、內容開發人員、教師、學習過程、傳感器以及設備中正在產生大量的教育數據,許多教育組織面臨的共同挑戰是尋找一種有效的方法來利用和分析這些數據,以持續提供更好的教育。當前,教育數據的發展已呈現出量大、種類多、速度快的特點[94]。針對教育數據的這些特點,數據湖是一種不錯的數據存儲和數據分析方案。VillegasCh等人[95]把某大學學習管理系統的學生學習數據存儲到數據湖中進行數據分析,獲得學生的學習表現結果。Munshi等人[94]提出了基于數據湖的教育大數據平臺,是處理數據全生命周期的基礎設施,是針對教育機構和非數據專家所使用的全方位的教育數據分析應用平臺。MartinezMosquera等人[96]基于公共數據模型(CDM)和單一數據模型(ODM),在數據湖中進行數據獲取、編目、轉換和保護等處理,提供了高等教育機構的數據湖管理方案。Kuppusamy等人[97]提出了基于數據湖技術的機器學習和深度學習算法,該架構可以為教育數據分析應用提供支撐。

5.4 其他領域應用

航空領域正在進行空中交通方面的數字化轉型,飛行環境、天氣、航空器數據的共享和各系統之間的互操作性是提高飛行效率、安全性和容量的關鍵,也是優化空中交通的重要依據。SGT與美國交通部沃爾普國家運輸系統中心合作開發了一個基于數據湖的航空運輸云原型,分析來自各種來源的大數據,以達到優化空中交通的目的[98]。而航空數據湖(ADL)通過獲取、組織、管理和利用這些全方位信息來應對密集的空地車輛網絡(AGVN)面臨的資源分配、機動性管理、安全傳輸等挑戰[99]。

在農業領域,減少人工干預程度決定著農業智能化的高度,而其中基于大數據管理的智能農業平臺一直是很多研究者關注的重點。智能農業數據湖支撐著農業發展進程,在空間分布、水利管理、農機系統的維護等方面提供有用的決策建議[100]。

社交媒體等社會開放數據分析已經成為很多組織決策過程中不可缺少的考慮因素。分析社會開放數據的關鍵是將社會行為者產生的原始數據轉換為精心設計的數據,即最終用戶使用應用時提取相關數據和知識。數據湖通過自動管理原始社交數據,為大數據分析做好準備[101,102]。

除了在行業數字化轉型過程中扮演著越來越重要的角色外,數據湖在科研大數據領域也有不少的應用,包括生物學[103]、天文學[104]、考古學[105]等。

5.5 討論

回顧數據湖在各行業中的應用,可以發現數據湖在大數據分析應用落地過程中扮演著重要的角色,其主要優勢體現在海量異構數據的集中存儲和處理,這也是大數據分析應用發揮價值的重要基礎。數據湖的另一個優勢是可以構建一個地區、一個科學領域,甚至是一個行業相關的概念數據湖,以更加豐富、更加專業的方式提供所需的數據服務。但是數據湖應用也存在不少的挑戰和問題。首先,數據湖的集中存儲對一些安全性要求較高的行業來說是一種風險;其次,數據湖使用者通常是對數據分析技術要求非常高的專業人士,但很多企業和組織缺乏對業務領域熟知的數據分析專家;最后,數據湖技術還處于發展早期,很多數據處理技術還沒有在實際應用中得到充分的驗證,再加上行業應用的場景特點,可能會出現更多技術難題。數據湖應用雖然存在一系列難題,但大數據背景下數據湖發展趨勢已經形成,隨著行業應用的不斷落地,這些難題會得到有效解決。

6 結束語

數據湖經過十多年的技術發展,已經得到了國內外學術界和工業界的關注和認可,在各領域數字化轉型過程中扮演著重要的角色,數據湖成為許多機構和組織應對大數據分析挑戰的重要解決方案。本文以數據湖技術為主線全面回顧了數據湖發展過程,從概念的萌芽到各領域中的典型應用,充分剖析了數據湖概念、架構、關鍵技術以及各領域中的應用。

本文重點回顧了數據存儲、數據攝入、數據維護、數據探索、數據治理等數據湖關鍵技術,介紹和討論了在數據湖環境中關鍵技術的突破、創新以及完善,而這些關鍵技術的不斷發展,以及在各行業和領域中的深入應用,使學術界和工業界更加認可數據湖在大數據解決方案中的地位。通過數據湖研究文獻的回顧,發現數據湖技術的發展過程和大數據技術的發展過程越來越吻合,說明數據湖的研究是大數據技術研究的有效補充和擴展,數據湖的研究在今后的大數據研究過程中會起到更加重要作用。數據湖還處于發展早期階段,更多的關鍵技術還需要繼續突破和完善。人工智能時代數據湖更像是一種底層數據基礎設施,為更加豐富的人工智能應用提供海量數據的管理和分析服務。反過來,人工智能技術在數據湖技術的發展中會起到更加深遠的影響,使得數據湖技術更加成熟。

參考文獻:

[1]Zagan E,Danubianu M.From data warehouse to a new trend in data architecturesdata lake[J].IJCSNS International Journal of Computer Science and Network Security,2019,19(3):3035.

[2]Miloslavskaya N,Tolstoy A.Application of big data,fast data,and data lake concepts to information security issues[C]//Proc of the 4th International Conference on Future Internet of Things and Cloud Workshops.Piscataway,NJ:IEEE Press,2016:148153.

[3]Zagan E,Danubianu M.Data lake approaches:a survey[C]//Proc of International Conference on Development and Application Systems.Piscataway,NJ:IEEE Press,2020:189193.

[4]Sawadogo P,Darmont J.On data lake architectures and metadata management[J].Journal of Intelligent Information Systems,2021,56(1):97120.

[5]Dixon J.Pentaho,hadoop,and data lakes[EB/OL].(20101014)[20230227].https://jamesdixon.wordpress.com/2010/10/14/pentahohadoopanddatalakes.

[6]Woods D.Big data requires a big,new architecture[EB/OL].(20110721)[20230227].https://www.forbes.com/sites/ciocentral/2011/07/21/bigdatarequiresabignewarchitecture/.

[7]Se C,Pivotal S.The technology of the business data lake table[EB/OL].(20131204)[20230606].https://www.capgemini.com/wpcontent/uploads/2017/07/pivotalbusinessdatalaketechnical_br ochure_web.pdf.

[8]WilderJames E.The data lake dream[EB/OL].(20140114)[20230606].https://www.forbes.com/sites/edddumbill/2014/01/14/thedatalakedream.

[9]Rivera J,Van Der Meulen R.Gartner says beware of the data lake fallacy[EB/OL].(20140728)[20230606].http://www.gartner.com/newsroom/id/2809117.

[10]Stein B,Morrison A.The enterprise data lake:better integration and deeper analytics[J].PwC Technology Forecast:Rethinking Integration,2014(1):110.

[11]Chessell M,Scheepers F,Nguyen N,et al.Governing and managing big data for analytics and decision makers[EB/OL].(20140826)[20230606].https://www.redbooks.ibm.com/redpapers/pdfs/redp5120.pdf.

[12]Oleary D E.Embedding AI and crowdsourcing in the big data lake[J].IEEE Intelligent Systems,2014,29(5):7073.

[13]Terrizzano I,Schwarz P,Roth M,et al.Data wrangling:the challenging journey from the wild to the lake[C/OL].Proc of the 7th Biennial Conference on Innovative Data Systems Research.(20150605).http://www.cidrdb.org/cidr2015/Papers/CIDR15_Paper2.pdf.

[14]Huang Fang.Managing data lakes in big data era:whats a data lake and why has it became popular in data management ecosystem[C]//Proc of IEEE International Conference on Cyber Technology in Automation,Control,and Intelligent Systems.Piscataway,NJ:IEEE Press,2015:820-824.

[15]Madera C,Laurent A.The next information architecture evolution:the data lake wave[C]//Proc of the 8th International Conference on Management of Digital EcoSystems.New York:ACM Press,2016:174180.

[16]Walker C,Alrehamy H.Personal data lake with data gravity pull[C]//Proc of the 5th International Conference on Big Data and Cloud Computing.Piscataway,NJ:IEEE Press,2015:160167.

[17]Skluzacek T J,Chard K,Foster I.Klimatic:a virtual data lake for harvesting and distribution of geospatial data[C]//Proc of the 1st Joint International Workshop on Parallel Data Storage and data Intensive Scalable Computing Systems.Piscataway,NJ:IEEE Press,2016:31-36.

[18]Pasupuleti P,Purra B S.Data lake development with big data[M].[S.l.]:Packt Publishing,2015.

[19]Sharma B.Architecting data lakesdata management architectures for advanced business use cases[M].[S.l.]:OReilly Media,2018.

[20]陳氫,張治.融合多源異構數據治理的數據湖架構研究[J].情報雜志,2022,41(5):139145.(Chen Qing,Zhang Zhi.Research on the data lake architecture of integrating multisource heterogeneous data governance[J].Journal of Intelligence,2022,41(5):139145.)

[21]謝裕清,王淵,江櫻,等.便于數據共享的電網數據湖隱私保護方法[J].計算機工程與應用,2021,57(2):113118.(Xie Yuqing,Wang Yuan,Jiang Ying,et al.Privacy protection method facilitating data sharing for grid manufacturing data lake[J].Computer Engineering and Applications,2021,57(2):113118.)

[22]曾飛,楊雄,蘇偉,等.基于區塊鏈與數據湖的電力數據存儲與共享方法[J].電力工程技術,2022,41(3):48-54.(Zeng Fei,Yang Xiong,Su Wei,et al.Power data storage and sharing method based on blockchain and data lake[J].Electric Power Engineering Technology,2022,41(3):48-54.)

[23]Khine P P,Wang Zhaoshun.Data lake:a new ideology in big data era[C]//Proc of the 4th Annual International Conference on Wireless Communication and Sensor Network.[S.l.]:EDP Sciences,2018:111.

[24]Hai Rihan,Quix C,Jarke M.Data lake concept and systems:a survey[EB/OL].(20210618).https://arxiv.org/pdf/2106.09592v1.pdf.

[25]William H I.Building the data warehouse[M].4th ed.Indianapolis:Wiley,2005.

[26]《華東師范大學學報(自然科學版)》編輯部.“數據中臺關鍵技術與系統研究”專輯導讀[J].華東師范大學學報:自然科學版,2020,213(5):6-8.(Editor Board of Journal of East China Normal University(Natural Sciences).Introduction to the album “Research on Key Technologies and Systems of Data Center”[J].Journal of East China Normal University:Natural Science,2020,213(5):6-8.)

[27]Giebler C,Grger C,Hoos E,et al.Leveraging the data lake:current state and challenges[M]//Ordonez C,Song I Y,AnderstKotsis G,et al.Big Data Analytics and Knowledge Discovery.Berlin:Springer,2019:179188.

[28]Inmon B.Data lake architecture:designing the data lake and avoiding the garbage dump[M].[S.l.] :Technics Publications,2016.

[29]Hai Rihan,Geisler S,Quix C.Constance:an intelligent data lake system[C]//Proc of International Conference on Management of Data.New York:ACM Press,2016:20972100.

[30]Guyot A,Gillet A,Leclercq E,et al.A formal framework for data lakes based on category theory[C]//Proc of the 26th International Database Engineered Applications Symposium.New York:ACM Press,2022:75-83.

[31]Ramchand S,Mahmood T.Big data architectures for data lakes:a systematic literature review[C]//Proc of the 46th Annual Computers,Software,and Applications Conference.Piscataway,NJ:IEEE Press,2022:11411146.

[32]Mehmood H,Gilman E,Cortes M,et al.Implementing big data lake for heterogeneous data sources[C]//Proc of the 35th International Conference on Data Engineering Workshops.Piscataway,NJ:IEEE Press,2019:37-44.

[33]Giebler C,Grger C,Hoos E,et al.The data lake architecture framework[C]//Proc of Conference for Database Systems for Business,Technology and Web.[S.l.]:Gesellschaft für Informatik,Bonn,2021:351-370.

[34]Farid M,Roatis A,F.Ilyas I,et al.CLAMS:bringing quality to data lakes[C]//Proc of International Conference on Management of Data.New York:ACM Press,2016:2089-2092.

[35]Hai Rihan,Quix C,Zhou Chen.Query rewriting for heterogeneous data lakes[M]//Benczúr A,Thalheim B,Horváth T.Advances in Databases and Information Systems.Berlin:Springer,2018:35-49.

[36]Halevy A Y,Korn F,Noy N F,et al.Managing Googles data lake:an overview of the GOODS system[J].Bulletin of the IEEE Computer Society Technical Committee on Data Engineering,2016,39(3):514.

[37]Beheshti A,Benatallah B,Nouri R,et al.CoreDB:a data lake service[C]//Proc of ACM on Conference on Information and Knowledge Management.New York:ACM Press,2017:2451-2454.

[38]Beheshti A,Benatallah B,Nouri R,et al.CoreKG:a knowledge lake service[J].Proceedings of the VLDB Endowment,2018,11(12):19421945.

[39]Ramakrishnan R,Sridharan B,Douceur J R,et al.Azure data lake store:a hyperscale distributed file service for big data analytics[C]//Proc of ACM International Conference on Management of Data.New York:ACM Press,2017:51-63.

[40]Zagan E,Danubianu M.Cloud data lake:the new trend of data storage[C]//Proc of the 3rd International Congress on HumanComputer Interaction,Optimization and Robotic Applications.Piscataway,NJ:IEEE Press,2021:1-4.

[41]Lu Jiaheng,Holubová I.Multimodel databases:a new journey to handle the variety of data[J].ACM Computing Surveys,2019,52(3):1-38.

[42]Quix C,Hai Rihan,Vatov I.Metadata extraction and management in data lakes with GEMMS[J].Complex Systems Informatics and Modeling Quarterly,2016,9:67-83.

[43]Sawadogo P,Kibata T,Darmont J.Metadata management for textual documents in data lakes[EB/OL].(20190510).https://arxiv.org/abs/1905.04037.

[44]Gao Yihan,Huang Silu,Parameswaran A.Navigating the data lake with DATAMARAN:automatically extracting structure from log datasets[C]//Proc of International Conference on Management of Data.New York:ACM Press,2018:943-958.

[45]Zhao Yan,Megdiche I,Ravat F.Data lake ingestion management[EB/OL].(20210705).https://arxiv.org/abs/2107.02885.

[46]Sawadogo P N,Scholly ,Favre C,et al.Metadata systems for data lakes:models and features[M]//Tatjana W,Johann E,Vili P,et al.New Trends in Databases and Information Systems.Berlin:Springer,2019:440451.

[47]Diamantini C,Giudice P L,Musarella L,et al.A new metadata model to uniformly handle heterogeneous data lake sources[C]//Proc of European Conference on Advances in Databases and Information Systems.Berlin:Springer:165177.

[48]Eichler R,Giebler C,Grger C,et al.Modeling metadata in data lakesa generic model[J].Data & Knowledge Engineering,2021,136(101931):117.

[49]Scholly E,Sawadogo P,Liu Pengfei,et al.Coining goldMEDAL:a new contribution to data lake generic metadata modeling[EB/OL].(20210324).https://arxiv.org/abs/2103.13155.

[50]Hellerstein J M,Sreekanti V,Gonzalez J E,et al.Ground:a data context service[C]//Proc of the 8th Biennial Conference on Innovative Data Systems Research.[S.l.] :Creative Commons,2017.

[51]Ravat F,Zhao Yan.Metadata management for data lakes[M]//Tatjana W,Johann E,Vili P,et al.New Trends in Databases and Information Systems.Cham:Springer International Publishing,2019:3744.

[52]Irfan M,George J P.A systematic review of challenges,tools,and myths of big data ingestion[M]//Shukla S,Gao Xiaozhi,Kureethara J V,et al.Data Science and Security.Singapore:Springer,2022:481494.

[53]Sharma G,Tripathi V,Srivastava A.Recent trends in big data ingestion tools:a study[M]//Kumar R,Quang N H,Kumar Solanki V,et al.Research in Intelligent and Computing in Engineering.Singapore:Springer,2021:873-881.

[54]Maccioni A,Torlone R.KAYAK:a framework for justintime data preparation in a data lake[C]//Proc of International Conference on Advanced Information Systems Engineering.Berlin:Springer,2018:474-489.

[55]Brackenbury W,Liu Rui,Mondal M,et al.Draining the data swamp:a similaritybased approach[C]//Proc of Workshop on HumanintheLoop Data Analytics.New York:ACM Press,2018:17.

[56]Alserafi A,Abello A,Romero O,et al.Towards information profiling:data lake content metadata management[C]//Proc of the 16th International Conference on Data Mining Workshops.Piscataway,NJ:IEEE Press,2016:178185.

[57]Stach C,Brcker J,Eichler R,et al.Demanddriven data provisioning in data lakes[C]//Proc of the 23rd International Conference on Information Integration and Web Intelligence.New York:ACM Press,2021:187198.

[58]Nargesian F,Pu K Q,Zhu Erkang,et al.Organizing data lakes for navigation[C]//Proc of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2020:19391950.

[59]Bharadwaj S,Gupta P,Bhagwan R,et al.Discovering related data at scale[J].Proceedings of the VLDB Endowment,2021,14(8):13921400.

[60]Diannantini C,Lo Giudice P,Potena D,et al.An approach to extracting topicguided views from the sources of a data lake[J].Information Systems Frontiers,2021,23(1):243262.

[61]Oram A.Managing the data lake[M].Sebastopol:OReilly,2015.

[62]Klettke M,Awolin H,Strl U,et al.Uncovering the evolution history of data lakes[C]//Proc of IEEE International Conference on Big Data.Piscataway,NJ:IEEE Press,2017:24622471.

[63]Fernandez R C,Abedjan Z,Koko F,et al.Aurum:a data discovery system[C]//Proc of the 34th International Conference on Data Engineering.Piscataway,NJ:IEEE Press,2018:10011012.

[64]Alserafi A,Abelló A,Romero O,et al.Keeping the data lake in form:DSKNN datasets categorization using proximity mining[C]//Proc of Model and Data Engineering:the 9th International Conference.Berlin:Springer,2019:35-49.

[65]Alserafi A,Abello A,Romero O,et al.Keeping the data lake in form:proximity mining for prefiltering schema matching[J].ACM Trans on Information Systems,2020,38(3):1-30.

[66]Zhu Erkang,Nargesian F,Deng Dong,et al.JOSIE:overlap set similarity search for finding joinable tables in data lakes[C]//Proc of International Conference on Management of Data.New York:ACM Press,2019:847-864.

[67]Zhang Yi,Ives Z G.Finding related tables in data lakes for interactive data science[C]//Proc of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2020:19511966.

[68]Fan G,Wang Jin,Li Yuliang,et al.Semanticsaware dataset discovery from data lakes with contextualized columnbased representation learning[J].Proceedings of the VLDB Endowment,2022,14(1):50-60.

[69]Bogatu A,Fernandes A A A,Paton N W,et al.Dataset discovery in data lakes[C]//Proc of the 36th International Conference on Data Engineering.Piscataway,NJ:IEEE Press,2020:709720.

[70]Dong Yuyang,Takeoka K,Xiao Chuan,et al.Efficient joinable table discovery in data lakes:a highdimensional similaritybased approach[C]//Proc of the 37th International Conference on Data Engineering.Piscataway,NJ:IEEE Press,2021:456-467.

[71]Helal A.Data lakes empowered by knowledge graph technologies[C]//Proc of International Conference on Management of Data.New York:ACM Press,2021:2884-2886.

[72]Miller R J.Open data integration[J].Proceedings of the VLDB Endowment,2018,11(12):2130-2139.

[73]Yuan Qin,Yuan Ye,Wen Zhenyu,et al.Exploring heterogeneous data lake based on unified canonical graphs[C]//Proc of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2022:18341838.

[74]Ouellette P,Sciortino A,Nargesian F,et al.RONIN:data lake exploration[J].Proceedings of the VLDB Endowment,2021,14(12):2863-2866.

[75]Garda M.A semanticsenabled approach for data lake exploration services[C]//Proc of IEEE World Congress on Services.Piscataway,NJ:IEEE Press,2019:327-330.

[76]Mami M N,Graux D,Scerri S,et al.Uniform access to multiform data lakes using semantic technologies[C]//Proc of the 21st International Conference on Information Integration and Webbased Applications & Services.New York:ACM Press,2020:313-322.

[77]Auer S,Scerri S,Versteden A,et al.The BigDataEurope platformsupporting the variety dimension of big data[M]// Cabo J,De Virgilio R,Torlone R.Web Engineering.Cham:Springer,2017:41-59.

[78]Mami M N,Graux D,Scerri S,et al.Squerall:virtual ontologybased access to heterogeneous and large data sources[C]//Proc of the 18th International Semantic Web Conference.Berlin:Springer,2019:229-245.

[79]Endris K M,Rohde P D,Vidal M E,et al.Ontario:federated query processing against a semantic data lake[C]//Proc of International Conference on Database and Expert Systems Applications.Cham:Springer,2019:379-395.

[80]Diamantini C,Potena D,Storti E.A knowledgebased approach to support analytic query answering in semantic data lakes[C]//Advances in Databases and Information Systems.Cham:Springer,2022:179192.

[81]Bagozi A,Bianchini D,De Antonellis V,et al.Personalised exploration graphs on semantic data lakes[C]//Proc of OTM Confederated International Conference on the Move to Meaningful Internet Systems.Cham:Springer,2019:22-39.

[82]Bianchini D,De Antonellis V,Garda M,et al.Contextual preferences to personalise semantic data lake exploration[C]//Proc of the 31st International Conference on Database and Expert Systems Applications.Cham:Springer,2020:322-332.

[83]Ravat F,Zhao Yan.Data lakes:trends and perspectives[C]//Proc of the 30th International Conference on Database and Expert Systems Applications.Cham:Springer,2019:304-313.

[84]Suriarachchi I,Plale B.Crossing analytics systems:a case for integrated provenance in data lakes[C]//Proc of the 12th International Conference on EScience.Piscataway,NJ:IEEE Press,2016:349-354.

[85]Wang Jianwu,Crawl D,Purawat S,et al.Big data provenance:challenges,state of the art and opportunities[C]//Proc of IEEE International Conference on Big Data.Piscataway,NJ:IEEE Press,2015:2509-2516.

[86]Suriarachchi I,Withana S,Plale B.Big provenance stream processing for data intensive computations[C]//Proc of the 14th International Conference on EScience.Piscataway,NJ:IEEE Press,2018:245-255.

[87]Bertino E,Ferrari E.Big data security and privacy[M]//Flesca S,Greco S,Masciari E,et al.A Comprehensive Guide Through the Italian Database Research Over the Last 25 Years.Cham:Springer,2018:425-439.

[88]Giebler C,Grger C,Hoos E,et al.A zone reference model for enterprisegrade data lake management[C]//Proc of the 24th International Enterprise Distributed Object Computing Conference.Piscataway,NJ:IEEE Press,2020:57-66.

[89]Zhao Yan,Megdiche I,Ravat F,et al.A zonebased data lake architecture for IoT,small and big data[C]//Proc of the 25th International Database Engineering & Applications Symposium.New York:ACM Press,2021:94102.

[90]Panwar A,Bhatnagar V.A cognitive approach for blockchainbased cryptographic curve hash signature (BCCCHS) technique to secure healthcare data in data lake[J/OL].Soft Computing.(20211111).https://doi.org/10.1007/s00500021065137.

[91]Munshi A A,Mohamed Y A R I.Data lake lambda architecture for smart grids big data analytics[J].IEEE Access,2018,6:40463-40471.

[92]Rangarajan S,Liu Huai,Wang Hua,et al.Scalable architecture for personalized healthcare service recommendation using big data lake[C]//Proc of Australian Symposium on Service Research and Innovation.Cham:Springer,2018:6579.

[93]Ren Peng,Mao Ziyun,Li Shuaibo,et al.Intelligent visualization system for big multisource medical data based on data lake[C]//Proc of International Conference on Web Information Systems and Applications.Cham:Springer International Publishing,2021:706717.

[94]Munshi A A,Alhindi A.Big data platform for educational analytics[J].IEEE Access,2021,9:52883-52890.

[95]VillegasCh W,LujánMora S,BuenaoFernandez D,et al.Big data,the next step in the evolution of educational data analysis[C]//Proc of International Conference on Information Technology & Systems.Berlin:Springer,2018:138147.

[96]MartinezMosquera D,Beltrán V,RiofríoLuzcando D,et al.Data lake management for educational analysis[C]//Proc the 6th Ecuador Technical Chapters Meeting.Piscataway,NJ:IEEE Press,2022:15.

[97]Kuppusamy P,Joseph K S.Building an enterprise data lake for educational organizations for prediction analytics using deep learning[C]//Proc of International Conference on Deep Learning,Computing and Intelligence.Singapore:Springer,2022:65-81.

[98]Raju R,Mital R,Finkelsztein D.Data lake architecture for air traffic management[C]//Proc of the 37th Digital Avionics Systems Conference.Piscataway,NJ:IEEE Press,2018:1-6.

[99]Sun Jinlong,Gui Guan,Sari H,et al.Aviation data lake:using side information to enhance future airground vehicle networks[J].IEEE Vehicular Technology Magazine,2021,16(1):40-48.

[100]Ouafiq E M,Saadane R,Chehri A,et al.Data lake conception for smart farming:a data migration strategy for big data analytics[M]// Zimmermann A,Howlett R J,Jain L C.Human Centred Intelligent Systems.Singapore:Springer,2022:191-201.

[101]Beheshti A,Benatallah B,Tabebordbar A,et al.DataSynapse:a social data curation foundry[J].Distributed and Parallel Databases,2019,37(3):351-384.

[102]Dabbèchi H,Haddar N Z,Elghazel H,et al.NoSQL data lake:a big data source from social media[C]//Proc of International Conference on Hybrid Intelligent Systems.Cham:Springer,2021:93102.

[103]Che Haoyang,Duan Yucong.On the logical design of a prototypical data lake system for biological resources[J].Frontiers in Bioengineering and Biotechnology,2020,8(1105):article ID 553904.

[104]Rosa R R.Data science strategies for multimessenger astronomy[J].Anais da Academia Brasileira de Ciencias,2021,93(S1):e20200861.

[105]Liu Pengfei,Loudcher S,Darmont J,et al.ArchaeoDAL:a data lake for archaeological data management and analytics[C]//Proc of the 25th International Database Engineering & Applications Symposium.New York:ACM Press,2021:252262.

主站蜘蛛池模板: 日韩 欧美 小说 综合网 另类| 日本在线亚洲| 国产精品白浆无码流出在线看| 2020国产免费久久精品99| 毛片免费在线视频| 色妞www精品视频一级下载| 一区二区三区成人| 久久亚洲美女精品国产精品| 国产欧美日韩专区发布| 欧美亚洲第一页| 国产免费羞羞视频| 免费va国产在线观看| 成年A级毛片| 国产一区二区精品高清在线观看| 国产内射在线观看| 五月婷婷综合在线视频| 国产精品一区不卡| 91精品国产丝袜| 国产精品手机在线观看你懂的| 国产好痛疼轻点好爽的视频| 免费人成又黄又爽的视频网站| 欧美国产在线看| 欧美亚洲日韩中文| 亚洲AV一二三区无码AV蜜桃| 亚洲av色吊丝无码| 国产一级α片| 国产不卡一级毛片视频| 国产欧美日韩综合在线第一| 久久婷婷色综合老司机| 亚洲精品桃花岛av在线| 欧洲高清无码在线| 视频二区欧美| 久久精品亚洲中文字幕乱码| 亚洲人成在线精品| 美美女高清毛片视频免费观看| 亚洲人视频在线观看| 亚洲国产日韩欧美在线| 99久久亚洲精品影院| 91色老久久精品偷偷蜜臀| 午夜激情婷婷| 亚洲国产欧美国产综合久久| 日韩在线永久免费播放| 99精品在线看| 亚洲国产天堂久久九九九| 国产成人高清精品免费5388| 亚欧乱色视频网站大全| 国产麻豆91网在线看| 亚洲欧州色色免费AV| 国产区在线观看视频| 精品视频91| 欧美精品一区二区三区中文字幕| 亚洲日本中文字幕乱码中文| 午夜视频www| 国产欧美精品专区一区二区| 国产最爽的乱婬视频国语对白| 91精品伊人久久大香线蕉| 91久久国产成人免费观看| 在线观看国产黄色| AV天堂资源福利在线观看| 中文字幕亚洲乱码熟女1区2区| 毛片免费视频| 久久亚洲AⅤ无码精品午夜麻豆| 欧美色伊人| 国产一区亚洲一区| 成人免费一区二区三区| 亚洲热线99精品视频| 午夜国产精品视频黄| 国产午夜福利片在线观看 | 欧美成人h精品网站| 国产人成在线视频| 国产伦精品一区二区三区视频优播 | 亚洲精品视频免费观看| 2022国产无码在线| 亚洲成人黄色在线| 伊人大杳蕉中文无码| 国产亚洲高清视频| 在线一级毛片| 午夜少妇精品视频小电影| 一区二区影院| 一级毛片网| 91精品国产自产在线老师啪l| 亚卅精品无码久久毛片乌克兰|