999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

復雜異構數據重構

2020-08-07 07:56:42安徽劉揚
網絡安全和信息化 2020年7期

■ 安徽 劉揚

編者按:在進入數據湖的原始數據中,有一部分屬于復雜異構數據。其數據特征和數據間內在關聯性都極為復雜,不易被人認知與使用,但若能有效利用將產生可觀的經濟效益。

在重塑數據湖的過程中會遇到一些復雜情況,比如復雜的數據間映射關系、數據間時空不一致情況下底層數據關聯規則的建立等。

這些復雜情況的出現,有一部分源于數據湖有別于數據倉庫的數據存儲方式。數據湖以更自然的方式存儲原始格式的數據,并將這些數據統一匯聚在湖中。當不同來源的原始格式數據匯聚以后,在這些數據被加工使用時,會整合產生一種具有復合數據結構的數據——復雜異構數據。其中復雜指的是數據自身的數據特征和數據間內在關聯性復雜,異構指的是結構化、半結構化、非結構化的數據同時存在。

可以說,復雜異構數據是數據湖建設過程中的天然產物,是數據價值匯聚的結果,也是數據湖中許多潛在經濟效益的所在。如何發掘復雜異構數據的價值,直接影響到數據湖重塑的效果。

認知規律與復雜異構數據

復雜異構數據往往與不能通過數據湖重塑的通用技術路徑解決的復雜情況一同出現。究其原因,在于人的認知規律與復雜異構數據之間存在深層次矛盾。

在重塑數據湖的通用技術路徑中,除了不同階段的技術選擇外,還始終貫穿著另一條主線,即通過業務邏輯的梳理實現數據重構。而業務邏輯本身,源于人對業務的自我認知,因此需要符合人的認知規律。

而復雜異構數據是數據匯聚的結果,匯聚的過程實際上也伴隨數據的升維,同時高維數據的非結構化信息也會令提取數據內在規律超出人的認知。

因此,人的認知規律與復雜異構數據之間的深層次矛盾在于高維數據的維度和非結構化信息超出認知極限。如何解決深層次矛盾是復雜異構數據認知與使用的關鍵。

降維思想與復雜異構數據

從對高維數據處理的相關研究來看,目前普遍采用的方法是數據降維。降維的方法有多種分類,按照特征提取方式可以分為特征選擇和特征抽?。桓鶕颖拘畔⑹褂每煞譃楸O督降維、半監督降維和無監督降維;根據處理數據屬性類別可分為線性降維和非線性降維。

在降維的實證研究中,根據數據的應用領域、數據結構化程度、數據類型(文檔、語音、視頻等)等的不同,需要采用不同的降維方法與技術,從而保障數據處理、存儲等方面的性能與效率。因此,在進入通用技術路徑前,需要遵循降維思想,有針對性的對復雜異構數據進行分類,從而選擇合適的降維策略進行數據重構。

復雜異構數據重構策略與數據重構功能需求

結合復雜異構數據的產生原因,可以從數據間映射關系復雜度和數據的結構化程度兩個維度對其進行分類。這種基于降維思想的數據重構可以通過矩陣形式進行展現,如圖1 所示。

在基于降維思想的復雜異構數據重構矩陣中,復雜異構數據的類型以所包含數據的數據間映射關系最高復雜度和數據的最低結構化程度作為分類基準。按照這一基準,復雜異構數據可以分為四種類型。其中低復雜度高結構化數據(即非復雜異構數據)可以直接適用于通用技術路徑,其他三類數據適用的具體降維策略如下:

高復雜度高結構化數據首先分析造成復雜映射關系的原因,再根據原因不同進行相應的處理:由復雜的數據間映射關系(如n 對m 等)導致的,通過業務邏輯的分解將映射關系拆分成1 對n關系;由數據不完整導致的,通過關聯數據技術尋找其他系統或模塊中的替代品,進行數據補全。

圖1 基于降維思想的復雜異構數據重構矩陣

低復雜度低結構化數據可以根據依據數據類型確定降維方法:文檔類數據可以使用知識圖譜等技術,語音和視頻類數據可以運用流形學習、神經網絡等技術。

高復雜度低結構化數據的重構總體可以分為兩個階段,先從數據的結構化維度進行降維,參照低復雜度低結構化數據;再從數據間映射關系的復雜度維度進行降維,一般參照高復雜度高結構化數據,如果高復雜度低結構化數據降維后仍需保存為文本、語音和視頻等非結構化數據,第二階段也可采用適用于非結構化數據的關聯數據技術進行數據重構。

實際上,數據類型、數據完整度等也可以作為復雜異構數據分類的維度,從而構造出更高維度或其他分類方式的復雜異構數據重構矩陣。但需要強調的是,即使采用相同的復雜異構數據重構策略,在具體的降維方法與技術選擇上也是靈活可變的,這也是數據湖有別于數據倉庫的重要特征——賦能非技術用戶自行進行數據探索。

考慮到數據湖建設的目標是建立的統一的數據存儲和數據處理基礎設施,數據重構功能需求應當包括支持上述數據重構策略、降維方法與技術的算法、算力、中間數據的存儲以及相關的操作界面、參數配置等,并且可為用戶提供具體到操作步驟的演示視頻、幫助文檔等,從而提升功能可用度、降低使用門檻。

此外,數據重構功能需要考慮與其他功能的協同。在數據湖重塑的過程中,數據重構重點解決的是數據的可用性問題,還有一個重要問題需要在其他功能中解決,那就是數據的可信度問題。特別是當數據湖包含的多個數據源中出現數據不一致時,應當如何為用戶提供數據使用幫助,使用戶可以高效選出可信數據用于數據探索。

主站蜘蛛池模板: 91麻豆精品国产91久久久久| 成人va亚洲va欧美天堂| 日本免费精品| 波多野结衣视频一区二区| 又爽又大又光又色的午夜视频| 一区二区日韩国产精久久| 中文国产成人精品久久| 欧洲av毛片| 视频国产精品丝袜第一页| 人妻丝袜无码视频| 福利视频一区| 国产成人综合亚洲欧美在| 国产午夜福利片在线观看| 国产另类视频| 麻豆国产在线观看一区二区| 免费a级毛片视频| 欧美视频二区| 国产亚洲精久久久久久久91| 91精品福利自产拍在线观看| 国产精品偷伦视频免费观看国产| 青青网在线国产| 99热精品久久| 国产亚洲视频在线观看| 亚洲成人高清在线观看| 欧美曰批视频免费播放免费| 真实国产精品vr专区| 欧美一级在线播放| 久久精品欧美一区二区| 国产综合日韩另类一区二区| 亚洲第一中文字幕| 亚洲综合婷婷激情| 国产综合网站| 国产精品lululu在线观看| 国产69精品久久久久孕妇大杂乱| 精品三级在线| 强奷白丝美女在线观看| 狠狠色丁香婷婷| 一区二区午夜| 国产精品对白刺激| 全部免费毛片免费播放 | 中文字幕色在线| 国产成人精品综合| 免费网站成人亚洲| 91精品日韩人妻无码久久| 毛片基地美国正在播放亚洲| 在线毛片网站| 青草视频在线观看国产| 色精品视频| 亚洲男女天堂| 丁香五月激情图片| 2018日日摸夜夜添狠狠躁| 不卡无码网| 777国产精品永久免费观看| 国产日韩欧美成人| 欧美成人手机在线视频| 天天综合亚洲| 日韩欧美视频第一区在线观看| 国产波多野结衣中文在线播放| 婷婷激情亚洲| 日韩国产高清无码| 不卡网亚洲无码| 亚洲男人天堂网址| 国产在线观看一区精品| 亚洲天堂网在线观看视频| 国产女人在线| 日韩高清欧美| 国产精品自在拍首页视频8 | 午夜国产理论| 色爽网免费视频| 日韩在线成年视频人网站观看| AV不卡在线永久免费观看| 99久久国产精品无码| 免费可以看的无遮挡av无码 | 好紧好深好大乳无码中文字幕| 国产精品大尺度尺度视频| 久久中文电影| 成人一区在线| 国产精品亚洲va在线观看| 国产精品免费电影| 一区二区在线视频免费观看| 欧美一级高清片久久99| 国内精品免费|