■ 安徽 劉揚
編者按:在進入數據湖的原始數據中,有一部分屬于復雜異構數據。其數據特征和數據間內在關聯性都極為復雜,不易被人認知與使用,但若能有效利用將產生可觀的經濟效益。
在重塑數據湖的過程中會遇到一些復雜情況,比如復雜的數據間映射關系、數據間時空不一致情況下底層數據關聯規則的建立等。
這些復雜情況的出現,有一部分源于數據湖有別于數據倉庫的數據存儲方式。數據湖以更自然的方式存儲原始格式的數據,并將這些數據統一匯聚在湖中。當不同來源的原始格式數據匯聚以后,在這些數據被加工使用時,會整合產生一種具有復合數據結構的數據——復雜異構數據。其中復雜指的是數據自身的數據特征和數據間內在關聯性復雜,異構指的是結構化、半結構化、非結構化的數據同時存在。
可以說,復雜異構數據是數據湖建設過程中的天然產物,是數據價值匯聚的結果,也是數據湖中許多潛在經濟效益的所在。如何發掘復雜異構數據的價值,直接影響到數據湖重塑的效果。
復雜異構數據往往與不能通過數據湖重塑的通用技術路徑解決的復雜情況一同出現。究其原因,在于人的認知規律與復雜異構數據之間存在深層次矛盾。
在重塑數據湖的通用技術路徑中,除了不同階段的技術選擇外,還始終貫穿著另一條主線,即通過業務邏輯的梳理實現數據重構。而業務邏輯本身,源于人對業務的自我認知,因此需要符合人的認知規律。
而復雜異構數據是數據匯聚的結果,匯聚的過程實際上也伴隨數據的升維,同時高維數據的非結構化信息也會令提取數據內在規律超出人的認知。
因此,人的認知規律與復雜異構數據之間的深層次矛盾在于高維數據的維度和非結構化信息超出認知極限。如何解決深層次矛盾是復雜異構數據認知與使用的關鍵。
從對高維數據處理的相關研究來看,目前普遍采用的方法是數據降維。降維的方法有多種分類,按照特征提取方式可以分為特征選擇和特征抽?。桓鶕颖拘畔⑹褂每煞譃楸O督降維、半監督降維和無監督降維;根據處理數據屬性類別可分為線性降維和非線性降維。
在降維的實證研究中,根據數據的應用領域、數據結構化程度、數據類型(文檔、語音、視頻等)等的不同,需要采用不同的降維方法與技術,從而保障數據處理、存儲等方面的性能與效率。因此,在進入通用技術路徑前,需要遵循降維思想,有針對性的對復雜異構數據進行分類,從而選擇合適的降維策略進行數據重構。
結合復雜異構數據的產生原因,可以從數據間映射關系復雜度和數據的結構化程度兩個維度對其進行分類。這種基于降維思想的數據重構可以通過矩陣形式進行展現,如圖1 所示。
在基于降維思想的復雜異構數據重構矩陣中,復雜異構數據的類型以所包含數據的數據間映射關系最高復雜度和數據的最低結構化程度作為分類基準。按照這一基準,復雜異構數據可以分為四種類型。其中低復雜度高結構化數據(即非復雜異構數據)可以直接適用于通用技術路徑,其他三類數據適用的具體降維策略如下:
高復雜度高結構化數據首先分析造成復雜映射關系的原因,再根據原因不同進行相應的處理:由復雜的數據間映射關系(如n 對m 等)導致的,通過業務邏輯的分解將映射關系拆分成1 對n關系;由數據不完整導致的,通過關聯數據技術尋找其他系統或模塊中的替代品,進行數據補全。

圖1 基于降維思想的復雜異構數據重構矩陣
低復雜度低結構化數據可以根據依據數據類型確定降維方法:文檔類數據可以使用知識圖譜等技術,語音和視頻類數據可以運用流形學習、神經網絡等技術。
高復雜度低結構化數據的重構總體可以分為兩個階段,先從數據的結構化維度進行降維,參照低復雜度低結構化數據;再從數據間映射關系的復雜度維度進行降維,一般參照高復雜度高結構化數據,如果高復雜度低結構化數據降維后仍需保存為文本、語音和視頻等非結構化數據,第二階段也可采用適用于非結構化數據的關聯數據技術進行數據重構。
實際上,數據類型、數據完整度等也可以作為復雜異構數據分類的維度,從而構造出更高維度或其他分類方式的復雜異構數據重構矩陣。但需要強調的是,即使采用相同的復雜異構數據重構策略,在具體的降維方法與技術選擇上也是靈活可變的,這也是數據湖有別于數據倉庫的重要特征——賦能非技術用戶自行進行數據探索。
考慮到數據湖建設的目標是建立的統一的數據存儲和數據處理基礎設施,數據重構功能需求應當包括支持上述數據重構策略、降維方法與技術的算法、算力、中間數據的存儲以及相關的操作界面、參數配置等,并且可為用戶提供具體到操作步驟的演示視頻、幫助文檔等,從而提升功能可用度、降低使用門檻。
此外,數據重構功能需要考慮與其他功能的協同。在數據湖重塑的過程中,數據重構重點解決的是數據的可用性問題,還有一個重要問題需要在其他功能中解決,那就是數據的可信度問題。特別是當數據湖包含的多個數據源中出現數據不一致時,應當如何為用戶提供數據使用幫助,使用戶可以高效選出可信數據用于數據探索。