

如果要總結2013年的IT熱詞,大數據、云計算、移動互聯網肯定會榜上有名。雖然都是上榜熱詞,但是用戶對這三大領域依然具有自己不同的認識,相比云計算和移動互聯網,用戶對大數據的接受程度依然不夠成熟。而且,縱覽IT業界,不管是新興行業,還是傳統行業都在考慮大數據對于自己所在行業到底意味著什么。其實,大數據對于各個行業都有不同的意義,而且它完全超越了數據本身的含義。
談到大數據,首先想到的是數據管理,在數據管理方面,人們想到的是Hadoop和MapReduce等新興技術,但是這些新興技術并不能解決所有的數據管理問題。數據倉庫作為一種傳統的數據技術在大數據時代依然煥發著自己的活力。
數據倉庫:從技術角度看問題
說到數據倉庫,就要從數據倉庫的概念提出說起。數據倉庫概念最早誕生于1983年,然后就出現了商務智能,直到20世紀90年代開始成熟,并出現了提取、轉換和加載(ETL),ETL的出現大大促進了商務智能(BI)的發展。以后,數據倉庫出現了各種擴展,出現了多維的聯機分析處理(OLAP)、數據集市、探查型數據倉庫和ODS。
有了ODS即便更新和業務處理遇到集成數據問題,系統還是能夠進行處理。其后,星型模型和事實表等都有了容身之地。有了探索型數據倉庫,統計學家有了一個數據基礎,可以支撐從數據管理員到統計分析員等不同角色的數據挖掘分析需求。一直到后來,數據倉庫變成了企業的信息工廠,進而數據倉庫也被稱為企業數據倉庫(EDW)。
隨著EDW環境復雜性的增加,企業越來越認為需要一種監控機制來管理數據倉庫,而這種監控機制與事務處理的監控機制本質上存在著各種差異。與此同時,商務智能的發展也隨著數據倉庫技術的發展而不斷演進,商務智能的發展要求其不僅僅為決策層提供支持,同時,也要給普通的業務人員提供支持。不僅要能從整個戰略層面進行綜合分析,還能夠在具體的戰術層面進行詳細指導,這些是商務智能未來的發展趨勢。隨著信息量的快速增長,產生了如網頁文本等信息數據分析的需求。進而衍生了對大數據的分析技術。
事實上,大數據和數據倉庫是同一個問題的兩個方面,大數據是業務視角,需要匯聚各類數據,建立客戶全景視圖,實現客戶深度洞察,而數據倉庫是技術視角,需要匯聚各類數據,全景實現數據全生命周期管理、元數據管理和數據監視管理。
數據倉庫和大數據的結合就是通過技術手段來解決業務問題。隨著大數據時代的發展,數據倉庫對于企業決策的支持作用將會越來越大。由此,數據倉庫也成為了各大數據解決方案廠商著力開展的業務領域。IBM、甲骨文,惠普、Teradata等廠商紛紛部署了自己的數據倉庫技術和產品。絕大多數的數據倉庫廠商能夠利用網格或者云架構將他們的產品擴展到PB級別,而且他們能夠完成數據庫內分析,即在大規模并行數據倉庫網格或者云環境中實現。他們還可以在企業數據倉庫之內來支持數據轉化和數據清洗功能。
數據倉庫發展迎挑戰
目前,大量的數據運行的企業中,新興的數據類型層出不窮,數據量增加的速度越來越快,越來越多的業務提出實時的需求,所有這些都讓數據倉庫在企業運營和領導決策支持中顯現出“疲態”。
數據倉庫遇到的第一個挑戰是對大量數據的存儲和管理。現在的數據量已經大大超越了傳統事物處理的數據量,而且隨著時間的推移,數據量還將不斷增加,數據類型還將更加多元化。
第二是數據倉庫要解決并行處理的問題。在傳統聯機事務處理應用中,用戶訪問系統的特點是短小而密集。對于一個多處理機系統來說,能夠將用戶的請求進行均衡分擔進行并行操作是非常關鍵的。在數據倉庫系統中,用戶訪問的特點是龐大而稀疏,每一個查詢和統計都很復雜,但是訪問頻率很低。
最后,對于企業級數據倉庫而言,數據源的 ETL操作是另一個挑戰,特別是實時的ETL操作。傳統的數據工具不能解決高容量和低延遲的需求,而能夠滿足這些需求的技術正是企業需要的。要解決這項需求所面臨的主要挑戰是,是否可以在給定的時間內移動必要的數據量。傳統的批量處理過程需要幾個小時甚至幾天的時間才能夠完成這樣的操作,這就不能滿足業務實時決策的要求。其他相關的挑戰在加載到數據倉庫時要減少操作系統上的影響,因為在數據倉庫中運行大的查詢會降低操作系統對使用者和客戶的服務。
另外,從各種各樣用戶設備上訪問數據倉庫中的業務信息,也影響到了數據倉庫的工作量以及它所支持的信息。從工作量的角度來看,用戶設備需要大量的小查詢,就需要在很低的延遲下跨越地域進行回答。從信息的角度來看,用戶使用移動設備希望實現隨時隨地的即時訪問,用戶需要的是最新的信息。而且需要很快地加載信息,以便用戶可以和歷史內容一起訪問數據。
三把利劍破解數據難題
Forrester高級數據管理分析師James Kobielus曾表示,數據倉庫可以通過三種方式幫助企業處理好數據問題:第一,在企業數據倉庫中,給不同的數據一個比較穩定的主題劃分,按照主題來組織企業數據,比如,數據倉庫架構中的OLAP cube,客戶數據是一個分區,財務數據是一個分區,人力資源數據是一個分區。不管是物理上的實現還是邏輯上劃分,這些數據主題都會比較穩定。這樣有利于根據數據的關聯性來匹配下游的應用和用戶。這是數據倉庫管理的核心所在,也是通過數據倉庫處理大數據的重要方式。
第二種方式是通過數據庫內分析,也就是在數據倉庫內部執行數據挖掘。利用數據倉庫執行數據清洗、數據挖掘和回歸分析。因為使用數據挖掘或者回歸分析可以從根本上了解數據建模式,所以這種方式可以很好地處理數據。然后使用數據庫內挖掘來填充下游的分析數據集市,數據挖掘和統計模型專業人士可以利用它將復雜的模式實現可視化。
第三種方式就是將數據倉庫作為數據治理的核心,可以合理地在數據倉庫中維護主數據。當數據倉庫作為數據治理與數據清洗的核心時,它將有助于搞清楚所有的信息。在整個企業架構中,數據就像是洪水一般涌入數據倉庫,數據倉庫作為數據的樞紐,可以確保大數據在下游的應用。
有了這三種方式,然后結合Hadoop、MapReduce等大數據新興技術,企業就可以處理好大數據難題。
總之,數據倉庫是一項基于數據管理的綜合性技術和解決方案,數據倉庫是企業不可或缺的關鍵性組成部分,它將成為數據庫市場的新一輪增長點。作為下一代應用系統的重要組成部分,數據倉庫可以把企業方方面面產生的數據匯集起來,然后分門別類,并最終對這些繁復復雜的信息進行分析處理,讓其成為了解企業運營、進行企業決策的寶貴資料。