999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種元數據驅動數據倉庫設計與應用

2014-04-29 00:00:00何永
科技創新與應用 2014年2期

摘 要:數據倉庫技術廣泛服務于業界信息系統建設之需求,大數據分布式架構的興起也促進了數據倉庫技術帶的發展。文章結合一個應用項目的需求,設計開源技術方案,實施多種異構數據整合、元數據驅動、主題標簽及Extjs架構的圖形顯示。實現了一套可視化的數據倉庫系統,用以解決復雜的異構數據以及數據的展示,也為后續的決策支持系統構建和數據挖掘工作提供基礎。

關鍵詞:元數據;ETL;異構數據;數據倉庫

1 引言

隨著聯入互聯網絡的發展,主機數、用戶數和信息源節點數的爆炸性增長,使數據形式也出現了多樣化,不光有結構性的數據,還有許許多多例如TXT文件或者圖片視頻等非結構性數據類型,但這些分散的數據使人們在信息檢索和網絡資源管理等方面面臨著許多難題。

關系型數據庫具有極強的管理能力,數據的安全性高,和可靠的并發機制,一直是結構化數據存儲的主流。但各種數據庫系統之間的差異,已經所依賴操作系統之間的異構型,嚴重影響了信息共享和數據交換。

隨著應用的不斷進步發展,企業已經不能光靠聯機事務處理OLAP去應對壓力取得行業領先水平,這是他們需要對自身業務的運作及整個市場行業相關的趨勢進行分析,做出有利的決策。這時對以往大量的歷史數據的使用和存貯就成了勢在必行。 但實際企業與企業之間,企業內部各部門之間業務、目標以及操作系統、存儲方式的不同必然造成數據上的差異,不能提供有效的信息共享,形成數據孤島,不能滿足管理人員決策分析的需求。傳統關系數據庫依然不能滿足以上需求,這時就需要一種能夠適應決策分析的數據環境——數據倉庫(Data Warehouse,DW)。在本文中建立一套數據倉庫系統,完成了多種異構數據的整合,簡單的BI分析并用圖表顯示。第二部分講述數據倉庫整體架構思路,第三部分為本套以元數據為驅動系統的具體實施,第四部分文章總結。

2 技術背景

數據倉庫是數據分析和決策支持系統(Decision Supporting System,DSS)在當代海量數據背景下產生的技術。是一個面向主題的、集成的、相對穩定的、反映歷史變化的結構化數據集合[1]。數據倉庫的建設更像一個過程而不是工程,以現有企業大量歷史的數據作為積累,進行歸納重組,運算分析,把計策信息及時地交給企業管理層,這才是數據倉庫的根本任務。經典架構見圖1。

圖1 經典數據倉庫DW

ETL(Extract-Transform-Load),即從各種異構數據源中抽取數據,并按照預先設計好的規則進行轉化清洗,處理一些冗余、歧義、殘缺、違反業務邏輯的數據,統一數據粒度,最后加載到目標數據倉庫中,是建立數據倉庫的必要基礎。ETL設計和開發占整個數據倉庫系統開發量的60%~80%[2],一般有兩種工具方案供選擇:一種使用數據倉庫引擎廠商提供的ETL工具進行數據的加載;通過ETL工具提供的編程API進行數據的加載。前一種更加簡便快捷,后一種更加靈活,性能也有一定的提升。此外最主要的問題就是如何建立有針對性的ETL過程模型,研究組織對早期建立ETL過程模型也給出了很多建議[5]。還有國外著名數據倉庫軟件廠商,如Informatica的powercenter,IBM的infoSphereDataStage,Oracle的Oracle Data Integration,Microsoft的SSIS都是優秀的數據倉庫工具,其中也有源工具Repository Explorer,Beeload,Kettle,DataSpider集成整套的DW和BI功能。

ETL過程的設計需要對數據結構,不同的主題也需要設計專門的ETL的過程。所以當需要轉變商業規則或數據結構,就需要重新設計ETL過程,重用性很低。為了解決以上問題,設計一種新的ETL應對方案,解決的了過程核心的重復編寫,提供了重用性,采用了ETL工具和API接口相結合的架構方式,能夠滿足大部分的數據源和多樣的處理過程,在保證數據加載性能的同時更靈活方便,以元數據為驅動,實施了一整套數據倉庫系統并研究分析。

3 系統設計

本系統主要以意大利Pavia大學IRMA項目為背景,實現一套交互性的城市助手系統,建立數據倉庫,提供分析圖表,幫助行政人員更好的管理城市基礎設施。市民也可以使用手機APP主動的加入到城市的監控,對公共設施出現的問題可以立即拍照上傳,并根據位置信息顯示在地圖上,不同用戶間可以相互評論。城市管理人員在web端監視到出現的問題,就會派專人去查看、確定問題,之后會有維修人員到現場去處理,并使用App追蹤維修進度。當事故解除,市民能查看到問題已處理,可以放心出行。城市管理者也會收到反饋,這樣管理者可以對事故做進一步的預測、預防。

首先以事故為主題確立需求,建立異構數據整合架構——即ETL過程設計,包括源數據確立、元數據驅動、ETL流程包。接著選擇維度屬性建立數據倉庫,包括事實表維表屬性選取、虛實多維數據庫設計。

3.1 異構數據整合架構

源數據——本文的系統主要由三種異構數據源,文本、xls、xml和數據庫,文本數據源和XlS文件,一般為業務部門常用數據格式,其中文本數據屬于非結構化數據;XML源數據主要是從新浪微博上根據關鍵字抽取的數據。傳統數據庫一般為系統內部結構化數據和外部開放API的DBMS數據,主要抽取跨業務的結構化數據。

元數據——是關于數據的數據,通過掃描數據字典來加載源數據庫和目標數據庫的體系結構,表相關信息等等。元數據庫管理模塊對元數據庫中的元數據提供修改和維護管理并寫入日志。中間件是轉換過程中的重要部件,減少對數據庫的操作,增加轉換效率,提高數據操作的可靠性和一致性。見圖2。

圖2 元數據驅動架構

ETL——數據的抽取是ETL過程的第一步,從多種異構數據源根據規則抽取數據,系統中三種主要源文件:文本數據為非結構化數據,作者主要采用正則表達式和語義詞典相結合的方式抽取;數據庫數據抽取方面直接使用ETL的工具抽?。籜ML和XLS的文件需要進行預處理,抽取模式和數據庫基本相同。

把多個功能相近的translater根據功能組成job,多個job組合實現了整個ETL過程。如圖3。兩個內部關系數據庫在抽取時先過濾掉重復記錄與空白記錄,xls文件要先設定數據字段的映射,文本文件需要進行字段操作提取所需的信息。分布式平臺上抽取的數據需要先進行字段拆分以便于文本字段整合,最后再通過相應的轉換流程與結構化數據整合。

3.2 多維數據倉庫數據庫

多維數據模型——主要包括事實表和維表,每個數據倉庫都包含一個或者多個事實表(見表1),它是每個多維模型的核心,不應該包含描述性的信息,以及除了數據度量字段與維度表中相關索引字段外任何的數據。維度表可以用來看作用戶分析數據的窗口,表中包含事實數據記錄的特性,提供信息并包含幫助匯總信息特性的層次結構。(見表2)

圖4 DFM雪花圖

表1 事實表

表2 維度表

CUBE——區域查詢時數據倉庫中進行OLAP分析的重要操作,為了提高查詢速度及分析性能,我們根據主題和需求定義分析模型,建立CUBE。常用的Cube分為三種:物理Cube、虛擬Cube、物理結合虛擬Cube。作者采用物理虛擬相結合能很好的發揮兩者的優點。把常用的時間維度、事故維度、區域維度等數據一次性裝入到原理立方體中建立物理Cube,這些特征變動量少、查詢量大。虛擬Cube事前并不建立任何Cube,而是根據用戶需求實時生成虛擬立方體,方便對于實時數據的更新,如一定維度下事故發生頻率。使用靈活但網絡負載大。如圖5

3.3 驗證

數據倉庫就是決策支持系統和聯機分析應用數據源的結構化數據環境。為了給用戶提供更清晰、簡潔、易于理解和操作的界面,我們做了表單、報表和各種圖形來顯示我們的數據,并提供一定的CRUD功能。把移動設備用戶的上傳消息根據地理位置聚類,對區域中有明顯消息增加的地點做實時的線狀圖顯示,當曲線的到達一定斜度,便生成提示信息,警告管理人員。如圖6。根據單位時間類事故發生的頻率作了統計分析,如圖7。選擇查看地點維度,如選取城市維度,發現paiva事故發生率高于napol。選擇時間維度觀測到pavia下午4點的問題發生率是全天最高。

圖6 檢測儀表

圖7 事故分析圖

4 結束語

本文提出一種較靈活的ETL方式,該方式采用手工編碼與Kettle工具相互協作,以元數據為驅動對于多種異構數據源進行整合利用,從數據源的記錄、抽取規則、多維數據庫模型等全程監視,為數據倉庫提供更加全面、更加豐富的源數據,并以報表、數據圖和儀表的形式展示在web端。管理人員可以及時地檢測到事故的發生,也可以對區域的問題進行總結分析,做出有效的預防工作。進行數據挖據和BI分析,最大限度的利用好企業的大量數據。

參考文獻

[1]Inmon W H (2005) Building the data warehouse.Fourth Edition,Wiley.

[2]P.Vassiliadis,A. Simitsis,and S.Skiadopoulos,Conceptual modeling for ETL processes,Proc.5th ACM Intl. Workshop on Data Warehousing and OLAP (DOLAP),pp.14-21,2002.

[3]J.Trujillo and S. Lujan-Mora.“A UML Based Approach for Modelling ETL Processes in Data Warehouses”.In I.-Y.Song,S.W.Liddle,T. W. Ling,and P. Scheuermann,editors,ER,volume 2813 of Lecture Notes in Computer science,Springer,2003.

[4]Gianmario Motta,Thiago Barroero,Giovanni Miceli and Yuwei Yin. “Design of performance aware service systems: A Case study”. Service Sciences (IJCSS),2011 International Joint Conference on. 25-27 May 2011.

[5]Selmeci,A.Orosz,T.“SAP remote communications”.Applied Computational Intelligence and Informatics (SACI),2012 7th IEEE International Symposium on.

主站蜘蛛池模板: 美女内射视频WWW网站午夜| 国产幂在线无码精品| 99热亚洲精品6码| 亚洲人成在线精品| 国产精品主播| 精品视频在线一区| 全免费a级毛片免费看不卡| 国产精品免费久久久久影院无码| 成人综合网址| 国产高清又黄又嫩的免费视频网站| 久久成人免费| 国产精品yjizz视频网一二区| 日韩在线成年视频人网站观看| 91成人精品视频| 97在线公开视频| 中文字幕 91| 国产成人亚洲精品蜜芽影院| 性欧美久久| 亚洲最黄视频| 中文字幕精品一区二区三区视频 | 美女内射视频WWW网站午夜| 九九这里只有精品视频| 亚洲一区二区三区香蕉| 亚洲成人福利网站| 精品偷拍一区二区| 一级做a爰片久久免费| 久久久精品国产SM调教网站| 亚洲婷婷丁香| 风韵丰满熟妇啪啪区老熟熟女| 欧美一区国产| 欧美日韩一区二区在线免费观看 | 久久综合丝袜日本网| 福利视频一区| 九色在线观看视频| 亚洲不卡影院| 九色在线观看视频| 亚洲不卡影院| 欧美精品在线免费| 全部免费特黄特色大片视频| 综合色在线| 青青草原偷拍视频| 国产精品专区第一页在线观看| 无码免费视频| 亚洲精品第五页| 国产精品亚洲综合久久小说| 999精品视频在线| 综合天天色| 久久国产精品无码hdav| 亚洲中文字幕23页在线| 中文字幕人成人乱码亚洲电影| 久久久久人妻精品一区三寸蜜桃| 国产精品一区二区久久精品无码| 福利国产在线| 国产在线拍偷自揄观看视频网站| 国产对白刺激真实精品91| 国产精品不卡永久免费| www.亚洲一区| 成人在线亚洲| 国产探花在线视频| 亚洲视频免| 蜜臀AV在线播放| 免费一级成人毛片| 免费AV在线播放观看18禁强制| 在线看片免费人成视久网下载| 波多野结衣中文字幕久久| 免费一级成人毛片| 国产成人亚洲精品蜜芽影院| 五月丁香伊人啪啪手机免费观看| 免费不卡在线观看av| 国产亚洲欧美日韩在线观看一区二区| 亚洲国产理论片在线播放| 亚洲精品日产精品乱码不卡| 亚洲国产成人精品青青草原| 亚洲精品视频免费观看| 午夜欧美理论2019理论| 99久久精品免费看国产电影| 国产成人h在线观看网站站| 国产乱子伦视频在线播放| 中文字幕日韩视频欧美一区| 国产成人精品2021欧美日韩| V一区无码内射国产| 特级aaaaaaaaa毛片免费视频|