999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

通過對比數據庫來理解數據倉庫

2013-04-29 23:14:55李小強何珊何金明
考試周刊 2013年91期
關鍵詞:數據庫

李小強 何珊 何金明

摘 要: 數據倉庫的產生是信息技術發展的必然結果。它是在數據庫的基礎上發展起來的,又不同于數據庫。數據庫是作為數據管理的手段,主要用于事務處理,而數據倉庫則對聯機分析的能力提出更高的要求。本文通過對數據庫和數據倉庫的概念及應用進行較全面的對比分析,對數據倉庫有更深刻的理解。

關鍵詞: 數據庫 數據倉庫 區別

很多BI論壇上在探討數據倉庫的概念與理解:為什么要建立數據倉庫,數據倉庫和數據庫有什么區別?理論上的說法很多,但要真正很好地理解,能簡潔地向客戶闡述明白,讓客戶覺得建立數據倉庫是一件值得做的事情,就有必要回答這個問題。

一、數據庫與數據倉庫的概念區別

嚴格地說,數據庫是“按照數據結構來組織、存儲和管理數據的倉庫”。在經濟管理的日常工作中,常常需要把某些相關的數據放進這樣的“倉庫”,并根據管理的需要進行相應的處理。例如,企業或事業單位的人事部門常常要把本單位職工的基本情況(職工號、姓名、年齡、性別、籍貫、工資、簡歷等)存放在表中,這張表就可以看成是一個數據庫。有了這個“數據庫”就可以根據需要隨時查詢某職工的基本情況,也可以查詢工資在某個范圍內的職工人數,等等。這些工作如果都在計算機上自動進行,那人事管理就可以達到極高的水平。此外,在財務管理、倉庫管理、生產管理中也需要建立眾多的這種“數據庫”,使其可以利用計算機實現財務、倉庫、生產的自動化管理。J.Martin給數據庫下了一個比較完整的定義:數據庫是存儲在一起的相關數據的集合,這些數據是結構化的,無有害的或不必要的冗余,并為多種應用服務;數據的存儲獨立于使用它的程序;對數據庫插入新數據,修改和檢索原有數據均能按一種公用的和可控制的方式進行。當某個系統中存在結構上完全分開的若干個數據庫時,則該系統包含一個“數據庫集合”。

數據倉庫是一種系統,這種系統是用數據庫裝東西;關鍵是裝的什么樣的數據,數據庫裝的原始數據,沒經過任何加工;而數據倉庫是為了滿足分析需要,對源數據進行了Transform過程,具體是怎樣一個處理過程,可以從BillInmon的倉庫定義四個特性進行理解。數據倉庫系統與其他基礎業務系統(例如財務系統、銷售系統、人力資源系統等)的區別是:

基礎業務系統的特點是各管各的,例如農場系統生產了白菜,那么用一個數據庫來裝,人力資源系統生產了豬肉,再用一個數據庫來裝。我要做一道菜,取菜的方式為如下兩種。一是分別到各個數據庫去取,比較麻煩,同時各個數據庫中放的是一些比較原始的東西,我要拿過來做菜,從生菜到下鍋還需要經過很多道工序。二是讓種菜的菜農送過來,但送過來的東西不一定是我想要的,而且不同的時候我想要不同的東西,這樣對買賣雙方造成很多麻煩。為了減少這些困擾,就需要改進從菜農供菜到炒菜的流程,超市就應運而生了。數據倉庫系統就是建立一個大的超市,將各地菜農出產的東西收集過來,清洗干凈,分門別類地放好。這樣,你要哪種菜的時候,直接從超市里面拿就可以了。

二、數據庫與數據倉庫應用于不同的方向

從應用上來講,數據庫是面向事務的設計,數據倉庫是面向主題設計的。數據庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。

因此設計上,數據庫設計是盡量避免冗余,一般采用符合范式的規則來設計,數據倉庫在設計是有意引入冗余,采用反范式的方式來設計。數據庫是為捕獲數據而設計,數據倉庫是為分析數據而設計,它的兩個基本的元素是維表和事實表。維是看問題的角度,比如時間,部門,維表放的就是這些東西的定義,事實表里放著要查詢的數據,同時有維的ID。

任何技術都是為應用服務的,結合應用可以很容易地理解。以銀行業務為例。數據庫是事務系統的數據平臺,客戶在銀行做的每筆交易都會寫入數據庫,被記錄下來,這里,可以簡單地理解為用數據庫記賬。數據倉庫是分析系統的數據平臺,它從事務系統獲取數據,并進行匯總、加工,為決策者提供決策的依據。比如,某銀行某分行一個月發生多少交易,該分行當前存款余額是多少。比如,某品牌汽車在某地一個月銷售多少臺汽車,有多少臺是屬于高檔的。如果銷售量又多,咨詢的人數又在上漲,那么就要考慮在這個地區設高檔4S店。

顯然,有些事實數據的交易量是巨大的,通常以百萬甚至千萬次計算。事務系統是實時的,這就要求時效性,比如在銀行,客戶存一筆錢需要幾十秒是無法忍受的,這就要求數據庫只能存儲很短一段時間的數據。而分析系統是事后的,它要提供關注時間段內所有的有效數據。這些數據是海量的,匯總計算起來也要慢一些,但是,只要提供有效的分析數據就達到目的了。

數據倉庫,是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它絕不是所謂的“大型數據庫”。那么,數據倉庫與傳統數據庫比較,有哪些不同呢?讓我們先看看W.H.Inmon關于數據倉庫的定義:面向主題的、集成的、與時間相關且不可修改的數據集合。

1.“面向主題的”:傳統數據庫主要是為應用程序進行數據處理,未必按照同一主題存儲數據;數據倉庫側重于數據分析工作,是按照主題存儲的。這一點,類似于傳統農貿市場與超市的區別——市場里面,白菜、蘿卜、香菜會在一個攤位上,如果它們是一個小販賣的;而超市里,白菜、蘿卜、香菜則各自一塊。也就是說,市場里的菜(數據)是按照小販(應用程序)歸堆(存儲)的,超市里面則是按照菜的類型(同主題)歸堆的。

2.“與時間相關”:數據庫保存信息的時候,并不強調一定有時間信息。數據倉庫則不同,出于決策的需要,數據倉庫中的數據都要標明時間屬性。決策中,時間屬性很重要。同樣都是累計購買過九車產品的顧客,一位是最近三個月購買九車,一位是最近一年從未買過,這對于決策者意義是不同的。

3、“不可修改”:數據倉庫中的數據并不是最新的,而是來源于其他數據源。數據倉庫反映的是歷史信息,并不是很多數據庫處理的那種日常事務數據(有的數據庫例如電信計費數據庫甚至處理實時信息)。因此,數據倉庫中的數據是極少或根本不修改的;當然,向數據倉庫添加數據是允許的。

三、不要把數據倉庫理解為數據倉庫產生的過程

早期一直不理解數據倉庫是什么困惑得很。宏觀一點講,數據倉庫就是堆放公司所有數據的地方,之所以把數據都堆在一起,是為了從中找到有價值的東西。

數據倉庫更多的是一個概念,不要把數據倉庫想成那些號稱是數據倉庫的軟件產品們。(數據倉庫的建立和數據挖掘都是一個過程,可以從數據倉庫生命周期和OLTP系統生命周期的區別進行理解)。

數據倉庫的物理上就是數據庫,相對業務系統數據庫叫OLTP數據庫(用于業務處理),這種數據庫叫OLAP數據庫,OLAP是針對特定問題的聯機數據訪問和數據分析而產生的一種技術,它滿足DDS從多種角度對數據進行快速、一致、交互地分析,克服傳統DDS交互能力差的弊病,使決策者能夠對數據進行深入觀察。OLAP服務器使用為用戶預定義的多維數據視圖對數據倉庫的信息進行統計分析處理,為具有明確分析范圍和分析要求的用戶提供高性能的決策支持在線分析處理,是基于DW上的一種多維分析方式。

數據倉庫的概念是針對以下基本需求產生的:公司的業務系統很多,業務系統的歷史數據不方便查詢。不同的業務系統往往管理部門不同,地域不同。能不能將所有這些數據集中起來,再淘淘有沒有有意義的業務規律。數據倉庫數據庫往往很大,因為公司所有的數據集中得越多,越能淘到有價值的發現,例如隨便就100G以上。

數據倉庫的組成十分繁雜,既有業務系統的歷史數據,又有人事、財務數據,還要自己建一些基礎性的數據,例如,公共假期數據、地理信息、國家信息等。

數據倉庫概念包含從業務生產系統采集數據的程序,這個程序還不能影響業務系統的運行,即所謂“ETL”過程。數據倉庫包括業務系統長期的歷史數據,例如5年,用來分析,即所謂“ODS”數據。數據倉庫包括針對某項業務值(例如銷售量)重新打上標簽的業務流水數據,即所謂“事實表”、“維度表”。數據倉庫概念興許還包含報表生成工具,即所謂“BI”工具。這些工具能夠達到幾年前所謂DSS(決策分析)的效果。數據倉庫的客戶歷史資料的分析,也許又與CRM系統沾點邊。總之,一個公司要針對已有的歷史業務數據,充分利用它們,那么就應上數據倉庫項目。至于那些嚇唬人的大寫字母的組合,只是為達到這個目的的科學技術罷了。必須牢記住數據倉庫的基本需求,不要被供應商嚇著。

四、數據倉庫是數據提煉的結果

數據倉庫可以說是決策支持系統,能幫助老板了解企業的整體全貌,看到數據倉庫提供的經過整理統計歸納的數據后老板憑自己的管理經驗可以發現企業的問題或困難或成功因素在哪一方面,然后不斷地追溯數據,直到確定到最具體的細節上,這樣能夠不斷提升老板或管理層的管理水平,不斷改善企業的管理情況。最好的一個例子就是某大型公司炸薯片的故事:

某大型食品公司的一位生成經理曾發現,每天晚上炸薯片用的油量比白天增加很多,薯片質量也下降很多,一時卻搞不清是什么原因。后來,公司運用商業智能(BusinessIntelligence,簡稱BI)技術發現,因為在夏天天氣炎熱,人容易犯困,在凌晨3點到5點工人的工作效率不高。公司在對相關數據分析后得知,工人在3點到5點增加一頓夜宵,工人的工作效率明顯提高。得到這個結果后,公司決定在晚上定時增加一頓夜宵,并把工作時間縮短1個小時,結果是薯片的產量和質量都提高了很多。

五、數據倉庫的幾個特點

數據倉庫的方案建設的目的,是為前端查詢和分析作為基礎,因為有較大的冗余,所以需要的存儲空間較大。為了更好地為前端應用服務,數據倉庫必須有如下幾點優點,否則就是失敗的數據倉庫方案。

1.效率足夠高。客戶要求的分析數據一般分為日、周、月、季、年等,可以看出,日為周期的數據要求的效率最高,要求24小時甚至12小時內,客戶能看到昨天的數據分析。由于有的企業每日的數據量很大,設計不好的數據倉庫經常會出問題,延遲1—3日才能給出數據,顯然不行。

2.數據質量??蛻粢锤鞣N信息,肯定要準確的數據,但由于數據倉庫流程至少分為3步,2次ETL,復雜的架構會更多層次,那么由于數據源有臟數據或者代碼不嚴謹,都可以導致數據失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。

3.擴展性。之所以有的大型數據倉庫系統架構設計復雜,是因為考慮到了未來3—5年的擴展性,這樣的話,客戶不用太快花錢重建數據倉庫系統,就能很穩定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩沖,不至于數據量大時就運行不起來。

參考文獻:

[1]周寧,吳佳鑫.信息資源數據庫[M].武漢大學出版社,2010.9,第三版.

[2]陸劍峰,張浩.數據倉庫數據更新的研究及基于Oracle數據庫的開發與應用[J].《計算機工程與應用》,2004(26).

[3]蔡菁,吳東崢.試析數據倉庫技術與數據庫技術[J].《計算機時代》,2002(8).

[4]王瑞梅.管理信息系統中的數據庫與數據倉庫[J],《價值工程》.2005(七).

[5]趙俏.數據庫與數據倉庫的比較[J].《遼寧師專學報。自然科學版》,2007(四).

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 伊大人香蕉久久网欧美| 欧美v在线| 最新国产成人剧情在线播放| 日韩高清中文字幕| 韩国自拍偷自拍亚洲精品| 尤物在线观看乱码| 亚洲区欧美区| 国产精品99一区不卡| 精品99在线观看| 大乳丰满人妻中文字幕日本| 国模视频一区二区| 久久久久人妻精品一区三寸蜜桃| a级毛片网| 奇米影视狠狠精品7777| 免费女人18毛片a级毛片视频| 91精品国产麻豆国产自产在线| 日韩欧美国产另类| 国产门事件在线| 久一在线视频| 欧美激情网址| 精品综合久久久久久97超人| 思思99热精品在线| 污网站免费在线观看| 无码一区18禁| 国产精品入口麻豆| 中文无码日韩精品| 午夜福利无码一区二区| 1769国产精品视频免费观看| 国产真实二区一区在线亚洲| 久久精品国产亚洲麻豆| 久热这里只有精品6| 欧美激情视频二区三区| 国产在线精品美女观看| 亚洲男人天堂网址| 熟妇丰满人妻| 国产精品第三页在线看| 日韩毛片基地| 精品人妻一区无码视频| 99这里只有精品在线| 久久精品亚洲热综合一区二区| 99精品欧美一区| 欧美第二区| 看看一级毛片| 亚洲免费三区| 久久精品波多野结衣| 国内精品久久人妻无码大片高| 91精品啪在线观看国产91| 久久综合激情网| 欧美国产日产一区二区| 日本a级免费| 国产精品无码一区二区桃花视频| 欧美特黄一级大黄录像| 欧美中文字幕在线二区| 久久免费精品琪琪| 国产欧美中文字幕| 91美女视频在线| 91在线视频福利| 亚洲自拍另类| 一级毛片免费不卡在线视频| 日本欧美在线观看| 白浆视频在线观看| 精品黑人一区二区三区| 日韩第九页| 久草视频福利在线观看 | 亚洲美女视频一区| 日韩在线播放中文字幕| 亚洲永久色| 日韩精品一区二区三区免费| 亚洲综合片| 色香蕉网站| 亚洲中文字幕手机在线第一页| 久久精品国产亚洲AV忘忧草18| 极品av一区二区| 国产在线视频自拍| 尤物在线观看乱码| 久久夜色精品| 她的性爱视频| 国产永久在线视频| 国产人成乱码视频免费观看| 国产精品99久久久久久董美香| 亚洲天堂伊人| 欧美激情视频一区|