官維



摘? 要:為了輔助某汽車銷售公司在管理上的科學決策,本文通過需求分析、源數(shù)據(jù)準備、建模、抽取等步驟構建了一個數(shù)據(jù)倉庫,并開展了多維分析、報表可視化等應用。結果表明,該數(shù)據(jù)倉庫能有效支持該公司的銷售分析與決策,也為其他企業(yè)同類項目的實施提供了一定的經(jīng)驗參考。
關鍵詞:數(shù)據(jù)倉庫構建;數(shù)據(jù)抽取;多維分析;報表可視化
中圖分類號:TP311.13? ? ?文獻標識碼:A
Research on Construction and Application of Data Warehouse
Project in an Auto Sales Company
GUAN Wei
(Experimental Center,Dalian Neusoft University of Information,Dalian 116023,China)
Abstract:In order to assist the scientific decision on the management of a certain automobiles sales company,a data warehouse is constructed in this paper after a series of steps,such as requirement analysis,source data preparations,modeling and extraction.And the applications of multidimensional analysis and report visualization are performed as well.The result shows that the data warehouse can support this company's sales analysis and decision-making effectively,and the experience can also be referred for the implementation of similar projects by other companies.
Keywords:construction of data warehouse;data extraction;multidimensional analysis;report visualization
1? ?引言(Introduction)
某汽車銷售公司是一家以整車銷售為主營業(yè)務的貿易公司,在國內外都占有重要的市場份額。隨著公司規(guī)模的不斷擴大,公司的業(yè)務量也逐漸增長,并積累了大量的歷史銷售數(shù)據(jù),如何從這些數(shù)據(jù)中挖掘有價值的規(guī)律以更好地輔助企業(yè)高層的科學決策已經(jīng)成為該公司戰(zhàn)略規(guī)劃中的一個重要內容。
商務智能可以使分散在各業(yè)務系統(tǒng)中的信息進行有機集成[1],為企業(yè)的未來發(fā)展和市場競爭提供參考。而數(shù)據(jù)倉庫作為商務智能的核心技術是一種為企業(yè)管理服務的重要手段[2]。目前,數(shù)據(jù)倉庫技術已廣泛地應用于各個行業(yè),包括:姜兆龍等研究了數(shù)據(jù)倉庫的測試特征并之應用于建設銀行的實踐[3];馮強等探索了商務智能技術在物流企業(yè)的數(shù)據(jù)倉庫構建中的具體應用[4];余媛等立足于交通領域,研究了數(shù)據(jù)倉庫在公交運營信息管理中的構建步驟及實現(xiàn)細節(jié)[5]、樊持杰等將數(shù)據(jù)倉庫技術應用在高校突發(fā)公共衛(wèi)生事件的預警和控制中,取得了良好的效果[6]。數(shù)據(jù)倉庫能夠對企業(yè)的業(yè)務數(shù)據(jù)開展深層次的挖掘與分析,以快速獲取其中有用的決策信息,進而提升企業(yè)的效益和競爭力。
因此,本文將從某汽車銷售公司的實際業(yè)務需求和管理目標出發(fā),借助微軟公司的SQL Server商務智能工具構建一個汽車銷售的數(shù)據(jù)倉庫,在此基礎上開展多維分析和報表可視化等應用,以滿足該公司規(guī)模化發(fā)展中的管理與決策需要,同時,也為其他同類企業(yè)甚至其他領域提供可借鑒的經(jīng)驗。
2? 需求分析與源數(shù)據(jù)準備(Requirement analysis and source data? preparations)
該汽車銷售公司的管理人員需要將企業(yè)銷售部門近些年來的業(yè)務數(shù)據(jù)轉換為統(tǒng)計數(shù)據(jù),并以直觀的可視化報表加以展示,以幫助高層做出正確的管理決策。因此,在項目開始前,要通過與客戶的反復溝通明確用戶的需求,詳細了解銷售部門的業(yè)務運行流程;按照業(yè)務主線,抽取關鍵的業(yè)務概念,將其抽象化并分組;理清分組內每個步驟的具體實現(xiàn)細節(jié)并進一步細化與抽象,同時理清分組間的關聯(lián)關系,進而形成完整的數(shù)據(jù)模型[7]。
通過分析,該公司需要的是與銷售相關的統(tǒng)計型報表,支持可視化分析與瀏覽。因此,本步驟首先要確定和建立源數(shù)據(jù)。源數(shù)據(jù)是數(shù)據(jù)倉庫構建的關鍵步驟和來源基礎,確定源數(shù)據(jù)就是根據(jù)相關的數(shù)據(jù)源主題構建源數(shù)據(jù)表,并從企業(yè)的業(yè)務系統(tǒng)(如ERP)中抽取所需數(shù)據(jù)至源數(shù)據(jù)表的過程。
根據(jù)本項目的實施目標,確定七個源數(shù)據(jù)主題,包括:下訂單方式、銷售人員、發(fā)貨方式、訂單日期、客戶、訂單狀態(tài)、訂單價值。基于上述源業(yè)務主題,通過調用SQL語句建立相應的數(shù)據(jù)庫表,包括:下訂單方式表、銷售人員表、發(fā)貨方式表、訂單日期表、客戶表、訂單狀態(tài)表、訂單價值段表、訂單分析表。其中,前七個表作為后續(xù)數(shù)據(jù)倉庫中的維度表,訂單分析表作為事實表。上述源數(shù)據(jù)表的創(chuàng)建結果見圖1。
圖1 源數(shù)據(jù)表
Fig.1 Tables of source data
3? 數(shù)據(jù)倉庫建模與數(shù)據(jù)抽取(Data warehouse modeling and extraction)
3.1? ?數(shù)據(jù)倉庫建模
常見數(shù)據(jù)倉庫的模型包括兩種:星型模型和雪花型模型。兩種模型各具特色,在許多的應用場景中往往都是配合使用,以發(fā)揮各自的優(yōu)勢[8]。其中:星型模型是由事實表和維度表組成,事實表處于整個模型的核心位置,其他的維度表以事實表為中心呈星型排列。維度表只與事實表相關聯(lián),維度表之間沒有任何關系。每個維度表中的主鍵都是單列的,且該主鍵同時被放置在事實表中,作為連接事實表與維度表的外鍵;雪花模型是對星型模型的擴展。通過對某些維度進行“層次化”操作,使原有的維度表被擴展為更小的事實表,進而形成局部的層次關系,即某個維度表不是與事實表直接相聯(lián),而是依附于另一個層級較高的維度表,維度表與其他的維度表也是靠主外鍵關聯(lián)的。通過維表層次關系的下鉆操作可以進一步查看更細粒度的數(shù)據(jù)。星型模型與雪花模型的對比見表1。
表1 雪花模型與星型模型對比
Tab.1 Star model vs.snowflake model
比較標準 星型模型 雪花模型
數(shù)據(jù)優(yōu)化 使用反規(guī)范化數(shù)據(jù),維度表直接與事實表相關,冗余大 使用規(guī)范化設計,數(shù)據(jù)組織合理,冗余少,數(shù)據(jù)量小
業(yè)務模型 所有必要的維度表在事實表中都只擁有外鍵 由一個不同維度表主鍵-外鍵的關系來表示
查詢性能 維度表與事實表間的連接較少,性能較高 維度表與事實表間的連接很多,性能較低
ETL操作 加載維度表,不需要額外的附屬模型,操作簡單,可并行 加載數(shù)據(jù)集市,受附屬模型限制,操作復雜,不能并行化
通過對本公司汽車銷售業(yè)務的分析,本文采用星型模型,并使用SQL SERVER工具完成數(shù)據(jù)倉庫的構建。具體過程如下:
第一,建立數(shù)據(jù)源。數(shù)據(jù)源是特定數(shù)據(jù)的集合,是為了訪問數(shù)據(jù)所需要的額外信息。在創(chuàng)建數(shù)據(jù)源時,選擇綁定了名稱為“H”數(shù)據(jù)庫的本地連接,下一步后的模擬信息選擇“默認值”,之后點擊“完成”按鈕。
第二,建立數(shù)據(jù)源視圖。數(shù)據(jù)源視圖由數(shù)據(jù)源生成,它可以直接展示數(shù)據(jù)源中表與表間的聯(lián)系及層次結構。通過數(shù)據(jù)源視圖提供的可視化平臺,能夠方便地添加、刪除多維數(shù)據(jù)集的表并建立、維護表與表間的關系。在此處,將所有數(shù)據(jù)源中的表都選中至數(shù)據(jù)源視圖中,作為數(shù)據(jù)源視圖包含的對象。
第三,建立維度。所有維度都是基于數(shù)據(jù)源視圖中的表列或視圖列的屬性組。獨立于多維數(shù)據(jù)集存在的維度稱為數(shù)據(jù)庫維度,多維數(shù)據(jù)集中的數(shù)據(jù)庫維度實例稱為多維數(shù)據(jù)集維度。此處選擇主表并創(chuàng)建所需維度,同時指定每個維度的屬性。
第四,創(chuàng)建多維數(shù)據(jù)集。多維數(shù)據(jù)集是一個數(shù)據(jù)集合,也稱為多維立方體。多維數(shù)據(jù)集由一個事實表和多個維度表構成,事實表是核心,由維度外鍵和度量值組成;維度表是包圍事實表的立體表面,對立方體的切面操作實際是從不同的角度看事實。通過向導選擇事實表和所需的維度表,完成多維數(shù)據(jù)集的創(chuàng)建。
本文數(shù)據(jù)倉庫的建模結果見圖2。
圖2 數(shù)據(jù)倉庫模型
Fig.2 Model of data warehouse
3.2? ?數(shù)據(jù)抽取
數(shù)據(jù)抽取(也稱為ETL)是數(shù)據(jù)倉庫構建的核心環(huán)節(jié)之一,就是將原始數(shù)據(jù)從業(yè)務系統(tǒng)中抽取出來,經(jīng)過轉換、清洗和裝載的過程,形成新的數(shù)據(jù)倉庫。本項目的數(shù)據(jù)抽取包括對維度的抽取和對多維數(shù)據(jù)集的抽取。
以對“訂單價值段”維度的數(shù)據(jù)抽取為例,說明抽取過程。選中相應的維度,點擊“處理”按鈕,進入處理維度界面,再點擊“運行”按鈕執(zhí)行處理過程。“處理”就是將相應的維度激活,只有在處理后數(shù)據(jù)才會顯示,即實現(xiàn)了數(shù)據(jù)抽取過程。需要注意的是,在查看維度中的數(shù)據(jù)或維度發(fā)生改變時,都需要對維度進行處理,否則維度信息會不準確。完成處理之后,為該維度添加層次結構,以保證其值是按從小到大排序,點擊“瀏覽器”,可以顯示當前的維度值,見圖3。
圖3 抽取的維度值
Fig.3 Dimension value after extraction
4? ?應用實例(Examples of application)
4.1? ?多維分析
多維數(shù)據(jù)分析可以對以多維形式堆積起來的數(shù)據(jù)進行切片、切塊、鉆取、旋轉等各種分析操作,方便解析數(shù)據(jù),使分析者、決策者能從多個角度、多個方面觀察系統(tǒng)中的數(shù)據(jù),從而更加深入了解隱含在數(shù)據(jù)中的重要信息。具體過程如下:
(1)切片
切片是在給定的數(shù)據(jù)立方體的一個維度上進行選擇操作,其結果是一個二維的平面數(shù)據(jù)。此處執(zhí)行“訂單價值—訂單數(shù)量”的切片操作。其執(zhí)行結果見圖4。
圖4 切片操作結果
Fig.4 Result of slice operation
圖4中,通過切片操作,可看到在0—100價值段的銷售數(shù)量最多,達到1萬筆以上,2000—5000價值段的銷售數(shù)量排名第二,也接近1萬筆,而100—500價值段的銷售量最少,僅1409筆。因此,應繼續(xù)保持0—100和2000—5000兩個價值段的銷售優(yōu)勢,同時應加強100—500價值段的宣傳,擴大其影響進而提升其銷售量。
(2)切塊
切塊是在給定的數(shù)據(jù)立方體兩個或多個維度進行選擇操作,其結果是子立體。此處執(zhí)行“訂單價值—訂單數(shù)量—客戶受教育程度”的切塊操作。其執(zhí)行結果見圖5。
圖5 切塊操作結果
Fig.5 Result of dice operation
圖5中,通過切塊操作,可看到在0—100價值段且面向受教育程度為Partial College的銷售數(shù)量最多,為3041筆,而100—500價值段且面向受教育程度為Partial High School的銷售數(shù)量最少。因此,應深入分析受教育程度為Partial College人群的消費習慣和特點,總結其規(guī)律,并將之應用于覆蓋不同價值段的消費群體,從總體上提升該公司的銷售總量,以獲取更多的利潤和價值。
(3)旋轉
旋轉是改變維度的方向。此處執(zhí)行“訂單價值—訂單數(shù)量—客戶受教育程度”向“客戶受教育程度—訂單數(shù)量—訂單價值”的旋轉操作。其執(zhí)行結果見圖6。
圖6 旋轉操作結果
Fig.6 Result of rotate operation
圖6中,通過旋轉操作,通過橫向維度,可觀察到針對不同類別受教育程度的消費者在不同價值段的銷售量分布情況;通過縱向維度,可觀察到某個價值對應不同受教育程度的消費者的銷售分布情況。可見,旋轉可以通過一個全新的視角觀察到同一數(shù)據(jù)立方體的不同顯示效果,進而獲得新的發(fā)現(xiàn)與結論,以更好地輔助企業(yè)的科學決策。
(4)鉆取
鉆取是在維度級別的基礎上繼續(xù)深入的了解觀察數(shù)據(jù)。此處針對訂單數(shù)量執(zhí)行“客戶所在地區(qū):國家”向“省”再向“市”的鉆取操作,其執(zhí)行結果見圖7。
圖7 鉆取操作結果
Fig.7 Result of drill down operation
圖7中,加拿大(Canada)的不列顛哥倫比亞省(British Columbia)的銷售數(shù)量最多(3359),通過進一步的下鉆,可以查看該省下屬不同城市的銷售數(shù)量。可見,鉆取操作可在不同層次的行政區(qū)域間快速切換,即時瀏覽任一粒度層的銷售數(shù)量,從而為面向不同區(qū)域的銷售情況分析提供了全面而靈活的數(shù)據(jù)支持。
4.2? ?報表可視化
報表能夠以客制化的樣式直觀展示數(shù)據(jù)分析的結果,是數(shù)據(jù)倉庫最典型的應用形式之一,本節(jié)基于SQL Server的報表設計器實現(xiàn)數(shù)據(jù)的可視化分析。具體過程如下:
第一,依據(jù)報表服務向導創(chuàng)建報表實例。
第二,針對此報表實例,建立共享數(shù)據(jù)源,用于連接到目標數(shù)據(jù)庫。
第三,定制報表結構,并選擇報表類型為“表格格式”。
第四,形成并瀏覽報表結果。
基于上述步驟,創(chuàng)建的各類報告結果如下:
(1)各個地區(qū)的銷售統(tǒng)計報表
該報表展示各個地區(qū)的銷售統(tǒng)計結果,見圖8。
圖8 各個地區(qū)的銷售統(tǒng)計報表
Fig.8 Sales statistics report for each region
由圖8可見,在澳大利亞新南威爾士州的科夫斯港訂單價值在100萬以內的銷售記錄有77條、100—500萬的銷售記錄有6條、500—1000萬的銷售記錄有24條、1000—2000萬的銷售記錄有22條。
(2)訂單價值及數(shù)量報表
報表展示的是訂單價值及數(shù)量,見圖9。
圖9 訂單價值及數(shù)量統(tǒng)計報表
Fig.9 Statistics report of order value and quantity
由圖9可見,訂單價值在100萬以內的銷售記錄統(tǒng)計11471條。
(3)訂單價值與數(shù)量及受教育程度報表
報表展示的是訂單價值、數(shù)量及受教育程度間的關系,見圖10。
圖10 訂單價值、數(shù)量及受教育程度統(tǒng)計報表
Fig.10 Statistics report of sales value,quantity and?education level
由圖10可見,訂單價值在100萬以內,顧客受教育程度是高中,訂單統(tǒng)計為1162條。
(4)受教育程度與訂單數(shù)量及價值報表
此報表展示的是受教育程度、訂單數(shù)量及價值之間的關系,結果見圖11。
圖11 受教育程度、訂單數(shù)量及價值統(tǒng)計報表
Fig.11 Statistics report of education level,order quantity?and value
由11圖可見,從總體上看,在0—100萬元價值的訂單數(shù)量是最多的,100—500萬價值的訂單數(shù)量是最少的。受教育程度為Bachelors和Partial College兩類人群的訂單數(shù)量在所有價值區(qū)間中都比較靠前,其中,受教育程度為Partial的人群在0—100萬價值的訂單數(shù)量最多,超了3000筆。
5? ?結論(Conclusion)
本文闡述了某汽車銷售公司數(shù)據(jù)倉庫項目的構建過程,包括源數(shù)據(jù)準備、建模、抽取等步驟,并從多維分析及可視化報表兩個角度展示了該數(shù)據(jù)倉庫能為該公司在管理決策上提供的支持。研究結果表明:數(shù)據(jù)倉庫項目的實施可以有效解決該公司數(shù)據(jù)海量增長背景下快速提高管理決策水平的需求,為“數(shù)據(jù)驅動決策”提供了強大、科學的數(shù)據(jù)支撐。可以預見,數(shù)據(jù)倉庫技術在該公司的發(fā)展前景巨大,能給企業(yè)帶來不可估量的價值與優(yōu)勢,提升企業(yè)在市場環(huán)境下的綜合競爭實力。本文的后續(xù)工作將根據(jù)企業(yè)的需求進一步完善數(shù)據(jù)倉庫的高級技術應用,并在此基礎上,探索數(shù)據(jù)挖掘相關技術在該項目上的運用。
參考文獻(References)
[1] 李娜.基于數(shù)據(jù)倉庫的商務智能經(jīng)營系統(tǒng)設計與實現(xiàn)[J].現(xiàn)代電子技術,2016,39(15):140-144.
[2] 李曉琳.互聯(lián)網(wǎng)+信息技術應用淺談[J].農村經(jīng)濟與科技,2016(24):297.
[3] 姜兆龍,金妍,李冬曉.數(shù)據(jù)倉庫測試特性及中國建設銀行測試實踐[J].中國金融電腦,2018(4):55-62.
[4] 馮強,鄭垂勇.商業(yè)智能技術在物流企業(yè)數(shù)據(jù)倉庫設計中的應用[J].物流技術,2015,34(14):192-194.
[5] 余媛.公交公司運營信息數(shù)據(jù)倉庫的構建[J].漢江師范學院學報,2017,37(6):111-113.
[6] 樊持杰,司巧梅,劉文,等.數(shù)據(jù)倉庫技術在高校突發(fā)公共衛(wèi)生事件預警和控制中的應用[J].信息技術與信息化,2018,218(05):98-100.
[7] 胡馗.基于數(shù)據(jù)倉庫技術的企業(yè)信息化管理[J].科技與企業(yè),2016(5):15.
[8] 雷啟明.超市數(shù)據(jù)倉庫雪花模型的設計與應用[J].商場現(xiàn)代化,2008(25):40-41.
作者簡介:
官? ?維(1976-),男,本科,講師.研究領域:計算機網(wǎng)絡.