楊宗寶
萬物皆可云的大數據時代,商業智能技術應用非常廣泛,涵蓋的行業更是不計其數。為了有助于各企業業務開展過程中數據有效轉化為信息,研究商業智能的數據挖掘與元數據管理的發展情況和應用于各行業中的走向,以及數據挖掘和元數據管理之間的關聯具有十分重要的現實意義。
本文研究的對象均屬商業智能中的核心技術——數據倉庫。研究的目的是確定數據挖掘與元數據管理的關聯與特征。在廣泛收集和查詢了國內外相關文獻的基礎上,為課題研究提供理論框架與方法論,并將數據挖掘和元數據管理的現狀及優勢展現給大眾。
伴隨著以電子商務為特征的新經濟逐步走向成熟,商業智能已成為企業核心競爭力的重要部分。商業智能將數據挖掘和元數據管理等技術與數據倉庫結合起來應用到實際的商業活動,實現了萬物皆可云時代技術服務與決策的目的。
商業智能被認為是信息技術發展到一定階段的結果,也是企業對海量數據進行分析的必然方式,充分利用商業智能技術可以改善企業管理、在更大空間提高企業的競爭力。
一、商業智能發展趨勢
商業智能用于有效整理并整合企業現有的數據,在最短的時間內快速準確地提供報表、給出決策依據,幫助企業做出正確且收益最大化的業務經營決策方案。商業智能的作用有三種:分析客戶的分類和特點、分析市場營銷策略以及分析經營成本和收入。
商業智能處理過程是:收集信息并進行篩選-分析-輸出。在互聯網普及、科技發達的今天,商業智能發展已成為一種勢不可擋的潮流。企業可以通過互聯網信息的收集,獲取更多的客戶信息和交易信息,再通過商業智能技術的應用,將這些數據轉化成更有價值的信息,幫助企業高層做出準確的分析與決策。
商業智能除了幫助企業管理人員做出準確的分析和決策,還可以為客戶提供各種個性化的服務。這不僅可以給企業帶來直接的經濟利益,同時也可以幫助客戶在最短的時間內購買到最需要的商品。商業智能的發展也必然通過Web和局域網的交互,實現信息與知識的共享。
隨著移動互聯網的發展,商業智能對包括用戶交易數據和行為數據在內的金融數據的采集能力大大增強。金融服務的多樣化和市場規模的不斷擴大,需要對這些數據進行深度挖掘和分析,從而匹配金融產品的交易需求,發現隱藏的趨勢信息,幫助金融機構發現商機。
二、數據挖掘和分析理論及其實際應用
(一)商業智能的三大層次
1.初級層次:數據報表
數據報表是商業智能的基本功能之一,也是三大層次中的初級層次,是企業日常經營的基本措施和途徑。這是企業商業智能的基本業務要求,也是實現BI戰略的基礎。數據報表可以幫助企業收集、處理、分析數據,將數據進行整合,以更可靠、更安全的方式呈現給決策者。與傳統報表相比,商業智能的數據報表功能能夠處理更大的數據量,處理的速度、安全性都更高。其能防止傳統數據的有限性形成的數據孤島,從而發現潛藏在數據背后的信息與規律。
2.中級層次:多維數據分析
數據分析,就是選擇適合的統計分析方法將收集到并處理過的數據進行分析,提取其中有價值的信息,最后形成結論。多維,是一個抽象的詞語,比如描述2021年12月份橙子在南部地區的銷售額為20萬時,就涉及到時間、產品、成本、區域、利潤等維度。如果說初級層次能夠讓決策者直觀地看到企業運營情況蘊藏在數據背后的信息與規律。那么,中級層次的多維數據分析就是對數據進行有目的的分析,通過多維度的分析、鉆透探索出可能存在的原因。簡單來形容,就是帶著問題找問題。
3.高級層次:數據挖掘
數據挖掘是從海量數據庫中挖掘新的有用知識的一種新興技術,以滿足日益增長的數據所帶來的知識發現要求。所以數據挖掘又稱知識發現(KDD)。數據挖掘把一些高效的分析算法從平淡的數據里挖掘出有用的模式,它是將海量數據庫和有用的知識緊密結合起來,搭建出橋梁結合成體系網。企業利用數據挖掘發現知識的過程通常包括六個步驟:(1)確定商業問題;(2)確定并研究資料來源;(3)對數據進行抽取與處理;(4)數據挖掘,如:找出關聯規則或生成預測模型;(5)對數據挖掘結果進行驗證;(6)將該挖掘模型運用于商業實際。
(二)數據倉庫和數據挖掘之間的關系
數據倉庫是企業為了支持決策分析的數據集合。隨著時間的變化,其面向的主題、集成、穩定都會發生改變。數據倉庫的關鍵技術包括數據的抽取、清洗、轉換、加載以及維護技術。數據挖掘能夠從數據倉庫中提取和發掘歷史數據,并使其轉化為信息、知識等。借助于歷史數據分析可找出數據內部的寶貴規律。同時,數據倉庫又是進行數據挖掘的基礎。因為數據倉庫的數據是完整的、集成的,它為數據挖掘提供了扎實的數據基礎。數據倉庫可以為數據挖掘提供需要的歷史數據和全面的數據處理、分析等基礎設施。
(三)數據挖掘技術的實際應用
1. 數據挖掘技術在零售行業的應用
數據挖掘源于商業中的直接需求,并在眾多的領域中擁有廣泛的使用價值,同時零售行業也是數據挖掘的主要應用領域之一。
零售行業一般采用廣告、優惠券等形式和其他系列讓利方式促銷,以實現促銷產品、招攬客戶的目的,最終刺激消費。因此,只有對客戶的要求有一個全面的認識,才能精確定位促銷對象,提高針對點和減少活動費用。運用數據挖掘技術,能夠精確地分析時間、位置、方式和所面對的消費群體等,從而達到促銷的目的,避免企業資源利益造成浪費。數據挖掘既能推動對活動有效性的分析,同時,還能利用以往有關促銷數據,找到將來投資時收益最高的用戶群。
按照經濟學二八定律,企業需要準確區別20%和80%客戶。只有進行深層次數據挖掘,才能夠幫助企業在眾多客戶中進行分類,找到哪些是20%客戶。這點恰恰說明了客戶也可以利用數據挖掘達到細分的程度,客戶細分化將一個巨大的消費群體逐個細化為無數個小群體,將屬于同一小群體的客戶相似的消費喜好、消費特征清晰地呈現出來。
零售行業大多采用辦會員卡、設立客戶會員制度等手段采集客戶的消費行為。通過挖掘客戶會員卡信息,通常會記錄客戶消費時的購買順序,并把每個客戶不同時期購買的物品分組成序。在序列中進行模式挖掘,可以應用于客戶購買傾向、喜歡商品程度改變等方面。按照這種方法來調整完善商品和價格上的創新花樣,并不斷地進行優化和提升,這樣不僅能保留會員老客戶,還能吸引更多新客戶。
2.數據挖掘技術應用增強各產業的競爭力
(1)將數據挖掘技術應用到互聯網
互聯網包含了大量信息,文本、圖表、聲音等,都是人們所熟知的傳媒信息。其次還有鏈接信息和記錄信息。網絡檢索、網絡教育、電子商務等都是在這樣一個大信息網上,獲得所需的知識與信息。互聯網數據挖掘技術向世人充分展示了其優勢,在很短的時間里迅速地獲得有效信息,提升用戶訪問效率、集中新用戶。
(2)將數據挖掘技術應用到農業
國民經濟的基礎離不開農業的發展,在農業市場信息中,數據收集多采用進出口貿易倉庫數據作為數據源,市場監控信息作為數據庫,這樣就可以給農業部門提供較為具體的數據信息來指導農業市場開發管理,因此數據挖掘應用于農業也就顯得尤為重要且范圍較廣。
(3)將數據挖掘技術應用到金融業
經濟飛速發展的年代,金融領域每一時間都有大量現金流水及數據量產生,因此數據挖掘技術應用于金融業就尤為緊迫。因為在缺乏數據分析的情況下,不可能衡量與評價投資風險,也不可能精準明確金融投資走向。而數據挖掘可以處理已知的數據,方便找到某種事物之間的聯系,預測并且避免無謂損失。所以便于在金融領域控制金融投資,監視金融犯罪。
(4)將數據挖掘技術應用到工業生產
眾多工廠積累了大量生產數據,而這些數據收納成數據文件,這其中生產記錄等占據了絕大部分,多數文件有可能被閑置起來。數據挖掘技術應用于工業生產領域內部,正好利用這些閑置數據輔助工業生產。
三、元數據在數據倉庫的應用管理
(一)元數據的概念
元數據,即所謂“有關資料”,是組織與處理數字信息的基本手段,它為各種形式的數字化信息單元與資源集合提供了規范而通用的描述基準與方法。在數據倉庫系統的建立、維護、管理和使用過程中,用以描述實際數據的信息。
(1)技術元數據
技術元數據面向數據倉庫系統管理員及系統應用開發人員。旨在讓數據倉庫系統開發與維護人員更好地完成各種作業。它在管理系統環境下,為系統開發、維護提供支持,也為所有分析、設計、開發及管理人員提供服務,是開發工具、應用程序與系統之間的技術紐帶。其主要內容包括數據源元數據和預處理后的數據元數據。
(2)數據源元數據
數據倉庫中的數據來源通常并不屬于數據系統,所以有必要在不同數據源中統一定義元數據,以實現從數據源中提取整體數據。數據源元數據一般可以分為數據源的數據格式、數據源的所有者、數據源的訪問方式和使用限制、數據源的儲存平臺、數據源的內容說明以及更新頻率等等。
(3)預處理數據為元數據
所謂預處理數據是介于數據源與主體數據中間層次的一種數據,對預處理后的數據處理是在數據倉庫后臺完成的,并且處理量大。例如,保存所有經過純化的數據、保存海量細節性的業務加工數據、數據倉庫數據備份等。所以相關元數據的處理也更加復雜,包括在數據抽取、轉換和加載時所使用的各類文件定義;從數據源到不同層次中間視圖和主題數據實視圖的數據對應;定義數據集;利用統計和更新維護記錄來完成數據轉換等手段;預處理數據的備份方法;實際數據轉換與裝載記錄。
(二)大數據時代下自動化企業的元數據管理
元數據涉及的商業智能領域很廣。在商業智能中的數據倉庫、數據挖掘等多方面,元數據貫徹于其中各項目始終。
元數據管理,通俗地說就是管理數據倉庫系統的元數據,參與數據倉庫系統的每一個環節,并實現系統的各處理單元由元數據驅動等。
元數據平臺的功能框架大致可分為元數據源層、元數據獲取層、元數據存儲層、元數據管理層和元數據訪問層。其中元數據源層又可以分為各個不同的源系統;元數據抽取層的適配器可以幫助元數據源層實現元數據的抽取,所抽取出來的元數據存儲在元數據存儲層中的元數據庫中;元數據管理層為元數據提供訪問、分析、導入、導出等重要功能需求,以便于元數據管理工具前端、二級數據倉庫系統和中央元數據抽取服務器使用。
元數據在數據倉庫中處于一個核心地位,對數據倉庫的設計、開發、維護和管理具有非常重要的作用。多策略的數據挖掘形成平臺,將元數據的使用范圍從數據倉庫拓展到包含數據挖掘任務等整個系統中,使之成為系統的核心和各個子系統之間連接的紐帶。將數據挖掘與元數據管理相結合,保證了元數據的完整性和一致性,更加完善開發元數據維護與分析功能的細致程度。運用數據挖掘等建立更全面的元數據模型,添加更多的元數據分析功能,從而提高系統執行效率。隨著元數據管理系統所管理的元數據不斷增多,元數據的分析算法與可視化就需要考慮更多的元數據和處理概率增加。
(作者單位:天津理工大學中環信息學院)