[摘 要] 中石油ERP不具備高級決策和數(shù)據(jù)分析的功能,本文對此進(jìn)行了數(shù)據(jù)挖掘技術(shù)在中石油ERP中的應(yīng)用研究。對數(shù)據(jù)挖掘概念和方法進(jìn)行介紹,結(jié)合在中石油ERP中的應(yīng)用領(lǐng)域等進(jìn)行研究,并且引用中石油ERP數(shù)據(jù)庫的銷售量進(jìn)行數(shù)據(jù)挖掘預(yù)測。
[關(guān)鍵詞]數(shù)據(jù)挖掘;中石油;ERP;預(yù)測
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2010 . 17. 024
[中圖分類號]F270.7;TP315 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號]1673 - 0194(2010)17 - 0057 - 03
隨著信息技術(shù)的發(fā)展,企業(yè)的數(shù)據(jù)量越來越大,但其中真正有價(jià)值的信息量卻很少,這里的價(jià)值主要是指對企業(yè)決策者產(chǎn)生的作用和為企業(yè)效益帶來的價(jià)值。數(shù)據(jù)挖掘技術(shù)(Data Mining,DM)可以從企業(yè)收集的大量數(shù)據(jù)中經(jīng)過深層分析,獲得有利于企業(yè)運(yùn)作、提高競爭力的信息。數(shù)據(jù)挖掘是一種新型的企業(yè)信息處理技術(shù),它可以按照企業(yè)的業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示其中隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化,然后將分析結(jié)果用于管理決策,提高企業(yè)的競爭力。
由于ERP本身功能的缺陷,只能提供基本的數(shù)據(jù)保存和查詢,缺少高層次的數(shù)據(jù)分析手段和決策能力,這就使得數(shù)據(jù)挖掘技術(shù)在ERP中有了較大的用武之地。中國加入WTO后,中石油公司面臨的挑戰(zhàn)越來越多,石油能源行業(yè)競爭也越來越激烈,使得公司必須重視數(shù)據(jù)挖掘技術(shù),為公司發(fā)展戰(zhàn)略的制定提供參考。
1 中石油ERP
企業(yè)資源計(jì)劃(Enterprise ResourcePlanning, ERP)是建立在信息技術(shù)基礎(chǔ)上,利用現(xiàn)代企業(yè)的先進(jìn)管理思想,全面集成企業(yè)所有資源信息,為企業(yè)提供決策、計(jì)劃、控制與經(jīng)營業(yè)績評估的全方位和系統(tǒng)化的管理平臺(tái)。ERP涉及企業(yè)的生產(chǎn)控制、物流管理和財(cái)務(wù)管理等各個(gè)方面。
中國石油天然氣股份有限公司經(jīng)過多年的努力,公司的信息基礎(chǔ)設(shè)施建設(shè)已經(jīng)粗具規(guī)模,在勘探、開發(fā)、科研等方面,計(jì)算機(jī)裝備和應(yīng)用水平處于國內(nèi)領(lǐng)先地位。公司高層早已認(rèn)識(shí)到了信息技術(shù)未來的發(fā)展趨勢,企業(yè)會(huì)計(jì)信息系統(tǒng)逐步從核算型過渡到財(cái)務(wù)管理型,適應(yīng)集團(tuán)公司的管理模式,具有財(cái)務(wù)分析和領(lǐng)導(dǎo)決策功能,覆蓋整個(gè)財(cái)務(wù)、資產(chǎn)工作范圍,成為ERP和電子商務(wù)系統(tǒng)的核心系統(tǒng)[1]。
但是在中石油ERP運(yùn)行當(dāng)中,隨著ERP系統(tǒng)積累的數(shù)據(jù)不斷增加,數(shù)據(jù)管理相對落后的問題已日益凸現(xiàn)。傳統(tǒng)的數(shù)據(jù)分析方法(如查詢、報(bào)表)已無法快速、有效地從大量數(shù)據(jù)中獲取所需的數(shù)據(jù),中石油ERP系統(tǒng)自身也缺乏高層次的數(shù)據(jù)分析手段,只能提供較為簡單的記錄查詢,公司管理決策者更需要從龐大的業(yè)務(wù)數(shù)據(jù)中獲取隱藏的知識(shí),這就使得數(shù)據(jù)挖掘技術(shù)在中石油ERP的數(shù)據(jù)分析中有廣泛的應(yīng)用空間。
2 數(shù)據(jù)挖掘
2.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘技術(shù)是面向?qū)嶋H應(yīng)用的。但是實(shí)現(xiàn)數(shù)據(jù)挖掘需要高級的數(shù)據(jù)處理技術(shù),因此,它的定義有兩個(gè)方面,即技術(shù)性定義和商業(yè)性定義[2]。
技術(shù)性定義:數(shù)據(jù)挖掘指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道但又潛在有用的信息和知識(shí)的過程。
商業(yè)性定義:數(shù)據(jù)挖掘指一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性知識(shí)。
不論是哪種定義,從本質(zhì)上來說,數(shù)據(jù)挖掘都是一類深層次的數(shù)據(jù)分析方法。
2.2數(shù)據(jù)挖掘步驟
作為一個(gè)復(fù)雜的處理過程,數(shù)據(jù)挖掘涉及多個(gè)處理步驟。Usama Fayyad等人定義了一個(gè)數(shù)據(jù)挖掘處理模型,如圖1所示,這也是數(shù)據(jù)挖掘的一般處理步驟。
(1)選取目標(biāo)數(shù)據(jù)集合。在數(shù)據(jù)庫中選擇值得關(guān)注的數(shù)據(jù)集合。
(2)數(shù)據(jù)的整理與預(yù)處理。包括一些基本的操作,比如噪聲消除和空值處理。現(xiàn)實(shí)數(shù)據(jù)經(jīng)常無法保證數(shù)據(jù)的完整性和一致性,所以在數(shù)據(jù)挖掘前需要對數(shù)據(jù)進(jìn)行整理。
(3)數(shù)據(jù)合并。包括合并不同類型、不同來源的數(shù)據(jù)源。
(4)數(shù)據(jù)縮減。對數(shù)據(jù)進(jìn)行降維、轉(zhuǎn)化等再處理,通過投影或數(shù)據(jù)庫中的其他操作減少數(shù)據(jù)量及需要考慮的變量的個(gè)數(shù)。
(5)確定數(shù)據(jù)挖掘的功能。確定由數(shù)據(jù)挖掘算法產(chǎn)生的模型的目的(如歸納,分類,回歸,聚類,關(guān)聯(lián)規(guī)則,或它們的組合)。
(6)選擇數(shù)據(jù)挖掘的算法。選擇要達(dá)到數(shù)據(jù)挖掘目的所需要的合理的算法,包括選取合適模型和參數(shù)。
(7)數(shù)據(jù)挖掘。利用選定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)中提取出用戶感興趣的知識(shí)并進(jìn)行計(jì)算。
(8)解釋和評價(jià)。對發(fā)現(xiàn)的模式進(jìn)行解釋,剔除冗余、無關(guān)的知識(shí),對發(fā)現(xiàn)的知識(shí)進(jìn)行檢驗(yàn)評價(jià),將這些知識(shí)轉(zhuǎn)變?yōu)橛脩艨梢岳斫獾男问健?/p>
(9)使用發(fā)現(xiàn)的知識(shí)。將知識(shí)合并成可操作的系統(tǒng),并基于這些知識(shí)采取相應(yīng)的措施。
3 數(shù)據(jù)挖掘方法在中石油ERP中的應(yīng)用
“數(shù)據(jù)挖掘包含了一系列旨在從數(shù)據(jù)集中發(fā)現(xiàn)有用但是尚未發(fā)現(xiàn)的模式(Pattern)的技術(shù)”[3]。確切地說,數(shù)據(jù)挖掘是一種知識(shí)發(fā)現(xiàn)的過程,它主要基于統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等技術(shù),高度自動(dòng)化地分析數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,并對未來情況進(jìn)行預(yù)測,以輔助決策者評估風(fēng)險(xiǎn)、做出正確的決策[4]。
數(shù)據(jù)挖掘方法在中石油ERP中的主要應(yīng)用有以下方面:
3.1關(guān)聯(lián)分析
中石油ERP數(shù)據(jù)庫中數(shù)據(jù)之間可能存在著某種關(guān)聯(lián)關(guān)系,也就是變量之間可能存在著某種規(guī)律。關(guān)聯(lián)分析就是通過統(tǒng)計(jì)和分析數(shù)據(jù)集中各個(gè)數(shù)據(jù)項(xiàng)或?qū)傩猿霈F(xiàn)的頻率,發(fā)現(xiàn)數(shù)據(jù)項(xiàng)或?qū)傩灾g的關(guān)聯(lián),最終找出不同項(xiàng)目之間的對應(yīng)關(guān)聯(lián)關(guān)系。
(1)趨勢分析。在趨勢分析中,基于時(shí)間序列的數(shù)據(jù),一是分析長時(shí)間的走向,就是在很長一段時(shí)間內(nèi)部的走向趨勢,可以用一條趨勢曲線或者趨勢直線來顯示;二是分析周期的走向與周期的變化。例如中石油油氣銷售量的變化可以通過某種方法進(jìn)行預(yù)測。
(2)關(guān)聯(lián)規(guī)則。用于找出給定數(shù)據(jù)集中數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相關(guān)關(guān)系。例如工程技術(shù)服務(wù)中鉆井施工成本與地質(zhì)、天氣、施工人員素質(zhì)、轉(zhuǎn)速等哪一項(xiàng)關(guān)聯(lián)度最大(采用一定的方法量化指標(biāo)后)。
(3)序列模式。類似于關(guān)聯(lián)規(guī)則,但是序列分析的重點(diǎn)更側(cè)重于數(shù)據(jù)之間前后關(guān)系的挖掘,也就是序列模型是基于時(shí)間或期貨序列(如事件)推出的經(jīng)常發(fā)生的模式。例如用于公司客戶購買行為模式預(yù)測。
3.2分類分析
分類分析就是從訓(xùn)練數(shù)據(jù)集中發(fā)現(xiàn)同類數(shù)據(jù)對象的共同屬性,分析數(shù)據(jù)的各個(gè)屬性和所屬類之間的內(nèi)在聯(lián)系,建立類的判別模型,通過這個(gè)模型,未分類的或新的樣本點(diǎn)就可以分派到不同的類別中。例如公司的煉化企業(yè)有大慶石化分公司、吉林石化分公司、撫順石化分公司、遼陽石化分公司、蘭州石化分公司、烏魯木齊石化分公司、寧夏石化分公司、獨(dú)山子石油化工總廠、大慶煉化分公司、吉林燃料乙醇有限責(zé)任公司、華北石化分公司等幾十個(gè),可以用分類分析將這些煉化公司按經(jīng)營業(yè)績分類,也可以按企業(yè)財(cái)務(wù)狀況、利潤率進(jìn)行分類。方法有:
(1)人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是由大量的被稱為神經(jīng)元的節(jié)點(diǎn)構(gòu)成的系統(tǒng)。一般由輸入神經(jīng)元、輸出神經(jīng)元、隱含神經(jīng)元構(gòu)成。
(2)支持向量機(jī)。支持向量機(jī)(Support Vector Machine,SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論的新一代機(jī)器學(xué)習(xí)技術(shù)。使用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則代替經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,使它較好解決了小樣本情況下的學(xué)習(xí)問題。
(3)決策樹。通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。
3.3聚類分析
聚類(cluster)就是通過分析某個(gè)數(shù)據(jù)集,將數(shù)據(jù)集合按照相似性歸為若干類,使得同一組中的數(shù)據(jù)彼此相似,不同類間的數(shù)據(jù)盡可能不同,從而實(shí)現(xiàn)歸類的目的。主要有K-means算法和層次聚類。例如運(yùn)用層次分析法對公司ERP數(shù)據(jù)庫中的開采出的原油質(zhì)量數(shù)據(jù)進(jìn)行聚類分析,有助于更好地管理優(yōu)質(zhì)油田。
4 數(shù)據(jù)挖掘在中石油ERP中的應(yīng)用實(shí)例
通過對中石油ERP系統(tǒng)數(shù)據(jù)庫的查詢,得到2005-2009年中石油營業(yè)額(見表1),利用數(shù)據(jù)挖掘進(jìn)行未來3年的營業(yè)額預(yù)測。
檢驗(yàn)結(jié)果表明模型預(yù)測精度較高,這說明單變量灰色預(yù)測在中石油銷售量預(yù)測中是可行的,其分析結(jié)果對于石油銷售策略的制定、市場劃分、目標(biāo)客戶群的確定有一定的參考價(jià)值。
5 結(jié) 語
當(dāng)前市場競爭越來越強(qiáng),要想在市場競爭中求生存、求發(fā)展,企業(yè)只有加快信息化建設(shè),采用先進(jìn)的、科學(xué)的管理模式,以適應(yīng)新的競爭形勢的要求。在中石油企業(yè)管理中, ERP占有極其重要的地位,企業(yè)決策的智能化、系統(tǒng)化是未來企業(yè)管理發(fā)展的重要趨勢。數(shù)據(jù)挖掘技術(shù)能為企業(yè)管理提供智能化的分析工具。
主要參考文獻(xiàn)
[1]唐瀟霖. 中石油的ERP困境[J]. 互聯(lián)網(wǎng)周刊, 2002(38).
[2]李波,王謙. 物流信息系統(tǒng)[M]. 北京:清華大學(xué)出版社, 2008.
[3]袁林. 基于數(shù)據(jù)倉庫的輔助決策系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 電力系統(tǒng)自動(dòng)化, 2001,25(21).
[4]張景濤.基于多智能主體的煉化企業(yè)ERP系統(tǒng)應(yīng)用研究[D].天津:天津大學(xué), 2004.