陳非, 楊永嬌, 周辰南
(廣東電力信科科技有限公司,廣東,廣州 510030)
電網(wǎng)是電力系統(tǒng)的基礎(chǔ)設(shè)施,保障著居民及社會(huì)用電安全。受我國(guó)國(guó)情影響,電力企業(yè)一直以賣家的身份,壟斷著電力市場(chǎng)[1],但隨著我國(guó)經(jīng)濟(jì)發(fā)展,21世紀(jì)的電力企業(yè)受到政府政策、經(jīng)濟(jì)發(fā)展形勢(shì)、互聯(lián)網(wǎng)技術(shù)發(fā)展等多重因素的影響,打破了電力行業(yè)的壟斷模式,增強(qiáng)了電力市場(chǎng)的競(jìng)爭(zhēng)力[2]。電力企業(yè)需要改變企業(yè)電網(wǎng)營(yíng)銷模式,制定適合企業(yè)可持續(xù)發(fā)展的營(yíng)銷策略,是以,相關(guān)學(xué)者研究出電網(wǎng)業(yè)務(wù)營(yíng)銷系統(tǒng),幫助電力企業(yè)營(yíng)銷區(qū)域內(nèi)電力調(diào)控、調(diào)度計(jì)劃、運(yùn)行方式等電網(wǎng)業(yè)務(wù)[3]。隨著信息技術(shù)的發(fā)展,已經(jīng)研究出財(cái)務(wù)、生產(chǎn)管理、計(jì)劃、電力調(diào)度等眾多電網(wǎng)業(yè)務(wù)營(yíng)銷相關(guān)系統(tǒng),且在電力領(lǐng)域廣泛應(yīng)用[4]。但是,這些電力系統(tǒng)之間的數(shù)據(jù)都被單獨(dú)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)模塊,導(dǎo)致電網(wǎng)業(yè)務(wù)營(yíng)銷出現(xiàn)業(yè)務(wù)溝通困難問(wèn)題,影響電網(wǎng)業(yè)務(wù)營(yíng)銷效果[5]。因此,需要設(shè)計(jì)電網(wǎng)業(yè)務(wù)營(yíng)銷數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘技術(shù),尋找不同系統(tǒng)數(shù)據(jù)之間存在的關(guān)聯(lián)規(guī)則,為電網(wǎng)業(yè)務(wù)營(yíng)銷數(shù)據(jù)整合提供依據(jù)。
目前已經(jīng)研究出基于數(shù)字曲線、時(shí)間區(qū)間合并、日歷、神經(jīng)元網(wǎng)絡(luò)、SFVS、模糊集、Aprior算法、滑動(dòng)窗口聚類、模糊發(fā)現(xiàn)、FFT、交易數(shù)據(jù)順序、規(guī)則和決策樹(shù)、交易數(shù)據(jù)生命周期等數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘技術(shù)[6]。在已有的研究成果基礎(chǔ)上,相關(guān)學(xué)者提出如下觀點(diǎn),文獻(xiàn)[7]針對(duì)挖掘方法存在的規(guī)則冗余問(wèn)題,引入主屬性判斷技術(shù)約簡(jiǎn)關(guān)聯(lián)規(guī)則,實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘;文獻(xiàn)[8]針對(duì)關(guān)聯(lián)規(guī)則挖掘方法挖掘的關(guān)聯(lián)規(guī)則存在冗余、相似規(guī)則問(wèn)題,引入改進(jìn)k-means算法挖掘數(shù)據(jù)關(guān)聯(lián)規(guī)則。上述的數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法,在挖掘電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則時(shí),存在挖掘關(guān)聯(lián)規(guī)則數(shù)目少、所需執(zhí)行時(shí)間長(zhǎng)、置信度低的問(wèn)題,為此提出基于粗糙集的電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型,將決策表的決策屬性定義為單一決策、等價(jià)關(guān)系,可以被替代,即生成的時(shí)序數(shù)據(jù)的頻繁項(xiàng)集樹(shù)可以隨時(shí)轉(zhuǎn)置,遍歷過(guò)程是同步的,表示約簡(jiǎn)過(guò)程和電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘過(guò)程是同步的,減少執(zhí)行時(shí)間,增加置信度。
此次研究將在時(shí)序數(shù)據(jù)的時(shí)間間隔、數(shù)據(jù)屬性、時(shí)序關(guān)聯(lián)規(guī)則的基礎(chǔ)上,通過(guò)預(yù)處理、粗糙集、壓縮矩陣和頻繁項(xiàng)集樹(shù)等技術(shù),按照電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)預(yù)處理、粗糙集約簡(jiǎn)時(shí)序數(shù)據(jù)屬性、生成電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)規(guī)則這一流程,建立電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型。
由于此次研究選擇的電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù),多來(lái)自電力企業(yè)不同系統(tǒng)數(shù)據(jù)庫(kù),具有多時(shí)間序列、數(shù)據(jù)格式不一致等特征,極易出現(xiàn)缺失、冗余等問(wèn)題數(shù)據(jù)[9]。所以,通過(guò)清洗、集成、轉(zhuǎn)換、消減四步預(yù)處理電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)。
假設(shè)電網(wǎng)業(yè)務(wù)營(yíng)銷數(shù)據(jù)為一個(gè)論域U、屬性集合A、信息函數(shù)F、值域V組成的四元組ζ:
(1)


(2)

基于式(2),判斷U中的數(shù)據(jù)對(duì)象及其屬性值是否滿足下式所示的條件:
(3)
式(3)中,ui、uj分別表示第i個(gè)對(duì)象和第j個(gè)對(duì)象,且i≠j。當(dāng)數(shù)據(jù)對(duì)象及其屬性值滿足式(2)所示的條件時(shí),電網(wǎng)業(yè)務(wù)營(yíng)銷數(shù)據(jù)存在冗余、缺失等問(wèn)題,需要采用刪除、填充等方式清洗、集成、消減數(shù)據(jù)。
數(shù)據(jù)轉(zhuǎn)換則需要將清洗、集成、消減后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和規(guī)約處理,將數(shù)據(jù)轉(zhuǎn)換為同一單位、格式的電網(wǎng)業(yè)務(wù)營(yíng)銷數(shù)據(jù),同時(shí),保留數(shù)據(jù)中原有信息,則有:
(4)

按照式(1)~式(4)所示的計(jì)算過(guò)程,完成電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)預(yù)處理?;跀?shù)據(jù)預(yù)處理結(jié)果,采用粗糙集約簡(jiǎn)時(shí)序數(shù)據(jù)屬性,在不影響時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘效果的條件下,條規(guī)則挖掘計(jì)算效率。
時(shí)序數(shù)據(jù)屬性約簡(jiǎn)是在保持?jǐn)?shù)據(jù)集原本含義的基礎(chǔ)上,去除數(shù)據(jù)集條件屬性中不必要的屬性,以此來(lái)減少時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則生成的時(shí)間復(fù)雜度、計(jì)算量和冗余規(guī)則的產(chǎn)生?;诖?依據(jù)粗糙集設(shè)定的時(shí)序數(shù)據(jù)屬性約簡(jiǎn)定義如下。
定義一:決策表中的決策屬性分為單一決策和多決策兩種,由于電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)多是電力的運(yùn)行、調(diào)控、調(diào)度等類別的數(shù)據(jù),所得到的運(yùn)行、調(diào)控、調(diào)度等結(jié)果均是單一的[12]。因此,將決策表的決策屬性定義為單一決策。

(5)
式(5)中,R表示依賴關(guān)系,ρ表示換算符號(hào),c表示元素集合的基數(shù),w表示重要程度,r∈R表示R中的某一等價(jià)關(guān)系。
若式(5)所示的計(jì)算公式成立,則條件屬性集中的第r個(gè)等價(jià)關(guān)系是可以被替代的,即r相對(duì)于決策屬性可以省略,則有:
R′=R-[r]?R
R′=γ(R)
c(R)=∩γ(R)
(6)
式(6)中,R′表示R的約簡(jiǎn),γ表示約簡(jiǎn)的交集。

按照定義一和定義二,通過(guò)式(5)和式(6)約簡(jiǎn)時(shí)序數(shù)據(jù)屬性,針對(duì)約簡(jiǎn)屬性后的時(shí)序數(shù)據(jù),進(jìn)行時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘。

根據(jù)上述內(nèi)容設(shè)定的定義,采用壓縮矩陣生成時(shí)序數(shù)據(jù)的頻繁項(xiàng)集樹(shù),來(lái)挖掘電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則。為此,假設(shè)電網(wǎng)業(yè)務(wù)營(yíng)銷數(shù)據(jù)原始時(shí)間序列為T{q×τ},其中,q表示時(shí)序數(shù)據(jù)屬性個(gè)數(shù),τ表示時(shí)序數(shù)據(jù)采集時(shí)刻數(shù)量。此時(shí),針對(duì)T{q×τ}進(jìn)行符號(hào)化處理,則有:
(7)

(8)

基于上述計(jì)算過(guò)程,采用頻繁項(xiàng)集樹(shù)生成數(shù)據(jù)頻繁項(xiàng)集,遍歷數(shù)據(jù)庫(kù)T{q×τ},則有:
(9)
式(9)中,HT-h表示數(shù)據(jù)頻繁項(xiàng)集矩陣,h表示HT-h中的一個(gè)元素,g表示遍歷數(shù)據(jù)庫(kù)T{q×τ}次數(shù),hg_(ιj)j表示第g次遍歷的數(shù)據(jù)項(xiàng)h(ιj)i。依據(jù)式(9)所示的頻繁項(xiàng)集矩陣,判斷hg_(ιj)i是否存在于式(8)的行中,則有:

(10)

(11)

綜合上述電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)預(yù)處理→粗糙集約簡(jiǎn)時(shí)序數(shù)據(jù)屬性→生成電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)規(guī)則三個(gè)步驟,完成電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型建立,實(shí)現(xiàn)電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘。
選擇基于主屬性的挖掘模型和基于k-means算法的挖掘模型作為此次實(shí)驗(yàn)的對(duì)比模型,將電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)作為此次實(shí)驗(yàn)研究對(duì)象,在四核8線程的銳龍R7-3700U型CPU、16 GB內(nèi)存、應(yīng)用Win XP操作系統(tǒng)的計(jì)算機(jī)上,運(yùn)行MATLAB 7.0仿真軟件,驗(yàn)證此次研究的基于粗糙集的電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型。
此次實(shí)驗(yàn)選擇的電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)如圖1所示。

圖1 電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)
從圖1中可以看出,此次實(shí)驗(yàn)選擇的數(shù)據(jù),是根據(jù)國(guó)家電網(wǎng)公布的電網(wǎng)業(yè)務(wù)營(yíng)銷電價(jià),選取的電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)。針對(duì)圖1所示的電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù),包括用電用戶基本信息、執(zhí)行合同信息、執(zhí)行結(jié)算合約信息以及用電數(shù)據(jù)、結(jié)算結(jié)果等,并自動(dòng)與計(jì)量信息、購(gòu)電結(jié)算憑證、用戶用電結(jié)算憑證等信息進(jìn)行關(guān)聯(lián)。經(jīng)過(guò)清洗、集成、轉(zhuǎn)換、消減四步預(yù)處理后,去除用戶的電費(fèi)計(jì)算信息,包括電費(fèi)計(jì)算結(jié)果、偏差考核費(fèi)用、違約金,以及套餐信息、售電合約等與用戶本身有關(guān)的營(yíng)銷信息,剩余僅涉及業(yè)務(wù)側(cè)的電網(wǎng)業(yè)務(wù)營(yíng)銷數(shù)據(jù),并突出時(shí)序?qū)傩浴?/p>
基于此次實(shí)驗(yàn)選擇的實(shí)驗(yàn)數(shù)據(jù),設(shè)計(jì)的實(shí)驗(yàn)步驟如下。
(1) 預(yù)處理圖1所示的實(shí)驗(yàn)數(shù)據(jù);
(2) 采用此次實(shí)驗(yàn)選擇的三組實(shí)驗(yàn)?zāi)P?分別挖掘預(yù)處理后的實(shí)驗(yàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則;
(3) 在MATLAB 7.0仿真軟件上,設(shè)置三組挖掘模型挖掘數(shù)據(jù)關(guān)聯(lián)規(guī)則參數(shù);
(4) 統(tǒng)計(jì)三組模型挖掘數(shù)據(jù)關(guān)聯(lián)規(guī)則數(shù)目隨支持度變化值、執(zhí)行時(shí)間隨支持度變化值和置信度隨時(shí)間變化值,并在Visio軟件上繪制成圖;
(5) 分析三組挖掘模型挖掘時(shí)序關(guān)聯(lián)規(guī)則效果。
支持程度和置信度都是關(guān)聯(lián)規(guī)則挖掘中最關(guān)鍵的衡量指標(biāo)。支持度的大小可以決定規(guī)則的有效性,因此,其值越高,規(guī)則的效用越高;置信度則用于反映規(guī)則的可靠性程度,其值越大,所挖掘的數(shù)據(jù)關(guān)聯(lián)規(guī)則可靠性度就越高。其計(jì)算公式如下:
(12)
式(12)中,Z表示支持度,Z′表示置信度,{a,b}表示時(shí)序數(shù)據(jù)項(xiàng)集,a→b表示由條件a推出規(guī)則b,m表示{a,b}里(a∪b)出現(xiàn)次數(shù),M表示時(shí)序數(shù)據(jù)數(shù)量。
依據(jù)式(12)將最小支持度閾值和最小置信度閾值作為此次實(shí)驗(yàn)選擇的3組挖掘模型挖掘時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則時(shí)的強(qiáng)規(guī)則。
2.4.1 關(guān)聯(lián)規(guī)則數(shù)目隨支持度變化
關(guān)聯(lián)規(guī)則數(shù)目隨支持度變化曲線如圖2所示。

圖2 關(guān)聯(lián)規(guī)則數(shù)目隨支持度變化曲線
從圖2中可以看出,隨著支持度值的增加,3組挖掘模型挖掘到的關(guān)聯(lián)數(shù)目隨之減少。但是,本文模型相較基于主屬性的挖掘模型和基于k-means算法的挖掘模型挖掘出的時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則平均數(shù)目分別高4條和10條。可見(jiàn),此次研究模型可以挖掘出支持度更高的關(guān)聯(lián)規(guī)則。
2.4.2 執(zhí)行時(shí)間隨支持度變化
執(zhí)行時(shí)間隨支持度變化曲線如圖3所示。

圖3 執(zhí)行時(shí)間隨支持度變化曲線
從圖3中可以看出,三組挖掘模型挖掘關(guān)聯(lián)規(guī)則執(zhí)行時(shí)間變化趨勢(shì)相似。但是,本文模型相較基于主屬性的挖掘模型和基于k-means算法的挖掘模型挖掘數(shù)據(jù)關(guān)聯(lián)規(guī)則的平均執(zhí)行時(shí)間分別減少4 s和25 s??梢?jiàn),此次研究模型挖掘時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則時(shí)的效率更高。
2.4.3 置信度隨時(shí)間變化
置信度隨時(shí)間變化曲線如圖4所示。

圖4 置信度隨時(shí)間變化曲線
從圖4中可以看出,本文模型挖掘不同時(shí)間段數(shù)據(jù)的平均置信度為0.60,基于主屬性的挖掘模型的平均置信度為0.40,基于k-means算法的挖掘模型的平均置信度為0.38??梢?jiàn),本文模型相較此次實(shí)驗(yàn)選擇的對(duì)比模型平均置信度分別高0.2和0.22,挖掘出的關(guān)聯(lián)規(guī)則可靠性高。
本文研究電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型,充分利用粗糙集技術(shù)約簡(jiǎn)時(shí)序數(shù)據(jù)屬性,降低時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘難度,以此來(lái)提高時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘數(shù)目的支持度和置信度,以及關(guān)聯(lián)規(guī)則挖掘效率。但是此次研究未曾考慮電網(wǎng)業(yè)務(wù)營(yíng)銷時(shí)序數(shù)據(jù)中存在的潛在關(guān)聯(lián)規(guī)則。在今后的研究中,還需深入研究挖掘時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則的強(qiáng)規(guī)則,進(jìn)一步提高時(shí)序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘深度。