999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于簡單Petri網(wǎng)和gSpan算法的業(yè)務(wù)流程頻繁結(jié)構(gòu)挖掘

2013-01-01 00:00:00白塵吳玲玉
中國管理信息化 2013年2期

[摘要]針對業(yè)務(wù)流程的結(jié)構(gòu)特性,提出了將圖結(jié)構(gòu)數(shù)據(jù)挖掘算法應(yīng)用于業(yè)務(wù)流程模型的思想,具體將gSpan算法應(yīng)用于簡單Petri網(wǎng)模型,提出簡單Petri網(wǎng)有向圖化和d-gSpan算法的可實踐方法,實現(xiàn)了業(yè)務(wù)流程頻繁子結(jié)構(gòu)挖掘。論文最后以某列車入段檢修業(yè)務(wù)流程進行實驗。

[關(guān)鍵詞]業(yè)務(wù)流程結(jié)構(gòu)特性;圖結(jié)構(gòu)數(shù)據(jù)挖掘;頻繁結(jié)構(gòu)挖掘;簡單Petri網(wǎng);gSpan算法

doi:10.3969/j.issn.1673-0194.2013.02.036

[中圖分類號]TP391[文獻標識碼]A[文章編號]1673-0194(2013)02-0076-05

1 引言

業(yè)務(wù)流程的結(jié)構(gòu)化特征,描述了業(yè)務(wù)規(guī)則、文檔、信息、資源和任務(wù)在業(yè)務(wù)流程的結(jié)構(gòu)框架中傳輸、流動。[1]傳統(tǒng)數(shù)據(jù)挖掘方法面向特定分析而專門建立的主題數(shù)據(jù),不涉及業(yè)務(wù)流程的結(jié)構(gòu)特性。近年興起的“工作流挖掘”(WorkflowMining)也只是基于工作流日志挖掘工作流模型,而不考慮已有業(yè)務(wù)流程結(jié)構(gòu)特性。[2]文獻表明,至今鮮有針對業(yè)務(wù)流程結(jié)構(gòu)化特性的數(shù)據(jù)挖掘研究。

為挖掘業(yè)務(wù)流程的結(jié)構(gòu)化特性,需要引入針對結(jié)構(gòu)數(shù)據(jù)的挖掘方法(結(jié)構(gòu)數(shù)據(jù)挖掘算法)。由于業(yè)務(wù)流程的結(jié)構(gòu)特性多被表示為具備特定性質(zhì)的圖結(jié)構(gòu)模型,因此將圖結(jié)構(gòu)數(shù)據(jù)挖掘方法應(yīng)用于業(yè)務(wù)流程結(jié)構(gòu)模型是非常自然的思路。

近年來,圖結(jié)構(gòu)數(shù)據(jù)挖掘方面的研究有了突出成就,大量頻繁子圖模式挖掘算法涌現(xiàn)出來。如基于Apriori算法思想的AGM算法[3]和FSG算法[4]、基于FP-Growth算法思想的gSpan算法[5]、基于子圖“交”和“擴展”兩種操作的FFSM算法[6]等。

本文將gSpan(Graph-basedSubstructurePatternMining,基于圖的子結(jié)構(gòu)模式挖掘)算法應(yīng)用于簡單Petri網(wǎng)模型,從而實現(xiàn)業(yè)務(wù)流程的頻繁結(jié)構(gòu)挖掘,即從獨立或多個相互關(guān)聯(lián)的業(yè)務(wù)流程模型中挖掘得到頻繁出現(xiàn)的子結(jié)構(gòu)。

本研究工作的實踐意義在于:在獲得業(yè)務(wù)流程頻繁結(jié)構(gòu)后,決策者即可從模塊劃分、流程設(shè)計、資源分配、組織機構(gòu)等多方面優(yōu)化頻繁子結(jié)構(gòu),從而把握龐大業(yè)務(wù)流程中的核心環(huán)節(jié),以提高整體業(yè)務(wù)流程效率。

本研究的理論意義在于:業(yè)務(wù)流程頻繁結(jié)構(gòu)可以用來刻畫業(yè)務(wù)流程的結(jié)構(gòu)特性,依據(jù)結(jié)構(gòu)特性區(qū)分不同的業(yè)務(wù)流程集合,是依據(jù)結(jié)構(gòu)特性對業(yè)務(wù)流程進行分類和聚類的基礎(chǔ)。

2 頻繁子圖模式挖掘算法——gSpan算法分析

設(shè)S為庫所集,T為變遷集,F為有向弧,F是由一個庫所和一個變遷組成有序偶集合。

三元組N=(S,T,F)稱為一個簡單Petri網(wǎng),[7]當且僅當:①S∪T≠?準(網(wǎng)非空);②S∩T=?準(二元性);③F?哿(S×T)∪(T×S)(有向弧僅存在于S與T元素之間);④dom(F)∪cod(F)=S∪T(沒有孤立元素)。

其中dom(F)是所有有向弧中起點的集合,cod(F)是所有有向弧中終點的集合,即,

dom(F)={x|?堝y∶(x,y)∈F}

cod(F)={y|?堝x∶(x,y)∈F}

庫所、變遷和有向弧在圖中分別用圓、矩形和箭頭表示。

在使用簡單Petri網(wǎng)表示業(yè)務(wù)流程時,庫所表示業(yè)務(wù)案例所處的狀態(tài),變遷則表示對某案例所執(zhí)行的操作,有向弧沒有實際意義。

簡單Petri網(wǎng)表達的業(yè)務(wù)規(guī)則,可以由順序、并行、選擇、循環(huán)4種基本結(jié)構(gòu)組成(圖1)。

頻繁子圖模式挖掘算法——gSpan算法[5-8]采用了FP-Growth算法思想,其基本步驟如下:

Step1:編碼:利用編碼標識圖結(jié)構(gòu);

Step2:產(chǎn)生初始子圖:計算所有邊的支持度,得出所有頻繁1邊子圖;

Step3:子圖擴展:將頻繁k邊子圖擴展得到k+1邊候選子圖;

Step4:剪枝:將非頻繁和重復(fù)編碼的k+1邊候選子圖刪去。

算法形成一棵“邊擴展頻繁子圖搜索樹”,由此得到所有頻繁子圖(圖2)。

2.1 圖的編碼

gSpan算法的研究對象是帶標記的無向圖,即無向圖中頂點和邊均帶有標記,標記視為該頂點或邊的屬性。兩個圖只有結(jié)構(gòu)和標記完全相同,方可視為相同或同構(gòu)。

gSpan算法采用深度優(yōu)先搜索的策略(DepthFirstSearch,DFS)為圖編碼。依據(jù)不同的搜索順序,一個圖可以建立多個DFS編碼。為保證一個圖只能表示為唯一編碼,gSpan算法對邊標志和頂點標志排序,并結(jié)合深度優(yōu)先搜索順序,建立DFS詞典序(DFSLexicographicOrder)。依據(jù)DFS詞典序?qū)σ粋€圖的DFS編碼排序,使用其中最小的DFS編碼標示該圖,稱為最小DFS編碼。

如果圖G和圖G’是相同或同構(gòu),則min(G)=min(G’),其中min(G)為圖G的最?。模疲泳幋a。因此,判斷兩個圖形是否相同或同構(gòu),只需判斷其最小DFS編碼是否相同。

構(gòu)建DFS編碼的方法如下:

(1)以任一頂點為起點,按深度優(yōu)先搜索的規(guī)則遍歷頂點。訪問到的邊稱為“前向邊”(ForwardEdge),未被訪問到的邊稱為“后向邊”(BackwordEdge)。

(2)按訪問順序記錄前向邊信息。其中,一條邊表示為五元組(i,j,li,l(i,j),lj),i為始端頂點的訪問順序,j為終端頂點的訪問順序,li為始端頂點標記,l(i,j)為邊標記,lj為終端頂點標記。

(3)加入后向邊信息。后向邊加入的規(guī)則如下:給定頂點v,以其為起點的所有后向邊列于以其為起點的所有后相邊之前;若v無以其為起點的前向邊,則將以其為起點的所有后向邊列于以其為終點的前向邊之后;若v有多條后向邊,則按終點的訪問先后順序排列。

依次所得編碼即為該圖的一個DFS編碼,DFS編碼所顯示邊的先后順序,稱為邊序<T。

假設(shè)Z={code(G,T)|T是G的一個DFS搜索方式},假定在標號集合(L)中有一個線性序列(<L),則<L和<T的詞典組合是一個在集合ET×L×L×L上的線性序列(<e)。DFS詞典序定義如下:如果α=code(Gα,Tα)=(α0,α1,…,αm)而且β=code(Gβ,Tβ)=(β0,β1,…,βn),當且僅當下面條件成立:

(1)?堝t,0≤t≤min(n,m),ak=bk,k<t,at<ebt

(2)ak=bk,0≤k≤m且n≥m。

2.2 邊擴展方法

gSpan算法采用了最右擴展(Right-mostextension)策略,記作G◇re,其中G為被擴展圖,e為所擴展的邊。最右擴展的關(guān)鍵在于保證擴展一條新邊后,只需將擴展邊的DFS編碼附于原圖最?。模疲泳幋a末尾,無需變動原圖最小DFS編碼邊信息順序。

“最右擴展”是指依托最右路徑進行擴展。給定一個圖的深度優(yōu)先搜索順序,首先訪問頂點稱為根,最后訪問的頂點稱為最右頂點,從根到最右頂點的直接路徑稱為最右路徑。

最右擴展G◇re的規(guī)則如下:e可以添加到最右頂點和最右路徑上另一個頂點之間(后向擴展);可以引入一個新的頂點并連接到最右路徑上的頂點(前向擴展)。

2.3 剪枝規(guī)則

(1)非頻繁候選子圖:某候選子圖G非頻繁,則其擴展子圖必非頻繁,可將圖G及其所有擴展子圖刪除。

(2)重復(fù)編碼候選子圖:某候選子圖G的DFS編碼不等于min(G),說明圖G及其擴展子圖的同構(gòu)圖已被檢索過,可將圖G及其所有擴展子圖刪除。

3 基于簡單Petri網(wǎng)的gSpan算法

將gSpan算法應(yīng)用于簡單Petri網(wǎng)的基本思路如下:

(1)有向圖化:將簡單Petri網(wǎng)轉(zhuǎn)化為帶標記的有向圖;

(2)d-gSpan(directed-graph-basedSubstructurepatternmining,基于有向圖的子結(jié)構(gòu)模式挖掘)算法:構(gòu)建適用于帶標記的有向圖的gSpan算法;

由此可將d-gSpan算法應(yīng)用于簡單Petri網(wǎng)所轉(zhuǎn)化的有向圖,從而得到簡單Petri網(wǎng)的頻繁結(jié)構(gòu),即實現(xiàn)業(yè)務(wù)流程的頻繁結(jié)構(gòu)挖掘。

3.1 有向圖化

簡單Petri網(wǎng)轉(zhuǎn)化為帶標記的有向圖需要經(jīng)過以下兩個步驟:要素轉(zhuǎn)換和重新標記。

(1)要素轉(zhuǎn)換。即將簡單Petri網(wǎng)中的三元要素(庫所、變遷和有向弧)轉(zhuǎn)化為二元要素(頂點和有向邊)。

要素轉(zhuǎn)換規(guī)則如下:將一個庫所視為一個頂點,該頂點的標記為原有庫所標記;將一個變遷及其前后兩條有向弧視為一條有向邊,該有向邊方向與原有有向弧相同,其標記為原有變遷標記。據(jù)此,簡單Petri網(wǎng)四個基本結(jié)構(gòu)要素轉(zhuǎn)換,如圖3所示。

(2)重新標記。簡單Petri網(wǎng)中庫所和變遷的標記往往過于詳細,不適于結(jié)構(gòu)數(shù)據(jù)挖掘。此處以圖4為例,三級不同部門的文件審核業(yè)務(wù)流程分別如圖(a)、圖(b)、圖(c)所示。雖然三者均符合圖(d)所示的有向圖結(jié)構(gòu),但是由于有向邊標記不同,數(shù)據(jù)挖掘過程中三者并不被視為同構(gòu)子圖。因此,在要素轉(zhuǎn)換后,需要對有向圖中的標記重新定義。標記詳略程度是否合理,會直接影響到圖結(jié)構(gòu)數(shù)據(jù)挖掘效果。如果標記過于詳細,子圖之間的差異度較大,會忽略很多“有趣”的頻繁結(jié)構(gòu);如果標記過于簡略,子圖之間的差異度較小,會挖掘出大量無實際意義的頻繁結(jié)構(gòu)。標記合理的詳略程度并沒有固定標準,多取決于用戶所設(shè)定的挖掘目標,需要結(jié)合業(yè)務(wù)流程背景知識分析,并進行多次試驗加以驗證。在重新定義標記時可以依循以下4項規(guī)則:

(1)簡化頂點標記。在簡單Petri網(wǎng)中,變遷作為主動方推動了業(yè)務(wù)案例所在庫所的變化。因此,可以將頂點標記簡化為無意義的字母標記,而把有向邊標記作為識別有向圖的主要標志。

(2)弱化參與者角色。在多數(shù)情況下,用戶多依據(jù)任務(wù)內(nèi)容劃分任務(wù)類別,而非參與者角色。因此,任務(wù)內(nèi)容將是識別頻繁結(jié)構(gòu)的核心,而參與者角色則意義不大。

(3)分析任務(wù)核心技能。在任務(wù)內(nèi)容細節(jié)繁雜的情況下,任務(wù)核心技能決定了該任務(wù)所需的資源,因此,可以依據(jù)任務(wù)核心技能判斷任務(wù)是否相同,即其標記是否相同。

(4)設(shè)定邏輯標記。將And-Split、And-Join、Or-Split、Or-Join這樣的邏輯結(jié)構(gòu)利用標記標識出來,有助于數(shù)據(jù)挖掘時識別邏輯結(jié)構(gòu)。

3.2 d-gSpan算法

d-gSpan算法是gSpan算法在有向圖上的拓展,其基本思路是:

(1)設(shè)計新的編碼方法d-DFS編碼,添加邊的方向信息;

(2)依據(jù)原有DFS詞典序規(guī)則,得到最小d-DFS編碼;

(3)依據(jù)d-DFS編碼方法,采用最右擴展策略,由頻繁一邊子圖擴展并剪枝,構(gòu)建邊擴展頻繁子圖搜索樹。

由此得到該有向圖的所有頻繁子圖。

具體概念如下:

(1)d-DFS編碼。在DFS編碼中,一條邊表示為五元組(i,j,li,l(i,j),lj),其中包含了始端和終端,即記錄了邊的訪問方向。

d-DFS編碼在此基礎(chǔ)上,將一條邊表示為六元組(i,j,li,l(i,j),lj,d),其中d為布爾型標志符,表示有向圖中邊的實際方向與訪問方向是否相同,若兩者相同則標識d為“T”(True),否則標識d為“F”(False)。

如圖5所示,圖(a)為帶標記的有向圖,圖(b)為深度優(yōu)先搜索樹,其中頂點標記括號中為頂點訪問順序編號。圖(a)所示有向圖如采用圖(b)所示的深度優(yōu)先搜索方式,其DFS編碼即為:(0,1,X,a,X,T)-(1,2,X,a,Z,T)-(2,0,Z,b,X,F)-(1,3,X,b,Y,F)。

(2)邊擴展策略。此處仍采用gSpan算法的最右擴展策略,但是對k邊有向子圖進行一次邊擴展,可以得到兩個k+1邊有向子圖。如圖5中,圖(a)進行一次右擴展,所得新邊可能是(1,4,X,c,Z,T),也可能是(1,4,X,c,Z,F)。

(3)剪枝策略。剪枝策略與gSpan算法類似:將非頻繁有向子圖及其所有擴展子圖刪去;將d-DFS編碼非最小d-DFS編碼的有向子圖及其所有擴展子圖刪去。

4 實驗

本文以列車入段檢修業(yè)務(wù)流程Petri網(wǎng)模型為例,說明如何使用支持有向圖的gSpan算法挖掘頻繁結(jié)構(gòu)模式。列車入段檢修業(yè)務(wù)流程簡單Petri網(wǎng)模型如圖6所示,Petri網(wǎng)中變遷標記如表1所示。實驗步驟如下:

(1)將Petri網(wǎng)轉(zhuǎn)化為有向圖。將變遷與其前后有向弧合并,忽視庫所標記,重新標記變遷并排序(如表1、表2)所示,得到有向圖如圖7所示。

(2)應(yīng)用d-gSpan算法。設(shè)最小支持度為2,應(yīng)用d-gSpan算法,可得四邊及四邊以上頻繁有向子圖如圖8中圖(a)、圖(b)所示。

(3)結(jié)果分析。分析結(jié)果可以發(fā)現(xiàn),圖8中,圖(a)和圖(b)可以組成圖(c),其含義為:檢測若合格,則發(fā)出合格證,并機車出段;檢測若不合格,則重新修理,并再次檢測。

由圖7可以看到,很多子結(jié)構(gòu)較為相似,只有極小部分圖形不同,但是算法中仍然將其視為不同子結(jié)構(gòu),因此無法直接挖掘出圖c。

5 總結(jié)

本文針對業(yè)務(wù)流程的結(jié)構(gòu)特性,提出了將圖結(jié)構(gòu)數(shù)據(jù)挖掘算法應(yīng)用于業(yè)務(wù)流程模型的思想,具體將gSpan算法應(yīng)用于簡單Petri網(wǎng)模型,提出簡單Petri網(wǎng)有向圖化和d-gSpan算法的可實踐方法,實現(xiàn)了業(yè)務(wù)流程頻繁子結(jié)構(gòu)挖掘。

從理論深度來看,簡單Petri網(wǎng)是一種簡單的模型,不足以涵蓋業(yè)務(wù)流程的全部要素,無法體現(xiàn)業(yè)務(wù)流程的復(fù)雜性;gSpan算法只是實現(xiàn)了頻繁子結(jié)構(gòu)挖掘,更復(fù)雜的結(jié)構(gòu)數(shù)據(jù)挖掘操作,如分類、聚類還沒有實現(xiàn)。

從實驗結(jié)果來看,所挖掘的業(yè)務(wù)流程頻繁子結(jié)構(gòu)具有可理解的含義,但是所得結(jié)果較為凌散,需要結(jié)合背景知識人工整理、分析。其主要原因是gSpan算法的區(qū)分標準較為嚴格,無法識別出相似圖形。

因此,本文只是作為業(yè)務(wù)流程結(jié)構(gòu)數(shù)據(jù)挖掘方面的起點,還可從以下兩方面進一步深入研究:

(1)復(fù)雜業(yè)務(wù)流程模型的頻繁子結(jié)構(gòu)數(shù)據(jù)挖掘;

(2)復(fù)雜結(jié)構(gòu)數(shù)據(jù)挖掘操作;

(3)結(jié)構(gòu)數(shù)據(jù)挖掘的模糊化。

主要參考文獻

[1]甘華鳴.業(yè)務(wù)流程[M].北京:中國國際廣播出版社,2002.

[2]李燕,馮玉強.工作流挖掘:一種新型工作流自動化建模方法[J].計算機工程,2007(4).

[3]AInokuchi,TWashio,HMotoda.AnAprioribasedAlgorithmforMiningFrequentSubstructuresfromGraphData[C]//Proc.ofthe4thEuropeanConf.onPrinciplesandPracticesofKnowledgeDiscoveryinDatabases(PKDD),2000.

[4]MKuramochi,GKarypis.FrequentSubgraphDiscovery[C]//Proceedingsofthe2001IEEEConferenceonDataMining,IEEEComputerSocietyWashington,DC,USA,2001.

[5]XYan,JHan.Graph-basedSubstructurePatternMining[C]//InProceedingsoftheInternationalConferenceonDataMining(ICDM’02),2002.

[6]JHuan,WWang,JPrins.EfficientMiningofFrequentSubgraphinthePresenceofIsomorphism[C]//ThirdIEEEInternationalConferenceonDataMining(ICDM2003),2003.

[7]袁崇義.Petri網(wǎng)原理與應(yīng)用[M].北京:電子工業(yè)出版社,2005.

[8]韓家煒,JHan,MKamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].第2版.范明,孟小峰,譯.北京:機械工業(yè)出版社,2007.

主站蜘蛛池模板: aⅴ免费在线观看| 啪啪国产视频| 2024av在线无码中文最新| 99re这里只有国产中文精品国产精品 | 国产精品自在自线免费观看| a天堂视频| 国产视频自拍一区| 日韩激情成人| 久久青草视频| 全部无卡免费的毛片在线看| 538国产视频| 色偷偷男人的天堂亚洲av| 欧美午夜小视频| 91视频99| 激情六月丁香婷婷| 日本午夜三级| 91成人在线观看视频| 欧洲成人在线观看| 亚洲高清中文字幕| 四虎永久在线| 欧美一级黄片一区2区| 亚洲国产综合精品中文第一| 亚洲区欧美区| 久久 午夜福利 张柏芝| 午夜欧美理论2019理论| 一级黄色网站在线免费看| 无码啪啪精品天堂浪潮av| 台湾AV国片精品女同性| 伊人久综合| 天天综合天天综合| 亚洲综合九九| 欧美黄网站免费观看| 国产精品第一区| 国产99视频在线| 国产精品第一区在线观看| 国产人碰人摸人爱免费视频| 国产成人无码久久久久毛片| 亚洲欧美在线精品一区二区| 亚洲天堂2014| 国产日韩久久久久无码精品| 国产在线精品99一区不卡| 91青草视频| 九九热在线视频| 欧美啪啪一区| 国产av无码日韩av无码网站| 国产在线精品人成导航| 女人爽到高潮免费视频大全| 麻豆国产在线观看一区二区| 午夜精品区| 色偷偷一区二区三区| 亚洲综合欧美在线一区在线播放| 亚洲香蕉久久| av在线5g无码天天| 国产精品久久久久无码网站| 综合久久久久久久综合网| 成人欧美日韩| 好紧好深好大乳无码中文字幕| 丝袜久久剧情精品国产| 91国语视频| 久久免费观看视频| 欧美午夜在线观看| 亚洲高清中文字幕| www.av男人.com| 日韩一区二区三免费高清| 午夜毛片福利| 亚洲成人高清无码| 免费在线国产一区二区三区精品| 国产精品播放| 99精品在线视频观看| 欧美日韩午夜| 国产成人AV男人的天堂| 91精品伊人久久大香线蕉| 国产无码网站在线观看| 国产精品香蕉在线| 中文字幕2区| 午夜精品久久久久久久无码软件 | 九一九色国产| 久996视频精品免费观看| 国产极品美女在线播放| 97成人在线观看| 亚洲AV无码精品无码久久蜜桃| 性欧美在线|