999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

過程挖掘算法研究綜述

2021-01-13 08:36:08敬思遠(yuǎn)
樂山師范學(xué)院學(xué)報 2020年12期
關(guān)鍵詞:結(jié)構(gòu)活動模型

敬思遠(yuǎn)

(1.樂山師范學(xué)院 人工智能學(xué)院,四川 樂山 614000;2.互聯(lián)網(wǎng)自然語言智能處理四川省高校重點實驗室(樂山師范學(xué)院),四川 樂山614000)

0 引言

過程挖掘(Process Mining),也稱為工作流挖掘,是數(shù)據(jù)挖掘領(lǐng)域的一個重要分支。該研究的目的,是從信息系統(tǒng)的事件日志中發(fā)現(xiàn)業(yè)務(wù)流程的真實執(zhí)行過程,并以可視化的方式提供給用戶進(jìn)行分析和決策[1]。當(dāng)前,過程挖掘已經(jīng)被廣泛應(yīng)用于智能制造、流程建模、內(nèi)部安全檢測與審計等諸多領(lǐng)域。舉例來說,ASML公司采用過程挖掘技術(shù)對其光刻機(jī)制造芯片的各個環(huán)節(jié)進(jìn)行分析,并提供優(yōu)化決策[2];飛利浦公司針對其醫(yī)療設(shè)備,從全球范圍采集所有設(shè)備的事件日志,并通過過程挖掘技術(shù)發(fā)現(xiàn)用戶的使用習(xí)慣,從而優(yōu)化其產(chǎn)品設(shè)計[3];SAP公司將過程挖掘集成到ERP系統(tǒng)中協(xié)助用戶進(jìn)行過程建模[4]。

過程挖掘的研究方向主要有三方面:過程發(fā)現(xiàn),符合性檢測和過程增強(qiáng)[1]。過程發(fā)現(xiàn)(Process discovery)的目的是“重現(xiàn)”業(yè)務(wù)流程的真實執(zhí)行過程。該任務(wù)的輸入是信息系統(tǒng)的歷史記錄(稱為事件日志),輸出為算法“觀測到”的過程模型。根據(jù)不同的應(yīng)用,該任務(wù)可以從控制流、資源分配、組織管理等不同的角度進(jìn)行挖掘。符合性檢測(Conformance checking)用于檢測事件日志和過程模型是否一致,并對二者的符合性進(jìn)行量化。符合性檢測常用于評價過程發(fā)現(xiàn)算法的性能,以及用于安全審計、內(nèi)部安全分析等任務(wù)。過程增強(qiáng)(Process Enhancement)是對已有的過程模型進(jìn)行完善和增強(qiáng),例如過程模型修復(fù),為過程模型增加新的屬性等等。本文集中討論基于控制流的過程發(fā)現(xiàn)算法。

過程挖掘領(lǐng)域在近10年里發(fā)展迅速,期間涌現(xiàn)出很多高效的算法。遺憾的是,目前還沒有研究對這些新算法進(jìn)行梳理和比較。本文從過程挖掘的一些基本概念出發(fā),對過程模型的表示,過程挖掘中的一些關(guān)鍵問題進(jìn)行逐一回顧。最后,對當(dāng)前主流的過程挖掘算法進(jìn)行分類比較,總結(jié)了各自的優(yōu)勢和不足。

1 過程挖掘相關(guān)知識

1.1 事件日志

過程感知信息系統(tǒng)能夠?qū)I(yè)務(wù)流程中活動(以下統(tǒng)稱為活動)的執(zhí)行記錄持久化到本地文件系統(tǒng)或數(shù)據(jù)庫中,形成事件日志。圖1中給出了一個事件日志片段。從圖中可以看出,事件日志是一種基于XML的層次化結(jié)構(gòu)。一個事件日志由若干trace(稱為“軌跡”或“跡”)組成,而一個trace是由若干event(稱為“事件”)組成。Event是活動發(fā)生的一個實際案例,其中包含了與活動相關(guān)的若干屬性,例如事件名(concept:name)、生命周期(lifecycle:transition)、時間戳(time:timestamp),等等。圖1中給出的trace是一個關(guān)于保險公司理賠流程的實際發(fā)生序列,受理→在線審查→票據(jù)審查→決策→理賠。IEEE Task Force on Process Mining于2016年正式發(fā)布了事件日志的國際標(biāo)準(zhǔn),稱為IEEE 1849-2016 XES Standard[5]。該標(biāo)準(zhǔn)對事件日志的內(nèi)容和格式進(jìn)行了規(guī)范統(tǒng)一。

圖1 事件日志

下面給出事件日志的形式化定義。

定義 1. 設(shè)A是業(yè)務(wù)流程中活動的有限集合,則σ∈A*是活動的有限序列,L∈Β(A*)是事件日志。其中,A*表示集合A的Kleene 閉包。

例如,令A(yù)={A=“受理”, B=“在線審查”, C=“線下審查”, D=“票據(jù)審查”, E=“決策”, F=“重審”, G=“理賠”, H=“拒絕”},L={10, 5, 3}是一個包含有18個trace的事件日志,其中10表示這條軌跡在日志中出現(xiàn)了10次。

1.2 過程模型表示

常用的過程模型表示方法主要有佩特里網(wǎng)(Petri net)、因果網(wǎng)(Causal net)、過程樹(Process tree),等。這些過程模型的表示方法各有優(yōu)劣。不同的過程挖掘算法采用的模型表示方法也不盡相同。采用不同方法表示的過程模型之間一般可以相互轉(zhuǎn)化,比如可以將一個causal net轉(zhuǎn)換成與其對應(yīng)的petri net。此外,還有一些語義表示能力更強(qiáng)的過程建模語言,如BPMN、YAWL等。這些語言常作為建模工具提供給用戶使用,但是在過程挖掘研究中使用較少,本文不做介紹。接下來,本節(jié)對以上三種表示方法進(jìn)行重點介紹。

首先介紹petri net(也稱為Place/Transition Net,簡稱P/T net)。P/T net是一種數(shù)學(xué)表示能力非常強(qiáng)的建模語言。通常,P/T net由庫所(Place)和變遷(Transition)組成,Place和Transition之間采用有向弧連接。它的形式化定義如下所示。

定義 2[6].P/T net是一個三元組(P,T,F),其中:a)P表示Place的有限集合;b)T表示Transition的有限集合;c)F=(P×T)γ(T×P)表示有向弧的集合。

在P/T net基礎(chǔ)上加上一個起始Place和一個終止Place,即得到表示過程模型的工作流網(wǎng)(Workflow Net,簡稱Wf-net)。圖2中是一個與上節(jié)給出實例對應(yīng)的Wf-net,圖中圓圈表示Place,方框表示Transition。可以看到,每個Transition上都有一個活動名稱,說明Transition和活動是一一對應(yīng)的。當(dāng)某個Transition的所有前驅(qū)結(jié)點(即Place)均處于就緒狀態(tài)時,該Transition即可觸發(fā),并產(chǎn)生一個Event。在P/T net中,一個Place處于就緒狀態(tài)指的是位于該結(jié)點的Token數(shù)大于0(即圖2中的小黑點)。舉例來說,圖2中的“開始”結(jié)點目前已處于就緒狀態(tài),因此它的下一個Transition(受理)可以觸發(fā)。需要說明的是,圖中B和C之間,G和H之間是選擇關(guān)系(即每次只有一個Transition可以觸發(fā)),而{B,C}和D之間是并行關(guān)系。因此,該過程模型可能產(chǎn)生的trace包括等等。

圖 2Wf-netFig 2 Wf-net

定義 3[7].C-net表示為一個四元組CM=(T,C,I,O),其中:a) T表示所有活動的有窮集合;b) C∈T×T是因果關(guān)系的有限集;c) I:T→I(T)為輸入映射函數(shù),?t∈T,I(t)={t'|(t',t)∈C};d) O:T→O(T)為輸出映射函數(shù),?t∈T,O(t)={t'|(t,t')∈C}。

表1中給出了由上述Wf-net轉(zhuǎn)化的C-net。其中,T={A,B,C,D,E,F,G,H}。I(A)=表示活動A的輸入為空集;O(A)={{B,C},{D}}表示活動A的輸出為{B,C}和{D},其中活動B和活動C之間是選擇關(guān)系,而{B,C}和{D}之間是并列關(guān)系。因此,A之后的活動發(fā)生序列可能是BD,CD,DB,DC。

表1 C-netTable 1 C-net

圖3 P-treeFig 3 P-tree

2 過程挖掘中的關(guān)鍵問題

2.1 一些特殊挖掘任務(wù)

在過程挖掘算法中,除了需要發(fā)現(xiàn)一些基本的流程結(jié)構(gòu)外(如順序結(jié)構(gòu)、選擇結(jié)構(gòu)、并行結(jié)構(gòu)、循環(huán)結(jié)構(gòu),等等),還需要處理一些特殊問題,例如重名活動、不可見活動、非自由選擇結(jié)構(gòu)等等。

重名活動指的是有兩個或兩個以上的活動具有相同的名字。引起該問題的原因有幾方面。一是由事件日志中的Event屬性不完備所導(dǎo)致。例如在醫(yī)院的住院信息管理系統(tǒng)中,護(hù)士需要對病人進(jìn)行術(shù)前化驗檢查和術(shù)后化驗檢查,但由于系統(tǒng)中只有“化驗”這一項活動,并沒有事件屬性對“術(shù)前”還是“術(shù)后”進(jìn)行標(biāo)注,因此事件日志中也不會對其進(jìn)行區(qū)分。二是由活動“粒度”不同引起的重名活動。例如,病人在醫(yī)院進(jìn)行化驗,可以細(xì)分為血常規(guī)檢查、肝功檢查、胃鏡檢查等不同項目,但是在日志中它們均統(tǒng)稱為“化驗”,因此算法很難將其進(jìn)行區(qū)分。

不可見活動在流程設(shè)計中又稱為“skip”模式。該活動并沒有實際的意義,僅起到路由的作用。圖4中給出了一個不可見活動的例子,其中黑色的方框即表示一個不可見活動。從圖中可以看出,當(dāng)P1處于就緒狀態(tài)時,既可以觸發(fā)活動A執(zhí)行,也可以從不可見活動通過,從而跳過活動A的執(zhí)行。由于不可見任務(wù)并不會出現(xiàn)在事件日志中,因此很難被算法發(fā)現(xiàn)。

圖4 不可見活動

非自由選擇結(jié)構(gòu)是一種同步和選擇同時出現(xiàn)的復(fù)雜結(jié)構(gòu)。在該結(jié)構(gòu)中,后面的Transition的觸發(fā)依賴于前面的Transition的選擇。圖5中給出了一個非選擇結(jié)構(gòu)的例子。其中P1是一個選擇結(jié)構(gòu),要么A被觸發(fā),要么B被觸發(fā)。假設(shè)觸發(fā)的是Transition A,接下來出現(xiàn)一個并行結(jié)構(gòu)P2和P3,然后Transition C被觸發(fā)。注意到,Transition C被觸發(fā)后又是一個選擇結(jié)構(gòu),若不考慮其他因素,則Transition D和Transition E都可能被觸發(fā)。但由于Transition D依賴于P3和P5,Transition E依賴于P5和P4,因此最終只能觸發(fā)Transition D。這種遠(yuǎn)程的依賴關(guān)系在過程挖掘中很難被發(fā)現(xiàn)。

圖5 非自由選擇結(jié)構(gòu)

2.2 事件日志的噪聲和不完備性

所有過程挖掘算法的起點都是事件日志。因此,事件日志的質(zhì)量會直接影響最后的挖掘結(jié)果。事件日志處理中經(jīng)常會遇到以下兩方面的問題。

首先是噪聲數(shù)據(jù)。真實環(huán)境下,事件日志中出現(xiàn)噪聲是非常常見的。引起噪聲的情況非常多,例如事件日志服務(wù)器工作異常(斷電、宕機(jī)、網(wǎng)絡(luò)擁塞等),分布式環(huán)境下某個生產(chǎn)服務(wù)器工作異常,等等。噪聲數(shù)據(jù)的特點是出現(xiàn)頻率低,因此一般采用數(shù)據(jù)清洗技術(shù)對噪聲進(jìn)行過濾,或者對挖掘得到的過程模型進(jìn)行剪枝。但是,如何有效區(qū)分噪聲和低頻Trace是一個難點。

其次是日志的完備性。大部分算法在設(shè)計時都會假設(shè)日志是完備的,即所有可能出現(xiàn)的活動軌跡在事件日志中均是包含的。但是這個假設(shè)難以保證一定成立。舉例來說,假設(shè)一個過程中包含有10個并行的活動,那么這些活動出現(xiàn)在事件日志中有10!種不同的組合,如果只記錄1000條Trace,很明顯不可能覆蓋所有可能出現(xiàn)的情況。此外,在真實環(huán)境下,有些Trace可能很長時間都不會出現(xiàn),但是這些Trace對應(yīng)的業(yè)務(wù)過程在信息系統(tǒng)中卻是真實存在的。

2.3 如何平衡性能指標(biāo)

目前常常從四個方面來評價過程挖掘算法的輸出結(jié)果[9],分別是Fitness、Precision、Generalization以及Simplicity。

Fitness指標(biāo)用于評價挖掘得到的過程模型能夠重現(xiàn)事件日志的能力。過程模型的Fitness值等于1當(dāng)且僅當(dāng)事件日志中所有的Trace都能被該模型重現(xiàn)。換句話說,能被模型重現(xiàn)的Trace越多,該模型的Fitness值就越高。Fitness目前是評價過程模型質(zhì)量最重要的指標(biāo)。

Precision指標(biāo)用于評價過程模型的精度。如果一個過程模型能夠產(chǎn)生出很多事件日志中不存在的Trace,即可認(rèn)為該模型的精度較低。在機(jī)器學(xué)習(xí)中該現(xiàn)象也稱為“欠擬合”。舉例來說,“花”模型能夠產(chǎn)生出任意的Trace,但是它的Precision值非常低,對實際應(yīng)用也毫無價值,這是過程挖掘算法不希望得到的。

Generalization指標(biāo)用于評價過程模型的泛化度。Generalization與Precision剛好相反,它希望過程模型不僅能反應(yīng)出事件日志中“觀測到的行為”,還希望該模型能夠反應(yīng)出一些在事件日志中觀測不到但又是正確的行為。鑒于事件日志的不完備性,因此好的過程模型應(yīng)該具有一定的“預(yù)見性”,這樣才能更好地適應(yīng)真實應(yīng)用環(huán)境。

Simplicity指標(biāo)用于評價過程模型的結(jié)構(gòu)復(fù)雜度。在保證Fitness、Precision和Generalization三個指標(biāo)的前提下,過程模型的結(jié)構(gòu)復(fù)雜度越低越好。一個過程模型結(jié)構(gòu)越簡單,越容易被用戶理解。

除此之外,還有一個常常被忽略的重要指標(biāo)Soundness,用于評價一個過程模型是否合理。根據(jù)文獻(xiàn)[6]中給出的定義,一個合理的過程模型應(yīng)該滿足以下幾點:(a) 模型有且僅有一個起始結(jié)點和終止結(jié)點;(b) 模型中的每一個結(jié)點都在從起始結(jié)點到終止結(jié)點的某條路徑上(即每個活動都有可能被觸發(fā));(c) 模型中不存在死鎖、活鎖等不合理結(jié)構(gòu)。

3 過程挖掘算法研究現(xiàn)狀

3.1 ɑ系列過程挖掘算法

van der Aalst[6]等于2004年提出的ɑ算法被公認(rèn)為是過程挖掘領(lǐng)域的一項里程碑式的成果。ɑ算法能夠基于事件日志中Event的出現(xiàn)順序,對Event之間的依賴關(guān)系進(jìn)行推理,從而發(fā)現(xiàn)其中順序、因果、選擇、并行四種結(jié)構(gòu),得到一個合理的Wf-net。但是ɑ算法有很多關(guān)鍵問題沒解決,例如不能處理重名活動,不能發(fā)現(xiàn)不可見活動,不能挖掘出循環(huán)結(jié)構(gòu)和非自由選擇結(jié)構(gòu)等等。因此后來涌現(xiàn)出許多以ɑ算法為基礎(chǔ)進(jìn)行的研究。de Medeiros等[10]提出了能進(jìn)一步發(fā)現(xiàn)短循環(huán)(長度為1和2的循環(huán))的ɑ+算法;林雷蕾等[11]提出了ɑL+算法,能夠從從沒有“aba”模式的事件日志中挖掘出長度為2的循環(huán)結(jié)構(gòu);聞立杰等[12]先后提出了能夠發(fā)現(xiàn)不可見活動的ɑ#算法,以及能進(jìn)一步發(fā)現(xiàn)非自由選擇結(jié)構(gòu)的ɑ++算法[13];李嘉菲等先后提出了能解決重名活動的ɑ※算法[14]和ɑ※※算法[15]。更進(jìn)一步,為了增強(qiáng)算法的推理能力,杜玉越等[16]則提出了基于邏輯petri net的過程挖掘算法;余建波[17]則提出了一種基于統(tǒng)計的ɑ算法,同時解決了重名活動的識別,事件日志中噪聲的處理和非自由選擇結(jié)構(gòu)識別三個問題,提高了算法的魯棒性和準(zhǔn)確率。

以上所有算法均可歸結(jié)為ɑ系列過程挖掘算法(因為它們都是從ɑ算法擴(kuò)展得到的)。ɑ系列算法的特點是它們都是通過掃描事件日志中的Trace,抽象出活動之間的基本關(guān)系,進(jìn)而構(gòu)造出過程模型。這類算法的優(yōu)點是時間復(fù)雜度低,執(zhí)行時間短,并且得到的過程模型結(jié)構(gòu)復(fù)雜度較低,容易理解。但是ɑ系列算法均沒有考慮fitness、precision和generalization三個指標(biāo),因此所得模型的綜合質(zhì)量都不高,在實際應(yīng)用中較少采用。

3.2 啟發(fā)式過程挖掘算法

Weijters等[18]首次提出了過程挖掘的啟發(fā)式算法,稱為Heuristic Miner(簡稱HM)。HM算法的原理是通過統(tǒng)計事件日志中一些基本模式的出現(xiàn)頻率來計算活動之間的依賴度,以此發(fā)現(xiàn)過程模型中的主要行為。由于HM只關(guān)注主要行為,對一些異常信息(如噪聲)能自動過濾,因此算法具有較強(qiáng)的魯棒性。HM算法能夠發(fā)現(xiàn)過程模型中的一些常見結(jié)構(gòu),如順序、選擇、并行、循環(huán)、和非自由選擇結(jié)構(gòu),輸出模型為C-net。HM算法包含三個主要步驟。首先,通過公式(1)計算活動之間的依賴度。

(1)

其中,A?LB表示在Trace中活動A和B相鄰出現(xiàn)(即模式),|A?LB|表示A?LB出現(xiàn)的頻率。將公式(1)中的所有?L符號替換為?L符號,則得到長度為 2 的循環(huán)結(jié)構(gòu)的依賴度,其中A?LB表示模式在事件日志中出現(xiàn)。D(A?LB)值越接近1,則說明活動A和活動B之間的依賴度越強(qiáng);反之,越接近0則表示兩個活動的依賴度越弱。舉例來說,假設(shè)L={10, 5, 3},則A?LB出現(xiàn)了13次,B?LA出現(xiàn)了0次,則D(A?LB)≈0.93。其次,設(shè)定閾值,構(gòu)建依賴圖。一些由噪聲引起的依賴度較低的邊此時將被過濾掉。最后,在依賴圖基礎(chǔ)上通過計算進(jìn)一步確定模型中的并行和選擇分支。

HM具有較強(qiáng)的抗噪能力和魯棒性,但是初始版本有很多不足。Weijters等[19]于2012年又進(jìn)一步提出了Flexible Heuristics Miner(FHM),大幅提升了算法性能。此外,Greco等人基于C-net,在傳統(tǒng)方法基礎(chǔ)上融入了優(yōu)先約束,提出了CNMiner算法。魯法明等[20]則提出了一種并行化的啟發(fā)式流程挖掘算法,不僅提升了算法的計算性能,還對HM算法中的長距離依賴關(guān)系以及2度循環(huán)結(jié)構(gòu)的計算進(jìn)行了優(yōu)化。

3.3 基于計算智能的過程挖掘算法

計算智能已成為解決數(shù)據(jù)挖掘、非線性優(yōu)化等領(lǐng)域問題的一種主流方法。這類方法模擬了生物演化過程,具有非常強(qiáng)的搜索能力和魯棒性。Alves de Medeiros等[7]首次提出了基于遺傳算法的過程挖掘方法,稱為Genetic Miner。通過定義良好的適應(yīng)度函數(shù),以及交叉、變異等過程遺傳操作算子,Genetic Miner能夠得到與事件日志非常一致的C-net模型。而且,該算法采用一種統(tǒng)一方式解決非自由選擇結(jié)構(gòu)、不可見活動、以及重名活動的挖掘。歐陽等[21]發(fā)現(xiàn)Genetic Miner不能很好地處理過程模型中的循環(huán)結(jié)構(gòu),提出了一種集成的方法,在遺傳算法基礎(chǔ)上融合了粒子群算法和差分進(jìn)化算法,進(jìn)一步改進(jìn)了Genetic Miner算法的搜索能力。Vázquez-Barreiros等[22]則對Genetic Miner中的目標(biāo)函數(shù)、初始化方法等進(jìn)行了改進(jìn),提出一種新的遺傳算法ProDiGen,從Fitness、Precision和Simplicity三個指標(biāo)上提升了所得過程模型的質(zhì)量。此外,李莉等[23]提出了一種基于變異粒子群優(yōu)化的過程挖掘算法,宋煒等[24]提出了一種基于模擬退火的智能算法,輸出模型均為C-net。遺憾的是,以上算法均不能保證過程模型的合理性。

基于計算智能的算法能夠采用統(tǒng)一的方式解決多種復(fù)雜問題,并且算法的魯棒性強(qiáng),挖掘得到的模型質(zhì)量較高。但是這類方法的計算時間開銷較大 ,在應(yīng)用時需要考慮該問題。

3.4 基于Region的過程挖掘算法

基于Region的過程挖掘算法包括兩類:一類是基于狀態(tài)的Region方法(State-based region),一類是基于語言的Region方法(Language-based region)。它們的區(qū)別在于,前者的輸入是一個變遷網(wǎng)絡(luò)(Transition System),而后者的輸入是事件日志。基于State-based region的方法對參數(shù)的依賴非常大,不同的參數(shù)設(shè)置可能得到差異非常大的過程模型,在此不再詳細(xì)介紹。

Bergenthum等人首次提出了基于Language-based region的過程挖掘方法[27]。該方法通過事件日志計算整數(shù)點的最小線性基,從而構(gòu)造過程模型。該方法保證了最優(yōu)的Fitness值,但是卻沒有考慮模型的Precision值,并且所提算法的時間復(fù)雜度隨日志規(guī)模呈指數(shù)級增長。

在所有基于Language-based region的方法中,目前最有效的是基于整數(shù)線性規(guī)劃的過程挖掘算法(稱為ILP Miner)。首次提出過程挖掘的ILP算法的是Werf等人[28]。該方法中提出了整數(shù)線性規(guī)劃的目標(biāo)函數(shù),并構(gòu)建了約束條件。該優(yōu)化模型不僅能夠表達(dá)對Petri net中特定庫所的偏好,而且支持一些高級petri net的發(fā)現(xiàn)(例如含有重置弧和約束弧的petri net)。van Zelst等[29]對ILP方法進(jìn)行了進(jìn)一步完善,提出了Hybrid ILPMiner。該方法不僅改進(jìn)了目標(biāo)函數(shù),而且提出了如何處理低頻行為,從而提高了所得模型的Precision指標(biāo)。由于篇幅問題,在此不再對該方法進(jìn)行詳細(xì)介紹。

3.5 基于大數(shù)據(jù)的過程挖掘算法

目前過程挖掘領(lǐng)域面臨的主要問題之一是對過程大數(shù)據(jù)的挖掘。舉例來說,目前的醫(yī)院管理信息系統(tǒng)中包含了門診信息管理系統(tǒng)、藥品信息管理系統(tǒng)、住院信息管理系統(tǒng)等數(shù)十個系統(tǒng),其中可能涉及上千個活動,每天產(chǎn)生數(shù)百兆的事件日志。Philips公司的醫(yī)療設(shè)備采集分布在全世界各地的設(shè)備節(jié)點的事件日志進(jìn)行分析,每天能產(chǎn)生GB級的過程數(shù)據(jù)。如何在合理的時間內(nèi)從這類“大數(shù)據(jù)”中挖掘得到高質(zhì)量的過程模型是本領(lǐng)域的一個新挑戰(zhàn)。

目前基于大數(shù)據(jù)的過程挖掘方法主要有兩大類,一類是基于分治法的算法,另一類是基于新計算范式的方法。首先,基于分治法的算法中最有效的是Leemans等[30-31]提出的Inductive Miner(簡稱IM)。IM算法采用了一種分治和遞歸的策略,從單個結(jié)點出發(fā),通過不斷地遞歸將相鄰的結(jié)構(gòu)化的局部模型組合成更大的“局部”模型,最終得到完整的過程模型。由于在整個計算過程中,IM算法保證每一步得到的局部模型均是結(jié)構(gòu)化的,因此其最終得到的過程模型也是結(jié)構(gòu)化的。IM算法是目前過程挖掘領(lǐng)域最有效的算法之一,其優(yōu)點是能夠挖掘得到質(zhì)量很高的過程模型,并且計算時間復(fù)雜度較低,能在短時間內(nèi)分析GB級的事件日志。但是它不能發(fā)現(xiàn)一些非本地的結(jié)構(gòu),例如長距離的循環(huán)結(jié)構(gòu)、非自由選擇結(jié)構(gòu)等等。

Verbeek等[32]則提出了一種普適的分治法框架,稱為Divide & Conquer。該方法首先通過聚類算法將活動集合劃分成若干子集;基于得到的活動子集,對事件日志進(jìn)行劃分,得到每個活動子集對應(yīng)的“局部日志”;基于活動子集和局部日志,采用現(xiàn)有算法(如ILP算法、IM算法等)得到局部的過程模型;最后,將得到的局部模型進(jìn)行融合,得到最終的過程模型。仍然基于3.2節(jié)中給出的事件日志L進(jìn)行解釋。假設(shè)通過計算得到兩個活動子集{A,B,C,D,E,F}和{G,H},則L將被劃分為兩個局部日志L1={10, 5, 3},L2={{G}, {H}, {G}},基于這兩個日志,可以得到兩個局部的過程模型(如圖6所示);最后通過融合將兩個模型合并成最終的模型(圖2)。

第二類方法則是采用新的計算范式。例如,Reguieg等[33]提出了一種基于MapReduce的事件相關(guān)性計算方法,擴(kuò)展了現(xiàn)有的過程挖掘算法。Ferreira等[34]則提出了一種基于GPU和CPU協(xié)同的事件統(tǒng)計算法,實現(xiàn)了對過程挖掘算法的加速。李龔亮等[35]則提出基于GPU的并行遺傳過程挖掘算法,表現(xiàn)出較好的執(zhí)行時間加速比。在此不再一一介紹。

圖6 由分治法得到的局部模型

4 算法比較

表2從模型質(zhì)量和模型結(jié)構(gòu)兩個大的方面對三種算法進(jìn)行了比較。模型質(zhì)量指的是該算法挖掘得到的過程模型在不同評價指標(biāo)上的表現(xiàn);模型結(jié)構(gòu)指的是該算法能夠發(fā)現(xiàn)的流程結(jié)構(gòu)。首先從模型質(zhì)量上看,ETM算法的優(yōu)點是考慮了所有的性能指標(biāo),所得到的過程模型質(zhì)量較高,有較好的抗噪性。但是ETM算法執(zhí)行時間較慢,這也是所有基于計算智能算法的共同缺點。Hybrid ILP Miner算法在Fitness、Precision和Simplicity三大指標(biāo)上表現(xiàn)較好,且具有較好的抗噪性,執(zhí)行之間也很短。但是該算法沒有考慮算法的Generalization,換句話說,在一些真實場景下該算法可能表現(xiàn)不佳。此外,Hybrid ILP Miner挖掘得到的過程模型是弱合理的,而不能保證模型的強(qiáng)合理性。IM算法挖掘得到的過程模型則在所有性能指標(biāo)上均能達(dá)到令人滿意的效果,而且具有較好的抗噪性,執(zhí)行時間也非常短。

接下來從模型結(jié)構(gòu)上對三種算法進(jìn)行分析。ETM算法因為采用的是隨機(jī)搜索,因此理論上能發(fā)現(xiàn)所有的流程結(jié)構(gòu)。Hybrid ILP Miner算法盡管能發(fā)現(xiàn)表2中列出的所有流程結(jié)構(gòu),但是對一些異常復(fù)雜的結(jié)構(gòu),仍然難以發(fā)現(xiàn)。IM算法是一種基于分治法的算法,它從單個結(jié)點進(jìn)行遞歸,通過與相鄰結(jié)點組合來發(fā)現(xiàn)局部的流程結(jié)構(gòu),因此難以發(fā)現(xiàn)一些長距離的依賴關(guān)系。最后,表2中還討論了所得模型的可重現(xiàn)性。ETM由于是隨機(jī)搜索算法,因此它的挖掘結(jié)果難以重現(xiàn),而IM和Hybrid ILP Miner兩種算法的挖掘結(jié)果均是可重現(xiàn)的。

綜上可以發(fā)現(xiàn),ETM算法能夠得到高質(zhì)量的、強(qiáng)合理的過程模型,理論上能夠發(fā)現(xiàn)所有可能的模型結(jié)構(gòu),但是它的執(zhí)行時間長,且挖掘結(jié)果很難重現(xiàn);IM算法同樣可以得到高質(zhì)量的、強(qiáng)合理的過程模型,并且它的執(zhí)行時間短,挖掘結(jié)果也能重現(xiàn),但是它只能發(fā)現(xiàn)局部模型結(jié)構(gòu),難以發(fā)現(xiàn)一些遠(yuǎn)距離的依賴關(guān)系;Hybrid ILP Miner算法能夠發(fā)現(xiàn)大部分的模型結(jié)構(gòu),并且它的執(zhí)行時間短,挖掘結(jié)果能夠重現(xiàn),但是它挖掘到的過程模型泛化性較低,并且是弱合理的。

表2 三種算法的比較

5 總結(jié)和展望

本文對當(dāng)前過程挖掘領(lǐng)域以Petri net、C-net和P-tree為輸出的主流算法進(jìn)行了分類總結(jié)。首先,按照過程挖掘算法的基本原理,將其劃分為五大類,分別是ɑ系列算法、啟發(fā)式算法、基于計算智能的算法、基于Region理論的算法,以及基于分治法的算法。其次,對目前最有效的三個算法ETM、IM以及Hybrid ILP Miner,進(jìn)行了進(jìn)一步的分析和比較,并給出了相關(guān)結(jié)論。但需要強(qiáng)調(diào)的是,目前該領(lǐng)域的研究還遠(yuǎn)沒有走到終點。首先,當(dāng)前的算法仍然存在諸多不足,例如ETM算法計算效率較低,且它只是理論上能發(fā)現(xiàn)所有的模型結(jié)構(gòu),而實際應(yīng)用中仍然不能完全令人滿意;IM算法只能發(fā)現(xiàn)局部的模型結(jié)構(gòu),難以發(fā)現(xiàn)遠(yuǎn)距離的依賴關(guān)系;Hybrid ILP Miner算法挖掘得到的過程模型泛化性較低,等等。

此外,隨著過程挖掘領(lǐng)域的不斷研究和發(fā)展,目前又涌現(xiàn)出很多新的問題。

a)異源日志的融合問題,即事件日志是來自不同的信息系統(tǒng)。這些信息系統(tǒng)可能是不同時期的,或者是不同企業(yè)開發(fā)的,它們在活動命名、業(yè)務(wù)過程設(shè)計上均不同。因此,如何將事件日志進(jìn)行融合是一個關(guān)鍵問題。

b)概念漂移問題,即過程模型中的概念隨著時間的遷移發(fā)生了變化。舉例來說,一些舊的業(yè)務(wù)過程可能會被簡化(也可能變得復(fù)雜),一些簡單的業(yè)務(wù)過程可能會被合并,業(yè)務(wù)過程中的一些活動可能會被刪除或修改,等等。

c)大數(shù)據(jù)處理問題。盡管目前已有一些關(guān)于過程大數(shù)據(jù)處理的研究,例如分治法,或者基于MapReduce,GPU的算法,但是總體來說,該領(lǐng)域還處于起步階段,仍然有諸多問題臻待解決。

猜你喜歡
結(jié)構(gòu)活動模型
一半模型
“六小”活動
少先隊活動(2022年5期)2022-06-06 03:45:04
“活動隨手拍”
行動不便者,也要多活動
中老年保健(2021年2期)2021-08-22 07:31:10
《形而上學(xué)》△卷的結(jié)構(gòu)和位置
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
論結(jié)構(gòu)
中華詩詞(2019年7期)2019-11-25 01:43:04
三八節(jié),省婦聯(lián)推出十大系列活動
海峽姐妹(2018年3期)2018-05-09 08:20:40
論《日出》的結(jié)構(gòu)
主站蜘蛛池模板: 亚洲成人在线网| 国产爽歪歪免费视频在线观看| 亚洲国产精品VA在线看黑人| 午夜毛片福利| 2020精品极品国产色在线观看 | 国产成人亚洲无吗淙合青草| 宅男噜噜噜66国产在线观看| 久久性视频| 亚洲av无码牛牛影视在线二区| 91精品国产情侣高潮露脸| 欧美日韩第二页| 欧美精品另类| 不卡网亚洲无码| 日韩av电影一区二区三区四区| 狠狠色丁香婷婷| 六月婷婷综合| 亚洲色图另类| AⅤ色综合久久天堂AV色综合| 国产va欧美va在线观看| 在线观看国产精品第一区免费| 久久夜色精品国产嚕嚕亚洲av| 亚洲第一黄片大全| 亚洲第一精品福利| 天天干伊人| 国产一级做美女做受视频| 国产午夜无码专区喷水| 伦伦影院精品一区| 亚洲国产精品不卡在线| 亚洲第一视频免费在线| 亚洲精品视频免费看| 国产亚洲欧美日本一二三本道| 波多野结衣第一页| 97久久精品人人| 亚洲精品欧美日本中文字幕| 最新国产精品第1页| 国产福利在线观看精品| 日韩欧美中文字幕在线韩免费| 国产成人亚洲日韩欧美电影| 婷婷综合亚洲| 亚洲天堂视频在线免费观看| 伊人久热这里只有精品视频99| 国产精品亚洲天堂| 色婷婷在线播放| 久草热视频在线| 国产精品无码制服丝袜| 日韩小视频在线播放| 成人毛片在线播放| 人妻无码一区二区视频| 白浆视频在线观看| 国产精品jizz在线观看软件| 成人午夜亚洲影视在线观看| 91亚瑟视频| 国产不卡在线看| 极品私人尤物在线精品首页 | 国产在线第二页| 国产菊爆视频在线观看| 亚洲日韩日本中文在线| 欧美成人怡春院在线激情| 无码国产偷倩在线播放老年人| 91在线激情在线观看| 亚洲欧美综合在线观看| 午夜精品区| 四虎成人精品在永久免费| 欧美色亚洲| 97久久人人超碰国产精品 | 亚洲福利视频网址| 日韩亚洲高清一区二区| 国产又粗又猛又爽视频| 亚洲av无码人妻| 无码av免费不卡在线观看| 亚洲色成人www在线观看| 在线欧美a| 日韩av无码DVD| 欧美成人午夜视频免看| 久久精品aⅴ无码中文字幕| 国产欧美高清| 亚洲男人在线| 国产嫩草在线观看| 国产免费网址| 五月婷婷伊人网| 色妺妺在线视频喷水| 999国内精品视频免费|