徐 濤 孟 野 盧 敏(中國民航大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300300)(中國民航信息技術(shù)科研基地 天津 300300)
?
基于RankClus算法的機(jī)場流程日志活動挖掘
徐濤①②孟野*①盧敏①②①
①(中國民航大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院天津300300)
②(中國民航信息技術(shù)科研基地天津300300)
流程挖掘技術(shù)可以提取機(jī)場流程日志中的有用信息用于流程分析。但機(jī)場流程日志處于細(xì)節(jié)化的低抽象層次,不符合分析者的預(yù)期。對機(jī)場流程日志挖掘得到的流程模型呈現(xiàn)意面狀的復(fù)雜結(jié)構(gòu),流程模型的含義難于理解。解決該問題的一種方法是通過活動挖掘,將低抽象層次活動聚類為流程模型中表征高抽象層次活動的活動類簇。為此提出了一種基于RankC lus算法的活動挖掘方法,將機(jī)場流程日志的活動聚類與活動排序評分計算相結(jié)合,從而構(gòu)建更易理解的活動聚類流程模型。實(shí)驗(yàn)結(jié)果表明,RankClus活動聚類流程模型的日志回放一致性與原生日志流程模型大致相當(dāng),但在結(jié)構(gòu)復(fù)雜度上要顯著低于原生日志流程模型。
流程挖掘;活動挖掘;RankClus;蹤跡聚類
機(jī)場運(yùn)行過程中時刻有各類事件發(fā)生,機(jī)場業(yè)務(wù)信息系統(tǒng)隨之生成一系列機(jī)場流程日志。對機(jī)場流程日志進(jìn)行流程挖掘可得到相應(yīng)的業(yè)務(wù)流程模型[1],借由業(yè)務(wù)流程模型指導(dǎo),機(jī)場可開展運(yùn)行決策支持[2]及業(yè)務(wù)趨勢預(yù)測[3]等一系列工作以提高機(jī)場運(yùn)行效率。因此機(jī)場流程日志的流程挖掘具有重要意義。
流程挖掘研究通常將流程日志羅列為活動組成的蹤跡(trace),構(gòu)建目標(biāo)日志流程模型并分析。流程挖掘研究主要分3個方向[1]:(1)流程發(fā)現(xiàn):在無先驗(yàn)知識指導(dǎo)下建立流程日志的流程模型;(2)一致性檢測:對比已有流程模型與真實(shí)情況以驗(yàn)證模型合理性,常用日志回放實(shí)現(xiàn);(3)模型增強(qiáng):根據(jù)所觀測事件信息擴(kuò)展業(yè)務(wù)流程模型。國內(nèi)機(jī)場流程日志中活動以工作人員上傳的文本描述為主,抽象層次(abstract level)較低。直接對這類日志進(jìn)行流程發(fā)現(xiàn)時,得到的流程模型結(jié)構(gòu)復(fù)雜且難以理解。文獻(xiàn)[4]提出一種基于全局蹤跡分割的活動挖掘方法,該方法設(shè)定時間窗口對鄰近活動進(jìn)行層次聚類。但僅考慮事件間的時間鄰近度,其聚類結(jié)果不能很好反映領(lǐng)域知識。文獻(xiàn)[5]采用領(lǐng)域?qū)<沂止?biāo)記方式為流程日志添加活動類標(biāo)簽,并用標(biāo)記日志訓(xùn)練活動描述的文本分類器,再對活動分類。該方式所得活動類別較為細(xì)碎,專家標(biāo)記的主觀誤差對結(jié)果影響較大。文獻(xiàn)[6]假設(shè)事件與活動間存在一對多或多對多關(guān)系,采用詞干提取等文本挖掘技術(shù)挖掘日志文本描述中的領(lǐng)域知識,將所得知識用于匹配事件與活動以合理定位流程日志抽象層次。該方法在中文流程日志中實(shí)現(xiàn)較困難。
本文構(gòu)建二類型網(wǎng)絡(luò)(bi-type network)描述活動與蹤跡關(guān)系,視活動與蹤跡為不同類型結(jié)點(diǎn),用活動在各蹤跡結(jié)點(diǎn)類簇的排序評分向量量化表示活動,為此需得到合理蹤跡聚類結(jié)果以計算該排序評分。文獻(xiàn)[7-9]的蹤跡聚類方法難用于蹤跡聚類的活動排序評分計算,不能很好銜接后續(xù)活動聚類工作。文獻(xiàn)[10]提出有效結(jié)合聚類和排序的RankClus算法。該算法主要功能是對二類型網(wǎng)絡(luò)排序與聚類。應(yīng)用在機(jī)場流程日志活動挖掘能夠得到較準(zhǔn)確的蹤跡結(jié)點(diǎn)劃分結(jié)果,并計算出活動結(jié)點(diǎn)在蹤跡劃分生成子網(wǎng)絡(luò)的排序評分。在RankClus算法基礎(chǔ)上,本文將蹤跡聚類與活動聚類相結(jié)合,設(shè)計機(jī)場流程日志低抽象層次活動的聚類算法,使基于聚類結(jié)果挖掘所得日志流程模型在保持一定日志重現(xiàn)度的同時,有效降低流程模型的結(jié)構(gòu)復(fù)雜度。
機(jī)場流程日志的流程挖掘主要關(guān)注提交時間、部門、模塊、活動、實(shí)例號等屬性。表1是國內(nèi)某機(jī)場的部分流程日志,類似“新增要客航班:HU7703,CA 1321。”,“要客航班更新:CA947,請各單位加強(qiáng)關(guān)注。”活動描述的事件大量存在,這類事件可統(tǒng)一視為“要客航班更新”。但流程挖掘時低抽象層次事件與活動間一對一映射的關(guān)系[11]及復(fù)雜的活動描述語義,使數(shù)據(jù)預(yù)處理合并事件的做法難以實(shí)現(xiàn),挖掘到的流程模型充斥大量低抽象層次活動。為此需將低抽象層次事件通過聚類方式抽象為高抽象層次的活動類簇。將“新增”、“更新”等活動描述標(biāo)識的事件聚類為表示“要客航班更新”的活動類簇以簡化流程模型結(jié)構(gòu)。
可將表1中390962號實(shí)例與390963號實(shí)例分別表示為蹤跡<A,C,D,E,F(xiàn)>與蹤跡<B,C,D,E,F(xiàn)>。若將這兩條業(yè)務(wù)響應(yīng)[12]類似的蹤跡聚為一類,形如“新增要客航班”、“要客航班更新”的活動便出現(xiàn)于同類蹤跡中。活動即可表示為在不同類蹤跡中的分布情況。表2的日志結(jié)構(gòu)分析表明機(jī)場流程日志活動有較高的絕對數(shù)目與事件記錄占比,大量低抽象層次活動使流程模型結(jié)構(gòu)呈“意面狀”(Spaghettilike)[4]。以模塊或其他屬性構(gòu)建蹤跡可簡化所發(fā)現(xiàn)流程模型的結(jié)構(gòu),但造成模型抽象層次過高,僅能反映“當(dāng)前部門開展了某項活動”這類不具體的活動語義,模型丟失大量信息。因此聚類時需為活動指定介于兩者間的抽象層次。
可構(gòu)造如圖1所示的二類型網(wǎng)絡(luò)描述活動與蹤跡間關(guān)系,并區(qū)分網(wǎng)絡(luò)中活動在各類蹤跡中重要度以聚類相似的低抽象層次活動。用高抽象層次活動類簇替代原日志活動,構(gòu)建蹤跡集合。該網(wǎng)絡(luò)由活動結(jié)點(diǎn)與蹤跡結(jié)點(diǎn)組成,網(wǎng)絡(luò)的實(shí)線視為該活動在蹤跡中出現(xiàn)了一次,虛線則表示結(jié)點(diǎn)間存在相似性。采用二類型網(wǎng)絡(luò)來描述活動與蹤跡間的關(guān)系,使得流程日志活動挖掘問題轉(zhuǎn)變?yōu)榫垲惗愋途W(wǎng)絡(luò)活動結(jié)點(diǎn)的問題[13,14]。

表1 國內(nèi)某大型樞紐機(jī)場部分流程日志

表2 國內(nèi)某大型樞紐機(jī)場2013年流程日志結(jié)構(gòu)分析

圖1 活動與蹤跡的二類型網(wǎng)絡(luò)
3.1 RankClus混合模型
為聚類活動與蹤跡的二類型網(wǎng)絡(luò)中的活動結(jié)點(diǎn),需劃分蹤跡結(jié)點(diǎn),將活動結(jié)點(diǎn)表示為在各類蹤跡上的重要度排序評分的評分向量。為獲取蹤跡結(jié)點(diǎn)的合理劃分結(jié)果,可引入RankC lus算法的混合模型(m ixture m odel),通過模型參數(shù)估計得到的蹤跡結(jié)點(diǎn)表示向量,對蹤跡結(jié)點(diǎn)進(jìn)行劃分。以機(jī)場流程日志活動-蹤跡二類型網(wǎng)絡(luò)為例,X表示機(jī)場日志蹤跡結(jié)點(diǎn)集合,Y表示機(jī)場低抽象層次活動結(jié)點(diǎn)集合,則可表示機(jī)場日志蹤跡結(jié)點(diǎn)與機(jī)場低抽象層次活動構(gòu)成的二類型網(wǎng)絡(luò),W為網(wǎng)絡(luò)的鄰接矩陣,分塊可得:

將ix與Y中結(jié)點(diǎn)有邊相連的概率表示為則X中的所有結(jié)點(diǎn)ix(1,i= 2,,)m…均滿足這一分布。記,ikπ為ix屬于第k類的后驗(yàn)概率,可對p(Y|xi)建立如式(2)的RankClus混合模型:






3.2 排序評分的計算


rX'=rX'|X'為對X聚類時X'的類內(nèi)排序評分,為對X聚類時Y的條件排序評分,分別反映一類相似蹤跡中某蹤跡出現(xiàn)頻繁程度和各活動參與情況。rX|X'為rY|X'在網(wǎng)絡(luò)G上所得傳遞得分,可定義為

3.3 聚類中心和距離的計算
每個ix對應(yīng)一K維向量如令則每個jy可對應(yīng)一K維向量;計算X類簇或Y類簇中所有結(jié)點(diǎn)對應(yīng)向量的平均值,得到每個類簇的類簇中心:


3.4 算法流程
文獻(xiàn)[10]為控制聚類數(shù)及得到更具意義聚類結(jié)果,指定算法聚類結(jié)點(diǎn)數(shù)較少類型的結(jié)點(diǎn),未提供聚類網(wǎng)絡(luò)中結(jié)點(diǎn)數(shù)較多類型結(jié)點(diǎn)的相應(yīng)解決方案,不能直接聚類多于蹤跡的活動。表3算法流程輸出準(zhǔn)確的基于蹤跡聚類的流程日志活動排序評分后繼續(xù)迭代計算活動排序評分。這一評分可為活動聚類提供足夠信息。
對原生日志添加活動聚類標(biāo)簽后,可生成活動聚類流程日志 (activity-clustered event log) 挖掘流程模型。比對各流程模型的日志重現(xiàn)度以驗(yàn)證聚類結(jié)果合理性;分析各流程模型的結(jié)構(gòu)復(fù)雜度以驗(yàn)證活動聚類日志能在保持回放準(zhǔn)確度的同時有效降低模型結(jié)構(gòu)復(fù)雜度。本文實(shí)驗(yàn)數(shù)據(jù)集為表2中3組不同時間區(qū)間的流程日志,并選用文獻(xiàn)[15]的Inductive M iner方法挖掘流程日志的Petri網(wǎng)流程模型,噪聲參數(shù)設(shè)置為0.1。
4.1 機(jī)場流程日志活動聚類實(shí)驗(yàn)
機(jī)場等大型機(jī)構(gòu)數(shù)據(jù)聚類分析的參數(shù)設(shè)定多依賴于領(lǐng)域?qū)<抑R[16]。結(jié)合機(jī)場運(yùn)行專家知識[16,17]及數(shù)據(jù)源機(jī)場實(shí)際運(yùn)行情況歸納得15類業(yè)務(wù)流程及20類業(yè)務(wù)活動,分別作為蹤跡結(jié)點(diǎn)聚類數(shù)與活動結(jié)點(diǎn)聚類數(shù)。文獻(xiàn)[4]總結(jié)低抽象層次活動與業(yè)務(wù)流程間關(guān)系為兩類:(1)業(yè)務(wù)流程由被單一活動類簇覆蓋的低抽象層次活動組成;(2)業(yè)務(wù)流程由分散在不同活動類簇中的低抽象層次活動組成。圖2是算法穩(wěn)定時蹤跡結(jié)點(diǎn)各類簇的活動結(jié)點(diǎn)評分,圖3是活動結(jié)點(diǎn)聚類結(jié)果。數(shù)據(jù)集1結(jié)點(diǎn)數(shù)最多的類簇15主要為重點(diǎn)保障航班保障活動,活動描述以“CZ390有旅客要下機(jī),需客梯車到現(xiàn)場。”、“MU5714航班滑回,需客梯車。”等居多。數(shù)據(jù)集2活動結(jié)點(diǎn)數(shù)最多的類簇2主要由活動描述為“安保公司收到,轉(zhuǎn)飛行區(qū)安檢部。”的機(jī)場安檢公司業(yè)務(wù)響應(yīng)活動組成。這些同類簇的低抽象層次活動間有較強(qiáng)相關(guān)性且滿足第1類關(guān)系,直接分析原生日志流程模型也能得到類似結(jié)果。
數(shù)據(jù)集3活動結(jié)點(diǎn)較多的類簇為1, 11, 12。類簇12的活動描述以航班計劃、共享航班等信息更新活動為主,活動間關(guān)系與數(shù)據(jù)集1的類簇15、數(shù)據(jù)集2的類簇2相似。類簇1與類簇11的活動描述由機(jī)場地服公司開展的業(yè)務(wù)活動組成,但側(cè)重不同;類簇1與數(shù)據(jù)集1中類簇4的活動結(jié)點(diǎn)描述相仿,側(cè)重于機(jī)位作業(yè)業(yè)務(wù),而類簇11則側(cè)重于開展重點(diǎn)航班保障相關(guān)活動。類簇1與類簇11的低抽象層次活動間相關(guān)性較弱,直接分析原生日志流程模型易混淆這兩類低抽象層次活動,影響流程發(fā)現(xiàn)準(zhǔn)確性。只有通過活動聚類結(jié)果反映低抽象層次活動與業(yè)務(wù)流程的第2類關(guān)系,才可合理地區(qū)分低抽象層次活動。

表3 基于RankClus算法的流程日志活動挖掘算法流程
4.2 機(jī)場流程日志一致性檢測實(shí)驗(yàn)
日志回放含3種情況[1]:(1)流程模型活動與當(dāng)前蹤跡活動匹配;(2)蹤跡中活動與流程模型活動不匹配,模型預(yù)期活動未在蹤跡中觀測到時,回放算法可不移動蹤跡中活動,前移流程模型中活動以進(jìn)行匹配;(3)蹤跡中活動與流程模型活動不匹配時,回放算法可不移動流程模型中活動,前移蹤跡中活動以進(jìn)行匹配。上述3種情況的日志回放準(zhǔn)確度分別對應(yīng)蹤跡重現(xiàn)度(trace fitness)、模型移動重現(xiàn)度(move-model fitness)和日志移動重現(xiàn)度(move-log fitness) 3項指標(biāo),取值范圍均為0到1。為1時意味著該情況下模型可完全回放日志。日志回放選用文獻(xiàn)[18]基于代價的A*算法。采用文獻(xiàn)[17]中基于離散實(shí)例仿真系統(tǒng)分析的DTW (Dynam ic T im e Warping)聚類算法作為對比算法。該方法運(yùn)用離散實(shí)例仿真(Discrete Event Simulation, DES)技術(shù)將機(jī)場行李托運(yùn)系統(tǒng)的運(yùn)行建模為離散實(shí)例序列。采用DTW算法度量特定時刻用于標(biāo)記系統(tǒng)狀態(tài)變化的實(shí)例序列間的相似性并聚類。根據(jù)實(shí)例序列類簇特征分析系統(tǒng)行為(如是否存在瓶頸等)。實(shí)驗(yàn)結(jié)果如表4所示。
RankClus活動挖掘算法活動聚類結(jié)果較為準(zhǔn)確,活動類簇反映語義清晰,因此RankClus活動聚類流程模型的重現(xiàn)度指標(biāo)與原生日志流程模型大致相當(dāng)。DTW活動挖掘算法聚類的實(shí)例序列與活動發(fā)生時刻相關(guān)性較強(qiáng),所得流程模型中活動精確到時刻級別,模型過于精密,不能很好適應(yīng)噪聲數(shù)據(jù)。RankC lus活動挖掘算法所得的基于蹤跡聚類的活動排序評分在反映當(dāng)前流程日志活動信息的同時,包含更具意義的蹤跡信息。若流程日志因條目更新等原因摻雜噪聲,此時蹤跡聚類結(jié)果不會急劇變化,模型通過日志移動仍可較好地重現(xiàn)流程日志。因此RankClus活動聚類模型的蹤跡重現(xiàn)度與日志移動重現(xiàn)度要顯著高于DTW活動聚類流程模型,而模型移動重現(xiàn)度與DTW活動聚類流程模型相當(dāng)。整體而言,RankC lus活動聚類模型的魯棒性要優(yōu)于DTW活動聚類流程模型。
4.3 流程模型結(jié)構(gòu)復(fù)雜度對比實(shí)驗(yàn)
Petri網(wǎng)流程模型的結(jié)構(gòu)復(fù)雜度可用Petri網(wǎng)中的與連接(AND-Joins)、與分歧(AND-Sp lits)、異或連接(XOR-Joins)、異或分歧(XOR-Sp lits)數(shù)評估。表5是對3個數(shù)據(jù)集添加活動類標(biāo)簽前后挖掘所得流程模型的結(jié)構(gòu)復(fù)雜度分析結(jié)果。流程模型的結(jié)構(gòu)復(fù)雜度主要決定于流程日志自身的內(nèi)容而非所使用的流程挖掘算法[6]。基于RankClus的流程日志活動挖掘算法將數(shù)量較多的低抽象層次活動聚類為高抽象層次活動類簇,減少了Petri網(wǎng)變遷數(shù),所得活動聚類流程模型結(jié)構(gòu)復(fù)雜度相較于原生日志流程模型明顯下降,且優(yōu)于DTW活動聚類流程模型。

圖2 各數(shù)據(jù)集下的活動評分

圖3 各數(shù)據(jù)集下的活動聚類結(jié)果

表4 流程模型一致性檢測實(shí)驗(yàn)結(jié)果

表5 流程模型結(jié)構(gòu)復(fù)雜度實(shí)驗(yàn)結(jié)果
本文針對非結(jié)構(gòu)化的機(jī)場流程日志活動信息,提出基于RankClus算法的機(jī)場流程日志活動挖掘算法,構(gòu)建二類型網(wǎng)絡(luò)描述機(jī)場流程日志中活動與蹤跡的關(guān)系,聚類日志中低抽象層次活動并得到RankClus活動聚類機(jī)場流程日志。實(shí)驗(yàn)表明,對該活動聚類流程日志挖掘所得RankClus活動聚類流程模型保持了較高日志重現(xiàn)度,同時顯著降低流程模型結(jié)構(gòu)復(fù)雜度,使流程模型更易于理解。對低抽象層次流程日志的流程挖掘有較大幫助。
[1] VAN DER AALST W M P. Process m ining: Overview and opportunities[J]. ACM Transactions on Management Information System s, 2012, 3(2): 1-17. doi: 10.1145/2229156. 2229157.
[2] LANZ A, WEBER B, and REICHERT M. Time patterns for process-aware in formation system s[J]. Requirem ents Engineering, 2014, 19(2): 113-141. doi: 10.1007/s00766-012-0162-3.
[3] BOSE R P J C, VAN DER AALST W M P, ZLIOBAITE I,et al. Dealing w ith concept drifts in process m ining[J]. IEEE Transactions on Neural Networks and Learn ing System s,2014, 25(1): 154-171. doi: 10.1109/TNNLS.2013.2278313.
[4] GüNTHER C W, ROZINAT A, and VAN DER AALST W M P. A ctivity m ining by global trace segm en tation[C]. Proceed ings of the 8th International Conference on Business Process M anagem en t, Hoboken, 2010: 128-139. doi: 10.1007/ 978-3-642-12186-9_13.
[5] DESAI N, BHAM IDIPATY A, SHARMA B, et al. Process trace identification from unstructured execution logs[C]. Proceedings of the 7th International Conference on Services Com puting, M iam i, 2010: 17-24. doi: 10.1109/SCC.2010.86.
[6] BAIER T, MENDLING J, and WESKE M. Bridging abstraction layers in process m ining[J]. Information Systems,2014, 46(12): 123-139. doi: 10.1016/j.is.2014.04.004.
[7] SONG M, GüNTHER C W, and VAN DER AALST W M P. Trace clustering in p rocess mining[C]. Proceedings of the 7th International Conference on Business Process M anagement,U lm, 2009: 109-120. doi: 10.1007/978-3-642-00328-8_11.
[8] BOSE R P J C and VAN DER AALST W M P. Context aware trace clustering: towards imp roving process m ining results[C]. Proceedings of the 2009 SIAM Data M ining Con ference, Sparks, 2009: 401-412. doi: 10.1137/1. 9781611972795.35.
[9] BOSE R P J C and VAN DER AALST W M P. T race clustering based on conserved patterns: Tow ards achieving better process models[C]. Proceedings of the 8th International Conference on Business P rocess M anagem en t,Hoboken, 2010: 170-181. doi: 10.1007/978-3-642-12186-9_16.
[10] SUN Y, HAN J, ZHAO P, et al. Rankclus: integrating clustering w ith ranking for heterogeneous inform ation network analysis[C]. Proceedings of the 12th International Con ference on Extending Database Technology: Advances in Database Technology, Sain t-Petersburg, 2009: 565-576. doi: 10.1145/1516360.1516426.
[11] FERREIRA D R, SZIMANSKI F, and RALHA C G. Im proving process models by m ining mappings of low-level events to high-level activities[J]. Journal of Intelligent Information System s, 2014, 43(2): 379-407. doi: 10.1007/ s10844-014-0327-2.
[12] SHAN S, WANG L, and LI L. Modeling of emergency response decision-making p rocess using stochastic Petri net: an e-service perspective[J]. Information Technology and Management, 2012, 13(4): 363-376. doi: 10.1007/s10799-012-0128-7.
[13] 陳季夢, 陳佳俊, 劉杰, 等. 基于結(jié)構(gòu)相似度的大規(guī)模社交網(wǎng)絡(luò)聚類算法[J]. 電子與信息學(xué)報, 2015, 37(2): 449-454. doi: 10.11999/JEIT140512.
CHEN Jimeng, CHEN Jiajun, LIU Jie, et al. Clustering algorithm s for large-scale social networks based on structural sim ilarity[J]. Journal of Electronics & Information Technology, 2015, 37(2): 449-454. doi: 10.11999/JEIT 140512.
[14] 陳麗敏, 楊靜, 張健沛. 一種基于嵌入技術(shù)的異構(gòu)信息網(wǎng)絡(luò)的快速聚類算法[J]. 電子與信息學(xué)報, 2015, 37(11): 2634-2641. doi: 10.11999/JEIT 150106.
CHEN Lim in, YANG Jing, and ZHANG Jianpei. A fast clustering algorithm based on embedd ing technology for heterogeneous inform ation networks[J]. Journal of Electronics & Information Technology, 2015, 37(11): 2634-2641. doi: 10.11999/JEIT150106.
[15] LEEMANS S J J, FAHLAND D, and VAN DER AALST W M P. D iscovering b lock-structured process m odels from event logs containing infrequent behaviour[C]. Proceedings of the 11th International Conference on Business Process Management, Eindhoven, 2014: 66-78. doi: 10.1007/978-3-319-06257-0_6.
[16] GRABBE S R, SRIDHAR B, and MUKHERJEE A. Clustering days w ith sim ilar airport weather conditions[C]. Proceedings of the 14th AIAA Aviation Technology,Integration, and Operations Con ference, A tlanta, 2014: 2014-2712. doi: 10.2514/6.2014-2712.
[17] JOHNSTONE M, LE V T, ZHANG J, et al. A dynam ic time warped clustering technique for discrete event simu lationbased system analysis[J]. Expert Systems with Applications,2015, 42(21): 8078-8085. doi: 10.1016/j.eswa.2015.06.040.
[18] ADRIANSYAH A, SIDOROVA N, and VAN DONGEN B F. Cost-based fitness in conformance checking[C]. Proceedings of the 11th International Conference on Application of Concurrency to System Design, Kanazawa, 2011: 57-66. doi: 10.1109/ACSD.2011.19.
徐濤:男,1962 年生,教授,研究方向?yàn)閿?shù)據(jù)挖掘、智能信息處理研究.
孟野:男,1990 年生,碩士生,研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等.
盧敏:男,1985 年生,助理研究員,研究方向?yàn)樾畔z索、文本挖掘等.
Activity Mining for Airport Event Logs Based on RankClus A lgorithm
XU Tao①②MENG Ye①LU M in①②①
①(College of Compu ter Science and Technology, Civil Aviation University of China, T ianjin 300300, China)
②(Information Technology Research Base of Civil Aviation Adm inistration of China, Tianjin 300300, China)
Process m ining is a technology which can extract non-trivial and usefu l in formation from airport event logs. However, the airport event logs are always on a detailed level of abstraction, which may not be in line w ith the expected abstract level of an analyst. Process m odels generated by these event logs are always spaghetti-like and too hard to com prehend. An app roach to overcome this issue is to group low-level events into clusters, w hich represent the execu tion of a higher-level activity in the process model. Therefore, this paper presents a new activity m ining method which is based on RankClus algorithm to generate activity clusters integrated with ranking. On this basis, the activity-clustered model which is easier to comp rehend can be constructed. The experiment results show that this activity-clustered model, which shares a sim ilar level of con formance with the meta model, is significantly less com plex.
Process m ining; Activity m ining; RankClus; Trace clustering
s: The National Natural Science Foundation of Ch ina (61502499), The Civil Aviation Key Technologies R&D P rogram of Ch ina (MHRD 20140105), The Fundam ental Research Funds for the Central Universities of Ch ina (3122013C005,3122014D 032, 3122015D 015), The Scientific Research Foundation from Civil Aviation Un iversity of Ch ina (2013QD18X), The Open P roject Foundation of Inform ation Technology Research Base of Civil Aviation Adm inistration of Ch ina (CAAC-ITRB-201401)
TP391
A
1009-5896(2016)08-2033-07
10.11999/JEIT 151137
2015-10-10;改回日期:2016-04-15;網(wǎng)絡(luò)出版:2016-06-03*
孟野mykonakona@foxm ail.com
國家自然科學(xué)基金(61502499),中國民航科技創(chuàng)新引導(dǎo)資金項目重大專項(M HRD 20140105),中央高校科研業(yè)務(wù)費(fèi)專項資金(3122013C005, 3122014D 032, 3122015D 015),中國民航大學(xué)科研基金(2013QD 18X),中國民航信息技術(shù)科研基地開放課題基金(CAAC-ITRB-201401)