數據挖掘技術在煤礦隱患管理中的應用

2016-03-04 08:21:52陳運啟

工礦自動化 2016年2期

關鍵詞：數據挖掘關聯煤礦

陳運啟

(中煤科工集團重慶研究院有限公司，重慶　400039)

數據挖掘技術在煤礦隱患管理中的應用

陳運啟

(中煤科工集團重慶研究院有限公司，重慶400039)

摘要：針對目前煤礦隱患管理缺乏對隱患數據深入分析的問題，介紹了適合隱患關聯規則發現的數據挖掘算法，提出用支持度-置信度-Kulczynski度量模式表達隱患因素間的關聯關系。對隱患數據預處理、轉換后構建隱患數據倉庫，并在隱患責任部門、隱患種類、隱患等級和隱患發生地點4個維度上進行挖掘分析，發現多維度間存在的較強關聯規則，給出針對性的輔助決策。現場實際應用表明，通過使用數據挖掘算法，減少了隱患的發生次數，為煤礦隱患治理提供了可靠支持。

關鍵詞：煤礦隱患；數據挖掘；支持度；置信度； Kulczynski度量；關聯規則

網絡出版地址：http://www.cnki.net/kcms/detail/32.1627.TP.20160126.1543.007.html

0引言

隱患的排查與整改是煤礦安全生產管理的重要環節，特別是當前安全檢查的力度不斷加大，暴露出來的各類煤礦安全隱患的數量也越來越多。據統計，2013年中國僅工礦企業排查出的隱患數據就多達500萬[1]。為了應對企業隱患的信息化管理要求，各種隱患管理系統的研發與應用也在不斷開展。但是，當前多數隱患管理系統基本上只提供對隱患信息的簡單記錄與查詢統計，缺乏對海量隱患數據的深入分析。發現隱患數據中各因素間的關聯關系，減少隱患發生次數，提高生產安全指數，是當前煤礦隱患排查治理和信息化發展過程中亟需解決的重要課題之一。本文將數據挖掘算法應用于煤礦隱患管理系統，針對隱患數據在多個維度上展開關聯分析與挖掘，為后續隱患管理提供較為準確、可靠的輔助決策。

1數據挖掘技術

數據挖掘概念出現于20世紀80年代，是一種多學科綜合的產物，其充分利用統計學、數據庫、人工智能、模式識別和機器學習等理論與技術，從海量數據中進行自動分析與挖掘，發現潛在的隱含知識，協助用戶做出合理決策與準確預測等[2]。目前，數據挖掘相關技術與產品已廣泛應用于金融分析、醫療保健、商品銷售、行為預測分析等領域。

1.1數據挖掘過程

對數據挖掘過程的研究有多種，但基本上可歸為數據預處理、數據轉換、數據挖掘和結果評估與表達4個步驟。

數據預處理是指從數據源中選擇要處理的數據對象或數據主題，并對選擇的數據進行清理，去掉其中的噪聲數據、重復數據，補充不完整或缺失的數據。數據預處理是數據挖掘的重要基礎，處理后的數據質量直接決定了整個數據挖掘結果的準確度和可信度。

數據轉換是將預處理后的數據根據挖掘需要在數據范圍和數據維度上做出一定的計算與選取。往往預處理后的數據在數量級和維度上都比較高，在數據挖掘執行過程中，可能會分批選擇不同階段和不同維度上的數據，并轉換為適合數據挖掘算法使用的數據結構。

數據挖掘是在前期處理結果的基礎上，利用許多不同方法如決策樹方法、神經網絡方法、貝葉斯方法、關聯分析方法、聚類分析方法等對數據進行挖掘計算，從而發現相應的關聯關系和知識模型。

結果評估與表達是數據挖掘過程的最后階段，其利用適當的可視化技術和知識合理表達數據挖掘的計算結果并呈現給用戶，進而評估數據挖掘質量以及知識模型的有效性。

1.2關聯規則算法

所謂關聯，就是反映一個事物與其他事物之間的依賴關系。關聯規則算法是一種在海量數據中找出這些依賴關系的方法，適用于隱患數據中各因素間關聯關系的挖掘與分析。關聯規則中的基本概念有項集(Itemset)、支持度(Support)和置信度(Confidence)[3]。

設定存在事務數據庫D={t1，t2，…，tn}，其中t1，t2，…，tn表示每一個事務；所有項目的集合I={i1，i2，…，im}，其中i1，i2，…，im表示每一個項目，每個事務包含的項集都是I的子集。關聯規則是支持度和置信度分別滿足給定閾值的規則，用形如X?Y的蘊涵式來表示(X，Y表示項集)，其中支持度表示X?Y蘊涵式在事務數據庫中出現的頻率，即Support(X?Y)=P(XUY)，置信度表示Y在包含X的事務中出現的頻率，即Confidence(X?Y)=Support(X?Y)/Support(X)=P(Y|X)。

Apriori算法是關聯規則挖掘領域中的經典算法，應用非常廣泛。Apriori算法的核心是挖掘頻繁項集的遞推算法，其基本思想是用迭代的方法找出所有的候選集，將這些候選集的支持度與最小支持度比較，如果不小于最小支持度，即為頻繁項集。找到頻繁項集后，計算規則的置信度，如果所得置信度大于最小置信度，則產生強關聯規則[4]。

Apriori算法在搜索頻繁項集和挖掘強關聯規則時，需要多次掃描事務數據庫，同時會產生大量的候選集，算法執行所花費的時間和空間代價都比較大，在挖掘長頻繁模式時算法性能較為低下，挖掘的強關聯規則也容易產生誤導信息。

1.3支持度-置信度-Kulczynski度量模式

針對Apriori算法存在的缺點，韓家煒提出了FP-Growth(Frequent Pattern Growth，頻繁模式增長)算法。FP-Growth算法首先對事務數據庫進行分析和處理，生成1-頻繁項集，并根據支持度由大到小排序，形成頻繁項索引表。然后構建根節點為“null”的FP-Tree(Frequent Pattern Tree，頻繁模式樹)，并對事務數據庫中的每個事務進行處理，不斷構建FP-Tree分支節點。最后進行FP-Tree挖掘，可采用自底向上的迭代方式，以葉子節點為后綴的項與一起出現的前綴路徑組成一個條件模式基[5]。

在生成1-頻繁項集時，可以根據支持度大小，限制生成的1-頻繁項集的大小，以減少迭代次數，提高挖掘效率。由于FP-Growth算法對事務數據庫有效壓縮，相比Apriori算法避免了重復掃描事務數據庫帶來的額外開銷；此外，FP-Growth算法還將發現長頻繁模式的問題轉化為遞歸模式增長的策略，避免產生大量候選集，大大降低了算法的時間復雜度。

FP-Growth算法采用支持度和置信度表示發現的規則之間的關聯性，容易產生誤導的關聯規則結果，特別是P(X|Y)與P(Y|X)相差較大時，X與Y之間可能具有正相關與負相關2種對立關系。因此增加更有效的Kulczynski度量[6]，它僅受條件概率影響，而與事務總數無關，具有零不變性。Kulczynski度量是與X，Y相關的2個關聯規則X?Y，Y?X的置信度的平均值，即Kulczynski(X，Y)=(P(X|Y)+P(Y|X))/2，利用它來擴展支持度-置信度模式，生成支持度-置信度-Kulczynski度量模式，有助于挖掘煤礦隱患多個維度之間更有效的關聯規則。

2隱患數據挖掘與應用

針對隱患數據展開的挖掘分析是在煤礦隱患閉環管理系統基礎上展開的。系統基于.NET Framework技術平臺實現[7]，使用Microsoft SQL Server 2008作為持久層數據庫服務器，利用ASP.NET MVC框架[8]并結合Html，CSS，JavaScript，jQuery等前端編程技術與插件實現Web終端報表查詢、圖表統計、挖掘結果呈現等功能，提供了友好的用戶體驗。隱患處理流程包含隱患排查、整改、申訴、驗收和存檔等，系統對存檔的數據進行預處理后展開數據挖掘，給出合理的決策建議，如圖1所示。

圖1　隱患處理流程

2.1隱患數據預處理與數據轉換

為了提高數據挖掘的準確性和速度，在展開挖掘之前對隱患數據進行相應的處理。在綜合考慮數據倉庫數據更新速度和數據完整性的情況下，設定隱患數據從源數據庫中抽取的周期為7 d，抽取過程中去除申訴成功并取消的隱患數據。同時，從隱患自身特點和實際需要出發，決定在隱患責任部門(Department)、隱患種類(Category)、隱患等級(Level)、隱患發生地點(Address)4個維度上進行挖掘分析。隱患種類包括調度類、通風類、采掘類、機運類、地測防治水類、爆炸品與放炮類和共性類；隱患等級依據嚴重程度由高到低分為A級、B級、C級和D級。在隱患數據載入數據倉庫之前，對數據進行精簡，只保留隱患的基本信息和以上幾個維度信息，可減少冗余數據，提高挖掘效率。

2.2挖掘分析過程及結果

本文以某煤礦現場的實際隱患數據展開數據挖掘過程并分析隱患各維度間的關聯關系，發現較強的關聯規則指導現場生產。以該煤礦1個月284條隱患數據為例，經計算后其頻繁項索引表前10項見表1。

表1　隱患數據頻繁項索引表前10項

從表1可看出，C級、采掘類和B級隱患排名靠前，且掘進二隊的隱患數量位居各部門首位，因此以掘進二隊為基礎，從隱患責任部門、隱患等級和隱患種類3個維度上進行分析，生成相應的FP-Tree如圖2所示。

圖2　隱患責任部門-隱患等級-隱患種類FP-Tree

從圖2可看出，掘進二隊負責整改的相關隱患中，采掘類和C級隱患占了非常高的比例，通過計算可得

Department(掘進二隊)?Category(采掘類)[Support=15.49%，Confidence=81.48%，Kulczynski=52.02%]；

Department(掘進二隊)Category(采掘類)?Level(C級)[Support=13.03%，Confidence=84.09%，Kulczynski=51.40%]。

此外，針對掘進二隊的隱患增加隱患發生地點維度的挖掘與分析，其FP-Tree如圖3所示，其中4321-38運輸巷隱患總數為29條，+1 600 m進風斜井隱患總數為18條。通過計算可得

Department(掘進二隊)?Address(4321-38運輸巷)[Support=10.21%，Confidence=53.70%，Kulczynski=75.18%]；

Department(掘進二隊)?Address(+1 600 m進風斜井)[Support=6.69%，Confidence=33.33%，Kulczynski=64.03%]。

圖3　隱患責任部門-隱患發生地點FP-Tree

2.3輔助決策

從掘進二隊在陷患種類和隱患等級維度上的挖掘結果可看出，掘進二隊與采掘類和C級隱患的關聯關系更強。因此，建議掘進二隊在處理隱患時，將重點放在采掘類和C級隱患上。

對掘進二隊隱患發生地點維度上的數據進行挖掘分析后可看出，掘進二隊的主要隱患發生地點集中在4321-38運輸巷和+1 600 m進風斜井處，且相比置信度而言，Kulczynski度量值更高，表明該2個地點發生的隱患與掘進二隊的關聯性更強。因此建議掘進二隊著重處理該2個地點的隱患。

通過以上計算和分析，就掘進二隊而言，在隱患發生地點、隱患種類和隱患等級上，均給出了有數據支持的輔助決策。在隨后1個月的隱患治理整改中，掘進二隊負責整改的隱患占全礦隱患的比例由19.01%下降至13.50%，效果非常明顯。

3結語

數據挖掘技術在煤礦隱患管理中的應用，給隱患治理提供了切實可用的決策建議，使隱患得到了針對性整治，隱患發生率有較大幅度降低，生產安全狀況得到明顯改善。產生煤礦安全隱患的關聯因素較多，其中煤礦人員的專業素質、培訓考試信息、年齡結構層次等數據也是潛在的重要關聯點，所以在下一步的研究中，計劃將以上數據抽取、轉換后裝載到數據倉庫中，建立包含“人”的因素在內的挖掘分析模型，進行更深層次、更廣維度的關聯分析挖掘，發現“人”的因素對煤礦隱患產生的影響情況，提供更為全面的輔助決策。

參考文獻：

[1]張大偉.基于OLAM的煤礦企業安全隱患趨勢分析[J].煤炭工程,2015,47(5):139-142.

[2]王夢雪.數據挖掘綜述[J].軟件導刊,2013,12(10):135-137.

[3]蘆海燕.數據挖掘中關聯規則算法的研究[J].電腦知識與技術,2011,7(26):6324-6325.

[4]黃偉力,李亮.基于Apriori的煤礦安全預警系統設計[J].計算機測量與控制,2013,21(10):2786-2788.

[5]章志剛,吉根林.一種基于FP-Growth的頻繁項目集并行挖掘算法[J].計算機工程與應用,2014,50(2):103-106.

[6]曲廣龍,楊洪耕.基于梯形云模型的電能質量數據關聯性挖掘方法[J].電力系統自動化,2015,39(7):145-150.

[7]李璟.基于.NET的分層架構及抽象工廠模式在Web開發中的應用[J].軟件導刊,2015,14(4):105-108.

[8]秦冠男.基于ASP.NET MVC框架的IT管理系統的設計[D].上海:上海交通大學,2013.

Application of data mining technology in coal mine hidden hazard management

CHEN Yunqi

(CCTEG Chongqing Research Institute, Chongqing 400039, China)

Abstract:For lack of deep analysis of hidden hazard data in current coal mine hidden hazard management, data mining algorithms which were suitable for discovering association rule of hidden hazard were introduced, and support-confidence-Kulczynski model was proposed to indicate association relationship among hidden hazard factors. Data warehouse is built after preprocessing and conversion of hidden hazard data, and mining analysis is conducted on four dimensions such as department, category, level and address of hidden hazard, so as to provide corresponding assistant decision-making according to strong association rule founded among dimensions. The actual application results show that occurrence of hidden hazard is reduced and reliable support is provided for coal mine hidden hazard management by use of the data mining algorithm.

Key words:coal mine hidden hazard; data mining; support; confidence; Kulczynski measurement; association rule

作者簡介：陳運啟(1984-)，男，安徽蕭縣人，助理研究員，碩士，主要從事煤礦綜合自動化與信息化等方面的研究工作，E-mail:chen.yun.qi@qq.com。

基金項目：工信部2014年物聯網發展專項資金項目(2014083105)。

收稿日期：2015-11-13；修回日期：2016-01-10；責任編輯：盛男。

中圖分類號：TD67

文獻標志碼：A網絡出版時間：2016-01-26 15:43

文章編號：1671-251X(2016)02-0027-04

DOI:10.13272/j.issn.1671-251x.2016.02.007

陳運啟.數據挖掘技術在煤礦隱患管理中的應用[J].工礦自動化，2016,42(2)：27-30.