李 東 周 勇
(中國神華能源股份有限公司,北京市東城區,100011)
在全球信息化水平飛速提升的進程中,國家對煤炭企業信息化與安全生產的重視程度與日俱增,煤炭行業各級領導和工作人員的信息化意識普遍增強,煤炭企業對煤礦信息化建設投入大大增加,煤礦機械化、自動化和信息化建設不斷加強,智能傳感器、數字傳輸系統與信息系統的廣泛應用使得煤礦企業積累了海量數據。與此同時,為規范煤礦生產安全事故調查處理,原國家安全生產監督管理總局、國家煤礦安監局要求各地安監機構在煤礦發生事故之后,必須由專家團隊對事故進行調查,進行嚴密的事后分析,并形成完整的事故分析報告。綜合來看,大量結構化和非結構化數據的積累為大數據方法在煤礦安全領域的應用研究奠定了基礎。
當前,隨著云計算、物聯網技術的飛速發展,大數據已逐步滲透到絕大多數行業和領域,成為重要的生產要素,企業對于海量數據的挖掘和應用,成為企業核心競爭力的重要組成部分。如零售領域通過大數據應用實現客戶360°畫像,幫助企業分析客戶購買行為,針對客戶個性化產品推薦,并進行客戶群體分析,對下一步銷售策略做好預測工作;電信企業利用大數據技術加大對歷史數據的分析,動態優化調整網絡資源配置,大幅提高無線網絡的運行效率;金融行業依靠真實、可靠、穩定、連續、海量的數據渠道,通過海量數據的分析建模,有效提升金融風險的控制能力和控制效率;交通領域在大數據和人工智能的支持下,車輛可以自動駕駛,并可以對線路自學習自優化。然而目前國內外學者對煤礦大數據應用的研究大多還集中在理論層面的應用指導,并未在煤礦實際生產過程中對煤礦數據進行采集和研究,大數據應用水平受到限制。從煤礦企業角度來講,煤礦企業并未對煤礦生產過程中產生的海量數據進行充分挖掘和利用,煤礦對于信息系統數據的管理還是停留在垂直型單系統層面,數據信息獨立保存或簡單物理集中,對數據內在關聯和規律的研究幾乎為零,大量數據的價值未得以充分體現。對事故發生規律的認知,往往是在事故發生后,將事故報告作為事故調研的最后環節,并沒有對其進行后續的挖掘和利用,沒有對類似事故的相關規律進行研究,無法有效避免類似事故的重復發生。
本研究從煤礦歷年的事故分析報告、事故案例等與煤礦安全生產事故相關的文檔資料出發,應用大數據技術對大量事故案例進行深入挖掘,多維度、多角度分析事故發生的內在關聯和規律性,并通過BP神經網絡模型實現事故的預測預判,使煤礦安全生產管理模式由“事后管理”向“事前預防”轉變,有效提升煤礦安全管理能力。
如同其他領域,大數據分析技術給煤礦安全領域帶來了全新的解決方案。按照在其他領域大數據應用方法、經驗,通常的思路是通過事故與事故發生相應時間段歷史數據進行關聯分析,找出事故發生時歷史數據或歷史數據之間變化的規律性,從而找到事故與數據的關聯關系,并通過實時監控事故關聯數據預防安全生產事故的發生。雖然歷史上也有大量記載的煤礦安全生產事故,也有現存與事故相關的海量歷史數據,如安全監測監控系統、人員定位系統等,但這些數據在煤礦安全領域是無法實現大數據分析。因為煤礦歷史數據保存時限短(按照有關規定,煤礦安全監測監控系統、人員定位系統等數據只保存2年時間),歷史上發生的超過歷史數據保存時限的事故找不到對應的數據,而現存的歷史數據相應時間段的事故數量又有限,不具備大數據分析規模,也無法形成統計規律。

圖1 技術實現流程圖
經過大量的深入調研,不斷的實踐,找到了適用于煤礦安全領域的大數據分析思路和方法。技術實現流程如圖1所示。本研究的技術實現流程主要分為4個部分:
(1)收集大量煤礦事故分析報告、事故案例等與煤礦事故相關的資料,運用文本挖掘方法和Delphi專家調查法識別事故關鍵要素;
(2)根據事故關鍵要素,利用Apriori關聯算法分析關鍵要素之間的關聯關系,生成關鍵要素頻繁項集;
(3)采集煤礦各信息化系統、自動化控制系統數據,建立與事故關鍵要素對應的數據指標,并對數據指標監控、預測,從源頭上杜絕煤礦安全事故發生的可能性;
(4)在關鍵要素頻繁項集的基礎上,采用BP神經網絡算法進行建模,通過大數據流計算框架實時預測事故發生的可能性,提出事故預警,有效提升煤礦安全管理水平。
本研究通過實地調研和互聯網渠道收集3000多例事故報告,從中篩選出較為完整的包括瓦斯事故、火災事故、水災事故、其他類事故案例共1056例作為事故信息分析的主要數據源。其中瓦斯事故551例,占收集事故案例總數的52.2%;水災事故183例,占17.3%;火災事故62例,占5.9%;頂板事故57例,占5.4%;其他類事故134例,占19.2%。事故關鍵要素識別通過以下5個步驟實現:
(1)以通用詞典為匹配詞典,針對每一類事故采用ansj分詞器的NLPAnalysis算法對文本采用流讀取的方式進行處理,將事故案例進行分詞切分,并對分詞結果進行清洗,去除無效詞(無文本表征意義的詞)和非關鍵詞(無事故表征意義的詞),形成分類事故分詞數據庫。
(2)針對分詞數據庫進行分詞共現分析,在事故案例中,多個分詞同時出現可表征一個主題,同時出現的頻率越高,表明所表征的主題越重要,針對分詞進行二次和三次共現分析,對共現分詞進行統計排序,并刪除共現頻率較低的分詞,得到共現分詞數據庫。
(3)在事故案例的編寫過程中,雖然有相對固定的格式和規范的專業術語,但畢竟由不同的人來編寫,不同的人對同一事物或現象的描述可能會因為個人語言習慣的不同而不盡相同,描寫瓦斯積聚會有“瓦斯…積聚”、“瓦斯…聚集”、“瓦斯…聚積”、“瓦斯積聚”、“瓦斯聚集”、“瓦斯聚積”等多種描述方式,因此,對同一特征的不同表述進行合并,頻率累加,得到有效特征數據庫。
(4)針對有效特征數據庫,構建VSM向量空間模型,運用TFIDF算法計算各個特征的權值,并根據TFIDF值進行排序,去除權值低于設定值的特征,得到事故特征詞典。
TFIDF算法可表述為:
式中:ti——事故特征詞典中的基本特征;
dj——ti所在事故案例文本;
TF(ti,dj)——ti在事故案例集合中出現的頻率;
|D|——全部事故案例的總數;
|DF(ti)|——包含特征ti的文本數;
TFIDF(ti,dj) ——事故特征的權值。
(5)在事故特征詞典的基礎上,運用Delphi法(專家調查法),將關鍵要素的關鍵程度分為特別關鍵(取值1)、極其關鍵(取值0.9)、比較關鍵(取值0.8)、稍微關鍵(取值0.7)、一般關鍵(取值0.6)、不太關鍵(取值0.5)、不關鍵(取值0.4~0)7個等級,并且經過專家討論約定,經過多輪次專家問卷調查、歸納、統計之后,取平均權值大于0.6的作為關鍵要素,最終生成事故關鍵要素表。以瓦斯事故為例,通過如上分析得到的事故關鍵要素如表1。

表1 瓦斯事故關鍵要素
在事故關鍵要素識別基礎上,針對煤礦現有信息化、自動化系統數據,構建事故關鍵要素指標,進而通過對事故關鍵要素指標的監控和預測實現事故關鍵要素的監控和預測。
以瓦斯事故為例,在煤礦現有信息化、自動化系統數據基礎上建立瓦斯積聚、瓦斯濃度、地質構造、超能力生產、跑漏風、掘進停風、風量不足、生產能力、通風短路、微風作業、無風作業等事故關鍵要素與現有數據之間的對應關系,構建事故關鍵要素監控指標。采用Flume框架采集煤礦監測監控系統、人員定位系統、瓦斯抽放系統、井下自動化控制系統、束管監測系統、礦壓監測系統等信息化、自動化系統的數據,通過Storm+Kafka流計算框架實現事故關鍵要素指標的計算、監控、預測。事故關鍵要素監控主要包括以下幾個方面:
(1)根據瓦斯積聚、瓦斯濃度事故關鍵要素,構建掘進工作面瓦斯涌出量和回采工作面瓦斯涌出量數據指標。
掘進工作面瓦斯涌出量指標監控。首先通過掘進工作面回風流瓦斯濃度、回風流風速等監測數據,計算工作面以及暴露巷道瓦斯總排放量:
(2)
i=0,1,2,…n-1
式中:Q風排——掘進工作面瓦斯排放總量;
ti——時間;
S——巷道截面積;
Ci——回風流ti時刻瓦斯濃度;
v——風速。
然后根據掘進暴露巷道瓦斯涌出量計算公式:
(3)
式中:Q巷道——暴露巷道瓦斯涌出量;
a、b——常數。
最后由掘進工作面瓦斯涌出量Q工作面、掘進工作面瓦斯排放總量Q風排和暴露巷道瓦斯涌出量Q巷道之間的等量關系Q工作面=Q風排-Q巷道反推出工作面瓦斯涌出量。
由此,通過實時計算、預測掘進工作面瓦斯涌出量,實現掘進工作面瓦斯涌出量指標監控。
回采工作面瓦斯涌出量指標監控。首先通過回采工作面回風流瓦斯濃度、回風流風速等監測數據,計算回采工作面瓦斯排放總量;通過瓦斯排放流量、濃度等數據計算工作面瓦斯抽放量;然后由工作面瓦斯涌出量Q涌、工作面瓦斯抽放量Q抽和瓦斯排放量Q排之間的等量關系Q涌=Q排+Q抽反推出工作面瓦斯涌出量。回采工作面Δt(如每天)時間內瓦斯抽放量可由下式計算:
(4)
i=0,1,2,…,n-1
式中:Q抽——工作面瓦斯抽放量;
Li——瓦斯抽放流量。
回采工作面Δt時間內瓦斯排放量可由下面公式計算:
(5)
i=0,1,2,…,n-1
式中:Q排——工作面瓦斯排放量;
S斷——工作面回風巷道最小斷面面積;
v——工作面回風流風速。
由此,通過實時計算、預測回采工作面瓦斯涌出量Q涌,實現回采工作面瓦斯涌出量數據指標監控。
(2)根據跑漏風、風量不足、通風短路、微風作業、無風作業等事故關鍵要素,構建煤礦井下通風網絡異常數據指標,并通過煤礦井下通風網絡異常分析實現跑漏風、風量不足等事故關鍵要素的監控。根據監測監控系統中風速傳感器的值,計算一定時間內井下風速傳感器監測值的變化率:
(6)
i=0,1,2,…,n-1
式中:R——一定時間內井下風速傳感器監測值的變化率;
vi——風速監測值;
v0——風速基準值,取上一天該測點平均值。
若一次計算變化率R的值趨于零,說明風速正常波動,如果大于某一設定閥值則認定為異常,并根據所定義的線路進行分析,提供可能的故障位置建議。
(3)根據掘進停風事故關鍵要素,構建掘進工作面停風后瓦斯濃度預測數據指標,實時監測掘進工作面對應局部通風機工作狀態,當監測點局部通風機狀態變為“停風”后,通過掘進暴露巷道瓦斯涌出量計算公式實時預測掘進工作面瓦斯涌出量,并根據巷道基本參數預測掘進工作面瓦斯濃度變化趨勢,提供掘進工作面積聚高濃度瓦斯排放時間和排放風量建議,避免因掘進工作面瓦斯積聚或高濃度瓦斯排放造成瓦斯事故發生。
(4)根據生產能力事故關鍵要素,構建產量與瓦斯涌出量安全關系數據指標,通過實時計算最大容許涌出量、最大安全涌出量、工作面實時產量、工作面實時瓦斯涌出量,實時顯示工作面產量與瓦斯涌出量以及最大容許涌出量、最大安全涌出量之間的關系,為生產調度提供決策依據,即保持合理生產進度和生產強度,避免安全生產事故發生。最大容許涌出量是以工作面當前涌出量為基礎,計算當工作面瓦斯涌出量增加時,該工作面瓦斯排放線路所有瓦斯監測點濃度變化,直至工作面瓦斯涌出量增加Q時各監測點中至少有一個監測點的濃度接近最大允許濃度(系統定義),則工作面當前涌出量加上涌出量增加值Q即最大容許涌出量。工作面實時瓦斯涌出量參見“回采工作面瓦斯涌出量指標監控”部分計算方法。工作面實時瓦斯涌出量是通過采煤機電流、電壓等參數以及煤層基本參數來計算,計算公式如下:
(7)
×Ii×k×h×ρ
式中:Q——工作面實時瓦斯涌出量;
I——采煤機電流;
k——割煤系數;
h——煤層高度;
ρ——煤比重。
在關鍵要素的基礎上,研究關鍵要素之間的相互關聯關系,識別事故要素的內在規律。本研究采用Apriori關聯分析法 ,以所有事故關鍵要素作為“所有項集”,針對每一個事故案例文本,進行事故關鍵要素關聯分析。以瓦斯事故為例,通過關聯分析形成以下事故關鍵要素關聯頻繁項集:I1={掘進工作面,瓦斯鑒定,相對瓦斯涌出量,煤層厚度,絕對瓦斯涌出量,掘進停風,瓦斯積聚};I2={掘進工作面,瓦斯鑒定,相對瓦斯涌出量,煤層厚度,絕對瓦斯涌出量,串聯通風,瓦斯積聚};I3={回采工作面,瓦斯鑒定,相對瓦斯涌出量,煤層厚度,絕對瓦斯涌出量,地質構造,煤層頂板,瓦斯積聚};I4={回采工作面,瓦斯鑒定,相對瓦斯涌出量,煤層厚度,絕對瓦斯涌出量,超能力生產,生產能力,瓦斯積聚};I5={回采工作面,瓦斯鑒定,相對瓦斯涌出量,煤層厚度,絕對瓦斯涌出量,主通風機停風,瓦斯積聚};I6={回采工作面,瓦斯鑒定,相對瓦斯涌出量,煤層厚度,絕對瓦斯涌出量,微風作業,無風作業,瓦斯積聚};I7={采空區,瓦斯鑒定,相對瓦斯涌出量,風流短路,跑漏風,風量不足,瓦斯積聚};I8={巷道,瓦斯鑒定, 跑漏風,風量不足,絕對瓦斯涌出量,瓦斯積聚}。
運用BP神經網絡在事故關鍵要素頻繁項集基礎上進行建模,并通過實時數據預測事故發生的可能性。BP神經網絡是目前應用最廣泛的神經網絡模型之一。BP網絡能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程,符合事故關鍵要素與事故之間的關系。事故預測模型的建立主要包括以下步驟:
(1)事故關鍵要素值計算。有些關鍵要素無論是在事故案例中還是歷史數據中都可以找到對應的值,如生產能力、瓦斯濃度等。但有些事故關鍵要素,如微風作業、無風作業、風流短路等,無論在事故案例中還是歷史數據中都沒有被量化,因此需要定義這些關鍵要素的取值方法,從而實現所有事故關鍵要素的“數據化”,進一步建立事故關鍵要素與現有數據(如歷史數據、實時數據)之間的對應關系,運用數學工具對事故關鍵要素模型化。同時,由于各關鍵要素取值的物理含義不同,因此存在著量綱上的差異,這種異量綱性是影響對整體評價的主要因素,指標的無量綱化處理是解決這一問題的主要手段,根據數據特點,對關鍵要素取值均選擇直線型無量綱化方法之標準化法來進行無量綱化處理。
(2)BP網絡結構設計。BP網絡結構設計包括輸入層設計、輸出層設計、隱層設計、傳遞函數選取等。本文以I1頻繁項集為例說明BP網絡結構設計過程。根據I1事故關鍵要素頻繁項集,分別定義輸入層、輸出層和隱層,選擇S型正切函數tan-sigmod作為輸入、輸出神經元的傳遞函數。網絡結構如圖2所示。

圖2 BP神經網絡結構圖
(3)樣本數據構建。以瓦斯事故為例,將551例事故案例作為事故樣本數據,從采集到的歷史數據中選取10000條數據作為無事故樣本數據,構建機器監督學習樣本數據,并針對樣本數據做無序化處理,保證訓練樣本和檢驗樣本選取的隨機性。
(4)模型訓練。運用R語言進行BP神經網絡模型訓練,順序選取70%的樣本數據作為訓練樣本,迭代次數為50000次,期望誤差小于0.0001。根據多次訓練,得出輸入層到隱層和隱層到輸出層的權值矩陣:
W1=0.0876997100,-0.0066422071,0.0696998621,0.0078810304,0.0006207072,-0.0514464771,0.0544030602;-0.074629618,-0.103108712,-0.031073500,-0.050354069,-0.012048861,0.002357499,0.076872846;0.073716402,-0.053170112,0.080204996,-0.003348473,-0.010859949,-0.008989651,-0.005286401;0.022266238,0.001463615,-0.102531860,-0.079565374,0.033937125,-0.074391767,-0.068804029;-0.006522362,0.138096585,-0.045717480,-0.012498570,0.012444314,-0.070967471,-0.066790315;-0.041634302,0.166882523,0.212686445,0.005154012,0.082844196,-0.056083811,-0.001081871〗
W2=0.35177085,0.02448327,0.04679399,-0.73382014,-0.70519826,-0.75965318〗
(5)模型檢驗。順序選取30%的樣本數據作為檢驗樣本,共3100多條數據,其中事故數據161條,無事故數據3004條。通過模型計算并與實際結構對比,無事故數據預測準確率達100%,有事故數據預測準確率達96.3%。
(6)模型自適應、學習。在BP神經網絡的基礎上,運用R語言與hadoop平臺的接口功能,自動通過實時數據采集進行輸入層(事故關鍵要素)取值,模型訓練,實現模型的自適應、自學習功能。
本研究通過對煤礦安全事故案例等非結構化數據進行文本挖掘研究,發掘煤礦安全生產事故發生規律,識別煤礦事故關鍵要素以及事故關鍵要素之間的關聯關系,并通過構建事故關鍵要素監控指標實現事故關鍵要素監控、預測,通過事故關鍵要素之間的關聯關系建立了基于神經網絡的事故預測模型,從而使煤礦安全事故管理模式由“事后管理”轉變為“事前預判”,使煤礦安全事故管理技術更加科學化、精準化,管理手段更具有前瞻性。在大數據分析基礎上,把機器學習算法引入到煤礦安全管理領域,將對全面提升煤礦安全生產管理整體水平具有重要意義。
掘進工作面瓦斯涌出量指標監控可以為風險預控、生產計劃調整、生產進度控制等提供科學依據,如制定合理配風方案及瓦斯預防措施、調整生產進度和生產強度等,避免安全事故發生;回采工作面瓦斯涌出量指標監控可以為風險預控、生產計劃制定等提供科學依據,如制定合理配風方案及瓦斯預防措施、調整生產進度和生產強度等,避免安全事故發生;掘進工作面停風后,通過對工作面濃度實時預測、預警,避免掘進工作面瓦斯超限,甚至瓦斯事故發生,并通過實時計算給出瓦斯排放合理建議(如排放時間選擇、風量選擇),為瓦斯排放提供科學依據。基于神經網絡的事故預測模型通過系統試運行階段的測試,預測效果比較理想。
本研究亦存在不足之處,因采集到的事故案例有限,且文本挖掘方法本身具有一定的局限性,事故要素的挖掘可能不夠全面;另外,煤礦現有信息化系統的數據保存周期較短,采集到的數據有限,因此數據監控指標有限,模型應用具有一定的局限性。隨著系統的不斷運行,數據采集范圍的逐漸擴大,事故數據和歷史數據的不斷積累,樣本數據會更加全面,預測效果也會更加全面、準確。