鄭芳菲
(1.中煤科工集團重慶研究院有限公司,重慶400039;2.重慶市礦山物聯(lián)網關鍵技術工程技術研究中心,重慶400039)
數據挖掘技術經過二三十年的不斷發(fā)展,已經成為一個理論與應用相對健全的學科,它與數據庫、機器學習、統(tǒng)計理論學等緊密相關,把對數據的應用分析從簡單地數據查詢,上升到了知識挖掘和關聯(lián)發(fā)現,并提供決策支持。隨著大數據被不斷提及與重視,多個行業(yè)和領域中的數據挖掘技術相關的應用也越來越多。在煤礦開采行業(yè)中,數據挖掘技術已經廣泛應用于安全預測和生產輔助決策當中,對保障煤礦安全開采,提高生產效率,降低開采成本,具有非常重要的意義[1]。
數據挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識的過程,它是知識發(fā)現(Knowledge-Discovery in Databases,KDD)過程中的一個重要環(huán)節(jié)[2],如圖1所示。

圖1 知識發(fā)現
數據挖掘技術以數據倉庫為研究對象,以統(tǒng)計分析方法和可視化技術為基礎,并結合機器學習和人工智能方法,逐漸形成了自己特有的算法和技術,主要有以下幾類:
一是分類預測型方法,該方法是研究最多的數據挖掘方法,常見的有決策樹方法、神經網絡方法、貝葉斯方法[3]等。
決策樹方法,是一種依托于策略抉擇而建立起來的樹,它代表的是對象屬性與對象值之間的一種映射關系,樹的最頂層結點是根結點,沿著由根結點到樹葉結點的路徑,可以轉換成IF-THEN分類規(guī)則。
神經網絡方法是一種模仿人的思維方式,用生物神經元的“刺激-反饋”的學習方式對數據集進行處理的算法。人工神經元是人工神經網絡操作的基本信息處理單位,而人工神經網絡的學習過程就是神經元連接權值的調整過程,其實現是按照一定的規(guī)則去迭代地改變權值矩陣的值。
貝葉斯分類方法以貝葉斯定理為理論基礎,是一種非常典型的基于統(tǒng)計方法學的數據挖掘分類模型。它依據事件的先驗概率,并由先驗信息和樣本信息確定事件的后驗概率。貝葉斯分類方法有樸素貝葉斯分類和相對更高級、應用更廣泛的貝葉斯網絡兩種分類方法。
二是由關聯(lián)分析方法和聚類方法等組成的描述型方法。關聯(lián)分析方法是由其他事物對另外一個事物進行預測,前提條件則是這個事物與另外一個或多個事物之間存在一定的關聯(lián)關系。關聯(lián)分析方法意在挖掘隱藏在數據之間的相互關系,最終形成了包括支持度和置信度2個參數的關聯(lián)規(guī)則,其中支持度反映了發(fā)現規(guī)則的有用性,而置信度則體現了規(guī)則的確定性。
聚類分析方法是將一個數據集分成多個不同的類或結果集,而這些類內元素間的相似性盡可能地高,而類與類之間的區(qū)別性也盡可能地大。目前主要的聚類算法有K-means、Chemeleon、DBSCAN和STING等[4]。
隨著網絡信息快速地增長與膨脹,為了從海量的網絡數據中快速準確地獲取有用信息,適用于網絡/文本數據挖掘的方法也成為近年來數據挖掘領域中的研究熱點。由于當前網絡信息絕大部分是由自然語言描述組成的,一般需要將這種非結構化的數據轉化成結構化數據后再利用前文所述方法進行處理。
當前,國外特別是美國等發(fā)達國家,十分重視數據挖掘的開發(fā)與應用。作為科學技術研究最前沿的地區(qū),美國長期占據著數據挖掘相關技術研究的核心地位,許多科研機構和IT企業(yè)都非常重視數據挖掘技術的開發(fā)應用,IBM、谷歌、微軟、思科等都相繼成立了專門的研究中心。目前最主要的數據挖掘軟件有Knowledge Studio、SPSSClementines、Cognos Scenario等。
與國外相比,國內對數據挖掘的研究起步稍晚,缺少整體力量,研究人員主要集中在高校與科研院所,數據挖掘軟件產業(yè)還不成熟,但是發(fā)展前景良好,特別是在大數據流行的今天,對大數據的處理實質上也是對數據進行分析與挖掘的一種體現[5]。華為、阿里巴巴、騰訊、百度、360等公司已經開始采集分析大量的用戶習慣和用戶消費行為數據,進行各類數據挖掘分析與關聯(lián)規(guī)則發(fā)現,目的就在于了解用戶的行為習慣,提供更為準確的商品推薦和其他服務。
煤炭在我國的一次能源消耗中長期占據著70%左右的比例,是國民經濟發(fā)展的重要支柱,煤礦開采因為其固有的產業(yè)特點也決定了這一行業(yè)一直以來都屬于高危產業(yè)。因此,對煤礦企業(yè)生產過程中的監(jiān)控以及對企業(yè)的管理上,都是國家高度重視的。而數據挖掘,作為一門廣泛應用且不斷發(fā)展的技術,在煤礦中也得到了應用,并在安全生產、企業(yè)管理等多個層面上發(fā)揮了重要的作用。
由于煤礦安全生產過程中,涉及的要素非常多,要素間的關聯(lián)性也非常復雜,數據挖掘技術的應用也相對較多,且切入點比較廣泛,可以應用在安全生產方面的各個環(huán)節(jié)中,目前比較普遍的是在瓦斯預警、隱患事故分析與預測、機械故障診斷和煤礦電網綜合管理等。
廣義的礦井瓦斯是指井下有害氣體的總稱,它是煤礦發(fā)生安全事故的一個主要因素,它的濃度高低直接影響井下的安全指數,容易產生爆炸、突出和燃燒事故。現有的瓦斯預警方法,多是通過廣泛結合井下瓦斯、一氧化碳等有害氣體的濃度,以及氧氣濃度、井下溫度、頂板壓力以及地質條件等各環(huán)境因素之間的關聯(lián)關系進行分析與挖掘[6]。如通過對歷史監(jiān)測數據的有效分析,并結合實時監(jiān)測數據和實際情況,利用關聯(lián)性數據分析與對比算法,設置合理的支持度和置信度,發(fā)現其中的關聯(lián)性,并通過不斷地現場試驗與調試,給出并結合實時報警消息,給出合理的預警預測信息,提前做出有針對性的防范措施,減小事故發(fā)生概率和人員傷亡情況。
隱患事故分析與預測[7],也是數據挖掘技術在煤礦安全生產中的一個主要應用點,它秉承“一切事故都是由小的隱患在空間與時間上的積累”的概念,通過對各類事故的調研分析,利用對已有不合格項和人的不安全行為等數據的分析,發(fā)現各類隱患與事故之間的關聯(lián),實現對隱患與不安全行為的整改,減少隱患在空間與時間上的積累,降低事故的發(fā)生次數。
利用數據挖掘技術進行機械故障診斷[8],是當前比較流行的一個研究熱點。煤礦開采中要使用到相當多的大型機電設備,目前主要是通過研究已經積累的、海量的、煤礦機械的各種運行數據,掌握煤礦機械的故障形成和發(fā)展過程,了解設備故障的內在本質和特征,建立故障模型,提前預測故障部位,做到降低設備損耗、降低故障發(fā)生頻率、減少停電停風次數的目的。
隨著國家“兩化”融合的不斷推進,煤礦信息化與煤礦綜合自動化項目不斷上馬,大型煤礦企業(yè)均已建立了自己生產數據庫,存放了企業(yè)生產過程中安全、管理及營銷等各類數據,對這些數據的挖掘與利用,目前也已經受到重視。利用關聯(lián)分析和聚類分析的數據挖掘方法,對這些海量數據進行合理的區(qū)分,將具有關聯(lián)性、相似性和相反性的數據進行分類整理,發(fā)現生產、管理和營銷之間的關聯(lián)關系,能夠在一定程度上優(yōu)化生產開采模式和流程,降低企業(yè)能耗,減少事故發(fā)生概率和人員傷亡情況,提高煤礦企業(yè)數據資源的利用效率和勞動生產率,也為煤礦企業(yè)帶來更多地經濟效益。
雖然數據挖掘技術已經開始在煤礦生產中發(fā)揮作用,但其應用過程中也存在以下幾個主要問題:
一是重理論輕實用。不少大型煤礦企業(yè)和科研院所就數據挖掘技術在煤礦中的應用,已經做了較多的前期理論研究,形成了數量不少的理論總結和數據挖掘模型,但真正在煤礦中使用并發(fā)揮價值的,特別是在瓦斯預測和管理決策等方面的還是寥寥無幾,前期投入與實際研究成果不成比例。
二是行業(yè)信息化水平較低,基礎支持不夠。由于我國煤炭行業(yè)信息化起步較晚,發(fā)展水平較低,煤礦信息化的相關標準不全,且更偏重于硬件設備的生產投入,相對缺少對軟件自動化與信息化發(fā)展的支持,雖然大型煤礦已經建立了數據倉庫,但各類異構系統(tǒng)較多,數據完整性、關聯(lián)性和一致性上有待提高,給數據挖掘前期的數據清洗、數據集成和數據轉換帶來了非常大的困難,造成數據挖掘結果的準確性和指導意義較低。
三是煤礦數據挖掘技術的應用與推廣成本較高。我國煤礦產地分布不均,煤炭質量與產量差別巨大,開采環(huán)境各異,一個煤礦建立起來的數據挖掘模型往往不適應于其他煤礦,造成前期投入較高,但預測準確性較低,很難取得理想的經濟效益,缺乏推廣基礎。
目前,數字化礦山的建設工作正在不斷推進,煤礦開采逐步走向智能化,無人或少人煤礦是未來煤礦開采的必然趨勢[9]。解決當前數據挖掘技術在使用過程中存在的各類問題,提高數據挖掘技術的應用場景和預測結果,是實現煤礦智能化的一個重要手段。
首先,需要不斷培養(yǎng)既有煤礦專業(yè)知識和地質地理知識,又掌握數據挖掘算法的復合型高新技術人才,集中科研力量,建立綜合性的煤礦安全基礎研究機構,保證可持續(xù)的人才、經費和科研時間的投入,是研究成果能否有關鍵性突破的決定性因素。
其次,結合當前快速發(fā)展的煤礦物聯(lián)網技術,以及云計算和云存儲的技術,實現煤礦中人、機和各類環(huán)境參數的深度融合,建立完善的災害預警模型,提升預警速度和預警結果的準確性。
最后,提高煤礦企業(yè)的管理水平,逐步增加數據挖掘技術在煤礦生產中的應用場景和認可程度,實現對井下各類機電設備工作狀態(tài)的即時診斷,做到及時預測、優(yōu)化決策,提高挖掘結果的準確性,指導煤礦企業(yè)的安全生產。
隨著物聯(lián)網技術的不斷發(fā)展,煤礦信息化水平的不斷提高,上馬的子系統(tǒng)越來越多,煤礦數據規(guī)模會進一步膨脹,系統(tǒng)集成和綜合信息平臺將會成為煤礦信息化的主流方向,數據融合與數據標準化是實現這一主流方向的基礎,結合當前較為成熟的云計算技術,數據挖掘技術在煤礦中的應用會越來越多,進而減少各類安全事故的發(fā)生,優(yōu)化企業(yè)資源,提高綜合競爭力,最終實現安全生產。
[1]賴振丹.數據挖掘技術在煤礦企業(yè)中的應用[J].煤炭技術,2013,32(6):124-125.
[2]韓家煒著,范明,孟小峰譯.數據挖掘:概念與技術[M].北京,機械工業(yè)出版社,2000.
[3]李玲俐.數據挖掘中分類算法綜述[J].重慶師范大學學報(自然科學版),2011,28(4):44-47.
[4]周濤,陸惠玲.數據挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100-111.
[5]王惠中,彭安群.數據挖掘研究現狀及發(fā)展趨勢[J].工礦自動化,2011(2):29-30.
[6]李瑞華.數據挖掘在煤礦安全監(jiān)測中的應用[D].西安:西安電子科技大學,2010.
[7]趙作鵬,尹志民,陳金翠,等.煤礦隱患數據挖掘模型及適用挖掘算法[J].煤炭科學技術,2010,38(3):67-69,27.
[8]李洪燕,陳步英,趙美枝.數據挖掘技術在煤礦機械故障診斷中的應用[J].煤礦機械,2012,33(12):259-261.
[9]毛善君.“高科技煤礦”信息化建設的戰(zhàn)略思考及關鍵技術[J].煤炭學報,2014,39(8):1572-1583.