張新
(紹興職業技術學院 浙江紹興 312000)
大數據技術是繼物聯網、云計算等技術之后發展起來的先進技術,大數據技術的出現和應用必將成為礦物開采與加工效益提升的倍增器,也將推動和加快礦山二化融合的進程。近些年來,我國礦物開采與加工設備快速發展,但是設備可靠性、穩定性和信息化等方面還存在諸多問題,特別是對各類數據的應用重視不夠,數據信息孤島和碎片化十分嚴重,大量數據沒有發揮它隱藏的價值[1-2]。大數據技術在礦山領域的應用起步不久,發展勢頭較好,但是大數據技術應用總體還處于發展初期,本文以煤炭洗選加工為研究背景,以機電設備運行狀態數據采集為切入點,提出了基于多傳感器和LoRaWAN遠程接入網設計數據采集系統,通過構建云計算服務中心的技術方案,詳細闡述了礦山大數據技術平臺的構建和數據處理流程,對機電設備工作數據和其它各類數據進行分析和研究,以機電設備運行數據采集源為例,對大數據分析做了一些嘗試,并對存在的問題作了簡要說明,為礦山大數據應用起到一個拋磚引玉的推動作用。
煤炭洗選廠主要加工工藝包括對原煤進行清洗、篩選和加工處理等,這些加工工藝采用了各式各樣機電一體化洗選設備,為了保障煤炭洗選的順利開展,需要一定數量的信息化保障管理系統,洗選廠人-機-環-管等信息化系統產生出大量各種規格的數據,設備運行狀態數據直接關系到煤炭洗選加工質量和效益,因此設備數據采集是洗選廠重要且關鍵的數據源,為此,設計和研究洗選設備狀態數據采集系統,數據采集系統架構如圖1所示[2-3]。

圖1 數據采集系統架構
煤炭洗選設備在二化融合的推進下,朝著互聯互通、自動診斷、無人值守的方向發展[3]。選煤設備一般是指直接用于和輔助用于煤炭洗選的所有設備,如重介質旋流器、浮選機、濃縮機、加壓過濾機等,以選煤機械為例,主要涉及分選、破碎、煤泥水處理、干燥、篩分、產品運輸等設備,這些設備的顯著特點是類型繁雜、設備多、連續生產、大型化、重型化和結構復雜。通常情況下,對設備故障診斷一般是在少量參數和數據的基礎上,依賴專家的經驗開展設備診斷,隨著設備大型化、自動化的發展,設備狀態監測數據爆發式增長,因此采用自動化監測手段對其工作參數監測是保障設備可靠安全運行的前提和基礎,基于大數據分析可以評估設備故障狀態,診斷發生原因,做到及時維護保養和維修,提高設備使用壽命。
煤炭洗選廠涉及電機、帶式輸送機、洗選設備、篩分設備、泵等多類型設備,洗選加工設備大多是大功率重型加工設備,往往對設備沖擊很大,相對容易損壞。洗選設備長期處在飽和運行狀態,機械磨損、疲勞、振動、高溫、過載、超重等多方面原因,導致設備中的零部件變形、破損和發生故障,如軸承、振動篩橫梁斷裂和損壞側板,或者燒壞電機、減速器損壞、輸送帶變形和斷裂等。通過分析研究,洗選設備故障診斷和預知維護涉及多類因素,主要有電機電流、CST啟動裝置功率、聲音、振動和溫度等,但以振動和溫度影響最大,設備其它運行環境也會造成不同程度影響,如室溫、粉塵、濕度、人員安全、原煤等[1-2]。煤炭洗選設備運行狀態監測對象主要包括電機、減速器、激振器等,設備的監測對象和監測點多,有的采樣頻率較高,而且需要持久連續不斷地監測,因此產生大量的數據,通過對設備狀態數據監測可為設備的運行和維護分析提供高價值數據。
設備狀態數據采集系統基于LoRa遠程低功耗通信技術開發,采用LoRa國際聯盟推出的LoRaWAN協議標準和系統架構。煤炭洗選廠規模一般都較大,涉及設備多,單設備所需監測點和參數對象多,設備布設在工廠各個角落,覆蓋區域較廣,通信環境比較復雜,特別是洗選設備大多是大功率設備,會產生各種無線干擾,煤炭洗選廠自然環境較差,各種粉塵和物品較多,因此對數據采集系統在數據傳輸和信號采集提出較高的要求。基于LoRa技術的遠程數據采集系統具有遠距離、大規模、低功耗、低成本和抗干擾性強、穿透性好的優勢,這些技術優勢恰恰是洗選廠設備監測系統所需。基于LoRa技術的通信平臺在復雜環境下通信距離超過2 km,可以同時實現較大規模的傳感器接入,由于采用了自組網,可以大大節約通信費用,提高系統可靠性和實用性。數據采集系統主要設備包括:監測終端、LoRa通信基站、網絡服務器和云計算平臺。通信網絡采用典型的星形網絡,根據洗選廠規模配置LoRaWAN基站的數量,理論上一臺基站能覆蓋2 km半徑范圍的區域,為了提高通信可靠性和穩定性,依據采集數據流量,可適當增加基站數量,實現采集終端與基站之間多對多通信方式,大大提升通信效能。采集終端可以同時向多基站發送數據,通過傳感器采集設備運行狀態數據,以單跳通信方式,LoRa 射頻模塊把數據發送給LoRa基站。LoRa基站是一透明的中繼網關,利用ADR 技術、多通道接收采集終端數據,LoRaWAN網絡服務器接收網關轉發的采集數據同時實施LoRaWAN網絡管理,所有數據包括設備狀態數據通過多種通信網絡傳輸,最終輸入云計算服務中心,利用大數據技術對洗選廠的各類數據進行儲存、處理、分析、挖掘和可視化[4-5]。
大數據技術是一種在云計算平臺基礎上的數據分析與處理技術,主要涉及數據獲取、存儲、處理、挖掘、可視化和管理等核心技術。礦山大數據技術平臺框架如圖2所示,在平臺管理的統一協調下,利用底層數據接口,把機電設備、監控、環境、管理等數據統一接入并進行抽取和清洗,基于Hadoop、HDFS、數據倉庫(Hive)和分布式數據庫(HBase)等技術,實現對海量數據的存儲和訪問。在算法服務管理和算法運行調度框架下,利用二類大數據計算引擎Spark和Storm,實現礦山機電設備大數據算法的離線和實時計算服務[6-8]。

圖2 礦山大數據技術平臺框架
礦山云計算服務中心數據處理流程如圖3所示,服務中心實現了數據接入、篩選、存儲、挖掘、處理和可視化展示等功能。數據是第一要素,在理解和分析礦山各類數據源的前提下,研究人-機-環-管相關的各類動態和靜態數據,通過多種途徑獲取信息化系統的所有數據包括日志數據、感知數據等[9]。通過對洗洗廠各類數據(包括機電設備運行數據)相關的關鍵數據庫分析,從而可以確定數據采集對象、要素、設備以及采集流程。利用多種類型的數據訪問適配器,依據數據來源、存儲方式和接口形式的特點,配接數據訪問適配器,把采集的原始數據通過 ETL 工具進行抽取、凈化、轉換并加載處理,實現對各類數據的清洗和整理從而提高數據質量。礦業生產產生的海量數據基于云平臺存儲,把歷史數據和信息永久保存。開展對生產業務(設備故障診斷和預知維護)數據多維度的分析、挖掘和知識評價,采用多種關聯分析算法進行分析計算,對人-機-環-管監測數據分析,根據各分系統業務進行危險源特征、屬性的多維度分析[10-11]。大數據數據處理技術主要包括離線計算方式和流式實時計算2種,通常離線計算適用于先存儲后計算,數據系統性、準確性要求較高的業務模式,而流式實時計算一般用于動態性數據處理,動態數據處理要求實時性強、數據源多、處理速度高,具有可擴展性強、容錯性好、性能優等特點。大數據處理十分強調數據可視化,以用戶良好體驗為最高設計準則,采用多種圖形直觀展示數據。

圖3 礦山云計算服務中心數據處理流程
礦山云計算服務平臺采用大數據分布式集群技術,基于Hadoop 和NoSQL技術為構建大數據計算平臺體系[11-12],實現海量數據的高效處理與存儲。
以機電設備狀態數據應用為例說明大數據應用系統,基于對機電設備溫度、振動、電機電流、啟動裝置功率等實時狀態數據采集,構成統一的IPO(Input-Process-Output)運行模式,設備狀態數據采集系統產生并積累海量原始數據,這些數據包括參數變化和工況變化規律,結合運維信息數據庫,利用大數據技術研究設備故障診斷模型和判據,對存儲的海量數據,在線或離線方式進行數據挖掘與分析,實現機電設備故障診斷、可靠性和穩定性評估、故障類型分析和預測預警等。依據機電設備故障和隱患預測預警,建立應急實時聯動機制,實現維護和管理人員的實時移動報警提醒,通過可視化顯示技術及時對外發布,實現機電設備實時健康狀態顯示和調度服務。應用系統功能模塊有:系統配置、數據存儲與信息查詢、故障診斷與預測、健康度評估、危險度評估等。
大數據分析(BDA)是采用描述性、診斷性、預測性和規定性的分析模型對所采集和存儲的海量數據開展數據分析,針對特定問題的解答或發現新見解的過程,它可以告訴決策者最近發生了什么,預測和展望未來,提出可以采取的相應行動、路線和建議等。大數據分析的核心涉及模型建立和算法應用二個方面,這二方面也是礦山大數據技術應用的關鍵和難點所在[13]。
礦山機電設備大數據動態監測與診斷系統是礦山大數據分析平臺的核心應用系統。基于大數據技術,以礦山各類各型設備生產規范規程為依據,結合綜合自動化、在線監測以及礦山生產日常獲取的動態和靜態數據開展數據分析,利用設備狀態、運行環境等海量多源數據進行深度融合分析,實現設備狀態評估、故障診斷和預測預知,提高對礦山機電設備科學管理和使用壽命。礦山大數據分析的基礎是海量數據采集和存儲,通過傳感器和LoRa遠程傳輸平臺構建的機電設備狀態數據采集系統采集海量數據,結合監控、環境、管理和各類日志數據的獲取,通過ETL的各種數據處理工具,整理合并歸整填補后統一存儲在云服務中心。大數據分析需構建數據分析模型,可以構建3類分析模型:一是通過關聯分析、時間序列分析、回歸分析、多維統計分析、聚類等方法分析各類狀態數據,發現它們之間的關聯關系及變化規律,建立歷史知識模型;二是通過多維統計和挖掘分析的手段,構建設備狀態評價、故障診斷和預測預知模型;三是隨著認知的深入,通過智能學習和迭代,對各類模型(狀態評價和故障診斷模型)進行修正、補充和完善[14]。針對機電設備,應用系統設計了設備動態診斷及風險評估預控、重大危險源預測預警、設備壽命預測評估、生產加工效能評估決策等主要模塊,依據各自特點建立相應分析模型,采用回歸樹算法、貝葉斯算法、決策樹算法等多類算法進行解算處理。以機電設備振動信號采集為例來分析研究,機電設備故障很大部分原因是由于振動造成的,在分析模型中主要考慮對采集的振動信號進行時域和頻域分析,通過計算出絕對均值、偏態指標、峰值、有效值等多個特征指標來開展評價分析。對正常狀態和待評估狀態的振動信號進行預處理,各計算得出多參數特征指標,利用投影尋蹤法對正常狀態的特征指標進行投影,通過待評價設備運行狀態投影參數指標對比分析,可獲得設備的運行狀態,實現早期故障預警和預知維護的功能[15]。大數據分析結果最終要面向用戶,數據分析的展示是大數據分析的重要方面,數據可視化通過各種圖形和線條直觀形象地表征分析結果,目前大數據可視化軟件和工具較多(如Datawrapper、Highcharts等),可視情況依據所展示的需求選擇合適的軟件進行可視化處理,做到更加人性化地為用戶服務。
礦山機電設備狀態大數據分析目前處于初始應用階段,無論模型的構建還是算法的應用都不是十分成熟,大數據分析的關鍵和核心是分析模型的構建,由于對大數據技術應用認知的不足,所建立模型很難在短時內較準確地反映設備狀態的實際,需要在實踐中提高認知和大數據技術的應用水平,通過不斷的迭代應用來修正和改進。
礦山大數據分析管理平臺處于起始初期,采用基于普通臺式計算機搭建 Hadoop 云服務處理中心,用來驗證大數據平臺的實用性和基本性能。利用4臺IBM-S822LC 服務器構建Hadoop 集群,服務器配置: NVIDIA Tesla K80 GPU、 內存256 G 、固態硬盤960 G以及 10 T的磁盤陣列,組成 Hadoop 集群的4臺服務器中1臺作為 Hadoop 的主節點即NameNode,其他3臺服務器作為從節點即為DataNode,實現海量數據的高效處理與存儲。
采用2種存儲模式的實際使用對Hadoop 集群和Oracle 的數據存儲性能開展測試,利用設備運行大數據統一描述后RDF(資源描述框架)的數據,實施海量RDF數據解析與加載,記錄單機和集群系統對數據進行解析和加載的時間,結果表明:RDF三元組數據量在低于 1.23 M量級時,Oracle 系統運行性能明顯優于大數據處理平臺, 但三元組數據量超過 1.23 M量級后,Hadoop 集群的性能充分體現。另外,在大數據處理平臺上進行了基于2種數據清洗模型的數據處理,在數據量較小時,基于時間序列的數據清洗模型效果較優,但隨數據量的不斷增大,系統初始化、中間文件生成與傳遞所耗時間相比數據清洗時間越來越少,基于雙 MapReduce 的大數據清洗模型就突現明顯的優勢[13-15]。
以礦山機電設備運行數據采集為切入點,采用多傳感器基于LoRa物聯網遠程通信接入平臺實現數據采集系統,實現了對礦山機電設備溫度、振動等數據的實時采集,為礦山大數據提供了關鍵性數據。基于大數據技術研究礦山機電設備運行狀態數據,提出了礦山大數據技術應用平臺和數據處理流程,在云計算服務平臺支持下,實現礦山機電設備各種異常狀態和故障的預測與判別以及多參數之間相互關系的分析與預測,為大數據技術在礦山領域的應用提供借鑒。