中圖分類號:TP311;TQ051 文獻標志碼:A 文章編號:1001-5922(2025)07-0193-04
Abstract:Hadoop technology isused to design an integrated platform fordata acquisition and procesing of industrial quipment.Thedesigned integrated platform is composedof a dataacquisition module,a data transmision integration module,a data storage module and adata analysis visualization module to realize the integrated utilizationof equipmentdata.The integrated platform iscomposed ofa data colection layer,a big data layer,andan aplication layer,andrandom forests areused in theapplication layer to realize the decision-making andanalysis of data,and improvethe inteligent levelof data analysis.Through theperformance testofthe integrated platform,itis verified thatthedesigned integrated platformcanefectivelyaccelerate thewriting efciencyoffilesandachievetimelyresponse to industrial equipment.Theresultsshow thattheapplicationof the integrated platform can effectively reduce the number of production shutdowns,improve the utilizationrate of industrial equipment,and reduce energy consumption.This has certain practical value for promoting the development of enterprises.
Key words:industrial equipment;data acquisition and processing;integrated platform design
信息化時代,工業設備數據采集與處理是提高企業生產效率和智能化水平的關鍵。傳統工業環境下,工業設備所產生的海量數據被分散存儲在各個設備中,缺乏有效的集成與分析手段,使得工業設備數據的重要作用沒有得到充分發揮。設計工業設備數據采集與處理一體化平臺是集成各種設備數據資源,實現工業數字化、智能化的關鍵,同時也引起了學術界的廣泛關注[1]。趙潤發以傳感器數據為基礎,通過Flink將傳感器獲取的各種類型數據發送到KAFKA中暫存,實現了工業大數據的查詢與預警功能[2]。蘇立偉提出了聯合GPU 和 Spark 的電力大數據分析算法,有效提升了電力數據的處理效率,能夠滿足大規模數據處理的實時性要求[3]。張積存以車輛卡口數據為基礎,KAFKA為消息總線,
ELASTICSEARCH為存儲平臺,設計并實現了車輛信息大數據分析系統,該系統為交警部門工作的智能化轉型提供了參考[4]。王永明提出了采用大數據分析來構建電力用戶行為畫像的新方法,其可以更加客觀、全面掌握不同時間段內用戶的用電情況,所構造的畫像具有比較高的準確率 ?5? 。基于此,在前人研究的基礎上,采用 Hadoop 技術來設計工業設備數據采集與處理一體化平臺,為工業企業的數字化轉型提供參考。
1一體化平臺功能架構設計
工業設備數據采集與處理一體化平臺是將采集的各種數據集成,通過對集成大數據的分析來為工業生產提供數據支撐。設計的一體化處理平臺共包含4個模塊,如圖1所示。
① ② 4
傳感器設備 數據傳輸 3 數據分析↓ ↓ 數據存儲 H
數據采集 數據集成 數據可視化
1.1 數據采集
工業設備的監測與管理需要采集各種設備狀態數據,如加速度、溫度、壓力等。借助各種傳感器設備來實時、準確采集多源工業設備數據,從而更加全面了解工業設備狀態。通過標準化接口和協議,有效確保不同類型設備的數據能夠有效采集。對采集到的數據進行預處理,剔除異常值,補充缺失值,確保采集到的數據具有可信度和一致性。
1.2 數據傳輸集成
對采集到的多源數據進行傳輸和集成,為后續的大數據分析提供保障。在數據傳輸的過程中考慮網絡帶寬、網絡延遲等因素,有效確保所采集的數據能夠高效、安全傳輸到中央數據存儲。所設計的一體化平臺具有強大的數據集成能力,將不同工業設備、傳感設備的異構數據進行整合,形成統一的格式。
1.3 數據存儲
采用云存儲技術來對數據進行分布式存儲和備份,提升數據的可靠性和可用性??紤]到數據量巨大,運用數據壓縮與索引技術來優化數據存儲結構,有效降低數據存儲的成本。

1.4 數據分析可視化
對采集的各種數據建立數學模型,有效提取數據中的有用信息,實現對工業設備性能、生產效率等方面的全面評估。一體化平臺提供更加直觀、易理解的可視化界面,從而幫助用戶了解設備狀態與生產趨勢,為決策制定提供數據支撐。
2一體化平臺存儲技術架構設計
2.1 Hadoop技術
Hadoop作為開源的分布式存儲和處理大規模數據的框架,在工業大數據存儲和分析中具有廣泛的應用[6]。HDFS 和 MapReduce 是Hadoop 技術的重要組件,通過HDFS和MapReduce來實現大數據的存儲和分析[7]。HDFS 將大數據分割成塊,分布式存儲在集群的各個節點,有效提高數據存儲的可靠性和容錯性,其存儲架構如圖2所示。
HDFS對數據存儲依賴于DataNodes和Name-Nodes,兩者之間建立通信,從而不斷地對數據進行更新[8]。為確保工業設備大數據的存儲安全性,在HDFS中采用復制副本的方式來實現。對工業設備大數據不僅要進行存儲、刪除、查詢等操作,同時還需要對讀取的數據進行分析。MapReduce是Hadoop的編程模型與處理引擎,其將數據處理任務分解為Map和Reduce兩個階段,從而實現對大數據的并行處理。圖3為MapReduce分布式計算過程[9]
由圖3可知,MapReduce分布式計算是將工業設備數據按照一定的規則進行分類,同時分割成多個Split。將分割成的多個Split分配給MapperTask,由Shuffle將數據分發給ReducerTask 進行計算[10]最后對計算的結果進行匯總,輸出數據分析的結果。
2.2一體化平臺整體架構

基于Hadoop技術設計工業設備數據采集與處理一體化平臺,該一體化平臺由數據采集層、大數據層、應用層共3部分組成,整體架構如圖4所示。
2.2.1 數據采集層
數據采集層是通過各種傳感器來采集工業設備數據,如加速度傳感器、壓力傳感器、溫度傳感器,結合以太網、現場總線等方式來實現對采集數據的傳輸[]圖5為工業設備數據采集所用到的部分傳感器

2.2.2 大數據層
大數據層是采用HDFS對工業設備數據進行存儲,采集的數據按照時間、設備ID等關鍵屬性進行分區和組織,以便后續的查詢和分析[12]。為實現對工業設備采集所獲取海量數據的運算,運用Spark把MySQL數據庫中的數據導入到HDFS中,這也可以實現MySQL數據庫和其它數據庫的兼容。
利用Hadoop的MapReduce編程模型,編寫任務對工業設備數據離線分析,如對歷史數據的趨勢分析、異常檢測等。將關鍵的工業設備數據加載到專門的數據倉庫中,使用BI工具連接到數據倉庫,創建儀表盤、報表等可視化工具,展示工業設備的性能指標、趨勢和關聯性。針對實時查詢需求,采用流處理框架對工業設備監測數據進行實時處理。
2.2.3 應用層
應用層實現用戶和大數據平臺之間的交互,通過友好的界面來實現工業大數據分析的定制功能。工業設備數據采集與處理一體化平臺集成數據挖掘工具,使用戶能夠通過簡單操作實現對大數據集的挖掘和分析,發現潛在的模式、關聯性和趨勢。提供用戶友好的查詢構建器,使用戶能夠輕松構建復雜的查詢語句,以滿足特定的數據檢索需求。集成各類數據分析模塊,如統計分析、機器學習算法等,以便用戶能夠進行深入的數據分析。
2.3 隨機森林
隨機森林(RandomForest,RF)是常用的機器學習算法,算法的本質是集成學習,在分類、回歸等問題中具有廣泛的應用[13-15]。RF通過構建多棵決策樹,并將所構建的決策樹集成到一個整體的模型中,能夠有效提升模型的性能和泛化能力。采用RF對工業設備數據進行分析,實現對工業設備的在線監測,提高工業設備的智能化程度。RF是運用重采樣技術在待分析數據中抽取一定數量的樣本,并對所選擇的樣本來建立決策樹模型。將每一次抽取的樣本均構建決策樹,這樣就會產生多棵決策樹,最終得到預測/回歸結果[16]。RF模型如圖6所示。
由圖6可知,RF模型是從數據集合 s 中隨機抽樣,取 k 個數據來構成訓練樣本集。由訓練樣本集產生決策樹,決策樹的個數為棵。每一顆決策樹產生一個決策結果,將產生的 k 個決策結果進行集成從而得到隨機森林的決策結果。RF的所有決策樹均是按照由上到下遞歸分裂所產生的二叉樹,并且在RF的根節點中有所有的訓練數據。所有的訓練數據按照一定的規則分裂為決策樹的左節點與右節點,只有滿足設定節點不純度最小閾值,分裂才結束。不純度采用基尼指數 G?H 來衡量,其數學表達式[17]:

式中: m 為數據集類別數; pj 為 j 類元素出現的概率。
隨機森林樹的個數和葉節點數直接影響到隨機森林的決策結果,樹的個數過多會導致過度擬合,過少會導致決策結果不穩定[18]。結合實際,采用試錯法選擇。葉節點個數選擇特征變量總數的1/3[19]

3一體化平臺性能測試及應用
3.1一體化平臺性能測試
工業設備數據采集與處理一體化平臺的作用是對海量的工業設備數據進行采集處理,由于數據量巨大,同時需要比較高的數據讀寫效率,這樣才能夠充分地發揮平臺的作用[20]。搭建實驗平臺,共包含3臺電腦,其中1臺電腦安裝有所開發的一體化平臺,另外2臺電腦配備相應的開發環境,測試對數據的讀寫功能,測試結果如圖7所示。
由圖7可知,文件的個數與文件的寫入速度之間正相關,文件越多,文件寫入的速度越快。文件的個數與文件的寫入時間之間負相關,文件越多,文件寫入的事件越長。通過采用Hadoop能夠有效加快文件的寫入效率,實現對工業設備的及時響應。
3.2一體化平臺應用
將設計的工業設備采集與處理一體化平臺應用于A企業中,主要是實現對關鍵生產設備的實時健康監測,優化企業的生產效率。工業設備數據采集與處理一體化平臺整合了溫度傳感器、振動傳感器、電流傳感器、氣體傳感器,通過在設備的關鍵位置布置傳感器來實時采集設備運行狀態數據。
為采集工業設備數據,在電機、軸承等位置安裝各類傳感器。表1為布置的各類傳感器數量與位置。

通過傳感器采集工業設備數據,采用設計的工業設備數據采集與處理一體化平臺來進行故障預測、生產優化、節能減排,提升企業的市場競爭力。對應用工業設備數據采集與處理一體化平臺之后,企業每個月生產停機次數、設備利用率以及能源消耗進行對比,結果如表2所示。

由表2可知,將設計的工業設備數據采集與處理一體化平臺應用于實際中,能夠明顯提升企業的生產效率,降低企業的生產成本。
4結語
工業設備數據采集與處理是實現工業智能化的關鍵,設計了工業設備數據采集與處理一體化平臺,有效實現各種設備數據資源的整合,充分地發揮數據在工業生產中的巨大作用。設計的一體化平臺采用Hadoop技術,其整體架構由數據采集層、大數據層、應用層3部分組成。應用層的數據分析采用隨機森林算法,有效提升了決策的準確率。將設計的工業設備數據采集與處理一體化平臺應用于實際企業中,結果表明,應用該平臺后可以有效減少生產停機的次數,提高設備的利用率,降低能源的消耗。這對企業智能化發展,降低生產成本具有一定的實用價值。
【參考文獻】
[1]禹鑫燚,殷慧武,施甜峰,等.基于OPCUA的工業設備數據采集系統[J].計算機科學,2020,47(S2):609-614.
[2]趙潤發,婁淵勝,葉楓,等.基于Flink 的工業大數據平臺研究與應用[J].計算機工程與設計,2022,43(3):886-894.
[3]蘇立偉,劉振華,杜禮鋒,等.基于 GPU+Spark 的電力大數據分析算法[J].沈陽工業大學學報,2023,45(4) :371-375.
[4]張積存,宋雪萍,費繼友,等.基于車輛信息的大數據分析系統設計與實現[J].計算機應用與軟件,2023,40(1) :11-16.
[5]王永明,陳宇星,殷自力,等.基于大數據分析的電力用戶行為畫像構建方法研究[J].高壓電器,2022,58(10) :173-179.
[6]宋子濤,張秋霞,郭大亮,等.基于Hadoop 的電力環保數據采集平臺設計[J].粘接,2021,48(12):168-172.
[7]燕翔,周瑾,趙海軍.基于Hadoop 的鐵路貨運大數據平臺設計與應用[J].鐵道運輸與經濟,2022,44(S1):170-175.
[8]肖立志.基于大數據的雷達數據快速存儲與分析研究[J].現代雷達,2022,44(11):79-84.
[9]張基,謝在鵬,毛鶯池,等.MapReduce 框架下結合分布式編碼計算的容錯算法[J].計算機工程,2021,47(4) :173-179.
[10]楊杰明,吳啟龍,曲朝陽,等.MapReduce 框架下基于抽樣的分布式K-Means聚類算法[J].吉林大學學報(理學版),2017,55(1):109-115.
[11]李秀峰,李勝,梁妙元,等.基于多通道的水電站安全數據采集傳輸方法[J].計算機應用與軟件,2023,40(5) :124-128.
[12]尹旭熙.基于Hadoop 和 Spark 的可擴展性化工類大數據分析系統設計[J].粘接,2021,46(6):81-83.
[13]王明常,丁文,趙競爭,等.基于知識圖譜與隨機森林的落葉松毛蟲害遙感識別[J].吉林大學學報(地球科學版),2023,53(6):2006-2017.
[14]張宇,畢凡,蘇海博,等.基于最大奇異值能量熵和隨機森林的真空快速開關機械故障診斷[J].高壓電器,2023,59(11):184-192.
[15]韓怡梅,李東喜.基于投影相關和隨機森林融合模型的疾病診斷[J].計算機科學,2023,50(S2):612-617.
[16]戢靜紅,張振宇,鄧平.一種基于隨機森林的LOS/NLOS基站識別方法[J].電訊技術,2023,63(10):1596-1602.
[17]徐善亮,呂佳.基尼指數結合K均值聚類的協同訓練算法[J].重慶師范大學學報(自然科學版),2022,39(4) :134-140.
[18]劉麗貞,黃琪,遲殿委,等.基于隨機森林回歸模型和高頻數據的鄱陽湖子湖電導率預測[J].水電能源科學,2023,41(10) :50-53.
[19]田佳,王德勇,師文喜.基于集合經驗模態分解和隨機森林的短時交通流預測[J].科學技術與工程,2023,23(29):12612-12619.
[20]李文迪,陳華偉,伍權,等.設備上云技術研究現狀與展望[J].機床與液壓,2020,48(15):194-198.