999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的鋼鐵生產大數據存儲平臺研究

2016-11-29 03:42:33常錦才
軟件 2016年9期
關鍵詞:故障診斷故障

王 卓,辛 星,尹 曉,常錦才,2*

(1. 華北理工大學 理學院,河北 唐山 063009;2. 河北省數據科學與應用重點實驗室 河北 唐山 063009)

基于Hadoop的鋼鐵生產大數據存儲平臺研究

王卓1,辛星1,尹曉1,常錦才1,2*

(1. 華北理工大學 理學院,河北 唐山063009;2. 河北省數據科學與應用重點實驗室 河北 唐山063009)

大數據平臺在鋼鐵企業的部署對產業轉型和升級有重要作用。鋼鐵產業大數據具有 明顯的實時性、動態性和不確定性等特點。為應對Hadoop分布式文件系統在處理實時工業數據流顯現出的一些不足,提出了基于分布式NameNode節點的HDFS。對基于分布式NameNode節點的HDFS進行了總體設計,包括TopNameNode和分布式NameNode的主要功能和工作機制。分析了分布式NameNode節點的HDFS的性能優點。提出了在虛擬化資源管理平臺上搭建基于Hadoop的動態可伸縮的分布式文件存儲平臺。將基于知識工程的方法和基于數據驅動的方法相結合,建立了一種新的混合故障診斷模型。最后對分布式鋼鐵生產大數據存儲平臺的優勢進行分析。

鋼鐵大數據;HDFS;分布式NameNode;技術架構;故障診斷

本文著錄格式:王卓,辛星,尹曉,等. 基于Hadoop的鋼鐵生產大數據存儲平臺研究[J]. 軟件,2016,37(9):47-51

0 引言

大數據平臺的盡早部署直接影響著整個鋼鐵產業的轉型升級和戰略突破。在美國工業聯網和德國工業4.0引領的第四次工業革命的背景下,若不能將大數據技術運用于鋼鐵實際生產,實現鋼鐵產業智能化,中國鋼鐵將會在國際競爭中處于劣勢,甚至面臨被淘汰的危險。因此,把大數據和鋼鐵生產行業結合,實現鋼鐵工業4.0非常必要。大數據存儲方案和平臺是大數據的基礎和關鍵的一環,傳統的存儲模式有存儲數據量小,計算速度慢,故障后解決困難,損失大的問題,而Hadoop HDFS分布式文件系統具有高容錯性,高可擴展性的特點,存儲平臺安全、穩定、可靠[1],同時HDFS使工業生產的流式數據充分發揮其價值,減少鋼鐵工業的原料浪費,充分利用生產中的熱量,減少熱量浪費,同時又減少對環境的傷害。本文就Hadoop HDFS為適應鋼鐵生產數據特點的優化,存儲平臺的技術架構,指導生產的實現以及混合故障診斷展開討論。

1 Hadoop發展現狀

Hadoop作為Apache Nutch項目的一個子項目,從2002開始實現開發,經過4年的發展,逐步實現以MapReduce作為計算框架并與NDFS(Nutch distributed file system)結合的方式來支持Nutch的主要算法,直到2006成為一套完整而獨立的軟件,并正式起名為 Hadoop。

Apache Hadoop軟件庫是一個框架。它的目的是把單一服務器擴展到成千上萬的機器,每個節點提供本地計算和存儲,而不是依靠硬件來實現高可用性。

Hadoop主要包括以下模塊:

(1)Hadoop Common:常見的實用程序,支持其他Hadoop模塊。

(2)Hadoop分布式文件系統(HDFS):一個分布式文件系統,它提供了高通量訪問應用程序數據。

(3)Hadoop YARN:一個集群作業調度和資源管理的框架。

(4)Hadoop MapReduce:基于YARN的系統,并行處理大型數據集。

Hadoop目前在互聯網行業的發展已進入成熟階段,Hadoop設計之初的目標就定位于高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優點,才使得Hadoop一出現就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。Apache Hadoop技術已廣泛應用在互聯網領域,雅虎使用多達4000個節點的Hadoop集群來支持廣告系統和Web搜索的研究;中國移動研究院基于Hadoop開發了“大云”(Big Cloud)系統,不但用于相關數據分析,還對外提供服務;百度每周的數據量可達200 TB,該公司使用Hadoop處理進行搜索日志分析和網頁數據挖掘工作;國內的高校和科研院所也對基于Hadoop在數據存儲、資源管理、作業調度、性能優化、系統高可用性和安全性方面進行研究。

經過多年的發展與完善,Apache Hadoop在2016年1月25日,發布了Hadoop最新的2.73版本。

2 為適應鋼鐵大數據特點的HDFS優化研究

2.1分布式NameNode節點總體結構設計

傳統Hadoop構架中,只存在單一的NameNode節點。而鋼鐵企業的實時生產大數據具有時效性強,數據量大的問題。Hadoop傳統的單一NameNode節點,會有單點失效,性能瓶頸,擴展瓶頸等問題。一旦出現問題,對企業會造成一定的損失。雖然Hadoop使用SecondaryNameNode來備份NameNode的元數據,然而NameNode出現問題時并不能實現自動切換,必須由人工介入,將會打亂企業的生產計劃[2]。因此,創新性地提出了分布式NameNode節點的HDFS設計。

在HDFS集群中加入一個能夠可靠工作的TopNameNode節點,它負責管理所有的NameNode節點,使各個NameNode節點更好地協作,確保HDFS集群的正常運行。

在采用分布式NameNode架構的HDFS中,各個NameNode節點組成一個分布式的NameNode系統,作為HDFS的主節點,它們對文件系統提供相同的服務。同時為保證TopNameNode和NameNode的高可用性[3-4],每個節點在集群中都有備份節點。分布式NameNode節點的HDFS系統結構如圖1所示。

圖1 分布式名稱節點的HDFS系統結構圖Fig.1 HDFS System Structure Diagram Based on Distributed NameNode

(1)TopNameNode節點

TopNameNode節點是所有NameNode節點的控制節點,它要維護所有NameNode的健康狀態、所有DataNode的信息。其主要任務為:

① 監控分布式NameNode系統的工作狀況:HDFS集群中的所有NameNode節點每隔一段時間向TopNameNode節點發送一次心跳信號,如果TopNameNode節點在指定時間內沒有收到某個NameNode節點的心跳信號,便認為此節點故障。

②處理NameNode節點的故障:當TopNameNode節點發現某個NameNode節點發生故障時,立即啟動該NameNode節點的備份節點Secondary NameNode替換故障節點。

③轉發DataNode的信息,TopNameNode節點收集所有DataNode的狀態信息,再轉發給所有的NameNode節點。

(2)NameNode節點

NameNode節點與單一NameNode節點的任務基本一致。唯一的區別點在于:單一的NameNode節點包含了HDFS的所有元數據,而分布式的NameNode節點中,元數據是分散存儲在各個NameNode節點中的。集群中所有NameNode節點都是對等的,一起為HDFS提供元數據服務。

2.2HDFS可靠性的設計實現

(1)安全模式

HDFS啟動時,NameNode將進入安全模式。處于安全模式的NameNode無法進行任何的文件操作,內部的副本創建也被禁止[5]。NameNode此時需和各DataNode通信,獲得DataNode保存的數據塊信息,并對數據塊信息進行檢查。只有通過了NameNode的檢查,此數據塊才被認為安全。當認為安全的數據塊所占的比例達到了配置值,NameNode才會退出。

(2)TopNameNode

若NameNode、DataNode節點向TopNameNode發送的心跳信息在指定時間內未得到回復,則認為TopNameNode發生了故障[6],進而把心跳信息發送給SecondaryTopNameNode;若SecondaryTop NameNode向TopNameNode發送的信息請求在指定時間內未得到回復,就代替其進行工作。這樣的保障機制使得TopNameNode/SecondaryTopNameNode能時刻維護集群中NameNode和DataNode節點的最新信息。

(3)心跳包和副本重新創建

為了保證NameNode和各個DataNode的聯系,分布式存儲平臺采用了心跳包(Heart beat)機制。位于整個HDFS核心的NameNode,通過周期性的活動來檢查DataNode的活性。NameNode周期性向管理的各個DataNode發送心跳包,而收到心跳包的DataNode則需回復。由于心跳包總是定時發送,NameNode把將要執行的命令通過心跳包發送給DataNode,而DataNode收到心跳包,一方面回復NameNode,另一方面就開始了與用戶或者應用的數據傳輸[7]。

如偵測到了DataNode失效,那之前保存在此DataNode上的數據就變成不可用的[8-9]。那么,如果有的副本存儲在失效的DataNode上,則需要重新創建這個副本,放到另外可用的地方。其他需要創建副本的情況包括數據塊校驗失敗等。

(4)數據一致性

DataNode與應用數據交互的大部分情況都是通過網絡進行的,而網絡數據傳輸帶來的一大問題就是數據是否能原樣到達[10]。為保證數據的一致性,HDFS采用了數據校驗,校驗和機制。

(5)租約

每當寫入文件之前,一個客戶端必須要獲得NameNode發放的一個租約。NameNode保證同一個文件只會發放一個允許寫的租約,那么就可以有效防止出現多人寫入的情況。

2.3基于分布式NameNode節點的HDFS特性和優點

(1)NameNode/SecondaryNameNode實現了快速切換

在原有的SecondaryNameNode機制的基礎上,分布式NameNode節點增加了TopNameNode,統籌管理各NameNode,在某個NameNode節點發生故障時,可迅速實現NameNode/SecondaryNameNode的切換,提高了HDFS的可用性。

(2)分布式NameNode服務性能的提升

HDFS集群中多個NameNode可同時為客戶端提供元數據服務,對于元數據的請求,根據元數據存放策略可定位對應的NameNode節點,解決了單一NameNode節點的單點性能瓶頸問題。

(3)Hadoop集群更易擴展

集群中的多個NameNode,大大增加了可用于存放元數據的內存資源,集群中可擴展更多的DataNode,存儲更多的數據,不再輕易受到單一NameNode節點內存和存儲容量的限制。

3 鋼鐵生產大數據存儲平臺技術架構

本文設計的鋼鐵生產大數據存儲平臺由虛擬化資源管理平臺和Hadoop分布式存儲平臺構成。Hadoop分布式存儲系統部署在資源管理平臺提供的虛擬機池中[11]。其特點是可動態部署Hadoop Slave節點,快速搭建Hadoop分布式存儲系統。其技術架構如圖2所示。

圖2 基于Hadoop的鋼鐵生產大數據存儲平臺Fig.2 Big Data Storage Platform for Iron and Steel Enterprises Based on Hadoop

虛擬化資源平臺基于CentOS操作系統。CentOS由Red Hat Enterprise Linux依照開放源代碼規定釋出的源代碼所編譯而成[12]。其硬件兼容性好,生命周期為7到10年,基本可以覆蓋硬件的生命周期。

在搭建的分布式存儲平臺上,可搭建Apache Hive, Apache HBase, Apache Cassandra等數據庫系統,對鋼鐵企業生產的實時數據處理分析,指導鋼鐵企業生產規劃,如圖3所示。

圖3 鋼鐵工業大數據指導鋼鐵生產規劃示意圖Fig.3 Big Data of Iron and Steel Enterprises Directing Steel Production Planning Diagram

4 基于數據驅動的混合故障診斷

Hadoop HDFS具有能存儲海量歷史數據和采集實時流式數據的特點。可通過對歷史和實時數據的處理,進行故障檢測。將基于知識工程的方法和基于Hadoop的鋼鐵生產大數據分布式存儲平臺進行結合,主要利用基于數據驅動的方法來對故障進行檢測,利用基于知識工程的方法來對故障進行診斷[13]。數據驅動的混合故障診斷的框架如圖4所示。

圖4 數據驅動的混合故障診斷的框架Fig.4 Hybrid Fault Diagnosis Framework Driven by Data

混合故障診斷的實現流程如下:

(1)應用HDFS收集處理流式數據,對數據進行處理。得到有效的數據。

(2)利用基于數據驅動方法建立故障模型對數據進行處理,得出故障檢測結果。

(3)應用HDFS存儲量大的特點。對歷史數據進行挖掘。建立基于知識模型的專家系統[14]。

(4)將故障結果輸入到基于知識的專家系統,得到故障原因,實現決策支持。

(5)若利用知識模型沒有對故障診斷成功,實時數據和故障檢測結果進行數據挖掘來實時地更新基于知識的模型。對實時的數據進行數據挖掘,得到出現的關鍵字,重要字段等,更新知識模型[15]。

5 鋼鐵生產大數據存儲平臺優勢分析

5.1低成本的優秀解決方案

基于Hadoop的分布式存儲系統提供了低成本解決問題的方案,其本身無License限制,可輕松在上百臺普通PC上并發存儲大規模數據。鋼鐵企業無需購置高性能機器來滿足繁重的實時數據流處理。集群性能的提升與投入的資金呈線性關系,在成本控制方面的優勢超過分析型數據庫的可擴展方面的優勢。

5.2可靠、高效、可伸縮的數據存儲平臺

基于Hadoop的分布式文件存儲系統具有可靠,高效的特點,HDFS架構如圖5所示

圖5 分布式文件存儲系統架構Fig.5 Hadoop Distributed File System Framework

上文已討論分布式文件存儲系統高可靠性的實現。HDFS假設計算元素和存儲失敗,因此通過創建并維護多個工作數據副本,確保能對失敗的節點重新分布處理;由于存儲平臺通過并行方式存儲,通過并行處理加快處理速度,因此該平臺具有高效的特點;由于平臺的運算性能可線性疊加,處理的數據流可達PB、ZB的級別,可伸縮性強。

5.3靈活的多服務應用支持

鋼鐵生產大數據存儲平臺基于Hadoop HDFS。HDFS的默認配置適合于大多數安裝的應用,支持大多數平臺,支持shell命令行風格的HDFS目錄交互。Namenode和Datanode都內建了網絡服務器,可方便地查看集群的狀態。這些優點使得在云計算中運用Hadoop的分布式架構成為可能,使云計算能夠不受平臺等的限制。

6 結束語

隨著工業互聯網的迅速發展,工業生產的實時數據量在不斷增長,HDFS在鋼鐵企業中的應用受到了越來越多的關注,但其單點設計給鋼鐵生產企業所帶來的問題也日益凸顯。本文首先提出了一種分布式NameNode節點的HDFS模型,以此來解決HDFS單一NameNode的不足。針對鋼鐵企業對海量數據處理的迫切需求,提出了在虛擬化資源管理平臺上搭建基于Hadoop的動態可伸縮的海量數據存儲平臺,并給出其技術架構。最后,給出了一種工業大數據下的混合故障診斷模型,并對分布式數據存儲平臺的優勢進行了分析,為鋼鐵工業數據的實時存儲提供了新的解決方案。

致謝:感謝華北理工大學大學生創新創業計劃項目(X2016128),河北省人力資源與社會保障廳留學回國人員科技活動項目(C2015005014)的資助。

[1] 周斌. 基于Hadoop的海量工程數據關聯規劃挖掘方法研究[D]. 北京交通大學, 2016.

[2] 李明明, 李偉. 基于HDFS的高可靠性存儲系統的研究[J].西安科技大學學報, 2016, 03: 428-430.

[3] 王又立, 王晶. 一種基于Kerberos和HDFS的數據存儲平臺訪問控制策略[J]. 軟件, 2016, 37(01): 67-70.

[4] 蔣濤, 周傲英, 高云君, 等. 不確定數據查詢處理[J]. 新型工業化, 2013, 3(5): 83-101.

[5] 王來, 翟健宏. 基于HDFS的分布式存儲策略分析[J]. 智能計算機與應用, 2016, 01: 5-8.

[6] 李可, 李昕. 基于Hadoop生態集群管理系統Ambari的研究與分析[J]. 軟件, 2016, 37(02): 93-97.

[7] 王少娟. 基于Hadoop的作業調度負載均衡算法研究[D].安徽理工大學, 2016.

[8] 楊彬. 分布式文件系統HDFS處理小文件的優化方案[J].軟件, 2014, 35(6): 65-69.

[9] 楊海鵬, 戴波. 數據采集與監控系統在石油化工企業中的應用[J]. 新型工業化, 2014, 4(3): 44-51.

[10] Tupe A, Priyadarshi A. Data Mining with Big Data and Privacy Preservation[J]. nature, 2016, 5(4).

[11] Ma, Ke. Research and implementation of distributed storage system based on big data. 2016 IEEE International Conference on Big Data Analysis (ICBDA): IEEE, 2016:1-4.

[12] Singh, Somya, Gaurav Raj, and Gurneet Kaur. Analysis of HDFS RPC and Hadoop with RDMA by evaluating write performance.2016 6th International Conference-Cloud System and Big Data Engineering (Confluence): IEEE, 2016: 368-372.

[13] Wang, Chia-Hui, et al. Coupling GPU and MPTCP to improve Hadoop/MapReduce performance. 2016 2nd International Conference on Intelligent Green Building and Smart Grid (IGBSG): IEEE, 2016: 1-6.

[14] Docherty J, Corbett H. Managing Change in the Public Relations Industry: The Impact and Potential of Big Data[J]. 2016.

[15] Vega-Gorgojo G, Fjellheim R, Roman D, et al. Big Data in the Oil & Gas Upstream Industry-A Case Study on the Norwegian Continental Shelf[J]. OIL GAS-EUROPEAN MAGAZINE, 2016, 42(2): 66-68.

Research on Big Data Storage Platform for Iron and Steel Enterprises Based on Hadoop

WANG Zhuo1, XIN Xing1, Yin Xiao1, CHANG Jin-cai1,2
(1. College of Sciences, North China University of Science and Technology, Tangshan 063009; 2. The Key Laboratory of Data Science and Applications of Hebei Province, Tangshan 063009)

The deployment of big data platform in iron and steel enterprises has an important role in the industrial transformation and upgrading. The big data of iron and steel industries has the characteristics of real time, dynamic and uncertainty. HDFS is gradually showing some deficiencies with the real time industrial data stream, to cope with this, a HDFS based on distributed NameNode nodes is proposed. HDFS based on distributed NameNode nodes is designed generally, including the main functions and working mechanisms of TopNameNode node and distributed NameNode nodes. The performance benefits of HDFS based on distributed NameNode nodes are analyzed. A Solution that building a dynamic scalable distributed file storage platform based on Hadoop in the virtual resource management platform is proposed. A new hybrid fault diagnosis model is built combining method based on Knowledge Engineering with the data driven method. At last, advantages of the big data storage platform for Iron and steel enterprises based on Hadoop are analyzed.

Big data on iron and steel enterprises; HDFS; Distributed nameNode; Technology framework; Fault diagnosis

TP311.13

A

10.3969/j.issn.1003-6970.2016.09.011

河北省人力資源與社會保障廳留學回國人員科技活動資助項目(C2015005014)。華北理工大學大學生創新創業計劃項目(X2016128)。

通訊聯系人: 常錦才(1973-),男,博士,教授。

猜你喜歡
故障診斷故障
凍干機常見故障診斷與維修
故障一點通
基于量子萬有引力搜索的SVM自駕故障診斷
奔馳R320車ABS、ESP故障燈異常點亮
因果圖定性分析法及其在故障診斷中的應用
故障一點通
故障一點通
故障一點通
江淮車故障3例
基于LCD和排列熵的滾動軸承故障診斷
主站蜘蛛池模板: 日韩一区精品视频一区二区| 久久久久国产精品熟女影院| 亚洲激情99| 国产屁屁影院| 91啪在线| 亚洲永久视频| 99精品视频播放| аⅴ资源中文在线天堂| 亚洲欧美人成电影在线观看| 色婷婷电影网| 99在线视频免费观看| 老司机久久精品视频| 日韩人妻少妇一区二区| 国产小视频在线高清播放| 在线观看国产黄色| 在线国产毛片| 亚洲男人的天堂在线观看| 欧美日韩精品一区二区视频| 色婷婷亚洲十月十月色天| 亚洲最猛黑人xxxx黑人猛交| 亚洲福利一区二区三区| 污网站在线观看视频| 又大又硬又爽免费视频| 中文字幕无线码一区| 国产精品亚欧美一区二区| 国产伦精品一区二区三区视频优播| 亚洲国产精品一区二区高清无码久久 | 亚洲免费黄色网| 国产激情无码一区二区APP | 99久久精品国产麻豆婷婷| 国产精品理论片| 丁香婷婷久久| 国产人成网线在线播放va| 伊人久热这里只有精品视频99| 国产欧美综合在线观看第七页| 日韩精品专区免费无码aⅴ| 影音先锋丝袜制服| 曰韩人妻一区二区三区| 亚洲日本精品一区二区| 国产精品亚洲一区二区在线观看| 国产精品自拍露脸视频| 成人字幕网视频在线观看| 手机成人午夜在线视频| 奇米精品一区二区三区在线观看| 色综合色国产热无码一| 欧美成人一级| 99在线视频免费| 成人综合网址| 久久99国产综合精品女同| а∨天堂一区中文字幕| 自慰高潮喷白浆在线观看| 久久一级电影| 中日韩欧亚无码视频| 久久精品波多野结衣| 69视频国产| 国产成人免费高清AⅤ| 97人妻精品专区久久久久| 在线看片免费人成视久网下载| 91综合色区亚洲熟妇p| 免费av一区二区三区在线| 99视频精品全国免费品| 国产日韩av在线播放| 日韩福利视频导航| 激情亚洲天堂| 日韩专区欧美| 中文字幕永久在线观看| 欧美日本在线观看| 国产SUV精品一区二区6| 亚洲成人高清在线观看| av一区二区无码在线| 国产丝袜精品| 无码aⅴ精品一区二区三区| 国产AV无码专区亚洲A∨毛片| 制服丝袜 91视频| 亚洲国产精品日韩欧美一区| 91在线精品免费免费播放| 成人午夜天| 欧美日韩成人| 一边摸一边做爽的视频17国产| 亚洲黄色视频在线观看一区| 亚洲无线观看| 97国产在线观看|