王強
【關鍵詞】大數據;制造業;系統架構設計
大數據時代下,利用生產過程中采集到的數據對能源消耗進行及時、準確的預測,進而達到節能減排的目的,利用科學的算法對數據進行分析進而調整產業結構,都將成為制造企業發展的新方向。但傳統的數據分析、預測架構結構單一固定并且動態適應能力與可拓展性較差,很明顯已經不能適應企業對于海量數據的處理和快速、深度挖掘的需求,因此作者認為制造企業迫切需要運用大數據技術對企業能源消耗進行預測。本文試圖對制造企業運用大數據技術進行能耗預測時面臨的機遇與挑戰進行分析,并給出制造企業大數據能耗預測的一種可選框架。
大數據背景下的制造企業,僅對直接生產數據進行處理是不能滿足其需求的,因而要處理多元化的數據。在大數據時代,我們可以便捷地獲取和存儲各類數據,從而幫助我們實現全集數據庫的建立。全集數據使數據的分析過程更加全面,能夠發現很多隱性的細節,使數據分析的結果更加精確。
制造企業中的全集數據具有不同的數據來源,不同數據間的獲取、轉換相互獨立,因此傳統的集中數據存儲方法已不再適用。分布式存儲已成為當前大數據分析中的主流解決方案,該技術采用可擴展的系統結構,利用多臺存儲服務器和位置服務器,對存儲負荷進行負載均衡,對存儲信息進行定位,大大增強了系統的穩定性以及數據的存取效率,并具有易于擴展的優點,動態適應能力較強。
在本文的架構當中,全集數據被分散的存儲在分布式系統的各個節點中,針對當前大數據環境下的數據增長速度較快的問題,僅需在當前的分布式存儲系統中增加相應數量的節點即可,這樣就保證了系統的拓展性問題。
雖然分布式的數據存儲系統為我們解決了數據存儲的問題,但是未能實現對大量數據的實時獲取功能,造成了企業的業務系統對數據進行獲取以及使用的過程中,存在較為嚴重的數據滯后問題。因此在本文設計的架構中,在分布式節點存儲數據之后,會將計算節點融合在數據旁的CPU之中,將計算推向數據,取代傳統意義程序從數據庫獲取數據進行計算,進而轉變為云計算的架構模式。
分布式數據存儲、計算系統在功能結構上包括分布式基礎設施層、平臺層與軟件層3個層次。
(一)基礎層
在分布式架構的基礎層中主要是分布式存儲的各個結點和計算系統的計算單元,各結點位于分布式結構的基礎設施當中,并且它們之間可以進行分組,每組中都會有一個目錄服務器節點,它的作用是對該組節點進行統一任務分配,并且對計算結果進行匯總,而且可以作為各結點的文件和數據索引。在每一組結點的外部,都存在一個總目錄服務器的節點,對于所有的分布式基礎設施進行任務分配以及計算結果的匯總,并且作為下層各目錄服務器的文件和數據索引。
(二)平臺層
服務類引擎以及數據類引擎等均位于平臺層中,其中數據引擎主要包括能源數據引擎,供應鏈數據引擎,人力數據引擎,財務數據引擎,生產數據引擎等。服務引擎主要包括用戶身份認證引擎,企業報表引擎,數據統計分析引擎等,上述的服務引擎和數據引擎作為架構中軟件層的核心,為上層提供相應的數據接口以及一些通用功能類接口。比如,系統中各類對能源數據有需求的業務系統可以調用能源類數據引擎所提供的數據接口,通過傳遞參數的方式獲取到所需的能源數據。文中提及的平臺層的引擎均具備較強的通用性和適應性,根據不同的業務邏輯需求進行適配。目前平臺層采用的是Google公司的MapReduce數據分析處理框架。2004年Google公司提出的MapReduce[1]編程模型采用批處理模式,其為目前批處理方式采用的主要模型。
(三)軟件層
軟件層作為該架構的最頂層,本層主要包括了與大數據綜合分析直接相關的各個業務系統,軟件層的最終目標是將數據轉化為有價值的信息,并通過合理的方式將其展現在企業高層與相關用戶面前。要完成本層中各個業務系統的功能目標,需要通過調用平臺層提供的各類數據接口,將數據篩選條件作為參數傳遞給平臺層,從而獲取到對應的數據,將數據進行處理后,使用數據挖掘方法對數據進行深層次加工,進而實現系統功能。顯而易見,該部分的核心內容就是數據挖掘算法,挖掘算法的精確程度將對系統分析結果的精確性和準確性產生影響。