文/向薇
(長江存儲科技有限責任公司 湖北省武漢市 435000)
隨著工業4.0 和中國制造2025 的概念提出,如今第四次工業革命已經逐漸興起,在此背景下,傳統的生產制造產業已經無法滿足時代的發展需求。為此,很多生產制造企業都開始加大對自身生產設備升級的力度,并將信息技術與智能化生產進行緊密結合,然后通過大數據技術的應用來加強企業的生產質量管理,生產工藝提升、服務效果提升等方面的管理效果和決策效果。因此,該如何充分利用大數據技術的優勢,提高企業多方面管理效果和決策效果,是如今眾多生產制造企業都在思考的一個重要項目內容。本文將以大數據技術為基礎,介紹智能制造生產過程中所采用的大數據分析方法,以期能夠為業內人士提供理論參考。
在工業4.0 時代,大數據作為智能制造的重要組成部分,其是保障生產制造企業提高生產效率,控制生產缺陷成本的最好方式之一。在此背景下,大數據技術得到了良好的發展和應用,并在如今生產制造企業中表現出了以下幾方面特征:
(1)體量大:隨著生產制造企業的非結構性數據的日益增長,大數據技術的體量也在持續上升,甚至在某些生產制造企業中,PB級的大數據體量也已經成為了一種常態;
(2)多樣性:在工業4.0 的大背景下,生產制造企業所常設的數量類型也將會越來越多樣化,為能夠滿足生產制造企業的實際需求,大數據技術也必須要實現多樣化發展;
(3)密度低:大數據技術可以在如今實用信息密度比較低的市場信息中,發掘出有利于企業發展的信息,進而幫助企業提高生產力和市場競爭力,促進企業發展:
(4)快速化:大數據技術可以實現對大量數據的實時分析,并且通過快速處理的方式轉化成能夠被人們所理解的信息[1]。
本設計中生產制造企業大數據分析平臺的整體架構家分為企業級數據庫、Spark 分布式計算框架組件、Sqoop 傳輸組件、企業管理平臺、數據儲存、Hadoop 生態組件等等,具體框架架構如圖1所示。
2.1.1 企業級數據庫
現如今,生產制造企業常用的數據庫大多都是開源數據庫,這些數據庫中比較常見的有MySQL,Postgresql,Oracle 等,這些數據庫將會應用于生產制造企業的市場發掘、生產制造,產品銷售、后期維護等方面工作的數據處理與數據管理過程中。但這些數據庫從實際應用情況來看,因其缺乏有效的數據分析處理能力,因此不適合用于對生產制造企業日常所生成的數據的處理過程,只能夠用作于數據信息的存儲工作[2]。
2.1.2 分析型數據庫

圖1:大數據分析平臺架構圖
在本平臺架構中,分析型數據庫將會以企業級數據庫為基礎,通過Hadoop生態組件、Sqoop傳輸組件、Spark分布式計算框架組件、HDFS 分布式文件系統等諸多組件共同設計組成,本設計中所需要的大數據生態組件,該組件的主要功能就是提高數據庫數據分析及處理的能力。其中Hadoop 生態組件是一種分布式大數據分析處理計算框架,能夠有效提升數據庫的數據處理和分析能力[3]。Sqoop傳輸組件主要作用是實現關系型數據與HDFS 分布式文件系統之間的數據實時傳輸工作,并且還能夠在HDFS 分布式文件系統中抽取所需的數據導入到關系型數據之中。Spark 分布式計算框架組件是一種分布式、開源的計算框架,其在本構架中的主要作用便是實現對計算機集群的并行程序編寫的簡化工作。在實際數據處理過程中,Spark 分布式計算框架組件不僅可以有效發揮出Hadoop 生態組件對大數據的實時處理能力,還可以實現對數據庫的并行集成的簡化工作,從而實現啟動任務、實時計算、函數式編程的實時處理等方面能力。
2.1.3 企業管理平臺
一般來說,企業管理平臺通常是企業信息化平臺、ERP 等比較常見的生產系統平臺,這些平臺都需要進行二次開發設計才能夠有效支持大數據平臺的數據展出。而在實際大數據平臺設計過程中,企業可以結合自身的實際情況來設計開發出一款有著良好實用性的Web 系統,從而實現大數據分析功能后續的企業業務分析及數據展出等功能,更好的強化本框架設計的實用性。
2.1.4 數據分析
現有的數據分析主要是針對結構化數據進行分析,并且在如今該方面內容已經有著一套較為有效的分析體系。而在本文所設計出的大數據分析平臺框架則有著以下分析流程。首先通過企業級數據庫來對數據內容進行儲存,然后大數據分析平臺則會對數據庫中現有的數據信息進行分類篩選,建立數據中心,在此基礎和構建出數據倉庫,再根據生產制造企業對于數據內容的實際需求情況來構建出一個數據立方體進行聯機分析處理。隨著社會經濟的不斷發展,如今生產制造企業所產生的數據類型和數據量也在逐年上升,很多數據內容將會隨著時間的不斷推移,其數據價值也將會日趨下降。在這種情況下,為能夠有效解決多類型數據的處理問題,本設計將會通過聚合類和分散類兩種方式來對數據內容進行先一步的預處理,分析出所有數據內容中對生產制造企業有利的數據內容,并且保證數據內容的實效性,進而提高數據分析效果。
2.1.5 數據存儲
所謂數據儲存,就是指將已經經過大數據分析平臺進行分析處理后的數據進行存儲。當然為能夠加強大數據平臺分析的實際效果,生產制造企業還應該將企業經營數據和市場數據也一同存儲到數據庫中,以此來方便數據的實時調用,擴大數據庫中數據內容的范圍,增強數據的實用性和精準性。
2.1.6 分析結果展示
為能夠方面人們對于數據分析結果的理解難度,本設計中的分析結果展示方式將會采用如今應用最為廣泛,技術效果最為成熟的Spring MVC 可視化技術來講大數據分析平臺所得出的數據分析結果轉化為易于用戶理解的信息內容[4]。
2.1.7 編程語言
Python:Python 是一種解釋型腳本語言,其不僅有著強大的擴張類庫能力,并且還有著程序簡潔清晰,易于學習的優點。在本設計中,Python 將被用于相應響應Web 應用請求過程,在Web 響應請求以后,Python 將會實現與數據庫進行數據交互,然后根據業務需求的實際數據需求,對數據內容進行初次處理,并動態生成Web應用所情況的數據分析報告。
Scala:Scala 語言是一種與Java 語言相類似的編程語言,該語言在及面向對象編程和函數式編程等多種功能于一身,在本設計中,該種語言將會作為Spark 分布式計算框架組件的底層實現語言。
Java:Java 語言是如今極為常用的一種編程語言,在本平臺設計中,該種語言將會被應用與Web 應用程序的開發過程中。
想要設計出一個完善的大數據分析平臺框架,那么就需要在其中運用到大數據分析理論來作為理論基礎。現如今比較常用地的大數據法系理論主要分為海量數據分析與數據挖掘分析兩大類,而本文則會以現有的兩類大數據分析理論為基礎,結合國內外諸多相關研究文獻理論及自身的看法,進而提出一種聚合分類的大數據分析理論,并基于該理論提出相應的大數據分析方法。該方法分析流程如圖2 所示。在本文所涉及的大數據分析平臺框架中,首先需要建立個數據倉庫,通過該數據倉庫,將可以實現對諸多異種數據源進行直接繼承,然后根據所需要面向的分析主題不同,對所有異種數據進行界定劃分管理,從而對后續的分析、處理、查詢等工作內容提供有力的基礎保障。特征提取則是根據聚合分析過程中所分析出的潛在運行模式的區別,在數據集成中尋找出與所需要的數據內容相近的數據特征。該過程一方面可以降低大數據分析模型對于分析數據的理解難度,令大數據分析平臺的實際分析效果得到有效提升。另一方面則會保障大數據分析平臺能夠更有效的提取出生產制造企業所需要的數據內容,進而為生產制造企業提供強有力的數據支持。
另外,由于生產制造企業的數據源比較多,并且不同數據源所產品的數據也不盡相同,為能夠加強大數據分析平臺的實際處理效果,需要在進行實際數據處理之前,將所有數據源所產生的數據內容根據數據來源不同,采取不同的預處理辦法,進而轉化成為相近似的數據內容。而為了能夠保證數據預處理效果,本文所采用的則是將聚合類和分散類兩種類型的數據進行分析處理。其中聚合類數據需要通過現有的聚合類數據處理技術,將其分解成為諸多不同的子集集合,然后以子集集合為基礎進行數據處理工作。而分散類數據則需要先建立起一個統一的數據處理模型,然后將不規則化的數據轉化成為規則化的數據,然后在大數據分析平臺在對這些有規劃化的數據進行分析處理工作。最終對同類型的數據,將會采取同種的數據處理辦法,從而分析歸納出生產制造企業可利用的數據內容,進而為生產制造企業的后續工作提供數據參考。

圖2:聚合分類大數據分析算法流程圖
大數據技術作為智能制造的重要組成內容,如今我國眾多科研單位和生產制造企業都給予了極大的關注和重視,并將其列為當今生產制造行業技術研發的重點研究內容。本文針對生產制造企業無法進行大規模數據分析處理問題進行相關研究,最終確立了本文中所提出的生產制造企業大數據分析平臺技術框架結果,并進一步提出了框架核心算法的實現理論。不過由于本設計僅提出了大數據分析平臺框架,未進行詳細的設計說明,因此只能夠作為生產制造企業構建大數據分析平臺的理論參考,而無法應用與實際數據分析,該方面問題還需要在未來研究過程中進行有效解決。