


摘 要:大數據分析方法很多,通過機器學習構建大數據分析模型進行大數據分析是目前比較有效的方法,大數據特點是數據規模龐大,計算周期長,為了加快計算速度、縮短計算周期,分布式計算方法是解決上述問題行之有效的方法之一。本文介紹了分布式大數據分析模型的構建方法,著重介紹了機器學習算法、分布式計算框架、分布式計算數據處理過程、分布式計算程序設計方法,期望能夠為從事大數據分布式計算、大數據分析的研究人員提供一些可借鑒的方法。
關鍵詞:大數據分析;分布式計算;機器學習
中圖分類號:TP181 文獻標識碼:A 文章編號:2096-4706(2018)09-0085-03
Abstract:There are many methods of large data analysis. It is a more effective method to build big data analysis model and analyze big data by machine learning. The large data is characterized by a large scale of data and long computing cycle. In order to speed up the calculation and shorten the calculation period,the distributed computing method is one of the effective methods to solve the above problems. This paper introduces the construction method of distributed large data analysis model,and emphatically introduces machine learning algorithm,distributed computing framework,distributed computing data processing process and distributed computing program design method. It is expected to provide some reference method for researchers who are engaged in large data distributed computing and large data analysis.
Keywords:big data analysis;distributed computation;machine learning
0 引 言
要實現大數據分析分布式計算,首先需要搭建分布式計算平臺,然后要建立一個分布式計算框架,在此框架下設計分布式計算模型,編寫分布式計算程序。本文通過介紹分布式房價大數據分析模型建立方法,詳細介紹了如何實現大數據分布式計算。
1 技術架構
分布式房價大數據分析模型構建的技術架構和技術路線如圖1所示,通過爬蟲技術在互聯網上抓取房地產大數據。大數據存儲在分布式存儲系統中,分布式存儲便于存儲設備擴充,通過機器學習構建房價大數據分析模型,通過MapReduce實現分布式計算。
2 分布式計算平臺配置
本項目搭建的是Hadoop大數據處理平臺,搭建過程中需要配置以下文件:
配置機器網絡環境,配置集群列表、環境變量,生成登錄秘鑰,賦予master節點所屬組權利……