關金金 未培 莊彥


【摘 要】大數據時代的來臨,成就了海量數據的衍生,但如何快速聚類高價值數據,深度挖掘電商行業客戶和服務數據,搭建海量數據服務著陸平臺,監測行業數據輿情,提升公共服務水平,拓寬數據資源應用市場是“互聯網+”行業轉型的關鍵。借助Hadoop分布式存儲與計算平臺,以高效、可靠、可伸縮的方式維護數據精確度、緩解數據冷啟動問題,增強數據多樣化推薦。
【關鍵詞】Hadoop平臺;海量數據;服務處理平臺;HDFS架構
中圖分類號: TP391 文獻標識碼: A 文章編號: 2095-2457(2019)20-0099-002
DOI:10.19694/j.cnki.issn2095-2457.2019.20.046
0 概述
多元化的數據來源,井噴式的數據增長,龐冗雜的數據規模正預示著大數據時代的來臨,擺脫了傳統數據庫儲存、管理和分析的約束,大數據正朝著深度學習、數據關聯、數據過濾,分布式計算、推薦算法等體現其時效價值性的方向發展。面對海量數據,如何快速挖掘,過濾分析、決策處理成為各大“互聯網+”公司轉型的關鍵,而基于Hadoop分布式存儲與計算機平臺的誕生正是為改善企業數據資源的高效運用,提升品牌價值市場競爭力而服務[1]。
1 Hadoop集群的偽分布環境的架構
Hadoop分布式存儲與分布式計算環境,是基于JAVA語言開發的,需要部署在計算機集群中,因此可以首先在載有CentOS系統的master虛擬機器中,借助xshell和xftp工具完成主-虛兩機JAVA語言編程環境安裝。接著完成CentOS克隆,構建三臺Hadoop基礎集群計算機,三臺VM機之間實現SSH免密碼登錄,在master機器上修改Hadoop組件后,將Hadoop安裝目錄拷貝到兩個salve node節點上,修改$Hadoop Home/etc/hadoop目錄下的配置文件core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml內容,完成配置,直至三個節點均安裝語言編程環境[1-2]。
2 海量數據分析
以電商網站為例,供應商通過將企業商品和開放網絡彼此關聯為客戶提供了商用數據服務, 運用智能算法深度挖掘Web站點內容和結構,構建模型,運用平臺推薦系統,聚類高價值信息,規范關聯數據格式,形成個性化數據訂閱,提供精準服務,拓寬銷售渠道,提升平臺價值和品牌效應。海量數據來源廣泛,包括電商平臺交易數據,互聯網關聯數據,傳感器數據等,數據類型包括非結構化數據,結構化數據,異化半結構數據,但處理流程基本一致,主要有 “數據采集-數據分析-數據過濾-數據標準化-數據應用”五個步驟,具體如圖1。
面向Hadoop平臺能夠快速獲取豐富的信息資源,但不可避免的會遇到“信息過載”和“信息失效”問題,及時過濾冗余數據,篩選出對用戶有用的數據,提供個性化和類似群體的信息推薦,識別潛在隱藏用戶,產生良好的推薦策略,引導用戶訪問和消費,提升電商平臺公共服務能力,完善網站精準數據評估[3-4]。圖2給出了海量數據服務著陸平臺的架設。
3 基于Hadoop平臺的海量數據處理關鍵技術
Hadoop兩大大數據核心技術,其一MapReduce分布式存儲框架遵循主-從結構,主-從節點中的數據一般屬于同一個命名空間(namespace)即文件系統的目錄結構。主節點是用戶操作的入口,負責接收操作的各種請求信息,維護命名空間;而從節點主要負責存儲數據。其二HDFS分布式計算框架,存儲在其中的文件會被分割成若干塊(Block),然后這些塊會復制到多個計算機節點中,計算框架內部之間的通信基于TCP/IP協議,Hdfs文件在各存儲節點間讀和寫的流程如下圖3[5]。
HDFS中的NameNode節點讀取從客戶端Client發送過來的路徑,將文件的元數據信息返回給請求客戶,Client端之后會根據這些信息找到對應的DataNode獲取Block塊并在本地端整合數據還原文件內容。
而客戶端Client向HDFS寫數據時,在獲得和NameNode節點通信確認ACK信息后,接收文件Block的DataNode信息,按序將Block傳遞給對應的DataNode,DataNode-1和DataNode-2之間傳遞Block副本。
4 小結
海量數據信息量龐、冗、雜,為快速獲取關鍵數據、避免在分布式存儲和計算過程中出現數據稀疏、數據傾斜和數據失真,考慮通過加入正則表達式匹配防止數據堆棧溢出,清洗出有價值數據,挖掘數據關聯,引入推薦系統,跨域提供精準決策,豐富客戶需求,提升電商行業的數據資源競爭力,從而拓寬行業服務平臺。
【參考文獻】
[1]張趁香.基于Hadoop平臺的海量數據分析和處理[J].數據庫與信息管理.2019,01:95-97.
[2]申晉祥,鮑美英.基于Hadoop、平臺的優化協同過濾推薦算法研究[J].軟件.2018,39(12):1-5.
[3]孫輝,馬躍,楊海波.一種相似度改進的用戶聚類系統過濾算法[J].小型微型計算機系統,2014,35(9):1967-1970.
[4]王文賢,陳興蜀,王海舟,等.一種基于Solr的HBase海量數據二級索引方案[J].信息網絡安全.2017(8):39-44.
[5]宋陽.高校大數據存儲方案探索[J].中小企業管理與科技.2018(11):82-83.