王云慧

[摘要]隨著移動互聯(lián)網、大數據、云計算、物聯(lián)網等信息技術不斷發(fā)展,大大的加快了我國農業(yè)信息化體系的建設。結合大數據理論方法,運用Hadoop技術框架、Hive數據分析技術,構建了農產品流通大數據分析平臺,該平臺能夠解決傳統(tǒng)分析平臺存儲數據量小、數據結構單一等問題。
[關鍵詞]大數據技術;農產品流通;大數據分析平臺
[中圖分類號]TP399[文獻標識碼]A
新時代信息化背景下,大數據無處不在,在“互聯(lián)網+農產品流通”模式的視角下,農產品流通環(huán)節(jié)面臨數據量大、數據來源廣泛、數據類型多樣、數據結構復雜,難以使用傳統(tǒng)的方法進行數據的處理和分析等問題。近些年來,隨著大數據技術的不斷推進,運用大數據技術深入剖析并且有效地整合散落在各處的農產品流通過程中產生的大量數據,進行科學的分析研判,以提高農產品資源利用率和流通效率,已成為大家關注的熱點和政府決策的重點。因此,通過“大數據+產業(yè)”策略,構建一個農產品流通大數據分析平臺,對農產品流通環(huán)節(jié)進行多個維度(包括農產品流通成本、農產品市場、農產品流通模式、農產品流通區(qū)域、農產品運輸方式等)的分析和預測,完善農產品流通供應鏈,使農戶、中小型農商企業(yè)更加了解農產品信息,幫助農戶、農商精準營銷。
1 農業(yè)大數據
1.1 農業(yè)大數據簡述
隨著信息技術的迅速發(fā)展,農業(yè)與信息技術的結合已逐漸成為農業(yè)發(fā)展的新模式。在農業(yè)物聯(lián)網新模式中,農業(yè)數據類型和數量正以驚人的速度增長。物聯(lián)網技術的飛速發(fā)展,產生了大量的數據,是大數據發(fā)展的源泉,同時,大數據也使物聯(lián)網的發(fā)展價值得到了極大的提升空間,它們之間是相輔相成,互相成就的關系。在我國農業(yè)信息化的建設中,越來越多的以物聯(lián)網傳感器為基礎的終端設備應用到農業(yè)中采集大量的數據,形成了農業(yè)大數據集,這些農業(yè)大數據集具有時間性、區(qū)域性、季節(jié)性等特點。從數據結構上來講,這些數據的結構復雜,既有結構化數據,又有半結構化和非結構化數據,這就使海量數據在存儲及分析方面存在了問題。近些年來,隨著大數據技術的不斷的推進,這些問題得到很好的解決,運用大數據思維模式對農產品從種植到生產、加工再到流通各環(huán)節(jié)的數據進行深入的剖析,使農業(yè)大數據的應用得到了很好的提升。
1.2 農業(yè)大數據作用
當前,從我國信息化社會建設的視角出發(fā)分析,大數據與產業(yè)的結合是未來信息化發(fā)展的趨勢。大數據與農業(yè)相關學科進行結合互融,會對我國農業(yè)科研的現(xiàn)代化發(fā)展、政府宏觀戰(zhàn)略決策以及涉農企業(yè)等領域起到決定性的作用,同時能夠提供全新的思維模式,加快了我國農業(yè)信息化的建設。
1.2.1 大數據助力農產品流通。農產品流通是連接農產品生產與消費的紐帶。利用農業(yè)大數據技術,可以實現(xiàn)農產品流通在生產、運輸、包裝、裝卸、搬運、儲存和加工配送等各個環(huán)節(jié)信息的透明化,追溯農產品流通的整個過程,很好地解決了傳統(tǒng)農產品流通各環(huán)節(jié)中存在的問題。與此同時,還可以更好地預測農產品供需端、產銷端的平衡關系,并且通過這些數據的分析,用于指導農戶對農產品生產作出決策,維持市場平衡發(fā)展,防止農產品價格指數波動過大,避免農戶承受巨大損失。而且,按照預測,還能夠按需調配生產資料,經過充分調配,可有效防止生產資料的產能過剩或短缺。同時,運用大數據技術還能夠有效的降低農產品追蹤和監(jiān)測的復雜性,從而提高倉庫、運輸、交易等各個環(huán)節(jié)的運營質量。
1.2.2 大數據實現(xiàn)農業(yè)數據資源共享。利用衛(wèi)星定位和物聯(lián)網傳感器設備采集農產品的生長環(huán)境、生產產量、加工存儲、農產品安全質量檢測、市場流通等數據,利用大數據技術設計開發(fā)出農業(yè)大數據信息資源共享系統(tǒng),讓農民人人了解信息技術,促進農村信息化建設,推進物聯(lián)網、大數據與農業(yè)的深度結合,從而實現(xiàn)農業(yè)大數據共享。
2 大數據技術
當今社會,大數據技術廣泛使用,它包含了海量復雜結構的數據存儲技術(HDFS、HBase)、大型數據集的分析技術(Hive),以及數據可視化技術(Echarts)等。目前,以Hadoop生態(tài)圈代表的大數據技術,占領了市場的主導地位。
2.1 Hadoop技術
Hadoop從狹義的角度講,它是一個可以運行在大規(guī)模廉價的計算機集群上的大數據框架,它包括一個分布式文件系統(tǒng)HDFS、一個離線計算框架MapReduce,在Hadoop 2.0之后還增加了一個資源管理器Yarn。由于Hadoop是一個開源的計算框架,它有足夠強大的社群作為支撐,發(fā)展至今已經形成了Hadoop生態(tài)體系,也就是宏觀角度上的Hadoop,它在其原有的基礎上還包含了Hive、HBase、Pig、Chukwa、Avro、Zookeeper、Mahout等模塊。下面重點談一下HDFS、MapReduce、Hive、HBase等技術。
2.2 HDFS技術
HDFS是基于Hadoop框架下的分布式文件系統(tǒng),它是在谷歌文件系統(tǒng)GFS的基礎上實現(xiàn)了開源,用于將數據存儲在廉價計算機集群上并進行管理,適用于大規(guī)模數據的存儲并且具有高容錯性、高吞吐量等優(yōu)點,還提供了多種訪問模式。HDFS在設計上更多的考慮到了數據的批處理,而不是用戶交互處理。
2.3 MapReduce技術
MapReduce是Hadoop的框架的重要組成部分,是一個基于Google公司開源實現(xiàn)的分布式計算框架,谷歌的MapReduce運行在分布式文件系統(tǒng)GFS上,而Hadoop MapReduce則運行在分布式文件系統(tǒng)HDFS上,可以存放和分析各種原始數據格式。它具有易于使用、良好的伸縮性、適用于大規(guī)模數據處理等特點。在傳統(tǒng)編程時,程序員需要掌握大量的編程細節(jié),而MapReduce能夠將很多繁瑣的細節(jié)隱藏起來,即使沒有經驗的程序員也能夠很容易的掌握。
2.4 Hive技術
Hive是Hadoop架構的一個數據倉庫工具,可以將結構化的數據集映射成為一張數據庫表,進行SQL分析查詢。Hive所有的數據都存儲在HDFS,使用的計算模型是MapReduce。它本身沒有特定的數據存儲格式,也沒有建立索引,具有熟知,快速,可擴展等特點。
2.5 HBase技術
HBase是Hadoop Database的簡稱,一個分布式的、面向列的開源數據庫,屬于NoSQL數據庫的一種,可以用來存儲一些非結構化的數據,用戶可以給行定義一些各種不同的列。HBase提供了Native Java API、HBase Shell、Thrift Gateway、REST Gateway、Pig、Hive等多種訪問接口類型,適合特定的場景使用。它的特點是彌補Hadoop的實時性操作,執(zhí)行效率高,適用于索引方式的訪問。
3 農產品流通大數據分析平臺構建
3.1 平臺總體框架
本文結合大數據理論方法,運用了Hadoop技術框架、Hive數據分析技術,構建了農產品流通大數據分析平臺,其包括4個部分:大數據采集、大數據存儲及處理、大數據分析、數據可視化。其中平臺總體架構如圖1所示:
3.2 大數據采集
由于大數據來源類型廣泛,大數據采集是對不同業(yè)務系統(tǒng)中的結構化數據、日志文件的半結構化數據和非結構化的數據進行采集。
3.3 大數據存儲及處理
3.3.1 大數據存儲。利用大數據技術、分布式存儲技術將多個數據源獲取的數據進行整合并存儲在HDFS中。相對于傳統(tǒng)的本地文件系統(tǒng),HDFS是通過網絡實現(xiàn)存儲,可將大規(guī)模不同數據類型的數據存儲在多臺廉價的計算機上。
3.3.2 大數據處理。要對大規(guī)模的數據進行科學的分析,由于所采集的數據里不是所有的信息都是必需的,而是摻雜了很多無效數據。所以,將海量數據存儲在分布式存儲集群之后,在此基礎上運用MapReduce做一些簡單的預處理工作。
3.4 大數據分析
大數據分析是整個平臺的核心內容,用Hive大數據分析技術對農產品流通模式、農產品流通成本、農產品價格、農產品流通地區(qū)、農產品運輸方式等多個維度進行分析挖掘,幫助農戶更加精準的營銷,提高農產品流通率。
3.5 數據可視化
數據通常是枯燥乏味的,相對而言,人們對于大小、圖形、顏色等懷有更加濃厚的興趣。利用Echarts數據可視化技術,將分析后的數據以柱狀圖、餅圖、折線圖、條形圖、面積圖、散點圖、氣泡圖、燭臺圖等形式呈現(xiàn)給用戶,為用戶提供更加友好的平臺使用體驗,幫助用戶更好的理解數據。
4 結語
本文討論了農產品流通大數據分析平臺的構建,是運用大數據技術Hadoop集群進行實現(xiàn)的,將農產品流通各個環(huán)節(jié)產生的海量數據存儲在HDFS分布式文件系統(tǒng),采用MapReduce進行并行計算且與Hive相結合進行多維度數據分析,最后將枯燥乏味的數據通過Echarts動態(tài)可視化的呈現(xiàn)出來,幫助用戶更好的理解和分析數據。該平臺解決了傳統(tǒng)分析平臺存儲數據量小、數據結構單一等問題,由此可見,基于大數據技術的分析平臺必將成為未來的發(fā)展趨勢。同時,在大數據分析過程中使用相應的數據挖掘算法對數據進行實時分析,成為下一步研究的重點。
[參考文獻]
[1] 王宏宇.Hadoop平臺在云計算中的應用[J].軟件,2011(4):36-38.
[2] 謝晴.大數據助力農產品流通[J].中國農村科技,2014(12):23-25.
[3] 李響.基于Hadoop的云計算基礎架構分析[J].計算機時代,2011(11):20-22.
[4] 楊艷梅.基于Hadoop的應用系統(tǒng)框架IMSAA的設計與實現(xiàn)[D].天津:天津大學,2018.