吳海建 呂軍
摘要
在信息時代,大數據得到了廣泛的應用。在大數據應用過程中,根據不同應用模式其計算模式也有相應的變化。而UCBerkeleyAMPLab的Spark系統將所有特征的數據及計算方式進行的有效融合,如批處理計算、迭代計算、流式計算等.本文以Spark下的大數據混合計算模型為例,對大數據實時計算在物聯網中的實踐進行了簡單的分析,以便為物聯網管理工作的順利進行提供有效的借鑒。
【關鍵詞】大數據 實時計算 物聯網 實踐
物聯網是在互聯網應用的基礎上進行了進一步拓展。其主要具有移動、智能、多節點的特點。而Spark為大數據實時計算工作提供了一個優良的數據儲存計算引擎,其在實際數據應用過程中,可利用自身優良的計算性能及多平臺兼容特性,實現大數據混合計算處理。因此為了保證物聯網數據處理效率,對大數據混合計算模式在物聯網中的實踐應用進行適當分析具有非常重要的意義。
1 基于Spark的大數據混合計算模型
基于Spark的大數據混合計算模式在實際設計過程中,首先需要進行數據源的確定,經過逐步處理后將其進行計算儲存,并通過實時查詢數據庫進行提前數據Web接口的設置。在這個基礎上,將不同數據源數據通過分布式處理模式進行移動、收集、分發。然后利用Spark數據批處理工作,綜合采用直接走流處理、程序批處理的方式,將實施應用數據調到己核算完畢的計算結果中間。最后基于物聯網應用特點,將數據源數據內部數據移動、收集及分發批處理模塊進行有機整合,并結合大數據域內數據處理需求,逐漸利用SparklShark架構代替MapreducelHIve結構。在這個基礎上進行Spark混合計算規則融入,最終形成完善的Spark混合計算模型架構。
2 大數據實時計算在物聯網中的實踐
2.1 以流處理為基礎的用量實時計算系統
以流處理為基礎的用量實時計算系統在物聯網中的實踐應用,主要是利用開源分布式軟件結構的架設,結合Flume數據收集模塊的設置。同時將物聯網中不同數據源進行接入差異化分析。在這個基礎上利用消息緩存系統保障模塊,將用量實時計算系統內部相關模塊間進行解耦設置。同時結合流式計算框架的運行,保障系統并行計算性能拓展問題的有效處理。在具體基于流處理的用量實時計算系統設置過程中,主要包括數據收集、數據處理、數據存儲、數據處理等幾個模塊。首先在數據收集模塊設置環節,主要采用Flume集群,結合海量日志采集、傳輸、集成等功能的處理,可從exec、text等多數據源進行數據收集。Flume集群的處理核心為代理,即在完整數據收集中心的基礎上,通過核心事件集合,分別采用話單文件代理、計費消息代理等模式,對文件、消息進行收集處理。需要注意的是,在消息接收之后,需要將不同代理數據進行統一數據格式的處理,從而保證整體消息系統的核心統一。其次在實際應用過程中,以流處理為基礎的大數據實時計算模型在數據接入環節,主要采用Kafka集群,其在實際運行中具有較為優良的吞吐量。而且分布式訂閱消息發布的新模式,也可以在較為活躍的流式數據處理中發揮優良的效用。在以流處理為基礎的用量實時計算系統運行過程中,Kafka集群主要針對。(1)磁盤數據,其主要通過對TB級別的消息進行儲存處理,并維持相應數據在對應磁盤數據結構中的平穩運行。同時在實際運行中,Katka集群還可以依據消息儲存日期進行消息類別劃分,如通過對消息生產者、消息消費者等相應類別的劃分,可為元數據信息處理效率的提升提供依據。
數據處理框架主要采用Storm集群,其主要具有容錯率高、開源免費、分布式等優良特點。在基于Storm集群的數據處理框架計算過程中,可通過實時計算圖狀結構的設計,進行拓撲集群提交。同時通過集群中主控節點分發代碼設置,實現數據實時過濾處理。在實際運行過程中,基于Storm集群的數據處理框架,具有Spout、Bolt兩種形式。前者為數據信息發送,而后者為數據流轉換。通過模塊間數據傳輸,Storm集群也可以進行流量區域分析、自動化閾值檢查、流量區域分析等模塊的集中處理。數據儲存模塊主要采用Redis集群,其在實際處理過程中,主要采用開源式的內部儲存結構,通過高速緩存消息隊列的設置,可為多種數據類型處理提供依據,如有效集合、列表、字符串、散列表等。
2.2 算例分析
在實際應用過程中,基于流處理的大數據實時計算模型需要對多種維度因素進行綜合分析,如運營商區域組成維度、時間段儲存方案、APN、資費組處理等。以某個SIM卡數據處理為例,若其ID為12345678,則在實際處理中主要包括APN1、APN2兩個APNa若其為聯通域內的SIM卡,則其運營商代碼為86。這種情況下就可以對其進行高峰時段及非高峰時段進行合理處理,分為為0、1。而資費組就需要進行All默認程度的處理,若當前流量話費總體使用量為1.6KB,則APN1、APN2分別使用流量為1.1/0.4KB。而在高峰時段、非高峰時段流量損耗為1.1/0.5KB。這種情況下,就需要對整體區域維度及儲存變動情況進行合理評估。在這一環節儲存變動主要為Storm集群,即為消息系統-流量區域分析-流量區域累積-自動化規則閾值檢測/區域組合統計-緩存系統。
3 結束語
綜上所述,從長期而言,基于Spark的大數據混合計算模式具有良好的應用優勢,其可以通過批處理、流計算、機器學習、圖分析等模式的綜合應用,滿足物聯網管理中的多個場景需要。而相較于以往物聯網平臺而己,基于流處理的大數據實時處理系統具有更為優良的數據壓力處理性能。通過多種集群的整合,基于流處理的大數據實時處理系統在我國物聯網平臺將具有更加廣闊的應用前景。
參考文獻
[1]歐陽晨.海關應用大數據的實踐與思考[J].海關與經貿研究,2016,37(03):33-43.
[2]余焯偉.物聯網與大數據的新思考[J].通訊世界,2017(01):1-2.
[3]孫學義.物聯網與大數據的新思考[J].科研,2017(03):00200-00200.