張征亮
(中國聯合網絡通信有限公司石家莊市分公司,石家莊 050000)
分布式存儲(DistributedStorage)可降低網絡壓力,面向用戶提供了一個分布式緩存系統,作為存儲系統的訪問接口,進行各類數據的緩沖以降低網絡壓力。物聯網模式下,數據量快速增加,分布式存儲的價值也進一步得到重視,針對物聯網海量數據的分布式存儲算法進行分析、設計,有較為突出的現實意義。
以分布式存儲算法為依托,嘗試對物聯網海量數據進行有效處理,要求搭建以智能設備為核心的工作系統,整個工作系統的架構為:數據分析設備、存儲空間分析設備、通信線路、計算機終端五個部分。數據分析設備、存儲空間分析設備以智能芯片控制,數據分析設備可評估產生的數據量,存儲空間分析設備可了解計算機和網絡資源的工作壓力。通信線路負責進行信息的快速交互,包括設備之間和設備-網絡之間。計算機終端作為上述工作工作開展的載體。
上述設計的算法原理為,在工作開展前,收集相關對象的參數,包括網絡資源(主要是帶寬和對應的傳輸能力)、緩沖區空間等,并將其收集到智能設備中實現存儲和記憶。具體工作開始后(數據產生),啟動物聯網中的計算機,為數據分析設備、存儲空間分析設備提供工作平臺,評估物聯網產生的數據規模,該項工作由數據分析設備執行,在此過程中,存儲空間分析設備實時向計算機提供存儲空間信息和網絡資源信息。如果數據規模較大,超過網絡資源負載上限(或者接近),則將其暫時存儲到分布式存儲系統中,反之則允許其直接進入網絡[1]。總體來看,智能化的固定參數記憶和實時參數匹配分析,構成了工作的基本模式。
算法設計可實現的關鍵技術在于實時化的信息交互,和準確的參數收集、匹配。考慮到物聯網內的信息產生源是多樣的,為避免信息之間互擾(包括工作產生的源信息和各類反饋信息),擬采用CAN 總線技術,所有的信息源均通過獨立的線路與計算機和數據分析設備、存儲空間分析設備進行連接,信息之間的傳輸相互不存在影響,且可以獨立進行[2]。參數收集工作要求早期進行,結合物聯網的實際工作需要精確化核定,參數匹配是指數據分析設備、存儲空間分析設備之間的參數,前者是非實時進行的,只在數據產生時進行評估,后者則以每2s 為間隔持續進行,將網絡資源等信息傳輸給計算機,有計算機對數據分析設備、存儲空間分析設備的數據進行對比,作出決策。
以某地區的工業物聯網作為對象建立計算機虛擬模型。通過參數調整法進行實驗,可變參數為物聯網的數據產生總量、峰值數據量。觀察指標為數據是否得到準確的分布處理、平均處理時間。共模擬進行200次實驗,其中低數據總量、低峰值數據量實驗50次,設為1號組,實驗過程中數據產生量模擬為300GB/天,峰值數據量為5GB/s。高數據總量、低峰值數據量實驗進行50次,設為2號組,實驗過程中。數據產生量模擬為30PB/天,峰值數據量為5GB/s。高數據總量、高峰值數據量實驗進行50次,設為3號組,實驗過程中數據產生量模擬為30PB/天,峰值數據量為50GB/s。混亂數據產生實驗50次,隨機進行參數變化,設為4號組。另以該物聯網實際工作為對照組
對實驗結果進行記錄,如表1所示:

表1 實驗數據
從結果上看,以智能設備為核心進行計算,可改善物聯網海量數據的分布式存儲效果。無論數據出現何種變化,處理有效率都能達到96%以上,且處理時間不超過3s。而該物聯網目前的處理效率不高,耗時平均為59.6s,且處理有效次數為42次,差異較為明顯。這表明,上述算法設計具有較為理想的可行性。
綜上,物聯網模式下的海量數據,可通過分布式存儲給予處理。本次研究提出了智能算法,以數據信息和分庫空間實時情況為基準,通過不同線路下達指令快速完成信息處理,以總線技術、智能技術等作為支持。仿真實驗中,大量數據的存儲較為有效,沒有出現信道擁堵和信息丟失問題,可作為后續工作的參考。