李秀麗,胡會南
(河南測繪職業學院,河南 鄭州 451464)
在物聯網相關技術持續發展的背景下,社會經濟的前進速度較以往有所加快,這也為物聯網提供了更加廣闊的發展空間。事實證明,物聯網在運行期間會形成大量數據,要想使數據得到全面且高效的處理,關鍵是要升級現有技術,同時豐富處理數據的渠道。
作為依托通信技術、互聯網所衍生出的無線網絡,物聯網能夠為人們生活提供極大的便利,其特點主要體現在以下方面。首先是物聯網往往搭載了虛擬技術、感知技術等多個技術,可使數據得到快速且高效的傳輸[1]。其次是物聯網延續了互聯網的特點,可通過有線、無線網絡傳輸信息。最后是物聯網所涉及數據量極大,通常需要使用專業技術才能完成相應的處理工作??紤]到物聯網為數據信息所打造的環境為虛擬環境,而且數據傳輸期間存在風險的情況難以避免,因此大力監管物聯網十分重要[2]。
研究表明,物聯網數據往往具有數量多和種類豐富等特征。處理不同載體、不同領域數據期間,使用常規技術通常難以取得理想的成效[3]。結合物聯網數據所表現出的特點可知,要想使其得到高效處理,關鍵是要酌情引入物聯網相關技術,通過對采集、處理等環節進行整合,確保數據信息能夠得到實時共享,這一過程即為數據處理。
在處理物聯網數據時,有關人員應意識到數據往往具有復雜性和龐大性的特點,僅憑借現有技術難以保證處理速度與最終效果均達到預期。要想對數據進行系統且高效的處理,當務之急便是以現有技術為基礎,依照物聯網數據特點,研發更具實用性的全新技術。通過充分發揮數據處理優勢的方式,在及時處理信息的前提下確保信息價值可得到最大程度的實現[4]。
大數據處理所用軟件包括查詢引擎、服務器以及數據源3個部分,其中系統架構如圖1所示。

圖1 數據處理系統架構
該系統所搭載的連接數據源為Hive、MySQL、Presto,其中Hive負責存儲歷史數據,MySQL負責對數據進行實時存儲及查詢,Presto負責執行查詢計劃。應用服務器所提供的服務以Web服務為主,可通過Presto所提供的JBDC與集群相連,同時運用Java對應用程序進行搭建,為用戶查詢或是分析海量數據提供便利。另外,服務器還負責接收用戶所提交請求,將所接收查詢請求發送至對應集群,由集群負責統一處理,待順利接收到反饋結果,服務器可將結果顯示在瀏覽器界面上,確保客戶所提出請求得到最大程度的滿足。
2.2.1 云計算
物聯網數據難以在日常生活中得到廣泛應用的原因主要是現有計算機技術仍存在漏洞,致使處理數據信息的工作無法得到高效開展。此外,考慮到信息時代的特點之一是數據量大幅增加,加之人們對信息的需求往往有所不同,要想使數據信息得到更加充分的使用,前提是立足實際,對處理數據所用的技術進行升級與優化。
作為物聯網發展到一定程度時所形成的產物,云計算往往貫穿數據處理的始終,在各個環節均發揮著重要作用,可以說該技術的出現與物聯網發展存在極為緊密的聯系?,F有數據類型主要分為非結構化和結構化數據,不同類型數據所適用處理技術通常存在細微差別,在強調數據多樣化的當下,僅憑借傳統技術對其進行處理,不僅需要投入大量的精力與時間,還會由于處理難度較大,導致最終效果無法達到預期[4]。云計算的誕生使上述問題迎刃而解,該技術所搭載系統往往由海量處理板塊組成,任一板塊均可被用來對特定類型或區域的數據進行處理,通過實時匯總處理過程的方式得到最終結果。事實證明,該技術在整理數據、分析數據還有計算數據等方面均有較傳統技術更為突出的表現,相關人員可通過該技術對數據價值進行深入挖掘,并通過深度處理的方式,賦予處理數據等工作更符合預期的有效性及實時性。
2.2.2 采集/提取數據
設備終端所用的傳感器為無線傳感器,可保證采集所得數據經由無線網絡被實時發送至服務器及網關,其拓撲結構如圖2所示。

圖2 無線傳感網絡拓撲結構
作為物聯網數據的固有屬性,多樣性主要包含3方面內容,一是數據類型多,二是數據規模大,三是數據來源豐富[5]。對數據進行處理前,相關人員先要從海量數據中提取出所需數據,要想保證提取所得數據在價值與質量等方面均有突出表現,前提是要定期更新提取技術所遵循的原理和所使用的算法,通過快速、精準整合數據的方式,使提高處理效率等目標擁有實現的先決條件。
2.2.3 清洗數據
隨著信息時代的來臨,物聯網得到了飛速發展,各行各業所形成數據信息的數量隨之增加,要想確保信息可發揮出應有作用,關鍵是要利用現有技術對信息進行系統且高效的處理,為制定決策等工作的開展助力。考慮到數據來源較為復雜,不僅其可靠性和安全性難以得到保證,有少量錯誤信息混入其中的情況也難以得到根除,由此可見,篩選并清洗數據勢在必行。該環節相關人員可通過現有技術對所掌握數據進行清洗,這樣做可有效去除虛假數據和錯誤數據,隨后再使用冗余技術對剩余數據進行去粗取精,獲得真實且有效的數據[6]。
2.2.4 處理數據
在確定處理物聯網數據所用技術前,相關人員應仔細檢查技術是否存在漏洞,在此基礎上,通過多維度分析的方式判斷數據實用性及有效性?,F階段,對文本信息進行處理時,可供相關人員選用的技術有兩種,分別是遺傳算法和數據挖掘。
(1)遺傳算法。該項技術以生物理論所強調的優勝劣汰為核心,通過隨機檢索數據的方式,使檢索空間得到系統優化[7]?,F階段,該項技術在機器學習、信號處理等領域的使用頻率較高。
(2)數據挖掘。在處理信息的過程中,數據挖掘同樣發揮著十分重要的作用,由該項技術所衍生出的處理方法如下。一是分類分析,該方法強調以類別為依據,對數據進行劃分,在保證數據分類準確的前提下為日后分析數據等工作的開展提供便利。實際工作中,相關人員既可以使用該方法預測指定群體的行為,同時還可以通過聚類分析的方式盡快完成分析數據的工作,以確保數據能夠得到使用[8]。二是情感分析,該方法強調以感性思維為導向,從更深層次分析數據,要求相關人員將數據所傳達的主觀信息作為切入點,在處理自然語言的基礎上充分利用現有方法對處理所得的數據進行分析,確保數據所蘊含情感特征能夠得到更加直觀的呈現[9]。三是空間分析,該方法可以簡單地理解為以數據所表現出的空間特征為落腳點,通過全面且系統的分析,得出相應的結論。考慮到物聯網數據的來源十分多樣化,任一數據均有位置信息對應,因此采集并科學整合空間信息,通??墒固幚頂祿乃降玫酱蠓岣?。四是學習關聯規則,該方法的原理相對簡單,即通過挖掘數據內在聯系的方式為后續處理還有分析等工作的開展提供理論依據。
2.2.5 分布技術
在存儲數據期間使用該技術可使存儲效果得到保證。對該技術加以使用時,相關人員應對以下內容有所了解。
首先是該技術搭載分布式系統,可在極大程度上降低硬件方面投入的成本,以軟件所具有優勢為依托,對用戶所提出需求進行滿足。日常工作中,用戶可視情況對代碼進行修改,與此同時,由分布式系統負責對修改代碼所形成數據進行存儲,為數據質量提供有力保障。
其次是酌情引入分布式緩存,可使數據庫負載得到控制,通過實時緩存數據的方式解決數據頻繁被傳遞到數據庫內的問題。事實證明,這樣做不僅能夠使數據庫負擔得到減輕,還可為物聯網的穩定、持續運行提供保證,確保物聯網所表現出的性能符合預期[10]。此外,數據信息所具有的可靠性與安全性也能夠得到一定程度的強化,將其用于數據處理是大勢所趨。
最后是以該技術為核心所開發的數據庫,在查詢數據方面具有突出表現,可保證經過處理的數據盡快得到存儲。例如,谷歌系統所搭載的數據庫既能夠被用來提取、使用數據,還可被用來開發數據,這對在谷歌任職的技術人員而言具有極為重要的意義。除此之外,非關系數據庫在近幾年也更加頻繁地出現在人們的視野中,該數據庫的優勢主要體現在兩個方面,一是增強數據自身的可靠性及安全性,二是通過對存儲集群進行構建的方式,使集成處理數據的設想成為現實。
2.2.6 可視化技術
可視化技術在數據處理領域擁有極為廣闊的發展空間,相關人員可通過該技術對略顯抽象的技術進行轉化,確保其能夠以更加具象化的狀態被展示出來,為人們獲取和掌握自身所需數據提供便利,數據價值往往可得到最大化實現。一般情況下,可視技術均強調通過圖畫、圖片等方式對數據進行呈現,如果條件允許,相關人員可酌情引入聚類分析技術,通過聚類分析與可視呈現結合的方式提高數據集合處理的有效性,避免由于人們無法理解數據背后更深層次的含義,致使數據無法得到充分利用。
雖然物聯網的誕生在極大程度上推動了經濟與社會的進步,卻也增加了數據處理的難度。科學使用數據處理相關技術可使處理壓力得到降低,在保證處理效果的前提下提升處理速度,以此保證物聯網數據更深層次的價值得到充分挖掘與利用。