摘 要:物聯(lián)網(wǎng)中數(shù)據(jù)量大、類型復(fù)雜、高度動態(tài)性與異構(gòu)性等特點,為數(shù)據(jù)挖掘帶來了一定的困難。傳統(tǒng)的挖掘方式已經(jīng)不適用這種物聯(lián)網(wǎng),所以,本文提出了基于云計算的物聯(lián)網(wǎng)的數(shù)據(jù)挖掘模型,分析了其組成構(gòu)架和各功能模塊。
關(guān)鍵詞:物聯(lián)網(wǎng);云計算;數(shù)據(jù)挖掘
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-7712 (2014) 12-0000-01
這幾年來,隨著物聯(lián)網(wǎng)迅速發(fā)展,許多應(yīng)用終端逐漸接入到物聯(lián)網(wǎng)中,來達到監(jiān)控的目的。而隨著這種終端越來越多,物聯(lián)網(wǎng)存儲的數(shù)據(jù)就會越來越多,數(shù)據(jù)格式和類型不再簡單單一。另外,物聯(lián)網(wǎng)中的數(shù)據(jù)是非靜態(tài)的,它們具有時空性、不完整性以及異構(gòu)性,所以這將大大增加了從物聯(lián)網(wǎng)中挖掘數(shù)據(jù)的難度,傳統(tǒng)的挖掘方法已經(jīng)無法適用于這種數(shù)據(jù)庫。
而云計算和海計算的發(fā)展,使物聯(lián)網(wǎng)數(shù)據(jù)的挖掘有了新的方式和思路。云計算是在互聯(lián)網(wǎng)的基礎(chǔ)上發(fā)展的一種新型計算方法,它通過各數(shù)據(jù)終端的軟件和硬件資源及其信息提供共享,使得各個相連的計算機或其他設(shè)備在需要時能夠調(diào)用這些信息。它的主要思想就是將這些已用聯(lián)網(wǎng)的信息資源進行統(tǒng)一管理和使用,使得各終端在需要時都可以調(diào)配。海計算是將智能算法和通訊設(shè)備植入到物體中,使得各物體之間能夠相互聯(lián)系,在不能預(yù)知的場景中判斷將要發(fā)生的情況,從而實現(xiàn)物體之間交換信息的作用。海計算可以使物體中的信息裝置得到強化,從而將信息裝置與物體緊緊相連,從而使它們能夠有效傳遞信息,更重要的是獲得物體信息。它還可以強化其內(nèi)部大量的相互獨立的個體之間的智能水平,使得物體能夠?qū)崿F(xiàn)組織、計算與反饋等自身就可以完成的功能。
一、物聯(lián)網(wǎng)數(shù)據(jù)挖掘的關(guān)鍵問題
(一)物聯(lián)網(wǎng)系統(tǒng)中數(shù)據(jù)特點
1.量大。物聯(lián)網(wǎng)系統(tǒng)中有海量的傳感設(shè)備和監(jiān)控終端,它們每時每刻都在想數(shù)據(jù)中心傳送數(shù)據(jù)。而數(shù)據(jù)中心在儲存接受到的數(shù)據(jù)的同時,還要適時地存儲舊數(shù)據(jù),以便實現(xiàn)對對象的跟蹤、監(jiān)控、統(tǒng)計分析和數(shù)據(jù)挖掘等。所以,數(shù)據(jù)量大是物聯(lián)網(wǎng)系統(tǒng)在數(shù)據(jù)挖掘中所面對的一大難題。
2.類型復(fù)雜。這主要是由物聯(lián)網(wǎng)監(jiān)控對象的多樣性決定的,如建筑、湖泊、森林等,它們所采集的信息類型不一樣,例如森林中只需要關(guān)注其動態(tài),有無火災(zāi)發(fā)生,而交通中主要采集視頻信息。所以,物聯(lián)網(wǎng)中數(shù)據(jù)類型多樣,有文本、視頻和圖像等。
3.異構(gòu)性。物聯(lián)網(wǎng)中擁有多種類型的傳感器終端,包括GPS、RFID和無線傳感器等,它們采集到的數(shù)據(jù)會采用不同的格式和語義記錄下來,所以這無疑會增加數(shù)據(jù)挖掘的難度。
4.動態(tài)性。物聯(lián)網(wǎng)中的傳感器終端是呈現(xiàn)非靜態(tài)的,每個時刻都有終端進入或移出。當一個傳感器終端突然進入時,它采集到的數(shù)據(jù)必然也要插進數(shù)據(jù)庫中;而當它突然移出時,它的數(shù)據(jù)就不再傳送到數(shù)據(jù)庫中。這樣,會由于大量的傳感器終端不斷進入或移出,給數(shù)據(jù)庫的處理增加相當多的工作量。
5.時空特性。傳感器終端不會只布置在一個地方,它們的數(shù)據(jù)則反映著不同地區(qū)的不同對象的動態(tài)和信息。所以,數(shù)據(jù)的感知需要有特定的地點和時間,它必須與對象的時間和空間緊密相聯(lián)才有意義。
(二)物聯(lián)網(wǎng)對數(shù)據(jù)挖掘的要求
1.實時高效。物聯(lián)網(wǎng)系統(tǒng)的控制端口要根據(jù)實時情況進行分析,并且要對突然發(fā)生的情況作出高效處理。所以這個要求也是物聯(lián)網(wǎng)數(shù)據(jù)挖掘中十分重要的一項。
2.分布式挖掘。這主要是由物聯(lián)網(wǎng)中各終端設(shè)備和數(shù)據(jù)是分布式布置決定的,所以數(shù)據(jù)挖掘必須采用分布式的方式。
3.質(zhì)量控制。數(shù)據(jù)來源、媒體傳送、存儲和管理格式,以及模態(tài)的多樣化能夠保證數(shù)據(jù)處理后得到比較真實的結(jié)果。
(三)物聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)挖掘的要解決的問題
1.算法的選擇。要想提高數(shù)據(jù)挖掘的效率,必須選擇合適的算法和并行策略。所以,設(shè)計一個好的算法是十分必要的,而其中參數(shù)必須是可以調(diào)節(jié)的,以適應(yīng)各種不同的情況。
2.不確定性。物聯(lián)網(wǎng)中所存在最大的挑戰(zhàn)就是各種不確定性,例如對挖掘任務(wù)的規(guī)定、數(shù)據(jù)的采集和預(yù)處理、挖掘方法、以及不同的人對挖掘結(jié)果的評價等,它們都存在不確定性。可以說,不確定性貫穿于整個數(shù)據(jù)挖掘的處理過程中。
二、基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型
(一)挖掘模型的結(jié)構(gòu)
基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型一般有五層結(jié)構(gòu),包括了數(shù)據(jù)接入層、集成層、挖掘?qū)印I(yè)務(wù)控制層以及交互層。接入層一般各種傳感器終端組成,如無線傳感器、RFID、GPS等,用來監(jiān)控各對象并進行數(shù)據(jù)采集。集成層主要是存儲接入層中所收集到的數(shù)據(jù),形成數(shù)據(jù)源并為其他層提供必要數(shù)據(jù)。挖掘?qū)邮钦麄€挖掘系統(tǒng)中最重要的部分之一,它為系統(tǒng)提供了挖掘所需要的各模塊,使算法能夠并行運算,最后將結(jié)果反饋到控制層中。控制層主要給挖掘任務(wù)提供邏輯運算,并對其進行控制和調(diào)控,最后將結(jié)果反饋到交互層。交互層是系統(tǒng)和用戶相聯(lián)系的接口,通過窗口可以使用戶查看或保存結(jié)果。
(二)功能模塊
各層構(gòu)架中有想用的功能模塊,如接入層中的海計算模塊、挖掘?qū)又械牟⑿袛?shù)據(jù)挖掘算法模塊和并行ETL模塊以及模式評估模塊、控制層中的任務(wù)調(diào)度控制模塊和工作流程控制模塊、交互層中的用戶管理模塊和業(yè)務(wù)模塊以及結(jié)果展示模塊等。它們在各自所組成的構(gòu)架中發(fā)揮著重要作用。
三、結(jié)束語
物聯(lián)網(wǎng)中數(shù)據(jù)挖掘模式改變了計算機中信息處理的方法,它有甚至有可能將改變世界。數(shù)據(jù)挖掘是物聯(lián)網(wǎng)十分重要的應(yīng)用,文章基于物聯(lián)網(wǎng)數(shù)據(jù)挖掘的特點,分析了其結(jié)構(gòu)模型。相信經(jīng)過不斷的研究,基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式將得到更好的發(fā)展。
參考文獻:
[1]朱重吉.ETL技術(shù)在監(jiān)測中心數(shù)據(jù)集成中的應(yīng)用[J].廣西電力,2010(06):28-29.
[2]白莉珍.ETL在青海省電力公司數(shù)據(jù)中心系統(tǒng)的應(yīng)用[J].青海電力,2008(02):66-68.
[3]武劍.數(shù)據(jù)集成平臺中ETL的研究與設(shè)計[D].華北電力大學(xué)(北京),2007:5-8.