廖志聰
?
基于云計(jì)算平臺(tái)的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究
廖志聰
廣東省電信規(guī)劃設(shè)計(jì)院有限公司,廣東 廣州 510630
基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)對(duì)于當(dāng)前物聯(lián)網(wǎng)應(yīng)用的發(fā)展有著深遠(yuǎn)的意義,并且經(jīng)過(guò)Hadoop 平臺(tái)進(jìn)行模擬數(shù)據(jù)挖掘?qū)嶒?yàn)后,也驗(yàn)證了這種方案有著極大的可行性。
云計(jì)算;數(shù)據(jù)挖掘;物聯(lián)網(wǎng);模式構(gòu)建
1.1 數(shù)據(jù)挖掘技術(shù)的含義
數(shù)據(jù)挖掘技術(shù)自從20世紀(jì)90年代誕生以來(lái),在人類社會(huì)中產(chǎn)生了巨大的影響,同時(shí)受到了人們的廣泛應(yīng)用。目前來(lái)說(shuō),數(shù)據(jù)挖掘并不是一個(gè)獨(dú)立的學(xué)科,而是交叉學(xué)科,因此不同領(lǐng)域不同行業(yè)的人對(duì)其理解也存在不同之處,其定義尚無(wú)定論。目前,大部分學(xué)者比較認(rèn)同韓家煒等人的定義[1-2],包括三個(gè)方面的內(nèi)容:第一,具有大量的數(shù)據(jù)來(lái)源,并且是真實(shí)的數(shù)據(jù);第二,通過(guò)數(shù)據(jù)挖掘獲得的信息對(duì)人們有著較高的價(jià)值與作用;第三,獲得信息是可以被人們理解分析,被人們接受與運(yùn)用,能夠以此來(lái)做出判斷或決策。
1.2 數(shù)據(jù)挖掘技術(shù)的特征
數(shù)據(jù)挖掘技術(shù)具有分布廣、規(guī)模大、節(jié)點(diǎn)資源有限以及安全性復(fù)雜等特征。首先,物聯(lián)網(wǎng)數(shù)據(jù)本身具有分布廣的特點(diǎn),因?yàn)閿?shù)據(jù)一般都存儲(chǔ)在不同的地方。其次,物聯(lián)網(wǎng)數(shù)據(jù)極為龐大,本身有許多傳感器節(jié)點(diǎn),因而需要有能夠快速解決處理數(shù)據(jù)的中央節(jié)點(diǎn)。再次,節(jié)點(diǎn)資源并不是無(wú)限的,因而中央節(jié)點(diǎn)一般不需要所有的數(shù)據(jù),但需要數(shù)據(jù)參數(shù),從而依靠分布式節(jié)點(diǎn)將用戶需要的數(shù)據(jù)傳輸出去。
2.1 物聯(lián)網(wǎng)感知層
物聯(lián)網(wǎng)感知層主要依靠在目標(biāo)區(qū)域范圍內(nèi)放置極多的數(shù)據(jù)采集節(jié)點(diǎn)來(lái)發(fā)揮感知作用。具體來(lái)說(shuō),節(jié)點(diǎn)主要是通過(guò)傳感器、攝像頭以及其他設(shè)備進(jìn)行數(shù)據(jù)采集工作,而采集到的數(shù)據(jù)則會(huì)依靠物聯(lián)網(wǎng)感知層所具備的網(wǎng)絡(luò)通信設(shè)備進(jìn)行匯聚,將所有的數(shù)據(jù)傳送到節(jié)點(diǎn),而后經(jīng)過(guò)匯總存儲(chǔ)之后再次通過(guò)傳輸層輸送到云計(jì)算平臺(tái)的數(shù)據(jù)處理中心[3]。
2.2 物聯(lián)網(wǎng)傳輸層
物聯(lián)網(wǎng)傳輸層主要包括傳感器、無(wú)線(有線)網(wǎng)絡(luò)等,通過(guò)諸多網(wǎng)絡(luò)設(shè)備搭建的高速度無(wú)縫數(shù)據(jù)傳輸系統(tǒng),能夠快速將物聯(lián)網(wǎng)感知層采集到的數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳送到數(shù)據(jù)處理中心,從而實(shí)現(xiàn)全方位的互通互聯(lián)目標(biāo),也就是將各種類別的監(jiān)測(cè)處理設(shè)備進(jìn)行聯(lián)網(wǎng)傳輸,實(shí)現(xiàn)設(shè)備之間網(wǎng)絡(luò)信息的傳遞。
2.3 數(shù)據(jù)層
數(shù)據(jù)層是物聯(lián)網(wǎng)云計(jì)算平臺(tái)中數(shù)據(jù)挖掘技術(shù)的關(guān)鍵部分。物聯(lián)網(wǎng)本身具有異構(gòu)性和海量性的特征,因而在數(shù)據(jù)層內(nèi)將物聯(lián)網(wǎng)設(shè)備采集到的數(shù)據(jù)進(jìn)行存儲(chǔ)處理分析的能力是基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘平臺(tái)的關(guān)鍵。數(shù)據(jù)層中主要包括數(shù)據(jù)源轉(zhuǎn)化與存儲(chǔ)兩大部分,其中,數(shù)據(jù)源轉(zhuǎn)化主要對(duì)物聯(lián)網(wǎng)異構(gòu)性的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,而存儲(chǔ)部分則是使用Hadoop 搭建的平臺(tái)中的HDFS 系統(tǒng)進(jìn)行分布式存儲(chǔ),從而將海量性的數(shù)據(jù)完整存儲(chǔ)到數(shù)據(jù)節(jié)點(diǎn)。
在物聯(lián)網(wǎng)平臺(tái)中,由于對(duì)于不同的目標(biāo)會(huì)采用不同的數(shù)據(jù)類型來(lái)表現(xiàn),某種情況下,相同的目標(biāo)也會(huì)采用不同的數(shù)據(jù)類型來(lái)表現(xiàn),因此數(shù)據(jù)源轉(zhuǎn)化的作用主要體現(xiàn)在保持?jǐn)?shù)據(jù)的完整,防止異構(gòu)性的物聯(lián)網(wǎng)數(shù)據(jù)在轉(zhuǎn)化中出現(xiàn)損毀,從而達(dá)到保證數(shù)據(jù)挖掘的目標(biāo)。數(shù)據(jù)源轉(zhuǎn)化在系統(tǒng)中的作用相當(dāng)于數(shù)據(jù)層與感知層的連接線,通過(guò)數(shù)據(jù)包的解碼轉(zhuǎn)換將不同的數(shù)據(jù)轉(zhuǎn)換成需要的數(shù)據(jù)類型,并且分布式存儲(chǔ)到數(shù)據(jù)處理中心。
2.4 數(shù)據(jù)挖掘服務(wù)層
數(shù)據(jù)挖掘服務(wù)層包含數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘引擎以及用戶三大部分。其中,數(shù)據(jù)準(zhǔn)備部分的主要用途是對(duì)數(shù)據(jù)進(jìn)行清零、轉(zhuǎn)化以及規(guī)約等。數(shù)據(jù)挖掘引擎則主要包含數(shù)據(jù)挖掘算法以及模式評(píng)估,而用戶部分則主要將數(shù)據(jù)挖掘的內(nèi)容進(jìn)行可視化的表現(xiàn)。用戶部分是整個(gè)云計(jì)算平臺(tái)中數(shù)據(jù)挖掘技術(shù)面對(duì)用戶的直接體現(xiàn),因而具有友好性,能夠讓用戶通過(guò)操作來(lái)對(duì)數(shù)據(jù)挖掘任務(wù)進(jìn)行處理認(rèn)知。
數(shù)據(jù)挖掘工作流程為:用戶發(fā)出數(shù)據(jù)挖掘的請(qǐng)求,主要控制節(jié)點(diǎn)收到用戶請(qǐng)求之后會(huì)首先判斷能否進(jìn)行任務(wù),并且將結(jié)果回饋給用戶。若是可以進(jìn)行,主要控制節(jié)點(diǎn)就會(huì)調(diào)用數(shù)據(jù)挖掘算法,然后根據(jù)算法進(jìn)行分布式數(shù)據(jù)挖掘工作。通過(guò)挖掘數(shù)據(jù)任務(wù)的劃分之后,將具體內(nèi)容傳送到眾多節(jié)點(diǎn)中,節(jié)點(diǎn)再具體進(jìn)行數(shù)據(jù)挖掘。
本次選擇Hadoop 搭建云計(jì)算平臺(tái),并以此進(jìn)行模擬實(shí)驗(yàn)。
首先,選擇一臺(tái)實(shí)驗(yàn)所需要的PC 機(jī)器,配置基于普通水平的2?G內(nèi)存,操作系統(tǒng)為win 7。然后在PC 端安裝虛擬機(jī),虛擬機(jī)的操作系統(tǒng)都是Linux 操作系統(tǒng)。隨后開(kāi)始部署分布式節(jié)點(diǎn),本次共安裝3 個(gè)虛擬機(jī)。其次,需要安裝與Linux 版本相適應(yīng)的Eclipse 7.5 開(kāi)發(fā)環(huán)境,并且于PC 機(jī)上安裝SSH 服務(wù),用于實(shí)驗(yàn)開(kāi)始之后傳遞實(shí)驗(yàn)數(shù)據(jù)。3 臺(tái)虛擬機(jī)中也安裝SSH 服務(wù),以便于Hadoop 平臺(tái)運(yùn)用。
配置安裝完畢后,選擇采用關(guān)聯(lián)規(guī)則算法的數(shù)據(jù),將數(shù)據(jù)依據(jù)C++ 代碼程序轉(zhuǎn)換成標(biāo)準(zhǔn)的PML 文件,文件大小為1?G,然后將文件利用HDFS 傳入Hadoop 平臺(tái),采用分布式存儲(chǔ)。接下來(lái),運(yùn)行Apriori 算法,根據(jù)計(jì)算結(jié)果來(lái)判斷能否找到實(shí)驗(yàn)數(shù)據(jù)集合中所有的項(xiàng)目,然后選用不同大小的文件再次重復(fù)實(shí)驗(yàn),以此來(lái)得到較為準(zhǔn)確的結(jié)果。實(shí)驗(yàn)運(yùn)行Hadoop 平臺(tái)計(jì)算得到的數(shù)據(jù)如表1。

表1 文件大小與運(yùn)行時(shí)間的關(guān)系
從表1可以看出,伴隨著文件不斷擴(kuò)大,在Hadoop平臺(tái)上運(yùn)行,采用Apriori 算法所運(yùn)行的時(shí)間也隨之上升。經(jīng)過(guò)大量模擬實(shí)驗(yàn)后,可以看出Hadoop 平臺(tái)有著較高的拓展性能,能夠滿足當(dāng)前市場(chǎng)對(duì)于物聯(lián)網(wǎng)大量數(shù)據(jù)挖掘的要求。
信息技術(shù)的發(fā)展推進(jìn)為人們的生活和工作帶來(lái)了很大的便利,將云計(jì)算技術(shù)應(yīng)用到物聯(lián)網(wǎng)數(shù)據(jù)挖掘中,能夠提升其數(shù)據(jù)處理、分析、儲(chǔ)存、傳送能力,進(jìn)而有效促進(jìn)國(guó)民經(jīng)濟(jì)的發(fā)展,值得進(jìn)一步研究與推廣。
[1]謝楊.基于云計(jì)算的現(xiàn)代農(nóng)業(yè)物聯(lián)網(wǎng)監(jiān)控系統(tǒng)[D].成都:西南交通大學(xué),2015.
[2]吳邊.云計(jì)算中物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式的研究[J].價(jià)值工程,2013(18):15.
[3]褚翠霞.基于云計(jì)算平臺(tái)的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究[J].數(shù)字技術(shù)與應(yīng)用,2015,1(9):85.
Research on Data Mining of Internet of Things Based on Cloud Computing Platform
Liao Zhicong
GuangDong Planning and Designing Institute of Telecommunications Co., Ltd., Guangdong Guangzhou 510630
The data mining system based on cloud computing based on cloud computing has far-reaching significance for the development of current Internet of Things applications. After the simulation data mining experiment through Hadoop platform, it has also proved that this scheme has great feasibility.
cloud computing; data mining; Internet of things; model construction
TP311.13;TP391.44;TN929.5
A
1009-6434(2017)02-0145-02