李虎群

【摘 要】本文提出基于云計算的物聯網數據挖掘模型,以云計算作為技術支持平臺,在構建面向物聯網的分布式時空數據庫的基礎上,搭建面向物聯網海量數據的數據挖掘模型。
【關鍵詞】物聯網;云計算;數據挖掘;并行算法
Things cloud computing data mining techniques for Applied Systems Analysis
Li Hu-qun
(Handan Purification Equipment Research Institute Handan Hebei 056107)
【Abstract】In this paper, data mining model based on cloud computing networking to cloud computing as a technical support platform, built on a distributed object-oriented networking on temporal databases, networking massive data structures for data mining models.
【Key words】Things;Cloud computing;Data mining;Parallel algorithms
根據物聯網中數據的特點,本文提出一種基于云計算的物聯網數據挖掘模型。首先結合海計算技術建立基于云計算存儲構架的面向物聯網的分布式時空數據庫,用以存儲物聯網中的數據,以此數據庫為基礎構建保存歷史記錄的面向主題的數據倉庫。在此基礎上,構建面向物聯網的數據挖掘框架,結合并行數據挖掘算法,完成各項數據挖掘任務,包括數據抽取、分類預測、聚類、關聯規則發現等。
1. 物聯網數據挖掘的關鍵問題
1.1 物聯網系統中數據的特點。
(1)數據量大。每個物聯網系統擁有成千上萬甚至更多的傳感設備,這些傳感設備不斷向數據中心傳輸采集到的數據。數據中心不僅要存儲當前接收到的采集數據,同時需要保存歷史數據,用以支持對象的狀態跟蹤、數據統計分析及數據挖掘。因此,物聯網系統中數據挖掘任務面臨的第一個關鍵問題是數據量大。
(2)數據類型復雜。物聯網系統監控的對象種類繁多,包括交通、生物、森林、建筑等。不同監控對象所采集的信息各不相同,例如交通系統中需要采集視頻信息,醫學監控系統需要采集諸如脈搏、血壓等生理信息以及醫學立體影響信息等。可見物聯網系統采集的數據類型復雜,包括文本類型、圖像類型、視頻類型等。
(3)數據具有異構性。物聯網系統中包含多種傳感終端,如GPS傳感終端、RFID傳感終端、視頻傳感終端、無線傳感器等。不同的傳感終端采集到的數據的格式和語義均不相同。數據的異構性為數據存儲與挖掘增加難度。
(4)高度動態性。每個時刻都有不同的傳感終端添加到物聯網中或者從物聯網中移除。隨著傳感節點的增加,其采集到的數據要插人數據庫中。同樣當一個傳感節點從物聯網中移除后,數據庫不應再記錄該傳感節點采集到數據。一個物聯網系統含有大量的傳感節點,每個傳感節點動態變化頻繁,因此物聯網系統中的數據具有高度動態性。
(5)時空特性。物聯網系統的傳感終端分布在不同地區,每個傳感終端采集到的數據均反應該時刻監控對象的狀態及其他信息。感知數據在特定時間和特定空間內才有意義,如果不在這個地點或過了這個時間,數據的意義可能就不大了。因此,復雜的時空特性是物聯網系統中數據的一個顯著特點。
(6)不完整性。物聯網系統的傳感終端在無人工監控狀態下工作,每個傳感終端隨時可能受到自然因素或者人為因素的攻擊,包括雷電破壞、人工惡意破壞等,導致傳感終端數據接收不完整。另一方面,盡管傳感終端可以被廣泛的部署在不同地理位置,但是依然無法覆蓋每一個角落,因此空間數據收集不完整也是物聯網系統數據的特點之一。
1.2 物聯網對數據挖掘的要求。
(1)實時高效數據挖掘。物聯網系統中任何一個控制端均需要對環境進行實時分析并做出正確決策。因此實時、高效是物聯網系統對數據挖掘最為關鍵的要求之一。
(2)分布式數據挖掘。物聯網計算設備和數據天然分布,不得不采用分布式并行數據挖掘。
(3)數據質量控制。多源、多模態、多媒體、多格式數據的存儲與管理是控制數據質量,獲得真實結果的重要保證。
(4)決策控制。挖掘出的模式、規則、特征指標用于預測、決策和控制。
(5)挖掘任務。主要包括數據抽取、分類預測、聚類、關聯規則發現等。
圖1 基于云計算的物聯網數據模型框架
1.3 物聯網環境數據挖掘存在的挑戰。
(1)數據挖掘算法的選擇。選擇合適的算法,并采取適當的并行策略,然后才能提高并行效率。因此算法的設計變得非常重要,參數的調節變得必不可少,而且參數的調節直接影響最終的結果。
(2)不確定性。首先數據挖掘任務的描述具有不確定性,數據采集和預處理也是帶有很多的不確定性。其次是數據挖掘方法和結果有不確定性。最后由于每個用戶所關注的最終的挖掘目標不一樣,這就導致了對挖掘結果的評價也有不確定性。不確定性是數據挖掘在物聯網系統中面臨的最大挑戰。
(3)可信性與安全性。在云計算環境下做數據挖掘會導致數據挖掘云服務軟件可信性問題。首先是服務的正確性和服務的安全性;其次是服務的質量,服務質量由可用、可靠和商l生能這三個方面來度量。
2. 基于云計算的物聯網數據挖掘模型
基于云計算的物聯網數據挖掘模型構架分為五層,分別是物聯網數據接入層、數據集成層、數據挖掘平臺層、業務控制層和交互層,如圖1所示。
2.1 結構層次。
(1)物聯網數據接入層。 物聯網接人層實現數據采集、提取關鍵數據、將關鍵數據傳輸到數據集成層作用。物聯網數據接人層包括各種傳感終端,如GPS傳感終端、RFID傳感終端、視頻傳感終端、無線傳感器等。利用這些傳感終端監控現實世界對象,采集反應監控對象的狀態及其他信息并發送到相應的海計算節點。采集數據包括文本數據、圖像數據、視頻數據等。海計算節點對傳感數據進行預處理,提取 鍵數據并傳輸到數據集成層,即面向物聯網的分布式時空數據庫。
(2)數據集成層。 數據集成層存儲物聯網系統傳感終端采集到的關鍵數據,為數據挖掘提供數據源。面向物聯網的分布式時空數據庫存儲物聯網系統的關鍵數據,并為數據倉庫的構造提供數據源。數據倉庫中的數據是按照主題來組織的,存儲的數據可以從歷史的觀點提供信息,面對多數據源,經過清晰和轉換后的數據倉庫可以為數據挖掘提供面向歷史的發現知識的數據環境。
(3)數據挖掘平臺層。 數據挖掘平臺層是整個構架的核心之一,提供數據挖掘階段業務需要的各個模塊,并具有較細的粒度。如數據預處理,模式評估,數據挖掘等功能模塊。這一層的主要任務是實現各種任務過程中算法的并行化,并將挖掘結果返回給業務控制層。
(4)業務控制層。 這一層提供業務邏輯并實現對各種業務流程的控制和調度。根據用戶提交的業務請求,任務控制調度模塊結合領域知識庫指導工作流程控制模塊控制和調度數據挖掘層的多個模塊來完成挖掘任務,并將挖掘結果返回給交互層。
(5)交互層 這一層主要提供系統和用戶之間的接口。通過提供具有良好表現形式的圖形界面,使得用戶可以登錄系統定制各種細粒度的業務,查看或者保存各種輸出結果。
2.2 功能模塊。
2.2.1 物聯網數據接入層模塊海計算模塊。 海計算模塊包含大量海計算節點。主要用以存儲傳感終端采集的各種數據,并對數據進行預處理,主要包括去除噪聲數據和重復數據、處理不完整數據、識別并提取關鍵數據、統一數據格式。最后將預處理后的關鍵數據傳輸給數據集成層。在物聯網數據接人層對數據進行預處理有利于節省網絡帶寬,同時有利于數據集成層的存儲和進一步應用。
2.2.2 數據挖掘平臺層模塊。
(1)并行數據挖掘算法模塊:為數據挖掘各種任務提供并行算法。作為數據挖掘引擎,包含一個能夠提供各種基于云計算進行并行數據挖掘算法的庫,用于完成各種數據挖掘任務。
(2)并行ETL模塊:對數據進行預處理。輸入的數據來源于面向物聯網的分布式時空數據庫與數據倉庫,為數據挖掘過程進行數據清理,提取,轉換和加載。
(3)模式評估模塊:對產生的模式進行評估。符合用戶要求的結果存人領域知識庫,領域知識庫可以輔助業務控制邏輯指導數據挖掘過程。
(4)數據提取模塊:根據挖掘任務的不同,在面向物聯網的時空數據庫或數據倉庫中提取相關的數據。
2.2.3 業務控制層模塊。
(1)任務調度控制模塊:響應上層的業務模塊,對完成業務所需的子業務進行調用、管理,并通過調用底層模塊完成業務。
(2)工作流程控制模塊:對業務狀態進行監控、管理。可將具體的信息參數返回給本層的任務調度控制模塊。
2.2.4 交互層。
(1)用戶管理模塊:實現用戶身份的識別以及相應權限的設置,同時也包括對用戶登錄或者注銷等常用的管理。
(2)業務模塊:實現細粒度的用戶業務需求的提交。用戶提交的各種業務通過業務模塊得到。
(3)結果展示模塊:實現用戶對業務結果的查看,分析和保存等功能。用來將系統的返回結果交付給用戶。
3. 結論
數據挖掘是物聯網應用的重要環節,針對物聯網數據的特點,本文提出一種基于云計算的物聯網數據挖掘模型。其中,數據挖掘平臺是整個模型的關鍵。下一步的工作重點在于設計各種面向物聯網的數據挖掘算法的并行化,以完成物聯網的各種數據挖掘任務。
參考文獻
[1] 王瑞剛.物聯網主要特征與基礎理論研究[J].計算機科學,2012,39(6A1:201~203.
[2] 李志寧.物聯網技術研究進展[J].計算機測量與控制,2012,20(6):1445~1448.
[3] Arnon Rosenthal,Peter Mork.Cloud computing:A new business paradigm for biomedical information sharing[J].Future Generation Computer Systems,2010,26(7):947~970.
[4] Zhikui Chen,Haozhe Wang.A Context-Aware Routing Protocol on Internet of Things Based on Sea computing Model[J].Journal of Computers,2012,7(1):96~105.
[5] Bin Liu,Shu-Gui Cao.Machine Learning and Cybernetics[C].International Conference on Machine Learning and Cybernetics.Guilin,China,2011.40~44.
[6] Hong Yuehua,Xu Shuang,Wu Huajian.Study on distributed data mining model in Wireless Sensor Networks[C].International Conference on IntelligentComputingandIntegratedS-stemsGuilin,China,2010.866~869.
[文章編號]1619-2737(2015)05-22-359