吳章光+陳寶健+吳為民
摘 要: 智慧城市讓城市基礎設施更智能、互聯和有效,智能家居為居民提供了人性化的智能服務。物聯網為智慧城市及智能家居建設提供了感知能力,物聯網的數據收集、云計算及其上的智能決策為其提供了堅實的基礎和可靠的保障。物聯網針對不同的數據類型需要采用不同的技術進行分析,管理人員使用不同的物聯網應用程序分析來自不同設備的數據,并整合相關數據,以便在智能家居應用程序中對可能的機器故障或緊急情況進行預測。數據挖掘技術需要解決實時數據處理技術、優化大數據及物聯網數據的異質性處理。基于此,本文提出了基于物聯網信息的數據挖掘新模式。
關鍵詞: 物聯網;數據挖掘;預測分析、
智能家居作為如今科技發展的重要方向之一,不僅能夠給我們帶來方便的生活,而且能夠顛覆我們對于傳統住宅的認知,越來越多的家庭都開始安裝智能家居系統。智慧城市是使用智能計算技術使得城市的關鍵基礎設施的組成和服務更智能、互聯和有效。對人力與社會資源和傳統及現代設施的投資,促進可持續經濟發展和高質量生活,同時通過提供參與治理的機會實現對自然資源的有效管理,這時一個城市就被稱為智慧城市。物聯網是智能家居與智慧城市網絡能力的基礎。物聯網包括傳感網、數據與內容、物品與傳感器、用戶與知識等。基于物聯網信息的數據挖掘通過網絡匯集感知對象和感知的單元,然后通過應用領域將實現更智慧的決策[1]。
一、物聯網技術概述
物聯網,就是基于實物的互聯網,它與無線通信、智能移動設備、大數據、處理器、傳感器等領域有緊密的聯系。物聯網和云計算為智慧城市或智能家居提供了核心技術應用。云計算通常在分布式環境中提供共享計算資源和數據。云計算依賴于跨越多個領域和地理區域的多個數據中心。智慧城市和數字城市在協作環境中檢索信息并將其存儲到云端。
物聯網層結構是一種便于設計和開發物聯網解決方案的架構,不僅可以收集和監控數據,而且可以實時響應,警報和通知臨床決策支持。在物聯網監控解決方案中,典型的設置包括智能傳感器,微控制器,網絡,普遍存在的設備和底層的軟件服務。其中使用傳感器,微控制器,MQTT和云計算來構建物聯網。該架構的每個組件使用最有效的硬件和軟件。每個組件都是可替換的,可以根據可用的替代方式進行替代。?該物聯網模型由以下四個層組成[2]:
(1)感測層
底層是物理設備所在的感測層,它們彼此相連形成傳感器網絡層。感測層的設備有智能傳感器,執行器,智能手機,家用電器等。物聯網從智能傳感器收集數字數據,從攝像機傳輸數據,從GPS設備收集交通路由信息。
(2)邊緣計算層
在其上的層稱為邊緣計算層,邊緣計算位于傳感器網絡的邊緣,通過處理源附近的數據來優化云基礎設施,它可以對數據進行預處理和過濾,以節省帶寬和處理能力,只有優化處理后的數據才被傳輸到云,在那里存儲,分析和可視化。在邊緣計算層中,使用移動傳感器網絡、ZigBee、藍牙等,通過微控制器連接傳感器,允許發送和接收數據。微控制器將模擬信號轉換為數字值,并控制所有設備和傳感器。
(3)聯絡層
不同的物聯網設備通過特殊類型的物聯網協議連接,換句話說,機器對機器(M2M)是使用一種物聯網協議來支持實時通信。流行的M2M協議包括MQ遙測傳輸(MQTT)和約束應用協議(CoAP)。MQTT被設計為一個非常輕量級的使用TCP的發布/訂閱消息傳輸。它對于需要較小代碼占用空間和/或網絡帶寬非常重要的遠程位置的連接非常有用。CoAP是一種專門的Web傳輸協議,用于具有UDP協議的物聯網中的約束節點和受限網絡。
(4)應用云
云計算可以用于遠程存儲物聯網數據,這擴展了物聯網解決方案的范圍,以更分布和更動態的方式處理真實世界的事情。可以使用專有需求設置云服務器。然而,諸如Pachube,Nimbits和ThingSpeak等軟件包提供直接的API,微控制器可以使用這些軟件來發布數據。數據存儲在云上可以利用臨床決策支持算法,檢測異常,并建立觸發器發送警告,警報或信息。這可以通過使用第三方服務或使用M2M協議來觸發傳感器的動作來實現。
二、基于物聯網的數據挖掘技術
物聯網從傳感器,智能手機,可穿戴設備或其他啟用互聯網的設備收集大量數據,并將其存儲在云端。要將數據轉化為可利用的決策數據,必須使用合適的數據挖掘技術進行分析。例如,智能家居的傳感器數據用于老年人或殘疾人的安全監控或家庭自動化,或者分析交通數據以計算救護車的最佳路線。物聯網數據通常是異構的,以高速和大批量生成,需要實時分析。數據可以是連續數字形成溫度傳感器,或從相機或文本流式傳輸數據,數據必須以適當的方式進行預處理和相關,以獲得有意義的結果。因此,傳統的數據挖掘技術不足以分析物聯網生成的數據。
在不同的空間和時間分辨率下從復雜的感測環境中提取有用的信息是人工智能的一個具有挑戰性的研究問題。為了檢測物聯網數據中的有效模式,需要使用合適的數據挖掘技術來分析數據。數據挖掘具有高度的域特異性。物聯網平臺在預測最佳流量路由或檢測即將失敗并需要維護的機器時可能會采用不同的方法,例如,一種預測維護應用程序,需要在發生故障之前檢測機器故障,以便在生產中斷之前進行更換,從溫度,扭轉或磨損等機器收集和分析傳感器數據。家庭安全應用程序可能會使用移動偵測器和相機數據來檢測可能的入侵者。兩個系統都使用不同類型的數據,并對不同的事情進行預測。
此外,在分析物聯網數據時,物聯網的某些特性可能影響其數據分析:①熱插拔物聯網設備的應用,這意味著需要對新的數據源進行分析,并產生新的數據格式,例如,電子衛生保健應用程序可以測量血壓和血糖水平,使用該解決方案的患者有一個新的健身追蹤器,可以將健身數據添加到電子衛生保健解決方案中;②設備可能會停止發送數據,例如,一輛汽車正在進入隧道,并丟失GPS信號,或者傳感器因為電池電量不足或無線通信中斷而停止發送數據;③傳感器或執行器可以是幾種應用的一部分,例如,運動檢測器可用于打開自動門并檢測未經授權的入侵者,如果檢測器發生故障,則會影響多個應用;④物聯網應用程序可能必須在不同的情況下顯示不同的行為;例如,家庭安全系統必須能夠在白天和黑夜之間進行區分,因為在白天很多人類活動被檢測到,在晚上幾乎沒有。endprint
在物聯網應用中,正常數據流量的偏差可能被解釋為異常,物聯網解決方案可能會發出虛假警報事件。用于物聯網的數據挖掘技術需要能夠適應動態環境或改變的數據流,以避免在每次添加或刪除傳感器時重新設計數據挖掘規則。機器學習技術非常適合處理數據流中的模糊性,并且可以在環境變化時快速適應。機器學習是人工智能的一個分支,旨在模擬計算機上的人類學習,而不需要明確編程。機器學習技術有幾個有利于物聯網的數據挖掘特點:①機器學習技術從歷史數據中學習數據挖掘規則,無需開發人員手動編程;②機器學習方法可以繼續學習新的規則,例如添加新的智能設備;③許多機器學習方案計算概率,這使得它們對數據流中的小變化是穩健的,例如,當設備停止發送數據并且還有其他發送數據時,概率僅稍微改變,并且不會發出假陽性。
三、基于物聯網的數據挖掘架構
數據挖掘是高度迭代的,一些步驟可能會經歷很多次。數據挖掘的主要步驟有:通常分為數據收集、數據預處理、數據挖掘和預測分析階段[3]。
1、數據收集
物聯網中的數據收集發生在設備或事務級別。智能傳感器、智能手機或平板電腦測量與環境不同的價值,通常將其傳輸到物聯網云平臺進行分析和存儲。
2、數據預處理
物聯網設備會收集到大量數據,其中的數據格式并不全都適合于數據挖掘,將所有數據傳輸到云可能并不可行。因此,數據清理是獲得良好效果的關鍵步驟。為了節省帶寬和計算能力,只有一些觀察點被傳輸到云,通常在邊緣層將數據存儲、預分析并進行預處理。
預處理步驟包括:①不同的傳感器收集不同格式的數據,通過數據轉換使之具有一致的數據格式并統一數據;②重復數據刪除和異常值去除;③選擇實體分辨率及相關性過濾是獲得良好的物聯網應用性能,例如,一個應用程序可能只需要行程的源和目標坐標,對于另一個應用程序,整個路由可能是相關的;④特征選擇是重要的預處理步驟,并非所有數據對于特定的數據挖掘任務都是有用的,特征選擇將意味著選擇用作數據挖掘算法的輸入的觀測點。
3、機器學習技術
當數據分析規則太復雜或者分析規則太多時,我們就會采用了機器學習這一種數據挖掘技術。機器學習模仿人類學習,人類從經驗中學習,機器學習技術從過去的歷史數據中學習,對未來事件做出預測。例如,預測維護應用程序使用歷史傳感器數據來收集關于智能建筑物狀態的信息,來預測空調系統或電梯是否將失效。機器學習分為監督,半監督和無監督學習。監督方法用于分類和回歸,這種方法需要標記數據進行學習。典型的監督學習者包括貝葉斯模型,決策樹感應,支持向量機(SVM)和人工神經網絡(ANN)。如果不使用標記數據,則采用無監督方法,當少量標記數據和大量未標記數據時,使用半監督方法。為了對機器故障或患者出現癥狀進行預測,必須對數據進行分類,然后,機器學習技術將針對新的不可見的數據進行分析并測算,并測量目標機器的性能。
4、預測分析
在預測分析階段,必須選擇合適的數據挖掘方法,多個數據源集必須與預測問題相關,只有一個數據源的數據可能不足以進行有意義的預測,例如,在基于物聯網的醫療保健解決方案中,單一的血液水平數據組可能不足以用于預測來確定患者是否患有癥狀,此類數據挖掘必須同時分析與運動相關的數據,以便對人的健康狀態做出可靠的預測。數據挖掘相關分析技術有很多,常用的技術是時間序列分析。機器學習技術也可以用于相關和預測分析,許多機器學習技術計算概率,這種技術適合于易變的物聯網環境。此外,數據挖掘生成報告的數據通常要求是可視化的。
四、基于物聯網的數據挖掘面臨的問題
物聯網最大的挑戰之一是缺乏使不同設備的互操作性和互聯網連接困難的標準。為了實現標準化互聯,已經有工作組建立了諸如消息隊列遙測傳輸和高級消息隊列協議的標準協議,這些輕量級的面向消息的中間件能夠解決大量的數據轉換問題。此外,許多智能設備的資源有限,帶寬和電池壽命有限。移動網絡覆蓋也是一個問題,這對醫療保健物聯網應用尤為重要。安全仍然是物聯網的一個主要問題,因為許多設備的設計安全級別較低并容易受到網絡攻擊,當前通過加密和入侵防御機制確保安全方面仍具有挑戰性[4]。隱私是一個主要的問題,特別是在收集了大量個人資料的物聯網云。由于物聯網設備的局限性和物聯網數據挖掘所面臨的其它問題,已有隱私保護數據挖掘技術在實際運用中通常不被采納。
參考文獻
[1] 劉思遠. 數據挖掘在社區智能家居系統中的應用研究[J]. 電子科技大學學報,2016(2): 56-58.
[2] Ma J, Nguyen H, Mirza F, et al. TWO WAY ARCHITECTURE BETWEEN 物聯網 SENSORS AND CLOUD COMPUTING FOR REMOTE HEALTH CARE MONITORING APPLICATIONS[J]. 2017.
[3] Wlodarczak P, Ally M, Soar J. Data mining in 物聯網: data analysis for a new paradigm on the internet[C]//Proceedings of the International Conference on Web Intelligence. ACM, 2017: 1100-1103.
[4] 陳源泉.智慧城市中的大數據挖掘與應用[J].工程技術:引文版[J]. 2016(4):78-79.
作者簡介:吳章光(1972- ),男,福建福清人,副教授,碩士;研究方向:電子商務,數據挖掘,系統設計與分析。
陳寶健(1963- ),男,講師。吳為民(1970- ),男,副教授。endprint