黃 鑫
德宏師范高等專科學校,云南 芒市 678400
?
物聯網數據挖掘中Apriori算法的實踐應用研究
黃 鑫*
德宏師范高等專科學校,云南 芒市 678400
近年來,由于物聯網概念的出現,在給人們日常生活來帶便利的同時,也在產生的海量的數據存儲,物聯網數據的不斷增多,加大了用戶在龐大的數據中獲取想要的信息的難度。因此,對于物聯網中數據挖掘能力的研究成為當下最熱門的話題。
Apriori算法;物聯網;數據挖掘
隨著物聯網概念的不斷發展,通過物聯網的農業、交通、物流等方面進行的活動都愈發廣泛,在不少領域中物聯網都有著良好的發揮。物聯網可以通過對數據的存儲和分析,解決物聯網過程中產生的海量數據,在此之中數據挖掘的意義就顯現了出來。由于物聯網數據的零散性和無規律性,在物聯網數據挖掘之前,必須先對物聯網數據進行量化整理,導致了數據挖掘難度增大。而Apriori算法由于其在規則關聯運算中的優勢,常被用于物聯網的數據挖掘,通過Apriori運算,可以更好的關聯用戶數據,完成對于物聯網海量數據的挖掘。
(一)物聯網數據挖掘的特點
物聯網技術和互聯網技術的不斷發展,在用戶收集和使用數據等方面取得了巨大的成功,但在此過程中,會產生海量的數據,難以被歸納和整理。在物聯網的使用過程中,通過傳感設備,將采集到的信息數據向物聯網數據中心傳輸。為了滿足用戶對于數據的使用,數據中心會對所產生的數據進行保留,而隨著歷史數據的不斷積壓,數據中心的負荷也不斷增加。又由于物聯網的涉及范圍的廣泛,在使用過程中所產生的數據種類也更加復雜。由于傳感器的不同類型,如GPS傳感、RFID傳感等傳感終端都可以構成物聯網,而不同傳感終端所使用的語言、格式也不相同。
(二)物聯網海量數據挖掘
在物聯網海量數據的研究過程當中,RFID信息數據占有主體地位。通過對研究對象的數據挖掘,可以在海量數據中獲得有價值的信息。如在RFID傳感終端中,可以得到EPC既標簽的標識碼、標簽的地點和時間等數據。由于物聯網的海量數據在多方面存在著局限性,對于物聯網海量數據的挖掘具有巨大的難度。而通過RFID數據分析,對于物聯網商業的決策方式有著非常重要的影響。
(一)數據挖掘的系統整體結構
數據挖掘系統是由數據存儲、數據挖掘算法、數據挖掘的任務處理等層面構成的,數據挖掘系統以Master為主控節點,通過與用戶進行交互、管理整個系統。而存儲在同一個部分的節點中的Map/Reduce化數據挖掘算法可以更好的實現數據挖掘的高效性。通過NameNdoe接受用戶的相關請求,將用于返回存儲數據的DataNode的IP傳送給用戶,并將信息通知通過網絡渠道發送給其他接受副本信息的DataNote。
(二)數據挖掘的算法層面
Map/Reduce化深入到了數據挖掘的常用算法中,將Apriori算法進行Map/Reduce化可以獲得分布式并行的關聯規則算法。在系統數據挖掘算法層中,常用算法都集中在該層面的算法節點里,通過相應的平臺,通過Msater主控程序節點進行相關的管理與使用,并根據不同的客戶需求,對相關節點進行傳送算法。
(三)數據挖掘的任務處理
數據挖掘的任務處理層面,是整體系統的核心層面。Master可以通過調動空閑的DataNode節點,將其導入空閑節點列表中,通過用戶的不同請求,獲取DataNote各個數據模塊的存儲信息,通過采取相應的算法,將數據進行挖掘計算,再將挖掘計算后的成果傳送給DataNode節點,根據計算任務,通過HDFS服務器傳送給Master,再反饋給用戶。這個過程中因為取消了數據重組與傳送的過程,所以在整個系統的運行過程中,效率都會大大提高。
Apriori算法是一種挖掘布爾關聯規則頻繁項集的算法,在物聯網數據挖掘領域中是最常用也是最有效的算法。所謂的關聯規則挖掘,就是指在關聯數據當中,針對用戶個人的資源檢索,根據某一特定因素進行判斷和分析,保證系統整體的行為模式正常進行。在此之間,從許多看似無關的項里分析其內在關聯性,在物聯網的數據挖掘中具有重大意義,而在事物中找出頻繁項集和項集之間的關聯性,就需要運用到關聯規則運算。Apriori算法通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集,讓Apriori算法在數據的關聯過程中,向數據庫中存入內存,將其實現在數據硬盤之中。使用逐層替代的方法,通過K項集進行(K+1)項集的探索,對數據集進行第一層掃描,并生成L1項集,利用L1項集再對深層次的L2項集進行探索,直到頻繁項集為空集。由于任意子集都是頻繁項集,可以將其用來壓縮并處理搜索空間,加快頻繁項集的生成速度,經過K次循環搜索,數據挖掘通過操作連接項,使LK-1產生候選集CK,在此基礎上進行連接操作,讓CK產生頻繁項集LK,從而按照Apriori的性質進行操作。這種算法固然具有其優越性,但卻需要進行多次掃描,才能將所有頻繁項集進行逐層篩選,由于物聯網的海量數據特性,這種算法在物聯網方面的運用有其局限性,無法在物聯網數據挖掘領域發揮作用。
通過對于物聯網數據挖掘的研究,可以優化物聯網所存在的弊端,提升物聯網的實際運用能力,通過Apriori算法的進一步使用,可以對用戶的個人信息、學歷、搜索偏好等進行預估,并給用戶補充其可能想要的相關資源。
[1]何清.物聯網與數據挖掘云服務[J].智能系統學報,2013,3(8):182-183.
[2]周芳.基于關聯規則Apriori算法的物聯網海量數據挖掘系統研究[J].河北北方學院學報·自然科學版,2015,31(1):15-16.
[3]彭春燕.基于物聯網的安全架構[J].網絡安全技術與應用,2011,5(2):13-14.
黃鑫(1981-),男,漢族,湖北武漢人,研究生,德宏師范高等專科學校,講師,研究方向:數據挖掘及物聯網。
TP
A
1006-0049-(2017)15-0245-01