(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽 421005)
數(shù)據(jù)采集層:利用python 網(wǎng)絡(luò)爬蟲、DataX、Sqoop 和ETL 等構(gòu)件,可以對大量的數(shù)據(jù)進行有效的收集;采用Flume、Kafka 等方法,進行了對流式數(shù)據(jù)收集。同時,基于數(shù)據(jù)結(jié)構(gòu)的不同,采用批量采集和流采集技術(shù)可以完成對結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的采集。
數(shù)據(jù)采集層按照數(shù)據(jù)源的類別來完成數(shù)據(jù)的收集,以數(shù)據(jù)的相關(guān)數(shù)據(jù)庫、文件等為基礎(chǔ)。完成網(wǎng)絡(luò)上的數(shù)據(jù)的爬蟲工作,以及數(shù)據(jù)采集、社交加粉等工作。
Hadoop 技術(shù)體系結(jié)構(gòu)包括HDFS、MapReduce、Hive、ZooKeeper、Zookeeper等,最基本和最關(guān)鍵的部分是由一個文件系統(tǒng)HDFS(Hadoop Distributed File System)來實現(xiàn)MapReduce。
K-means 聚類是最早期提出的一種聚類方法。由于其編程簡單、易于聚類和聚類的高效性,因此具有廣泛的適用性。然而在數(shù)據(jù)量不斷增加的情況下,K-means 聚類方法的聚類效率會明顯下降,而且錯誤也會增加。
K-means 聚類算法實現(xiàn)聚類的基本步驟如下:1) 負(fù)荷數(shù)據(jù)集N,選擇K 個群組中心為初始聚類中心。在進行聚類中心的選定時,可以采用多種方法進行分類,然而在大部分的情況下都無法一次選出最佳群集。在傳統(tǒng)的隨機抽取算法中,由于采用了隨機抽取的方法,往往無法直接獲得最好的結(jié)果,因此必須反復(fù)地選擇不同的簇,以獲得最佳的聚類中心。2)對各用戶數(shù)據(jù)和K 個群集的關(guān)聯(lián)程度進行運算,并按照所求的關(guān)聯(lián)性,將各用戶數(shù)據(jù)分別按最具關(guān)聯(lián)性的類別進行分組。3) 將各群集中心的全部數(shù)據(jù)平均化,以此為新的聚類中心。……