張超群+孟海東
摘 要:聚類分析算法在數據挖掘領域、設備學習領域以及統計學領域等均有著重要的研究和應用意義,同時在實際的應用中也有著廣泛的地位。對此,本文詳細分析數據挖掘中聚類分析算法及應用。
關鍵詞:數據挖掘;聚類分析算法;應用
DOI:10.16640/j.cnki.37-1222/t.2017.11.148
聚類分析算法是一種將給定數據實現集劃分為多個類別的過程,同時同一種聚類當中數據的對象有著較高的相似性,不同的聚類之間的數據對象具備較低的相似度。一般情況下,就使用距離來看,聚類的數據之間有著較高的使用特性,能夠讓數據使用者更快的掌握更多的可實用性數據。對此,探討數據挖掘中聚類分析算法及應用具備顯著意義。
1 聚類分析算法
1.1 數據挖掘對聚類分析算法的主要要求
就當前的數據挖掘技術以及數據挖掘技術的應用而言,當前對聚類分析算法的主要要求有以下幾點:(1)可拓展性。聚類分析算法必須對大數據、小數據都能夠實現有效的計算和劃分,大至網絡數據,小至企業人數數據等;(2)處理不同類型的數據功能[1]。聚類分析算法必須兼備不同的類型數據處理功能,例如能夠處理經濟數據也可以處理工程類數據;(3)發現任何關聯性的聚類。聚類分析算法不僅能夠發現具備類似大小、密度的球狀聚類或圓形聚類,還能夠發現各種任意形狀但是具備一定類似性的聚類;(4)降低用戶的輸入參數兩。用戶在輸入參數量時必然帶有一定的主觀性,所以在參數量輸入得夠多時則整體分析結果也就更加主觀化,整體分析結果也就顯得越發不準確。對于聚類質量而言,輸入參數量的大小有著直接性的影響,所以應當盡可能的降低用戶的輸入參數量,從而最大程度改進聚類分析算法的分析效果,同時降低用戶的分析負擔;(5)對干擾數據具備較強處理能力。在實際應用過程中,想要真正展現聚類分析算法的使用能力,就必須最大程度降低干擾數據的影響,借助聚類分析算法對干擾數據給予針對性的處理,促使處理對象當中的質量差盡可能控制到最低[2];(6)盡可能降低對輸入數據順序的敏感性。衡量聚類分析算法的優劣勢最重要指標之一就是對輸入數據的順序是否存在敏感性,如果不存在敏感性,則說明聚類分析算法的使用特性較好,反之則較差;(7)高維問題。聚類分析算法在處理低維數據以及高維數據的過程中都必須具備較好的性能;(8)約束聚類。聚類分析算法能夠在特定的條件以及相應的規律之下約束聚類的質量,從而確保聚類之間有著較高的使用價值相似性;(9)高度可用性和可解釋性。聚類分析算法應當和特定的解釋以及相應的目標之間有著較高的相似性,這也是確保聚類分析算法實際使用能力的直接性表現。
1.2 主要的聚類分析算法
在實際的應用過程中,因為數據類型、目的以及要求之間的不同,對聚類分析算法的需求也存在明顯的差異,所以在實際的應用過程中應當選擇適當的聚類算法,這也是非常重要的。應用多種聚類分析算法使用在同一個數據集當中,能夠分析出數據潛在的使用價值以及可買搜狐性的特征,并為進一步的數據挖掘以及探索提供有力基礎。典型的聚類分析算法主要包含基礎的的密度方法、層次方法、劃分方法以及基于網格的方法。
劃分方式:給予一定具體的數據集,例如其中包含一億個數據對象,劃分的方式就是將數據集劃分為多個聚類,例如100個聚類,每一個聚類都應當符合下列的兩個條件。首先,每一個聚類至少包含一個數據對象;其次,每一個數據對象只能夠屬于一個聚類。簡單而言,就是一億個數據對象按照相應的規律被劃分在100個聚類當中,同時每一個數據只能夠存在在一個聚類當中。但是,在一些模糊劃分的方式當中能夠適當的放寬限制程度。所構建的聚類應當成為最優化的客觀劃分,進而促使同一個聚類當中對象的距離最小,不同的聚類之間對象的距離應當盡可能的擴大。聚類的相似度高低一般可以作為衡量劃分方法本身質量的直接性標準,有效的劃分方式可以促使同一個聚類當中的數據具備較高的相似性,而不同的聚類之間具備最低的相似度,最常用的劃分方式主要為K-means和K-medoids算法。劃分方式必須具備處理數據集的一次性裝入內存功能,從而最大程度的限制在大數據集當中多方面應用。劃分方式需要按照用戶的需求劃分為多個個數據,這也會導致主觀判斷的因素對聚類質量形成應想,劃分的方式只是用某一個固定的規則進行聚類,就會導致聚類的形狀不規律,聚類的結果準確率就比較低。
層次方式的輸出能夠為數據對象形成一個聚類樹,層次方式分為自上而下、自下而上的分析方式。但是無論是哪一種方式,其都可以獲得在不同粒度之上的多層次聚類結構,但是也存在相應的缺陷,例如在分裂以及合并之后,無法再回溯之前,這也缺陷同樣也具備相應的積極性,所以在分裂以及合并的過程中,必須要考慮不同選擇而導致組合的分裂問題。
2 聚類分析算法的應用
聚類分析算法就是從給定的數據當中探索出與數據對象具備關聯性使用價值的其他數據,研究人員使用這一關聯方式能夠對聚類當中的數據對象實現統一性的分析處理。應用聚類分析作用在數據集當中,能夠準確的識別出數據集的稀疏、稠密程度,從而更好的掌握整體的分布狀況,并掌握數據屬性之間的價值關聯性。在商業領域當中,聚類分析能夠幫助營業部門更好的掌握潛在的用戶特點以及群體關聯性,并按照不同的特性以及消費心理制定針對性的營銷方式,從而提升營銷的成功性。在生物學的領域當中,聚類分析法主要是應用在規劃動植物的層次結構當中,并按照基因的功能實現分類,并對人類的基因構造有更加深入和全面的掌握。在經濟領域當中,聚類分析算法能夠對不同地區的經濟發展情況進行整體性評價,并且對同一個地區的不同城市之間經濟發展的能力實現準確性規劃。聚類分析算法還能夠應用在挖掘網頁信息當中的潛在價值信息之中,在數據挖掘應用的領域中,聚類分析算法既能夠成為一個獨立的使用工具,還能夠對數據對象實現合理的分類和規劃,從而作為其他數據挖掘算法的首要處理手段,讓整個數據挖掘過程更加有效。
3 結語
綜上所述,伴隨著數據挖掘技術的快速發展,企業、部門必須時刻掌握全新的數據挖掘技術,其中也必然包含聚類分析算法,借助聚類分析算法,快速的掌握大量想關聯并且有使用價值的信息數據,從而實現數據分析和數據挖掘的目的。
參考文獻:
[1]焦亞召.基于多核函數FCM算法在數據挖掘聚類中的應用研究[D].昆明理工大學,2015.
[2]浦慧忠.基于數據挖掘的一種聚類分析方法在PDM系統中的應用研究[J].計算機與數字工程,2016,44(11):511-512.