楊麗君
(新疆工程學院信息工程學院,烏魯木齊 830091)
云計算作為新一代數據處理與存儲技術,實現了數據的快速處理與移動應用[1]。由于海量的數據信息深度挖掘問題已經成為一個急需解決的難題,因此,設計了一種基于云計算的數據挖掘聚類算法。數據挖掘聚類指的就是盡可能復用前人已經完成的人工識別工作,從而提高工作效率。解決形式上的數據挖掘聚類問題并不困難,最簡單直接的辦法就是為各種基本數據格式兩兩之間開發一個轉換器,因為流行的數據格式數量不多,并且轉換規則明確,這是一個只要投入一定人力就能解決的問題[2]。但語義上的數據挖掘聚類比較復雜,因此,本文進行基于云計算的數據挖掘聚類算法研究。
考慮到傳統的數據挖掘聚類算法已經不能滿足對海量數據高效、準確挖掘聚類的要求[3]。因此,利用云計算數據庫來存儲數據并對這些數據進行智能挖掘成為需要重點研究的課題。在基于云計算的數據挖掘聚類算法研究中,首先,確定數據挖掘聚類的白化權函數,進而實現基于云計算的數據挖掘聚類。
白化權函數作為基于云計算的數據挖掘聚類算法中最重要的指標,必須確定數據挖掘聚類的白化權函數才能保證基于云計算的數據挖掘聚類算法的準確性。本文采用這種方法確定數據挖掘聚類的白化權函數。設確定數據挖掘聚類的集合為數據挖掘聚類的白化權函數的計算公式為:

在公式(1)中,w、c為數據挖掘聚類的壓縮函數,f(x)為未知參數,但均為實數。為數據挖掘聚類的向量、和輸入數據挖掘聚類向量x的點積。根據數據挖掘聚類的概率質量函數最大值與最小值削減和合并結果調整聚類中心數目,當聚類中心數目保持穩定或滿足迭代結束條件時停止計算。
根據數據挖掘聚類的白化權函數的確定,選擇一個可以準確評價基于云計算的數據挖掘聚類算法的指標。在數據挖掘聚類迭代過程中,隨著聚類中心的數目不斷減少,各個聚類中心的位置也會隨之發生變化。必須運用云計算技術建立數據挖掘聚類數據庫,將聚類中心的位置整合數據的形式存儲在數據庫中。運用云計算技術建立的數據庫是對海量數據挖掘聚類的集成與管理,將大量類型相同的海量數據挖掘聚類構成同構數據庫。再通過數據挖掘聚類迭代過程不斷地位移,最后剩下的聚類中心的坐標就已經能夠非常接近真實的聚類中心。基于云計算的數據挖掘聚類算法可以最大限度的提高數據挖掘聚類覆蓋率,實現基于云計算的數據挖掘聚類。
為驗證基于云計算的數據挖掘聚類算法的有效性,通過對比實驗的方法對比基于云計算的數據挖掘聚類算法與傳統的數據挖掘聚類算法的聚類覆蓋率,設置傳統的數據挖掘聚類算法為對照組。將集成化數據均衡分組,選用25臺計算機構成并行計算環境,為確保實驗的公正性,所選用的服務器處理器統一為IntelCBR1S350,主頻為1.98GHz。
根據上述設計的仿真實驗,統計實驗結果,如下圖1所示。

圖1 數據挖掘聚類覆蓋率對比圖
通過圖1可得出如下的結論,本文設計的基于云計算的數據挖掘聚類算法的聚類覆蓋率高于傳統的數據挖掘聚類算法,可以實現數據挖掘聚類。
隨著云計算環境下計算機聯網的逐步實現,數據挖掘的聚類問題顯得越來越重要。基于云計算的數據挖掘聚類算法是針對數據挖掘進行聚類的最實用和最可靠的方法。針對基于云計算的數據挖掘聚類算法的研究可以大幅度提高數據挖掘的聚類覆蓋率,完成傳統的數據挖掘聚類算法所不能完成的任務。基于云計算的數據挖掘聚類算法是數據挖掘聚類的核心技術,為數據挖掘聚類提供學術意義。