歐立奇,何 媛,李云飛,趙郁園,劉 瀚
西京學(xué)院商貿(mào)技術(shù)系,陜西 西安 710123
高精度海量數(shù)據(jù)分類是大數(shù)據(jù)信息處理的重要步驟,根據(jù)參考大數(shù)據(jù)里包含相同類別的數(shù)據(jù)特征進行聚類,以數(shù)據(jù)聚類為基準(zhǔn),對后期的專家系統(tǒng)以及大數(shù)據(jù)庫存儲,有著十分重要的意義。當(dāng)前主要利用關(guān)聯(lián)方式進行數(shù)據(jù)區(qū)域劃分[1]。隨著當(dāng)前數(shù)據(jù)量的不斷增長,在大數(shù)據(jù)環(huán)境下,初始聚類中點的選取對數(shù)據(jù)分類效率具有一定的影響。當(dāng)前以關(guān)聯(lián)規(guī)則為基礎(chǔ)的聚類算法忽略了數(shù)據(jù)密度相似性以及分類遠(yuǎn)近對聚類中點檢測所形成的干擾,從而使大數(shù)據(jù)模糊區(qū)域在判定的過程中精確度受到影響[2]。本文針對聚類中大數(shù)據(jù)帶來的模糊區(qū)域判定困難的問題進行研究,提出一種新的方法。
大數(shù)據(jù)信息流在數(shù)據(jù)分類中,對模糊區(qū)域差異性特點的掌握,是后期聚類的基礎(chǔ)。將掌握的相似性特征值設(shè)置成基礎(chǔ)創(chuàng)建聚類檢索目標(biāo)函數(shù),看進一步精確聚類過程。
大數(shù)據(jù)模糊區(qū)域特征屬性集的自相關(guān)量由Ru,v代表,是數(shù)據(jù)特點向量中的互相關(guān)函數(shù),大數(shù)據(jù)模糊區(qū)域?qū)傩约徊娣植继卣髦禐椋?/p>

其間,初始大數(shù)據(jù)時間序列的標(biāo)本幅值是α0;包含一樣值和方差的大數(shù)據(jù)標(biāo)量時間序列是xn-1;大數(shù)據(jù)的最有分裂屬性是bj;針對大數(shù)據(jù)標(biāo)量特征序列是x(t),t=0,1,…,n-1,選取動態(tài)自回歸滑動時間窗口建筑多層空間模糊聚類中點,使用模糊C平均值聚類算法實施初始聚類中點檢索[3],設(shè)有限特征數(shù)據(jù)集向量。

根據(jù)屬性集劃分[4,5],獲得數(shù)據(jù)集中包括n個標(biāo)本,此間,標(biāo)本xi(i=1,2,…,n)的差異化特征參量為:

在以創(chuàng)建大數(shù)據(jù)聚類特征值的基準(zhǔn)上,根據(jù)大數(shù)據(jù)最優(yōu)聚類中點的檢索,實施數(shù)據(jù)聚類算法的優(yōu)化改良。
在得到相關(guān)特征后,需要確定聚類中心[6],將大數(shù)據(jù)特征等信息進行整合,根據(jù)順序σ放射至n維歐氏空間,將n設(shè)置為維特征向量T,大數(shù)據(jù)特征向量為f,f=(f1,f2,…,fn),把各個特征fi=(i=1,2,…,n)設(shè)為此向量的分量,然后將各個類型特征和特征間的聯(lián)系進行定義[7]。以隸屬度來確定各個數(shù)據(jù)點劃分某聚類范圍的聚類中心[8]。
將n個向量xi(i=1,2,…,n)劃成c個模糊組,且將每組的聚類中心點估計出來,將非相似性的價值函數(shù)降至最低[9-11],達(dá)到聚類中心使用值在[0,1]中的隸屬度來明確所屬各組的程度值。模糊劃分對應(yīng)的是隸屬矩陣U默認(rèn)存在取值在[0,1]中的元素。經(jīng)統(tǒng)一化整合,某數(shù)據(jù)集的隸屬度的和始終等于1。

所以,聚類中心的價值函數(shù)為式(5)的常態(tài)模式。

此間,uij∈[0,1],模糊組i的聚類中心是ci,dij=‖ci-xj‖是第i個數(shù)據(jù)點中的歐幾里德距離;并m∈[1,∞]為某加權(quán)指數(shù)。
在模糊區(qū)域判定算法設(shè)計過程中,以模糊近似聚類算法為基礎(chǔ)[12],基于上小節(jié)大數(shù)據(jù)量模糊聚類特征和聚類中心分析結(jié)果,能夠提供穩(wěn)定的聚類區(qū)域判定方法。過程如下:
隸屬度計算:用uij表示樣本數(shù)據(jù)與聚類中心的隸屬關(guān)系,可采用模糊集理論將隸屬度為{0,1}的二值拓展到[0,1],其中p表示加權(quán)參數(shù),也稱平滑參數(shù)。

確定模糊聚類數(shù):通常用熵來表示原子的不規(guī)則分布,而海量數(shù)據(jù)的分布與原子分布的情況類似。本文采用熵的方法,可以在算法的迭代過程中,對模糊聚類區(qū)域判定結(jié)果進行主動修正,保證每一個經(jīng)過模糊聚類后的聚類數(shù),都與一個新的隸屬矩陣U相對應(yīng)[13],且每個U中都含有不同的平均信息熵。當(dāng)模糊聚類數(shù)對應(yīng)的平均信息熵最小時,其所對應(yīng)聚類數(shù)為最優(yōu)解,用公式(13)來表示與隸屬矩陣對應(yīng)的平均信息熵:

公式(7)中樣本j屬于聚類i的隸屬度為uij,最佳聚類系數(shù)是當(dāng)平均信息熵H最小時的M。
輸入:海量數(shù)據(jù)集,極值ε,本文算法的最大迭代次數(shù)以及比例規(guī)模N。
輸出:模糊聚類結(jié)果C,M。
步驟描述:
步驟1:確定分類數(shù)目[14],分類數(shù)目m=n/N≤M(n為樣本總數(shù),N為規(guī)模比例),用{Z1,Z2,…,ZM}表示初始質(zhì)心;
步驟3:對步驟(2)中新質(zhì)心之間距離實施計算,搜索與Zi的相似上近似集合Si;
步驟6:根據(jù)公式(2)計算H(h),若出現(xiàn)H(h)<H(h+1),則模糊聚類數(shù)M=M+1并返回步驟2;反之,最佳模擬聚類數(shù)為M,算法結(jié)束。
實驗利用加州大學(xué)厄文分校機器學(xué)習(xí)庫中提取的海量數(shù)據(jù)集為實驗數(shù)據(jù),實驗數(shù)據(jù)共含有150種的不同種類信息,每50種數(shù)據(jù)種類均從三種數(shù)據(jù)庫中選取[15]。對以上聚集進行數(shù)據(jù)特征聚類,聚類結(jié)果如表1所示。

表1 特征聚類結(jié)果Table 1 Clustering results
利用本文方法計算該組數(shù)據(jù)集的實際模糊聚類中心位置是:Z1=6.58,2.97,5.55,2.02,Z2=5.00,3.42,1.46,0.24,Z3=5.93,2.77,4.26,1.32。計算數(shù)據(jù)中心差異化分類結(jié)果如表2所示:

表2 差異分布結(jié)果Table 2 Difference distribution results
從表2差異分布結(jié)果可以看出,本文算法模糊聚類中心聚類正確比例達(dá)到98.6%,模糊聚類正確結(jié)果較高。
在上文分類結(jié)果的基礎(chǔ)上,為驗證本文基于海量數(shù)據(jù)分類的模糊區(qū)域判定算法的有效性,以UCI標(biāo)準(zhǔn)數(shù)據(jù)集和實際項目為實驗數(shù)據(jù),實驗數(shù)據(jù)共包括4部分,第一部分為UCI-IRIS數(shù)據(jù)分為三類共150個樣本;第二部分為UCI-Wisconsin Breast Cancer數(shù)據(jù)其中良性樣本和惡性樣本分別為458和241條,且該兩組數(shù)據(jù)均無缺失;實驗設(shè)備采用計算機為DELL.760,內(nèi)存為4G,運行環(huán)境為MATLAB.1環(huán)境下進行,為精確獲取不同模糊聚類算法的有效性,以基于歐氏距離、DTW距離的模糊聚類算法為對比實驗,分析不同算法對特征差異平衡數(shù)據(jù)的聚類結(jié)果。表3為不同算法對平衡數(shù)據(jù)聚類結(jié)果。

表3 不同算法對平衡數(shù)據(jù)聚類結(jié)果Table 3 Clustering results of different algorithms for balanced data
從表3數(shù)據(jù)聚類結(jié)果可以得出,在特征平衡數(shù)據(jù)中應(yīng)用基于歐氏距離模糊算法、DTW模糊聚類算法和本文算法的聚類效果不同,本文算法在聚類正確率和平均正確率的結(jié)果均優(yōu)于另外兩種算法,可見本文算法可用于特征平衡數(shù)據(jù)下的模糊區(qū)域判定中,且聚類結(jié)果的有效性較高,主要因為特征平衡數(shù)據(jù)差異較小,在聚類中存在較大困難,而本文方法很好的解決了這問題。
本文提出海量數(shù)據(jù)分類中的模糊區(qū)域判定算法,可以對具有不同特征的海量數(shù)據(jù)進行模糊聚類,提高模糊聚類效果和效率。
[1]周雙,馮勇,吳文淵,等.一種基于模糊C均值聚類小數(shù)據(jù)量計算最大Lyapunov指數(shù)的新方法[J].物理學(xué)報,2016,65(2):42-48
[2]Roghanchi P,Kallu R,Thareja R.Use of fuzzy set theory to rmr classification for weak and very weak rock masses[J].International Journal of Earth Sciences&Engineering,2014,7(3):997-1003
[3]Gabriel Filho LRA,Putti FF,Cremasco CP,etal.Software to assess beef cattle body mass through the fuzzy body mass index[J].Engenharia Agricola,2016,36(1):179-193
[4]王永貴,李鴻緒,宋 曉.Map Reduce模型下的模糊C均值算法研究[J].計算機工程,2014,40(10):47-51
[5]王宇凡,梁工謙,張淑娟.基于相似度量的模糊支持向量機算法研究[J].微電子學(xué)與計算機,2014(4):112-116
[6]陳池梅,張 林.基于貝葉斯網(wǎng)絡(luò)的海量數(shù)據(jù)多維分類學(xué)習(xí)方法研究[J].計算機應(yīng)用研究,2016,33(3):689-692
[7]Jasmine JSL,Safana A.Possibilistic fuzzy c means algorithm for mass classificaion in digital mammogram[J]. International Journal of Engineering Research&Applications,2014,4(12):337-346
[8]翟皓,袁占良,黃祥志,等.一種面向海量遙感數(shù)據(jù)分類應(yīng)用的并行解決方案[J].計算機工程與科學(xué),2016,38(12):2450-2455
[9]周治平,朱書偉,張道文.分類數(shù)據(jù)的多目標(biāo)模糊中心點聚類算法[J].計算機研究與發(fā)展,2016,53(11):2594-2606
[10]劉光敏,陳慶奎,王海峰.海量數(shù)據(jù)流的提升小波變換并行算法研究[J].小型微型計算機系統(tǒng),2015,36(2):343-348
[11]高見文,薛行貴,羅 杰,等.基于迭代式Map Reducede的海量數(shù)據(jù)并行聚類算法研究[J].中國科技論文,2016,11(14):1626-1631
[12]桂 勛.基于遞推算法的海量COMTRADE數(shù)據(jù)計算并行化[J].電力系統(tǒng)自動化,2014(1):86-91
[13]李方一,肖夕林,劉思佳.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的區(qū)域經(jīng)濟預(yù)警研究[J].華東經(jīng)濟管理,2016,30(8):60-66
[14]高 凱,劉 琳,張松樹.海量電網(wǎng)數(shù)據(jù)管理與挖掘系統(tǒng)的功能設(shè)計與實現(xiàn)[J].電網(wǎng)技術(shù),2014,38(s1):67-70
[15]劉紹毓,周 杰,李弼程,等.基于多分類SVM-KNN的實體關(guān)系抽取方法[J].數(shù)據(jù)采集與處理,2015,30(1):202-210