覃兵文
摘 要: 為了提高大數據的分類識別和檢索性能,需要進行大數據優化挖掘,故提出一種基于弱關聯性指數特征分布提取的大數據分類挖掘方法。對大數據信息流采用稀疏性融合方法進行聚類空間劃分,通過自相關特征匹配方法進行大數據高維分形特征重組,采用向量量化方法進行大數據的基元分類的收斂性控制,提取大數據信息流的弱關聯性指數特征,實現大數據的優化分類和挖掘。仿真結果表明,采用該方法進行大數據分類挖掘,提高了大數據挖掘檢索的查準性和查全性,挖掘的準確性較高,抗干擾能力較好。
關鍵詞: 大數據; 信息融合; 分類挖掘; 聚類空間劃分; 特征提取
中圖分類號: TN911?34; TP311 文獻標識碼: A 文章編號: 1004?373X(2017)24?0034?03
Abstract: As big data optimization mining is needed to improve classification recognition and retrieval performance of big data, a big data classification mining method based on distributional extraction of weak correlation index features is proposed. The sparse fusion method is adopted to perform clustering space division for big data flow. The high?dimensional fractal features of big data are reorganized by using the self?correlation feature matching method. The vector quantification method is adopted for convergence control of base element classification of big data. The weak correlation index features of big data information flow are extracted to realize optimization classification and mining of big data. The simulation results show that the method for data classification and mining improves the precision and recall performance of big data mining and retrieval, and has high mining accuracy and good anti?interference capability.
Keywords: big data; information fusion; classification mining; clustering space division; feature extraction
0 引 言
隨著網絡空間的不斷擴容以及網絡信息技術的發展,在網絡云存儲數據庫中,大數據存在較大的差異性特征,需要對大數據進行分類挖掘,提高對大數據信息庫的檢索和分類識別能力,研究大數據分類挖掘技術,在提高大數據檢索、訪問、調度和特征提取能力方面具有重要意義,相關的數據分類挖掘方法研究受到人們的極大重視[1]。當前主要采用主成分挖掘方法、粒子群分布式挖掘方法以及統計特征提取的大數據挖掘方法[2]。通過自適應分布式學習算法實現大數據挖掘,把網絡分布式云存儲大數據時間序列解析模型分解為含有多個非線性成分的統計量,進行數據的分布式特征重構,提高數據挖掘的抗干擾能力。但是隨著數據規模的擴大,挖掘的準確性不好,提出基于弱關聯性指數特征分布提取的大數據分類挖掘方法,首先進行大數據分布的統計特征分析,然后進行特征提取和數據分類算法設計,最后進行數據挖掘仿真實驗,得出有效性結論。
1 大數據的統計性特征分析
1.1 大數據的稀疏性融合
為了實現對大數據的分類挖掘優化,首先采用統計特征分析方法進行大數據特征提取和信息重構,對大數據信息流采用稀疏性融合方法進行聚類空間劃分。本文研究的大數據對象為網絡分布式云存儲大數據。用圖表示網絡分布式云存儲大數據的輸入模型,統計特征分布的向量量化邊集為,單個存儲分布節點的信息覆蓋域為r,設,且,得到網絡分布式云存儲大數據的信息融合支持向量集為:
式中:和分別表示網絡分布式云存儲大數據的時域和頻域分布結構特征;和分別表示大數據的采樣時間間隔和波束分布間隔。采用觀測或實驗手段獲得網絡分布式云存儲采樣的先驗知識[3],通過對數據的多元信息融合處理得到網絡分布式云存儲并行調度和重構的特征分布向量定義為:
式中:為網絡分布式云存儲特征分布矩陣的對角元素值;為測量誤差。通過大數據的稀疏性融合,得到網絡分布式云存儲重構的約束指標分布向量集,以此為特征基礎進行向量量化分析和數據重構。
1.2 大數據分類挖掘的聚類空間劃分
基于奈奎斯特采樣定理[4],結合大數據稀疏性融合結果,進行大數據分類挖掘聚類空間劃分,對大數據信息流特征重組模型進行歸一化處理,得數據分類挖掘指向性維數滿足:
式中,為對取模。對大數據聚類空間劃分,進行大數據信息流時頻分解,得分解式為:
式中,表示數據弱關聯指向性分布函數,將提取指向性特征輸入到大數據分類挖掘傳輸信道中,進行向量量化分解。假設為時間窗函數,通過構建大數據分類挖掘知識庫模型,得到數據的副本信息融合嵌入維數m滿足:endprint
通過自相關特征匹配方法進行大數據高維分形特征重組,假設分類特征重組的傳遞函數,采用一個二維的連續函數進行大數據聚類的收斂性控制,得到大數據分類挖掘的極大熵的判決特征函數式為:
當網絡分布式云存儲數據是局部平穩的,通過構造數據集的規則向量集,得到大數據分類挖掘的聚類空間為:
結合訓練數據集的規則向量子集解向量分布融合結果[5],得到大數據分類挖掘聚類空間分布的指向性函數為:
2 大數據分類挖掘實現
在對大數據信息流采用稀疏性融合方法進行聚類空間劃分的基礎上,進行數據分類特征提取和挖掘過程優化,本文提出一種基于弱關聯性指數特征分布提取的大數據分類挖掘方法,采用向量量化方法進行大數據的基元分類的收斂性控制[6],向量量化的特征函數為:
式中:表示大數據特征序列的相關性指數系數;表示先驗點簇;表示信息融合的深度;為數據的關聯維。
利用數據集的相似性分布式重建方法,得到數據的時頻分解的變換定義為:
經自相關特征匹配,則數據聚類目標函數為:
式中,為數據特征分布子帶信息。采用向量量化方法進行大數據的基元分類的收斂性控制[7],提取數據的能量密度譜(Spectrogram,SPEC)為:
基于模糊聚類方法進行數據分類挖掘,數據分類挖掘的特征空間的維數滿足: (14)
網絡分布式云存儲重構的誤差項滿足高斯?馬爾科夫假設。將網絡分布式云存儲重構的約束指標矩陣改寫為邊緣分布矩陣為:
式中:為的關聯維向量;為的云數據的聚類指向性分布矩陣;為的參數向量;為的網絡分布式云存儲聚類的誤差向量。提取大數據信息流的弱關聯性指數特征,得到關聯數據的線性組合為:
利用IFFT變換進行大數據的弱關聯性特征估計,得到:
分析上述提取的特征估計結果得知,由于大數據分類挖掘的過程受到大數據的基元分類的收斂性控制,所以大數據分類挖掘的收斂性較好,準確性得以提高。
3 實驗分析
對大數據分類挖掘的仿真實驗建立在Matlab仿真環境基礎上,大數據為網絡分布式云存儲大數據,實驗仿真環境為:Intel Core3?530 1 GB內存,操作系統為Windows 7,大數據分布的陣元數目為64,初始采樣的信噪比定為8 dB,數據特征分布的隨機點個數為3,數據分布的頻帶為4~25 kHz。根據上述仿真設定,得大數據的原始分布時域波形如圖1所示。
以圖1給出的大數據為研究對象,進行分類挖掘,提取大數據信息流的弱關聯性指數特征,實現大數據分類挖掘。圖2給出了采用本文方法和傳統的統計特征分析方法進行數據分類挖掘的準確性對比。分析得知,采用本文方法進行大數據挖掘檢索的查準性和查全性較高,提高了大數據挖掘的準確性。
4 結 語
本文提出一種基于弱關聯性指數特征分布提取的大數據分類挖掘方法,對大數據信息流采用稀疏性融合方法進行聚類空間劃分。通過自相關特征匹配方法進行大數據高維分形特征重組,采用向量量化方法進行大數據的基元分類的收斂性控制,提取大數據信息流的弱關聯性指數特征,實現大數據的優化分類和挖掘。研究得知,采用該方法進行大數據分類挖掘,提高了大數據挖掘檢索的查準性和查全性,挖掘的準確性較高,抗干擾能力較好,具有很好的應用價值。
參考文獻
[1] 王變琴,余順爭.自適應網絡應用特征發現方法[J].通信學報,2013,34(4):127?137.
[2] 何力,丁兆云,賈焰,等.大規模層次分類中的候選類別搜索[J].計算機學報,2014,37(1):41?49.
[3] 李保利.基于類別層次結構的多層文本分類樣本擴展策略[J].北京大學學報(自然科學版),2015,51(2):357?366.
[4] HE Y, ZHANG C S, TANG X M, et al. Coherent integration loss due to pulses loss and phase modulation in passive bistatic radar [J]. Digital signal processing, 2013, 23(4): 1265?1276.
[5] HAO H. Multi component LFM signal detection and parameter estimation based on EEMD?FRFT [J]. International journal for light and electron optics, 2013, 124(23): 6093?6096.
[6] GOVONI M A, LI H, KOSINSKI J A. Range?doppler resolution of the linear?FM noise radar waveform [J]. IEEE transactions on aerospace and electronic systems, 2013, 49(1): 658?664.
[7] 狄嵐,于曉瞳,梁久禎.基于信息濃縮的隱私保護支持向量機分類算法[J].計算機應用,2016,36(2):392?396.endprint