何南

摘要:傳統數據挖掘方法效率過低,利用云計算下的環形網絡大數據協同挖掘方法則能夠大大提升數據挖掘效率。首先需要對環形網絡下的數據集進行選取,包括大數據的協同挖掘、大數據預處理以及數據集成,然后進行整個數據的規約與離散化,進而完成大數據的協同挖掘。經過實驗數據表明,云計算下環形網絡大數據協同挖掘方法較傳統數據挖掘方法效率提升了約1/3,值得對此進行深入研究及推廣。
關鍵詞:云計算;環形網絡;大數據;協同挖掘
中圖分類號:TP311.13;U675.7?? 文獻標識碼:A?? 文章編號:1672-9129(2020)12-0009-01
前言:傳統數據挖掘方式由于缺乏特征提取,因此在效率上非常低,數據挖掘的整體有效性顯得不足。而云計算下的環形網絡大數據協同挖掘方法能夠有效確認數據的挖掘范圍,并在大數據預處理及集成處理后有效提取到數據的特征,經過數據歸約與離散化從而提升數據挖掘的效率。本文將就此進行詳細分析。
1 環形網絡下的數據集選取
1.1大數據的協同挖掘。在大數據協同挖掘進行過程中,首先需要確認好云計算接口,在硬件及軟件的支撐下選取合適的數據集,在微處理器的作用之下完成整個挖掘工作。其中數據集的選取極為關鍵,需要具備一定的代表性,因此可以采用特征提取技術,確認好數據相關性系數、數據坐標參數、數據模糊度等各項指標。而后再在數據分離技術的作用下根據同性數據組方程實現科學的數據集選取。
1.2大數據預處理。在選定好數據集之后,接下來需要對大數據進行預處理,通常采用Client/Server模式,主要是因為該模式的數據處理能力相比其他模式會更強,對于環形網絡而言也會更為適用。大數據預處理的流程圖如圖1所示:
從圖1可以看出,大數據協同挖掘數據的預處理過程主要分為數據采集、數據挖掘以及結果輸出三個板塊,其中數據采集包含數據庫、數據倉庫以及其他數據源;數據挖掘包括數據挖掘引擎和知識庫;結果輸出包括數據輸出結果和可視化用戶界面。在進行數據預處理時,先將需要處理的數據放至數據倉庫,選取非數據性特征集合后再移至數據庫,連同其他的數據源對數據關系、數據特征等進行預處理。
1.3數據集成。經過大數據預處理之后,形成了更準確的數學模型,要想實現大數據的有效協同挖掘,還需要進行相應預挖掘過程。通過預處理得到的數據模型再建立在挖掘向導的作用下對數據關系進行準確定義,由此能夠對整個數據進行集成處理。實際上數據的預挖掘過程就是數據的篩選過程,同樣數據集成也是如此,但與數據預處理又存在本質上的差別,主要是將選取好的數據在某種標準之下完成篩選和擬合,預挖掘也就成了準備階段。大致步驟如下:在原始數據提取之后,先通過數據的預處理,進而抽取到正確可靠的數據,再通過挖掘算法進行挖掘內核,進行相關模式的整合,通過模式的表達與解釋篩選出最恰當的模式,再經過挖掘向導轉至挖掘內核,由此形成一個循環過程,最終確定合適的模式,轉接至用戶。
在這個過程中需要確定好相應的數據集成導入方程,并確認好數據預處理數據量、數據大小、數據長度以及數據產生的隨機性。由于在數據特征值處理過程中不同的特征值處理的方式存在差異,因此還需要建立起與不同挖掘點相匹配的索引函數,進而能夠更加有效的對挖掘點進行數據挖掘,并使覆蓋面能夠與挖掘點有效契合。
2 數據歸約與離散化
云計算下環形網絡大數據協同挖掘過程中數據的規約與離散化是核心程序,經過此項步驟后才能夠真正實現數據的有效挖掘。首先是數據歸約處理,應當對相關數據集合進行相應的標識,因為在數據挖掘的過程中有可能因為數據量過大的緣故而產生數據歸約大范圍誤差,進行特征性標識后依托歸約函數能夠使得歸約更為有序。在這個過程中主要提取的參數包含調劑系數、規范范圍、數據的持續變化量等等。對數據進行歸約處理后能夠得到一個基本特征值,而這個特征值是基于某一個特征點提取出來的,也就是說在整個數據集中能夠得到多個基本特征值,對這些特征值進行離散化計算,由此能夠有效實現云計算下環形網絡大數據的協同挖掘。
3 結語
傳統數據挖掘效率太低,為了能夠將此狀況進行改進,本文提出了云計算下環形網絡大數據協同挖掘,在進行數據挖掘之前需要對數據類型、計算方式、網絡拓撲結構以及數據通信協議等進行確認,經過大數據的協同挖掘和大數據預處理后實現環形網絡下的數據集選取。再進行協同挖掘的核心程序數據規約與離散化,進而能夠完成整個大數據協同挖掘過程。通過實驗表明,基于云計算的環形網絡大數據協同挖掘較傳統數據挖掘方式效率上約提升1/3,值得進行深入研究和推廣。
參考文獻:
[1]胡金蓉,鄒茂揚,文武,周子龍.大數據驅動的學習分析技術研究進展[J].現代電子技術,2020,43(18):54-58.
[2]尹旭熙.基于大數據分析技術的多源監控信息挖掘方法研究[J].電子設計工程,2020,28(17):52-55+60.
[3]張翔,魏小鵬.醫院面向健康服務管理的大數據有效挖掘方法研究[J].中國衛生信息管理雜志,2020,17(03):279-284.
[4]鄭憲秋.基于時空約束和小波設計的非侵入式負載數據協同挖掘算法[J].西安工程大學學報,2019,33(06):643-648.
[5]廖彬,張陶,于炯,黃靜萊,國冰磊,劉炎.多MapReduce作業協同下的大數據挖掘類算法資源效率優化[J].計算機應用研究,2020,37(05):1321-1325.