王婷婷 賀安坤 馬靖 孫求知 李力強
摘 要:分布式數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘技術(shù)中的一種,能夠?qū)植恐R進行整合,從而獲取全局知識,最終提高決策水平。鑒于此,本文對分布式數(shù)據(jù)挖掘概念進行簡要闡述,并在此基礎上探討兩個典型分布式數(shù)據(jù)挖掘系統(tǒng)及特點,旨在進一步提高分布式數(shù)據(jù)挖掘質(zhì)量,最大限度地發(fā)揮其應用價值。
關(guān)鍵詞:分布式;數(shù)據(jù)挖掘;應用價值
中圖分類號:TP311.12 文獻標識碼:A 文章編號:1671-2064(2018)08-0035-02
未來計算機技術(shù)與通信技術(shù)的快速發(fā)展,相繼地拓展了移動網(wǎng)、互聯(lián)網(wǎng)、廣電網(wǎng)等網(wǎng)絡及其衍生業(yè)務,從而導致大量分布式數(shù)據(jù)的形成,這些數(shù)據(jù)能夠為決策提供相應的依據(jù)。傳統(tǒng)集中式的數(shù)據(jù)挖掘技術(shù)因其受到網(wǎng)絡平臺的兼容性與易購性等影響,使其難以適應分布式計算環(huán)境,由此而使得分布式的數(shù)據(jù)挖掘技術(shù)便運用而生。但由于分布式的數(shù)據(jù)挖掘技術(shù)應用尚不廣泛,大部分并不了解其系統(tǒng)及應用狀況,因此需要對分布式數(shù)據(jù)挖掘技術(shù)進行如下探討,以最大限度地提高分布式數(shù)據(jù)挖掘的質(zhì)量。
1 分布式數(shù)據(jù)挖掘概念
1.1 分布式數(shù)據(jù)挖掘定義
分布式數(shù)據(jù)網(wǎng)挖掘的定義為基于網(wǎng)絡空間的分布式計算環(huán)境的數(shù)據(jù)挖掘,此外人們還廣泛地認為分布式的數(shù)據(jù)挖掘主要是基于分布式計算方式挖掘網(wǎng)絡空間內(nèi)的分布式數(shù)據(jù),并且通過整合局部知識的方式來獲取全局知識,以此來為決策提供安全可靠的依據(jù)。數(shù)據(jù)挖掘質(zhì)量的高低,主要取決于局部知識整合方法和局部知識質(zhì)量,在局部知識質(zhì)量較高情況下必然可以保證數(shù)據(jù)挖掘質(zhì)量。
1.2 分布式數(shù)據(jù)挖掘框架
挖掘原則為“全局分布、局部集中”,主要是通過站點間純粹獨立挖掘方式,但并不都是獨立挖掘,數(shù)據(jù)挖掘可以利用某些站點進行。具體框架圖如圖1所示。
2 兩個典型分布式數(shù)據(jù)挖掘系統(tǒng)分析
2.1 PADMA系統(tǒng)
PADMA體系主要由用戶接口、數(shù)據(jù)挖掘代理以及協(xié)調(diào)器三個部分構(gòu)成。其中用戶接口的主要功能是確保用戶與挖掘系統(tǒng)之間的信息交換,協(xié)調(diào)器在進行分布式數(shù)據(jù)挖掘時是接受用戶標準SQL表示的查詢,并且通過廣播的方式對各個代理進行通知。各個代理在此基礎上提供其提取到的與該查詢相關(guān)信息,最后通過協(xié)調(diào)器匯集起相關(guān)信息,并將相關(guān)信息提供給用戶數(shù)據(jù)挖掘代理模塊,使其用于數(shù)據(jù)訪問,并在數(shù)據(jù)訪問中獲得有效的高級信息。而數(shù)據(jù)挖掘代理主要是對某個挖掘活動時指定予以完成,并通過協(xié)調(diào)器使數(shù)據(jù)挖掘代理對信息進行共享。協(xié)調(diào)器在PADMA系統(tǒng)中的作用在于對各個代理進行協(xié)調(diào),然后再將其挖掘到的有效信息向用戶接口提供,最終便能夠?qū)崿F(xiàn)從用戶到代理之間的反饋工作。除此之外,PADMA在實際應用中包括并行數(shù)據(jù)分析、并行數(shù)據(jù)查詢和訪問、交互式聚類數(shù)據(jù)可視化三個功能。
2.2 CDM系統(tǒng)
CDM系統(tǒng)對學習新方法進行了歸納,主要在分布式垂直劃分特征空間中進行。其在實際應用中的基本思想按照分布式的方式對待學習函數(shù)采用一組較為合適的基函數(shù)進行表示。該系統(tǒng)在實際應用中能夠允許各個數(shù)據(jù)點選擇不同的學習算法,從而便能夠生成整個數(shù)據(jù)集的全局分布式模式,最后分解整個建模問題。
一般來說,CDM為兩層體系結(jié)構(gòu),但其在實際應用的過程中能夠擴充到多層。在建立該體系結(jié)構(gòu)的過程中是將歸納學習分解成局部與非局部的基函數(shù)求解基礎上,因而系統(tǒng)便為每個數(shù)據(jù)點提供了由局部觀測變量的定義,然后將其用于計算基函數(shù)與局部分析等相關(guān)程序。最終通過各個數(shù)據(jù)點選擇通信方式、學習算法以及處理方法,能夠為每個程序分配一個自治度,此項過程便為軟件數(shù)據(jù)挖掘代理。通常來說,各個軟件代理在實際應用中屬于獨立無關(guān)的狀態(tài),但如有必要也會進行相互協(xié)作。
3 分布式數(shù)據(jù)挖掘系統(tǒng)特點
3.1 便于通訊工作
在本系統(tǒng)運行的過程中,有效的分布式挖掘系統(tǒng)能夠在各個站點之間進行通訊,通訊工作的完成是基于較高層次。并且該分布式數(shù)據(jù)挖掘系統(tǒng)中所具有的通訊功,能夠?qū)υ紨?shù)據(jù)、挖掘請求及其參數(shù)、挖掘知識等進行方便處理,甚至可以傳送挖掘算法本身。
3.2 實現(xiàn)集中控制
為了能夠?qū)Ψ植际降臄?shù)據(jù)挖掘系統(tǒng)進行更為方便地實現(xiàn),就必須確保用于集中控制的站點。為了能夠獲得全局知識,在實際運行中需要所有的站點能夠進行大量廣播,此種方式會增加其開銷與難度。除此之外,在一部分分布式的數(shù)據(jù)挖掘算法的過程中還需要對全局范圍內(nèi)進行決策,在引入全局控制站點后便能很好地支持系統(tǒng)的靈活性與可擴展性。
3.3 挖掘系統(tǒng)靈活
分布式數(shù)據(jù)挖掘系統(tǒng)在實際應用中能夠?qū)τ脩舻母鞣N數(shù)據(jù)挖掘要求進行靈活地響應,例如能夠挖掘不同位置與不同大小的數(shù)據(jù)庫等。
3.4 實現(xiàn)移動挖掘
在一部分數(shù)據(jù)挖掘算法的過程中,需要挖掘算法順序訪問各個站點中的數(shù)據(jù)集,這就要求在采用分布式的數(shù)據(jù)挖掘系統(tǒng)中必須能夠支持挖掘算法的移動性。這就表明,在本站點當一個算法在一個站點上完成了數(shù)據(jù)挖掘任務后,便能夠繼續(xù)移動至其它站點上進行數(shù)據(jù)挖掘工作。
3.5 實現(xiàn)知識共享
在各個站點之間實行分布式挖掘的過程中必須要確保采取能夠被理解的知識形式,主要原因如下:其一,由于在分布式的數(shù)據(jù)挖掘中通常還包括面向知識挖掘,因此即使在本地知識基礎上仍然需要對全局知識進行挖掘,因而這就表明必須在各個站點間采取同一理解的知識表達方式進行協(xié)同挖掘工作;其二,由于各個站點上用戶可能還需要對其他站點上的知識進行訪問,這就需要在實際應用中采取通用的知識表示方式。
3.6 保證運行安全
在采取分布式系統(tǒng)的過程中,進行行數(shù)據(jù)挖掘時需要嚴格確保數(shù)據(jù)的安全性。需要考慮到以下幾點:其一,數(shù)據(jù)存取的權(quán)限控制;其二,對知識存取與傳送的安全;其三,挖掘任務的設置權(quán)限。
3.7 容易擴展
由于近年來不斷地出現(xiàn)了數(shù)據(jù)挖掘理論和算法研究新的知識形式與數(shù)據(jù)挖掘算法,因而在實際應用的過程中為了能夠確保分布式數(shù)據(jù)挖掘系統(tǒng)的可持續(xù)利用,就需要將分布式數(shù)據(jù)挖掘系統(tǒng)設計成容易擴展的開放式系統(tǒng)。這項工作便能夠使新的算法與新的知識形式出現(xiàn)時,該系統(tǒng)仍然能夠通過自身的擴展性功能加入這些新的知識形式與算法中,不需要對系統(tǒng)進行重新編寫或者構(gòu)造。
4 結(jié)語
綜上所述,本文對分布式數(shù)據(jù)挖掘技術(shù)定義及概念進行了簡要的分析,并在此基礎上對現(xiàn)階段兩種主要的分布式數(shù)據(jù)挖掘系統(tǒng)及特點進行了深入探討,主要目的在于進一步提高分布式數(shù)據(jù)挖掘的質(zhì)量與效率。但是需要注意的是,對于新建的分布式數(shù)據(jù)挖掘系統(tǒng)而言,因其與傳統(tǒng)相關(guān)系統(tǒng)有所不同,這就要求在應用該系統(tǒng)前對其進行仿真實驗,并對系統(tǒng)的可行性進行驗證,在確保該系統(tǒng)具有高可靠性后方能正式使用。
參考文獻
[1]張良防.基于用戶行為的數(shù)據(jù)挖掘系統(tǒng)的設計與實現(xiàn)[D].哈爾濱工業(yè)大學,2017.
[2]尚斯年.基于云計算分布式技術(shù)的海量AIS數(shù)據(jù)挖掘系統(tǒng)設計與實現(xiàn)[D].大連海事大學,2017.
[3]萬新貴.分布式數(shù)據(jù)流聚類算法研究與應用[D].南京郵電大學,2017.
[4]余永紅,向曉軍,高陽,商琳,楊育彬.面向服務的云數(shù)據(jù)挖掘引擎的研究[J].計算機科學與探索,2012,6(01):46-57.
[5]王建君.分布式數(shù)據(jù)挖掘研究[J].電子商務,2017,(07):41-42.
[6]賈哲.分布式環(huán)境中信息挖掘與隱私保護相關(guān)技術(shù)研究[D].北京郵電大學,2012.