999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于現(xiàn)代云環(huán)境的數(shù)據(jù)挖掘算法的并行化探討

2014-07-09 02:00:37張小軍金志偉張浩
科技創(chuàng)新與應(yīng)用 2014年20期

張小軍+金志偉+張浩

摘 要:在當(dāng)前信息化的時(shí)代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運(yùn)營(yíng)和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對(duì)這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動(dòng)下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進(jìn)行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。

關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化

1 數(shù)據(jù)挖掘算法概述

數(shù)據(jù)挖掘,又稱(chēng)知識(shí)發(fā)現(xiàn),是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的一個(gè)交叉點(diǎn),主要是指從不同的角度,對(duì)數(shù)據(jù)進(jìn)行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過(guò)程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過(guò)對(duì)企業(yè)在商業(yè)活動(dòng)中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營(yíng)管理決策的制定提供科學(xué)的參考依據(jù)。

從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個(gè)方面:

1.1 分類(lèi)分析

分類(lèi)分析,是指對(duì)數(shù)據(jù)信息進(jìn)行分類(lèi)處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)類(lèi)型的預(yù)測(cè)。分類(lèi)的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類(lèi)模型是樸素貝葉斯模型和決策樹(shù)模型。

1.2 關(guān)聯(lián)分析

在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對(duì)未知數(shù)據(jù)或者模糊數(shù)據(jù)進(jìn)行推導(dǎo)和預(yù)測(cè)。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行研究時(shí),通常也是在該算法的基礎(chǔ)上進(jìn)行修改和擴(kuò)展。但是,Apriori算法在對(duì)支持度進(jìn)行計(jì)算時(shí),需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次全面掃描,生成的候選集存在較多的冗雜項(xiàng),因此存在一定的性能瓶頸,需要進(jìn)行改進(jìn)和解決。

1.3 聚類(lèi)分析

聚類(lèi)分析是一種具有良好實(shí)用性的數(shù)據(jù)挖掘技術(shù),可以對(duì)無(wú)規(guī)律的數(shù)據(jù)進(jìn)行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場(chǎng)分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類(lèi)分析,實(shí)際上是通過(guò)觀察以及非示例性的學(xué)習(xí),完成對(duì)于數(shù)據(jù)對(duì)象的分類(lèi),以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識(shí)水平的英系那個(gè),可能造成算法性能的不穩(wěn)定或者聚類(lèi)結(jié)果的偏差,因此在利用時(shí)需要格外注意。

2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化

在當(dāng)前的大數(shù)據(jù)時(shí)代,面對(duì)海量的數(shù)據(jù)處理問(wèn)題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實(shí)都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計(jì)算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問(wèn)題,針對(duì)算法的性能瓶頸進(jìn)行改進(jìn),使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實(shí)意義。

云計(jì)算是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來(lái)的,是一種基于互聯(lián)網(wǎng)的計(jì)算方式,能夠結(jié)合用戶的實(shí)際需求,對(duì)于服務(wù)器、存儲(chǔ)、軟件、服務(wù)和網(wǎng)絡(luò)等資源進(jìn)行動(dòng)態(tài)分配,通過(guò)合理有效的設(shè)計(jì)和調(diào)整,使得資源的利用率達(dá)到最高。在云計(jì)算背景下,可以提供高效的并行化計(jì)算能力,從而提高數(shù)據(jù)挖掘的高效性和實(shí)用性,方便對(duì)于海量數(shù)據(jù)的處理。

這里主要針對(duì)MC-Apriori算法的并行化改進(jìn)進(jìn)行分析和探討。

2.1 并行關(guān)聯(lián)規(guī)則挖掘算法

在不斷的發(fā)展過(guò)程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來(lái)說(shuō),都是在Apriori算法的基礎(chǔ)上,進(jìn)行改進(jìn)和創(chuàng)新,這些算法主要是針對(duì)原有算法中存在的問(wèn)題的改進(jìn),屬于一種串行算法。這些改進(jìn)后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機(jī)算法對(duì)于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計(jì)算,對(duì)數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)。描述如下:

設(shè)計(jì)算機(jī)集群中n臺(tái)計(jì)算機(jī)節(jié)點(diǎn)N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個(gè)節(jié)點(diǎn)存放子事務(wù)數(shù)據(jù)庫(kù)Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫(kù)為

總事務(wù)條數(shù)為

關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲(chǔ)共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:

基于并行計(jì)算理論,對(duì)現(xiàn)有的關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),可以實(shí)行多種新的算法,這些算法的并行點(diǎn)多在候選集和頻繁集計(jì)算。主要包括以下幾種:

(1)CD算法:這種算法是對(duì)Apriori算法的簡(jiǎn)單并行,主要是將事務(wù)數(shù)據(jù)庫(kù)分到n個(gè)節(jié)點(diǎn),然后在單個(gè)節(jié)點(diǎn),運(yùn)行Apriori算法,每一個(gè)節(jié)點(diǎn)的候選集支持度計(jì)算,最后,進(jìn)行全局同步以及共享計(jì)數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒(méi)有對(duì)內(nèi)存進(jìn)行有效利用。

(2)DD算法:DD算法是通過(guò)循環(huán)的方式,將候選集分配到多個(gè)節(jié)點(diǎn),之后在單個(gè)節(jié)點(diǎn)上對(duì)候選集的支持度進(jìn)行計(jì)算,需要使用其他節(jié)點(diǎn)的數(shù)據(jù)集時(shí),可以通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計(jì)數(shù),但是,在實(shí)用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。

2.2 并行MC-Apriori算法

關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實(shí)現(xiàn)并行化運(yùn)算,主要是在單機(jī)的情況下,結(jié)合計(jì)算項(xiàng)的個(gè)數(shù),對(duì)1-頻繁集進(jìn)行計(jì)算,生成相應(yīng)的k-1-候選集,并通過(guò)對(duì)候選集的修剪,得到k頻繁集。在對(duì)候選集的支持度進(jìn)行計(jì)算的過(guò)程中,可以并行化處理,在多個(gè)節(jié)點(diǎn)對(duì)本地候選集的本地支持度進(jìn)行計(jì)數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個(gè)頻繁項(xiàng)集對(duì)應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個(gè)事務(wù)數(shù)據(jù)最好可以保存在單個(gè)數(shù)據(jù)塊中。

3 結(jié)束語(yǔ)

總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無(wú)法滿足海量數(shù)據(jù)的挖掘和處理要求,因此需要對(duì)其進(jìn)行改進(jìn)。本文針對(duì)現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進(jìn)行了分析和探討,希望能夠?yàn)橄嚓P(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。

參考文獻(xiàn)

[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.

[2]丁巖.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.

作者簡(jiǎn)介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計(jì)算,數(shù)據(jù)挖掘,通信技術(shù),職稱(chēng):講師。endprint

摘 要:在當(dāng)前信息化的時(shí)代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運(yùn)營(yíng)和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對(duì)這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動(dòng)下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進(jìn)行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。

關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化

1 數(shù)據(jù)挖掘算法概述

數(shù)據(jù)挖掘,又稱(chēng)知識(shí)發(fā)現(xiàn),是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的一個(gè)交叉點(diǎn),主要是指從不同的角度,對(duì)數(shù)據(jù)進(jìn)行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過(guò)程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過(guò)對(duì)企業(yè)在商業(yè)活動(dòng)中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營(yíng)管理決策的制定提供科學(xué)的參考依據(jù)。

從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個(gè)方面:

1.1 分類(lèi)分析

分類(lèi)分析,是指對(duì)數(shù)據(jù)信息進(jìn)行分類(lèi)處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)類(lèi)型的預(yù)測(cè)。分類(lèi)的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類(lèi)模型是樸素貝葉斯模型和決策樹(shù)模型。

1.2 關(guān)聯(lián)分析

在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對(duì)未知數(shù)據(jù)或者模糊數(shù)據(jù)進(jìn)行推導(dǎo)和預(yù)測(cè)。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行研究時(shí),通常也是在該算法的基礎(chǔ)上進(jìn)行修改和擴(kuò)展。但是,Apriori算法在對(duì)支持度進(jìn)行計(jì)算時(shí),需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次全面掃描,生成的候選集存在較多的冗雜項(xiàng),因此存在一定的性能瓶頸,需要進(jìn)行改進(jìn)和解決。

1.3 聚類(lèi)分析

聚類(lèi)分析是一種具有良好實(shí)用性的數(shù)據(jù)挖掘技術(shù),可以對(duì)無(wú)規(guī)律的數(shù)據(jù)進(jìn)行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場(chǎng)分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類(lèi)分析,實(shí)際上是通過(guò)觀察以及非示例性的學(xué)習(xí),完成對(duì)于數(shù)據(jù)對(duì)象的分類(lèi),以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識(shí)水平的英系那個(gè),可能造成算法性能的不穩(wěn)定或者聚類(lèi)結(jié)果的偏差,因此在利用時(shí)需要格外注意。

2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化

在當(dāng)前的大數(shù)據(jù)時(shí)代,面對(duì)海量的數(shù)據(jù)處理問(wèn)題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實(shí)都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計(jì)算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問(wèn)題,針對(duì)算法的性能瓶頸進(jìn)行改進(jìn),使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實(shí)意義。

云計(jì)算是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來(lái)的,是一種基于互聯(lián)網(wǎng)的計(jì)算方式,能夠結(jié)合用戶的實(shí)際需求,對(duì)于服務(wù)器、存儲(chǔ)、軟件、服務(wù)和網(wǎng)絡(luò)等資源進(jìn)行動(dòng)態(tài)分配,通過(guò)合理有效的設(shè)計(jì)和調(diào)整,使得資源的利用率達(dá)到最高。在云計(jì)算背景下,可以提供高效的并行化計(jì)算能力,從而提高數(shù)據(jù)挖掘的高效性和實(shí)用性,方便對(duì)于海量數(shù)據(jù)的處理。

這里主要針對(duì)MC-Apriori算法的并行化改進(jìn)進(jìn)行分析和探討。

2.1 并行關(guān)聯(lián)規(guī)則挖掘算法

在不斷的發(fā)展過(guò)程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來(lái)說(shuō),都是在Apriori算法的基礎(chǔ)上,進(jìn)行改進(jìn)和創(chuàng)新,這些算法主要是針對(duì)原有算法中存在的問(wèn)題的改進(jìn),屬于一種串行算法。這些改進(jìn)后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機(jī)算法對(duì)于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計(jì)算,對(duì)數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)。描述如下:

設(shè)計(jì)算機(jī)集群中n臺(tái)計(jì)算機(jī)節(jié)點(diǎn)N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個(gè)節(jié)點(diǎn)存放子事務(wù)數(shù)據(jù)庫(kù)Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫(kù)為

總事務(wù)條數(shù)為

關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲(chǔ)共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:

基于并行計(jì)算理論,對(duì)現(xiàn)有的關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),可以實(shí)行多種新的算法,這些算法的并行點(diǎn)多在候選集和頻繁集計(jì)算。主要包括以下幾種:

(1)CD算法:這種算法是對(duì)Apriori算法的簡(jiǎn)單并行,主要是將事務(wù)數(shù)據(jù)庫(kù)分到n個(gè)節(jié)點(diǎn),然后在單個(gè)節(jié)點(diǎn),運(yùn)行Apriori算法,每一個(gè)節(jié)點(diǎn)的候選集支持度計(jì)算,最后,進(jìn)行全局同步以及共享計(jì)數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒(méi)有對(duì)內(nèi)存進(jìn)行有效利用。

(2)DD算法:DD算法是通過(guò)循環(huán)的方式,將候選集分配到多個(gè)節(jié)點(diǎn),之后在單個(gè)節(jié)點(diǎn)上對(duì)候選集的支持度進(jìn)行計(jì)算,需要使用其他節(jié)點(diǎn)的數(shù)據(jù)集時(shí),可以通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計(jì)數(shù),但是,在實(shí)用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。

2.2 并行MC-Apriori算法

關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實(shí)現(xiàn)并行化運(yùn)算,主要是在單機(jī)的情況下,結(jié)合計(jì)算項(xiàng)的個(gè)數(shù),對(duì)1-頻繁集進(jìn)行計(jì)算,生成相應(yīng)的k-1-候選集,并通過(guò)對(duì)候選集的修剪,得到k頻繁集。在對(duì)候選集的支持度進(jìn)行計(jì)算的過(guò)程中,可以并行化處理,在多個(gè)節(jié)點(diǎn)對(duì)本地候選集的本地支持度進(jìn)行計(jì)數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個(gè)頻繁項(xiàng)集對(duì)應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個(gè)事務(wù)數(shù)據(jù)最好可以保存在單個(gè)數(shù)據(jù)塊中。

3 結(jié)束語(yǔ)

總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無(wú)法滿足海量數(shù)據(jù)的挖掘和處理要求,因此需要對(duì)其進(jìn)行改進(jìn)。本文針對(duì)現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進(jìn)行了分析和探討,希望能夠?yàn)橄嚓P(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。

參考文獻(xiàn)

[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.

[2]丁巖.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.

作者簡(jiǎn)介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計(jì)算,數(shù)據(jù)挖掘,通信技術(shù),職稱(chēng):講師。endprint

摘 要:在當(dāng)前信息化的時(shí)代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運(yùn)營(yíng)和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對(duì)這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動(dòng)下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進(jìn)行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。

關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化

1 數(shù)據(jù)挖掘算法概述

數(shù)據(jù)挖掘,又稱(chēng)知識(shí)發(fā)現(xiàn),是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的一個(gè)交叉點(diǎn),主要是指從不同的角度,對(duì)數(shù)據(jù)進(jìn)行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過(guò)程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過(guò)對(duì)企業(yè)在商業(yè)活動(dòng)中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營(yíng)管理決策的制定提供科學(xué)的參考依據(jù)。

從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個(gè)方面:

1.1 分類(lèi)分析

分類(lèi)分析,是指對(duì)數(shù)據(jù)信息進(jìn)行分類(lèi)處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)類(lèi)型的預(yù)測(cè)。分類(lèi)的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類(lèi)模型是樸素貝葉斯模型和決策樹(shù)模型。

1.2 關(guān)聯(lián)分析

在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對(duì)未知數(shù)據(jù)或者模糊數(shù)據(jù)進(jìn)行推導(dǎo)和預(yù)測(cè)。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行研究時(shí),通常也是在該算法的基礎(chǔ)上進(jìn)行修改和擴(kuò)展。但是,Apriori算法在對(duì)支持度進(jìn)行計(jì)算時(shí),需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次全面掃描,生成的候選集存在較多的冗雜項(xiàng),因此存在一定的性能瓶頸,需要進(jìn)行改進(jìn)和解決。

1.3 聚類(lèi)分析

聚類(lèi)分析是一種具有良好實(shí)用性的數(shù)據(jù)挖掘技術(shù),可以對(duì)無(wú)規(guī)律的數(shù)據(jù)進(jìn)行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場(chǎng)分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類(lèi)分析,實(shí)際上是通過(guò)觀察以及非示例性的學(xué)習(xí),完成對(duì)于數(shù)據(jù)對(duì)象的分類(lèi),以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識(shí)水平的英系那個(gè),可能造成算法性能的不穩(wěn)定或者聚類(lèi)結(jié)果的偏差,因此在利用時(shí)需要格外注意。

2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化

在當(dāng)前的大數(shù)據(jù)時(shí)代,面對(duì)海量的數(shù)據(jù)處理問(wèn)題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實(shí)都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計(jì)算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問(wèn)題,針對(duì)算法的性能瓶頸進(jìn)行改進(jìn),使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實(shí)意義。

云計(jì)算是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來(lái)的,是一種基于互聯(lián)網(wǎng)的計(jì)算方式,能夠結(jié)合用戶的實(shí)際需求,對(duì)于服務(wù)器、存儲(chǔ)、軟件、服務(wù)和網(wǎng)絡(luò)等資源進(jìn)行動(dòng)態(tài)分配,通過(guò)合理有效的設(shè)計(jì)和調(diào)整,使得資源的利用率達(dá)到最高。在云計(jì)算背景下,可以提供高效的并行化計(jì)算能力,從而提高數(shù)據(jù)挖掘的高效性和實(shí)用性,方便對(duì)于海量數(shù)據(jù)的處理。

這里主要針對(duì)MC-Apriori算法的并行化改進(jìn)進(jìn)行分析和探討。

2.1 并行關(guān)聯(lián)規(guī)則挖掘算法

在不斷的發(fā)展過(guò)程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來(lái)說(shuō),都是在Apriori算法的基礎(chǔ)上,進(jìn)行改進(jìn)和創(chuàng)新,這些算法主要是針對(duì)原有算法中存在的問(wèn)題的改進(jìn),屬于一種串行算法。這些改進(jìn)后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機(jī)算法對(duì)于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計(jì)算,對(duì)數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)。描述如下:

設(shè)計(jì)算機(jī)集群中n臺(tái)計(jì)算機(jī)節(jié)點(diǎn)N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個(gè)節(jié)點(diǎn)存放子事務(wù)數(shù)據(jù)庫(kù)Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫(kù)為

總事務(wù)條數(shù)為

關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲(chǔ)共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:

基于并行計(jì)算理論,對(duì)現(xiàn)有的關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),可以實(shí)行多種新的算法,這些算法的并行點(diǎn)多在候選集和頻繁集計(jì)算。主要包括以下幾種:

(1)CD算法:這種算法是對(duì)Apriori算法的簡(jiǎn)單并行,主要是將事務(wù)數(shù)據(jù)庫(kù)分到n個(gè)節(jié)點(diǎn),然后在單個(gè)節(jié)點(diǎn),運(yùn)行Apriori算法,每一個(gè)節(jié)點(diǎn)的候選集支持度計(jì)算,最后,進(jìn)行全局同步以及共享計(jì)數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒(méi)有對(duì)內(nèi)存進(jìn)行有效利用。

(2)DD算法:DD算法是通過(guò)循環(huán)的方式,將候選集分配到多個(gè)節(jié)點(diǎn),之后在單個(gè)節(jié)點(diǎn)上對(duì)候選集的支持度進(jìn)行計(jì)算,需要使用其他節(jié)點(diǎn)的數(shù)據(jù)集時(shí),可以通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計(jì)數(shù),但是,在實(shí)用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。

2.2 并行MC-Apriori算法

關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實(shí)現(xiàn)并行化運(yùn)算,主要是在單機(jī)的情況下,結(jié)合計(jì)算項(xiàng)的個(gè)數(shù),對(duì)1-頻繁集進(jìn)行計(jì)算,生成相應(yīng)的k-1-候選集,并通過(guò)對(duì)候選集的修剪,得到k頻繁集。在對(duì)候選集的支持度進(jìn)行計(jì)算的過(guò)程中,可以并行化處理,在多個(gè)節(jié)點(diǎn)對(duì)本地候選集的本地支持度進(jìn)行計(jì)數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個(gè)頻繁項(xiàng)集對(duì)應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個(gè)事務(wù)數(shù)據(jù)最好可以保存在單個(gè)數(shù)據(jù)塊中。

3 結(jié)束語(yǔ)

總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無(wú)法滿足海量數(shù)據(jù)的挖掘和處理要求,因此需要對(duì)其進(jìn)行改進(jìn)。本文針對(duì)現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進(jìn)行了分析和探討,希望能夠?yàn)橄嚓P(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。

參考文獻(xiàn)

[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.

[2]丁巖.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.

作者簡(jiǎn)介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計(jì)算,數(shù)據(jù)挖掘,通信技術(shù),職稱(chēng):講師。endprint

主站蜘蛛池模板: 久久亚洲国产视频| 亚欧美国产综合| 欧美一区二区福利视频| 白浆视频在线观看| 91九色视频网| 国产精品分类视频分类一区| 久草视频福利在线观看| 91精品人妻互换| 亚洲精品午夜天堂网页| 国产一级在线观看www色| 中文字幕在线观| 高清大学生毛片一级| a在线亚洲男人的天堂试看| 国产精品自在线拍国产电影| 久久99精品久久久久久不卡| 国产精品视频观看裸模| 国产a v无码专区亚洲av| 日本道综合一本久久久88| 在线观看无码a∨| 91视频青青草| 亚洲av日韩av制服丝袜| 在线播放国产一区| 香蕉视频国产精品人| 日本伊人色综合网| 午夜毛片福利| 色婷婷在线影院| 国产青青操| 久久久久青草线综合超碰| www.精品国产| 国产精品亚洲一区二区在线观看| 亚洲日韩国产精品无码专区| 欧美成人影院亚洲综合图| 99精品福利视频| 亚洲最大在线观看| 中文字幕久久亚洲一区| 日本五区在线不卡精品| 国产黑丝一区| 特级aaaaaaaaa毛片免费视频 | 国产网站一区二区三区| 亚洲精品视频在线观看视频| 国产成人av大片在线播放| 国产午夜无码片在线观看网站| 青青青伊人色综合久久| 亚洲全网成人资源在线观看| 日韩精品毛片人妻AV不卡| 狠狠做深爱婷婷综合一区| 日韩不卡免费视频| 性欧美久久| 中文字幕在线免费看| 欧美天堂久久| 青青网在线国产| 亚洲无线一二三四区男男| 欧美国产综合视频| 國產尤物AV尤物在線觀看| 伊人欧美在线| 97青草最新免费精品视频| 日韩精品专区免费无码aⅴ| 免费国产在线精品一区| 精品国产成人av免费| 天天色天天操综合网| 91美女视频在线| 毛片网站在线看| 久久久精品久久久久三级| 日韩毛片免费| 国产v精品成人免费视频71pao | 久久久久无码精品| 国产亚洲精品无码专| 精品久久香蕉国产线看观看gif| 无码中文字幕乱码免费2| 91视频日本| 亚洲欧美在线综合一区二区三区| 国产乱子伦一区二区=| 在线免费亚洲无码视频| av性天堂网| 天天躁日日躁狠狠躁中文字幕| 免费欧美一级| 午夜人性色福利无码视频在线观看| 亚洲福利片无码最新在线播放| 亚洲午夜福利精品无码不卡| 在线视频精品一区| 91年精品国产福利线观看久久| 999在线免费视频|