999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粗糙集的海量數(shù)據(jù)挖掘算法研究

2016-04-12 00:00:00張貴紅李中華
現(xiàn)代電子技術(shù) 2016年17期

摘 要: 針對(duì)傳統(tǒng)數(shù)據(jù)挖掘算法在數(shù)據(jù)量級(jí)方面的局限性,提出在粗糙集理論的基礎(chǔ)上,采用類分布鏈表結(jié)構(gòu)改進(jìn)傳統(tǒng)的基于屬性重要性的數(shù)據(jù)離散化算法、屬性約簡(jiǎn)算法以及基于啟發(fā)式的值約簡(jiǎn)算法;討論了基于動(dòng)態(tài)聚類的兩步離散化算法,當(dāng)算法適應(yīng)大數(shù)據(jù)處理之后,采用并行計(jì)算的方法提高算法的執(zhí)行效率。算法測(cè)試結(jié)果表明改進(jìn)的算法能有效地處理大數(shù)據(jù)量,同時(shí)并行計(jì)算解決了大數(shù)據(jù)量處理帶來的效率問題。

關(guān)鍵詞: 數(shù)據(jù)挖掘; 粗糙集; 大數(shù)據(jù)處理; 并行計(jì)算

中圖分類號(hào): TN911?34; TQ028.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)17?0116?04

0 引 言

信息時(shí)代,數(shù)據(jù)(尤其是海量數(shù)據(jù))已被各企業(yè)、各研究機(jī)構(gòu)當(dāng)成重大的知識(shí)來源、決策的重要依據(jù)[1],對(duì)數(shù)據(jù)的急速增長,如何有效地解決數(shù)據(jù)挖掘過程中空間和時(shí)間的可伸縮性已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域中迫切需要解決的難題[2]。從知識(shí)發(fā)現(xiàn)的過程中可以看到,數(shù)據(jù)挖掘不僅面臨著數(shù)據(jù)庫中的龐大數(shù)據(jù)問題[3],而且這些數(shù)據(jù)有可能是不整齊的、不完全的、隨機(jī)的、有噪聲的、有復(fù)雜的數(shù)據(jù)結(jié)構(gòu)、維數(shù)大[4]。傳統(tǒng)的數(shù)據(jù)挖掘算法還限制于單機(jī)內(nèi)存的容量[5],當(dāng)一次性需要分析的數(shù)據(jù)不能全部進(jìn)入內(nèi)存時(shí),算法的性能就會(huì)嚴(yán)重降低[6],甚至得不到預(yù)期的結(jié)果,使用基于粗糙集理論的算法策略將有效地解決這個(gè)問題[7]。

本文針對(duì)傳統(tǒng)數(shù)據(jù)挖掘算法在數(shù)據(jù)量級(jí)方面的局限性,提出了結(jié)合類分布鏈表,把數(shù)據(jù)挖掘算法推廣到可以處理更高數(shù)據(jù)量級(jí),最后采用并行計(jì)算的方法提高基于動(dòng)態(tài)聚類的兩步離散化算法適應(yīng)大數(shù)據(jù)處理之后的執(zhí)行效率。

1 改進(jìn)的Rough Set知識(shí)約簡(jiǎn)算法

許多經(jīng)典的Rough Set知識(shí)約簡(jiǎn)算法都可以通過引進(jìn)CDL(類分布鏈表)改進(jìn),CDL可以反映某個(gè)條件屬性組合對(duì)論域的分類情況。CDL分為不相容類分布鏈表(ICDL)和相容類分布鏈表(CCDL)兩部分,CCDL根據(jù)鏈表中每個(gè)分類的樣本數(shù)目又可分為單例相容類分布鏈表(SSCDL)和多例相容分布鏈表(MSCDL)[7]。引進(jìn)CDL后,相對(duì)于原始的經(jīng)典算法,改進(jìn)后的算法將具有更好的可伸縮性,能夠更好地處理海量數(shù)據(jù)集。以下通過引入CDL對(duì)包括離散化、屬性約簡(jiǎn)和值約簡(jiǎn)的一組Rough Set知識(shí)約簡(jiǎn)算法進(jìn)行改進(jìn)。

1.1 改進(jìn)的離散化算法

數(shù)據(jù)離散化是Rough Set 知識(shí)獲取方法中的重要組成部分。在此采用基于屬性重要性的離散化算法,在原算法的基礎(chǔ)上通過引入CDL,使得該算法能夠處理海量數(shù)據(jù)。

3 算法測(cè)試

3.1 改進(jìn)的Rough Set知識(shí)約簡(jiǎn)算法測(cè)試

3.1.1 算法正確性測(cè)試

選擇UCI數(shù)據(jù)庫中的5個(gè)數(shù)據(jù)集(見表1)來比較經(jīng)過CDL改進(jìn)的知識(shí)約簡(jiǎn)算法與原始經(jīng)典Rough Set算法的正確性,雙方都應(yīng)用了相同的算法組合。比較的結(jié)果見表2,從結(jié)果中可以得出:使用經(jīng)過CDL改造后的知識(shí)約簡(jiǎn)算法不影響原始的經(jīng)典Rough Set算法的正確率及識(shí)別率等性能。

3.1.2 可伸縮性測(cè)試

當(dāng)訓(xùn)練集的大小從10萬條逐漸增加到100萬條時(shí),測(cè)試集的記錄數(shù)是訓(xùn)練集的30%。生成海量數(shù)據(jù)集,數(shù)據(jù)集有8個(gè)條件屬性和一個(gè)決策屬性。圖1顯示了正確率以及識(shí)別率的變化情況,圖2顯示了知識(shí)獲取所用的時(shí)間變化情況。在數(shù)據(jù)集的量級(jí)增大時(shí),傳統(tǒng)的Rough Set方法已經(jīng)不能適用。

從圖1和圖2可以看出,新改進(jìn)的算法可以提高原算法的可伸縮性,使得能夠適應(yīng)更大的數(shù)據(jù)集,而且性能很好,不失正確率及識(shí)別率。至于知識(shí)發(fā)現(xiàn)所花的時(shí)間比較長,與測(cè)試平臺(tái)所用的SQL服務(wù)器效率有關(guān),利用并行算法則可以提高處理的速度。

3.2 基于動(dòng)態(tài)聚類的兩步離散化算法的并行化處理算法測(cè)試

從UCI數(shù)據(jù)庫中選取6組數(shù)據(jù)集對(duì)算法2.2進(jìn)行測(cè)試。表3是實(shí)驗(yàn)所使用的數(shù)據(jù)集。表4,表5展示了基于動(dòng)態(tài)聚類的離散化算法、基于動(dòng)態(tài)聚類的兩步離散化算法、貪心算法、基于斷點(diǎn)重要性的離散化算法等5種算法的運(yùn)算對(duì)比結(jié)果。其中,算法的運(yùn)行時(shí)間用符號(hào)[T]表示,規(guī)則集的正確識(shí)別率用符號(hào)[P]表示。

使用基于動(dòng)態(tài)聚類的離散化算法進(jìn)行了動(dòng)態(tài)聚類之后,如表6所示,從SONA,PIMA,IRIS等可以看出,每個(gè)數(shù)據(jù)集的候選斷點(diǎn)數(shù)目都有了明顯的降低。基于動(dòng)態(tài)聚類的兩步離散化算法的運(yùn)行速度效率更快,針對(duì)正確識(shí)別率、屬性重要性等方面,貪心算法、基于斷點(diǎn)重要性的離散化算法與基于動(dòng)態(tài)聚類的兩步離散化算法保持一致。

4 結(jié) 論

基于目前常用的數(shù)據(jù)挖掘算法,采用了類分布鏈表來改進(jìn)傳統(tǒng)的數(shù)據(jù)挖掘算法,使得該算法能直接處理海量數(shù)據(jù)集,實(shí)現(xiàn)處理超大規(guī)模數(shù)據(jù)集的目標(biāo)。系統(tǒng)采用并行計(jì)算的核心思想,基于動(dòng)態(tài)聚類的并行離散化算法提出的分布確定類分布鏈表的方法,有效解決了系統(tǒng)內(nèi)存限制的問題。同時(shí),提高了基于動(dòng)態(tài)聚類的兩步離散化算法的運(yùn)行效率。

參考文獻(xiàn)

[1] 黃朝輝.基于變精度粗糙集的數(shù)據(jù)挖掘方法研究[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,30(4):3?4.

[2] 要照華,閆宏印.基于粗糙集的海量數(shù)據(jù)挖掘[J].機(jī)械管理開發(fā),2010,25(1):17?18.

[3] 石凱.基于粗糙集理論的屬性約簡(jiǎn)與決策樹分類算法研究[D].大連:大連海事大學(xué),2014:22?25.

[4] 劉華元,袁琴琴,王保保.并行數(shù)據(jù)挖掘算法綜述[J].電子科技,2006(1):65?68.

[5] 陳貞,邢笑雪.粗糙集連續(xù)屬性離散化的k均值方法[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(5):642?646.

[6] CORNELIS C, KRYSZKIEWICZ M, SLEZAK D, et al. Rough sets and current trends in soft computing [M]. Berlin: Springer, 2014: 11?15.

[7] 劉建.并行程序設(shè)計(jì)方法學(xué)[M].武漢:華中科技大學(xué)出版社,2000:11?13.

[8] 陳小燕.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù),2015,38(20):11?14.

主站蜘蛛池模板: 亚洲va欧美ⅴa国产va影院| 性欧美精品xxxx| 国产精品亚洲va在线观看| 国产主播一区二区三区| 高清视频一区| 亚洲毛片网站| 国产95在线 | 在线国产毛片手机小视频| 国产女人在线| 日韩欧美视频第一区在线观看| 成人福利在线观看| 国产99免费视频| 亚洲最大福利视频网| 婷婷色狠狠干| 亚洲清纯自偷自拍另类专区| 欧美专区日韩专区| 免费国产小视频在线观看| 夜精品a一区二区三区| 97视频免费在线观看| 热这里只有精品国产热门精品| 波多野结衣视频网站| 国产精品免费露脸视频| 综合色在线| 色综合久久无码网| 91网在线| 午夜视频日本| 亚洲天堂首页| 国产jizz| 免费人成网站在线观看欧美| 久久窝窝国产精品午夜看片| 亚洲无码电影| 日韩精品专区免费无码aⅴ| 影音先锋丝袜制服| 亚洲天堂视频在线免费观看| 国产色婷婷| 婷婷午夜天| 香蕉eeww99国产精选播放| 在线免费观看AV| 九色91在线视频| 国产日韩欧美一区二区三区在线 | 亚洲黄网在线| 99免费视频观看| 精品成人一区二区三区电影| 国产精品30p| 欧美一区二区啪啪| 亚洲无卡视频| 一本大道无码日韩精品影视| 一级毛片在线播放| 99精品欧美一区| 国产人成在线观看| 亚洲精品中文字幕无乱码| 欧美性精品| 色偷偷综合网| 成·人免费午夜无码视频在线观看 | 亚洲黄网视频| 一本大道在线一本久道| 欧美在线精品怡红院| 亚洲va视频| 国模极品一区二区三区| 青青青视频91在线 | 欧美国产综合视频| 香港一级毛片免费看| 欧美一级在线| 亚洲视频一区在线| 日韩视频福利| 日韩高清一区 | 无码电影在线观看| 国产精品 欧美激情 在线播放| 亚洲欧美精品在线| 欧美另类一区| 亚洲成人黄色网址| 最新国产午夜精品视频成人| 免费国产无遮挡又黄又爽| 亚洲精品国产综合99| 欧美日韩午夜| 国产原创演绎剧情有字幕的| 亚洲精品国产综合99| 亚洲中文字幕23页在线| 久久国产精品麻豆系列| 国产成人久视频免费 | 亚洲Av综合日韩精品久久久| 伊人久久影视|