999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粗糙集的海量數(shù)據(jù)挖掘算法研究

2016-04-12 00:00:00張貴紅李中華
現(xiàn)代電子技術(shù) 2016年17期

摘 要: 針對(duì)傳統(tǒng)數(shù)據(jù)挖掘算法在數(shù)據(jù)量級(jí)方面的局限性,提出在粗糙集理論的基礎(chǔ)上,采用類分布鏈表結(jié)構(gòu)改進(jìn)傳統(tǒng)的基于屬性重要性的數(shù)據(jù)離散化算法、屬性約簡(jiǎn)算法以及基于啟發(fā)式的值約簡(jiǎn)算法;討論了基于動(dòng)態(tài)聚類的兩步離散化算法,當(dāng)算法適應(yīng)大數(shù)據(jù)處理之后,采用并行計(jì)算的方法提高算法的執(zhí)行效率。算法測(cè)試結(jié)果表明改進(jìn)的算法能有效地處理大數(shù)據(jù)量,同時(shí)并行計(jì)算解決了大數(shù)據(jù)量處理帶來的效率問題。

關(guān)鍵詞: 數(shù)據(jù)挖掘; 粗糙集; 大數(shù)據(jù)處理; 并行計(jì)算

中圖分類號(hào): TN911?34; TQ028.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)17?0116?04

0 引 言

信息時(shí)代,數(shù)據(jù)(尤其是海量數(shù)據(jù))已被各企業(yè)、各研究機(jī)構(gòu)當(dāng)成重大的知識(shí)來源、決策的重要依據(jù)[1],對(duì)數(shù)據(jù)的急速增長,如何有效地解決數(shù)據(jù)挖掘過程中空間和時(shí)間的可伸縮性已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域中迫切需要解決的難題[2]。從知識(shí)發(fā)現(xiàn)的過程中可以看到,數(shù)據(jù)挖掘不僅面臨著數(shù)據(jù)庫中的龐大數(shù)據(jù)問題[3],而且這些數(shù)據(jù)有可能是不整齊的、不完全的、隨機(jī)的、有噪聲的、有復(fù)雜的數(shù)據(jù)結(jié)構(gòu)、維數(shù)大[4]。傳統(tǒng)的數(shù)據(jù)挖掘算法還限制于單機(jī)內(nèi)存的容量[5],當(dāng)一次性需要分析的數(shù)據(jù)不能全部進(jìn)入內(nèi)存時(shí),算法的性能就會(huì)嚴(yán)重降低[6],甚至得不到預(yù)期的結(jié)果,使用基于粗糙集理論的算法策略將有效地解決這個(gè)問題[7]。

本文針對(duì)傳統(tǒng)數(shù)據(jù)挖掘算法在數(shù)據(jù)量級(jí)方面的局限性,提出了結(jié)合類分布鏈表,把數(shù)據(jù)挖掘算法推廣到可以處理更高數(shù)據(jù)量級(jí),最后采用并行計(jì)算的方法提高基于動(dòng)態(tài)聚類的兩步離散化算法適應(yīng)大數(shù)據(jù)處理之后的執(zhí)行效率。

1 改進(jìn)的Rough Set知識(shí)約簡(jiǎn)算法

許多經(jīng)典的Rough Set知識(shí)約簡(jiǎn)算法都可以通過引進(jìn)CDL(類分布鏈表)改進(jìn),CDL可以反映某個(gè)條件屬性組合對(duì)論域的分類情況。CDL分為不相容類分布鏈表(ICDL)和相容類分布鏈表(CCDL)兩部分,CCDL根據(jù)鏈表中每個(gè)分類的樣本數(shù)目又可分為單例相容類分布鏈表(SSCDL)和多例相容分布鏈表(MSCDL)[7]。引進(jìn)CDL后,相對(duì)于原始的經(jīng)典算法,改進(jìn)后的算法將具有更好的可伸縮性,能夠更好地處理海量數(shù)據(jù)集。以下通過引入CDL對(duì)包括離散化、屬性約簡(jiǎn)和值約簡(jiǎn)的一組Rough Set知識(shí)約簡(jiǎn)算法進(jìn)行改進(jìn)。

1.1 改進(jìn)的離散化算法

數(shù)據(jù)離散化是Rough Set 知識(shí)獲取方法中的重要組成部分。在此采用基于屬性重要性的離散化算法,在原算法的基礎(chǔ)上通過引入CDL,使得該算法能夠處理海量數(shù)據(jù)。

3 算法測(cè)試

3.1 改進(jìn)的Rough Set知識(shí)約簡(jiǎn)算法測(cè)試

3.1.1 算法正確性測(cè)試

選擇UCI數(shù)據(jù)庫中的5個(gè)數(shù)據(jù)集(見表1)來比較經(jīng)過CDL改進(jìn)的知識(shí)約簡(jiǎn)算法與原始經(jīng)典Rough Set算法的正確性,雙方都應(yīng)用了相同的算法組合。比較的結(jié)果見表2,從結(jié)果中可以得出:使用經(jīng)過CDL改造后的知識(shí)約簡(jiǎn)算法不影響原始的經(jīng)典Rough Set算法的正確率及識(shí)別率等性能。

3.1.2 可伸縮性測(cè)試

當(dāng)訓(xùn)練集的大小從10萬條逐漸增加到100萬條時(shí),測(cè)試集的記錄數(shù)是訓(xùn)練集的30%。生成海量數(shù)據(jù)集,數(shù)據(jù)集有8個(gè)條件屬性和一個(gè)決策屬性。圖1顯示了正確率以及識(shí)別率的變化情況,圖2顯示了知識(shí)獲取所用的時(shí)間變化情況。在數(shù)據(jù)集的量級(jí)增大時(shí),傳統(tǒng)的Rough Set方法已經(jīng)不能適用。

從圖1和圖2可以看出,新改進(jìn)的算法可以提高原算法的可伸縮性,使得能夠適應(yīng)更大的數(shù)據(jù)集,而且性能很好,不失正確率及識(shí)別率。至于知識(shí)發(fā)現(xiàn)所花的時(shí)間比較長,與測(cè)試平臺(tái)所用的SQL服務(wù)器效率有關(guān),利用并行算法則可以提高處理的速度。

3.2 基于動(dòng)態(tài)聚類的兩步離散化算法的并行化處理算法測(cè)試

從UCI數(shù)據(jù)庫中選取6組數(shù)據(jù)集對(duì)算法2.2進(jìn)行測(cè)試。表3是實(shí)驗(yàn)所使用的數(shù)據(jù)集。表4,表5展示了基于動(dòng)態(tài)聚類的離散化算法、基于動(dòng)態(tài)聚類的兩步離散化算法、貪心算法、基于斷點(diǎn)重要性的離散化算法等5種算法的運(yùn)算對(duì)比結(jié)果。其中,算法的運(yùn)行時(shí)間用符號(hào)[T]表示,規(guī)則集的正確識(shí)別率用符號(hào)[P]表示。

使用基于動(dòng)態(tài)聚類的離散化算法進(jìn)行了動(dòng)態(tài)聚類之后,如表6所示,從SONA,PIMA,IRIS等可以看出,每個(gè)數(shù)據(jù)集的候選斷點(diǎn)數(shù)目都有了明顯的降低。基于動(dòng)態(tài)聚類的兩步離散化算法的運(yùn)行速度效率更快,針對(duì)正確識(shí)別率、屬性重要性等方面,貪心算法、基于斷點(diǎn)重要性的離散化算法與基于動(dòng)態(tài)聚類的兩步離散化算法保持一致。

4 結(jié) 論

基于目前常用的數(shù)據(jù)挖掘算法,采用了類分布鏈表來改進(jìn)傳統(tǒng)的數(shù)據(jù)挖掘算法,使得該算法能直接處理海量數(shù)據(jù)集,實(shí)現(xiàn)處理超大規(guī)模數(shù)據(jù)集的目標(biāo)。系統(tǒng)采用并行計(jì)算的核心思想,基于動(dòng)態(tài)聚類的并行離散化算法提出的分布確定類分布鏈表的方法,有效解決了系統(tǒng)內(nèi)存限制的問題。同時(shí),提高了基于動(dòng)態(tài)聚類的兩步離散化算法的運(yùn)行效率。

參考文獻(xiàn)

[1] 黃朝輝.基于變精度粗糙集的數(shù)據(jù)挖掘方法研究[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,30(4):3?4.

[2] 要照華,閆宏印.基于粗糙集的海量數(shù)據(jù)挖掘[J].機(jī)械管理開發(fā),2010,25(1):17?18.

[3] 石凱.基于粗糙集理論的屬性約簡(jiǎn)與決策樹分類算法研究[D].大連:大連海事大學(xué),2014:22?25.

[4] 劉華元,袁琴琴,王保保.并行數(shù)據(jù)挖掘算法綜述[J].電子科技,2006(1):65?68.

[5] 陳貞,邢笑雪.粗糙集連續(xù)屬性離散化的k均值方法[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(5):642?646.

[6] CORNELIS C, KRYSZKIEWICZ M, SLEZAK D, et al. Rough sets and current trends in soft computing [M]. Berlin: Springer, 2014: 11?15.

[7] 劉建.并行程序設(shè)計(jì)方法學(xué)[M].武漢:華中科技大學(xué)出版社,2000:11?13.

[8] 陳小燕.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù),2015,38(20):11?14.

主站蜘蛛池模板: 亚洲Aⅴ无码专区在线观看q| 亚洲日韩精品综合在线一区二区| 伊人成人在线| 久久黄色一级片| 亚洲成人一区在线| 在线欧美a| 国内自拍久第一页| 精品国产成人av免费| 国产精品三级专区| 青青草原国产免费av观看| 欧美笫一页| 又爽又大又光又色的午夜视频| 亚洲欧美在线综合图区| 国产日韩欧美中文| 99精品一区二区免费视频| 日韩人妻少妇一区二区| 亚州AV秘 一区二区三区| 波多野结衣视频一区二区| 亚洲天堂日韩av电影| 国产激情无码一区二区免费| 国产激情影院| 中国国产高清免费AV片| 久久综合结合久久狠狠狠97色| 国产特一级毛片| 国产福利一区二区在线观看| 亚洲成人黄色在线观看| 欧美中文字幕在线播放| 国产精品视频白浆免费视频| 成人免费网站在线观看| 天堂成人在线视频| 成人一级黄色毛片| 一本久道久综合久久鬼色| 99re精彩视频| 精品国产一二三区| 国产香蕉国产精品偷在线观看| 欧美成人精品在线| 色综合天天操| 国产亚洲精久久久久久久91| 亚洲色图欧美一区| 无码高潮喷水专区久久| 国产精品人成在线播放| 国产情精品嫩草影院88av| 天天摸夜夜操| 香蕉eeww99国产在线观看| 天天激情综合| 国产激情国语对白普通话| 一区二区三区四区日韩| 婷婷久久综合九色综合88| 2020最新国产精品视频| 91精品啪在线观看国产| av天堂最新版在线| 亚洲乱伦视频| 麻豆AV网站免费进入| 搞黄网站免费观看| 亚洲女同一区二区| 久久久久亚洲Av片无码观看| 亚洲中文久久精品无玛| 久久男人资源站| 欧美不卡视频一区发布| 成人精品免费视频| 国产无人区一区二区三区| 免费观看成人久久网免费观看| 美女一级毛片无遮挡内谢| 丁香五月激情图片| 国产无码性爱一区二区三区| 欧美a在线| 色精品视频| 国产在线八区| 欧美性久久久久| 成人午夜视频免费看欧美| 久久免费观看视频| 亚洲无码高清一区| 亚洲精品天堂自在久久77| 亚洲成av人无码综合在线观看| 精品少妇人妻av无码久久| 亚洲制服丝袜第一页| 亚洲视频欧美不卡| 国产精品任我爽爆在线播放6080| 国产精品国产三级国产专业不| 88av在线| 午夜福利亚洲精品| 91精品专区|