999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

探究數(shù)據(jù)挖掘取樣方法

2016-03-03 10:56:08鄧雍嫻
新教育時代電子雜志(教師版) 2016年14期
關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫方法

鄧雍嫻

(珠海容閎學(xué)校湖南大學(xué) 519000)

探究數(shù)據(jù)挖掘取樣方法

鄧雍嫻

(珠海容閎學(xué)校湖南大學(xué) 519000)

所謂取樣就是從目標(biāo)物品或數(shù)據(jù)中選擇具有典型代表性的樣本,并且該樣本具備通用的特點。取樣方法可有效減小需要進(jìn)行處理的數(shù)據(jù)集的規(guī)模,為在大規(guī)模的數(shù)據(jù)處理過程中使用數(shù)據(jù)挖掘計算方式提供了基礎(chǔ)條件。本文主要對數(shù)據(jù)挖掘的取樣方式進(jìn)行了研究,并探索了取樣在實際生活和研究中的應(yīng)用。

數(shù)據(jù)挖掘 數(shù)據(jù)取樣 方法

近年來,數(shù)據(jù)庫技術(shù)取得了長足的發(fā)展,數(shù)據(jù)庫中存儲的數(shù)據(jù)量日漸增加,這就導(dǎo)致傳統(tǒng)的數(shù)據(jù)挖掘方式已經(jīng)無法滿足現(xiàn)代化數(shù)據(jù)庫發(fā)展的要求。在數(shù)據(jù)挖掘的過程中,只有保證挖掘方法具有科學(xué)性和創(chuàng)新性,才能有效減少數(shù)據(jù)挖掘計算的時間,提升數(shù)據(jù)挖掘效率。[1]

一、數(shù)據(jù)挖掘取樣方法

取樣技術(shù)是當(dāng)前世界范圍內(nèi)最通用的一種近似技術(shù),在處理大規(guī)模數(shù)據(jù)工作中應(yīng)用非常廣泛。現(xiàn)階段數(shù)據(jù)挖掘研究的核心內(nèi)容是概要結(jié)構(gòu)的設(shè)計,而取樣技術(shù)本身具備的伸縮性以及靈活性,與其他技術(shù)相比是獨特的,這就使取樣技術(shù)成為能夠構(gòu)建數(shù)據(jù)流概要結(jié)構(gòu)的重要技術(shù)之一。[2]

以各個數(shù)據(jù)項被選擇的概率為依據(jù),可將取樣方法分成均勻取樣,即各個數(shù)據(jù)項被選擇的概率一致;和偏倚取樣,即各個數(shù)據(jù)項被選擇的概率不一致。

1.具有代表性的取樣方法

(1)A/R Sampling

A/R Sampling進(jìn)行的首要步驟是通過某一種計算方式在數(shù)據(jù)集中隨機抽選一個備選的元素,其次是將被選中的備選元素與選擇條件進(jìn)行對比,若備選元素與選擇條件相符合,則需將其放置于樣本集中,即acceptance;若與選擇條件不相符,則需拒絕,即rejection;然后從第一個步驟開始重新來過。

(2)精確取樣

在樣本集中出現(xiàn)僅有一次的元素應(yīng)該使用元素代碼進(jìn)行表示,出現(xiàn)多次的元素應(yīng)該使用value,counto表示,value代表元素代碼,counto代表數(shù)量。在樣本集中添加元素時,若該元素已存在于樣本集中時,應(yīng)該在目錄的相應(yīng)元素后加1,若該元素尚未被收集到樣本集內(nèi),則可進(jìn)行直接收取。樣本集中存儲的元素已經(jīng)超過標(biāo)準(zhǔn)值時,需要對各個元素的原有參數(shù)與現(xiàn)有參數(shù)進(jìn)行對比,并選擇其中一個將其刪除,保證新數(shù)據(jù)有存放的空間。

(3)計數(shù)取樣

該種取樣方式是通過精確取樣演變而來的,變化主要體現(xiàn)在樣本集中元素數(shù)量已滿時,對溢出元素的處理方式。計數(shù)取樣在處理溢出元素情況時,不僅需要將元素的原有參數(shù)與現(xiàn)有參數(shù)進(jìn)行對比,計算原、現(xiàn)參數(shù)之間的比率,利用現(xiàn)參數(shù)分之一對是否將元素刪除進(jìn)行判斷,若其中的一個數(shù)據(jù)的計數(shù)值為0時,無需進(jìn)行該數(shù)據(jù)的操作。

二、數(shù)據(jù)挖掘取樣方法的應(yīng)用與發(fā)展

1.應(yīng)用成功案例

數(shù)據(jù)挖掘取樣技術(shù)在現(xiàn)實生活中應(yīng)用的成功案例有很多,其中包括:第一,常用于商業(yè)數(shù)據(jù)統(tǒng)計的SAS、SPSS數(shù)據(jù)處理軟件等,可使用均勻取樣方式對大規(guī)模的數(shù)據(jù)集進(jìn)行有效處理;第二,數(shù)據(jù)概要結(jié)構(gòu)構(gòu)建過程中使用的基礎(chǔ)取樣技術(shù),如Backing Sample計算技術(shù);第三,在數(shù)據(jù)挖掘計算方式中可以利用均勻取樣方式完成CURE和CLARANS的數(shù)據(jù)預(yù)處理,實現(xiàn)數(shù)據(jù)挖掘計算技術(shù)的擴展。

2.數(shù)據(jù)挖掘取樣技術(shù)的發(fā)展

(1)傳統(tǒng)取樣技術(shù)的發(fā)展

有窮非負(fù)數(shù)數(shù)列的評估方法中就包括自適應(yīng)取樣,該取樣方式在數(shù)據(jù)挖掘中選取的樣本大小可調(diào)節(jié),有效減小取樣大小對數(shù)據(jù)結(jié)果造成的誤差。

兩階段取樣方式可有效降低取樣的成本。比如,在對象集X中進(jìn)行Y取樣的代價過高,就可以利用選取一些取樣輔助變量P的方式降低取樣代價。兩階段取樣方式的具體應(yīng)用流程為,首先完成對象集X中的大尺寸W的取樣工作,從樣本W(wǎng)中提取出輔助變量P;其次,通過已掌握的P的數(shù)據(jù)信息在W中提出數(shù)據(jù);最后通過以上步驟中的取值保證指定的取樣值Y的取樣,并且能夠提升Y的準(zhǔn)確性,以此完成取樣工作。[3]

(2)數(shù)據(jù)流中取樣技術(shù)的發(fā)展

數(shù)據(jù)流中的數(shù)據(jù)流管理和挖掘兩方面會涉及到取樣技術(shù)。第一,數(shù)據(jù)流的模型處理工作中,數(shù)據(jù)概要結(jié)構(gòu)的生成會使用到計數(shù)取樣和水庫取樣等取樣技術(shù);第二,在數(shù)據(jù)流中查詢近似聚集數(shù)據(jù)時會使用到國會取樣以及Distinct Sampling等取樣技術(shù);第三,數(shù)據(jù)流的查詢、分類、評價以及在線分析等多項工作中都會使用到偏倚取樣技術(shù)。

(3)取樣技術(shù)面臨的挑戰(zhàn)

現(xiàn)行的取樣技術(shù)存在的不足主要體現(xiàn)在數(shù)據(jù)流管理中,在小規(guī)模樣本集中提取的數(shù)據(jù)準(zhǔn)確性不足,在空間條件以及準(zhǔn)確性的有限制的情況下,樣本尺寸具有不確定性;與標(biāo)模界的取樣技術(shù)相比,數(shù)據(jù)流管理中使用的取樣技術(shù)略不成熟,存在附加成本較高、滑動窗口的面積過小等缺陷。

結(jié)語

計算機技術(shù)的發(fā)展推動了數(shù)據(jù)挖掘計算方法的創(chuàng)新,數(shù)據(jù)挖掘離不開取樣技術(shù)。多項研究證明取樣技術(shù)在當(dāng)前的大規(guī)模數(shù)據(jù)庫查詢、優(yōu)化以及近似處理中發(fā)揮了重要作用,廣泛應(yīng)用于數(shù)據(jù)挖掘計算的數(shù)據(jù)信息預(yù)處理中,但是取樣技術(shù)成就存在一些不足,這就需要我們對其進(jìn)行更深層次的研究,改善或消除其中的缺陷,促進(jìn)取樣技術(shù)的發(fā)展。

[1]張成叔.關(guān)于數(shù)據(jù)挖掘取樣方式的若干分析[J].赤峰學(xué)院學(xué)報(自然科學(xué)版),2014(09).

[2]陳陽.數(shù)據(jù)挖掘取樣方法研究[J].城市建設(shè)理論研究(電子版),2013(22).

[3]胡文瑜,蔡文培.數(shù)據(jù)挖掘取樣方法的衡量與選用研究[J].福建工程學(xué)院學(xué)報,2011(04).

猜你喜歡
數(shù)據(jù)挖掘數(shù)據(jù)庫方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久一日本道色综合久久| 在线播放国产一区| 在线观看视频99| 国产亚洲视频中文字幕视频| 日韩精品一区二区三区中文无码 | 麻豆精品视频在线原创| 亚洲天堂视频在线免费观看| 在线综合亚洲欧美网站| 国产美女精品在线| 丝袜美女被出水视频一区| 精品久久久久久成人AV| 91青青在线视频| 欧美日韩福利| 色欲色欲久久综合网| 欧美一级爱操视频| 国产成本人片免费a∨短片| 国产精品自拍露脸视频| 日韩免费毛片视频| 国产清纯在线一区二区WWW| 青青国产视频| 最新国产网站| 国产视频你懂得| 亚洲精品在线影院| 精品国产黑色丝袜高跟鞋| 亚洲热线99精品视频| a毛片在线| 美女亚洲一区| 亚洲系列无码专区偷窥无码| 国产av剧情无码精品色午夜| 国产97区一区二区三区无码| 久久综合色播五月男人的天堂| 国产91丝袜在线播放动漫| 亚洲国产AV无码综合原创| 99精品伊人久久久大香线蕉| 亚洲欧洲日韩综合色天使| 在线观看无码av免费不卡网站| 成人午夜福利视频| 国产全黄a一级毛片| 国产精品第一区| 亚洲大尺码专区影院| 在线中文字幕网| 99ri国产在线| 五月天丁香婷婷综合久久| 欧美激情二区三区| 欧美在线视频不卡第一页| 国产精品成人一区二区不卡| 国产成人精品男人的天堂| 国产欧美性爱网| 婷婷伊人久久| 91青草视频| 伊人查蕉在线观看国产精品| 免费国产福利| 国产欧美视频在线观看| 香蕉久久国产超碰青草| 一区二区理伦视频| 青青青草国产| 中文字幕首页系列人妻| 热久久综合这里只有精品电影| 首页亚洲国产丝袜长腿综合| 亚洲国产91人成在线| 国产成人亚洲综合a∨婷婷| 精品伊人久久久大香线蕉欧美| 国产中文一区a级毛片视频| 欧美成人精品一级在线观看| 国产玖玖玖精品视频| 深爱婷婷激情网| 中文字幕亚洲精品2页| 亚洲中文精品人人永久免费| 女人一级毛片| 亚洲狼网站狼狼鲁亚洲下载| 亚洲第一福利视频导航| 91九色最新地址| 色综合成人| 国产原创第一页在线观看| 欧美一道本| 精品国产一区二区三区在线观看 | 亚洲男人天堂网址| 91九色视频网| 五月丁香在线视频| 久久久久亚洲AV成人网站软件| 97亚洲色综久久精品| 欧美不卡视频一区发布|