999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粗糙集的數(shù)據(jù)挖掘方法分析

2011-01-13 02:13:16
關(guān)鍵詞:數(shù)據(jù)挖掘規(guī)則數(shù)據(jù)庫

符 鈺

(泰州職業(yè)技術(shù)學(xué)院電子信息與工程系,江蘇 泰州 225300)

基于粗糙集的數(shù)據(jù)挖掘方法分析

符 鈺

(泰州職業(yè)技術(shù)學(xué)院電子信息與工程系,江蘇 泰州 225300)

文章從數(shù)據(jù)挖掘和粗糙集的基本概念出發(fā),研究粗糙集理論在數(shù)據(jù)挖掘中的典型運(yùn)用,為大型數(shù)據(jù)挖掘提供了一種新的方法。基于粗糙集的數(shù)據(jù)挖掘,首先通過粗糙集理論對數(shù)據(jù)進(jìn)行預(yù)處理,然后對屬性約簡,最后進(jìn)行決策規(guī)則提取,尋找最優(yōu)解。

粗糙集;數(shù)據(jù)挖掘;數(shù)據(jù)處理

1 數(shù)據(jù)挖掘的基本概念

隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增大,在大量數(shù)據(jù)背后隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫中抽取出來,將為公司創(chuàng)造很多潛在的利潤。這種從海量數(shù)據(jù)庫中挖掘信息的技術(shù),就稱之為數(shù)據(jù)挖掘技術(shù)。美國S A S軟件研究所將數(shù)據(jù)挖掘定義為:“按照既定的業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索、揭示隱藏其中的規(guī)律性并進(jìn)一步模型化的先進(jìn)、有效的方法[1]。”數(shù)據(jù)挖掘能夠?qū)淼内厔莺托袨檫M(jìn)行預(yù)測,從而很好地支持人們的決策。比如,通過對公司整個(gè)數(shù)據(jù)庫系統(tǒng)的分析,數(shù)據(jù)挖掘可以回答諸如“哪些客戶最有可能購買我們公司的什么產(chǎn)品,為什么?”等類似問題。數(shù)據(jù)挖掘還能夠解決一些很消耗人工時(shí)間的傳統(tǒng)問題,因?yàn)樗鼈兡軌蚩焖俚貫g覽整個(gè)數(shù)據(jù)庫,找出一些專家們不易察覺的極有用的信息。數(shù)據(jù)挖掘的一般步驟如下:問題理解和提出→數(shù)據(jù)準(zhǔn)備→數(shù)據(jù)整理→建立模型→評價(jià)和解釋。

(1)問題理解和提出:在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實(shí)際的業(yè)務(wù)問題,在這個(gè)基礎(chǔ)之上提出問題,對目標(biāo)有明確的定義。(2)數(shù)據(jù)準(zhǔn)備:獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫,其中一個(gè)問題是,如果企業(yè)原來的數(shù)據(jù)倉庫滿足數(shù)據(jù)挖掘的要求,就可以將數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘庫。(3)數(shù)據(jù)整理:由于數(shù)據(jù)可能是不完全的、有噪聲的、隨機(jī)的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),就要對數(shù)據(jù)進(jìn)行初步的整理,清洗不完全的數(shù)據(jù),做初步的描述分析,選擇與數(shù)據(jù)挖掘有關(guān)的變量,或者轉(zhuǎn)變變量。(4) 建立模型:根據(jù)數(shù)據(jù)挖掘的目標(biāo)和數(shù)據(jù)的特征,選擇合適的模型。(5) 評價(jià)和解釋:對數(shù)據(jù)挖掘的結(jié)果進(jìn)行評價(jià),選擇最優(yōu)的模型,作出評價(jià),運(yùn)用于實(shí)際問題,并且要和專業(yè)知識結(jié)合對結(jié)果進(jìn)行解釋。

以上的步驟不是一次完成的,可能其中某些或者全部要反復(fù)進(jìn)行。

2 粗糙集的基本概念

1982 年,波蘭學(xué)者Z.Pawlak提出了粗糙集理論,它是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效地分析不精確、不一致(inconsistent)、不完整(in CO Mplete)等各種不完備的信息,還可以對數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律[2]。粗糙集理論是建立在分類機(jī)制基礎(chǔ)上的,它將分類理解為在特定空間上的等價(jià)關(guān)系,而等價(jià)關(guān)系構(gòu)成了對該空間的劃分。粗糙集理論將知識理解為對數(shù)據(jù)的劃分,每一被劃分的集合稱為概念。粗糙集理論的主要思想是利用已知的知識庫,將不精確或不確定的知識用已知知識庫中的知識來(近似)刻畫。該理論與其他處理不確定和不精確問題理論的最顯著的區(qū)別是它無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息,所以對問題的不確定性的描述或處理可以說是比較客觀的。

定義1信息系統(tǒng)S可表示為S=(U,A,V,f),其中U是對象的非空有限集合,稱為論域;A是屬性的非空有限集合;V=∪a∈A V a,V a是屬性A的值域,f:U×A→V是一個(gè)信息函數(shù),它為每個(gè)對象的每個(gè)屬性賦予一個(gè)信息值。如果屬性集A可以分為條件屬性集C和決策屬性集D,即C∪D=A,C∩D=Ф,則該信息系統(tǒng)稱為決策系統(tǒng)或決策表,其中D一般只含有一個(gè)屬性。

定義2在知識表達(dá)系統(tǒng)S中,對于一屬性集P∈A,對象x,y∈U,二元等價(jià)關(guān)系I N D(P)={(x,y)∈U×U|所有的a∈P,f(x,a)=f(y,a)}稱為S的不可分辨關(guān)系。不可分辨關(guān)系是一個(gè)等價(jià)關(guān)系,通過一個(gè)不可分辨關(guān)系,可以得到一個(gè)決策系統(tǒng)的劃分。

定義3給定信息系統(tǒng)S=(U,A),B∈A,對B中的屬性a,如果I N D(B)≠I N D(B-{a}),則稱屬性a是必要的(Indispensable),否則稱a是不必要的(Dispensable)。

3 粗糙集在數(shù)據(jù)挖掘中的應(yīng)用

近年來,粗糙集理論在數(shù)據(jù)挖掘中的應(yīng)用取得了較大的進(jìn)展,基于粗糙集理論的方法逐漸成為數(shù)據(jù)挖掘主流方法之一。基于粗糙集理論的數(shù)據(jù)挖掘系統(tǒng)一般都由數(shù)據(jù)預(yù)處理、基于粗糙集理論或其擴(kuò)展理論的數(shù)據(jù)約簡、決策算法等組成。其大概思想是:首先通過粗糙集對信息表中的數(shù)據(jù)缺損進(jìn)行處理;然后根據(jù)已定義的可辯識距陣,通過屬性簡約算法對信息表中的數(shù)據(jù)進(jìn)行屬性簡約和知識發(fā)現(xiàn);最后根據(jù)值約簡等減少屬性和個(gè)體數(shù)目,最終提取規(guī)則并將之應(yīng)用于新對象的分類。

(1) 數(shù)據(jù)預(yù)處理 在現(xiàn)實(shí)世界的很多情況下,我們拿到的第一手?jǐn)?shù)據(jù)都會存在噪音數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)等我們不希望出現(xiàn)的數(shù)據(jù),甚至因?yàn)閿?shù)據(jù)庫過于強(qiáng)大,這樣的數(shù)據(jù)多達(dá)數(shù)千兆字節(jié)。因此,不得不去想一個(gè)問題:“怎樣處理數(shù)據(jù)才能提高數(shù)據(jù)的質(zhì)量,從而提高數(shù)據(jù)挖掘結(jié)果的質(zhì)量呢?”現(xiàn)今已經(jīng)存在的數(shù)據(jù)預(yù)處理技術(shù)有很多,常用的有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約等。其中數(shù)據(jù)清理可以去掉數(shù)據(jù)中的噪音,糾正不一致。數(shù)據(jù)集成可以將數(shù)據(jù)由多個(gè)源合并成一致的數(shù)據(jù)存儲。數(shù)據(jù)歸約可以通過聚集、刪除冗余特性或者聚類等方法來壓縮數(shù)據(jù)[3]。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,可以大大提高數(shù)據(jù)挖掘的模型,降低實(shí)際挖掘所需要的時(shí)間。

(2)屬性約簡和屬性值約簡 在一個(gè)決策系統(tǒng)中,各個(gè)條件屬性之間往往存在著某些程度上的依賴或關(guān)聯(lián),約簡可以理解為在不丟失信息的前提下,最簡單地表示決策系統(tǒng)的結(jié)論屬性對條件屬性集合的依賴和關(guān)聯(lián)。屬性簡約算法如下:

步驟1:計(jì)算屬性表的可辯識矩陣。

步驟2:對可辨識矩陣中的所有取值為非空集合的元素Cij建立相應(yīng)的析取邏輯表達(dá)式。

步驟3:將所有析取邏輯表達(dá)式進(jìn)行合取運(yùn)算,得到一個(gè)合取范式。

步驟4:將合取范式轉(zhuǎn)換為析取范式形式。

步驟5:輸出屬性約簡結(jié)果,其中析取范式中的每個(gè)合取項(xiàng)對應(yīng)一個(gè)屬性約簡的結(jié)果,每個(gè)合取項(xiàng)中所包含的屬性組成約簡后的條件屬性集合。

值約簡的目的是為了提取決策規(guī)則,將缺失的屬性值約簡掉。和屬性約簡不同,值約簡是針對每一個(gè)對象而言的。雖然對整個(gè)決策表來說沒有冗余的屬性,但對于每一個(gè)對象來說,仍然存在著屬性冗余,去掉這些屬性對決策規(guī)則的提取、規(guī)則的簡化有重要的作用。根據(jù)定義一般值約簡算法基本描述如下:對于規(guī)則集合中的每條規(guī)則,對于該規(guī)則中的任意條件屬性,如果去掉該屬性,該規(guī)則不和集合中的其他規(guī)則沖突,則可以從該規(guī)則中去掉該條件屬性。

(3)決策規(guī)則提取 對進(jìn)行屬性約簡和值約簡后的信息表,就可以進(jìn)行規(guī)則的獲取,使用一個(gè)約簡集R E D從決策系統(tǒng)S=(U,A)中產(chǎn)生規(guī)則的過程相當(dāng)直接。直觀地,將每個(gè)約簡用在決策表的每個(gè)對象上,只要簡單地從表中讀出適當(dāng)?shù)膶傩灾祦硇纬蓻Q策規(guī)則。用類似邏輯語言中α→β的形式表示決策規(guī)則,α和β分別稱為決策規(guī)則的前件和后件,α代表?xiàng)l件屬性值的組合。

4 數(shù)據(jù)挖掘應(yīng)用實(shí)例

現(xiàn)在商場對銷售數(shù)據(jù)和客戶信息的處理一般還停留在簡單的數(shù)據(jù)備份和查詢階段,而把基于粗糙集的數(shù)據(jù)挖掘方法引入到對銷售數(shù)據(jù)的分析中,可以找到影響銷售額的真實(shí)原因,有利于有針對性地提高商場的銷售業(yè)績。經(jīng)過數(shù)據(jù)收集和數(shù)據(jù)確認(rèn),從商場銷售數(shù)據(jù)庫以及消費(fèi)積分卡客戶信息數(shù)據(jù)庫中,選擇(性別、年齡、職務(wù)、收入、積分、總消費(fèi)額、羽絨服檔次)作為預(yù)處理前的信息集合(見表1)。

表1 預(yù)處理前信息系統(tǒng)

從表1可以看出,條件屬性中,年齡、積分、總消費(fèi)均為連續(xù)屬性,需要進(jìn)行離散化;同時(shí)多條記錄里存在若干屬性值的缺失,需要進(jìn)行數(shù)據(jù)完備化處理。

(1) 數(shù)據(jù)預(yù)處理 對a 2,a 5,a 6進(jìn)行離散化。設(shè)用戶控制閾值t=2,最多不超過4個(gè)斷點(diǎn),計(jì)算得 P 2={27.5,38},P 5={919.5},P 6={1299.5},P為已選的斷點(diǎn)集合。計(jì)算缺失屬性最相似值:x 2=1;x 4=1;x 6=0;x 8=2;x 10=1(見表 2)。

表2 經(jīng)過數(shù)據(jù)預(yù)處理后的完備信息系統(tǒng)表

表 2中 () 代表缺失值。其中,a 1:0(男)、1(女);a 2:0(27.5歲以下)、1(27.5歲至38歲之間)、2(38歲以上);a 3:0(一般員工)、1(高級職員)、2(高級管理人員);a 4:0(1-2千元)、1(2-4千元)、2(4千元以上);a 5:0(919.5以下)、1(919.5以上);a 6:0(1299.5元以下)、1(1299.5元以上)。

5 結(jié)語

粗糙集理論是一種處理不確定和不精確問題的新型數(shù)學(xué)工具,為數(shù)據(jù)挖掘提供了一條嶄新的途徑。粗糙集理論在數(shù)據(jù)挖掘中的應(yīng)用研究目前正成為信息科學(xué)中的一個(gè)研究熱點(diǎn),其發(fā)展空間廣闊。

[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)出版社,2003.

[2]李紅梅,周桂紅,王克儉.基于粗糙集和遺傳算法的知識發(fā)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用,2007,8(1):76-78.

[3]Jia Weihan.D Atamining Concepts and Techniques[M].北京:機(jī)械工業(yè)出版社,2001,8(1):70-93.

Data Extraction Based on Rough Set

FU Yu
(Taizhou Polytechnic College,Taizhou Jiangsu 225300,China)

Based on the theory of data extraction and rough set,this article tries to study typical application of rough set in data extraction and introduce a new approach for data mining.First of all,we retreats our data with rough set,and then reduce attributes,finally we extract the best rule of decision.

rough set;data extraction;data processing

TP391

A

1671-0142(2011)02-0067-03

符鈺(1981-),女,江蘇泰州人,講師.

(責(zé)任編輯李冠楠)

猜你喜歡
數(shù)據(jù)挖掘規(guī)則數(shù)據(jù)庫
撐竿跳規(guī)則的制定
數(shù)獨(dú)的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫
TPP反腐敗規(guī)則對我國的啟示
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
主站蜘蛛池模板: 91口爆吞精国产对白第三集| 免费在线色| 欧美成在线视频| 免费无码一区二区| 婷五月综合| 91麻豆精品视频| 一级毛片高清| 国产第一页屁屁影院| a级高清毛片| 天堂va亚洲va欧美va国产 | 日本欧美一二三区色视频| 欧美一区二区啪啪| 日韩成人高清无码| 精品国产www| 成人久久精品一区二区三区 | a毛片在线播放| 日韩最新中文字幕| 日本午夜影院| 老司机午夜精品视频你懂的| 国产不卡国语在线| 99精品热视频这里只有精品7 | 精品无码一区二区在线观看| 无码电影在线观看| 四虎影视8848永久精品| 国产精品偷伦视频免费观看国产 | 美女被躁出白浆视频播放| 亚洲国产成人麻豆精品| 亚洲欧美自拍中文| 国产精品永久在线| 国产欧美高清| 国产产在线精品亚洲aavv| 免费看美女自慰的网站| 国产一区二区三区精品久久呦| 国产香蕉一区二区在线网站| 亚洲欧美不卡视频| 亚洲欧美人成电影在线观看| 国产在线精品美女观看| 有专无码视频| 91精品专区| 日本手机在线视频| 亚洲成网777777国产精品| 国产女人在线| 伊人网址在线| 亚洲中久无码永久在线观看软件| 最新国语自产精品视频在| 成人久久精品一区二区三区| 伊人精品视频免费在线| 亚洲精品天堂在线观看| 又大又硬又爽免费视频| 亚洲第一视频免费在线| 国产免费人成视频网| 无码国内精品人妻少妇蜜桃视频| 色综合手机在线| 国产一区二区在线视频观看| 欧美精品v欧洲精品| 在线免费看片a| www亚洲天堂| 日韩精品资源| 在线中文字幕日韩| 男女男免费视频网站国产| 精品一区二区久久久久网站| 黄色福利在线| 国产白浆视频| 91最新精品视频发布页| 国产情侣一区| 日本亚洲欧美在线| 午夜性爽视频男人的天堂| 国产精品亚洲天堂| 19国产精品麻豆免费观看| 欧美国产成人在线| 亚洲综合18p| 亚洲中文字幕23页在线| h视频在线观看网站| 亚洲精品午夜天堂网页| 在线免费无码视频| 欧美 国产 人人视频| 老司机精品一区在线视频| 亚洲AV无码乱码在线观看裸奔 | 国产在线精品人成导航| 全部免费特黄特色大片视频| 一级毛片在线播放免费观看| 亚洲中文字幕在线精品一区|