999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

粗糙集理論在數(shù)據(jù)分析中的應(yīng)用研究

2017-04-06 03:23:36高亮
關(guān)鍵詞:數(shù)據(jù)挖掘規(guī)則理論

高亮

(安徽國(guó)際商務(wù)職業(yè)學(xué)院,安徽合肥230051)

粗糙集理論在數(shù)據(jù)分析中的應(yīng)用研究

高亮

(安徽國(guó)際商務(wù)職業(yè)學(xué)院,安徽合肥230051)

隨著Internet、信息檢索等新技術(shù)的不斷出現(xiàn)及快速發(fā)展,各種應(yīng)用所積累的數(shù)據(jù)量急劇增長(zhǎng),如何從這些海量數(shù)據(jù)中提取有用的信息成為了一個(gè)很現(xiàn)實(shí)而且重要的問題.本文結(jié)合實(shí)例分析,給出了基于粗糙集理論數(shù)據(jù)分析的一般過程,為數(shù)據(jù)挖掘提供了一個(gè)新的方法.

粗糙集;數(shù)據(jù)分析;屬性

1 引言

當(dāng)今世界正處在一個(gè)數(shù)據(jù)爆炸的時(shí)代.伴隨著多媒體、云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)的發(fā)展,以及天文觀測(cè)、空間地理、金融分析等各領(lǐng)域每天都在產(chǎn)生巨量的數(shù)據(jù),然而面對(duì)著這一片紛繁復(fù)雜的數(shù)據(jù),就像面對(duì)著一個(gè)巨大的礦脈,怎樣才能從中挖掘出真正的“金子”?那么最重要便是數(shù)據(jù)挖掘的工作,所謂數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、事先不知道的、但又是潛在有用的知識(shí)和信息的過程.目前,數(shù)據(jù)挖掘在科學(xué)研究、市場(chǎng)營(yíng)銷金融市場(chǎng)分析和預(yù)測(cè)、醫(yī)療保健、教育教學(xué)等許多領(lǐng)域得到了廣泛的應(yīng)用,已經(jīng)成為計(jì)算機(jī)科學(xué)與工程研究的一個(gè)熱點(diǎn).

然而,實(shí)際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性,很少能直接滿足數(shù)據(jù)挖掘算法的要求,嚴(yán)重影響了數(shù)據(jù)挖掘算法的執(zhí)行效率.而粗糙集理論是一種用于處理不確定性和含糊性知識(shí)的數(shù)學(xué)工具,目前在數(shù)據(jù)挖掘的各方面已有很好的應(yīng)用,其基本思想是在保持分類能力不變的前提下,通過知識(shí)約簡(jiǎn),導(dǎo)出概念的分類規(guī)則.它無需提供相關(guān)數(shù)據(jù)集合外的任何先驗(yàn)信息,適合于發(fā)現(xiàn)數(shù)據(jù)中隱含的、潛在有用的規(guī)律,即知識(shí),找出其內(nèi)部數(shù)據(jù)的關(guān)聯(lián)關(guān)系和特征.

2 粗糙集相關(guān)理論

粗糙集(Rough Set)理論是波蘭數(shù)學(xué)家Z.pawlak于1982年提出的,是一種新的處理含糊性和不確定性問題的數(shù)學(xué)工具.相對(duì)于概率統(tǒng)計(jì)、模糊集等處理含糊性和不確定性的數(shù)學(xué)工具而言,粗糙集理論有這些理論不具備的優(yōu)越性.統(tǒng)計(jì)學(xué)需要概率分布,模糊集理論需要隸屬函數(shù),而粗糙集理論的主要優(yōu)勢(shì)就在于它不需要關(guān)于數(shù)據(jù)的任何預(yù)備的或額外的信息.現(xiàn)已廣泛應(yīng)用于知識(shí)發(fā)現(xiàn)、機(jī)器學(xué)習(xí)、決策支持、專家系統(tǒng)等領(lǐng)域.

定義1[1]設(shè)U是一個(gè)論域,R是U上的一個(gè)等價(jià)關(guān)系,U/R表示R的所有的等價(jià)類(或者U上的分類)構(gòu)成的集合,[x]R表示包含元素x∈U的R等價(jià)類.一個(gè)知識(shí)庫(kù)就是一個(gè)關(guān)系系統(tǒng)K=(U,R),其中U為非空有限集,稱為論域,R是U上的一簇等價(jià)關(guān)系.若P?R,且P≠?,則∩P(P中所有等價(jià)關(guān)系的交集)也是一個(gè)等價(jià)關(guān)系,稱為P上的不可區(qū)分關(guān)系,記為IND(P),且有.

定義2[1]設(shè)集合X?U,R是一個(gè)等價(jià)關(guān)系,稱,且[x]R?}為集合X的R下近似集;稱,且[x]R∩X≠?}為集合X的R上近似集.稱集合為X的R邊界域;稱為X的R正域;稱為 X的R負(fù)域.

定義3[2]四元組S=(U,A,V,F)是一個(gè)信息系統(tǒng),其中U為對(duì)象非空的有限集合,稱為論域,即U={x1,x2,…,xn};A=C∪D是有限屬性集合,A={a1,a2,…,am},子集C和D分別稱為條件屬性和決策屬性;

定義4[3]S=(U,A,V,F)是一個(gè)信息系統(tǒng),A=C∪ D,設(shè)P,Q?A,當(dāng)時(shí),稱知識(shí)Q是k度依賴于知識(shí)P,記P?kQ,即對(duì)象的k×100%可以通過知識(shí)P劃分到U/P的模塊中.當(dāng)k=1時(shí),稱屬性集Q完全依賴于P;0<k<1時(shí),稱屬性集Q部分依賴于P;k=0時(shí),稱屬性集Q完全獨(dú)立于P;而屬性子集P?C關(guān)于D的重要性定義為σ(P)=rC(D)-rC-P(D),特別地,當(dāng)P={a}時(shí),屬性a關(guān)于D的重要性定義為σ(P)=rC(D)-rC-P(D).

3 粗糙集理論在數(shù)據(jù)分析中的應(yīng)用

目前,基于粗糙集理論的方法逐漸成為數(shù)據(jù)分析主流方法之一.利用粗糙集理論進(jìn)行數(shù)據(jù)分析一般可分為以下五個(gè)過程:

1.數(shù)據(jù)準(zhǔn)備及預(yù)處理:在現(xiàn)實(shí)世界的很多情況下,我們拿到的第一手?jǐn)?shù)據(jù)都會(huì)存在噪音數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)等我們不希望出現(xiàn)的數(shù)據(jù),因此,首先要對(duì)數(shù)據(jù)進(jìn)行必要的處理,包括數(shù)據(jù)刪除、數(shù)據(jù)補(bǔ)充、數(shù)據(jù)轉(zhuǎn)換等,從而為下一步數(shù)據(jù)分析提高良好的處理環(huán)境,并且還要明確條件屬性和決策屬性.

2.建立決策表:對(duì)于處理好的數(shù)據(jù)用一個(gè)信息系統(tǒng)S=(U,A,V,F)給表示出來.

3.屬性約簡(jiǎn)及屬性重要度計(jì)算:屬性約簡(jiǎn)就是在保持知識(shí)庫(kù)分類能力不變的條件下刪除其中不相關(guān)或不重要的冗余屬性,得到一個(gè)最簡(jiǎn)潔的決策即最小(最優(yōu))約簡(jiǎn).在決策表中,不同屬性可能有不同的重要性,如果重要度為0則說明此屬性為冗余屬性,可刪除,通過計(jì)算每個(gè)屬性的重要程度則可以更加有效地進(jìn)行屬性約簡(jiǎn).

4.規(guī)則提取:直觀地講就是將每個(gè)約簡(jiǎn)用在決策表的每個(gè)對(duì)象上,從表中讀出適當(dāng)?shù)膶傩灾祦硇纬蓻Q策規(guī)則.用類似邏輯語言中α→β的形式表示決策規(guī)則,α和β分別稱為決策規(guī)則的前件和后件,α代表?xiàng)l件屬性值的組合.

5.決策分析:根據(jù)生成的規(guī)則進(jìn)行數(shù)據(jù)分析,得到有用的結(jié)論.

下面我們用一個(gè)具體實(shí)例進(jìn)行闡述:通過利用粗糙集理論來分析影響學(xué)生《高等數(shù)學(xué)》課程學(xué)習(xí)成績(jī)的因素,以期量化學(xué)習(xí)成績(jī)和學(xué)習(xí)因素之間的關(guān)系,為教師能夠更好地進(jìn)行教學(xué)和培養(yǎng)合格的人才提供一定的理論支持.

1.數(shù)據(jù)準(zhǔn)備及預(yù)處理

首先采用問卷調(diào)查的方法,對(duì)安徽國(guó)際商務(wù)職業(yè)學(xué)院2015級(jí)會(huì)計(jì)專業(yè)56名學(xué)生進(jìn)行了問卷調(diào)查(表1),采取隨機(jī)抽樣的原則抽取研究對(duì)象,共發(fā)放問卷56份,回收率100%,有效問卷56份,有效率100%.調(diào)查問卷分別從興趣、高考成績(jī)、課堂表現(xiàn)等六個(gè)方面提出問題,受調(diào)查者根據(jù)實(shí)際情況選出自己的答案選項(xiàng),因此,各影響學(xué)習(xí)的因素屬性分別記為C1:興趣、C2:數(shù)學(xué)基礎(chǔ)(高考成績(jī))、C3:課堂表現(xiàn)、C4:作業(yè)完成情況、C5:教師授課水平、C6:學(xué)習(xí)時(shí)間,選項(xiàng)ABCDE在決策表中分別用12345代替;決策屬性為期末考試成績(jī),記作D,其中在[90,100]之間為優(yōu)秀,[75,90)之間為良好,[60,75)之間為合格,[0,60)不合格,分別以1、2、3、4表示.將每一類中的所有實(shí)例的集合作為論域,每個(gè)實(shí)例作為論域中的對(duì)象,成績(jī)影響因素集作為條件屬性集,學(xué)生期末考試成績(jī)作為決策屬性.

表1 調(diào)查問卷

2.根據(jù)以上數(shù)據(jù)可建立成績(jī)影響因素決策表(表2).

3.利用屬性約簡(jiǎn)算法進(jìn)行屬性約簡(jiǎn),并計(jì)算屬性重要度.

(1)屬性約簡(jiǎn):利用屬性約簡(jiǎn)算法進(jìn)行約簡(jiǎn),可知C1—C6所有屬性均為不可約屬性.

(2)計(jì)算屬性重要度.首先計(jì)算出二維決策表中決策屬性D相對(duì)于條件屬性C的正域POSC(D),根據(jù)粗糙集中的依賴度函數(shù),計(jì)算出決策屬性D對(duì)條件屬性C的依賴程度.

表2 決策表

其次,計(jì)算二維決策表中每一個(gè)屬性Ci(i=1,2,…,6)對(duì)于決策屬性D的重要度σ(Ci)=rC(D)-rC-Ci(D),其中rC-Ci(D)表示在條件屬性C中去掉Ci后,決策屬性D對(duì)條件屬性C的依賴程度,σ(Ci)的值越大,說明屬性Ci對(duì)分類的重要性越大,如果σ(Ci)=0,則說明屬性Ci對(duì)分類不起作用,可以忽視其影響.

利用數(shù)學(xué)軟件MATLB編程對(duì)二維決策表進(jìn)行計(jì)算:得到各屬性相應(yīng)的依賴度及重要性有:

由此可見,σ(C6)>σ(C2)=σ(C3)>σ(C5)>σ(C4)>σ(C1)

4.規(guī)則提取:根據(jù)約簡(jiǎn)后的決策表提取規(guī)則,選取部分如下:

規(guī)則1:C1(1)∧C2(2)∧C3(1)∧C4(1)∧C5(1)∧C6(2)=>D(1)

規(guī)則2:C1(2)∧C2(2)∧C3(4)∧C4(2)∧C5(2)∧C6(4)=>D(4)

……

5.決策分析.

針對(duì)以上計(jì)算結(jié)果,我們進(jìn)行進(jìn)一步分析可知:

(1)興趣、基礎(chǔ)、課堂、作業(yè)、教師、學(xué)習(xí)時(shí)間等都是影響學(xué)生學(xué)習(xí)高等數(shù)學(xué)的重要因素;

(2)這六個(gè)影響因素的重要程度排序?yàn)椋簩W(xué)習(xí)時(shí)間>數(shù)學(xué)基礎(chǔ)(高考成績(jī))=課堂表現(xiàn)>教師授課水平>作業(yè)完成情況>興趣.因此,可以看出學(xué)生學(xué)習(xí)成績(jī)好壞很大程度上取決于自身的努力程度(即所花時(shí)間的多少),同時(shí),學(xué)生在學(xué)習(xí)過程中要緊緊抓住課堂時(shí)間,邊聽邊記邊思考,只有這樣才能取得較好的學(xué)習(xí)效果;

(3)根據(jù)提取的規(guī)則可以得到相應(yīng)的結(jié)論,比如從提取的規(guī)則1中可以看出當(dāng)一個(gè)學(xué)生在這六個(gè)方面都做得很好時(shí),一定可以取得優(yōu)秀的成績(jī),反之,由規(guī)則2得出雖然基礎(chǔ)較好,但是如果上課不聽課,課后自己不花時(shí)間努力學(xué)習(xí),那么成績(jī)必然不及格;

(4)從數(shù)據(jù)中可以看出數(shù)學(xué)基礎(chǔ)也是影響大學(xué)生學(xué)好高等數(shù)學(xué)的一個(gè)非常重要的因素,這主要是由于數(shù)學(xué)課程具有連續(xù)性的特點(diǎn),因此,對(duì)于一些基礎(chǔ)較差、尤其是沒有參加高考,自主招生進(jìn)來的學(xué)生來講,學(xué)習(xí)高等數(shù)學(xué)的難度更大,故而,要求我們教師在針對(duì)這部分學(xué)生時(shí),應(yīng)該更加關(guān)注他們,在教授過程中更耐心一些,更詳細(xì)一些.

4 結(jié)束語

粗糙集理論作為一種新的處理含糊性和不確定性問題的數(shù)學(xué)工具,為數(shù)據(jù)分析提供了一條嶄新的途徑,其在數(shù)據(jù)挖掘中的應(yīng)用研究目前正成為信息科學(xué)中的一個(gè)研究熱點(diǎn),發(fā)展空間廣闊.

〔1〕張文修,吳偉志,梁吉業(yè),李德玉.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.1-25.

〔2〕安海忠,鄭鏈,王廣祥,等.粗糙集知識(shí)發(fā)現(xiàn)的研究現(xiàn)狀和展望.計(jì)算機(jī)測(cè)量與控制,2003(2):81-83.

〔3〕史忠植.知識(shí)發(fā)現(xiàn)[M].北京:清華大學(xué)出版社, 2002.26-28.

TP274

:A

:1673-260X(2017)03-0022-03

2016-11-25

猜你喜歡
數(shù)據(jù)挖掘規(guī)則理論
堅(jiān)持理論創(chuàng)新
撐竿跳規(guī)則的制定
神秘的混沌理論
理論創(chuàng)新 引領(lǐng)百年
數(shù)獨(dú)的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
相關(guān)于撓理論的Baer模
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
主站蜘蛛池模板: 五月婷婷综合色| 日韩精品一区二区三区免费在线观看| 亚洲另类国产欧美一区二区| 国产亚洲欧美日韩在线一区二区三区| 久久无码av三级| 成人在线视频一区| 亚洲综合九九| 亚洲日韩久久综合中文字幕| 99re经典视频在线| 国产美女精品在线| 久久人人妻人人爽人人卡片av| 毛片基地视频| 亚洲国产清纯| 欧美日韩中文国产| 亚洲国产精品久久久久秋霞影院| 婷五月综合| 欧美人在线一区二区三区| 国产精品第一区在线观看| 在线国产你懂的| 国产成人艳妇AA视频在线| 国产97色在线| 国产资源免费观看| 成人福利在线视频免费观看| 精品一区二区无码av| 丝袜国产一区| 日韩亚洲综合在线| 成人免费午夜视频| 亚洲男人的天堂久久香蕉 | 成人福利在线视频| 亚洲第一黄色网址| 2022国产无码在线| 特级做a爰片毛片免费69| 91亚洲国产视频| 在线欧美日韩国产| 国产精品亚洲欧美日韩久久| 日本不卡在线播放| 欧美国产日韩在线播放| 日韩无码黄色| 日本免费精品| 91福利国产成人精品导航| 精品无码一区二区三区电影| 亚洲欧美一区二区三区图片 | 中文字幕无码电影| 精品亚洲欧美中文字幕在线看| 999福利激情视频| 亚洲成人网在线观看| 精品三级网站| 国产自视频| 亚洲综合在线最大成人| 欧洲极品无码一区二区三区| 97无码免费人妻超级碰碰碰| 精品一区二区无码av| 在线观看无码a∨| 久久6免费视频| 久热99这里只有精品视频6| a级毛片在线免费观看| 国产一级裸网站| 国产欧美日韩资源在线观看| 亚洲国产高清精品线久久| 免费人成又黄又爽的视频网站| 欧美亚洲国产一区| 亚洲视频三级| 日韩欧美中文字幕一本| 欧美午夜理伦三级在线观看 | 伊人久热这里只有精品视频99| 精品欧美视频| 国产一区二区色淫影院| 国产黄在线免费观看| 亚洲欧美在线综合图区| 四虎综合网| 国产综合亚洲欧洲区精品无码| 亚洲精品国产成人7777| 亚洲无码高清视频在线观看| 国产成人精品一区二区三在线观看| AV网站中文| 亚洲精品无码久久久久苍井空| 亚洲一级毛片在线观播放| 六月婷婷激情综合| 小13箩利洗澡无码视频免费网站| 久久精品国产在热久久2019| 精品亚洲麻豆1区2区3区| 国产激爽大片在线播放|