999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ID3算法在學(xué)生評(píng)教數(shù)據(jù)分析中的應(yīng)用研究

2013-09-19 10:29:34冷泳林
電子設(shè)計(jì)工程 2013年2期
關(guān)鍵詞:數(shù)據(jù)挖掘

冷泳林

(渤海大學(xué) 遼寧 錦州 121001)

學(xué)生評(píng)教作為衡量高校教學(xué)質(zhì)量的重要手段之一,已經(jīng)在全國(guó)各高校普遍應(yīng)用。評(píng)教產(chǎn)生的數(shù)據(jù)被反饋給教學(xué)管理部門,并將其作為教師績(jī)效考核和評(píng)職的依據(jù)之一,教學(xué)管理部門并沒有對(duì)評(píng)價(jià)對(duì)象本身與評(píng)教結(jié)果間隱含的信息進(jìn)行深入挖掘。數(shù)據(jù)挖掘技術(shù)作為一種新興的先進(jìn)的數(shù)據(jù)分析工具,正被廣泛應(yīng)用在各個(gè)領(lǐng)域[1-4]。基于數(shù)據(jù)挖掘技術(shù)的教學(xué)質(zhì)量評(píng)教系統(tǒng)也進(jìn)行了較多的研究[5-7],但對(duì)評(píng)價(jià)結(jié)果的分析及應(yīng)用方面研究較少。基于此,文中使用真實(shí)的評(píng)教樣本,利用決策樹經(jīng)典ID3算法對(duì)評(píng)教對(duì)象與評(píng)教結(jié)果之間的關(guān)系進(jìn)行深入研究構(gòu)造決策樹,從中挖掘出有用的信息,并將研究結(jié)果運(yùn)用于實(shí)際,為教學(xué)管理者提供了更多的參考數(shù)據(jù)。

1 數(shù)據(jù)挖掘及其相關(guān)概念

1.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)的過程,是知識(shí)發(fā)現(xiàn)的重要步驟。它是由數(shù)據(jù)庫、概率統(tǒng)計(jì)、人工智能等學(xué)科相融合而形成的一門交叉學(xué)科。數(shù)據(jù)挖掘過程一般包含如下幾個(gè)步驟:

1)數(shù)據(jù)清理與集成,收集到的原始數(shù)據(jù)存在雜亂、重復(fù)和不完整性特征,因此我們要通過該步驟清除數(shù)據(jù)噪聲和與挖掘主題明顯無關(guān)的數(shù)據(jù),得出需要分析的數(shù)據(jù)集合;

2)數(shù)據(jù)選擇與轉(zhuǎn)換,其作用就是將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式;

3)數(shù)據(jù)挖掘,它是知識(shí)挖掘的一個(gè)基本步驟,其作用就是利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識(shí);

4)模式評(píng)估與表示,其作用就是根據(jù)一定評(píng)估標(biāo)準(zhǔn)從挖掘結(jié)果篩選出有意義的模式知識(shí),并利用可視化和知識(shí)表達(dá)技術(shù),向用戶展示所挖掘出的相關(guān)知識(shí)。

1.2 決策樹ID3算法原理

決策樹就是一個(gè)類似流程圖的屬性結(jié)構(gòu),其中樹的每個(gè)內(nèi)部節(jié)點(diǎn)代表對(duì)一個(gè)屬性(取值)的測(cè)試,其分支就代表測(cè)試的每個(gè)結(jié)果;而樹的每個(gè)葉節(jié)點(diǎn)就代表一個(gè)類別。構(gòu)造決策樹的基本算法是貪心算法,它以自頂向下遞歸的各個(gè)擊破方式構(gòu)造決策樹。一種著名的決策樹算法是J.R.Quinlan的ID3算法,算法的基本策略如下:

1)創(chuàng)建一個(gè)節(jié)點(diǎn)。如果樣本都在同一類,則算法停止,把該節(jié)點(diǎn)改成樹葉節(jié)點(diǎn),并用該類標(biāo)記。

2)否則,選擇一個(gè)能夠最好的將訓(xùn)練集分類的屬性,該屬性作為該節(jié)點(diǎn)的測(cè)試屬性。

3)對(duì)測(cè)試屬性中的每一個(gè)值,創(chuàng)建相應(yīng)的一個(gè)分支,并據(jù)此劃分樣本。

4)使用同樣的過程,自頂向下的遞歸,直到滿足下面的3個(gè)條件中的一個(gè)時(shí)就停止遞歸。

設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號(hào)屬性具有m個(gè)不同值,定義 m 個(gè)不同類 Ci(i=1,2,…,m)。 設(shè) si是類 Ci中的樣本數(shù)。對(duì)一個(gè)給定的樣本分類所需要的期望信息由下式給出:

其中,pi是任意樣本屬性Ci的概率,并用si/s估計(jì)。

設(shè)屬性A具有v個(gè)不同值的屬性{a1,a2,…,av}。可以用屬性 A 將 S 劃分為 v 個(gè)子集{S1,S2,…,SV};其中,Sj包含 S 中這樣一些樣本,它們?cè)贏上具有值aj。如果A選作測(cè)試屬性(即最好的分裂屬性),則這些子集對(duì)應(yīng)于由包含集合S的節(jié)點(diǎn)生長(zhǎng)出來的分枝。

設(shè)sij是子集Sj中類Ci的樣本數(shù)。根據(jù)由A劃分成子集的熵或期望信息由下時(shí)給出:

在 A 上分枝將獲得的編碼信息是 Gain(A)=I(s1,s2,…,sm)-E(A)

Gain(A)稱為信息增益,它是由于知道屬性A的值而導(dǎo)致的熵的期望壓縮。具有最高信息增益的屬性選作給定集合S的測(cè)試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),并以該屬性標(biāo)記,對(duì)屬性的每個(gè)值創(chuàng)建分枝,并據(jù)此劃分樣本。

2 數(shù)據(jù)預(yù)處理

文中所使用的數(shù)據(jù)以作者所在學(xué)院學(xué)生評(píng)教系統(tǒng)中的數(shù)據(jù)為基礎(chǔ),將教師的基本信息表和評(píng)教結(jié)果表合成后形成如表1所示的原始數(shù)據(jù)表。在原始數(shù)據(jù)表中根據(jù)數(shù)據(jù)挖掘的基本步驟首先對(duì)數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清理和集成,生成78條有效記錄;其次由于數(shù)據(jù)表中工作年限和評(píng)教得分為數(shù)值型數(shù)據(jù),因此需對(duì)這兩個(gè)屬性進(jìn)行數(shù)據(jù)轉(zhuǎn)換即離散化處理,工作年限字段按8,17劃分成a、b、c 3個(gè)階段,評(píng)教得分按90,60分為優(yōu)秀、及格和不及格3段,離散化的數(shù)據(jù)如表2所示。

對(duì)離散化的數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì)后得到各屬性樣本分布表如表3所示。

表1 原始數(shù)據(jù)Tab.1 Original data

表2 離散化數(shù)據(jù)Tab.2 Discretization data

表3 樣本分布表Tab.3 Sample distribution table

3 創(chuàng)建決策樹

根據(jù)上述數(shù)據(jù)預(yù)處理得到的數(shù)據(jù)源,其中S=78,4個(gè)屬性分別是學(xué)歷、工作年限、職稱和評(píng)教得分,根據(jù)評(píng)教得分的不同取值{優(yōu)秀,及格,不及格},將樣本分成3個(gè)不同的類(即m=3)。設(shè)類 C1對(duì)應(yīng)于“優(yōu)秀”,類 C2對(duì)應(yīng)于“及格”,類 C3對(duì)應(yīng)于 “不及格”, 則 S1=59,S2=16,S3=3,P1=59/78,P2=16/78,P3=3/78,因此計(jì)算出評(píng)教得分所需的期望信息為:

下面計(jì)算每個(gè)屬性的熵:

1)學(xué)歷

對(duì)于學(xué)歷為“本科”:s11=44,s21=12,s31=3,P11=44/59,P21=12/59,P31=3/59

對(duì)于學(xué)歷為“研究生”:S12=15,S22=4,S32=0,P12=15/19,P22=4/19,P32=0/19

如果樣本按“學(xué)歷”劃分,對(duì)一個(gè)給定的樣本分類所需的期望信息為:

因此,這種劃分的信息增益是:

Gain(學(xué)歷)=I(s1,s2,s3)-E(學(xué)歷)=0.016

同理可計(jì)算:

2)工作年限

Gain(工作年限)=I(s1,s2,s3)-E(工作年限)=0.068

3)職稱

Gain(職稱)=I(s1,s2,s3)-E(職稱)=0.081

經(jīng)過比較,職稱屬性具有最高的信息增益,可以得出決策樹的第一層節(jié)點(diǎn)為職稱,然后建立第一層節(jié)點(diǎn)。其它節(jié)點(diǎn)依次類推,直到所有的屬性值都已經(jīng)訪問過,就完成了決策樹的建立。

當(dāng)創(chuàng)建決策樹時(shí),由于數(shù)據(jù)中的噪聲和孤立點(diǎn),許多分支反應(yīng)的是訓(xùn)練集中的異常,因此必須對(duì)決策樹進(jìn)行剪枝.剪枝是一種克服噪聲的基本技術(shù),同時(shí)它也能使決策樹得到簡(jiǎn)化而變得更容易理解。ID3算法的剪枝有兩種策略:預(yù)先剪枝和后剪枝。預(yù)先剪枝法是在生成決策樹過程中,選取一個(gè)適當(dāng)?shù)拈撝担撻撝档倪x取是困難的,如果閾值過高,會(huì)導(dǎo)致決策樹過分簡(jiǎn)化,而較低又會(huì)使決策樹剪枝太少。后剪枝法是在生成一個(gè)完整的決策樹后減去分支。本文采用后剪枝法對(duì)生成的決策樹進(jìn)行剪枝后得到如圖1所示的決策樹。

圖1 剪枝后的決策樹Fig.1 Decision tree pruning

4 數(shù)據(jù)分析

從圖1生成的決策樹分析,可以挖掘出以下幾類信息:1)影響教學(xué)質(zhì)量分類的主要因素是職稱,職稱越高其教學(xué)質(zhì)量越好。2)職稱是助教,同時(shí)學(xué)歷為本科,由于工作時(shí)間短且學(xué)歷低,教學(xué)質(zhì)量?jī)?yōu)秀所占的比例少,由此反映出這一部分教師需提高自身的學(xué)歷和知識(shí)儲(chǔ)備,多學(xué)習(xí),多聽課不斷完善自己。3)講師、副教授屬于教學(xué)中的骨干力量,所占人數(shù)最多,由此也反映出學(xué)歷、職稱與教學(xué)質(zhì)量成正比的關(guān)系。因此這一部分教師應(yīng)作為教學(xué)中的主力,充實(shí)到教學(xué)一線,而且多幫助年輕教師。4)該部門教師學(xué)歷為研究生的教師工作年限主要集中在a和b段,c段學(xué)歷不高,為提高部門的綜合競(jìng)爭(zhēng)能力,該部分教師也應(yīng)該在允許的范圍內(nèi)提高自己的學(xué)歷。

5 結(jié)束語

利用ID3算法對(duì)學(xué)生評(píng)教數(shù)據(jù)和教師的基本信息集成后生成決策樹并對(duì)其進(jìn)行分析,從中找出影響教師評(píng)教結(jié)果的因素,為教學(xué)管理部門提供決策支持的依據(jù),對(duì)于提高教師的整體教學(xué)效果有很大的幫助。

[1]劉美玲,李熹,李永勝.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(5):1130-1133.

LIU Mei-ling,LI Xi,LI Yong-sheng.Application of datamining in university teaching and management[J]. Computer Engineering and Design, 2010,31(5):1130-1133.

[2]余臘生,李強(qiáng).數(shù)據(jù)挖掘在質(zhì)量管理系統(tǒng)中的應(yīng)用研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(10):2327-2334.

YU La-sheng,LI Qiang.Research on application of data mining in quality supervising and management system[J].Computer Engineering and Design,2010,31(10):2327-2334.

[3]葉明全,武長(zhǎng)榮,胡學(xué)鋼.基于粗糙集的醫(yī)療數(shù)據(jù)挖掘研究與應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(21):232-234.

YE Ming-quan,WU Chang-rong,HU Xue-gang.Research and application on medical data mining based on rough sets[J].Computer Engineering and Design,2010,46(21):232-234.

[4]王偉輝,耿國(guó)華,陳莉.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)業(yè)務(wù)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2008,25(3):123-125.

WANG Wei-hui,GENG Guo-hua,CHEN Li.Application of data mining to insurance business[J].Computer Applications and Software,2008,25(3):123-125.

[5]王佳欣,王旭輝.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)評(píng)教系統(tǒng)[J].河南工程學(xué)院學(xué)報(bào):自然科學(xué)版,2009,21(3):50-52.

WANG Jia-xin,WANG Xu-hui.Teaching evaluation system through network based on data mining[J].Journal of Henan Institute of Engineering:Natural Science Editon,2009,21(3):50-52.

[6]郭曉利,郭平,馮力.基于數(shù)據(jù)挖掘技術(shù)的教學(xué)質(zhì)量評(píng)價(jià)系統(tǒng)的實(shí)現(xiàn)[J].東北電力大學(xué)學(xué)報(bào):自然科學(xué)版,2006,26(3):70-73.

GUO Xiao-li,GUO Ping,F(xiàn)ENG Li.Implementation of data mining technology in analysis and appraisal system of teaching quality[J].Journal of Northeast Dianli University Natural Science Edition,2006,26(3):70-73.

[7]付海艷,符謀松,張誠(chéng)一.粗糙集理論在高校教學(xué)質(zhì)量評(píng)價(jià)分析中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(36):214-216.

FU Hai-yan,F(xiàn)U Mou-song,ZHANG Cheng-yi.Application of rough set theory to instruction quality evaluation and analysis[J].Computer Engineering and applications,2007,43 (36):214-216.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 亚洲男人的天堂在线观看| 欧美日韩在线成人| 成人国内精品久久久久影院| 成·人免费午夜无码视频在线观看| 国产网站一区二区三区| 成年女人a毛片免费视频| 国产一在线观看| 一本久道久久综合多人| 免费精品一区二区h| 丰满人妻一区二区三区视频| 欧美第一页在线| av午夜福利一片免费看| 亚洲中文字幕久久精品无码一区| 国产丰满成熟女性性满足视频| 亚洲无码37.| 国产chinese男男gay视频网| 2020极品精品国产 | 亚洲天堂日韩在线| 国产福利小视频在线播放观看| P尤物久久99国产综合精品| 精品久久久久无码| 成人小视频网| 欧美不卡视频在线| 91精品综合| 台湾AV国片精品女同性| 国产精品无码久久久久AV| 久久精品无码中文字幕| 欧美亚洲第一页| 91小视频在线观看| 第九色区aⅴ天堂久久香| 免费无码一区二区| 欧美h在线观看| 国产精品人莉莉成在线播放| a级毛片免费看| 亚洲乱强伦| 日韩欧美高清视频| 国产精品九九视频| 亚洲精品国产精品乱码不卞| 99国产精品一区二区| 小13箩利洗澡无码视频免费网站| a亚洲视频| 国产丝袜第一页| 国产微拍精品| 一级爱做片免费观看久久| 青青青伊人色综合久久| 国产在线97| 国产三级毛片| 毛片大全免费观看| 国产拍在线| 99九九成人免费视频精品| 女人18毛片水真多国产| 亚洲欧美日韩成人在线| 亚洲日本中文字幕天堂网| 欧美亚洲一区二区三区在线| 97se亚洲| 日韩免费成人| 成人自拍视频在线观看| 欧美综合成人| www精品久久| 91破解版在线亚洲| 欧美一级特黄aaaaaa在线看片| 欧美一区二区精品久久久| 99er精品视频| 日韩黄色大片免费看| 国内精品久久久久久久久久影视| 超碰91免费人妻| 久久一本日韩精品中文字幕屁孩| 永久在线精品免费视频观看| 欧美特级AAAAAA视频免费观看| www.91在线播放| 中文字幕永久视频| 亚洲精品无码不卡在线播放| 色噜噜在线观看| 久久香蕉欧美精品| 老色鬼欧美精品| 成人午夜亚洲影视在线观看| 天天综合网站| 精品国产乱码久久久久久一区二区| 亚洲日韩AV无码精品| 99视频精品在线观看| 国产网站一区二区三区| 亚洲欧美日韩动漫|