馬煜
(陜西中醫(yī)藥大學(xué)信息化建設(shè)管理處,咸陽 712046)
基于C4.5算法的高校教師評價(jià)研究
馬煜
(陜西中醫(yī)藥大學(xué)信息化建設(shè)管理處,咸陽 712046)
近些年來,“數(shù)字化校園”已經(jīng)成為不少高等院校密切關(guān)注并且大力推行的現(xiàn)代信息化管理手段。在高校教師教學(xué)測評中引入數(shù)據(jù)挖掘技術(shù),以分類決策樹算法C4.5進(jìn)一步提高與完善高校對教師評價(jià)的準(zhǔn)確性。
教學(xué)測評;數(shù)據(jù)挖掘;C4.5
教師教學(xué)測評是對教學(xué)效果的測量與評價(jià),也是教學(xué)過程中的重要組成部分,以教學(xué)目標(biāo)為依據(jù),制定科學(xué)嚴(yán)謹(jǐn)?shù)脑u價(jià)標(biāo)準(zhǔn),利用有效的技術(shù)手段,將教學(xué)活動的過程與結(jié)果進(jìn)行測量,后給予價(jià)值判斷[1]。隨著信息技術(shù)的不斷更迭,很多高校的教室測評僅僅通過統(tǒng)計(jì)排序獲得數(shù)據(jù)的表層信息,在處理信息時缺少歸納決策功能,使得數(shù)據(jù)未能得到充分利用,不能對教師在晉升職稱、評優(yōu)、績效工資等方面提供科學(xué)與公平的依據(jù)。
隨著信息化校園的建設(shè),數(shù)據(jù)挖掘技術(shù)作為數(shù)據(jù)庫技術(shù)的重點(diǎn)之一,它可以從海量數(shù)據(jù)中提取有價(jià)值的潛在信息,其中分類決策樹算法通過構(gòu)造決策樹、建立分類規(guī)則,在數(shù)據(jù)分析、直觀性等方面具有顯著優(yōu)點(diǎn)。本文通過C4.5算法對任課教師信息進(jìn)行分析,優(yōu)化教師評價(jià)工作。
決策樹可看成是一個樹結(jié)構(gòu)模型,其中每個內(nèi)部節(jié)點(diǎn)表示一個特征屬性上的測試,且每條分支表示該特征屬性在某值域的輸出,而每個葉子節(jié)點(diǎn)中存放一個類別。決策樹的決策過程從根節(jié)點(diǎn)開始,測試待分類項(xiàng)中相應(yīng)的特征屬性,并按其值選擇輸出分類,直到葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)中存放的類別當(dāng)做決策結(jié)果。
決策樹的構(gòu)造是指進(jìn)行屬性選擇度量以確定各個特征屬性之間的拓?fù)浣Y(jié)構(gòu),其關(guān)鍵步驟是對屬性的分裂[2]。對屬性進(jìn)行分裂,就是在某節(jié)點(diǎn)處按某特征屬性的不同來劃分構(gòu)造不同的分支,盡量讓各個分裂后的子集中待分類項(xiàng)屬于同一類別。其中決策樹最大的優(yōu)點(diǎn)就是分類者不需要了解很深的相關(guān)領(lǐng)域知識,由信息增益的度量方法來選擇需要分裂的測試屬性。對于生成決策樹過程中產(chǎn)生的不完整、不準(zhǔn)確的數(shù)據(jù)要進(jìn)行修剪,以避免決策樹過度擬合。
C4.5算法,作為常用的屬性選擇度量算法,使用自上向下遞歸分治法,采用不回溯的貪心策略構(gòu)造決策樹分支[3]。該算法是在1994年由Quinlan開發(fā)出的ID3改進(jìn)算法,C4.5使用信息增益率代替ID3中的信息熵作為選擇測試屬性的標(biāo)準(zhǔn),以彌補(bǔ)ID3偏向選擇取值多的屬性的不足。其算法思路如下:





屬性A為根節(jié)點(diǎn)的信息增益是:

在樣本集合S中,根據(jù)測試屬性A劃分為(H1,H2,…,Hm),共X個子集,則分割的信息量為:

由于信息增益率等于信息增益與分割信息量的比值,所以可得出信息增益率是:

因此,構(gòu)造決策樹就是計(jì)算出每個測試屬性的信息增益率,將增益率大的當(dāng)作決策樹的根節(jié)點(diǎn)。
表1是由選取學(xué)校預(yù)防醫(yī)學(xué)專業(yè)、應(yīng)用心理學(xué)專業(yè)10名專職教師的教師評價(jià)組成的數(shù)據(jù)集,其中職稱分為講師、副教授、教授三個類別;教學(xué)考核成績分為優(yōu)、良、中、低四個類別;科研水平分為高、中、低三個類別;學(xué)生評價(jià)分為好、普通、差三個類別。
表中總計(jì)10條數(shù)據(jù),教師該學(xué)期教師評價(jià)的結(jié)果分為達(dá)標(biāo)和不達(dá)標(biāo)兩個類別,這兩個類別算作C4.5算法的類別屬性。表中共有四個測試屬性,A職稱,B教學(xué)考核成績,C科研水平,D學(xué)生評價(jià)。在職稱屬性中,講師5名,副教授3名,教授2名;在教學(xué)考核成績中,優(yōu)1名,良2名,中4名,低3名;在科研水平中,高3名,中5名,低2名;在學(xué)生評價(jià)中,好2名,普通5名,差3名;最后對教師評價(jià)中,達(dá)標(biāo)6名,不達(dá)標(biāo)4名。

表1 教師評價(jià)數(shù)據(jù)集合
從A測試屬性職稱開始,在類別屬性里,P表示教師評價(jià)達(dá)標(biāo),F(xiàn)表示教師評價(jià)不達(dá)標(biāo),類別屬性的信息量可表示為:

A測試屬性職稱有三個類別值,則:

同理可得,B測試屬性教學(xué)考核成績中E(B)=0.6,S(s,B)=2.32193,G-R(s,B)=0.15975;
C測試屬性科研水平中E(C)=0.36096,S(s,C)= 1.48548,G-R(s,C)=0.41063;D測試屬性學(xué)生評價(jià)中E(D)=0.48547,S(s,D)=1.48548,G-R(s,D)=0.32681。
通過比較信息增益率,C測試屬性科研水平數(shù)值最高,所以它為根節(jié)點(diǎn),隨后迭代比較計(jì)算,根據(jù)數(shù)據(jù)可構(gòu)造出決策樹,如圖1所示。
在分類決策樹中,無論算法如果改進(jìn)完善,核心算法ID3中的信息熵始終是決定的起點(diǎn)[4]。隨著信息化建設(shè)的不斷發(fā)展,管理者們逐步面對豐富的數(shù)據(jù)資源,如何從中獲取有價(jià)值的里層信息就顯得尤為重要,而數(shù)據(jù)挖掘領(lǐng)域中的分類決策樹算法可以更加科學(xué)、準(zhǔn)確地幫助高校管理者在教師評價(jià)上的工作。

圖1 決策樹圖
[1]胡雙.C4.5算法在一個學(xué)生成績管理系統(tǒng)中的應(yīng)用[J].硅谷,2012,Vol.21:131-132.
[2]黃愛輝.決策樹C4.5算法的改進(jìn)及應(yīng)用[J].科學(xué)技術(shù)與工程,2009,19(11):34-36.
[3]李楠,段龍振,陳萌.決策樹C4.5算法在數(shù)據(jù)挖掘中的分析及其應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2008(12):160-163.
[4]韓家煒.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2006.
Research on the Teaching Evaluation of College Lecturers Based on C4.5 Algorithm
MA Yu
(Office of Informatization Construction Management,Shaanxi University of Chinese Medicine,Xianyang 712046)
Digital campus,as the modern information management method,has been concerned and pushed forward by a number of universities in these years.Introduces data mining technology in the teaching evaluation of college lecturers,in order to enhance the accuracy of the evaluation through C4.5 of decision tree algorithm.
Teaching Evaluation;Data Mining;C4.5 Algorithm
1007-1423(2017)02-0042-03
10.3969/j.issn.1007-1423.2017.02.011
馬煜(1989-),男,陜西咸陽人,碩士研究生,工程師,研究方向?yàn)樗惴ㄔO(shè)計(jì)與分析、物聯(lián)網(wǎng)應(yīng)用、校園網(wǎng)設(shè)計(jì)與應(yīng)用收稿日期:2016-11-03修稿日期:2016-12-30