徐敏
摘要:教學管理決策在高校教育中是一項重要的工作。目前,高校內(nèi)部運行的各種管理系統(tǒng)和各類數(shù)據(jù)庫,已經(jīng)積累了包括學籍管理系統(tǒng)、成績管理系統(tǒng)在內(nèi)的海量數(shù)據(jù)。本文主要研究如何采用數(shù)據(jù)挖掘技術在學院教務管理系統(tǒng)中,對海量數(shù)據(jù)進行發(fā)掘和應用,為人才培養(yǎng)提供比較客觀的決策支持。
關鍵詞:數(shù)據(jù)挖掘;決策樹;ID3算法
中圖分類號:G471 文獻標志碼:A 文章編號:1674-9324(2017)14-0009-02
一、前言
隨著信息技術的發(fā)展,數(shù)據(jù)挖掘正成為一個日益受到重視的熱點研究領域,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。據(jù)相關資料調查顯示,在一個大型企業(yè)數(shù)據(jù)庫中,只有其中百分之七的數(shù)據(jù)能夠得到很好的應用。同樣,高校內(nèi)部運行的各種管理系統(tǒng)和各類數(shù)據(jù)庫,已經(jīng)積累了海量的數(shù)據(jù),然而隱藏在這些海量數(shù)據(jù)中的深層次的模式一直沒有得到充分的發(fā)掘和應用,學校管理者只能通過簡單數(shù)據(jù)查詢和排序等傳統(tǒng)數(shù)據(jù)庫技術功能獲得表面的信息。我們努力想要解決的是,如何對那些龐大的海量數(shù)據(jù)進行高層次的處理,從中找出管理者關心的規(guī)律和模式,以此幫助管理者更好地把現(xiàn)有的數(shù)據(jù)轉化為可供使用的知識進行決策和研究,來提高學校管理決策的科學性,提高管理水平和辦學質量。
二、決策樹分類算法
決策樹(Decision Tree)學習是以實例為基礎的歸納學習算法。它著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形成的分類規(guī)則,它的一個最大優(yōu)點就是在學習過程中不需要使用者了解很多背景知識(這也同時是它最大的缺點),只要訓練例子能夠用“屬性—結論”式的方式表達出來,就能使用該算法來學習。決策樹算法中最著名的算法是Quinlan提出的ID3算法。他把C.E.Shannon的信息論引入到了決策樹算法中,把信息熵作為選擇測試屬性的標準,對訓練樣本集進行分類,并構造決策樹來預測如何由測試屬性對整個樣本空間進行劃分。ID3算法采用信息量作為測試屬性的選擇標準來分割訓練樣本集并最終生成決策樹。
三、數(shù)據(jù)的收集和整理
本研究利用數(shù)據(jù)挖掘技術中的ID3算法,在教務管理系統(tǒng)中,實現(xiàn)一個專業(yè)方向選擇輔助指導的模塊,大學生在修完職業(yè)基礎課后,能更好地按自身的特點選擇專業(yè)方向。
在大學生專業(yè)方向輔助指導中,我們將以服裝系為例使用決策樹分類挖掘技術中的ID3算法,通過學生大學一年級專業(yè)基礎課的學習成績,配合問卷調查,預測學生最適合選擇的專業(yè)方向。
我們以華南女子學院服裝專業(yè)學生在大一期間的成績?yōu)橥诰驍?shù)據(jù)源(共194個樣本),根據(jù)學生各科的學習成績信息,剔除了成績表中與專業(yè)發(fā)展方向無顯著相關性的屬性,如體育等課程屬性,選擇7門具有代表性的專業(yè)基礎課作為基礎數(shù)據(jù)進行處理。
其次,對訓練表中的每一列成績屬性的值進行離散化處理。我們將成績分成三個部分,用A表示[80,100]之間的分數(shù),用B表示[70,79]之間的分數(shù),用C表示[0,69]之間的分數(shù)。
除了學習成績之外,我們還需要考慮影響學生專業(yè)方向選擇的其他因素,服裝系的專業(yè)方向具體劃分為三個方面:制板與工藝方向;造型設計方向;市場營銷方向。
學生在大一修完專業(yè)基礎課后,自行選擇專業(yè)方向。為了更好地了解學生選擇專業(yè)方向的動機、階段性學習的完成情況,以及大學二年級工學結合的專業(yè)實踐后對自己所選方向的滿意度,我們設計了問卷調查調查:①學生的個人興趣:A.手工制作;B.創(chuàng)意設計;C.人際交往。②選擇專業(yè)方向時是否按興趣來選擇。③經(jīng)過一年的專業(yè)學習,覺得現(xiàn)在的專業(yè)方向是否合適自己。
通過數(shù)據(jù)收集、數(shù)據(jù)整理之后,我們實際可以使用的數(shù)據(jù)記錄為182條,由于在系統(tǒng)實現(xiàn)過程中,我們還需要預留一部分數(shù)據(jù)進行數(shù)據(jù)分析準確度測試,因此,在放入訓練數(shù)據(jù)集進行決策樹模型生成訓練的實際數(shù)據(jù)記錄為146條。
四、利用ID3算法構造學生成績分析決策樹
(一)信息增益的計算
首先我們先利用公式計算出信息熵,參加數(shù)據(jù)挖掘的記錄有146條,經(jīng)過兩年的專業(yè)學習后,認為自己更適合學習制板與工藝方向的有58人,認為自己更適合學習造型設計方向的有48人,覺得自己更適合市場營銷方向的有32人,不確定方向的8人。
下面計算信息增益值。
利用公式:信息增益值I(S/A)=H(S)-H(S/A)
經(jīng)過整理后,參加數(shù)據(jù)挖掘的屬性有9個,通過計算得到的Gain(S,xq)最大,即個人興趣對分類最有幫助,所以選擇興趣對決策樹的結構進行首次分區(qū),產(chǎn)生4分枝。
(二)遞歸創(chuàng)建決策樹
選擇興趣作為測試屬性之后訓練實例集分為4個子集,生成4個子節(jié)點,對每個子節(jié)點遞歸采用上述過程進行分類直至每個節(jié)點中各個實例屬于同類。
以“興趣=手工制作”為例。
選擇手工制作的同學一共有56人,經(jīng)過兩年的專業(yè)學習后,認為自己更適合學習制板與工藝方向的有42人,更適合學習造型設計方向的有8人,更適合市場營銷方向的有4人,不確定方向的2人。
通過計算得到的Gain(S_xq.手工制作,sjyl)最大,即“服裝結構設計原理(簡稱設計原理)”的信息對分類最有幫助,所以選擇“服裝結構設計原理”的成績對決策樹的結構進行再次分區(qū),產(chǎn)生3個分枝。
計算選擇興趣為“手工制作”的學生里,設計原理成績大等于80分,其余的6門課程成績相應的信息增益值,發(fā)現(xiàn)興趣選擇手工制作的所有設計原理成績大等于80分的同學在兩年的學習后認為自己最適合工藝方向因此不再另做計算。于是,我們研究興趣為“手工制作”且設計原理成績介于70—80分之間,其余6門成績的信息增益值計算。通過計算得到的Gain(S_xq.手工制作_sjyl.介于70—80分,jcgy)最大,按照信息增益最大的原則選擇“基礎工藝”的成績?yōu)楦Y點,并將樣本分成3部分,然后對每一棵子樹按照以上方法遞歸計算。由于決策樹的構建是一個遞歸的計算,而本研究采用數(shù)據(jù)結點較多,因此我們在Microsoft Visual Studio 2005環(huán)境下用C#語言編程,利用程序生成其余的決策樹。
(三)樹剪枝
在實際應用中,部分數(shù)據(jù)因數(shù)量太少以至于不能產(chǎn)生目標函數(shù)的有代表性的采樣,導致我們使用決策樹算法生成的決策樹很多分支反映的是訓練數(shù)據(jù)集中的異常。因此我們設置生成決策樹的最小樣本值為4,進行預剪枝處理。為了降低剪枝后的冗余,在剪枝后,如果有某個葉子結點下的所有屬性值指向的結果都相同,則認為該葉子結點是冗余的葉子結點,將被刪除,其屬性值將作為該結點原父節(jié)點的屬性值被保留。
由此決策樹導出相關規(guī)則如下。
1.if (興趣=手工制作and服裝結構設計原理≥80) then 適合工藝方向
2.if (xq=='手工制作' and服裝結構設計原理=='介于80~70' and基礎工藝≥80' and成衣工藝≥80and 款式效果圖≥80' and款式設計≥80') then 適合工藝方向
3.if (xq=='手工制作' and 服裝結構設計原理=='介于80~70' and基礎工藝≥80 and成衣工藝≥80 and款式效果圖≥80 and款式設計<70) then 適合工藝方向
本次參與數(shù)據(jù)挖掘的屬性較多,從而導出的規(guī)則也相當多,由于篇幅有限,這里不再一一羅列,我們將留做測試的36條數(shù)據(jù)運用到?jīng)Q策樹得出的所有規(guī)則里,經(jīng)過測試有31條規(guī)則命中,準確率為86.1%。
五、應用開發(fā)運行環(huán)境
利用ID3算法得出的知識規(guī)則,我們在教務管理系統(tǒng)上增加了學生選擇專業(yè)方向的頁面。
硬件環(huán)境:PIII以上的微機
操作系統(tǒng):Windows 2000
數(shù)據(jù)庫系統(tǒng):SQL SERVER 2000
編程語言:ASP
采用B/S 模式
六、小結
本文主要討論的是使用ID3算法生成決策樹,最后由決策樹產(chǎn)生分類規(guī)則,完成了根據(jù)學生興趣以及專業(yè)課成績來判斷適合選擇的專業(yè)方向的決策樹模型建立。最后應用所獲得的規(guī)則,實現(xiàn)了教務管理系統(tǒng)中的專業(yè)方向選擇系統(tǒng)。
參考文獻:
[1]白雪.決策樹分類算法的研究及其在教學評估中的應用[J].電腦開發(fā)與應用.2007,(02):24-26.
[2]陳文偉,黃金才,趙新顯著.數(shù)據(jù)挖掘技術[M].北京:工業(yè)大學出版社,2002:7.
[3]欒麗華.決策樹分類技術研究[J].計算機工程,2004,9:94-96.
[4]李強.創(chuàng)建決策樹算法的比較研究-ID3,C4.5,C5.0算法的比較[J].甘肅科學學報,2006,(12):84-87.
[5]馬瑜,王有剛.ID3算法應用研究[J].信息技術.2006,(12):84-86.
[6]李道國,苗奪謙,俞冰.決策樹剪枝算法的研究與改進[J].計算機工程,2005,(8):19-21.