胡 萍
近年來,隨著高校數據收集量的不斷增加以及教育決策對量化分析結果的愈加依賴,數據挖掘技術在我國高校管理中的應用呈顯著上升趨勢。教學評價在高等學校教學管理中起著非常重要的作用,是指依據一定的教學目標與教學規范標準,通過對學校教與學等教育情況的系統檢測與考核,評定其教學效果與教學目標的實現程度。由于教學評價具有復雜性、多因素性和模糊性等特點,如何客觀、科學、全面地對教學質量進行評價,以提高教學評價研究的科學性、客觀性和準確性,是現代教學評價研究中的一個非常重要的課題。本文應用數據挖掘技術,通過信息熵構造決策樹的ID3算法來對課堂教學評價數據庫中的數據進行數據挖掘,設法從中找出隱藏在數據中的規律性知識,為學校決策部門提供科學的依據和參考。
近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。數據挖掘的任務是從數據集中發現模式,在實際應用中,往往根據模式的實際作用細分為以下幾種:分類、聚類、回歸、序列、時間序列等[1][2]。其中分類是重要的數據分析方法,應用非常廣泛。解決分類問題的方法很多,決策樹是對分類問題進行深入分析的一種方法,作為一種分類問題的解決方法正在被廣泛地研究。
早期著名的決策樹算法是1986年由Quinlan提出的ID3算法[3]。其基本思想是采用信息論中的互信息(或稱信息增益)作為決策屬性分類判別能的量,進行決策節點屬性的選擇。在ID3算法中,決策節點屬性選擇應用了信息論中熵(Entropy)的概念來完成,通過信息增最大(或最大熵壓縮)的屬性建立決策樹,這樣選擇的節點屬保證了決策樹具有最小的分枝數量和最小的冗余度。
設S是n個數據樣本的集合,將樣本集劃分為c個不同的類Ci(i=1,2,…,c},每個類Ci含有的樣本數目為 ni,

其中,pi為S中的樣本屬于i類Ci的概率,即pi=ni/n
假設屬性A的所有不同值的集合為Values(A),Sv是S 中屬性 A 的值為 v 的樣本子集,即 Sv={s∈S襔A(s)=v},在選擇屬性A后的每一個分支點上,對該節點的樣本集Sv分類的熵為E(Sv)。選擇A導致的期望熵定義為每個子集Sv的熵的加權和,權值為屬于Sv的樣本占原始樣本S的比例Sv/S ,即期望熵為:則S劃分為c個類的信息熵或期望信息為:

其中,E(Sv)是將Sv中的樣本劃分到c個類的信息熵。屬性A相對樣本集合S的信息增益Gain(S,A)定義為:

信息增益率為 Ratio(A)=Gain(A)/E(A)。
Gain(S,A)是指因知道屬性A的值后導致的熵的期望信息壓縮。Gain(S,A)越大,說明選擇測試屬性A對分類提供的信息越多[4]。Quinlan的ID3算法就是在每個節點選擇信息增益Gain(S,A)最大屬性作為測試屬性。該算法需要計算每個決策屬性的信息增益率,具有最大信息增益率的屬性被作為給定數據集S的決策屬性節點,并通過屬性的每一個取值建立由節點引出的分枝。
對于生成好的決策樹,可以直接從中獲取規則[5]。其規則的提取方法為:1)從根結點到葉結點的每一路徑都可以是一條規則;2)以每一路徑中各測試屬性的合取作為規則的前提,而以其葉結點作為規則的結論;3)對提取的每一條規則,用IF-THEN形式表示成知識。
通過調查分析,目前很多高校將教師個人評價結果直接反饋給教師或進行簡單的排名,并沒有對大量的評價數據進行深入的分析。這些評價數據背后隱藏著什么樣的規律?能否利用這些評價數據為教師和管理人員提供決策支持?能否利用這些數據對教師進行發展性評價?下面圍繞這些問題,利用ID3算法建樹對合肥學院教學評價數據進行了深入的分析,得出了一些可供參考的結果;在此基礎上構建了一個教學評價分析模型,以期為完善現有評價系統的功能提供參考。
這里,以筆者所在的合肥學院的日常教學管理為例。學校為了提高教學水平和教學質量,每學期都要對全校開設的課程進行學生網上評教。除此之外還要通過系(部)級教學考評組和校(系)級督導組隨堂聽課等方式綜合評價課堂的教學情況。全校各門課程按多項指標進行評價的結果匯總到學校的教學管理數據庫后,為了防止教學評估的片面性,可對學生、系(部)和校(系)督導三者的評價數據按一定的權重進行綜合處理,去除部分不完備和統計無效的元組,然后再應用粗糙集理論對其指標屬性按等價關系進行維數約簡或直接由專家組討論確定,以此形成的數據集即為經數據準備后產生的待挖掘數據集。
對于待挖掘的數據集,假設教學評價指標體系經研究后,歸納為:教學態度(A2)、教學內容(A3)、教學方法(A4)、教學效果(A5)和綜合評價等級(A6)共五項。但為了克服ID3算法存在不能夠處理連續屬性和計算信息增益時偏向于選擇取值較多的屬性等不足,這里對A2、A3、A4、A5給出的四個連續屬性按如下區段進行劃分,C1:90-100,C2:80-89,C3:70-79,C4:60-69,C5:小于 60,以此找出決策屬性與綜合評價等級A6之間的知識。假如我們任意選取15門課程,其各指標屬性的值經離散化后形成的格式如表1所示。

表1 教學評價經離散化后的數據集
由ID3算法,先去掉屬性A1。因為A1,對于綜合評價屬性而言,無互信息,即無信息增益,即gain(A1)=0。計算測試屬性集的全部信息熵:

然后計算各結點的信息量I(Ei),如以A2為例:


I(優)=0

同理,可計算出A3,A4,A5的信息熵增益分別為:

故取A3為根屬性,再用ID3方法對C1這一分枝繼續進行劃分。于是,可建立如圖1所示的ID3決策樹。從中可以看出,教學內容A3是一重要指標。表1中隱藏的知識有如下幾種情況:
規則1:IF(A3=C2)THEN(良)
規則 2:IF(A3=C3)THEN(中)
規則 3:IF(A3=C1∧A5=C1)THEN(優)
規則4:IF(A3=C1∧A5=C2)THEN(良)
即如果教學內容為良,則課堂教學質量評價等級一定為良;如果教學內容為中,則課堂教學質量評價等級一定為中;如果教學內容和教學效果均為優,則課堂教學質量評價等級一定為優;如果教學內容為優而教學效果為良,則課堂教學質量評價等級為良。因此,從這些規則中,可以歸納出一條重要的知識,就是:教學內容組織好的老師,其課堂教學質量的綜合評價成績較好。
數據挖掘是一種新的數據分析技術,將決策樹運用于教學評價之中,可以提高教學評價技術水平,提高教學評價的科學性、客觀性和公證性,使之更好地為教學服務。

圖1 課堂教學的ID3決策數
[1]陳 偉.改進的ID3算法構造決策樹[J].淮南師范學院學報,2010,(3).
[2]羅運摸,崔小兵,謝志敏.等數據倉庫應用與開發[Ml北京:人民郵電出版社,2001.
[3]武獻宇,王建芬,謝金龍.決策樹ID3算法研究及其優化[J].微型機與應用,2010,(21).
[4]鄒筱梅,姜山,唐賢瑛.基于決策樹的股市數據挖掘與仿真[J].計算機仿真,2004,21(3):52-55.
[5]李楠,楊彬彬.決策樹ID3分類算法在文本分類中的應用研究[J].大連大學學報,2009,(6).