苗育源
(山西農業大學 山西省晉中市 030800)
近年來,國內許多學者已成功地將數據挖掘技術應用于教育領域上,如學校招生策略的制訂、學習障礙鑒定等研究。此外,以學生學業成就為分析目標的相關研究,則有針對學生基本數據、學生缺曠課、家庭與學校環境的影響為主要分析方向,鮮少有針對學生個人的學習態度進行分析。然而學習態度是學生在學習活動的歷程中,指示學習行為的方向,因此若所持的評價為正面,則對于所學的課程將全力以赴。有鑒于此,本研究將運用數據挖掘中的決策樹分類法,針對大學生的學習態度,建構學習成績的分類模型,并找出預測低學習成績或成績低落的相關決策規則,以提供教師作為教學時的參考。
本研究架構是先從某科技大學校務信息系統的數據庫中,分別取得2020年度第二學期企業管理系一年級專業課程的教學評價問卷數據以及學生學期成績,以C4.5 決策樹算法開始進行數據挖掘工作,最后再將具有高準確率的規則,提供給教師作為教學參考,希望借以提升學生的學習成績。
本文收集的一年級專業課程部分,分別為A 專業一年級、B 專業一年級、以及C 專業一年級的各五門課程,合計十五門課程。原始教學評價(含學生對教師評價與學生自我評價兩部分)與學生學期成績數據共有15022 筆,剔除非本研究分析的數據(如教師評價部分)以及數據不全的記錄,再經過數據匯整后,進入分析的數據合計為532 筆。每筆數據共有六個屬性,其中五個屬性是屬于學生自我評價部分(問卷說明詳如表1),另一個屬性則為學生學期成績。
由于本研究主要是研究學生自我評價與學生成績之間的關聯性,因此成績屬性為本研究的類別標記屬性,也就是輸出的分類結果。而有鑒于每一門課程的授課教師評定成績的標準不一,因此本研究在進行決策樹分析之前,先將每門課程的學生學期成績(v)進行分類處理,以平均值(mf)與標準差(sf)區分為H:高分群(v ≥mf+sf/2)、M:中分群(mf-sf≤v 本研究的所有實驗皆通過Microsoft Excel2013 中的計算、排序與樞紐分析等功能來操作,并獲得所有分析結果。 2.2.1 模式訓練與驗證 本研究建立決策樹規則的方式,是采取兩階段方式進行。第一階段先以A專業一年級的五門專業課程數據(課程代號分別為A、B、C、D、E、F),采五組交叉驗證的方式建構決策樹,也就是分別取四門課程數據作為訓練樣本(80%),再以剩下的另一門課程數據作為測試樣本(20%),以找出準確率最高的決策樹。 第二階段則是將準確率最高的決策樹轉換成分類規則,結合B專業一年級與C 專業一年級的10 門專業課程數據進行驗證,找出預測率高于80%且準確人數超過5 人的規則。 表1:學生自我評價問卷說明 2.2.2 以決策樹建立分類系統 (1)建立樹狀結構。本研究是以Quinaln(1993)所提出的C4.5 算法來建立決策樹,此算法是由該學者修正自己之前發表的ID3(IterativeDichotomizer3)決策樹歸納算法而來,其基本概念是計算出獲利比值(gainratio)最大的屬性,作為決策樹中每一節點的分支屬性,以形成一個子樹,然后從剩下的屬性中,再次計算出獲利比值最大的屬性,以進行下一節點的分割,如此重復操作,最后形成整棵決策樹。 (2)修剪樹狀結構。C4.5 算法中是以錯誤預估率(predicted error rate)為修剪標準,也就是當被分類于某一子樹的所有訓練數據個數為T,其中有E 個訓練數據分類錯誤,而錯誤預估率就是由TE 來評估,當錯誤率高于某一個臨界值時,就進行修剪。 由于本研究中可供分析的輸入變量僅有五個,并不會建構過度復雜的決策樹,因此于建構決策樹過程中,僅使用當訓練數據個數與樹的節點數比值低于2 時的修剪方法,以避免節點再往下分支就會造成品質測量值太低的問題。此外,本研究為了觀察學生學習態度與學業成就之間的關系,在形成葉節點(leaf node)的方式,不采取以多數決投票的傳統方式進行,也就是說,除了可以完全分類的葉節點外,其他則采用概率分配的方式進行預測。 經由五組交叉驗證所獲得的結果(如表2),決策樹在經過修剪之后,由A、C、D、E(以下簡稱ACDE)四門課程所獲得的決策樹規則其準確率最高。為節省篇幅,以下僅針對該組的決策樹建構過程簡述如后。 ACDE 四門課程數據經過整理后,可供分析使用的記錄共有173 筆,其中計有60 人成績屬于H 類別、有72 人成績屬于M 類別、以及有41 人成績屬于L 類別,其他各種數據的分布情形整理于表3。而經過完整計算所獲得的決策樹結果共有54 條規則,修剪后的決策樹后剩下48 條規則,同樣針對B 課程數據來進行驗證,驗證結果顯示,該課程中符合驗證規則進行驗證的人數維持為42 人,正確人數提升為27 人,準確率達64.3%。 表2:五組決策樹驗證結果 表3:ACDE 四門課程數據合并后的學生人數分布情形 表4:預測率達80%并且正確人數達5 人的規則結果 本研究第二階段以該決策樹所獲得的48 條規則,針對A 專業一年級的B 課程、B 專業一年級的五門課程、以及C 專業一年級的五門課程,合計11 門課程(共346 人)的數據進行驗證工作,其中有338 人可按照規則進行驗證,正確人數為246 人,整體預測率為72.8%。最后再從驗證結果中挑選出預測率達80%且正確人數達5 人的規則(表4),從所得的8 條規則中我們可以發現: (1)如果當學生偶爾缺課、上課偶爾聽講、對課程不太了解且對于課程尚有興趣時,則該學生的成績可能為中分群的概率為42.9%、低分群的概率為57.1%。 (2)如果當學生偶爾缺課、上課聽講還算用心、課后很少復習且對課程尚有興趣,則該學生的成績可能為中分群的概率為66.7%、低分群的概率為33.3%。 (3)如果當學生很少缺課、對課程了解、課后很少復習、上課還算用心聽講且對課程尚有興趣,則該學生的成績可能為中分群的概率為83.3%、低分群的概率為16.7%。 (4)如果當學生很少缺課、對課程了解、課后偶爾復習、上課還算用心聽講且對課程有興趣,則該學生的成績可能為中分群的概率為47.1%、低分群的概率為41.2%。 (5)如果當學生很少缺課、對課程了解、課后偶爾復習且上課很用心聽講,則該學生的成績可能為高分群或中分群的概率各為50%。 (6)如果當學生從未缺課、課后很少復習且對課程不太了解,則該學生的成績可能為高分群、中分群或低分群的概率各為33.3%。 (7)如果當學生從未缺課、課后偶爾復習且對課程不太了解,則該學生的成績可能為高分群或中分群的概率各為50%。 (8)如果當學生從未缺課、課后經常復習、對課程非常有興趣且對課程非常了解,則該學生的成績可能為高分群的概率為61%、中分群的概率為38.5%。 從以上挖掘結果中可以發現,決策樹中的第一層分類都是學生出席情形(Q26),所以學生出席率的高低對學生成績會有絕對的影響。 本研究運用C4.5 分類法,研究大學生的自我學習態度與學業學習成效之間的關系,由研究結果得知學生的缺課情形對學生成績具有明確的分類效果,因此若能有效提升學生出席情形,則定能改善學生的學業學習成效。然大學屬于學術自由的殿堂,不如之前高中職的學習階段,無法也不能以教條式的制度要求學生到課,因此借由授課教師如何思考改善自我的教學方法與品質,提高學生學習興趣與到課意愿。2.2 使用決策樹進行分類

3 結果



4 結論