樊敏


摘 要: 目前的成績分析僅限于簡單的統計,只對成績的優劣評價,而沒有深入分析并給出具體的針對性的建議。為此提出利用考試系統中原始成績數據,將這些數據進行了重組、轉換等一系列的預處理,構建了符合算法要求的數據模型,并采用決策樹算法對考試成績進行數據挖掘。通過對成績的分析,構造了成績等級的決策樹,利用提取的決策樹規則來指導教學改革和改善教學環節,以促進學生成績優秀率的提高,進而提高教學質量。
關鍵詞: 成績分析; 決策樹算法; 優秀率; 考試系統
中圖分類號:TP301 文獻標志碼:A 文章編號:1006-8228(2015)12-70-03
Analysis and research on the excellent rate of score based on decision tree algorithm
Fan Min
(Shanxi Medical University Fenyang College information department, Fenyang, Shanxi 032200, China)
Abstract: At present, the score analysis is limited to simple statistics, only for the evaluation of the pros and cons of the results, but no in-depth analysis and specific targeted recommendations. In this paper, the original score data from the exam system is pre-processed, such as reorganization and transformation. Then a data model is constructed to meet the requirements of the algorithm, and the decision tree algorithm is used to carry out data mining on the exam results. Through the analysis of the results, the grade decision tree is constructed and used to guide the teaching reform and improve the teaching process, so as to improve the students' excellent rate of score, and improve the teaching quality.
Key words: score analysis; decision tree algorithm; excellent rate; exam system
0 引言
考試成績是學生在校期間表現優劣評價的重要指標之一,同時也是教學質量高低的體現。對高校學生成績調查發現,平均及格率為90.5%,而平均優秀率(85分以上為優秀)不足10%。為了提高學生成績優秀率,需要對學生成績數據進行分析,從數據中發現有價值的信息,用以指導教學實踐及教學管理,從而促進教學質量更快更好的提高。
1 現狀分析
目前學校對學生成績的管理只是對成績數據進行存儲、排序,以及計算及格率、統計平均分等,沒有對學生成績優秀或不及格成績數據進行深入挖掘和分析,所以,考試系統對教學的指導意義不明顯[1]。本文探討通過數據挖掘技術對這些數據進行分析,從更深層次挖掘出隱藏在數據背后未知的有用信息[2],對這些信息進行有效地利用,以期能有針對性地為教學提供幫助,對教師教學水平的提高起到積極作用。
2 數據準備
考試系統中生成的成績明細清單有每個考生每道考題的得分情況,且題目具有章節屬性,這間接反映了學生對各章知識的掌握情況。挖據這部分數據可以得到各章節得分情況及其對總分的影響。如果能夠明確學生對各章節掌握情況及其對總成績的影響,教師就能夠對相關章節的內容進行針對性地教學和練習。
本文選取了考試系統中某門課程的成績數據進行數據挖掘。該課程共6章內容,試卷滿分為100分。在考試系統的題庫中試題具有“所屬章”屬性,考試系統自動評卷后會生成成績明細表和成績表,分別保存學生每道題目的得分和總分,表結構分別為成績明細表(考號,題號,……,所屬章,分值,得分)、成績表(考號,……,總分)。
對于缺考或休學的學生,得分都為0,沒有參考價值,屬于噪聲,所以應刪除這些信息。考試系統中的數據不能直接用于數據挖掘,需要建立適合決策樹算法的模型,將原有的數據進行轉換。利用SQL語句得到章得分率表:
SELECT 學號,所屬章,章得分/章分值 AS 得分率FROM (SELECT學號,Sum(分值) AS 章分值, Sum(得分) AS 章得分FROM 成績明細表 GROUP BY學號,所屬章) INTO DBF 得分率。
利用章得分率和成績表創建交叉表查詢得到的考生得分率表如表1,由109條記錄組成。將表1中的得分率轉換為0或1,得分率>=0.85用1表示,否則用0表示。總分>=85用“優”表示,總分<85用“否”來表示。離散化后的數據如表2。
3 數據挖掘
3.1 信息熵計算
⑴
其中|S|表示數據集S的總數,|Ui|表示類別Ui的例子數[3]。
在數據處理后的訓練集109條記錄中,總分取值為“優”的有39個,取值為“否”的有70個,根據熵的計算公式得到:
從分析結果得出:該課程中第三、四、五章是重點,其中第三章是關鍵的章節,結合該課程,第三章的內容是第四、五章的基礎,所以第三章的教學最關鍵。在教學中應分別給予這三個章節合理的學時。
4 結束語
本文以某門課程的成績分析為例說明了在考試系統中進行成績分析的步驟和算法,使得成績分析不局限于簡單的統計分析。通過數據挖掘手段,分析出潛在的、影響成績的因素。利用分析結果有針對性地進行教學改革,調整教學環節,使教學效果得到明顯提高。利用本文算法可以分析成績的各個分數段的影響因素,這種方法有較強的適用性和實用性。
參考文獻(References):
[1] 劉愛民.基于關聯規則的學生成績分析系統的設計與實現[D].
吉林大學碩士學位論文,2014.
[2] 田偉.基于數據挖掘的高校學生分析與管理[J].牡丹江教育
學院學報,2015.3:99-113
[3] 安淑芝等.數據倉庫與數據挖掘[M].清華大學出版社,2005.
[4] 博則恒.數據挖掘決策樹技術在學生成績分析中的應用研
究[J].廣東技術師范學院學報,2015.2:113-117
[5] 李嵐.基于數據倉庫的學生成績分析與研究[D]. 北京交通大
學碩士學位論文,2014.