孫永科 熊飛
摘要:該文介紹了一種學生成績等級的劃分方法,按照正態分布的3-sigma理論將學生的成績劃分為不同的等級。與傳統的純數字成績比較,該方法屏蔽了試卷和課程的難易程度的影響,配合線箱圖可以反映學生的成績分布和個體成績等級。
關鍵詞:正態分布;學習能力;線箱圖
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)06-0207-02
A Visual Analysis of Students Score Based on Normal Distribution
SUN Yong-ke, XIONG Fei
(Southwest Forestry University, Kunming 650224, China)
Abstract: This article presented a visual analysis of students score which divide students into different levels according the 3-sigma theory about normal distribution. Compared with traditional method which only display number, this method has ability to estimate the level of student more accurately than before, it can easily display the distribution of class scores and personal position in class level.
Key words: normal distribution; ability of study; box plot
1 背景
每個學期結束時,學校都要進行學生成績分析,并給學生家長發放學生成績通知單。傳統的學生成績通知單中只包含各科成績的列表,信息量比較少,缺乏成績的分布信息,所以家長很難了解學生的學生情況。例如某門課程的成績90分,這并不能說明該學生學習水平高,可能本次試卷簡單,90分也許是全班的最低成績;因為試卷難度不同,分數會表現出不同的差異,僅僅通過考試的成績很難對學生的學習水平進行正確評價。文獻[1-3]中作者使用統計學方法分析學生成績,從不同的角度展示成績的分布特點,但是結果復雜需要相關的專業知識才能理解。目前成績分析研究熱點是課程的重要性分析和關聯度分析[4-8]。
利用學生成績總體呈正太分布的特點,結合正態分布理論,學生的成績可以劃分為5個不同的等級。這種劃分方法不僅可以描述成績的整體分布情況,而且還可以的描述個體與整體之間的關系。有利于了解學生的個人學習情況和整體的成績分布。
2 原理介紹
近幾年關于學生成績分布的研究都認為:學生的成績一般都呈正太分布[9-11],文獻[11]中作者利用R語言對一高等學校的學生進行了分析,再次證明了學生的成績呈正態分布,同時作者還進一步解釋了學生成績與正態分布之間的關聯關系。在正態分布理論認為學生的成績應該集中分布在平均分附近,多數人的智力水平都處于平均水平,成績越遠離平均分,人數越少,其分布圖類似一個對稱的山峰。利用概率可以把學生的成績劃分為優、良、中、低和差5個等級。以圖1為例,人數最多的區域被劃分為中間水平,覆蓋了50%的學生對應圖中Q1和Q3之間的區域;兩端的24.65%分別被劃分良和低,成績良好的占24.65%,對應圖中的UCL和Q3之間的區域,成績低的也占24.65%,對應圖中LCL和Q1之間的區域。優秀的數量和差的數量最少,分布在最兩端共占0.7%。
Box線箱圖基于上述的劃分原則,按照比例對數據進行可視化展示。箱子(矩形區域,如圖2所示)的上下邊界分別對應Q1和Q3,上尾線對應UCL,下尾線對應LCL。利用box線箱圖可以清楚地看到班級的成績分布和個人的成績所處的位置,不同課程進行比較,還可以了解課程之間的難度差異。
線箱圖中沒有出現班級中其他學生的成績,保護了其他學生隱私。但是通過觀察箱子、尾線和原點(黃色的原點表示學生的成績位置,如圖2所示)的位置,可以讓學生和家長非常容易地了解到班級整體的成績分布和學生個人成績的位置。
3 分析實例
以表1的學生成績為例。表中的《C語言程序設計實習》成績是90分,《英語》是69分。如果按照成績的高低評判,《C語言程序設計實習》成績遠高于英語的成績,多數人很容易認為該學生的《C語言程序設計實習》成績好,英語的成績差,但實際情況卻恰恰相反。
同樣的學生成績,使用線箱圖進行可視化分析結果就和之前的分析出現了明顯的。圖2是該學生的線箱圖,在圖中的每一列分別代表一門課程,課程代碼與表1中的代碼相同。圖2中的C2列是《C語言程序設計實習》的成績分布,藍色的矩形框是50%學生成績的分布區域,黃色的點為當前學生的成績。可以清晰地看出雖然該門課程的成績是90分,但是該學生的成績仍處于平均水平。C7列為英語成績,雖然學生的成績是69分,但是圖中的黃點已經明顯的超出了矩形框的上邊界,說明該學生的成績高于班級的平均水平。
課程C2的矩形區域比C7的長,說明C2的成績比C7的成績分散,成績分散說明成績的集合的方差比較大,意味著學生之間的差異比較大。C2中箱子位置比C7的位置高,說明C2的成績整體比C7的成績高,位置高說明班級中多數人的成績都比較高,學習效果比較好。線箱圖按照成績人數的分布劃分成績等級,等級的界定與成績本身沒有關系至于人數的多少有關系,這樣能很好體現個體在群體中的排名位置。
對比表1和圖2的結果發現:表1中的課程只有成績沒有標識等級區域,學生的等級只能按照成績分數來判斷,二在圖2中不僅可以看到成績而且還可以清楚地看到成績所處的等級區域,按照表對學習進行登記劃分出出現一些偏差,例如,表1中課程C7的成績只有69分,C2的成績有90分,僅從這個數字來衡量,很容易錯誤地認為該學生課程C2的成績等級比C7的等級高。但是,在圖2中C2的成績處于平均水平,而C7的成績卻高于平均水平,等級排名比較靠前。
單純地依靠成績來衡量學生的學習能力,不能客觀全面地反應學生的學習能力和水平。課程難度差異和試卷難度差異都會對這個評價結果產生比較大的影響。而通過線箱圖來評價學生的學習能力,重點考察成績的分布特點和個人的排名位置,反映的是學生在班集體中的學習水平。因此后者的排名更為科學合理。
4 總結
基于線箱圖的學生成績分析方法可以對學生成績進行等級劃分,可以展示課程成績的分布特點。教學機構使用該方法,可以快速地掌握學校的教學情況。使用該方法進行不同課程之間的比較,可以及時發現課程難易程度的差異;進行相同課程之間的比較,可以發現不同班級之間的差異。使用線箱圖制作成績通知單,圖中不出現其他學生的成績信息,保護了其他學生的個人隱私,同時又能夠清晰地把學生的成績、成績等級和大概位次告知家長,方便家長有目的地對學生進行家庭輔導。
參考文獻:
[1] 許德泓. 大學生學習能力達成評價指標體系的研究[J]. 國家教育行政學院學報, 2016(12):66-71.
[2] 張玲. 考試成績評價指標的統計分析及研究[J]. 數學學習與研究, 2018(5).
[3] 馬奕, 涂淑珍, 呂衛平. SPSS統計分析在成績評價中的應用[J]. 龍巖學院學報, 2015(2):110-114.
[4] 王成勇. 基于關聯規則Apriori算法的學生成績分析[J]. 價值工程, 2018(5):17-171.
[5] 陳喜華, 黃海寧, 黃沛杰. 基于聚類分析的學生成績分析[J]. 清遠職業技術學院學報, 2018(2).
[6] 李曦. 多元統計在學生成績分析的運用[J]. 南昌航空大學學報: 自然科學版, 2006,20(3): 58-62.
[7] 石平. 基于決策樹分類的成績分析系統研究[J]. 長春師范大學學報, 2018(2).
[8] 李娟, 楊麗麗. 學生成績分析系統的設計與實現[J]. 河北職業教育, 2009,5(10): 143-144.
[9] 孫文興, 陳智剛, 羅婕, 等. 成績數據無量綱化在學生綜合測評中的應用[J]. 昆明冶金高等專科學校學報, 2017, 33(5): 87-91.
[10] 龔玉玲, 徐曉棟. 基于SAS的學生成績混合正態分布的研究[J]. 江蘇科技信息,2018(1).
[11] 王培. 學生成績與正態分布之關聯[J]. 現代經濟信息, 2017(3):382-382.
【通聯編輯:謝媛媛】