數(shù)學(xué)測(cè)試卷質(zhì)量的統(tǒng)計(jì)分析

2017-04-08 19:39:25張宇堯

成長(zhǎng)·讀寫月刊 2017年3期

張宇堯

【摘要】本文選取河南省某市一重點(diǎn)中學(xué)某次期末考試的初一數(shù)學(xué)卷。同時(shí)根據(jù)經(jīng)典測(cè)量理論中抽樣要有代表性和項(xiàng)目反應(yīng)理論中樣本量要大、被試范圍要廣等要求，隨機(jī)抽取530名考生的數(shù)學(xué)試卷，對(duì)題型、總分、每題得分進(jìn)行了統(tǒng)計(jì)。

【關(guān)鍵詞】試卷質(zhì)量；經(jīng)典測(cè)量理論；SPSS

經(jīng)典測(cè)量理論要求全部測(cè)試所用參數(shù)從考生樣本中獲得。在一組樣本中實(shí)際測(cè)量的分?jǐn)?shù)稱為觀測(cè)分?jǐn)?shù)，大多情況下真分?jǐn)?shù)模型中的假設(shè)能夠借助實(shí)驗(yàn)數(shù)據(jù)得到驗(yàn)證，這種理論建立在隨機(jī)抽樣理論的基礎(chǔ) 上，測(cè)驗(yàn)結(jié)果可信度高，較普遍化。真分?jǐn)?shù)模型是經(jīng)典測(cè) 量理論的基礎(chǔ)模型，根據(jù)真分?jǐn)?shù)的假設(shè)可以延伸出與其相關(guān)聯(lián)的假設(shè)定理，即經(jīng)過(guò)足夠多次數(shù)的測(cè)試，觀測(cè) 分?jǐn)?shù)會(huì)無(wú)限接近于真分?jǐn)?shù)，那么隨機(jī)誤差就會(huì)被無(wú)限縮小化，真分數(shù)就等于測(cè)量實(shí)際得到分?jǐn)?shù)的期望值，因此在數(shù)學(xué)上可以認(rèn)定測(cè)量上被試的觀測(cè)分?jǐn)?shù)就是真分?jǐn)?shù)?？捎孟率奖硎荆?/p>

T=E（X）（2-1）

式中的X為被試在測(cè)驗(yàn)上的實(shí)得分?jǐn)?shù)，E代表期望，T代表被試的真分?jǐn)?shù)[1]。如果按數(shù)學(xué)上定義的真分?jǐn)?shù)來(lái)求解的話發(fā)現(xiàn)這里的真分?jǐn)?shù)不能夠被直接測(cè)量，因?yàn)檫@里的真分?jǐn)?shù)是在經(jīng)過(guò)足夠多次重復(fù)試驗(yàn)以后得到的平均觀測(cè)分?jǐn)?shù)。由于任何測(cè)驗(yàn)都存在不可避免的誤差，因此在經(jīng)典測(cè)量理論的假設(shè)中規(guī)定觀測(cè)分?jǐn)?shù)應(yīng)等于真分?jǐn)?shù)與隨機(jī)誤差之和，這也使得觀測(cè)分?jǐn)?shù)不是某一固定值，而是會(huì)在一定范圍內(nèi)上下波動(dòng)，如果從信息論的角度理解可知在眾多的信息當(dāng)中包含著有用信息和無(wú)用信息，而教育測(cè)量的目的是排除干擾信息，保留有用信息，在經(jīng)典測(cè)量理論中前者稱為誤差，后者稱為真分?jǐn)?shù)。

一、典測(cè)量理論的相關(guān)指標(biāo)

（一）難度

難度從字面上理解就是難易程度，難度的計(jì)算實(shí)質(zhì)上就是計(jì)算題目的得分率。由于難度是一個(gè)相對(duì)的指標(biāo)，會(huì) 因?yàn)闃颖镜牟煌贸龅碾y度值也會(huì)不一致。試題難度的計(jì)算方法很多，本文將試題分為客觀題和主觀題，采用如下兩種計(jì)算公式：

（1）客觀性試題難度P計(jì)算公式：P=K/N

K為答對(duì)該題的人數(shù)，N為參加考試的總?cè)藬?shù)。

（2）主觀性試題難度P計(jì)算公式：P=X/M

X為試題平均得分，M為試題滿分。

（二）區(qū)分度

區(qū)分度是指測(cè)試題目對(duì)水平不同的學(xué)生的區(qū)分程度或鑒別能力。具有良好區(qū)分度的考試，實(shí)際水平高的被試應(yīng) 得高分，水平低的被試應(yīng)得低分。它是測(cè)驗(yàn)是否有效的“指示器”，被作為評(píng)價(jià)試題質(zhì)量，篩選試題的主要指標(biāo)。計(jì)算區(qū)分度的方法很多，比較普遍的一種方法是兩端分組法。該方法比較得分在高、低兩端的被試通過(guò)該題的比率得到區(qū)分度。假設(shè)PH和PL分別為高分組和低分組通過(guò)某個(gè)題目的百分比，則下式即為區(qū)分度的計(jì)算方法：

D=PH-PL

二、試題的難度分析

本試卷共有22道試題，根據(jù)抽樣的數(shù)據(jù)，顯示試題難度如圖1所示：

一般地說(shuō)，試題的難度測(cè)量可參照表1進(jìn)行評(píng)價(jià)，

整卷難度發(fā)展變化的總體趨勢(shì)是從易到難，從每種題型分開來(lái)看，同樣呈由易到難的趨勢(shì)；總體來(lái)說(shuō)，試題的難度偏低，試題難度值大部分在0.66～0.83之間，試卷整體難度平均值為0.75，說(shuō)明試卷較為簡(jiǎn)單，但由于本試卷為期末考試試卷，通常期末考試試卷為目標(biāo)參照性考試，平均難度在0.7左右為宜。

三、試題的區(qū)分度分析

本文采取一種較方便的方法。對(duì)于客觀題，使用等級(jí)相關(guān)分析，使用斯皮爾曼等級(jí)相關(guān)分析，即求總分與每個(gè)試題得分間的相關(guān)系數(shù)；對(duì)主觀題，看成是非等間距測(cè)度的連續(xù)變量，并且樣本數(shù)大于30，采用皮爾遜相關(guān)分析來(lái)對(duì)試題進(jìn)行分析，即求總分與每個(gè)試題得分間的積差相關(guān)系數(shù)作為實(shí)體的區(qū)分度[2]。對(duì)區(qū)分度的評(píng)價(jià)如下表所示：區(qū)分度D？艸0.4很好，0.3？艽D<0.4良好，如能改進(jìn)更好；0.2？艽D<0.3尚可，需改進(jìn)；D<0.2差，需淘汰。

在本文使用的樣本中，第1～8題為客觀題，第9～22題為主觀題利用SPSS對(duì)區(qū)分度進(jìn)行分析，輸出結(jié)果的最后一行每小題與總分之間的相關(guān)系數(shù)即為區(qū)分度，輸出整理結(jié)果如下表：

由各題的區(qū)分度表可以看出，只有第1題的區(qū)分度不夠，需要淘汰，第4、5、12題的區(qū)分度需改進(jìn)，其余題目的區(qū)分度均在良好水平以上，這說(shuō)明該試卷的整體區(qū)分度良好，對(duì)水平不同的學(xué)生具有較好的鑒別能力。

四、結(jié)論及建議

在本文中，以經(jīng) 典測(cè)量理論為理論指導(dǎo)對(duì)試卷的分析得到了大體一致的結(jié)論，即樣本試卷區(qū)分度一般。同時(shí)，本文表明，簡(jiǎn)單將學(xué)生的總分看成能力的指標(biāo)是不夠科學(xué)嚴(yán) 謹(jǐn)?shù)?。?很多人的觀念中，分?jǐn)?shù)是一個(gè)評(píng)價(jià)學(xué)生能力的最有效指標(biāo)。但事實(shí)上，分?jǐn)?shù)并不能承載這么多的內(nèi)涵。考試分?jǐn)?shù)在一定程度上可以反映學(xué)生對(duì)書本知識(shí)掌握的情況，但不一定能反映學(xué)生的實(shí)際能力；單一按照總分得到的排名也不能作為衡量學(xué)生的綜合能力的唯一標(biāo)準(zhǔn)，而只能作為一個(gè)參考。因而，我們應(yīng)采用一種更客觀的參數(shù)來(lái)代替分?jǐn)?shù)，能更公正地反映學(xué)生的真實(shí)水平。試卷的質(zhì)量分析不僅要對(duì)所命制試題是否符合命題規(guī)則和考核目標(biāo)等方面進(jìn)行定性分析，同時(shí)也需要根據(jù)考生的作答情況進(jìn)行量化分析。

參考文獻(xiàn)：

[1]梁晶.基于經(jīng)典測(cè)量理論的試卷分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué)，2013.

[2]董喆.利用統(tǒng)計(jì)軟件SPSS進(jìn)行試卷質(zhì)量分析[J].中國(guó)科技信息，2009，15：100

成長(zhǎng)·讀寫月刊2017年3期

成長(zhǎng)·讀寫月刊的其它文章: 陽(yáng)光哺育我成長(zhǎng); 魔方校警; 沉蘇吟; 教育傳播視野下小學(xué)科學(xué)課堂教學(xué)活動(dòng)的優(yōu)化研究; 論室內(nèi)創(chuàng)新設(shè)計(jì)在人性化空間的應(yīng)用; 信息與計(jì)算科學(xué)專業(yè)大學(xué)生就業(yè)問(wèn)題研究