張宇堯


【摘 要】本文選取河南省某市一重點(diǎn)中學(xué)某次期末考試的初一數(shù)學(xué)卷。同時(shí)根據(jù)經(jīng)典測(cè)量理論中抽樣要有代表性和項(xiàng)目反應(yīng)理論中樣本量要大、被試范圍要廣等要求,隨機(jī)抽取530名考生的數(shù)學(xué)試卷,對(duì)題型、總分、每題得分進(jìn)行了統(tǒng)計(jì)。
【關(guān)鍵詞】試卷質(zhì)量;經(jīng)典測(cè)量理論;SPSS
經(jīng)典測(cè)量理論要求全部測(cè)試所用參數(shù)從考生樣本中獲得。在一組樣本中實(shí)際測(cè)量的分?jǐn)?shù)稱為觀測(cè)分?jǐn)?shù),大多情況下真分?jǐn)?shù)模型中的假設(shè)能夠借助實(shí)驗(yàn)數(shù)據(jù)得到驗(yàn)證,這種理論建立在隨機(jī)抽樣理論的基礎(chǔ) 上,測(cè)驗(yàn)結(jié)果可信度高,較普遍化。真分?jǐn)?shù)模型是經(jīng)典測(cè) 量理論的基礎(chǔ)模型,根據(jù)真分?jǐn)?shù)的假設(shè)可以延伸出與其 相關(guān)聯(lián)的假設(shè)定理,即經(jīng)過(guò)足夠多次數(shù)的測(cè)試,觀測(cè) 分?jǐn)?shù)會(huì)無(wú)限接近于真分?jǐn)?shù),那么隨機(jī)誤差就會(huì)被無(wú)限縮小化,真分 數(shù)就等于測(cè)量實(shí)際得到分?jǐn)?shù)的期望值,因此在數(shù)學(xué)上可以認(rèn)定測(cè)量上被試的觀測(cè)分?jǐn)?shù)就是真分?jǐn)?shù)??捎孟率奖硎荆?/p>
T=E(X) (2-1)
式中的X為被試在測(cè)驗(yàn)上的實(shí)得分?jǐn)?shù),E代表期望,T代表被試的真分?jǐn)?shù)[1]。如果按數(shù)學(xué)上定義的真分?jǐn)?shù)來(lái)求解的話發(fā)現(xiàn)這里的真分?jǐn)?shù)不能夠被直接測(cè)量,因?yàn)檫@里的真分?jǐn)?shù)是在經(jīng)過(guò)足夠多次重復(fù)試驗(yàn)以后得到的平均觀測(cè)分?jǐn)?shù)。由于任何測(cè)驗(yàn)都存在不可避免的誤差,因此在經(jīng)典測(cè)量理論的假設(shè)中規(guī)定觀測(cè)分?jǐn)?shù)應(yīng)等于真分?jǐn)?shù)與隨機(jī)誤差之和,這也使得觀測(cè)分?jǐn)?shù)不是某一固定值,而是會(huì)在一定范圍內(nèi)上下波動(dòng),如果從信息論的角度理解可知在眾多的信息當(dāng)中包含著有用信息和無(wú)用信息,而教育測(cè)量的目的是排除干擾信息,保留有用信息,在經(jīng)典測(cè)量理論中前者稱為誤差,后者稱為真分?jǐn)?shù)。
一、典測(cè)量理論的相關(guān)指標(biāo)
(一)難度
難度從字面上理解就是難易程度,難度的計(jì)算實(shí)質(zhì)上就是計(jì)算題目的得分率。由于難度是一個(gè)相對(duì)的指標(biāo),會(huì) 因?yàn)闃颖镜牟煌贸龅碾y度值也會(huì)不一致。試題難度的計(jì)算方法很多,本文將試題分為客觀題和主觀題,采用如下兩種計(jì)算公式:
(1)客觀性試題難度P計(jì)算公式:P=K/N
K為答對(duì)該題的人數(shù),N為參加考試的總?cè)藬?shù)。
(2)主觀性試題難度P計(jì)算公式:P=X/M
X為試題平均得分,M為試題滿分。
(二)區(qū)分度
區(qū)分度是指 測(cè)試題目對(duì)水平不同的學(xué)生的區(qū)分程度或 鑒別能力。具有良好區(qū)分度的考試,實(shí)際水平高的被試應(yīng) 得高分,水平低的被試應(yīng)得低分。它是測(cè)驗(yàn)是否有效的“指示器”,被作為評(píng)價(jià)試題質(zhì)量,篩選試題的主要 指標(biāo)。計(jì)算區(qū)分度的方法很多,比較普遍的一種 方法是兩端分組法。該方法比較得分在高、低兩端的被試通過(guò)該題的比率得到區(qū)分度。假設(shè)PH和PL分別為高分組和低分組通過(guò)某個(gè)題目的百分比,則下式即為區(qū)分度的計(jì)算方法:
D=PH-PL
二、試題的難度分析
本試卷共有22道試題,根據(jù)抽樣的數(shù)據(jù),顯示試題難度如圖1所示:
一般地說(shuō),試題的難度測(cè)量可參照表1進(jìn)行評(píng)價(jià),
整卷難度發(fā)展變化 的總體趨勢(shì)是從易到難,從每種題型分開來(lái)看,同樣呈由易到難的趨勢(shì);總體來(lái)說(shuō),試題的難度偏低,試題難度值大部分在0.66~0.83之間,試卷整體難度平均值為0.75,說(shuō)明試卷較為簡(jiǎn)單,但由于本試卷為期末考試試卷,通常期末考試試卷為目標(biāo)參照性考試,平均難度在0.7左右為宜。
三、試題的區(qū)分度分析
本文采取一種較 方便的方法。對(duì)于客觀題,使用等級(jí)相關(guān)分析,使用斯皮爾曼等級(jí)相關(guān)分析,即求總分與每個(gè)試題得分間的相關(guān)系數(shù);對(duì)主觀題,看成是非等間距測(cè)度的連續(xù)變量,并且樣本數(shù)大于30,采用皮爾遜相關(guān)分析來(lái)對(duì)試題進(jìn)行分析,即求總分與每個(gè)試題得分間的積差相關(guān)系數(shù)作為實(shí)體的區(qū)分度[2]。對(duì)區(qū)分度的評(píng)價(jià)如下表所示:區(qū)分度D?艸0.4很好,0.3?艽D<0.4良好,如能改進(jìn)更好;0.2?艽D<0.3尚可,需改進(jìn);D<0.2差,需淘汰。
在本文使用的樣本中,第1~8題為客觀題,第9~22題為主觀題利用SPSS對(duì)區(qū)分度進(jìn)行分析,輸出結(jié)果的最后一行每小題與總分之間的相關(guān)系數(shù)即為區(qū)分度,輸出整理結(jié)果如下表:
由各題的區(qū)分度表可以看出,只有第1題的區(qū)分度不夠,需要淘汰,第4、5、12題的區(qū)分度需改進(jìn),其余題目的區(qū)分度均在良好水平以上,這說(shuō)明該試卷的整體區(qū)分度良好,對(duì)水平不同的學(xué)生具有較好的鑒別能力。
四、結(jié)論及建議
在本文中,以經(jīng) 典測(cè)量理論為理論指導(dǎo)對(duì)試卷的分析得到了大體一致的結(jié)論,即樣本試 卷區(qū)分度一般。同時(shí),本文表明,簡(jiǎn)單將學(xué)生的總分看成能力的指標(biāo)是不夠 科學(xué)嚴(yán) 謹(jǐn)?shù)?。?很多人的觀念中,分?jǐn)?shù)是一個(gè)評(píng)價(jià)學(xué)生能力的最有效指標(biāo)。但事實(shí)上,分?jǐn)?shù)并不能承載這么多的內(nèi)涵。考試分?jǐn)?shù)在一定程度上可以反映學(xué)生對(duì)書本知識(shí)掌握的情況,但不一定能反映學(xué)生的實(shí)際 能力;單一按照總分得到的排名也不能作為衡量學(xué)生的綜合能力的唯 一標(biāo)準(zhǔn),而只能作為一個(gè)參考。因而,我們應(yīng)采用一種更客觀的參數(shù)來(lái)代替分?jǐn)?shù),能更公 正地反映學(xué)生的真實(shí)水平。試卷的質(zhì)量分析不僅要對(duì)所命制試題是 否 符合命題規(guī)則和考核目標(biāo)等方面進(jìn)行定性分析,同時(shí)也需要根據(jù)考生的作答情 況進(jìn)行量化分析。
參考文獻(xiàn):
[1]梁晶.基于經(jīng)典測(cè)量理論的試卷分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2013.
[2]董喆.利用統(tǒng)計(jì)軟件SPSS進(jìn)行試卷質(zhì)量分析[J].中國(guó)科技信息,2009,15:100