李倩倩
摘 要: 本文利用南寧市某中學2013年秋季學期數學期末考試成績,在經典測量理論(CTT)范疇下探討了該次期末考試數學試卷的信度、效度、難度、區分度和成績分布情況,結果顯示,該試卷信度高、難度適中、區分效果好、知識覆蓋面廣,試卷質量較高。
關鍵詞: 經典測量理論 信度 難度 區分度
一、引言
教育測量與評價是教育研究領域中重要的組成部分,是學科教學活動中科學管理的有效手段。《國家中長期教育改革和發展規劃綱要(2010-2020年)》明確把提高教育質量作為教育改革發展的核心任務,并多次強調與教育質量的監測和評價相關的內容[1]。顯然,在當前教育制度下,各種筆試仍是一種重要而有效的教育質量定量評價方式。試卷質量自然影響對教育質量的正確評價,因此,針對筆試試卷的質量分析顯得尤為重要。
試卷質量的分析一般是利用經典教育測量理論(CTT: Classical Test Theory)和項目反應理論(IRT:Item Response Theory)進行分析。
經典測量理論又稱為真分數理論,假定觀察分數X與真分數T線性相關,即CTT的數學模型為X=T+E,其中,隨機誤差E服從均值為零的正態分布。該理論最重要的四個指標正是反應試卷是否真實可靠、準確有效、難易適中、鑒別力強的信度、效度、難度和區分度等測驗質量指標[2]。當然,由于其比較依賴樣本、信度估計精度不高、難度和被試水平沒有定義在同一參照系上,同時,無法回答總分相同的考生的真實能力有無差異等問題,該理論也存在一定的局限性[3]。
項目反應理論是一種新興的心理與教育測量理論。該理論的前提假設非常嚴格,主要包括單維性假設和局部獨立性假設[4]。主要方法是在利用參數模型的基礎上,利用項目特征曲線、試題信息函數進行探討,同時利用EM算法,用邊際極大似然估計方法尋找項目參數的一致估計[5]。
本文主要利用南寧市某中學2013年秋季學期數學期末考試成績,在經典測量理論(CTT)范疇下探討該次期末考試數學試卷的信度、效度、難度、區分度和成績分布情況。通過試卷“四度一分布”了解試卷質量,并反饋教學效果情況。
二、基于CTT的試卷質量情況分析
1.成績分布情況
一般而言,一份好的試卷考試的成績都服從或近似服從正態分布,因此,考試成績的正態性是考察試卷質量的一個首要指標。檢驗正態性的方法很多,常見的是利用直方圖和卡方檢驗、K-S檢驗。從參加本次考試的872人中隨機抽取387人的成績進行檢驗,結果如圖1所示:
圖1 學生成績的直方圖
正態分布的K-S統計量顯著性概率P值為0.095>0.05,因此,這次考試學生成績服從正態分布。
2.信度
中學試卷中,選擇題分數可簡化為0,1得分情況來解釋,解答題和填空題可以看成非0,1記分的項目。因此,選擇題信度主要采用折半信度[斯皮爾曼-布朗(Spearman-Brown)公式、盧隆(Rulon)公式、弗拉納根(Flanagan)公式]和庫德-理查遜(Kuder-Richardson)信度(K-R20、K-R21公式)進行分析[7]。填空題和解答題為非0、1記分的項目,采用克龍巴赫系數進行統計,結果如表1所示。
表1 試卷信度分析結果
結果表明,每種方法計算的選擇題信度都接近0.7,信度系數處于尚可使用范圍之內。研究表明,對于標準化的大型測試題目信度要求一般要在0.9以上,而學校期末考試的信度在0.6以上即可接受[1]。選擇題、解答題的克龍巴赫系數為0.905,可以認為填空題和解答題的信度非常好,綜合考慮,試卷整體信度是可信的。
3.效度
效度(validity)是指測驗結果的有效性或準確性,即通過測驗能夠正確測量出它所要測量的屬性的程度[5]。測量的效度的種類很多,其中基于專家和教師對試題與所涉及的范圍進行符合性判斷的邏輯判斷法的內容效度使用較多。內容效度是指測驗內容對所要測驗的全部內容的代表性程度。但一次考試很難包含學生所學課程的所有內容,因此只能選擇具有代表性的試題進行考核,來了解學生的知識技能掌握情況[8]。
根據測量的目標與內容的雙向細分表,經過該校7位一線數學教師(其中高級教師4位,中教一級2位,中教二級1位)不記名反饋信息來看,本次考試所設計的試題覆蓋了所要測內容的主要方面,考查目標清晰明確,題型和分數結構合理恰當,總體符合考試大綱和教學要求。
4.難度
試題難度是反映考題難易程度的指標,一般而言是按照答對人數的百分比確定的,是衡量試卷質量的最主要的數量性指標,簡單來說可以利用測驗分數的分布情況和特征進行觀測,例如考察測驗分數的全距、零分、滿分、眾數、平均分數等相關指標進行定性的判斷,也可以根據不同的情況,利用有關公示進行精確計算。
一般而言,難度的取值范圍在[0,1]之間,取值越大,難度越小。難度在0.7以上的為比較容易的題,在0.4-0.7為中等難度的題,在0.4以下的則為較難的題或是難題。在實際教學中試卷難度水平的選擇,應取決于測驗的目的和試題的形式。如果測驗是用于區分學生水平,那么應該將試題或試卷的難度系數控制在0.5左右,各試題難度值在0.2-0.8,同時各題平均難度值在0.5左右是比較適宜的[5]。
對于采用0,1記分的選擇題,用通過率P、平衡猜測的校正公式CP和極端分組法計算各個試題的難度。
表2 選擇題的難度
對于非0,1記分的填空題、解答題和總分,用難度系數和極端分組法計算各個項目的難度。
表3 填空題、解答題的難度
結果顯示,就選擇題而言,三種計算方法的計算的難度差異不大,整體趨勢較一致,從三種公式的難度均值看,第1、2、5、6、7、8、9屬于難度較小的題目,3、4、10、11、12屬于難度中等偏上的題目,其中第4題難度最大,10,11,12三題難度也較大,選擇題總體難度為0.767,屬于比較容易,從試題編排上看,除個別題目外,整體趨勢是容易的題型放在前面,中等難度試題放在題型中間,較難試題放在題型后面,較合理。
對填空題和解答題而言,題目難度顯然大于選擇題,填空題總體難度均值為0.499,難度中等,解答題總體難度均值為0,472,屬于中等偏難程度,8道解答題的難易程度也和題目順序基本一致,越難的題目越在后面,符合數學試卷的一般規律。
從考試成績來看,難度系數為0.548,綜合選擇題、填空題、解答題三種類型的難度均值,整張試卷難度均值為0.579,和總分難度系數接近,因此,可以判定該份試卷總體難度適中。
5.區分度
區分度是反映試題效用的一個主要參數,同時也是試題對考生實際水平的鑒別能力,將不同層次的考生區分開來的統計量。若試題的測試結果是水平高的學生答對或者得高分,水平低的學生答錯或者得低分,則認為試題的區分能力強。一般而言,區分度在0.4以上為最佳效果,在0.3~0.39為合格,修改會更好,在0.2~0.29為勉強,仍需耍修改,區分度在0.19以下為差,必須淘汰[6]。
對于0,1記分的選擇題,利用極端分組法、點二列相關計算各個試題的區分度。
表4 選擇題的區分度
對于連續記分的主觀性試題填空題、解答題和總分,用極端分組法和相關法計算各個項目的區分度。
表5 填空題、解答題以及試卷的區分度
注:試卷區分度是將各題區分度進行加權平均計算的。
結果顯示,對于選擇題而言,總體看來,整個選擇題中大部分題目的區分度都在0.4以上。通過極端分組法和點二列相關系數計算的區分度在大部分題目中相差不大。極個別題目有明顯差異,主要在于兩種方法考慮的視角不一致,就第1題而言,極端分組法的區分度指標0.093,是利用高分組和低分組之間差異進行計算的,兩者差異很小,說明該題無論是高分組還是低分組都能完成,就區分能力而言屬于應該淘汰的題目,但正是由于該題目在高低分組中完成率都較高,和總分的相關性自然就大,因此,點二列相關法計算出來該題的區分度較高。兩種方法計算的試卷區分度均在0.6以上,說明該試卷區分能力強,區分效果佳。
三、有關結論
事實上,該次試卷為全市統一考試題目,從一定程度上說屬于“較大的標準化”考試題目。從上述分析可知,本次考試成績的分布直方圖并未凸顯畸形特征,基本上呈正態分布,單峰,稍微右偏。就四度而言,填空題、解答題的信度很好,但選擇題的信度適中。常見的提高測驗信度主要有以下方式:一是適當增加試題量;二是提高質量,試題難度要適中,區分度大;三是調整試題編排順序,盡量做到先易后難。
測驗的效度采用學科專家通過邏輯分析法進行分析的,根據測量的目標與內容的雙向細分表,了解到試題覆蓋了所要測內容的主要方面,考査目標清晰明確,題型和分數結構合理恰當,總體符合考試大綱和教學要求。
試題的難度較合理,大部分選擇題難度偏低,其中第4、10兩題難度最大。而最后一道解答題的難度系數則過大。這和數學試卷利用最后一題作為壓軸題有密切關系。
試題的區分度方面反應較好,但選擇題第1、2題和解答題最后一道題在兩種計算方法中差異很大。可能的原因在于第1、2題屬于難度很低的送分題,因此區分度也不高,最后一道壓軸題屬于難度最大,很多學生放棄作答,因此存在這方面的問題。
四、結語
考試是衡量教學效果的必要手段。隨著統計學及經濟計量學邊緣的不斷擴張,對于教學結果的評價越來越依賴于科學的理論和方法。教育評價技術方法中教育測量理論就是應用教育統計學方法實現的,成為測評學生能力、考核教育效果的重要措施。利用SPSS測度考試的難易度、區分度、信度、效度等指標,不僅可以直觀、便捷分析考試結果,發現考試中的重要信息和規律,還可以為教學效果評估提供重要的考核指標和模式。目前在教育教學及科研領域,人們采用科學的測評方法測度試卷科學性的嘗試并不多,尤其是一些規模較小的考試,這不利于教學質量和教師素質的提高,亦不利于考試學研究者開啟新的研究視域。應該加強對試卷科學化測度的研究及實踐,使考試這一重要的教學環節日益走上科學化和規范化的軌道。
通過試卷質量分析,不僅可以了解試卷情況,更可以利用試卷科學性測評的方式了解教師的教學效果,同時也可以通過建立試題庫、制定命題雙向細目表等方式,提高試卷質量。
參考文獻:
[1]《國家中長期教育改革和發展規劃綱要》關注教育質量監測[N].基礎教育質量監測信息簡報,教育部基礎教育質量監測中心,2010,1.
[2]郭熙漢,何穗,趙東方.教學評價與測量[M].武漢:武漢大學出版社,2008.
[3]杜洪飛.經典測量理論與項目反應理論的比較研究[J].社會心理科學,2006(6):15-17.
[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.
[5]何穗,吳慧萍.基于教育測量理論的中學數學試卷質量評價研究[J].考試與招生,2012(08):49-53.
[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.
[7]吳慧萍.基于教育測量理論的中學數學試卷質量評價研究[D].華中師范大學碩士學位論文,2012.
[8]洪冉.用數理統計方法分析試卷質量[D].華中師范大學碩士學位論文,2012.
對填空題和解答題而言,題目難度顯然大于選擇題,填空題總體難度均值為0.499,難度中等,解答題總體難度均值為0,472,屬于中等偏難程度,8道解答題的難易程度也和題目順序基本一致,越難的題目越在后面,符合數學試卷的一般規律。
從考試成績來看,難度系數為0.548,綜合選擇題、填空題、解答題三種類型的難度均值,整張試卷難度均值為0.579,和總分難度系數接近,因此,可以判定該份試卷總體難度適中。
5.區分度
區分度是反映試題效用的一個主要參數,同時也是試題對考生實際水平的鑒別能力,將不同層次的考生區分開來的統計量。若試題的測試結果是水平高的學生答對或者得高分,水平低的學生答錯或者得低分,則認為試題的區分能力強。一般而言,區分度在0.4以上為最佳效果,在0.3~0.39為合格,修改會更好,在0.2~0.29為勉強,仍需耍修改,區分度在0.19以下為差,必須淘汰[6]。
對于0,1記分的選擇題,利用極端分組法、點二列相關計算各個試題的區分度。
表4 選擇題的區分度
對于連續記分的主觀性試題填空題、解答題和總分,用極端分組法和相關法計算各個項目的區分度。
表5 填空題、解答題以及試卷的區分度
注:試卷區分度是將各題區分度進行加權平均計算的。
結果顯示,對于選擇題而言,總體看來,整個選擇題中大部分題目的區分度都在0.4以上。通過極端分組法和點二列相關系數計算的區分度在大部分題目中相差不大。極個別題目有明顯差異,主要在于兩種方法考慮的視角不一致,就第1題而言,極端分組法的區分度指標0.093,是利用高分組和低分組之間差異進行計算的,兩者差異很小,說明該題無論是高分組還是低分組都能完成,就區分能力而言屬于應該淘汰的題目,但正是由于該題目在高低分組中完成率都較高,和總分的相關性自然就大,因此,點二列相關法計算出來該題的區分度較高。兩種方法計算的試卷區分度均在0.6以上,說明該試卷區分能力強,區分效果佳。
三、有關結論
事實上,該次試卷為全市統一考試題目,從一定程度上說屬于“較大的標準化”考試題目。從上述分析可知,本次考試成績的分布直方圖并未凸顯畸形特征,基本上呈正態分布,單峰,稍微右偏。就四度而言,填空題、解答題的信度很好,但選擇題的信度適中。常見的提高測驗信度主要有以下方式:一是適當增加試題量;二是提高質量,試題難度要適中,區分度大;三是調整試題編排順序,盡量做到先易后難。
測驗的效度采用學科專家通過邏輯分析法進行分析的,根據測量的目標與內容的雙向細分表,了解到試題覆蓋了所要測內容的主要方面,考査目標清晰明確,題型和分數結構合理恰當,總體符合考試大綱和教學要求。
試題的難度較合理,大部分選擇題難度偏低,其中第4、10兩題難度最大。而最后一道解答題的難度系數則過大。這和數學試卷利用最后一題作為壓軸題有密切關系。
試題的區分度方面反應較好,但選擇題第1、2題和解答題最后一道題在兩種計算方法中差異很大。可能的原因在于第1、2題屬于難度很低的送分題,因此區分度也不高,最后一道壓軸題屬于難度最大,很多學生放棄作答,因此存在這方面的問題。
四、結語
考試是衡量教學效果的必要手段。隨著統計學及經濟計量學邊緣的不斷擴張,對于教學結果的評價越來越依賴于科學的理論和方法。教育評價技術方法中教育測量理論就是應用教育統計學方法實現的,成為測評學生能力、考核教育效果的重要措施。利用SPSS測度考試的難易度、區分度、信度、效度等指標,不僅可以直觀、便捷分析考試結果,發現考試中的重要信息和規律,還可以為教學效果評估提供重要的考核指標和模式。目前在教育教學及科研領域,人們采用科學的測評方法測度試卷科學性的嘗試并不多,尤其是一些規模較小的考試,這不利于教學質量和教師素質的提高,亦不利于考試學研究者開啟新的研究視域。應該加強對試卷科學化測度的研究及實踐,使考試這一重要的教學環節日益走上科學化和規范化的軌道。
通過試卷質量分析,不僅可以了解試卷情況,更可以利用試卷科學性測評的方式了解教師的教學效果,同時也可以通過建立試題庫、制定命題雙向細目表等方式,提高試卷質量。
參考文獻:
[1]《國家中長期教育改革和發展規劃綱要》關注教育質量監測[N].基礎教育質量監測信息簡報,教育部基礎教育質量監測中心,2010,1.
[2]郭熙漢,何穗,趙東方.教學評價與測量[M].武漢:武漢大學出版社,2008.
[3]杜洪飛.經典測量理論與項目反應理論的比較研究[J].社會心理科學,2006(6):15-17.
[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.
[5]何穗,吳慧萍.基于教育測量理論的中學數學試卷質量評價研究[J].考試與招生,2012(08):49-53.
[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.
[7]吳慧萍.基于教育測量理論的中學數學試卷質量評價研究[D].華中師范大學碩士學位論文,2012.
[8]洪冉.用數理統計方法分析試卷質量[D].華中師范大學碩士學位論文,2012.
對填空題和解答題而言,題目難度顯然大于選擇題,填空題總體難度均值為0.499,難度中等,解答題總體難度均值為0,472,屬于中等偏難程度,8道解答題的難易程度也和題目順序基本一致,越難的題目越在后面,符合數學試卷的一般規律。
從考試成績來看,難度系數為0.548,綜合選擇題、填空題、解答題三種類型的難度均值,整張試卷難度均值為0.579,和總分難度系數接近,因此,可以判定該份試卷總體難度適中。
5.區分度
區分度是反映試題效用的一個主要參數,同時也是試題對考生實際水平的鑒別能力,將不同層次的考生區分開來的統計量。若試題的測試結果是水平高的學生答對或者得高分,水平低的學生答錯或者得低分,則認為試題的區分能力強。一般而言,區分度在0.4以上為最佳效果,在0.3~0.39為合格,修改會更好,在0.2~0.29為勉強,仍需耍修改,區分度在0.19以下為差,必須淘汰[6]。
對于0,1記分的選擇題,利用極端分組法、點二列相關計算各個試題的區分度。
表4 選擇題的區分度
對于連續記分的主觀性試題填空題、解答題和總分,用極端分組法和相關法計算各個項目的區分度。
表5 填空題、解答題以及試卷的區分度
注:試卷區分度是將各題區分度進行加權平均計算的。
結果顯示,對于選擇題而言,總體看來,整個選擇題中大部分題目的區分度都在0.4以上。通過極端分組法和點二列相關系數計算的區分度在大部分題目中相差不大。極個別題目有明顯差異,主要在于兩種方法考慮的視角不一致,就第1題而言,極端分組法的區分度指標0.093,是利用高分組和低分組之間差異進行計算的,兩者差異很小,說明該題無論是高分組還是低分組都能完成,就區分能力而言屬于應該淘汰的題目,但正是由于該題目在高低分組中完成率都較高,和總分的相關性自然就大,因此,點二列相關法計算出來該題的區分度較高。兩種方法計算的試卷區分度均在0.6以上,說明該試卷區分能力強,區分效果佳。
三、有關結論
事實上,該次試卷為全市統一考試題目,從一定程度上說屬于“較大的標準化”考試題目。從上述分析可知,本次考試成績的分布直方圖并未凸顯畸形特征,基本上呈正態分布,單峰,稍微右偏。就四度而言,填空題、解答題的信度很好,但選擇題的信度適中。常見的提高測驗信度主要有以下方式:一是適當增加試題量;二是提高質量,試題難度要適中,區分度大;三是調整試題編排順序,盡量做到先易后難。
測驗的效度采用學科專家通過邏輯分析法進行分析的,根據測量的目標與內容的雙向細分表,了解到試題覆蓋了所要測內容的主要方面,考査目標清晰明確,題型和分數結構合理恰當,總體符合考試大綱和教學要求。
試題的難度較合理,大部分選擇題難度偏低,其中第4、10兩題難度最大。而最后一道解答題的難度系數則過大。這和數學試卷利用最后一題作為壓軸題有密切關系。
試題的區分度方面反應較好,但選擇題第1、2題和解答題最后一道題在兩種計算方法中差異很大。可能的原因在于第1、2題屬于難度很低的送分題,因此區分度也不高,最后一道壓軸題屬于難度最大,很多學生放棄作答,因此存在這方面的問題。
四、結語
考試是衡量教學效果的必要手段。隨著統計學及經濟計量學邊緣的不斷擴張,對于教學結果的評價越來越依賴于科學的理論和方法。教育評價技術方法中教育測量理論就是應用教育統計學方法實現的,成為測評學生能力、考核教育效果的重要措施。利用SPSS測度考試的難易度、區分度、信度、效度等指標,不僅可以直觀、便捷分析考試結果,發現考試中的重要信息和規律,還可以為教學效果評估提供重要的考核指標和模式。目前在教育教學及科研領域,人們采用科學的測評方法測度試卷科學性的嘗試并不多,尤其是一些規模較小的考試,這不利于教學質量和教師素質的提高,亦不利于考試學研究者開啟新的研究視域。應該加強對試卷科學化測度的研究及實踐,使考試這一重要的教學環節日益走上科學化和規范化的軌道。
通過試卷質量分析,不僅可以了解試卷情況,更可以利用試卷科學性測評的方式了解教師的教學效果,同時也可以通過建立試題庫、制定命題雙向細目表等方式,提高試卷質量。
參考文獻:
[1]《國家中長期教育改革和發展規劃綱要》關注教育質量監測[N].基礎教育質量監測信息簡報,教育部基礎教育質量監測中心,2010,1.
[2]郭熙漢,何穗,趙東方.教學評價與測量[M].武漢:武漢大學出版社,2008.
[3]杜洪飛.經典測量理論與項目反應理論的比較研究[J].社會心理科學,2006(6):15-17.
[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.
[5]何穗,吳慧萍.基于教育測量理論的中學數學試卷質量評價研究[J].考試與招生,2012(08):49-53.
[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.
[7]吳慧萍.基于教育測量理論的中學數學試卷質量評價研究[D].華中師范大學碩士學位論文,2012.
[8]洪冉.用數理統計方法分析試卷質量[D].華中師范大學碩士學位論文,2012.