基于Rasch模型的概率論與數理統計考試質量分析

2019-12-19 10:48:58雷玉潔宋麗娟

衛生職業教育 2019年24期

馬翠，雷玉潔，宋麗娟

（陸軍軍醫大學，重慶 400038）

概率論與數理統計作為醫學院校一門重要的公共基礎課程，其教學內容包括概率論的基礎知識和數理統計的基本方法，主要研究隨機現象的統計規律。課程結束時，通常采用各專業統考的方式進行測試。本文的目的是把現代測量理論Rasch模型引入概率論與數理統計期末考試客觀題的質量分析中，通過科學的定量分析，驗證試題結構、試題的難易程度、知識點的分配以及覆蓋面是否符合課程標準的要求，力求為今后進一步修改組卷策略、提高試題質量提供客觀的理論依據。

Rasch模型（Rasch model）是由丹麥數學家、統計學家Georg Rasch（1901—1980年）基于項目反應理論提出的一個潛在特質模型。此模型旨在以自然科學領域內的客觀測量為標桿，為社會科學領域內的測量建立起一套客觀標準[1]。Rasch模型以數據與模型的擬合為前提，將題目與個體的能力放在同一尺度上，從而克服傳統測量中的樣本依賴（sample-dependent）與測驗依賴（test-dependent）[2]，并在測驗題目的分析中對傳統測量方法所存在的不足做了相應改進，從而確保測量所提供的信息更為客觀和可靠。

1 資料與方法

1.1 資料收集

針對我校2015級醫學各專業3個班453名學生的概率論與數理統計期末考試成績，采用Excel 2010對收集到的原始分數數據進行清理和轉化。數據矩陣維度為453×28，每個樣本都包含5個判斷題、15個單選題、8個填空題共28道客觀題得分（錯誤計為0，正確計為1）。

1.2 統計學方法

使用Winsteps軟件對所得數據進行Rasch分析，主要包括單維度檢驗、總體擬合情況、題目與個體分析、Wright圖、氣泡圖與DIF檢驗，并分析了各因素對測試結果的影響。利用SPSS13.0軟件的獨立樣本t檢驗以及單因素方差分析對Rasch模型所估個體能力進行組間差異性比較。

2 結果

2.1 單維性檢驗

本研究中的單維性檢驗是指題目是否只測量學生掌握概率論與統計數理課程相關知識的能力。主成分分析結果顯示，第一對比殘差特征值為1.7（見表1），說明單維性較好[3]，但僅有26.4%的原始總方差被測試解釋。

表1 共同因素可解釋的總變異量

在單維性檢驗圖（見圖1）中，橫坐標表示題目難度，縱坐標表示當控制主要特質后，題目分數與另一潛在特質之間的相關系數。通常認為，當相關系數落在-0.4～0.4之間時，表明它們測量同一特質[4]。從圖中可以看出，該套試卷大體上測量的是同一種特質，單維性較好。A（第28題）、B（第27題）兩題超出該范圍，說明它們可能還測量別的能力，而不僅僅是試題所要測量的能力，應進一步考查和修改。

圖1 單維性檢驗圖

2.2 總體擬合情況（見表2）

總體擬合效果反映了實際測量數據是否符合Rasch模型的預期，主要依據是Infit和Outfit兩項指標。Infit MNSQ和Outfit MNSQ值為1，表示數據與模型完全擬合，二者在0.5～1.5之間都是可接受的[5]。從表2可知，學生和題目的擬合度加權殘差均方（Infit MNSQ）均為1.00，Infit ZSTD分別為0.10和0.00，說明模型擬合效果很好。453名學生掌握概率論與數理統計課程的平均能力得分為1.71，標準差為1.01；28道題目的平均難度為0.00，標準差為1.24。學生的分離度為1.33，較試題的分離度（7.69）小，說明學生的能力水平差異不十分明顯，今后可適當增加不同能力水平的學生，從而增大被試者的分離度。此外，表2顯示試題信度（0.98）很高，接近1，而學生信度為0.64，這表明可能學生的能力水平差異不明顯，分布較集中，也可能是有些題目與學生的能力水平不符，該試題對不同能力水平學生的區別能力有待加強。下一步可考慮增加不同能力水平的學生，也要對有些題目進行修改，加強試題對不同能力水平學生的區分能力。

從題目來看，第20、25、26題難度相對較大，均在1.7個Logit以上，第20題達到了1.98個Logit，難度最大。第9、12題難度較低，均在-2.2個Logit以下，難度最低為第9題，為-2.4個 Logit；從參加測試的學生來看，編號為 161、258、269、319 的學生能力最強，為 5.17 個 Logit，編號為 27、40、82、188、428、86的學生能力較低，均在-0.3個Logit以下，能力最低為編號86的學生，為-0.98個Logit。

2.3 學生—題目關系分析

Rasch模型經典的Wright圖可以更為直觀地在同一維度量尺上顯示比較個體能力和題目難度，它將題目、被試按其難度、能力高低放在同一個Logit量尺上。該圖最左端的數值是學生水平和題目難度的Logit值，中間豎線是Logit刻度尺，左側是學生分布，每個“#”代表5名學生、每個“﹒”代表1～4名學生，從下往上能力逐漸增大；右側是28道按順序編號的題目，由下往上題目難度逐漸增加。根據Wright圖的原理，構建本次測試的學生和題目的對應關系圖，見圖2。

從圖2可清晰地看出題目、學生在測量變量上的分布及其對應情況。從題目整體分布上來看，28道題目難度范圍較廣，且基本呈現均勻分散，學生的能力分布也較為理想，具有一定的分散度，中間部分的學生人數較多，上、下兩端學生人數較少。但大部分考生水平在0個Logit以上，且較為集中，表明本次測試對于所有學生平均而言比較簡單。難度較小的題目（如第1、2、6、8、9、12、14、24 題）幾乎沒有相應能力水平的學生與之匹配，這就是所謂的“送分題”。在下一步工作中，適當減少低難度題目的同時要增加部分難度較大的題目，以增強測試的意義。另外，可考慮適當增加水平較低的被試，使學生的能力分布范圍更廣，能被難度較小的題目鑒別。

氣泡圖是Winsteps軟件提供的另一種更加直觀、科學分析題目擬合及誤差情況的圖形，圖中縱坐標“Measures”是題目難度，橫坐標是擬合指數Outfit的ZSTD值，“氣泡”的大小代表項目難度估計誤差的大小。通過Winsteps繪制本次測試的氣泡圖（見圖3），從圖中可以看出，大部分試題均落在可接受區間-2～2之間，但第7、10題略超出可接受范圍，第5題擬合效果最差。此外，氣泡圖顯示，第9、12題的誤差較大。針對上述幾道試題，在后續的出題工作中，應考慮將其刪除或做進一步修改。

圖3 氣泡圖

2.4 題目功能差異分析

利用DIF檢驗本次測試對不同性別、不同班級的學生是否存在功能差異。結果發現，第3、7、10、18共4道題目對不同性別的學生存在功能差異（功能差異指數的絕對值大于1個Logit可認為存在功能差異[6]），見表3；第7、9、10、15、17、18、21、23共8道題目對不同班級的學生存在功能差異，見表4。這提示我們若要進行不同性別、不同班級間學生能力的比較，需將上述具有顯著功能差異的題目剔除，以便排除其他干擾因素。

表3 性別DIF顯著的題目

表4 班級DIF顯著的題目

根據DIF檢驗的結果，刪除對應題目，重新估計學生的能力后，比較不同性別、不同班級學生能力的差異是否具有統計學意義，結果如表5、表6所示。

表5 性別因素對測試結果影響的獨立樣本t檢驗

表6 班級因素對測試結果影響的單因素方差分析

由表5可知，性別的不同對測試結果有影響，即“女生平均能力較男生平均能力高”這一結論具有統計學意義（P＜0.05）。由表6可知，班級的不同對測試結果的影響具有統計學意義（P＜0.05）。進一步做多重比較，發現1班和2班、3班學生平均能力的差異具有統計學意義（P值分別為0.002，0.017，均小于0.05），2班、3班的學生平均能力不具有顯著性差異（P=0.805）。

3 討論

本文利用Rasch模型對我校2015級醫學各專業學生的概率論與數理統計期末考試成績進行了定量分析，主要包括單維度檢驗、總體擬合情況、題目與個體分析、Wright圖、氣泡圖以及題目功能差異分析。根據研究結果我們發現，本次測試的總體擬合情況較好，但學生信度（0.64）不是非常高，其原因可能是低能力個體較少、題目總體難度不高。但出于考查學生掌握概率論與數理統計知識的情況、檢驗教學效果的目的來講，說明參加測試的學生基本上已經掌握了概率論與數理統計的大部分知識，這也達到了測試的目的，可見該套試題總體較為合理，但對于諸如單維性檢驗差（第28題）、擬合效果不佳（第5題）以及DIF顯著的題目，可以考慮在以后的測試中進一步加以改進。從分析結果來看，學生總體掌握概率論與數理統計知識的情況較好，教學效果比較理想。但從性別和不同班級學生掌握情況來看，還存在顯著差異，說明在以后的教學中我們需要重點加強對男生和1班學生的督促力度。