盧 燕,張 穎,王 鋼,張泉慧
(國家醫學考試中心,北京 100097)
教育測量學常用基于經典測量理論(CTT)的肯德爾和諧系數(W系數)以及內部一致性百分比(如Kappa系數等)[1]來評價評分者誤差。概括化理論(Generalizability Theory,GT)簡稱概化理論,是20世紀60年代由克隆巴赫(Cronbach,LJ.)和格萊塞(Qeser,R.)[2]等以數學形式化后引進測量領域的一種心理計量學理論,后為布倫南(Brennan,R.L)[3]等人所大力發展,是用于分析考試信度與效度的一種較先進的測量學理論方法。概化理論的研究有兩個階段,G研究與D研究[4]。G研究主要分解方差來源;D研究則根據G結果計算信度系數。
國家醫學考試中心受衛生部委托于2010年啟動了《中國心血管內科專科醫師考試體系建設項目》,2012年嘗試性開展了心血管內科專科醫師考試工作。目前該考試分為兩部分,即即專業理論考試和專業技能考核。其中專業技能考核采取計算機輔助標準結構化臨床綜合技能面試(以下簡稱面試)。本研究即以概化理論為工具,評估此考試面試部分的評分者信度與誤差,并嘗試性提出改進方案。
1.研究對象。從2012心血管內科專科醫生考試面試多套試題中隨機抽取了一套,以所有作答此套試題的考生分數作為研究樣本,其中考生人數142名,考官組21組,每組3名,共63名。
2.研究方法。按照概化理論,本考試測量目標為考生(p)在面試中表現的臨床技能能力,測量側面為考官,即評分者(r)側面。
本研究的概化理論分析分為兩個部分:第一部分以各考官組為單位的概化理論G研究,由于在考官組內每個考生接受所有考官的評價,因此實驗設計模式為考生×考官,即p×r隨機單面交叉設計;第二部分以各考官組為單位的概化理論D研究。
3.研究工具。本研究使用了美國衣阿華(Iowa)大學考試中心主任布瑞南(Brennan)教授主持編寫的用于多元概化理論分析的計算機程序mGENOVA。
1.各考官組概化理論G研究結果。表1為G研究所得各考官組內各效應的方差分量與分量所占總方差的比例的平均值。21組考生效應的方差占總方差比例的平均值為81.76%,各組考官主效應占總方差比例的平均值為4.99%,此結果說明大部分考官組內,考生面試分數的差異是由考生的能力差異造成的,考官所帶來的分數變異相當少,各考官組內考官評分標準比較一致。

表1 各考官組G研究結果(n=142,mean=62.92)
2.各考官組的概化理論D研究結果。表2為D研究所得21個考官組的絕對誤差、相對誤差的平均方差估計量及概化系數和可靠性指數。由表2可知,21個考官組概化系數的平均數為0.9317,可靠性指數 為0.9135,由此可知,面試各考官組的評分者信度較好。

表2 各考官組D研究結果(n=142,mean=62.92)
3.評分者數量對考生分數變異的影響。一般認為,增加評分者的數量能夠很好的提高考試的信度,減少評分者帶來的誤差。概化理論的D研究就可以探討在其他測量側面不變的情況,增加評分者側面人數對考試信度的影響。每組考官人數在2-5名,隨著評分者人數的增加,可靠性指數也在增加,依次為:0.9224,0.9469,0.9561,0.9674。從具體數字可知,當評分者在2個時,可靠性指數就已經達到了0.9224,遠高于一般認為的可接受標準0.8,因此,為了節約人力物力、降低考試成本,在保持考試信度水平的條件下,基于目前的考官隊伍水平與結構,可以考慮將每組考官人數由3人調整為2人。
本研究采用隨機單側面交叉設計,對2012年度心血管內科專科醫師考試面試得分進行了概化理論的研究。G研究結果顯示,考官為考生分數所帶來的評分者誤差占總體方差量的比例較小。同時D研究的結果也顯示,面試各考官組的評分者信度較好。
本研究還嘗試改變各考官組內考官的數量,計算其對總體分數的可靠性指數的影響,結果顯示,當將每組內的3個考官變為2個考官時,可靠性指數依舊保持在了0.9224的水平。因此,基于目前的考官隊伍水平與結構,可以考慮將每組考官人數由3人調整為2人。
[1]徐曉峰,劉 勇.評分者內部一致性的研究與應用[J].心理科學,2007,30(5):1178-1178.
[2]Rajaratuam N,Cronbach L J,Qeser G C.Generalizabiblity of stratified parallel Tests[M].Chicago:Psychometrika,1965.3-4.
[3]Brennan,R.L.Variance components in generalizability theory[M].Berlin:Springer,2010.15-16.
[4]楊志明,張 雷.測評的概化理論及其應用[M].北京:北京教育科學出版社,2003.22-23.