徐燚,陳紅,周慶環,王杉
(北京大學人民醫院,北京100044)
●專題—醫學教育實踐教學的改革與研究
醫學生臨床見習效果評價評分員間信度的多系列相關分析
徐燚,陳紅*,周慶環,王杉
(北京大學人民醫院,北京100044)
目的:測算醫學生臨床見習效果評價過程中評分員(帶教教師)間信度系數。方法:通過多系列相關分析方法,對9名帶教教師對43名醫學生橋梁課階段四門課程臨床見習效果進行評價這一過程中評分員間整體信度系數進行測算。結果:通過測算,在這一評價過程中,9名評分員(帶教教師)之間整體信度系數為0.73,具有一定的一致性和穩定性,處于技術上可以接受的范圍內(0.6-0.9)。結論:多系列相關分析法是一種基于連續型數據的評價多個評分員之間整體一致性程度的方法,但是,這種方法沒有考慮單個評分員之間的關聯程度。在實際的教學評價過程中,需要進一步研究評分員個體差異對于評分的影響,以便客觀而全面地評價評分員間信度。
評分員信度;相關分析;評價;醫學生
評分員信度是信度的一種,指同一評分員內部或不同評分員之間,在對測量結果評分上的一致性[1]。本次研究通過多系列相關分析法對9名評分員(帶教教師)對43名醫學生橋梁課階段四門課程臨床見習效果評價評分員間信度進行測算,了解這一評價方法可靠性和穩定性,為建立醫學生橋梁課階段臨床見習效果有效評價手段提供依據。
(一)評分員。
北京大學人民醫院臨床醫學專業八年制橋梁課階段四門課程(包括:體檢診斷學、外科學總論、影像診斷學以及實驗診斷學)臨床見習帶教教師共計9人。
(二)被評估對象。
北京大學人民醫院2010級八年制臨床醫學生共計43人。
(三)評估方法。
通過北京大學人民醫院研發的《師生雙向360度評估系統》,9名帶教教師分別對43名醫學生橋梁課階段四門課程的臨床見習效果進行評價,評價覆蓋“基本理論知識掌握情況”、“臨床技能操作情況”、“職業素養”、“主動學習能力”、“學習效果情況”、“溝通能力”、“團隊合作能力”、“遵守學習紀律”、“儀容儀表整潔大方”九個維度,每一維度采用1-5評分的方法,即5分:好、4分:較好、3分:一般、2分:較差、1分:差。最后分值為九個維度合計值并折合為百分制得分。
通過多系列相關分析法[2]對9名評分員(帶教教師)對43名醫學生橋梁課階段四門課程臨床見習效果進行評價中評分員之間信度進行分析,具體步驟如下:
第一,計算所有評分員(帶教教師)評價分數的相關系數矩陣。
第二,由于上述所得相關系數不是等距的,需要對其進行費希爾(Fisher)Z轉換,可以在統計學書上查r值的Zr轉換表實現,并求出Z值的算數平均數。
第三,為了獲得9名評分員(帶教教師)間整體信度,需要通過斯皮爾曼—布朗矯正公式[3]對Z值的算數平均數進行調整,通過查r值的Zr轉換表將其還原為相關系數r,即為9名評分員(帶教教師)的整體評分信度。
所有數據均利用SPSS 11.5進行統計學分析。
(一)評分結果的基本情況。
9名評分員(帶教教師)評分的分數范圍在86.30-94.63之間(滿分為100分),
8號和9號評分員(實驗診斷學)評分的平均分分別為最低分86.30和最高分94.63;體現每名評分員(帶教教師)評分內部差異性的標準差在2.38-7.76之間,4號評分員(外科學總論)標準差最小,為2.38,8號評分員(實驗診斷學)標準差最大,為7.76(見表1)。
(二)評分員(帶教教師)評分相關系數矩陣和相關系數Z值矩陣。
在SPSS軟件中,調用“分析(Analyze)”→“相關(Correlation)”→“兩因素(Bivariate)”得到9名評分員(帶教教師)評分相關系數矩陣(見表2)。
除4號評分員(外科學總論)與1號和2號評分員(均為體檢診斷學)之間相關系數0.287、0.262在0.05水平上無顯著性之外,其他相關系數均達到了0.05水平上的顯著性。對矩陣中的相關系數進行費希爾(Fisher)Z轉換,即通過查詢統計學教材中r值的Zr轉換表[4],得到相關系數的Z值矩陣(見表3)。

表1 9名評分員(帶教教師)對43名醫學生橋梁課階段四門課程臨床見習效果評分基本情況

表2 9名評分員(帶教教師)對43名醫學生橋梁課階段四門課程臨床見習效果評分相關系數矩陣

表3 9名評分員(帶教教師)對43名醫學生橋梁課階段四門課程臨床見習效果評分相關系數Z值矩陣
(三)運用斯皮爾曼—布朗矯正公式進行調整。
首先計算Z值矩陣中所有Z值的算數平均數:Z值總和/Z值個數=20.29/36=0.564,將此值代入斯皮爾曼—布朗調整公式:Ru=nrab/1+(n-1)rab在此公式中,n為評分員人數(本研究中n=9),rab為Z值的算數平均數,本研究中為0.564,代入計算如下:
Ru=9×0.564/1+(9-1)×0.564=0.922,但0.922仍為Z值,需要查r值的Zr轉換表,得到Ru值為0.73。即為本次研究中9名評分員(帶教教師)對43名醫學生橋梁課階段四門課程臨床見習效果評價評分員之間整體信度。
研究表明,信度在0.60至0.90之間都是可以接受的,本次研究得到的信度系數0.73處于技術上可以接受的范圍內,說明9名來自不同學科的帶教教師對43名醫學生橋梁課四門課程臨床見習效果評價具有一定的一致性和穩定性。也就是說,將9名臨床帶教教師對橋梁課階段醫學生在四門課程(體檢診斷學、外科學總論、影像診斷學以及實驗診斷學)臨床見習過程中表現的綜合評分在反映其臨床見習效果方面具備一定的可信度和穩定性。但是,評價過程中仍然有27%的變異來自測量誤差即評分員之間評分的不一致性。可以通過對評分員(帶教教師)進行培訓使其明確評分表中的各個指標體系的具體含義以及量化不同分值所表示的優劣程度以及使用更加清晰明了的評分表等方法降低測量誤差,提高評分員間的一致性。
多系列相關分析法是一種基于連續型數據(而不是字符或其他形式)的計算多個評分員之間整體一致性程度的方法,可以較好地彌補其他方法(如克隆巴赫α系數需要受到諸多因素的影響等)的不足,但是,多系列相關分析法卻是以犧牲評分員個體之間關聯程度為代價的。本次研究,評分員之間的信度是0.73,一致性程度可以接受,但是對評分員相關系數矩陣進行分析,可以發現,不同課程(即不同專業背景)的評分員(帶教教師)之間的相關程度存在一定差異。因此,在實際工作中,在測算評分員之間整體一致性的同時,還需要針對評分員(帶教教師)個體特征進行分析,以便更加全面地了解教學評價過程中的評分員信度。
[1]黃光揚.教育測量與評價[M].第二版.上海:華東師范大學出版社,2013:46-55.
[2]汪順玉,吳世銀.評分員信度的多系列相關分析方法原理及運用[J].重慶郵電學院學報(社會科學版),2006,18(6):945-947.
[3]李燦,辛玲.調查問卷的信度與效度的評價方法研究[J].中國衛生統計,2008,25(5):541-544.
[4]王孝玲.教育統計學[M].第四版.上海:華東師范大學出版社,2007:200-202.
G420
A
1002-1701(2015)01-0014-02
2014-01
徐燚,女,碩士,助理研究員,研究方向:臨床教學管理。
*通訊作者
10.3969/j.issn.1002-1701.2015.01.008