張東海++趙留莊++剛君++徐德穎+劉雙
[摘要] 評價考試質量常用有8個指標,包括涉及試卷的信度以及效度、難度、區分度,還包括平均分數以及標準差、分數分布狀態、成績。本文主要對上述指標的一般常用方法做簡要介紹,其方法適合一般結業試卷分析。
[關鍵詞] 助理全科醫師;試卷分析;信度;難度系數;區別度
[中圖分類號] R-4 [文獻標識碼] C [文章編號] 1673-9701(2017)02-0125-03
Brief introduction to commonly used indicators of assistant general practitioner's examination paper
ZHANG Donghai1 ZHAO Liuzhuang2 GANG Jun3 XU Deying4 LIU Shuang3 MA Xiuhua2
1.Department of Gastroenterology, Daxing Hospital, Capital Medical University, Beijing 102600, China; 2.Office of Hospital, Daxing Hospital, Capital Medical University, Beijing 102600, China; 3.Department of Science and Education, Daxing Hospital, Capital Medical University, Beijing 102600, China; 4.General Practice and Continuing Education of Capital Medical Unicersity School, Beijing 100069, China
[Abstract] Eight indicators are used in evaluating examination quality, including reliability, validity, difficulty, discrimination testing and average marks, standard deviation, score distribution, grade. Commonly used methods for the above indexes which are suitable for general graduation examination paper analysis would be introduced briefly.
[Key words] Assistant general practitioners; Examination paper analysis; Reliability; Difficulty coefficient; Difference degree
試卷分析是針對大量的成績數據進行統計、計算、分析,進而得出科學結論的過程。試卷分析屬于“教育測量學”的范疇。通過試卷分析可能提煉出諸多對考試質量進行評價的數據,此時試卷就不是單純地“考試”,而是變(升華)為“試卷分析”。通過試卷分析所得到的比較科學的分析結果,可以進一步展開對教學活動評價,了解教學質量以及學生的學習質量(如對知識的掌握程度)等[1-7]。評價考試質量常用8個指標,包括涉及試卷的信度以及效度、難度、區分度,還包括平均分數以及標準差、分數分布狀態、成績[8-10]。對于上述指標進行分析的方法學較多、有的較為繁雜。我們曾做過相應試卷分析工作[11,12],現結合工作體會將適合結業試卷分析的一般常用方法做一簡介。
1 主要涉及試卷質量指標(信度、效度、難度、區分度)的一般分析方法[8,13-14]
1.1 試卷試題難度分析的常用具體方法
難度系數(P)通常是指試卷以及試題的難易程度,可以反映或評價大部分學生對該試題或試卷知識點的掌握程度。難度系數分析應該包括試題難度系數與試卷難度系數兩部分,僅進行試卷難度系數分析不易找出具體問題(即總成績可能掩蓋具體得分點)。
1.1.1 試卷總體難度分析的常用方法 試卷整體難度一般以0.6~0.8為宜。方法1:難度系數(P)=試卷的平均得分÷該試卷的滿分值。如:試卷平均分為75分,該試卷滿分為100分,則P=0.75。該方法較為粗糙,故較少采用。方法2:試卷難度系數(P)=(考試成績前27%學生的得分之和+考試成績后27%學生的得分之和)/兩組總人數滿分之和(考試成績前27%學生指考試成績排名在前27%的學生,將這些學生的成績相加即為得分之和;考試成績排名在后27%的學員以此類推)。
1.1.2 試題難度系數(P)常用計算公式 方法1:難度系數=試題的平均得分÷該題的滿分值。方法2:難度系數=該題的總得分÷該題的滿分值。滿分值是指:參加考試人數×該題卷面的分值。如果所有試題均采用1分制(即:滿分100分,試題100道,每道1分;不采用扣分制),則該題得滿分值就是參考人數。所得結果也是該題的答題正確率。此時用方法2就較為方便。
1.2 區別度分析的具體方法學
區別度(D)是指能夠區分考試(測驗)成績好的學生和考試(測驗)成績差的學生的指標,一般通過計算高分數段和低分數段學生的難度系數而得出。要同時分析試題區別度數與試卷區別度,單獨分析試卷區別度易于掩蓋試題的區別指數,誤導選用試題。區別度越高,區分能力越強。但是,在結業考試中允許D=0的試題出現。一般以<0.15與≥0.15作為區分點。區分度的計算方法有多種,其中“極端法”計算較為簡單,故較為常用。(1)試題區別度(D):D=[2×(總成績前27%學生的答對人數-總成績后27%學生的答對人數)]/兩組考生總人數。(2)試卷區別度:即D=PH-PL(PH為考試成績前27%學生的難度系數,PL為考試成績后27%學生的難度系數);該公式也可以換算為D=[2×(高分段學生得分之和-低分段學生得分之和)]/兩組總人數滿分之和。
1.3 試卷信度分析的具體方法學
試卷信度(α)評價該試卷檢測結果的可靠程度、可重復性的指標,即為評價被測者在測試中的實際測量值與真實能力是否一致性的指標。最好的試卷信度應該在0.9以上,若低于0.7以下則不甚可靠。計算方法如下。
1.3.1 克朗巴赫公式[Cronbach系數(α)] (α)= 試題數/試題數-1×[(所有被測者第i題的方差-所有被測者總分的方差)/所有被測者第i題的方差]。該方法適用于非選擇題以及多值計分題(即:試卷試題的類型較多、各題分值不同,如包括多選題、是非題、問答題等)。計算過程較為復雜,需要每道試題計算后得出結果,該方法應用較多。
1.3.2 庫德-理查遜信度(簡化)公式 適合用于每題1分的選擇題(即試題計分為1分或0分的試題)。信度系數=[n(s-1)2-X(n-X)]/[(n-1)s2](計算較為簡單)。(n為卷面滿分成績,X為平均總分,s為標準差)[11]。該方法最大的好處是不需要逐題計算通過率。
1.3.3 庫德-理查遜信度(簡化)公式的進一步簡化 計算較為簡單。此公式適用于所有試題為每題1分選擇題的試卷。信度系數=[K/(K-1)]{1-[X(K-X)/Ks2]}。K為測題的數目,X為平均總分,s為標準差)[5]。
1.3.4 相關系數(R)計算[10] 該方法計算較為復雜。具體公式可以參考相關文獻。
1.4 試卷效度分析
效度用于評判測量的正確性、有效性(反映測量到的與所要測量的二者之間的符合程度)[5,6,8,14-15]。如果將測驗總分看作是內部效標,則該測題的區分度也就是該測題的效度(即內部效標的效度)[5,6,8,14]。所以,如果僅分析試卷本身只要有區別度即可。因此,在多數的研究中沒有計算“效度”[1,3,7,11]。其他獲得效度的方法如下。
1.4.1 相關系數(R)計算 基本方法是通過計算兩門性質相近學科、或同一學科前后兩次考試成績的相關系數(R)來評價此次考試成績的有效性。
1.4.2 百分一致法 按考試成績將學生分為高、中、低3組,用各個試題中高、低分組之差除以相應的滿分,即可得出此題的效度值。這實際上雷同于“區分度計算”方式,僅適應于本試卷的檢測[16]。
1.5 試題難度系數(P)與區別度(D)之間的關系
P值越大則說明試題難度越?。▋热轂槎鄶祵W生掌握),P值越小說明試題難度越大(多數學生未掌握),此兩種情況試卷或試題的區別度均較差;要有較好的區別度,試題難度應適中。
較易試題的難度系數≥0.7;0.4<難度系數≤0.7屬于中等難度題;較難試題的難度系數多<0.4。多數認為較好的試卷難、中、易試題的分配比例應當分別為20%、60%、20%,這在區別性測試多采用。在結業性測試(屬于目標參照性測驗[11])中,由于測試目的是了解學生是否掌握了必須掌握的知識,并非區別性測試,所以會允許有P=1、D=0的試題出現,但為了區別優秀與差生,仍然需要一部分難度較大的試題。例如:作者在一次《臨床綜合課程》學員結業測試時,分配試卷試題難、中、易試題的分配比例分別為11%、22%、67%,因為主要目的是了解學員是否掌握了培訓必須掌握的知識,故試題主要測試教學大綱要求掌握的部分(定性為“易”),但試卷信度為0.9,說明該次測試符合目標參照性測驗的標準,該試卷整體的看基本合理[11]。
2 主要體現學生成績的分析指標(成績、平均分數、標準差、分布狀態)[5,6,10,13,14]
2.1 成績
即考生試卷的總得分。這是基本原始數據,是所有數據分析的基礎數據,必須仔細輸入。
2.2 平均分數
是最直觀的集中量數。一般認為平均分數的最佳數值為75(百分制)。
2.3 標準差(s)
例如,甲班與乙班的考試平均分數相近但分數分布差異明顯,則不能說兩個班級的成績相近。此時不僅要考慮到平均分數,還要計算分數的離散程度(簡單可以理解為“分數分布情況”,學術名稱——差異量數)。常用的差異量數有多種,經常采用的差異量數是標準差。計算公式可以在統計學教材查找到。計算標準差,理論上講學生人數越多越好。一般認為:標準差≤10即能符合要求。標準差過大說明全班分數差異過大,需要教師予以注意;但過小則信度下降,區別度下降,標準差也可用于信度計算。
2.4 分布狀態
簡單理解就是看整個班級(年級)學生的成績分布情況。一般要求是正態分布,結業考試可以允許一定的正偏態分布,但絕不能完全一邊倒。一般習慣是利用成績分布曲線分析學生的考試成績(縱坐標為學生人數,橫坐標為分數),可以直觀的下結論(定性分析);如果要進行定量分析,則需進一步計算偏態量數及峰態量數[10]。
試卷分析的方法學較多,本文僅介紹較為簡單、易于掌握的部分。利用試卷分析結果,可以評價教學效果,但其評價的基礎是要有高質量的“試卷”(難易程度適當、知識點掌握的較好),這同樣涉及教與學兩方面的努力。試卷分析僅僅是手段而已,也可稱為是教育測量的工具。在進行試卷分析的準備過程中,首先要編制適合測試對象的“試卷”:編制試卷則要根據測驗目的進行,最基本的是要依據測驗功能決定是進行能力傾向測驗(學生的潛在能力如何?)還是學業成績測驗(考察學生經過教育教學過程后學業成績的掌握情況,也稱“考試”)。進一步,則要根據培養目標進行分數解釋,如果是“目標參照性測驗”則其及格就是最基本的教學要求水平參照點,分數愈高說明達標的完滿程度愈高;如果是“常模參照性測驗”,即測驗目的是鑒別性測驗(優選,如高考),則測驗的難度就要適當增加以利于選拔。結業測驗一般是“目標參照性測驗”,本文介紹的簡便方法學適用于“目標參照性測驗”。
研究結業考核標準與模式是不斷探討的課題[17],結業試卷分析不僅可以評價本次考核內容的學生掌握情況、教師教學效果,同時也可以評價不同教學單位在教授同一課程時其間教學效果的差異性[18]。“3+2”助理全科醫師培訓[19-21]是一項新的工作,我們在其中的《臨床綜合課程》教學實踐、教學管理中,納入試卷分析體系作為評價整體教學水平、發現不同教學單位教學差異點的手段之一[8,9],取得了較好的效果,不僅了解了教學效果,同時也為提出新的教學思路提供啟發點,為集體備課提供了具體依據。因此,掌握試卷分析方法學,既是教師的基本功(特別是高校教師),也是教學管理部門應該熟悉的管理內容與管理技術。
[參考文獻]
[1] 張正祥,劉國慶,王廷慧,等. 延安大學醫學院藥理學試卷分析[J]. 中華醫學教育雜志,2008,28(4):120-122.
[2] 孫敏,王錦帆,祖勤,等. 醫學生學習中期評估測試實效分析[J]. 中華醫學教育雜志,2013,33(4):617-620.
[3] 盧燕,王培玉,劉寶花. 北京大學醫學部八年制疾病預防醫學期末考試試卷分析[J]. 中華醫學教育雜志,2013, 33(5):791-793.
[4] 和永祥,王淵,徐俊麗,等. 內科學考試試卷分析與評價[J].西北醫學教育,2006,14(3):304-305.
[5] 王孝玲,教育測量(高等師范院校教材)(第2版)[M]. 上海:華東師范大學出版社,2005:1-188.
[6] 黃穎,林端宜. 試卷分析研究現狀綜述[J]. 西北醫學教育,2005,13(1):39-40.
[7] 宋青,蔡景一. 試卷考核質量評價[J]. 中國高等醫學教育,2006,(11):30-31.
[8] 高衛紅,任俊峰. 利用教育統計學原理進行考試質量分析方法初探[J]. 武警醫學院學報,2004,13(3):214-218.
[9] 田考聰,彭斌. 試卷質量定量分析系統中的幾個參數及其應用[J]. 醫學教育探索,2004,3(4):52-54.
[10] 張玲玲,梅忠義. 對學生成績評價指標體系中一些問題的思考,合肥工業大學學報(社會科學版),2006,20(2):19-21.
[11] 馬秀華,張東海,黃東明,等. “3+2”助理全科醫師培訓《臨床綜合課程》結業試卷評價及相關因素分析[J]. 中國醫學教育技術,2015,29(2):213-217.
[12] 馬秀華,張東海,徐德穎,等. “3+2”助理全科醫師培訓中《臨床綜合課程》結業試卷分析評價[J]. 中華醫學教育探索雜志,2016,15(5):445-450.
[13] 彭斌. 試卷質量定量分析系統中的幾個參數及其應用[J].中華醫學教育探索,2004,3(4):52-54.
[14] 劉新平,劉存俠. 教育統計與測評導論(第1版)[M]. 北京:科學出版社,2003:133-156.
[15] 史宏燦,龔衛娟,鄭英,等. 以國家執業醫師資格考試為參照的臨床醫學教學改革思考[J]. 中華醫學教育探索雜志,2016,15(5):459-464.
[16] 陳欣,戴社教,趙暹,等. 不同類型試題對醫學影像學考試評價的效能分析[J]. 中華醫學教育探索雜志,2016, 15(5):455-458.
[17] 趙麗莉,李嶄,黃艷. “3+2”培訓項目結業考核標準與模式的研究[J]. 繼續醫學教育,2015,29(11):4-5.
[18] 張東海,馬秀華,趙留莊,等. 通過臨床綜合課程結業試卷分析不同教學單位教學效果的差異[J]. 衛生職業教育,2016,34(12):101-103.
[19] 黃艷,線福華,趙麗莉,等. “3+2”助理全科醫師培養模式的探索與實踐[J]. 中華醫學教育雜志,2014,34(2):31-33.
[20] 張東海,馬秀華,黃東明,等. “3+2”助理全科醫師培訓<臨床綜合課程>首輪課程實施后的思考[J]. 中華醫學教育探索雜志,2015,14(8):837-840.
[21] 馬秀華,張東海,黃東明,等. 病例導入式教學在《臨床綜合課程》教學中的初步應用[J]. 首都醫科大學學報,2014,(社會科學版增刊):180-182.
(收稿日期:2016-10-12)