■ 朱濱海 占伊揚 孫寧生 沈歷宗 周玉皆 唐寧一 沈 勤 朱春霞 虞海平 趙 沛 徐 穎 王 虹
科學嚴謹的住院醫師培訓階段考核是評估住院醫師臨床工作能力的重要方式,是檢驗住院醫師培訓效果的必要環節,是保證住院醫師培訓質量的重要措施。在住院醫師培訓階段考核中,如何客觀、有效地評價住院醫師的臨床工作能力,已成為近年來國內外住院醫師培訓改革的難點和熱點問題之一。
江蘇省住院醫師培訓階段考核分為理論考試和臨床技能考試兩部分。理論考試采用人機對話網絡考試模式,臨床技能考試采用客觀結構化臨床考試。客觀結構化臨床考試(objective structured clinical examination,OSCE),又稱多站式臨床技能考試,是一種對醫生臨床工作能力進行評價的考試方法,其最突出的特點和優勢就是可以對考生臨床技術操作進行直接和客觀地評價,目前歐美等國家和地區已普遍用于醫師執業資格考試和住院醫師培訓考試[1-5]。本研究旨在建立和實施江蘇省住院醫師培訓階段考核的客觀結構化臨床考試方案,并對考試成績進行統計學分析,以評價此方案的可靠性和適宜性。
1.1 研究對象
研究對象為符合2012年江蘇省住院醫師培訓第一階段臨床技能考試報考條件并實際參加考試的考生3095人。臨床技能考試報考條件:2011年和2012年江蘇省住院醫師培訓第一階段理論考試合格人員。理論考試報考條件:醫學專業本科及以上學歷,取得執業醫師資格并注冊,執業類別是臨床醫學和口腔醫學,培訓及考試科目與執業范圍相對應,并已完成住院醫師第一階段培訓的人員。
1.2 研究方法
運用客觀結構化臨床考試的思想和方法,在總結江蘇省住院醫師培訓階段考核經驗的基礎上,借鑒北京等地住院醫師培訓階段考核的經驗,建立江蘇省住院醫師培訓階段考核的客觀結構化臨床考試方案,并在全省組織實施。
1.3 統計分析方法本研究采用SPSS 17.0統計軟件包進行統計分析。
1.3.1 正態分布檢驗。采用Kolomogorov-Simirnov單樣本檢驗對考試成績進行正態分布檢驗。
1.3.2 描述性分析。采用最小值、下四分位數、中位數、上四分位數、最大值和合格率等指標描述考核成績分布情況。
1.3.3 信度分析。信度(reliability):是衡量實測值與真值差別程度的統計量,是反映考試的穩定性和可靠性的指標。本研究采用內部一致性信度系數中的Cronbach系數法來研究此次考試的信度。Cronbach系數又稱α系數,計算公式為[6]:α=[N/(N-1)](1-∑/),N為考試站點數,為考試總成績方差,為每站點成績方差。
1.3.4 適宜性分析。難度(difficulty)系數:是表示各站點難易程度的指標,通常用P表示,非客觀題分組法計算公式為[6]:P=(XH+XL-2NL)/2N(H-L)。區分度(discrimination):是表示各站點區分考生能力的指標,通常用D表示,非客觀題兩端法計算公式為[6]:D=(XH-XL)/N(H-L)。
上述二式中,XH為前25%高分組得分,XL為后25%低分組得分,H為最高得分,L為最低得分,N為考生總數的25%。站點-總分相關系數表示該站點成績的高低和總成績高低的相關性。去站點Cronbach系數表示如果刪除該站點后,內部一致性信度系數的改變。
2.1 客觀結構化臨床考試方案
2.1.1 組織管理體系。江蘇省住院醫師培訓階段考核臨床技能考試工作由江蘇省衛生廳科教處統一領導,全省實行統一考試模式、統一考試方案、統一考試時段、統一評分要求。考試方案和評分要求由江蘇省衛生廳委托江蘇省畢業后醫學教育研究室(設在筆者所在處室)制訂。考務工作由13個省轄市衛生局組織實施,部屬、省屬醫院實行屬地化管理,由所在地的市衛生局統一組織考試。
2.1.2 考試科目和內容。第一階段考試科目為衛生部《專科醫師培養標準》中規定的17個普通專科,為內科、外科、婦產科、兒科、急診科、神經內科、皮膚性病科、眼科、耳鼻咽喉科、精神科、兒外科、康復醫學科、麻醉科、醫學影像科、醫學檢驗科、病理科、口腔科。考試內容為衛生部《專科醫師培養標準》中要求的普通專科培訓內容,側重于考察普通專科重點疾病診療技術的掌握情況和應用能力。
2.1.3 考試方案。內科、外科、婦產科、兒科、急診科、神經內科、皮膚性病科、眼科、耳鼻咽喉科、精神科、兒外科、康復醫學科、口腔科的客觀結構化臨床考試方案為9個站點,具體安排如下。
第一站:影像學檢查判讀。根據各專業特點選擇相應影像學檢查,包括X線片、CT片、MRI片、超聲圖、核素顯像圖等影像資料,利用多媒體演示,同一考試科目的考生同時進行,考試時間為20分鐘。評分要點為簡要描述、診斷等。
第二站:心電圖判讀。根據各專業特點選擇相應心電圖,利用多媒體演示,同一考試科目的考生同時進行,考試時間為20分鐘。評分要點為簡要描述、診斷等。
第三站:臨床檢驗報告分析。根據各專業特點選擇相應臨床檢驗報告,包括臨床基礎檢驗、化學檢驗、免疫學檢驗、血液學檢驗、微生物檢驗等報告,利用多媒體演示,同一考試科目的考生同時進行,考試時間為10分鐘。評分要點為簡要描述、診斷等。
第四站:病史采集。內科考試病例包括心血管系統病例、呼吸系統病例、消化系統病例、泌尿系統病例、血液系統病例、代謝及內分泌系統病例各1題,考生從中隨機抽取1題;外科、婦產科、兒科等考試科目類似,考試病例均為本專科的病例,考生從中隨機抽取1題。采用標準化病人模擬接診,考試時間為15分鐘。評分要點為現病史、既往史、溝通技巧等。
第五站:體格檢查。考生對病史采集的標準化病人進行體格檢查,考試時間為15分鐘。評分要點為系統體格檢查和專科體格檢查。
第六站:回答問題。結合病史采集和體格檢查的病例,回答考核專家的提問,考試時間為10分鐘。評分要點為臨床思維、診斷及依據、鑒別診斷、治療方案等。
第七站:書寫病歷。結合病史采集和體格檢查的病例,書寫一份首次病程記錄,考試時間為20分鐘。評分要點為診斷及依據、鑒別診斷、治療方案等。
第八站:病例分析。根據所給的病例,解答所提問題,考試方式為筆試,考試時間為20分鐘,同一考試科目的考生同時進行。評分要點為診斷及依據、鑒別診斷、治療方案等。
第九站:基本技能操作。根據各專業特點選擇相應技能操作,如內科考生從胸穿、腹穿、腰穿、心肺復蘇等中隨機抽取1項;外科考生從消毒鋪巾、切開縫合、換藥等中隨機抽取1項;婦產科考生從婦科檢查、產科四步觸診、正常分娩接生、消毒鋪巾等中隨機抽取1項。采用模擬人、模型和器械考核,考試時間為20分鐘。評分要點為術前準備、無菌觀念、操作程序、熟練程度、術后處理等。
整個考試分三部分計分:第一部分是輔助檢查判讀和檢驗報告分析,為第一站至第三站,總標準分為100分,其中第一站、第二站標準分為40分,第三站標準分為20分;第二部分是接診病人,為第四站至第八站,總標準分為100分,每站標準分均為20分;第三部分是基本技能操作,為第九站,標準分為100分。實行單項淘汰制,即任何一部分不合格者判定為整個考試不合格。
麻醉科考核方案僅設第一部分和第三部分,第一部分側重于與麻醉相關的輔助檢查判讀和檢驗報告分析;強化第三部分,每名考生需考心肺復蘇、氣管插管、椎管內麻醉穿刺這3項技能操作,均在模擬人、模型和器械上進行。醫學影像科、醫學檢驗科、病理科考核方案也僅設第一部分和第三部分,分別根據各專業特點強化相應考試內容。這四個專科考試分二部分計分,每部分總標準分為100分,均合格者判定為整個考試合格。
2.2 客觀結構化臨床考試結果
2.2.1 江蘇省考試成績總體情況。參加2012年江蘇省客觀結構化臨床考試的考生共3095名,其中考試合格2833名,總體合格率91.5%。按考試科目分類,醫學檢驗科考生人數最少,為7人,內科考生人數最多,為830人;精神科合格率最低,為82.9%,康復醫學科和兒外科合格率最高,為100.0%。17個考試科目的考生人數、合格人數和合格率詳見表1。
2.2.2 南京市內科考試成績情況。參加2012年南京市內科客觀結構化臨床考試的考生共171名,考務工作由南京市衛生局委托南京大學醫學院附屬鼓樓醫院承擔。對內科考試總成績正態性進行檢驗,統計量Z=0.776,P=0.584,取α=0.05,表明南京市內科考試總成績呈正態分布。內科考試總成績最低193.0分,下四分位數237.5分,中位數251.0分,上四分位數264.0分,最高296.0分;平均分249.4分,標準差20.1分。
南京市內科客觀結構化臨床考試共設9站,對各站點考試成績正態性進行檢驗,取α=0.05,由相應統計量可知各站點考試成績均呈非正態分布。故本研究用中位數描述其集中均勢,用最小值、下四分位數、上四分位數和最大值描述其離散程度。各站點考試成績的正態性檢驗統計量、最小值、下四分位數、中位數、上四分位數和最大值詳見表2。
南京市內科客觀結構化臨床考試各站點考試成績內部一致性信度系數——Cronbach系數為0.566。各站點考試成績的難度系數中,檢驗報告分析最難,系數為0.570,基本技能操作最易,系數為0.753。各站點考試成績的區分度中,基本技能操作最小,為0.404,心電圖判讀最大,為0.612。各站點考試成績的站點-總分相關系數中,病例分析最小,為0.305,體格檢查最大,為0.631。各站點考試成績的去站點Cronbach系數中,回答問題最小,為0.501,基本技能操作最大,為0.563。各站點考試成績的難度系數、區分度、站點-總分相關系數、去站點Cronbach系數詳見表3。

表1 2012年江蘇省住院醫師培訓客觀結構化臨床考試成績總體情況

表2 2012年南京市內科客觀結構化臨床考試各站點成績正態性檢驗和描述性統計

表3 2012年南京市內科客觀結構化臨床考試各站點成績適宜性分析
3.1 江蘇省住院醫師培訓客觀結構化臨床考試合格率分析
階段考核的合格率對住院醫師參加培訓的具體行為會產生一定的影響。合格率過高,住院醫師可能會因此缺乏培訓的壓力,出現培訓松懈現象;合格率過低,住院醫師可能會因此出現畏難情緒,影響培訓的積極性。2012年江蘇省住院醫師培訓第一階段理論考試各考試科目的總體合格率為85.1%,理論考試合格者方可參加臨床技能考試,客觀結構化臨床考試的總體合格率為91.5%,這樣階段考核的整體合格率為77.9%。在客觀結構化臨床考試中,參考人數大于50人的9個考試科目,其合格率范圍為87.0%~94.8%。我們認為,這樣的合格率是適宜的,一方面給予住院醫師一定的培訓壓力,另一方面也不會出現較大的畏難情緒。
3.2 考試方案適宜性和可靠性分析樣本的選擇
客觀結構化臨床考試的適宜性和可靠性分析,需依據相應統計指標的結果進行綜合評估。在統計分析中,系統誤差是可知的或可能掌握的,是可以避免的。此次客觀結構化臨床考試是由13個省轄市衛生局分別組織實施的,不同省轄市在考務工作具體執行上,如對客觀結構式臨床考試方法的理解和把握上、考官在考試成績評判上、考試環境的硬件和軟件條件上等方面可能存在差異,這些差異都是系統誤差。為避免不同省轄市因考務工作具體執行差異而產生的系統誤差,本研究對不同省轄市的不同考試科目分別進行分析,以控制系統誤差,提高分析結果的可靠性。為避免重復敘述,綜合省轄市和考試科目二個因素,本文選擇參考人數最多的南京市內科考試成績進行描述和分析。
3.3 南京市內科客觀結構化臨床考試的信度分析
信度是指考試成績的可靠性,用于評價考試成績能否正確地反映住院醫師的臨床技能實際水平。文獻報道的客觀結構化臨床考試的可靠性很不一致,信度系數95%可信區間為0.16~0.99[5,7]。雖然客觀結構化臨床考試的各個站點都是用于測量醫師臨床技能的實際水平,但是各站點考核的內容和側重點不一樣,各站點考核的臨床技術操作不同,而這些臨床技術操作是分散在不同的臨床醫療工作中的,同一醫師掌握不同臨床技術操作的熟練程度性是不一樣的,這是導致客觀結構化臨床考試的可靠性不一致,信度系數范圍較大的主要原因之一。
一般認為,Cronbach系數與考試結果可信程度對應關系為:α<0.3時結果不可信,0.3≤α<0.4時結果勉強可信,0.4≤α<0.5時結果可信,0.5≤α<0.7時結果很可信(最常見),0.7≤α<0.9時結果很可信(次常見),α≥0.9時結果十分可信[8]。南京市內科各站點考試成績內部一致性信度系數為0.566,表明此次考試結果很可信,能夠正確地反映住院醫師的臨床技能實際水平。
3.4 南京市內科客觀結構化臨床考試各站點適宜性分析
各站點難度過大會讓多數考生不會做,難度過小會讓多數考生都會做都,這樣都會影響整體考試的信度。一般認為,難度系數的合適范圍為0.4≤P≤0.9,難度系數值越大表示試題越容易[6]。南京市內科各站點考試成績的難度系數范圍為0.570~0.753,表明是各站點難易程度是比較適宜的。
區分度反映各站點對住院醫師臨床能力的區分能力,區分度好的站點能將不同臨床能力的住院醫師區分開來。美國當代教育測量方法學家Rober Ebel根據大量實踐得出區分度D的評價標準為:D<0.2時區分不好,0.2≤D<0.3時區分尚可,0.3≤α<0.4時區分良好,D≥0.4時區分非常好[6]。南京市內科各站點考試成績的區分度范圍為0.404~0.612,均大于0.4,表明各站點區分度非常好,是比較適宜的。
站點-總分相關系數反映各站點成績與總成績的相關程度。一般認為,站點-總分相關系數>0.20,提示該站點的應答分值高低和總分高低相關性較大,說明它們與考試的目的關聯較大[8]。南京市內科各站點考試成績的站點-總分相關系數范圍為0.305~0.631,表明各站點與本次客觀結構化臨床考試的目的關聯較大,是比較適宜的。
去站點Cronbach系數,是指刪除該考試站點后,如果Cronbach系數升高,則表明刪除該考試站點后可提高整個考試的信度;如果Cronbach系數降低,則表明刪除該考試站點后會降低整個考試的信度。內科各站點考試成績的去站點Cronbach系數范圍為0.501~0.563,即如果刪除任一站點,整個考試的信度均會有不同程度的降低,表明此次內科客觀結構化臨床考試中9個站點的設計是適宜的。
3.5 南京市內科客觀結構化臨床考試的可靠性和適宜性結果的外推
本研究在對2012年南京市內科客觀結構化臨床考試成績進行統計分析的同時,也對2012年江蘇省分省轄市和考試科目、且參考人數在100人以上的其他4個考試項目的成績分別進行統計分析,比較其統計結果,發現和南京市內科考試成績統計結果相類似。因此,可將南京市內科客觀結構化臨床考試的可靠性和適宜性推論外推到各省轄市的各考試科目中。故可認為,江蘇省住院醫師培訓階段考核的客觀結構化臨床考試方案是可靠的和適宜的。
[1]孟群.中外住院醫師/專科醫師培訓制度概況[M].北京:中國協和醫科大學出版社,2010:193-194.
[2]Molly Cooke,David M.Irby,William Sullivan,et al.American Medical Education 100 Years after the Flexner Report[J].The New England Journal of Medicine,2006,355(13):1339-1344.
[3]Lukas,Rimas V,Adesoye,et al.Student assessment by objective structured examination in a neurology clerkship[J].Neurology.2012,79(7):681-685.
[4]Yu Tzu-Chieh,Wendy,Wheeler,et al.Effectiveness of standardized clerkship teaching across multiple sites[J].The Journal of surgical research J Surg Res.2011,168(1):e17-23.
[5]Brannick,Michael T,Erol-Korkmaz,et al.A systematic review of the reliability of objective structured clinical examination scores[J].Med Educ.2011,45(12):1181-1189.
[6]孫寶志.實用醫學教育學[M].北京:人民衛生出版社,2011:284-296.
[7]Rodriguez MC,Maeda Y.Metaanalysis of coefficient alpha[J].Psychol Methods 2006,11(3):306-322.
[8]鄒揚.客觀結構化臨床技能考試(OSCE)中信度的相關研究[D].上海:復旦大學,2009.
王虹:南京醫科大學第一附屬醫院院長、黨委書記,教授、主任醫師、博士研究生導師。
E-mail:hongwang@medmail.com.cn