徐 濤 姜晶梅 韓少梅 薛 芳 韓 偉
中國醫學科學院基礎醫學研究所/北京協和醫學院基礎學院流行病及統計學系(100005)
醫學統計學是現代醫學科學教育課程體系中的重要組成部分。但是統計學的理論和方法大都建立在較為抽象的科學假設之上,計算量較大,與其他醫學專業課程的理論體系差異較大[1],而且現代統計學的教學與計算機知識的關系密切,導致該門課程較難學也難教。為了增強學習的實用性,保證學生能在科研實踐中能靈活地運用統計學知識,在經過數輪的教學改革后,現在的北京協和醫學院的八年制學生在第五學年的第一學期學習醫學統計學。醫學統計學總學時為36學時,包括理論課28學時,統計軟件實習6學時,考試2學時。課堂以理論講授為主,采用多媒體教學,結合實用案例討論和統計軟件實習等多種教學方式。課程考試是對課堂教學進行測量和評價的重要手段[2],對考卷和考試效果進行評價和分析,可以發現試題本身的不足之處,也可以對教師的教學質量進行系統的評估,以利于促進教學改革。
本研究旨在運用教育測量學理論和教育統計學方法對北京協和醫學院69名八年制醫學生的醫學統計學考試卷進行評價分析,以期總結課堂教學和考卷設計等方面的問題,為評定教學效果和教學質量奠定理論依據。
本研究分析的試卷是北京協和醫學院2011級八年制學生的《醫學統計學》[3]期末考試試卷。試卷包括選擇題、填空題、判斷題、案例分析題和計算題。其中選擇題為單選題,每題2分,共20分;填空題每空2分,共20分;判斷題要求判斷正誤并對判斷的理由進行合理的解釋,每題3分,共21分;案例分析題共1題,9分;計算題共3題,每題10分,共30分。
采用EP l3.02軟件建立數據庫,進行數據錄入與管理。為保證數據的準確性,由兩個數據管理員獨立進行雙份錄入并校對。錄入完成后,按調查內容分類組織專人對數據進行再核查,根據統一的核查原則,將發現的可疑記錄反饋,與原始表格核對。所有統計計算用SAS 9.2統計分析軟件進行,統計檢驗用雙側檢驗,以P<0.05作為差異有統計學意義。定量資料以均數和標準差表示,分類變量用例數和百分數進行描述。用難度系數、區分度、信度(Cronbachα系數)和覆蓋度等進行試卷質量分析。
(1)成績分析
69名八年制學生參加醫學統計學考試,平均成績為80.4±8.4分,最低分60分,最高分93分,沒有不及格的學生,總體成績偏高。總分在60~69分者有9人,占13.0%;70~79分者有20人,占29.0%;80~89分者有30人,占43.5%;90分及以上者10人,占14.5%。
(2)失分情況分析
每位考生各題被扣分數分別相加,除以總人數,得出人均失分數,再將此數除以該題滿分數,即為人均失分率[4]。統計表明,試題選擇題平均失分3.0分,失分率為15.0%;填空題平均失分5.2分,失分率為26.0%;判斷題平均失分5.4分,失分率為25.7%;案例分析題平均失分1.9分,失分率為20.7%;計算題平均失分4.2分,失分率為14.0%。總體來說,各類考題的失分率差別不大,填空題和判斷題失分率略高,選擇題和計算題失分率最低。
(1)試卷難度
難度系數(P)用來評價一份試卷的難易程度,是評價試卷質量的重要指標之一。一般用某題全部考生的平均得分率來衡量該題的難度,計算公式為:

一般認為,P<0.6為難題,0.6≤P<0.7為較難題,0.7≤P<0.8為中等難度題,0.8≤P<0.9為較易題,0.9≤P<1.0為易題[5-8]。
本試卷各類型題目的難度系數分布見表1,其中,難題占19.4%,較難題占3.2%,中等題占9.7%,較易題占25.8%,易題占41.9%。考卷的總體平均難度為0.80,說明本考題總體難度適中。考卷中有4個選擇題的難度系數為1.0;難度系數最大的是1道填空題,達到0.17,全班只有12名同學得出了正確答案。

表1 試卷題型難度分析(道)
(2)試卷區分度
區分度(D)表明考卷對考生成績的鑒別程度,是區分成績好的學生和成績差的學生的一種能力。區分度是反映學生掌握知識能力的重要指標。一般用高低分組法計算各題目的區分度,高分組在某題目上的得分率與低分組在該題目上的得分率之差作為區分度的指標,(高分組人數和低分組人數各占總人數的27%)[5-8],計算公式如下:

本文各類型題目的區分度分布情況見表2。31道考題中有17道考題(54.8%)的區分度優秀,另有19.3%的考題的區分度良好或尚可。

表2 試卷題型區分度分析(道)
有8道考題的區分度較差。總分的區分度為0.21,區分度尚可,表明該試卷基本滿足試卷命題的要求。
(3)試卷信度
試卷的信度用于說明試卷的可靠性和穩定性,說明試卷測試結果是否代表考生的真實水平。常用Cronbach α系數來反映試卷的信度,一般認為信度系數小于0.7,可靠性偏低,信度系數在0.7以上時可靠性較好[9]。本試卷的Cronbach α系數為0.73,說明該試卷的信度較好,整體考試結果可以信賴,能夠反映學生的真實能力。
覆蓋度是基于試卷的全面覆蓋程度,通常用試卷中各題目的相關系數矩陣來表示,相關系數矩陣中各題目之間的相關系數數值越小,則各題目之間的交叉相關性越小,試卷覆蓋的內容越全面,反之相關系數越大,則說明各題目反映的內容相關性越大,覆蓋面越窄。一般來說,各相關系數都小于0.2為最好[10]。該試卷中選擇題的4個題和填空題的1個題與多個其他題目的相關系數大于0.2,相關程度較高,其他26個題目的相關系數都小于0.2,表明該考卷的內容覆蓋較全面,試卷有效性較高。
69名八年制學生參加醫學統計學考試,總體成績較高。這與八年制的學生在大學一年級預科學習階段的數理統計學學習中打下了一定的統計學理論基礎有一定關系,使得其在選擇題和計算題的失分率很低,當然也可能因為考題難度較小,考卷中沒有涉及多元統計相關知識和統計軟件操作。其實八年制學生雖然第一學年有過概率統計基礎理論的學習,但是這些知識的理論性較強,實用性不足,而我們的應用性的醫學統計學的學時數又較少,不足以教授學生更多應用性更強的知識。醫學統計學學習不能只靠死記硬背,所以應該略增加一些學時,在學生學好基礎理論以后,繼續加強統計學軟件教學,教授學生更多實用的多元統計分析方法和軟件操作知識,以滿足醫學生能夠靈活應用統計學軟件來解決科研問題的需求,這樣當他們在第七、八學年進行實際的科學研究時就能更加得心應手用統計學軟件來解釋醫學實際問題。
難度和區分度是最重要的兩個評價考卷質量的指標。本試卷的總體平均難度為0.80,說明總體難度適中。總分的區分度為0.21,區分度尚可。有研究認為,總體平均難度達到0.5以上,且總體區分度達到0.15以上的考卷,即為難度適中、區分度良好的考題[11],本考卷基本達到了這一要求。此外,這份考卷的信度和總體覆蓋度都達到較好的水平。
但是從試卷的各個小題的難度、區分度和覆蓋度分析結果來看,易題和較易題的比例較高,這可能和選擇題難度太小有關系,而且選擇題中有幾個太容易的考題,幾乎所有學生都能答對,導致這些考題的區分度偏低,這一方面說明八年制的學生的整體素質偏高,成績較好,而且選擇題有備選答案,學生在答題時難度往往較小,所以導致選擇題的整體難度和區分度較差,但是總體來說,還是應該考慮學生的學習情況和對考試重點難點的掌握程度,適當增大中等難度考題所占的比例來進一步調整考卷的難度。
總之,這份考卷具有較好的區分度、信度和總體覆蓋度,平均難度也適中,適于八年制醫學生進行期末測評,當然其中也有部分考題的選擇欠妥當,應進一步的調整。