論英語測試中公式評分法猜測修正效果

2012-12-11 08:00:30柳鑫淼

大連海事大學學報(社會科學版) 2012年2期

柳鑫淼

(中國勞動關系學院英語教研室,北京 100048)

多項選擇題作為教育測量的主要題型之一被廣泛應用于各類學科的測試中.多項選擇題通常由題干和備選答案兩部分組成,受試者從多項備選答案中選出一個最合適或正確的選項.多項選擇題具有評分客觀、閱卷高效、答案簡明等諸多優勢,這些優勢在結構主義測試階段備受推崇,但人們對其測試效度的質疑卻一直存在[1].多項選擇題的潛在弱點之一是難以規避猜測因素的影響,即受試者在不知道或不確定正確答案的情況下也可以憑借猜測而答對部分題目,這易使測量準確性受到影響.正如Glass和Wiley所指出的,幾乎所有參與多項選擇測試的受試者都會不同程度地進行猜測[2].國外學者針對這一現象進行了大量的研究,試圖通過修正多項選擇測試來降低受試者的猜測概率.例如,Prihoda等研究了病理學專業考試中應用公式評分法后的猜測修正效果,發現公式評分能夠提高測試的效度[3].國內有少數學者探討了多項選擇題的修正方法和效果.如孫惠超探討了多項選擇題評分標準對猜測誤差的影響,利用概率分析對目前廣泛采用的評分標準進行了比較,認為"全或無"的評分標準更能有效降低猜測誤差,提高教育測量的科學性[4].但是,國內外鮮有專門針對英語測試中多項選擇題修正效果的研究.本研究對英語聽力考試中多項選擇題評分標準這一因素進行探討,用實證研究對比了"答對的給正分,答錯的給負分,不答不得分"的公式評分法與國內通用的"答對得分,答錯不得分"評分標準的有效性,旨在降低聽力考試多項選擇題的猜測概率方面給命題人員提供實證參考.

一、公式評分法在多項選擇測試中的應用

自20世紀初開始,公式評分法(formula scoring)逐漸受到教育測量學界的關注,并在諸多國家的教育測試和市場調查中得到廣泛應用.路易斯.瑟斯頓(Louis Thurstone)指出,公式評分是一種較為直觀的評分方法,答對得到全部分數,答錯從全部分數中按比例扣分[5].公式評分法旨在降低因猜測而產生的測驗分數的隨機性.這種評分標準可概括為:對于有 C個備選答案的選擇題,回答正確得1分,回答錯誤扣除1/(C-1)分,不回答記為0分.公式評分法可以用以下公式加以表示[6]:

其中FS是受試者修正后的得分,R是受試者作出正確回答的數量,W是作出錯誤回答的數量,C代表每個題目的備選答案數量.公式評分可以應用在備選答案數量不同的各類多項選擇題中.以具有3個備選答案的多項選擇題為例,按照修正后的評分標準,在受試者對考題進行猜測時,猜到正確答案并獲得2分的概率為1/3,猜到錯誤答案并被扣除1分的概率是2/3,因此受試者通過隨機猜測方式所獲得分數的估算值為(1/3)X2+(2/3)X(-1)=0,也就是說,受試者通過猜測方式獲得額外分數的預期值為零.相比之下,按照傳統評分標準,受試者在不知道正確答案的情況下,通過猜測方式每題仍有可能獲得分數的估算值為(1/3)X2+(2/3)X0=2/ 3,因此受試者選擇猜測的可能性會更大.此外,公式評分鼓勵受試者在多項選擇中進行排除,以10道具有3個備選答案的題目為例,若受試者能夠排除其中一個選項,則受試者作出正確選擇的可能性為50%,答對題目5道,答錯題目5道,那么受試者通過猜測最終可得到的分數是5X1-5X(1/2)= 2.5,高于隨機猜測的得分.可見,公式評分法并不是要求受試者徹底放棄猜測,而是鼓勵受試者在備選答案中作出排除,畢竟,能夠準確排除部分選項也是受試者判斷力的體現.猜測決定的過程實際上是博弈的過程,受試者在權衡失分成本和得分收益后才會決定是否進行猜測.由此可見,公式評分法修正的不是所有猜測,而是受試者的隨機猜測.公式評分標準是否能夠有效促使受試者在不知道正確答案的情況下放棄猜測?下文將實證檢驗這一評分標準和傳統評分標準相比在校正猜測方面的有效性.

二、實驗研究

1.實驗設計

由于簡答題能夠極大降低甚至消除受試者的猜測概率,因此本實驗假定簡答題更能反映受試者的實際聽力水平,簡答題得分更接近于代表受試者實際水平的分數.分別用公式評分標準和傳統評分標準計算選擇題的得分,用簡答題分數作為衡量兩種評分標準有效性的標尺.通過計算得分分布散點圖、均值差距和組內相關系數3種方式驗證選擇題和簡答題得分的一致性.

研究通過4次測驗考察多項選擇題猜測校正的評分標準的有效性,共設計4套試題,其中A卷包括25道多選題(從3個備選項中選擇一個正確答案),按照兩種不同評分標準標記成A1卷、A2卷.兩套試題題目完全相同,但A1卷采用傳統評分標準,正確答案得2分,錯誤答案不得分;A2卷采用公式評分標準,正確答案得2分,錯誤答案扣1分,不選答案計0分.在試卷上方用清晰的字體注明評分標準,并在測試前口頭告知兩組受試者.B卷為25道簡答題,每題2分,受試者回答出關鍵詞即視為答對,若受試者回答中包括兩個及以上關鍵詞,以第一個為準,不設置額外加分項目.將B卷得分視為更接近受試者實際聽力水平的標準.同樣分成B1和B2兩組試卷,但試卷內容和評分標準完全相同.

參與實驗的受試者是北京市某高校80名英語專業一年級學生,分成A組(40人)和B組(40人),其中A組為對照組,B組為實驗組.測試于2010年12月在學校語音實驗室進行,A組和B組同步進行聽力測驗,A組完成A1、B1卷,B組完成A2、B2卷.為避免受試者長時間聽力引起的疲勞對實驗效果的影響,聽力測試的時間限定為約30分鐘.

2.數據分析

采集4組得分數據后,將A1、B1卷得分和A2、B2卷得分全部換算為百分制,以便進一步比較和分析.首先,利用SPSS軟件分別對對照組和實驗組得分進行描述性統計分析,計算兩組數據的最大值、最小值、平均值和標準差.描述性統計分析結果如表1所示.

表1 修正前后多選、簡答測驗得分的描述性統計數據

從表1中可以得出,A1卷的平均分為72分,B1卷的平均分為64.575分,兩者相差7.425分,而A2卷的平均分為70.135分,B2卷的平均分為66.85分,兩者僅相差3.285分,實驗組的平均分差值低于對照組平均分差值4.14分,單尾檢驗顯示實驗組選擇題與簡答題得分的一致性顯著高于對照組的一致性(p=0.015).也就是說,運用公式評分法對多選題進行猜測修正后測試得分更接近于修正前的測試,測試有效性明顯增加.

散點圖是回歸分析中數據點在直角坐標系平面上的分布圖,能夠更加直觀地觀察到兩個變量間的相關性,圖形顯示兩組數據都具有線性分布趨勢.圖1為實驗組和對照組測試得分分布的散點圖,實線為擬合線性回歸直線,代表每組A卷和B卷分數分布的實際線性關系,虛線是代表理想契合程度的均等線,當分數沿均等線排列時A卷得分和B卷得分相等,為理想的完全契合狀態,實際散點越靠近均等線分布,表明A卷和B卷得分的一致性越高.回歸直線和均等線越接近,兩組試卷得分的一致性也就越高.下面通過數據比較對照組和實驗組的回歸直線與均等線間的一致程度.分別對數據進行線性回歸分析,結果如表2所示.

圖1 對照組和實驗組測驗得分散點圖

表2 對照組與實驗組回歸系數

將表2中回歸數據代入直線方程,可得到對照組的線性回歸方程 y=28.615+0.672x,實驗組的線性回歸方程 y=16.826+0.797x.兩組數據中,各回歸系數的T檢驗顯著性水平都小于0.05,即各回歸系數在0.05的顯著性水平上都通過了檢驗,因此可拒絕H0假設,A1與B1卷分數、A2與B2卷分數之間均具有直線關系.

比較發現,對照組回歸直線在 y軸上的截距(28.615)大于實驗組回歸直線在 y軸上的截距(16.826),對照組回歸系數(0.672)小于實驗組回歸系數(0.797),實驗組的回歸系數0.797更接近于均等線的斜率值1,說明實驗組回歸直線與均等線更加契合,對照組回歸直線的偏離程度更大.也就是說,A2卷和B2卷得分的一致性高于A1卷和B1卷得分的一致性.運用公式評分法的測試結果更接近于考生的真實水平,所得出的結論和上文均值對照的結果一致.

下面使用組內相關系數來進一步測算兩組得分的一致性.組內相關系數是衡量和評價觀察者間信度(inter-observer reliability)和復測信度(test-retest reliability)的信度系數指標之一,等于個體的變異度除以總的變異度,故其值介于0到1之間,0表示不可信,1表示完全可信.一般認為信度系數低于0.4表示信度較差,大于0.75表示信度良好.皮爾森相關性系數在這里并不適用,因為它的測算對象是關聯度,而此處主要的目的是比較兩次測試結果與簡答題分數的一致性.一致性較高者就意味著更接近簡答題分數的評分標準,也就是信度更高的評分標準.經SPSS軟件測算,常規組單一測量和平均測量組內相關系數分別為0.705和0.827,實驗組的單一測量和平均測量組內相關系數分別是0.788和0.882,平均測量相關系數相差0.055,單一測量相關系數相差0.083,均顯著高于常規組的組內相關系數.測算結果表明,實驗組兩組測試得分信度系數更高,選擇題和簡答題得分的相對一致性更高.這也就意味著實驗組多選測驗的結果更能真實反映受試者的實際聽力水平.

三、結語

本研究通過實證研究對比了公式評分和傳統評分在聽力多選題猜測修正方面的有效性.研究發現實驗組的組內相關系數顯著高于對照組的組內相關系數,均值差距明顯小于對照組,散點圖的得分分布也表明實驗組得分一致性更高.由此可見,英語聽力測試中采用公式評分標準可降低猜測概率,使成績更接近受試者的實際水平.采用公式評分法時,受試者在博弈過程中需要權衡選錯答案的失分成本,有效規避了受試者誤打誤撞的僥幸心理,作出的選擇也能夠反映受試者的真實聽力水平,有利于更加科學有效地測試語言水平.需要指出的是,任何一種評分方法在具備優勢的同時都不可避免地具有一定的局限性[7].公式評分操作較為煩瑣,人工計分工作量較大,且容易出現誤差,通常需要采用計算機閱卷,這就需要測試人員在選擇評分方法時考慮測試環境是否具備相應的硬件條件.

[1]潘之欣.語言測試中的多項選擇題型[J].外語界,2001, 84(4):67-74.

[2]GLASS V G,WILEYD E.Formula scoring and test reliability[J].Journal of Educational Measurement,1964,1(1): 43-45.

[3]PRIHODA T,PINCKARD R,MCMAHAN C,et al.Correcting for guessing increases validity in multiple-choice examinations in an oral and maxillofacial pathology course[J]. Journal of Dental Education,2006,70(4):378-386.

[4]孫惠超.多項選擇題評分標準對猜測誤差的影響[J].零陵學院學報,2003,24(5):131.

[5]THURSTONE L L.A method for scoring tests[J].Psychological Bulletin,1919,16(7):235-240.

[6]FRARAT R B.NCME instructional module:formula scoring of multiple-choice tests(correction for guessing)[J]. Educational Measurement:Issues and Practice,1988,7 (2):33-38.

[7]DAVIS F B.A note on the correction for chance success [J].Journal of Experimental Education,1967,35(3):43-47.

大連海事大學學報(社會科學版)2012年2期

大連海事大學學報(社會科學版)的其它文章: 論農村場域的慣習和資本
——兼論農村的內部權力結構; 醫學論文表格加工常見問題及對策; 論海洋交通運輸英語動詞的分類; 遼寧省中小企業融資難題的成因及對策; 美日基礎研究的資助與評估情況及對中國的啟示; 論高速鐵路與航空運輸客票博弈定價

論英語測試中公式評分法猜測修正效果

一、公式評分法在多項選擇測試中的應用

二、實驗研究

三、結 語

三、結語