基于GitestIII的大學新生英語分級考試試題分析

2010-12-31 00:00:00李曉玲

考試周刊 2010年46期

摘要: 本文作者基于Gitest III，對一份旨在評價大學新生英語技能水平的英語分級考試試卷進行了分析研究。作者首先以試題的難易度數據、區分度數據等驗證了試卷的信度，然后用相關矩陣及因素分析方法檢驗了試卷的結構效度，最后對整份試卷的題目進行了項目分析，并總結了一些題目存在的問題。

關鍵詞: 大學新生英語分級考試 Gitest III軟件項目分析

1.引言

大學新生英語分級考試是我院為臨床醫學專業七年制新生制定的英語技能水平測試。測試的目的是衡量學生的英語技能水平，為后續的英語分級教學提供依據?？荚囋嚲淼脑O計、考試的實際實施、評分標準的統一與否對于能否公正客觀地反映學生的能力都有影響。因此，我抽取2009級90名臨床醫學專業七年制新生的試題，采用廣東外語外貿大學設計開發的Gitest III軟件對該份分級考試試題的100道客觀選擇題(其中聽力15題，閱讀理解20題，詞匯語法題40題，完形填空題25題)進行項目分析，包括平均分、難度、區分度、信度等各項數據和效度分析等，以檢測試題的設計是否合理，是否能在保證信度和效度的基礎上考查學生的英語語言知識和技能并針對發現的問題提出建議，希望能對以后的分級測試命題和設計有所幫助，從而提高測試質量。

2.理論依據

2.1信度

“測試的信度，指它的結果分數對受試者的表現而言的可靠程度……具體說來，就是代表分數與試題，及試題與受試者(test population)的關系”。[1]45為了保證測試的信度，我們應該更多地關注到測試的數量與質量、測試的實施與試卷的評閱。[2]首先在數量上，語言測試應該有足夠的數量來保證測試點的覆蓋及測試抽樣。其次在質量上，考試結果的分數分布應該是正態分布，大多數在中間水平。至于評分的信度，應該保證評分員與評分員之間保持一致，每個評分員自身也要保持前后一致。因為該份分級測試全部題目均為客觀選擇題，評分信度不受人為因素影響，因而可以得到保證。

2.2效度

“語言測試的效度，亦稱有效性，指測試所考的，是否就是所要考的，或者說，在多大程度上，是考了目的所要考的”。[1]49效度分為內在效度、外在效度、使用效度和超考試效度。其中，內在效度是指測試本身的效度，包括內容效度和結構效度。前者是指測試是否考了考試大綱規定要考的，后者指考試的原則理論的效度。結構效度是所有的各種效度之本，決定了整個考試的性質。[1]49-56因此，本文主要分析該份分級考試試題的結構效度。

2.3項目分析

項目分析指的是應用統計學得出的結果來描述測試項目的難度和區分度。項目難度以答對題目人數的百分比表示，而項目區分度則表示被測試者具備的所要測試能力的大小。項目分析的結果用以修正一次測試，通過對不合格項目的修改或刪除可以增加測試的信度和效度。我所作的項目分析是根據李莜菊定下的標準進行的，[2]125答對率(facility value，p)、難易度(the difficulty level，pd)和區分度(discrmination index，R-Bis)都有使用。答對率是顯示考試的總人數中答對某題的比例。一般來講，答對率值應該在0到1的范圍之間，理想值是0.5。難易度值的范圍在1到25，理想值是13。值越小，題目就越容易。如果值達到9或更低，就說明84%的受試者答對了題目。如果值達到17或更高，說明只有16%的受試者答對。區分度是這個題目區分性能的量度，即這個題目正確鑒別不同受考者在所考目標方面的能力。區分度值的范圍在-1到1。一道題目的區分度值達到0.3就算符合要求，0.4是理想值。如果低于0.3，那此題目就需要修改或者舍棄不用，而且這樣的題目量要控制在總題數的5%以下。

3.結果與討論

3.1信度分析

整份試題的信度分析結果如表1所示。試題的全部100道客觀選擇題的平均分為67.40，有67.4%的題目做對了，說明這是一個難度中等的測試。標準偏差是7.40，而預期的標準偏差應該是14.06，說明分數比較集中，分布比較窄。分數的分布呈負偏態，偏態值為-0.54，表示得分高于規定平均分的人數超過了50%，說明試題總的難度比理想難度低。而峰值為1.65，表示峰比理想的峰高尖，說明分數過分集中在中段。一般說，一個考試偏態值和峰值能控制在-1到1之內，便算其分數基本符合正態分布。[2]124因此該試題的分數沒有符合正態分布。信度指標R11值為0.74，aValue值為0.56，未達到李筱菊要求的理想值0.9和0.8，[2]128說明整份試題的信度不高。

語言測試的結構效度可以用相關分析及因素分析來驗證。根據李筱菊所定的標準，如果相關系數達到0.4，那這兩個部分就是相關的;如果相關系數能達到0.5或者以上，那就說明顯著相關。[2]129從各大題的相關分析得到試題的四個部分聽力、閱讀理解、詞匯語法和完形填空與總分的相關系數分別是0.52、0.54、0.76和0.77，顯示這四部分與總分高度相關，表明考生對大部分試題的作答影響著最后總分的高低。但是，各大題之間都沒有顯著相關，相關系數在0.15到0.28之間。試卷中兩部分之間的低相關常常被片面地認為是因為這兩部分檢測了考生不同的能力技巧，實際上兩部分之間的低相關可以是由很多因素造成的，Oller(1979)指出，試卷兩部分的低相關可以從以下幾個方面來探討其原因:1)對于考生來說，其中一部分試題太容易了或者太難了，因而導致這一部分試題的結果不可信;2)兩部分試題的信度值都不高;3)其中一部分或者兩部分試題都沒有檢測應該被檢測的能力技巧，即測試結果無效;4)試題的效度值不高。[3]56

從表3可以看出，聽力理解部分的信度值較低，只有0.33，這可能是該部分與其他大題低相關的原因。閱讀理解部分的信度值也不高，只有0.41，而且答對率為0.73，可見閱讀題過于簡單而且信度不高，因而解釋了該部分與其他大題之間的低相關。詞匯語法部分需要修改的題目多達19道，占了需修改題目總數的70%，造成這部分區分率較低，只有0.34，這或許解釋了該部分與其他大題之間的低相關。

綜上所述，各大題之間的低相關可能是由于有些部分的信度值很低，也有可能是有些部分的難度低，我們需要作深一步的研究，探討考生試題的解答過程，[4]，[5]，[6]以得出更加可靠的結論。

另外，因素分析也驗證了該份試題的結構效度，結果如表4。通過對試題潛在因素分析與主成分分析，可以看到試題因素1的總負荷量是26.72%，另兩個因素負荷量分別為3.68%與1.98%，低于10%，因此這兩個因素可視作為無意義。[1]130完形填空部分在第一個因素中的負荷最大(0.604)，其次是詞匯語法(0.560)。由于這兩部分側重于測試考生的詞匯和語法基礎知識的運用及句子層面的理解能力，因此因素1是詞匯和語法基礎知識，以及句子層面的理解?？紤]到該試題只有一個有效因素，那么這份試題在測試詞匯和語法這方面的語言知識與句子理解的語言技能方面有較高的效度，但現代語言測試理論認為單是語言知識并不足以讓人們使用語言，此試題忽略了其他語言技能，因而可以說其效度是較低的。

根據項目分析得到試題難度和區分度來看(見表5)，這份試題中等難度、容易、非常容易的題目數量達85道，占題目總數的85%，超過了標準分布率80%，特別是容易的題目多達45題，占題目總數的45%，遠超過了標準分布率15%，說明這份試題傾向于容易。此外，符合要求(區分度≥0.3)的題目僅為73道，不合格題目有27道，占題目總數的27%，遠超過了5%的標準。在27道不合格題目中，聽力題有3道，閱讀題有3道，詞匯語法題有19道，完形填空題有2道(見表3)，這些題目需要修改或者直接淘汰。

經過分析總結出需要修改的題目存在的問題，具體如下:第一，有些題目難度不夠，區分度低，無法有效反映學生掌握的語言知識和技能的程度，從而無法區分不同語言水平的學生。題46“46.We went to the airport to ?搖?搖?搖?搖 a friend who was leaving for New York.A) see off C) come across B) take over D) look up”就存在這樣的問題。第二，問題出在答案項上。有的題目出現兩個選項是正確答案，而有的題目卻沒有一個選項是正確答案。這類題如題49，56，68等?！?9.The school team has won five ?搖?搖?搖?搖 games.A) running C) successive B) continuous D) uninterrupted”“68.Few came to the classroom than I ?搖?搖?搖?搖.A) expect C) have expected B) was expecting D) expected”。第三，問題出在干擾項上。有些題目的干擾項干擾作用太強，以致太多考生選錯。題14，51，60，63存在這樣的問題。

4.結語

通過對試題進行分析可以得出以下結論:1)從測試分數上看，分數沒有呈正態分布，信度指標值沒有達到理想值，因此試題的信度不高。2)試題沒能測試學生多方面的語言能力，考察面較窄，因此效度不高。3)試題難、中、易題目搭配不合理，容易題目偏多，需要修改和淘汰的題目過多，以致試題區分度不高。

本文只是對試卷進行了統計性的分析，因而有一定的局限性，仍然需要從其他方面對試卷進行全面分析來論證上述結論，但是，從本次分析所反映出來的問題是值得試題命題者思考的?？陀^選擇題考卷的設計者，在完成試卷的設計后應進行試測，試測完后進行題目分析，然后審改，審改之后再用于正式考試。同時，應從每道題的三個質量指標:答對率、難易度和區分度，以及每道題目的每個選擇項的三個質量指標:人數、平均分、區分度來判斷每道題的總質量指標，[2]220從而滿足信度和效度的基本要求，這樣才能有效、可信地評價學生的語言能力。

參考文獻:

[1]李莜菊.語言測試科學與藝術[M].長沙:湖南教育出版社，2001.

[2]李筱菊.語言測試科學與藝術[M].長沙:湖南教育出版社，1997.

[3]Oller，J.Language Tests at School:A Pragmatic Approach[M].London:Longman Ltd.，1979.

[4]葛福東.語言測試的信度、效度與題型關系的研究[J].內蒙古農業大學學報(社會科學版)，2006，(4).

[5]黃沐云.影響非英語專業學生閱讀效率的因素和對策[J].內蒙古農業大學學報(社會科學版)，2007，(5).

[6]劉建達.測試方法對閱讀測試的影響[J].外語教學與研究，1998，(2).

考試周刊2010年46期

考試周刊的其它文章: 玩轉教學技巧, 促進能力提高; 如何搞好物理中考前的復習教學; 計算機教學在職業教育中的改革和發展; 我校女生課外體育鍛煉現狀及其影響因素的調查分析; 希望,從合作中升起; 如何加強學校檔案工作的管理