摘 要: 完形填空是英語專業四級考試的一種題型,其目的是測量考生的綜合語言知識和技能。自2004年新大綱實施以來,完形填空在題量上發生了變化,由原來的15個空增至20個空。但它是否就具有較高的信度?本文采用復本測試法對兩篇新版英語專業四級考試完形填空的信度進行了檢驗。從試驗的結果來看,這兩篇英語專業四級考試完形填空的信度仍有待提高。
關鍵詞: 英語專業四級 考試完形填空 信度
作為應用語言學的一個分支學科,語言測試學現已發展成為一個相對獨立的學科。其中作為評價英語學習者學習水平的英語測試在語言測試界和社會上都發揮著重要的作用。作為大規模標準化英語測試——英語專業四級考試(TEM4)的一種題型,完形填空通過學生掌握的語音、詞匯、語法等知識考查學生生成、理解句子乃至語篇的綜合能力,其評分為客觀評分,因而信度一般而言會較高。但由于信度會受到很多因素的影響,因此,對信度的考查也就成了測量界關注的焦點之一。本文對兩套新版TEM4完形填空試題進行了信度的檢驗,從檢驗結果來看,這兩篇英語專業四級考試完形填空的信度仍有待提高。
一、完形填空簡介
完形填空測試又稱填詞測試,它經歷了一段短暫而豐富的歷史。完形填空的研究始于1953年,由泰勒引進,其目的是為了檢驗一個測試的可讀性和試題的難度。但是在不到三年的時間里泰勒就提議:完型測試可以用于測試被試的閱讀理解能力和綜合語言水平。此后完形填空測試也被第二語言學習者和外語學習者所接受。20世紀60年代早期,完形填空除了檢驗被試的閱讀理解能力和試題的可讀性外,還被廣泛地用于測試聽力、口語和綜合英語技能(紀春,2001)。我國自1978年在MET考試中首次采用此題型后,國內的大型考試,如EPT、CET、TEM等均廣泛采用這種題型。完形填空幾乎成為我國外語考試的必考題型之一。其中TEM4作為英語專業基礎階段教學的導向,屬于我國外語測試中的一級測試,在評估英語專業學生的基礎能力水平中占有不可替代的地位。
現在,完形填空不僅用于分班測試和診斷測試,而且用于水平測試。其目的是通過從語篇線索中提供最佳選項,從而檢測被試對混亂的篇章進行編碼的能力。
完形填空的出題方法一般有兩種:隨機法和系統法。隨機法就是從一篇特定的文章中隨機性地刪詞,然后被試把原有的詞歸位。系統法是機械性地固定刪詞。一些測試者呼吁刪詞率要與所刪詞的長度一致。其刪詞率通常在5—10個詞語之間,廣泛采用的刪詞率是每隔5—7個單詞就刪掉一個詞。但是如果在開始的幾句中刪詞率是7個單詞的話,其余的部分也要沿用這種方法(Heaton,1988)。另外,選用的完形填空的材料難度要與被試的水平相當。
二、信度檢驗方法
信度也稱可靠性、一致性。即使測量的場合、測量工具、測量對象本身發生變化而進行重復測量時,也能獲得類似的結果(Henning,1987)。信度關心的是在測試中被試的能力水平在多大程度上是由誤差造成的,其檢驗方法一般包括邏輯分析和實證研究(Bachman,1990)。它可分為:
1.重復測試法
重復測試法也稱再測信度,是用同一份試卷對同一批被試施測兩次,兩次施測之間有一段間隔時間,兩次測試結果的相關系數就是該考試的信度。重復測試法實際上是對受試者信度的測量,因為它所反應的是被試在不同場合語言行為的一致性程度。然而用這種方法評估測試信度容易受到一些其他因素的影響,如:如何選擇適宜的時間間隔;被試的動力、記憶力、精神狀態是否一致;兩次施測的環境是否相同等。
2.復本測試法
復本測試法可以避免重復測試法由于人為因素帶來的一些弊端,其施測過程與重復測試法大致相同。唯一不同的是使用兩套或多套試卷,這兩套或多套試卷在題型題量、難度等方面都一致。復本測試法常用于大型的標準化考試,因為它不僅可以測試被試的語言能力,而且可測評同一類考試試題之間的一致性程度。然而,復本測試最大的缺點是無法編制兩套各方面都完全相同的試卷。
3.對半測試法
對半測試法評估試題內部的一致性程度,這種方法避免了重復測試和復本測試法因施考兩次所帶來的一些問題。它只需一份試卷,而且只需測試一次。對半測試法是把一份試卷分成相等的兩半,通常試題編號奇數的為一組,偶數的為另一組,然后計算這兩組試卷之間的相關性,之后再用spearman-brown公式進行校正。對半測試法雖然避免了兩次施測所帶來的不便,但是同一份試卷如果折半的方法不同,得出的信度也就會有所不同。
4.評分者信度
評分者信度也是評估語言測試信度不可忽略的一個重要因素。但評分者信度不同于上述幾種測試信度,它主要是相對于試卷中的主觀題評分而言的。
上述幾種方法雖然都可用來評估測試的信度,但它們的著眼點不盡相同。因此使用哪種方法取決于研究者的目的,各種信度的意義和用途,以及測試的類型,等等(黃永紅,2006)。
三、實驗設計
1.實驗目的
本研究用復本測試的方法檢測兩篇TEM4-2005和TEM4-2008完形填空的信度,并盡可能地分析本研究中測驗誤差的因素。
2.被試
參加本實驗的被試是隨機抽取的30名英語專業大二學生,他們將于2009年5月參加全國英語專業四級測試,這些被試在年齡、教育背景方面相似,每個被試的能力水平相當。
3.實驗材料
兩篇用于實驗研究的完形填空來源于2005年和2008年的全國英語專業四級考試真題。每篇完形填空大約有260個單詞,各刪掉了20個詞語,被試要求在15分鐘內完成一篇完形填空(詳見下表)。

4.施測
在測試之前,告知所有被試測試材料來源于2005年和2008年的真題,以確保被試認真對待此次測試。此次實驗環境與真正的TEM4考試的施測環境完全相同:(1)測試從上午9 00開始;(2)被試在15分鐘之內完成第一篇完形填空后有兩分鐘的休息時間,然后在15分鐘之內完成第二篇完形填空;(3)本校是TEM4考點。
5.評分
本實驗所用的是Exact-Word客觀評分法(胥云,2005),也就是說只有唯一一個正確答案,評分過程客觀且不需任何評分技巧。
6.計算信度的方法
本實驗采用復本測試法計算信度。上文提到,用這種方法計算信度就是要求這兩篇完形填空由同一組被試完成,同一組被試所得結果的相關系數就是測驗的信度。雖然復本測試最大的缺點是無法編制兩套各方面都完全相等的試卷,但是運用復本測試法計算信度的測試必須符合一些要求。首先,是試題難度上的等值。其次,是方差的等值。再次,是協方差的等值(Henning,1987:81)。也就是兩份或多份考試在考試性質、內容、題數、難度等方面都一致或相等。因為像TEM4這樣的大規模標準化考試在題型、難度、試題長度等方面都是相等的,所以在不同年份、不同地區,不同年份、同一地區,同一年份、不同地區,或是同一年份、同一地區施測的TEM4都是等值的。但由于TEM4在2004年后將完形填空的長度由原來的15個空增至20個空,因此我們選用了兩篇2004年后的完形填空作為本實驗的材料。綜上所述,本實驗中的兩篇完形填空符合復本信度檢驗的要求,可用下面的公式來計算(王孝玲,2004)。

四、實驗結果及數據分析
由于人工計算比較復雜,我們運用SPSS16.0軟件進行了數據處理,所得結果如下表所示:

從表中可以看出,完形填空2的平均分要低于完型填空1,由此可知,完形填空2比完形填空1的難度要大,表中的方差、標準差和難度系數也印證了這點。根據信度公式(1)可以算出兩篇完形測試的信度r為0.75。通常情況下,大規模標準化考試的信度應該在0.9以上(張凱,2002)。但從本實驗的結果來看,這兩篇TEM4完形填空的信度仍有提高的空間。其信度低可能有以下幾方面的原因:
1.完形填空試題本身的質量不高
試題本身的質量是影響測試信度的最直接原因。如果測試的內容不是試題研發者最終所期待的,那么它也就不能檢測被試的真實水平。例如,高水平學習者可能得到低分,低水平者反而得到高分。這樣就會導致測試的信度不高。其次是所選的語言材料,比如文章的難度。對于一組被試來說,過于容易或難的試題都會導致信度不高。這在很大程度上并不是因為研發者的粗心大意,而是由于試題的難度不適合被試的能力水平。本實驗中的兩篇完形填空的難度分別是0.46和0.42,而大規模的標準化考試的難度應該在0.5左右。從難度系數來說,第二篇完形填空偏難了些,同一組被試在做第二篇完形填空時能力水平差異也較大。
2.試題的長度
試題的長度就是題數,在本實驗中指所刪掉的詞語的數量,它也可以在很大程度上影響測試的信度。試題的長度與測試的信度成正比。也就是說,題目越多,測試的信度就會越高。例如:一個測試有20個題目,信度是0.75。如果要得到0.9的信度,我們就可以用下面的公式計算出應該增加多少個題目(張凱,2002)。

rc是測試所期望得到的信度值;ri是測試現有的信度值;k是要達到所期望的信度時測試應該具備的長度。按照該理論,我們把各個數據帶入公式(2)中,得到k=3。也就是說,要使測試達到0.9的信度,該測試的題數應該是現有題數的3倍,或者說還應該增加40個題目才能達到0.9的信度。
2004年后,TEM4完形填空的刪詞量由15個增至20個(高等學校外語專業教學指導委員英語組四級考試大綱修定小組,2004),這就是提高測試信度的一個標志,也讓我們有理由相信現存的20個刪詞量還有可能沒有達到一個較高的信度。對于這一點,我們還需在將來作進一步研究。
3.被試
測試的低信度還有可能是由被試引起的。例如:(1)我們在本實驗中選用的樣本為30人,可能不夠大。(2)由于本實驗不是真正的TEM4考試,被試的對待態度和積極性可能都不太高。(3)被試的水平同質性太高。前面我們介紹過,參加本實驗的被試水平沒有太大差異,再加上最近幾年,我校英語專業學生的英語水平在TEM4考試中都呈上升趨勢。比如,2008年我校TEM4通過率為80.16%,高于全國高校平均通過率20%。因此,同質性如此高、差異性不大的被試能力水平當然會導致本次實驗的信度不高。
4.評分
評分是確保信度的最后一個環節,也是非常重要的影響信度的因素。雖說本實驗屬于客觀評分,評分員不需要接受培訓,但在評分過程中,如果評分員不夠細心,沒有足夠的耐心和責任心,或者說評分員沒有認真對待此次評分,這些都會影響到本實驗的信度。
五、結語
信度是測試必備的條件之一。如果一個測驗不受試題、被試、評分員和測驗環境等諸多因素的影響,它對同一組被試的重復測試結果應該是一樣的。但由于種種原因,這種高信度的測試實際上是不存在的。本文基于語言測試的信度理論對英語專業四級考試完形填空的信度作了一次實證研究,研究結果符合測試信度理論的假設。我們也希望語言測試研發者能不斷地完善測試質量,并且能更好地將語言測試應用于教學,對教學產生良好的反作用。
參考文獻:
[1]Bachman,Lyle,F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.
[2]Heaton,J.B.Writing English Language Teats[M].北京:外語教學與研究出版社,1988.
[3]Henning,G.A Guide to Language Testing:Development,Evaluation and Research[M].北京:外語教學與研究出版社,1987.
[4]高等學校外語專業教學指導委員英語組四級考試大綱修定小組.高等英語專業四級大綱[M].上海:上海外語教育出版社,2004.
[5]黃永紅.英語專業四級口語測試的信度與效度[J].外語研究,2006,(3).
[6]紀春.完形填空的效度研究[J].外語研究與教學,2001,(8).
[7]王孝玲.教育測量[M].上海:華東師范大學出版社,2004.
[8]胥云.The Study of Open Cloze as a Testing Format[M].北京:北京師范大學出版社,2005.
[9]張凱.語言測驗理論與實踐[M].北京:北京語言文化大學出版社,2002.