白潤冰
(西安工業大學外語學院 陜西 西安 710032)
近年來,國內語言測試領域對CET4和CET6的信度和效度有了較多的研究,也取得了明顯的成果(陸巧玲,2008;石英,2004;富冬青,2005;辜向東,李志芳,張書奎,2009;文慧,聶建中,2007等)。但是對于持續進行的國家級大規模標準化考試來說,對其試題歷時穩定性的研究更有現實意義。本文僅對歷年CET4試題中兩個完形填空題目從巴赫曼傳統正確分值測量理論中平行測試這一角度進行研究。
平行測試是傳統正確分值測量理論中的重要概念。巴赫曼認為,同一組考生參加兩次測試,如果兩次測試的正確分數相等并且誤差方差相等,那么這兩次測試就是平行測試。(Bachman,1990)用公式表示就是:x=x’,s2x=s2x’,rxy=rx’y。其中,x和x’是兩次測試的正確分值,s2x和s2x’為兩次測試的方差,rxy和rx’y分別為兩次測試與第三次測試的相關系數。在實踐中,盡管我們沒辦法獲得真正的嚴格意義的平行測試,如果它們的均值和方差沒有統計學意義上的明顯差異,我們就認為它們是平行測試。為了便于操作,巴赫曼還提出了如下的圖式:

圖1 平行測試中正確分值和觀察分值的相關性
其中,rxx’是兩次測試觀察分值的相關系數,從統計學意義上講,相關系數越接近1,二者是平行測試的可能性越高。這樣我們在進行平行測試檢驗判斷時就不需要有第三次測試,直接觀察它們之間的相關系數就可以做出判斷。另外,要使這一圖式具有可操作性,我們必須假定兩次觀察分數之間在實驗層面上是相互獨立的,也就是說,考生在第二次測試的表現不依賴于第一次測試時的表現。如果第一次測試的表現對第二次測試產生影響,我們就不能做出推斷:兩次觀察分值的相關性是受相同能力的影響。
筆者分別選用2000年1月和2010年6月的cet4真題中的完形填空作為實驗對象。修旭東和王俊菊認為,CTS-理論只能計算同源誤差。(修旭東和王俊菊,2001)因此選取同一種題型進行研究可以有效地降低測量誤差。在試卷設計和題目測試過程中,筆者采用了王俊菊描述的均衡 (counter--balanced)方法:進行對等信度計算時,應保證平行試卷的對等性,尤其是在難度上的對等,標準差也應相近測試過程是用兩份對等試卷對同一批考生同時進行測試由于測試時會因先發試卷A后發試卷B而產生“實踐效應”因而做試卷B時會比做試卷A好此為了解決這一問題可以采用均衡方法來盡量減少“實踐效應”現象,即:將考生再分成兩部分,一部分考生先發試卷A后發試卷B另一部分先發試卷B后發試卷A。(王俊菊和修旭東,2003)依照上述方法,筆者設計了兩套試卷,A卷2000年1月完形為試卷的前半部分,2010年6月完形為后半部分,B卷前后做調換。之后對我校10級某班進行課堂測試,測試前告知學生此次練習只作為研究使用,與學期成績無關。共發放33份試卷,有效回收30份。每個考點選對得1分,選錯得0分,兩個完形的滿分均為20分。最后將對兩個完形的測試結果輸入軟件SPSS19.0進行相關分析。
軟件分析結果顯示:2000年1月題目的標準差為2.26,均值為 5.83;2010年 6月題目的標準差為 2.58,均值為10.43;二者的相關系數為0.36。對照巴赫曼上述的三個公式,不難發現,只有s2x=s2x’近似地滿足條件,而x=x’二者均值有較大的差異,對于rxy=rx’y,我們直接對二者進行相關分析,而沒有使用第三次測試進程實驗,但是0.36的相關系數沒有到達統計學上顯著相關(此樣本的顯著相關系數﹥0.85)。因此這兩個完形測試整體上沒有滿足平行測試的條件,不能看作是平行測試。
教學大綱的改變,使測試的側重點發生了轉移。《大學英語課程教學要求 (試行)》指出:“大學英語的教學目標是培養學生的英語綜合應用能力,特別是聽說能力,使他們在今后工作和社會交往中能用英語有效地進行口頭和書面的信息交流,同時增強其自主學習能力,提高綜合文化素養,以適應我國社會發展和國際交流的需要?!保ń逃扛叩冉逃?,2004)新的課程教學要求特別強調聽說能力的培養,這就有可能使得學習者在英語學習過程中注重語言的流利性而忽視其準確性,因而對語法知識的掌握不夠理想。2000年1月的完形中有6個以上的語法結構題,而2010年6月的完形中沒有語法結構方面的考點。 “完型填空(Cloze)測試學生各個層面上的語言理解能力及語言運用能力。短文長度為220-250詞,內容是學生所熟悉的題材?!保ㄈ珖髮W英語四、六級考試委員會,2006)2000年1月完形話題內容為人的認知習慣的一個調查分析,而2010年6月完形話題內容為電子商務。對于現在的學生來說,前者話題抽象不熟悉,后者熟悉貼近生活。以上兩點是本次試驗中均值差異較大的主要原因。另外,前者全文字長為216,平均每個填空有不到10個字信息支持;后者為249,單個填空超過10個字信息支持。這就使得前者的難度有所增大。這也可能是分值差異的一個原因。
通過實驗和分析,由于多種因素,這兩次完形測試不滿足巴赫曼平行測試的條件,可以認為它們不是嚴格意義上的平行測試。本次研究也有一些不足之處,如參與實驗的學生人數較少,兩個研究對象的選取時間跨度較大,課堂測試對學生參與實驗的態度影響等,都可能會產生偶然因素,對實驗結果有不利影響。
[1]Bachman Lyle F.Fundamental Considerations in Language Testing[M].Shanghai:Shanghai Foreign Language Education Press,1999.
[2]富冬青.大學英語四級測試中信度與效度的矛盾與統一[J].長春理工大學學報:社會科學版,2005,3.
[3]辜向東,李志芳,張書奎.大學英語四級考試快速閱讀部分內容效度研究[J].西南民族大學學報:人文社科版,2009(1).
[4]教育部高等教育司.大學英語課程教學要求:試行[Z].北京:高等教育出版社,2004.
[5]陸巧玲.CET-4 閱讀理解內容效度分析[J].高教論壇,2008(5).
[6]全國大學英語四、六級考試委員會.大學英語四級考試大綱:修訂版[Z].北京:清華大學出版社,2006.
[7]石英.CET效度下降的原因與對策[J].鄭州航空工業管理學院學報:社會科學版,2004,12.
[8]王俊菊,修旭東.語言測試中信度計算的三種理論模式探討[J].外語與外語學,2003(9).
[9]文慧,聶建中.大學英語四級考試完形填空試題的考點效度分析[J].山西農業大學學報:社會科學版,2007(3).
[10]修旭東,王俊菊.Bachman的語言測試信度計算模式[J].煙臺師范學院學報:哲學社會科學版,2001,9.