摘 要:本文主要介紹適應性測試和計算機適應性測試的理論和實踐,為我們的語言測試, 特別是英語測試, 提供一種全新的視角。
關鍵詞:適應性測試 計算機適應性測試
正如McNamara所說,考試是社會生活中一種普遍特征。中國的考試制度追溯到2000多年以前,對于那時平民百姓來說,考試是唯一能進入官宦生活的方式。語言測試在20世紀60年代初期在西方才成為一門新新學科,而中國的語言測試(主要指英語語言測試)的發展更為晚些。李莜菊(1997:4),舒云祥(1999:13)在其書中總結了一些關于目前我國語言測試的特點:第一,英語測試仍采用心理測量加結構主義的方法,聽、說在我國大部分地區仍被廣泛運用,分離測試占據著重要地位。第二,人們更為關注測試而不是測試理論。第三,人們只注意考試的評價與選拔功能,忽略測試的反撥作用。
1. 適應性測試
1.1適應性測試理論
適應性測試(Adaptive Testing)指測試者所遇到的特定題目是由他對以前題目的反應來決定的。他碰到的第一個題目是中等難度,如果這個題目被正確完成,第二個題難度將會增加,反之,第二個就會容易些,考試就按照這種方式循環直到獲得一個與他能力或成就相匹配的分數為止。在大部分適應性測試中,受試者并不能覺察到他們對特定題目反應是否正確,他們可能也不知道隨后碰到的題目是由前面反應來決定的。
適應性測試是采用單個適應性測試的形式,也叫做順序測試,分支測試,監測測試,獨立測試,程序測試,靈活測試,連續反應測試等,它來自于20世紀五六十年代的程序性教育活動的紙筆練習。其練習包括兩種:線性和分支性練習。它們都提供了一種教學因素,即通過一系列框架所取得的進步暗示著學習者已取得了令人滿意的效果。線性練習是在每一步框架之后就知曉分數,而分支性練習更適合快速學習者。
通過使用基于項目反應理論(Item Response Theory)以及計算機監測的分支策略使得適應性測試變得很流行。使用項目難度與能力相結合的策略,學生被重復使用越來越難的題目直到獲得一個與他能力或成就相匹配的分數。這種策略就叫做最優化適應性測試信息策略。當然,適應性測試并不新鮮,在某些方面,甚至連Stanford-Binet測量也是適應性的。計算機很有可能使此項測試普及。
1.2適應性測試的實踐
如果讓測試者一天之內連續七小時考試顯然是不切實際的,而使用監測性或適應性測試就完全具備這種可能,因為適應性測試是依照單個測試者對前一試題的反應而被連續給予試題。考試的監測是由計算機來完成的,因為它能在每一步按要求選擇所需要的試題然后進行分數統計。實際上,Linn Carlson 在1968年就進行了探索性研究,那時監測性或分支測試正在發展。研究的結果不盡人意,他們認為適應性測試遠不如常規性測試有效,很大程度是因為他們在研究中使用常規性試題替代適應性試題進行研究。
如今,這方面的關注除了要控制試題難度以外,還必須確信受試者之間的遇到的題目的難度系數是相同的。集中難度系數僅僅是作為一種選擇題目的手段,我們也可以選擇差異很大的詞匯作為試題,這樣在效果上單個人碰到的適應性測試等同于詞匯測試。在實踐中,選擇題目要根據區分度,當然是越高越好。如果我們只考慮試題庫的多樣性而引進許多新的不同的材料,這會產生新的問題,因為人們很少選用新的試題作為考題。正如Green (1998)所說,項目反應理論方法比起常規方法在忽略新穎和差異方面更為有效,因此計算機監測考試更好。解決這一問題的方法之一就是劃分考題類型并分段計量。
適應性測試類型的原則是我們選擇試題時要預測到受試者考試情況以及所處的層次,只有這樣測試才有效。入學層次需由以前熟練水平來限定,由最初的題目,任務或預測的結果來確定,甚至是由年齡等決定。因此最后評價的準確性可能會受到最初評判的影響。
1.3 適應性測試的優點
適應性測試有其顯而易見的優勢,任何一個測試者會得到更少的試題,并且考試的時間也隨之縮短。如果需要的話,在能力范圍的兩極(即最優秀和最差)的評估還可改進。不同受試者回答不同的題目——這樣可以確保試題庫的安全性,是另外一個不顯眼的優點。
監測適應性測試可以采用以下形式:單獨面試(像口語測試),紙筆模式,計算機監測的形式。適應性測試中最成功的使用即是計算機適應性試(Computer Adaptive Testing, 簡稱為CAT),這在語言測試中是最有潛力同時也最具有挑戰研究和發展領域,而且它以試題難易層次和受試者能力層次的最優化匹配的方式同時監測某幾種類型的語言測試。
2. 計算機適應性測試
2.1計算機適應性測試理論
CAT是以試題庫的存在為依據,它的試題依照能力-難度計量為標準,通過這種標準,題目得以排序,受試者的名次得以排列,項目反應理論提供了這樣做的工具。CAT試題提前設置題目難度系數,它來自于學生以紙筆的方式對一個試驗樣本中題目的反復考查。
CAT的目的是盡可能讓試題的難度系數與測試者的能力像匹配。在考試中,單個受試者會碰到題庫中題目的選擇,任何一個測試者遇到的題目都是由計算機程序依照這個測試者對一系列問題的反應的結果來決定的。測試者的第一反應用來構成暫時的評判,容易或稍難的題目依據每一步的反應的調整來進行選擇,例如,如果題目A對于一個測試者太難,隨后他會遇到一個容易的題,如果題目B證明太容易,那么題目C將被作為中間難度被選中。通過這種方法,計算機程序根據相應的題目難度范疇(直到分數在一個公認的精確水平)得出測試者能力的分數。
2.2計算機適應性測試的實踐
在CAT方法中,題目被給予的順序是測試者反應的一種功能。如果測試者不能回答一個特定的題目,那么下一個題就會變得容易一些,相反,如果回答正確,下一個題就會難一些。在按測試題目順序的方法里,不僅測試者對所提供的題目的順序沒有直接選擇,而且不同能力層次的測試者很可能碰到不同的題目,或者遇到不同順序中的相同題目,此外,一個特定的考生在重考中可能會遇到以不同順序出現的不同題目。
CAT更有利于評估的精確性,因為考生所遇到的題目都具有很大的區分度,也就是說,這些題目或多或少都在評判考生能力范圍之內,這種類型的題目比起太容易或太難的題目來說能提供更多關于受試者的信息。
CAT是適應性測試的一種變異,這種變異依照考生在考試中經歷的成功或失敗來給予試題順序。例如,對于一個特定的題目考生如果答對了,就會導致更難層次題目的呈現,反過來,答錯的考生將遇到較容易的題。這種過程的一些變異會以反復的形式繼續直到允許考生考試終止的信息被收集為止。
2.3計算機適應性測試的優點和缺點
任何事物都有正反兩面一樣,CAT也有自身的缺點和優點。我們需要發現新的方法來克服或者彌補這些缺點。當然隨著熟練操作計算機的人的增多以及學校和其它組織計算機的不斷引進, 這些反對的聲音開始逐漸變小。
1)使用計算機作為考試工具要注意:一是計算機硬件和軟件的高成本,另外就是所有考生都必須會操作其程序。
2)CAT僅只局限于客觀評判模式。
3)在一些語言測試技能中,有一些是計算機不能識別的熱身考試,如口語測試。
4)一些來自于對依照不同試題結合給不同的考生測試而獲得的分數的反對意見也具有一定的合理性。
5)CAT方法中一個最大的缺陷是只客觀為語言測試評分,而對作文,聽寫,口語測試就沒有這樣的評分步驟。
盡管有以上缺陷,但是仍舊有一些計算機適應性測試所具有的無可比擬的優點, 如:
1)CAT對測試者能力類別也能提供適應方式,真正消除常規考試中的作弊現象,安排考試也有很大的靈活性,這是由于每次考試都不一樣,運用小型題庫和測試網絡可極大提高考試效率(包括每次考試時間的大大縮短)。
2)試驗發現CAT在信度和效度方面都優于傳統的紙筆測試。
3)研究人員已發現把CAT和傳統考試相結合來測量具有顯著預測能力。
4)當學生碰到超越他們能力極限的題目但又不得不回答時,CAT可減少其挫敗感覺和疲勞。對那些遇到太容易題目的考生來說枯燥也會減少。
5)CAT能直接提供準確﹑一致的考試結果,同時能為老師和考官提供診斷性的幫助,減輕出題者負擔,而且計算機還能靈活自如轉到題庫。
6)CAT的實踐優點在于極大提高測試的安全性,這是由于兩個考生在同樣的測試順序幾乎不可能會遇到一樣的題,單個考生在隨后測試中也不可能碰到相同的題,因此允許其試題對同一個考生重復使用。
7)和傳統考試相比,CAT能記錄單個考生取得進步的全過程。
8)由于計算機可以保持每個考生答題的詳細情況,因此可以擴展對每個考生的報告,調查和評估。
9)除了多項選擇題以外,考試類型也可以監測,如等級評分題,甚至后來由老師打分的作文考試題也一樣。換句話說,CAT可以消除辨認學生作文中潦草字跡等問題。
3. 結論
隨著社會的發展和計算機的普及,要求人們掌握更多的東西,如全面的專業知識,靈活操作計算機,甚至擅長與人溝通等等。計算機適應性測試作為一種判斷一個人是否全面,是否能適合社會發展需要的工具將會受到越來越多的重視。通過使用計算機適應性測試而不斷發揮其優點。