從AUA框架角度評價新托福考試

2015-04-15 09:37:40王萌萌

吉林廣播電視大學學報 2015年8期

王萌萌

（北京外國語大學，北京市 100089）

2003年，Bachman在Kane提出的“基于論證的驗證模式”（Argument-based Approach to Validation）基礎之上，提出了“測試使用論證框架”（Assessment Use Argument,簡稱AUA）。2005年，Bachman提出AUA框架應分為“測試效度論證”和“測試使用論證”兩個階段。2007年，Bachman和Palmer使從測試表現到測試效果和反向的兩條推論鏈條形成補充，其雙向流動性將測試的開發、解釋或使用結合起來。Bachman和Palmer在2010年對AUA進行了全面闡釋，根據韓寶成等（2013）的觀點，“測試有用性論證概念與測試使用論證框架的提出絕非傳統效度理論或驗證模式的重新命名，而是對其進行的揚棄。”對測試進行解釋和使用時，應按照受試在測試中的表現、記錄、對于受試語言能力的解釋、決策、效果順序逐步推理。在推理過程中，應論證測試具備AUA框架中的一系列質量屬性。

從2000年開始，美國教育考試服務中心（Educational Testing Service，簡稱ETS）著手對托福考試進行改革。2005年，ETS在全球推出了新托福考試，通過互聯網進行（即Internet-based Test，縮寫為IBT）。改革的主要目的在于使托福成績的解釋更加清晰明了，且要有理論依據，從而促進對考試的合理使用。ETS在Mislevy、Kane等人的理論基礎上，提出了托福解釋性論證的推理鏈條。與Kane的解釋性論證不同的是，托福的論證鏈條中引入了“目標語言使用域描述”、“對全域分數的解釋”以及“測試使用”，這和Bachman在2005年修訂的框架有相似之處。在ETS完成新托福改革之后，AUA框架又進一步發展深化，根據更加全面的AUA推理過程來評價新托福考試，可以找出對該框架中的主張形成支持或反駁的證據，使對測試的解釋和使用有理有據，同時也為未來優化測試的設計開發過程提供啟示。以下將針對框架內的四項主張展開論據搜集和論證。

一、論證“測試表現具有穩定性”

根據AUA框架，可以從考生完成測試任務的表現作為出發點，論證“測試記錄具有一致性”這一主張，即測試分數在不同的測試任務、測試流程和受試群體中能保持一致性。

AUA框架可以提供一系列理由來支持這一主張。比如針對“同一測試中不同任務的得分具有內部一致性”這一理由，ETS對新樣卷進行了Cronbach Alpha系數的計算，證明聽力和閱讀部分的內部一致性較高，寫作與書面測驗的老托福（Paper-based test，簡稱PBT）相似，但是口語的內部一致性低于預期(Chapelleet al.,2008)。基于框架中的“不同評分者對同一任務的評分具有一致性”這一理由，ETS對寫作和口語的不同評分者的評分進行了相關分析，發現寫作評分的內部一致性低于新托福改革之前的寫作考試（Test of Written English,簡稱TWE）。

通過一致性的分析，新托福考試的樣卷的聽力、閱讀、寫作的內部一致性證據支持了相關理由，但是口語部分較低的內部一致性構成了反駁，口語部分的試題設計要做出相應改動。另外，寫作評分者信度低于之前的標準化考試，也對一致性主張構成了反駁，為了保證評分者信度，ETS要對寫作的評分者進行進一步的培訓，保證其評分的公正、合理。

二、論證“對語言能力的解釋具有意義性、公平性、概括性、相關性和充足性”

AUA框架中的主張之一是受試的表現能夠代表測試擬測的語言能力，對受試測試表現的解釋要符合五條標準，相應的理由如下：

1、理由一：要保證基于語言理論或教學大綱的解釋的意義性

ETS按語言技能分別對聽力、閱讀、口語和寫作的能力框架進行了修訂。關于測試的語言能力理論依據,ETS借鑒了Canale、Swain以及Bachman的交際能力理論，認為托福考試理論構念中的語言能力包括語言知識（語法、社會語言、語篇知識）、策略能力和語言使用的語境等元素（Chapelle et al.，2008）。

2、理由二：要保證該解釋對于所有受試具有公平性

ETS要保證托福考試的形式和內容不偏袒任何受試，測試任務的內容所包含的文化和語言信息對所有受試都是恰當的,所有受試都是機會均等的。

ETS開發了語料庫，對語料進行了標記和分析，結果證明大量語料中的語言差異在于所屬語域的不同，而不因學科門類和研究層次的不同而有顯著差異，這為對不同學科專業的本科生、研究生具有公平性提供了有力證據。此外，與美國文化相關的語料過多也可能對受試造成冒犯，產生不公平不公正的后果（Chapelle et al.2008）。ETS在開發新托福考試時考慮到了應該回避以上這些消極因素。

3、理由三：保證解釋對目標語言使用域具有概括性

ETS為保證測試任務特點與目標語言使用域中的任務有對應性，征求了重要利益相關人的看法，分別對不同學科專業的學生和教師進行了問卷調研，評估測試任務是否具有概括性、是否符合目標語言使用域中任務的特點等等。問卷調查得出了一系列結論：某些任務在目標語言使用域中并不那么重要，比如在聽力測試中的判斷聽力材料是否跑題。然而某些任務尤為重要，比如聽懂并理解材料的大意或其中支持性的觀點，閱讀并理解文章大意等等（Chapelle et al.，2008）。這些結論構成了支持理由的證據，證明了某些測試任務的概括性，同時證明了最終框架內容的合理性。

4、理由四、理由五：保證解釋與所做決策具有相關性和充足性

為了保證解釋與所做的決策具有相關性和充足性，ETS在官方指南（2006）中為決策者提供了托福PBT、托福CBT（computer-based Test）、托福IBT成績對照表、與測試結果相關的百分等級對照表、如何設定測試標準的指導手冊和相對應的語言能力的描述。在考試之后，ETS的分數報告不再只限于報告考生的英語水平和各單項語言技能成績，還會提供一個診斷性報告讓考生和接收院校了解考生的英語語言學習情況。這為接收院校合理地解讀成績，做出錄取、分班、調整教學等決策提供了相關且充足的證據，也為學生了解自身語言能力并作出語言學習的正確決策提供了相關且充足的參考信息。

三、論證“測試決策具有均衡性和價值敏感性”

AUA框架中的主張之一為：均衡性和價值敏感性應體現在基于分數的決策上。即決策對于不同的受試群體來講是均衡的，不受種族、性別的影響，要與教育和社會價值觀及法律要求相吻合。

針對殘疾人士，比如聽力障礙的受試，ETS也提供了保障手段，他們可以申請選擇不進行口語和聽力測試，或者申請提供手語翻譯。然而筆者認為，這正是擺在測試設計者面前的一道難題。首先，對于缺乏某些技能的測試試題的設計要合理，保證這些試題和其他形式試題具有一致性，保證對所有受試具有無偏性。其次，由于殘障人士的特殊需求，測試時間和方式這兩個變量也要進行合理調控，這兩個變量是否會影響測試成績和最后的決策還有待進一步研究。針對分數線設置和決策制度是否與其他受試一致，如何才能保證決策符合社會價值觀和法律要求，截至目前ETS沒有進行具體的闡釋和論證。

四、論證“測試使用效果的受益性”

AUA框架表明，使用測試和決策的效果應對利益相關人具有受益性。托福IBT考試的設計者對測試使用的有益性進行了相關的研究。測試結果嚴格進行保密，受試將在考試結束后15個工作日后查詢成績，同時會收到寄送的成績單附件，成績單中會對受試的各部分表現做出評價，官方指南相對應的語言技能的各級別能力的描述可以為考生提供有益的反饋。此外，針對語言教師，官方指南中的口語和寫作部分提供了樣題、不同得分的受試的回答實例、評分者的評語和話題清單。這些措施都具有受益性，可以幫助利益相關人有效地提高學習、教學和管理，并使利益相關人對測試結果有合理的認識和評價。

然而，由于新托福考試的目的之一是劃定分數線并做出決策，某些培訓機構培訓學生“走捷徑”，比如借助考試策略猜測答案等等，經過錯誤培訓的考生在通過考試在國外學習時會遇到很多語言障礙，接收院校還要重新對學生進行再次培訓，從而對測試的權威性和合理性產生懷疑，這一現象的存在對于測試的受益性構成了反駁。如何才能合理地設計試題避免消極的后效、對接收院校和參加過考試的學生進行進一步的追蹤調研是ETS在將來需要面對的課題。

[1]Bachman,L.F.Constructing an Assessment Use Argument and Supporting Claims about Test Taker-assessment Task Interactions in Evidence-centered Assessment Design [J].Measurement:Interdisciplinary Research and Perspectives,2003(1):63-65.

[2]Bachman,L.F.Building and supporting a case for test use[J].Language Assessment Quarterly,2005(2):1-34.

[3]Bachman,L.F.Justifying the use of language assessment.http://www.oxford.co.kr/2007_oxford_day/ppt/bach2.pps.2007a,2007.

[4]Bachman,L.F&Palmer.Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford:OUP，2010.

[5]Chapelle,C.A.&Enright,M.K.&Jamieson,J.M.Building a Validity Argument For the Test of English as a Foreign Language TM[M].New York:Routledge,2008.

[6]Kane,M.An argument-based approach to validity[J].Psychological Bulletin,1992(112):527-535.

[7]Kane,M.Book review:Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[J].Language Testing,2011(28):581-587.

[8]韓寶成,羅凱洲.語言測試效度及其驗證模式的嬗變[J].外語教學與研究,2013(3):411-425.

[9]美國教育考試服務中心.新托福考試官方指南[M].北京：世界圖書出版公司，2006.