TOECI 口語考試任務(wù)設(shè)計及其對漢語口語測試的啟示

2020-07-21 00:44:02王佶旻

考試研究 2020年3期

王爽王佶旻

語言測驗中的變量有三個：語言能力、刺激和反應(yīng)[1]。語言測驗通常使用一定的刺激物，即測驗任務(wù)，得到被試的反應(yīng)，也就是被試的答案。語言能力的屬性以及使用測驗任務(wù)在多大程度上測到了想要測驗的能力是語言測評研究者關(guān)注的重要問題。任何測量都存在誤差，語言測驗也不例外，使用測量任務(wù)得到語言學(xué)習(xí)者能力的反饋，這個過程是復(fù)雜的，包含許多的程序和步驟，每一步的小誤差都會增大最終結(jié)果的誤差。因此，語言測量研究者想要獲得語言能力的證據(jù)，就需要從語言測驗的整個過程進(jìn)行考慮，包括測驗對象和測驗任務(wù)實施等。

語言測試開發(fā)需要確定測試的對象是什么，根據(jù)對語言能力定義的不同常常可以分為兩種模式：以能力構(gòu)想為中心和以情景任務(wù)為中心。而TOEIC 口語考試是基于“以證據(jù)為中心”的評價模式（evidencedcentered design，簡稱ECD 模式）設(shè)計的，ECD 模式以尋找證據(jù)為中心任務(wù)，每部分層層相關(guān)和遞進(jìn)，將整個評測過程統(tǒng)一起來，形成完成的測評框架。本文將對TOEIC 口語考試的任務(wù)設(shè)計模式進(jìn)行介紹，并在此基礎(chǔ)上探討其對漢語口語測試的借鑒價值。

一、口語測試開發(fā)問題

在口語測試開發(fā)的初始階段，對口語能力的界定是至關(guān)重要的，它還會影響后期的任務(wù)形式、評分方式等。通常對語言能力有兩種定義方式：一種是“現(xiàn)實法”，它會確定實際語言應(yīng)用的特例構(gòu)成的范圍，這個范圍里的應(yīng)用特例被認(rèn)為是特定語言行為的表現(xiàn)[2]；另一種是“成分法”，這種方法在語言測試發(fā)展歷史上占有重要的地位，它會把語言能力分為若干個子能力。

在口語測試開發(fā)過程中，“現(xiàn)實法”會根據(jù)之前確定好的特定口語行為表現(xiàn)進(jìn)行任務(wù)設(shè)計和評分方式設(shè)計，由于其特點通常會采用總體等級評分，但是這種評分方式對評分員的要求很高，評分信度通常難以保證[3]。“成分法”則以口語能力的構(gòu)想為中心，由于口語能力是不能直接觀察和測量的，仍舊需要設(shè)計任務(wù)對口語能力進(jìn)行測量，然后根據(jù)這些任務(wù)進(jìn)行推斷，因為口語能力會被分為某些確定的成分，如準(zhǔn)確性、流利度，準(zhǔn)確性會使用每個T-unit 的錯誤個數(shù)[4]等，流利度會使用停頓次數(shù)以及平均語流長度[5]等作為量化的客觀指標(biāo)。

“現(xiàn)實法”將特定的口語行為表現(xiàn)作為其評價指標(biāo)，但無法推斷被試在其他口語任務(wù)上的表現(xiàn)；“成分法”將口語能力作為重點，在評分方式上量化了各種指標(biāo)，但操作復(fù)雜，常因為忽略實際情景而受到批評。兩種方式各有利弊，可以根據(jù)不同的考試目的選擇不同的定義方法，但無論是哪種方法，都需要設(shè)計測試任務(wù)來進(jìn)行口語測量，而TOEIC 的口語考試設(shè)計將這兩種方式結(jié)合起來，能更好地完成口語測試。

二、TOEIC 口語考試設(shè)計框架

TOEIC 口語考試是基于“以證據(jù)為中心”的評價模式，即ECD 模式設(shè)計的。ECD 模式是由Mislevy，R.J.等人于1997-1999 年在主持美國教育測量服務(wù)中心（Educational Testing Service，ETS）工作時提出的一項新的系統(tǒng)性評價設(shè)計研究項目，旨在開發(fā)評價設(shè)計框架，已被廣泛用于教育評價中。TOEIC 口語考試是在GRE 等考試之后使用ECD 模式進(jìn)行開發(fā)設(shè)計的，在先前經(jīng)驗的基礎(chǔ)上，其口語考試設(shè)計更加清晰明確具有代表性。

1.TOEIC 口語考試設(shè)計基礎(chǔ)

ECD 模式產(chǎn)生的背景，一方面是認(rèn)知科學(xué)和學(xué)習(xí)科學(xué)的發(fā)展，促使我們對學(xué)習(xí)者的知識、技能等有了更深的認(rèn)識；另一方面是統(tǒng)計模型的發(fā)展使得測驗?zāi)軕?yīng)用基于概率的推理，這樣能夠涉及觀察變量、具體情境以及與推論之間的推理鏈條。

其理論基礎(chǔ)來自Mislevy 對教育評價中推理和證據(jù)之間問題的看法。他認(rèn)為，教育評價的對象是學(xué)生的知識、技能和成就，評價的過程可以看成是“基于證據(jù)進(jìn)行推理”的過程，教育評價就是希望從學(xué)生所說和所做或做出的特定事物中推理出更廣泛的知識和能力推論[6]的過程。總體來說，ECD 模式是基于證據(jù)對學(xué)習(xí)者的知識、技能等進(jìn)行推理的模型框架。

Mislevy 等人還認(rèn)為，評估確實可以收集復(fù)雜的數(shù)據(jù)來建立對復(fù)雜學(xué)生模型的基本推斷，并衡量復(fù)雜的學(xué)習(xí)或評估復(fù)雜的程序，但這是建立在從觀察到推理的全部推理鏈之上的，因此需要一個更加結(jié)構(gòu)化的框架來提供通用術(shù)語和設(shè)計對象，使評估設(shè)計更為明確，并將設(shè)計元素與實際評估中固有的過程聯(lián)系起來，這樣的框架不僅使評估的基本證據(jù)結(jié)構(gòu)更加明確，而且使評估的操作要素更易于重復(fù)使用和共享[7]。ECD 評價模式就是從構(gòu)想的建立到分?jǐn)?shù)的發(fā)布建立的有層次和結(jié)構(gòu)的框架。

ECD 模式框架分為5 個層次，分別是領(lǐng)域分析、領(lǐng)域建模、概念性評價框架、評價執(zhí)行和評價發(fā)布[8]。ECD 模式能夠使測試開發(fā)者重點針對語言能力和任務(wù)以及它們之間的關(guān)系，5 個層次包含了測試開發(fā)的整個階段，每個層次都互相關(guān)聯(lián)，層層推進(jìn)。

考試研發(fā)設(shè)計的第一階段是領(lǐng)域分析，包括對評估領(lǐng)域的已知內(nèi)容的初步綜合，主要側(cè)重這些問題：在該領(lǐng)域取得成功的重要技能、知識和能力是什么？在哪些實際情況中學(xué)習(xí)者會使用這些技能、知識和能力？

第二階段是領(lǐng)域建模，這一階段要將第一階段領(lǐng)域分析收集的信息細(xì)化，用來指導(dǎo)接下來的與語言能力相對應(yīng)的任務(wù)設(shè)計，包括三個相互關(guān)聯(lián)的部分：熟練程度范例-對考生能力要求的實質(zhì)是什么？證據(jù)范例-考生表現(xiàn)中的哪些可觀察特征會提供數(shù)據(jù)來支持這些能力構(gòu)想？任務(wù)范例-什么類型的任務(wù)能夠讓考生提供證明他們熟練性的證據(jù)？

第三個階段是概念性評價框架（CAF），在前兩個階段的草圖基礎(chǔ)上，它會提供評估操作要素的具體細(xì)節(jié)以確定最終的藍(lán)圖，包括5 個關(guān)聯(lián)的模型：學(xué)生模型、證據(jù)模型、任務(wù)模型、呈現(xiàn)模型和組合模型。概念性評價框架提供了一個正式的框架，用于指定要衡量的知識和技能、觀察的條件以及支持預(yù)期推斷而收集的證據(jù)的性質(zhì)。

第四個階段的評價執(zhí)行就是具體執(zhí)行評價工作，包括創(chuàng)建CAF 結(jié)構(gòu)中描述的評價部分，例如編寫任務(wù)、呈現(xiàn)任務(wù)、擬合測量模型、細(xì)化評分規(guī)則和提供實例、編程模擬、自動評分算法、收集反應(yīng)、分析反應(yīng)等。評價都需要一些程序，通過這些程序來挑選題目、運行考試、報道分?jǐn)?shù)以及交流反饋。

最后一個階段是評價發(fā)布，是通過交付系統(tǒng)形成的，包括呈現(xiàn)程序、反應(yīng)程序、總結(jié)評分程序、活動挑選程序和任務(wù)/證據(jù)組合庫。它描述了評估所需的學(xué)生、證據(jù)、任務(wù)等以及它們?nèi)绾螀f(xié)同工作。

整個框架從語言能力構(gòu)想到最終成績發(fā)布是一個具有邏輯的完整的系統(tǒng)，其中概念性評價框架是整個框架的核心，可以說是整個框架的縮影，包含了語言能力構(gòu)想、任務(wù)、評價標(biāo)準(zhǔn)等幾個考試的核心問題以及它們是如何互相作用的。領(lǐng)域分析和領(lǐng)域建模是進(jìn)行測試開發(fā)的前期理論性定義階段，概念性評價框架是將這些能力更加詳細(xì)化地落到實際操作上。TOEIC 的口語任務(wù)設(shè)計一方面與理論性定義階段相關(guān)，一方面又關(guān)乎評價執(zhí)行和評價發(fā)布最后兩個階段，口語設(shè)計也遵循ECD 模式這種層層遞進(jìn)的過程，每一步都有明確的步驟。

2.TOEIC 口語任務(wù)設(shè)計

TOEIC（Test of English for International Communication），又被稱為托業(yè)考試，用于測試母語非英語人員在國際性環(huán)境中的日常英語能力[9]。TOEIC 考試雖然在20 世紀(jì)就已研發(fā)和實施，但最開始只有閱讀和聽力測試部分，不包括口語和寫作測試。2005 年，ETS 與來自日本（IIBC）和韓國（YBM/Sisa）的業(yè)務(wù)成員進(jìn)行探討，決定增加TOEIC 系列的口語和寫作測試，并在考試設(shè)計方面做出要求，如希望可以有更多的等級；在考試時間方面，口語和寫作的時間約為90 分鐘。

ETS 在開發(fā)TOEIC 的口語和寫作測試之前已經(jīng)將ECD 評價模式應(yīng)用于托福考試中，鑒于此經(jīng)驗，在研發(fā)中要考慮平行試題形式的開發(fā)，而且必須有詳細(xì)的任務(wù)規(guī)范，這些規(guī)范能夠使命題者更加明晰口語能力和任務(wù)之間的關(guān)系，這也能夠使口語的理論性定義在實際操作中得到充分體現(xiàn)，做到理論性定義與操作性定義的統(tǒng)一。最終研發(fā)者確定了任務(wù)設(shè)計分析實施步驟，TOEIC 口語任務(wù)設(shè)計與ECD 模式的框架對應(yīng)情況如表1[10]所示。

表1 基于ECD 設(shè)計的TOEIC 口語任務(wù)設(shè)計

TOEIC 口語任務(wù)設(shè)計首先按照領(lǐng)域分析和領(lǐng)域建模階段，對口語能力的整個理論和測試任務(wù)進(jìn)行回顧，最后形成TOEIC 的口語能力構(gòu)想以及對子能力的要求，列出與對應(yīng)子能力相關(guān)的證據(jù)來源，以及影響任務(wù)難度的特征和評判標(biāo)準(zhǔn)。在此基礎(chǔ)上，構(gòu)建了有具體細(xì)節(jié)的任務(wù)模型，用來形成測試任務(wù)的模板，包括測量的內(nèi)容摘要和任務(wù)模型，具體見表2。

表2 TOEIC 口語任務(wù)模型框架

任務(wù)模型由四部分組成，包括固定元素、變量元素、評分標(biāo)準(zhǔn)或題目以及變體。固定元素指的是在該任務(wù)的不同實例中保持不變的一類任務(wù)的各個方面。例如要求測試者完成任務(wù)的內(nèi)容，以及任務(wù)組件的順序和時間等。TOEIC 口語測試的固定元素包括刺激材料的確切長度；刺激、準(zhǔn)備和反應(yīng)的確切時間；并準(zhǔn)確說明提示的性質(zhì)。變量元素指的是可以在該任務(wù)的不同實例之間更改的任務(wù)類的方面，例如文本或主題的類型等，還包括這些元素的可能變體集。評分標(biāo)準(zhǔn)規(guī)定了評估考生回答的程序和標(biāo)準(zhǔn)。變體會定義好任務(wù)范圍和特定主題區(qū)域或文本類型或任務(wù)框架定義的任務(wù)示例。

一旦創(chuàng)建了任務(wù)設(shè)計和任務(wù)模型框架，命題專家就可以根據(jù)內(nèi)容專業(yè)知識和業(yè)務(wù)要求商定標(biāo)準(zhǔn)評估框架，這樣可以維持同一類任務(wù)的多種變體的產(chǎn)生，有助于在測量某種口語子能力時，不會輕易被其他內(nèi)容干擾。

三、對來華預(yù)科口語能力測試的啟示

1.對漢語口語能力構(gòu)想的啟示

任務(wù)設(shè)計與能力構(gòu)想緊密相關(guān)，在進(jìn)行任務(wù)設(shè)計之前要明確口語能力構(gòu)想。漢語與英語口語不同，在語音、語調(diào)、語氣停頓等方面有著本身的特點，因此在漢語口語考試設(shè)計時要注意漢語的特點。

由于漢語口語水平考試的測試目的不同，在構(gòu)建漢語口語能力構(gòu)想時也不同。以商務(wù)漢語口語測試為例，與普通的漢語水平口語不同，商務(wù)漢語口語具有專業(yè)化、職業(yè)化的特點，其詞匯和語法等方面都有自己的特征，如語體相對較為正式、表現(xiàn)形式包括獨白和對話兩種[11]。因此不僅要考慮基本的口語交流能力，還需要對考生的商務(wù)漢語口語能力進(jìn)行分析。在此分析基礎(chǔ)上，確定想要衡量的口語能力是被試 “能夠有效地在日常和商務(wù)交流中通過漢語進(jìn)行口語交流的能力”。還可以對更詳細(xì)的商務(wù)漢語口語子能力進(jìn)行要求，例如可以在特定的語境中談?wù)撃呈碌哪芰梢约?xì)分為考生能夠選擇適當(dāng)?shù)恼Z言進(jìn)行日常的社交和商業(yè)交流（如產(chǎn)品介紹、回答用戶的咨詢等）。

對口語能力的界定和細(xì)化能夠為接下來的任務(wù)設(shè)計等工作提供更好的幫助，而接下來的實際操作性工作也會進(jìn)一步驗證或者修正理論。

2.對漢語口語任務(wù)設(shè)計的啟示

口語任務(wù)設(shè)計是連接語言口語能力理論和最終分?jǐn)?shù)呈現(xiàn)的橋梁，并與兩者息息相關(guān)，因此口語任務(wù)設(shè)計要在統(tǒng)一的結(jié)構(gòu)框架中綜合考慮這些因素。

在領(lǐng)域建模階段，要根據(jù)口語能力構(gòu)想和子能力進(jìn)行任務(wù)設(shè)計，這些設(shè)計包括要列出相關(guān)證據(jù)的真實世界任務(wù)，例如在漢語口語能力的任務(wù)中，要求考生根據(jù)一些書面信息詢問或者回答漢語教師或其他人提出的問題；還包括確定可能影響任務(wù)難度的特征，這些特征包括漢語閱讀和聽力材料的特征，這些特征是刺激口語能力表現(xiàn)的不同來源；確定評估任務(wù)性能的標(biāo)準(zhǔn)，例如漢語口語的清晰度和節(jié)奏、連貫和銜接等，這些都是在進(jìn)行最初的任務(wù)設(shè)計時要考慮的部分。

在任務(wù)設(shè)計時還有一個重要的步驟就是盡可能多地列出每種子能力要求的證據(jù)來源，支持判斷子能力所需的觀察，這可以用來判斷任務(wù)的適當(dāng)性。傳統(tǒng)設(shè)置任務(wù)的方法是建立語言使用者需要的任務(wù)列表，從中選擇一些有代表性的任務(wù)，但是這些依賴特定領(lǐng)域中專家的知識、經(jīng)驗、技巧，具有較強(qiáng)的主觀性，缺乏實際的證據(jù)來支持測驗題目和所要測量的心理結(jié)構(gòu)之間的關(guān)系[12]。因此，在進(jìn)行漢語口語任務(wù)設(shè)計時，應(yīng)該結(jié)合漢語本身的知識以及認(rèn)知心理的任務(wù)，提取子能力對應(yīng)的漢語口語表現(xiàn)行為。另外，由于口語測驗任務(wù)是基于證據(jù)來源這樣的設(shè)計特點，受試者在某個技能或知識上的強(qiáng)弱能夠通過每項任務(wù)體現(xiàn)出來，學(xué)生和教師就能夠有針對性地強(qiáng)化，進(jìn)而促進(jìn)學(xué)生的學(xué)習(xí)和教師的教學(xué)。

基礎(chǔ)的任務(wù)設(shè)計完成后就需要將這些任務(wù)具體化，使用任務(wù)模型能夠?qū)⑷蝿?wù)的特征展現(xiàn)出來，使命題以及評分更具邏輯性。漢語口語命題者可以根據(jù)任務(wù)模型中要求的固定不變的任務(wù)性質(zhì)選擇真實的口語材料，在這個前提下可以選擇不同類型和主題的文本。固定的任務(wù)性質(zhì)決定了評分的規(guī)則，那么每一項任務(wù)采用總體等級評分還是分項客觀指標(biāo)評分或者其他方式就有了依據(jù)。

想要知道漢語口語水平測試在多大程度上測到了想要的口語能力，測驗任務(wù)是關(guān)鍵。口語測驗任務(wù)可以分為開放式任務(wù)和架構(gòu)式任務(wù)[13]，初級的漢語水平學(xué)習(xí)者口語又可以分為“聽-說”模式和口語獨白模式[14]，從中可以看出測驗任務(wù)由于本身特點以及語言水平等相關(guān)因素具有復(fù)雜性，TOEIC 的口語任務(wù)設(shè)計提供了一個具有邏輯的框架，對漢語口語測試的開發(fā)具有重要的參考價值。