大規模英語口語考試評分質量保障體系建設

2024-01-01 00:00:00夏偉蓉唐俊楊林李巍

西南交通大學學報(社會科學版) 2024年4期

摘要：大規模外語口語考試在線評分質量體系建設是一項系統工程，也是保障評分信度和可靠性的關鍵環節。在全國大學英語四、六級考試（CET）在線評分流程頂層設計指導下，三維度在線評分質量保障體系將口語評分過程中樣卷及培訓卷挑選流程、評分員培訓流程、評分過程動態監控流程三個不同層面的子系統一環扣一環關聯起來，使標準化工作機制一步一步落到實處。該體系從宏觀和微觀的管理視角，自上而下而又自下而上地從不同層面對評分誤差進行控制，以降低評分中因評分員主觀因素造成的給分差異。CET-SET6在線評分實踐表明，該保障體系的實施提升了CET-SET評分信度和效度，有效保障了評分質量。該體系的建設也可為提高大規模、高風險考試在線評分信度、效度及質量管理水平提供一定的借鑒和參考。

關鍵詞：大規模口語考試；評分質量保障體系；CET-SET在線評分；培訓體系；動態監控體系

一、引言

評分質量高低關乎大規模考試分數的可比性和可解釋性，與命題、施測等環節一樣是保證考試結果公平公正的一個重要環節［1］。全國大學英語四、六級口語考試（College English Test-Spoken English Test，以下簡稱CET-SET）1999年開始施考，以兩位經過嚴格培訓和選拔的授權考官對3～4位考生面試的方式進行了13年。由于受場地及考官數量限制，每年考生規?？刂圃?0萬人左右。2013年CET-SET計算機網絡化考試在全國鋪開，極大提高了考試效率，降低了考試成本和組織難度，使大規模CET-SET考試成為現實。至新冠疫情前的2019年，考生規模已達到每年近百萬人［2］。新冠疫情后考生規模逐步恢復，在不遠的將來CET-SET會成為CET考試不可或缺的項目之一。

大規模口語考試評分的主觀性很強，其評分質量是保證考試信度和效度的關鍵環節。CET-SET 2013年實施網絡化在線集中評分至今已11年。近年來國內學者對口語考試評分質量從不同方面做了研究，成果主要集中在四個方面。第一，口語評分的效度［3～4］。張曉藝、金艷從交互構念理論視角設計了“按能力分項評分量表”和“按任務評分量表”，比較了兩種量表對評分結果以及對考試構念效度的影響［3］；王海貞用內省法收集TEM4口語評分員對評分過程的口頭反饋，檢驗了口試評分的構念效度，建立了一個影響口語評分和分數解釋的因素模型［4］。第二，不同評分方法對評分效果的比較［5～9］。此類研究的結論不盡相同。劉建達、呂劍濤從評分一致性和分數維度差異的角度考查了整體評分法（holistic scoring）和分析評分法（analytic scoring）的評分效果，發現用分析評分法“評卷員內部一致性較高”，而用整體評分法評分員容易出現趨中給分現象［6］；呂長竑等人以校本口語考試為例，比較了分解評分（analytic scoring）、整體評分（holistic scoring）、任務分項評分（item analytical scoring）的同質性、效度、信度和可操作性程度，發現整體評分法“操作性較強，效度和信度相對較高”［7］；張潔分析了PETS三級口語考試評分誤差程度和原因，發現整體評分法“對考生能力的區分度較弱”［8］，這一結論在一定程度上與劉建達、呂劍濤的研究結論吻合。這些不同研究結果說明哪種評分方法更適合大規模口語考試評分仍需深入研究。第三，口語評分者偏差及因素研究。此類研究將評分員作為考查對象，分析評分員自身一致性及誤差產生的原因，探索控制誤差提高評分質量的方案［9～10］。如戴朝暉、尤其達運用多側面Rasch模型，探討了校本大學英語口語考試評分者的寬嚴偏差及自身一致性偏差對評分效果的影響［9］。第四，口語機器評分系統驗證及可行性研究，探索人工智能評分的質量和準確性［2，11～13］。金艷等人以CET-SET4口語評分為例，對我國自主研發的科大訊飛智能口語評分系統進行了效度驗證，研究證明人—機評分結果有較好的相關性和分數等級分布一致性。由于人工智能評分技術還不成熟，研究尚不夠深入，仍有很多問題需要進一步驗證，目前人工智能評分在大規?？谡Z考試中尚不能代替人工評分，只能“作為人工評分的質檢或補充手段”［2］。

從上述研究可以看出，已有文獻對大規模口語考試評分質量保障體系建設的研究尚顯不足，尤其是針對CET-SET這種高風險全國統一口語考試，從評分信度的角度建立評分質量保障體系的研究很少。隨著CET筆試與口試一體化進程的逐步推進和實施，CET-SET必將成為CET必考項目，考生規模會越來越大，評卷任務也會越來越重。如何在全國有十多個評卷點，每次考試有二十多個不同題目的情況下，通過構建評分質量保障體系為CET-SET評分結果的一致性或可比性保駕護航？為此，本文以CET-SET-6在線評分為例，立足中國國情及CET-SET口語評分現狀，從宏觀和微觀的管理視角以及評分過程多維度保障體系構建視角，探討CET-SET評分質量保障體系建設，管窺其中不同管理層面的操作，以期為提高大規模、高風險口語考試評分信度、效度及質量管理提供一定借鑒和參考。

二、CET-SET三維度評分質量保障體系

建立評分質量保障體系總體模型是建構在線評分系統工程的第一步。該模型是在全國大學英語四、六級考試委員會制定的評分流程頂層框架指導下的延伸和完善，含三個子系統：專家挑選樣卷/培訓卷流程系統、評分員培訓系統、評分過程動態實時監控系統。每個子系統從評分的不同層面、不同關鍵節點把關，各體系相互關聯共同形成一個自上而下而又自下而上的保障體系，為評卷質量保駕護航，各個系統間的關系及作用見圖1。

圖1中CET-SET的文字評分標準體現的是該項考試的構念效度，是對考生口語能力做出的操作性界定，評分方法是實現的路徑；評分流程的頂層設計是為了使評分過程標準化、規范化和科學化，指導三個子系統的科學運作；專家挑選樣卷及培訓卷體系的作用是為評分培訓提供參考；評分過程動態監控體系則對評分員在評分過程中出現的各種偏差進行實時監控。

三、CET-SET6考試內容、評分標準及評分方法

（一）考試內容

CET-SET有四級和六級，級別不同考試內容也有所不同。以CET-SET6為例，考試內容含自我介紹、回答兩個問題、個人陳述及雙人互動（討論），其中自我介紹是考生熱身項目，不在評分范圍內，實際評分任務類型有四個，詳見表1。

（二）評分標準

CET-SET6和CET-SET4的評分標準都是以大學英語課程教學要求（指南）中衡量考生能力水平的尺度為依據，是考試構念的操作化定義，也是控制評分誤差及評價培訓質量不可缺少的基本環節和前提?？谡Z評分中，評分員對評分標準所測構念的理解是否一致、對評分標準的把握是否準確和穩定直接影響評分信度和質量。

CET-SET6和CET-SET4評分標準都包括三個維度，即語言的準確性和范圍、話語的長短和連貫性、語言的靈活性和適切性，分別涉及語言表達、語篇組織及語用能力。其中語言表達包含語音、語言準確度和復雜度，對語音的評判則采用英語通用語的觀點，允許考生有不影響理解的母語口音；語篇組織維度包含語流長短，內容的相關度、豐富度和連貫性，發言中停頓的頻度和長短；語用維度包括考生發言是否與語境相適應、是否積極參與討論、討論中的貢獻及發言中有效信息量、交際策略的使用等。每個維度滿分5分，采用2～5的評分量表，最小間距為0.5分，共15分。三個維度的加權值依次是1.2、1.0、0.8，由評分軟件根據評分員所給分數自動加權計算后形成從A+到D的不同等級。

（三）評分方法

不同評分方法對評分效果會產生程度不同的影響［5～8］。CET-SET6和CET-SET4均實行分解評分法與能力等級評估相結合的方法評分。分解評分法（analytic scoring）指評分員從不同維度對考生的口語水平進行評分，再根據每個維度的得分計算總分。能力等級評估法是一種整體評分法（holistic scoring），指評分員依據評分標準，根據自己對考生口語水平的總體印象和判斷給出能力等級。能力等級評估法采用“能做”描述語，從能做什么到能做到什么程度進行整體評估，評判考生“運用語言能力能夠完成的任務及任務的完成程度”［14］。CET-SET6能力等級描述與CET-SET4的等級描述不同，CET-SET6更注重考生對深層觀點及情感表達的程度，而CET-SET4則主要考查考生對某一事情的敘述。CET-SET6能力等級描述見表2。

分解評分從微觀視角觀察考生不同維度的具體表現，能力等級評估則從宏觀視角對考生口語表達的整體水平進行評判。兩種評分方法的結合可以彌補各自的不足。例如，因評分員側重評分維度的不同方面或對評分標準的理解有偏差而產生的誤差，通過對考生的表現進行整體能力等級的定位，可對分解評分的某項給分加以微調，以更加客觀反映考生口語能力水平等級。

四、CET-SET評分標準化流程體系

（一）評分標準化流程設計

作為大規模全國統一口語考試，CET-SET評分流程的設計關乎整個評卷質量的上層構筑，是評分過程標準化、規范化建設中的關鍵，也是最大限度提高評分信度的基礎保障。

2007年CET筆試作文及翻譯題實施網絡化在線評分。為了做到分數跨考次、跨題目、跨時間、跨評分點之間的一致，四、六級考委會專家制定了一套標準化評分流程［15］作為CET主觀題評分質量保障體系的頂層設計（見圖2）。實施以來該流程體系在CET作文和翻譯題評分中不斷改進和完善。2013年CET-SET實施在線集中評分，同樣嚴格按照該流程操作，在工作程序和組織形式上有效保證了CET-SET在線評分的科學落地。

上述流程中的六個模塊分別代表六個不同的關鍵質量控制點。上層三個模塊與評分者的直接參與有關，下層三個模塊對評分結果產生的系統誤差進行調整，與計量學技術的運用及數據等值處理有關。這六個質量控制點圍繞評分結果的一致性和分數的等值，一環扣一環步步遞進，共同構成CET-SET評分質量保障體系的頂層設計，使評卷過程程序化、標準化。其中上層三個模塊（即挑選標準樣卷和培訓卷、閱卷員培訓和試評、評卷的實時質量監控）為下層三個模塊（即閱卷點數據分析和處理、試題之間分數等值處理、考次之間分數等值處理）提供評分結果的數據，對評分信度有直接影響，也是下層三個模塊質量保障的前提和基礎。每個模塊關注評分過程中不同的關鍵要素，各自均有不同的標準化工作程序，六個子系統既相互關聯，又相互影響，對保障CET-SET4、CET-SET6口語評卷的整體質量共同發揮作用。

由于計量學統計分析及數據等值處理不在本文研究范圍內，下面將聚焦樣卷及培訓卷挑選工作流程、評分員培訓體系及評分過程質量監控體系三個子系統的構建，討論與評分者直接有關的CET-SET口語評分質量保障體系建設和運作機制。

（二）樣卷及培訓卷挑選工作

專家依據評分標準選定的樣卷和培訓卷是決定評分培訓質量的關鍵，也是控制評分誤差的第一個重要環節，關系到不同試題之間、全國不同評卷點之間評分結果是否一致、是否有可比性的問題。這一環節的工作為評分培訓提供與CET-SET文字評分標準描述的等級相對應的樣本卷及培訓考核卷，為評分員正確理解評分標準、有效控制評分誤差提供幫助。目前每年CET-SET上半年、下半年各考一次，每次四級、六級口語各考一天，每天11場，每場換一套試題，也就是說，每次考試各有11個平行試題。全國有11個口語評卷點，通常一個評卷點只評閱一個試題，隨機分配。這樣做的好處是可以提高評分的穩定性，避免因題目難易度差異導致評分誤差，也為后期分數統計等值處理提供相對可靠的數據。CET-SET4、CET-SET6挑選標準樣卷及培訓卷的工作由全國大學英語四、六級考委會組織實施。遵循一致性原則，工作程序分為專家按試題選卷、小組討論樣卷等值、全體討論樣卷等值、考委會專家審定四個標準化環節（見圖3）。

樣卷（Range-finders）是遵照CET-SET文字評分標準描述從大量考生實考錄音中挑選出來的參照卷，分為A、B、C、D四個不同等級，作為與文字標準匹配的樣本卷。培訓卷是選出的3～6組（每2個考生為一組）、一般覆蓋A+、A、B+、B、C+、C、D不同水平等級的培訓工作卷，其中包括處于等級臨界水平的卷子，用于評分員培訓時的試評和考核。

圖3流程中，每個專家首先按照各自評卷點要評分的試題，選好樣卷和培訓卷。之后進入小組討論，由組長組織專家對4個不同平行試題的樣卷是否等值提出意見，同時做出給分說明，凡是與評分標準不吻合的一律重新挑選再次討論，直到大家的意見一致為止。這樣基本做到了每4個平行試題、4個不同評卷點的樣卷等值。小組討論后，由考委會組織6個組22位專家共同討論所有樣卷的給分和等級是否跨試題等值?？紤]到實際評分中評分員在區別中等水平的考生時容易產生誤差，專家們重點討論處于中間段的B級和C級的樣卷，并對所給分數進行解釋，對照評分標準說明為什么會給這個分數，以進一步保障所選樣卷跨試題、跨級別（四級、六級）、跨評卷點的等值，為下一步評分員培訓打下良好基礎。

五、CET-SET評分員培訓體系

（一）評分培訓作用及原則

評分培訓是“訓練評分人前后一致地使用評分標準的系統過程”［16］，目的是減少因評分員的主觀認知差異產生的評分誤差，增強評分員自身、評分員之間、評分小組之間評分結果的一致性，幫助評分員能一致正確地理解評分標準，在評分過程中始終激活評分標準并正確使用。徐鷹、曾用強提倡評分培訓既要重視評分結果的一致性，也要重視培訓的過程［16］。培訓不是一勞永逸的，要提升培訓質量應遵循三個并重的原則，即評分結果的一致性和評分過程并重，自上而下的集體培訓和自下而上的個性化培訓并重，首日培訓、中期培訓與持續培訓并重。

（二）評分培訓類型、過程及流程

本著上述原則，CET-SET的評分培訓體系中包含四種不同類型的培訓：一是評分前一天的大組長先期培訓，為次日的培訓做準備；二是評分首日的評分員集體培訓，這是自上而下的集中培訓；三是評分第二天的小組中期培訓，目的是強化對評分標準的理解，減少因評分員個體特征或背景差異造成對評分標準定位的“脫靶”現象，提高評分的一致性和準確性；四是貫穿評分全過程的個性化持續培訓，這是一種自下而上的針對性互動性培訓。這四類培訓均與評分質量監控體系緊密相連（見圖4）?？紤]到線上評分時評分員戴著耳機工作強度大，容易產生疲勞，目前CET-SET評分一般持續2天左右，每天評卷時長不超過7小時。

1. 大組長先期培訓

評分組大組長是CET-SET評分質量保障體系中的關鍵人物。大組長人選是從多次評分中認真負責、評卷質量優秀、情緒穩定、有協調能力的杰出評分員中選拔的。大組長一般有較長時間大學英語教學經歷，對CET-SET評分標準的理解透徹，有豐富的口語評分經驗和評分策略，更重要的是有能力服眾，即評分組員對大組長有充分的信任感，對大組長的意見比較重視。

大組長先期培訓對保障組間評分一致性有較好的作用。評卷工作開始前一天，評卷點點長組織大組長先期培訓，時間為1.5～2小時。培訓步驟及內容如下：第一、點長總結上一次評分質量并指出問題，將此作為本次評卷的參考。第二、評分員熟悉所評題目、復習文字評分標準、對照各個等級的樣卷討論，統一認識。第三、評分員盲評專家提供的培訓卷（專家分數隱去），自己打分后對照專家所給分數和等級，比較自己的與專家的分數及等級的區別，做好給分說明記錄，以便在組內討論。第四、大組長對培訓卷進行更加合理的選擇和分類，目的是界定次日集體培訓的量。如果本次評卷中有經驗的評分員占絕大多數，培訓量可適當減少，如果新手較多，培訓量要適當增加。大組長根據評分員結構情況從專家提供的4～6組培訓卷中選出最有代表性的2～3組作為評分員首日培訓必需試評或考核的材料，其余2～3組作為個性化培訓材料放入評分系統中另一個欄目備用，在后續的分組中期培訓或個性化持續培訓時選用。

2. 評分員首日集體培訓

評分員首日集體培訓采用自上而下的模式，時間約2～2.5小時。首先，點長通過局域網聯機模式連接各個評分組工作的教室，重申安全保密條例，總結上次評分質量，表揚評分質量高的評分員（宣布獎勵政策），發揮“榜樣的力量”，指出發現的問題并提醒大家注意。之后由大組長組織本組評分員分組培訓。培訓步驟及內容如下：第一，熟悉所評題目和內容、理解并討論文字評分標準的描述及內涵。第二，學習和討論樣卷，對照文字評分標準講解并討論專家的給分及等級。第三，全組評分員各自獨立試評一組培訓卷（隱去專家給分）并在網上提交自己的給分。待本組所有評分員完成后，組長公布專家的給分及等級，檢查本組評分員給分的等級差異，針對差異較大的給分結合評分標準及樣卷進行小組集體討論和交流，使評分員及時調整自己與評分標準的差距。第四，組織本組評分員繼續對第二組及第三組培訓卷進行兩輪考核式評分，組長進一步組織討論，統一大家的認識和定位，評分員再次調整或縮小自己與評分標準的差距，為實際評分中判分的一致性打下基礎。第五，考核過關的評分員經大組長允許可以開始正式評分。第六，對仍有問題的評分員由大組長個別“約談”，面對面進行個性化、針對性培訓，合格后方可開始正式評分。

3. 評分員分組中期培訓

評分員分組中期培訓既有半針對性的性質，也有階段性校正的特點，一般在第二天開始評分前進行。經過首日培訓及評分后，大組長及專家通過評分系統提供的實時反饋數據及自己的抽查和評估會發現一些針對性問題，例如有的評分員在不同方面對標準的把握有自己的側重和偏移，有的給分寬嚴程度有差異、有的有趨中給分等現象。中期培訓在大組長主持下，首先針對本組前一天評分情況進行簡要小結，指出具體問題。然后重溫標準樣卷，尤其是對中間的B級和C級兩個等級的區別和判斷進行討論，以減少部分評分員對高于或低于平均水平的考生仍評為中間分值這一現象。討論之后選擇一組事先準備好的備用考核卷進行培訓，評分員進行針對性自我調整。中期培訓的時間比較短，一般20～30分鐘，目的是讓本組評分員通過回顧樣卷及再次試評進一步熟悉和定位評分標準，擱置自己的主觀經驗，逐步學會并能夠始終一致地運用評分標準，從而提高自己在評分期間保持高水平評分質量的能力。

CET-SET評分實行“隨機分配雙評+仲裁”的工作方式。每組兩個考生的口語錄音被隨機分發給兩位評分員背對背給每個考生評分，若二人給分誤差在允許范圍內，該考生得分則取二人所給分數的平均分，如果給分差值大于等于2.5分，即雙評差值閾限≥2.5分，評分系統會自動將該考生的兩個得分納入仲裁程序，由專家重新給分，專家給分為最后得分。專家仲裁后被“淘汰”的那個評分由系統自動記錄為“無效卷”，評分員無法獲得“無效卷”的評分酬勞，這樣做的目的是提醒評分員認真嚴格按照評分標準評分，要對每一位考生負責。實踐證明，20～30分鐘的中期培訓效果很好，培訓后評分仲裁率明顯下降。表3以 CET-SET6兩個考次實考評分的仲裁率情況變化為例，說明中期培訓的作用。

S212考次新手評分員的占比為40%，首日培訓后進入正評，S212考次評分仲裁率（5.86%）明顯比無新手評分員的S222考次評分仲裁率（4.08%）高。經過中期培訓，S212考次仲裁率為4.83%，下降了1.03%，這是不小的進步。S222考次中期培訓后評分仲裁率為3.62%，下降了0.46%。表3的數據說明中期培訓對提高評分質量是有效的，同時也說明在新手評分員比較多的情況下培訓任務及難度會增加，因此在選擇評分培訓的量和步驟時應把新手評分員的占比作為一個重要因素來考量。

4. 個性化持續培訓

上述培訓并不能消除評分員自身的嚴厲度差異，也不能保證評分員會完全一致地對照評分標準評分。因此，評分員集中培訓后的個性化持續培訓必須貫穿評分過程的始終，這是提高評分質量的另一層保障。個性化培訓建立在首日集體培訓和中期分組培訓的宏觀數據反饋及大組長/專家對評分員個體微觀抽查等動態評估的基礎上，與質量監控體系緊密相連，關注評分員在評分過程中行為的變化。這是一種自下而上的培訓，有互動性和針對性特點，對提高評分員評分自我一致性、減少隨機誤差、提高評分的準確性有較好效果。

個性化培訓步驟及內容如下：第一，通過抽查、分類及評估，鎖定需要持續培訓的個體目標及特征、確定評分員間一致性較差的個體、發現評分誤差較大的評分員、找出給分趨中的評分員等。這需要大組長及專家熟練運用在線評分系統提供的反饋數據，以及根據微觀抽查發現的問題，找到監控的關注重點，再針對個體評分員不同的評分行為及時糾正偏差。第二，根據不同情況采用不同的控制偏差的工作方式，目的是使這部分評分員能前后一致地使用評分標準。誤差產生的原因各不相同：有些因為評分員的不同背景因素，例如教學經歷、個人特點、認知方式等；有些因為對嚴厲度的把握有偏見而產生給分偏寬或偏嚴；有些則因為對評分標準的側重點有偏差；還有些與個人的責任心和工作態度有關。個性化培訓非?？简灤蠼M長及專家對不同類型的評分員誤差特征進行判斷的能力以及與評分員協調交流的能力。由于持續培訓結合了個性化反饋，對評分員減少評分過程中各種偏差、提高評分質量有很大幫助。

六、CET-SET評分過程動態監控

（一）監控體系的建構

在十余年的CET-SET在線評分中我們觀察到，經過幾輪嚴格培訓及糾偏之后，評分中一般不會出現較大面積的系統性誤差。很多誤差則來自評分員個體原因，產生“評分者效應”（rater effects）或“評分者漂移”（rater drift）現象［17］，即評分員自身的各種因素導致的評分不一致或評分波動引起的誤差。這一情況與趙海燕等人的研究結論吻合［18］。因此，通過建立科學的監控機制幫助我們及時發現評分過程中因評分者效應導致的各種動態誤差并進行針對性控制，對保障評分質量有十分重要的作用。

大規?？谡Z考試評分過程中的動態監控并不是評分大組長或專家隨意而行的事情。監控什么，如何監控，怎樣把關，如何及時準確發現評分員個體誤差、找到產生誤差的原因，運用哪些方法或策略進行針對性實時控制等，是擺在大組長及專家面前的挑戰，也是CET-SET評分監控中面臨的首要任務。為此，我們構建了一個評分過程動態監控體系（見圖5），該監控體系明確了監控中重要的質量把關點CET-SET的評分速度已由評分軟件自動控制。以CET-SET6為例，評分員不聽完所有應評分的四項任務則無法提交成績，無法進入下一組考生的評分。因此作為監控中關鍵質量把關點之一的評分速度控制沒有列在圖5的監控體系內。、界定了這些關鍵節點的主要監控維度及內容，并對評分誤差控制策略提出了建議，目的是提高監控的質量和效率、提高監控中控制誤差的有效性和準確性，指導大組長/專家進行監控及糾偏工作。

圖5中的三個工作模塊，分別代表該體系中三個關鍵要素，各自有不同的工作重點和目的，模塊間相互影響、相互關聯，共同對提高CET-SET口語評分過程的監控質量和效率發揮作用。其中“監控關鍵質量把關點”指向監控的主要內容及維度，目的是幫助大組長/專家鎖定監控重點目標；“監控方法”指向怎樣監控，目的是找到誤差產生的個體原因；“誤差控制策略”指向如何實施監控，目的是提高控制誤差的實效，把誤差控制到最低。

在監控的實操中有評卷點點長/專家層面的監控和大組長層面的監控。兩個層面監控的把關點相同，但側重點和作用不同。點長/專家的作用是掌控全局，既要從宏觀上對培訓質量和評分質量整體把關，避免出現整體性偏差，如組間評分一致性偏差、系統性給分過高或過低以及大面積給分趨中現象等，又要從微觀上監測評分過程中出現的典型問題和評分員自身的極端偏差及異常情況，提醒大組長注意，必要時直接與問題評分員溝通交流。大組長的作用是對本組評分質量負責，其監控內容更加微觀和具體、更加細致。大組長經常直接面對面與評分員交談討論，是評分質量把關的一線指揮官。

（二）監控中的關鍵質量把關點

CET筆試主觀題作文/翻譯在線評分都有考生的客觀成績作參考，有主—客觀相關成績的對比作為監控的整體質量考量參數之一，CET-SET則沒有，其監控體系中的關鍵質量把關點主要瞄準以下五個方面。一是組間一致性，即不同評分大組間的分數等級分布曲線一致性，避免出現局部性系統偏差。二是均分之差，即某位評分員的平均分與本組及全體評分員的平均分對比之差。及時發現給分過寬或過嚴的個體，根據均分之差衡量評分員對評分嚴厲度的把握。三是標準差，根據標準差判斷離散情況，即把某個體評分員的標準差與同組及全體評分員進行比較，標準差偏低說明有給分趨中傾向，偏高則說明有發散給分傾向。監控離散情況時同時要查看相關評分員的給分分布，準確定位某評分員的給分主要集中在哪個區間或哪個分數等級，以便針對性糾正。四是依據仲裁后的無效卷數量和百分比，判斷評分員能否前后一致地使用評分標準。需要注意的是，這四項監控指標都要在有一定閱卷量及統計數據的前提下才有意義。因此，評分前期的監控需參考培訓時記錄的數據及高頻抽查時鎖定的重點目標。五是評分員是否對評分工作認真負責。這一點對保障評分質量相當重要。評估時既要綜合考慮評分員的均分之差、標準差、無效卷率等多個維度的參數是否頻繁出現異常，又要多方面觀察其整體表現，例如是否常遲到早退、是否不負責任地打中間分等。對于責任心不強的評分員堅決不讓其再次閱卷。有數據作支撐加上多方觀察，可比較全面客觀地評價評分員的表現和評分質量，為建立評分員信息庫、優化評分員隊伍、淘汰不合格評分員、挑選優秀評分員、選拔未來大組長或專家型評分員提供可靠依據和參考。

（三）監控的方法

發揮數據的功效是CET-SET評分監控中必用的手段之一。有效利用實時數據可以將原來大海撈針式的、盲目的抽查劃定在一個有針對性的范圍內，使抽查變得更有目的性、更容易發現問題、更加準確鎖定重點抽查對象。但對數據的定量分析必須和針對性抽查的定性分析結合起來運用，只有這樣才能確認評分員產生個體誤差背后的深層原因。評分系統提供的數據是一組一組“冷漠的”量化數字和曲線，顯示的是評分員評分行為的某種宏觀傾向或趨勢，并不能顯示評分員在微觀層面自身一致性波動產生誤差的內在個體原因。因此，專家及大組長以數據為基礎的質性化抽查與分析是深入探究潛在誤差和確認誤差產生的深層原因的相當有效的方法。專家及大組長必要時可借鑒有聲思維的方法，及時進行一對一約談，詢問并傾聽評分員的給分原因，探明問題的隱性根源及類型，這樣才能針對性解決相關問題。例如，某位評分員“覺得這個考生的語音語調特別好，所以給了高分”，這表明該評分員對評分標準的理解有偏差，看重考生發音而忽視了評分標準的其他維度，如內容和切題性。另一位評分員認為“我平時教英語專業口語，要求高給分嚴，對四六級口語考試也容不得考生的表達有語法錯誤，所以給這位考生低分”，這表明該評分員還未從自己的背景和教學經驗中脫離出來，還未突破自我局限，以自己固有的標準代替了CET-SET的評分標準。還有一位評分員覺得“這個考生不停地在說，感覺挺流利的，就給了B級”。大組長與該評分員一起仔細聽錄音后發現該考生事先背了一些“模板句”，考試時將題目中的關鍵詞填進去，發言似乎“流利”，但連貫性差，內容空洞，適切性差，答非所問，這說明該評分員評分時比較草率，沒有仔細分辨考生發言的內容是否切題和連貫等。專家及大組長對此類評分員要特別注意，須加大后續抽查及個性化反饋—提醒力度，以防出現因責任心問題產生的誤差。此外，跟進式高頻抽查的方法可以幫助我們及時確認波動較大或存在問題較多的評分員在經過約談或提醒之后是否有改進。只有探明誤差產生的個體原因，才能使反饋信息更具體、更準確，使評分員充分認識到自己所存在的問題，從而提高誤差控制的實效。

（四）誤差控制方法

如前所述，CET-SET的評分誤差多來自評分員個體原因導致的評分不一致或評分波動引起的誤差，這也是控制誤差的重點。借助數據鎖定重點監控目標、通過抽查及約談探明誤差產生的潛在原因盡管對誤差控制很有幫助，但并不能保證誤差控制的效果，因此選擇控制誤差的方法和策略則非常重要。方式不對則效果不好，因為我們面對的評分員來自不同高校，其中不少有高級職稱，有自己的背景、教學經驗以及固有的心理認知模式，大組長/專家須根據不同類型的誤差和誤差產生的原因選擇不同的方法或策略，避免只用數據說話和用簡單的批評式方法糾正誤差，應針對不同的個體、不同的問題采用不同的方法，例如采用針對性約談、個性化線上反饋有針對性的問題、針對性再進行培訓/考核，以及對誤差大的試卷返回重評等方法，還可根據評分前期、中期和后期評分員的動態變化選擇適當的監控方法?？傊康闹挥幸粋€，即把誤差控制到最低。

七、結語及啟示

減少主觀題評分誤差是國內外學者長期不懈的研究課題，也是世界性難題。本文將大規模口語考試在線評分質量保障體系作為一項系統工程，運用歸納分析及個案分析的方法，從CET-SET6評分標準及評分方法入手，解讀了CET-SET評分標準化流程頂層設計，把評分質量保障體系中的三個子系統，即專家挑選樣卷及培訓卷工作流程體系、評卷員評分培訓體系、評分過程動態監控體系整合在一起，作為大規模英語口語考試評分質量保障體系建設的一部分。本文分析了這些體系中的主要工作模塊、工作流程和不同管理層面的操作，探討了它們如何相互關聯、相互影響，共同對保障大規模CET-SET口語評卷的整體質量發揮作用，進而有效地對評分誤差進行控制，提高CET-SET評分的信度和效度。期望本文能為進一步完善CET-SET評分質量保障體系提供參考，也為提高大規模、高風險口語考試評分質量管理提供一定的借鑒和參考。

參考文獻：

［1］羅娟，肖云南.高風險語言測試的公平性檢驗框架研究——以高考英語為例［J］.外語學刊，2018，（1）：86-91.

［2］金艷，王偉，張曉藝，等.大學英語四級口語考試自動評分效度初探［J］.中國考試，2020，（7）：25-33.

［3］張曉藝，金艷.評分量表對口語考試構念效度的影響：交互構念理論視角［J］.外語界，2019，（1）：61-70.

［4］王海貞.基于評分過程證據的英語專業四級口試效度研究［J］.解放軍外國語學院學報，2007，30（4）：49-53+68.

［5］金檀，劉力，郭凱.口語測試評分標準研究與實踐三十年［J］.現代外語，2016，39（6）：853-862.

［6］劉建達，呂劍濤.大規模計算機口試分析評分效度研究［J］.現代外語，2015，38（2）：248-257+297.

［7］呂長竑，宋冰，王焰，等.口語測試評分標準比較研究［J］.外語教學與研究，2008，40（6）：440-446+481.

［8］張潔.PETS三級口語考試評分誤差研究——結合定量統計和定性描述的方法［J］.外語測試與教學，2012，（2）：33-42.

［9］戴朝暉，尤其達.大學英語計算機口語考試評分者偏差分析［J］.外語界，2010，（5）：87-95.

［10］徐柳，蔡宏文.英語口語測試任務特征對評分員關注點的影響［J］.現代外語，2019，42（4）：540-551.

［11］呂鳴.智能測評技術在大規模英語口語考試評卷中的探索與實踐［J］.中國考試，2015，（10）：51-57.

［12］金艷，王偉，楊浩然.語言測試中的技術應用：基于大學英語四、六級考試的實踐分析［J］.外語測試與教學，2021，（1）：1-7，27.

［13］孫海洋，張敏.英語口語機器評分和人工評分的對比研究［J］.外語研究，2020，（4）：57-62+105，112.

［14］金艷，揭薇.中國英語能力等級量表的“口語量表”制定原則和方法［J］.外語界，2017，（2）：10-19.

［15］金艷，楊惠中.走中國特色的語言測試道路：大學英語四、六級考試三十年的啟示［J］.外語界，2018，（2）：29-39.

［16］徐鷹，曾用強.評分人培訓的研究現狀及展望［J］.中國考試，2014，（2）：10-18.

［17］Jing Huang，Gaowei Chen.Individualized Feedback to Raters in Language Assessment：Impacts on Rater" Effects［J］.Assessing Writing，2022，52（4）：1-14.

［18］趙海燕，辛濤，田偉.大規模教育考試作文評分的趨中漂移和不準確性漂移研究［J］.中國考試，2020，（3）：13-20.

Construction of Rating Quality Assurance System for Large-scale English Oral Test： Taking CET-SET6 Online Scoring as an Example

XIA Weirong， TANG Jun， YANG Lin， LI Wei

Abstract： Establishing a quality assurance system for online scoring of large-scale foreign language oral proficiency examinations is not only a comprehensive undertaking but also a crucial step in ensuring the reliability and validity of scoring. Guided by the overarching framework of the process for the College English Test （CET） in China， the development of a three-dimensional quality assurance system integrates various subsystems at different levels to ensure the selection of range finders and samples for rater training assessment， the online training of raters， and the dynamic monitoring of the scoring process. This systematic approach facilitates the step-by-step implementation of standardized mechanisms. From both macro and micro management perspectives， this system effectively controls scoring errors at different levels， thereby reducing scoring discrepancies resulting from subjective factors among raters. Practical application of this quality assurance system in CET-SET6 online rating demonstrates its effectiveness in enhancing the reliability and validity of scoring， consequently ensuring the overall quality of the scoring process. Furthermore， the construction of this system can serve as a model for enhancing the management of online rating quality in other large-scale， high-risk oral test scoring.

Key words： Large-scale English oral test; quality assurance system; CET-SET6 on-line scoring; rater training system; dynamic monitoring system

（責任編輯：陳艷艷）

基金項目：四川省教育考試院2021年重點科研課題“中國特色的大規模大學英語四、六級口語考試：四川省中心考點機考回顧及反思”（KSYZ20210006）

作者簡介：夏偉蓉，西南交通大學外國語學院教授，主要從事外國語言學及應用語言學研究，E-mail：kwxiao@139.com;唐俊、楊林、李巍，四川省教育考試院。

引用格式：夏偉蓉.大規模英語口語考試評分質量保障體系建設——以CET-SET6在線評分為例［J］.西南交通大學學報（社會科學版），2024，（4）：51-67.