網上評卷評分誤差源起及控制路徑選擇

2020-10-27 05:44:15楊帆鄧欣

教學與管理(中學版) 2020年6期

楊帆鄧欣

摘要：網上評卷是當前技術環境下教育考試領域的主流評卷方式，是教育考試評分過程中的關鍵抓手。本文對網上評卷誤差來源進行了審視分析，發現標準答案和評分細則制定的科學性程度、評卷教師的專業素質以及評卷過程的組織管理因素是評分誤差的三個重要來源。結合工作實踐并通過調研交流等方法歸納出了降低網上評卷誤差的有效策略，為準確高效地開展網上評卷工作、實現考試公平公正提供條件保障。

關鍵詞：網上評卷? 誤差來源? 誤差控制

一、網上評卷誤差控制研究背景

隨著網絡技術的高速發展和圖像掃描裁切技術的飛躍式進步，教育考試領域開始廣泛采用網上評卷模式。其中，客觀題一般直接利用OMR[1]（光標閱讀機）識別技術由計算機對應涂點信息進行批改判分;作答在答題卡上的主觀題答題經圖像信息采集、切分、校驗等過程處理后轉化成為電子圖像，通過網絡隨機分給評卷教師進行在線判分，評卷工作全部結束后，在數據庫內對分數進行合并計算，得出考生最終考試成績。

作為新興評卷方式并迅速得到推廣應用進而取得主導地位，網上評卷具有諸多顯著優勢：第一，有利于信息的安全保密。網上評卷減少了答題卡流轉環節，評閱對象為任務題目的作答圖像，剪除了其干預非任務題目的可能。且作答圖像自動屏蔽考生信息，判分完成自動提交，避免了暗箱操作造成的公允偏失，增強了流程控制的安全性。第二，有利于提高評卷效率，縮短工作周期。網上評卷省略了答題卡翻閱、簽名、退卷等步驟，評卷教師只需在計算機上登錄評分系統，利用鍵盤進行打分、切換等操作，方便快捷高效。計算機自動完成分數記錄、加總、復核等環節，避免了人工統分的低效失誤。第三，有利于提高評閱質量，降低評分誤差。每位評卷教師的判分過程和結論不受他人影響和干擾，完全獨立開展;同時通過質量內控措施及多渠道質檢等手段，可以關注每個個體工作開展情況，及時糾正偏差。第四，考生答題卡原始圖像信息和評卷數據易存儲、易統計、易分析，一方面有利于教育考試部門利用數據挖掘技術更有針對性地優化試卷內容，另一方面有利于根據評卷過程表現，逐步篩選創建專業化高素質的評卷教師數據庫。

雖然網上評卷已然成為教育考試實施過程中的重要抓手之一，但并不意味著新舊評卷模式轉換后評卷誤差問題得到了根本性的解決。厘清影響評卷誤差的主、客觀因素，探索能夠降低乃至解決評卷誤差的有效措施，是本文研究的重點問題。

二、網上評卷誤差源起審視

標準化考試題型一般包括客觀題和主觀題兩種，本文所說評卷誤差主要是指主觀題評閱中出現的誤差，即評卷教師判斷下的考生得分和能反映考生真實水平的分數之間的差異。評卷誤差控制是根據考試的性質、目的和要求，通過各種途徑糾正命題、考試過程和評分過程中出現的誤差[2]。評分誤差的影響因素主要有以下幾種。

1.標準答案與評分細則的局限性

評卷專家組根據試題特點、標準答案制定可參考性、可操作性強、便于推廣應用的評分細則，評卷教師以評分細則為參考和指南對主觀題進行評分。因此，標準答案以及評分細則能否完整真實地反映出試題考察的目的指向，并且通過評卷過程準確地在考生得分上體現出來，是傳統評卷方式和網上評卷方式共同面臨并亟待解決的問題。

標準答案與評分細則的科學性程度帶來的誤差在以下兩種情形中表現較為明顯：一是二者具有高度概括性和抽象性。主要見于作文題等題型，考生的答案多樣性明顯，評卷教師對評分標準又難以把握，自由裁量空間大，主觀偏好作用強，難以自始至終把握同一評分尺度。二是二者描述過度詳盡，要點設置過多。主要見于主觀性較高的分析題等題型，此類題目得分點多，總分值高，計分方式復雜，考生的答案冗長并且要點不明顯，評卷教師難以順利找出所有得分點并統籌衡量評分，由此帶來評分誤差。

2.評卷教師業務能力的差異性

評卷教師專業素質是否過硬、教育培訓水平的高低以及認知風格決定了對評分細則的把握程度以及運用的持續一致性，是影響評卷誤差的關鍵。評卷教師必須熟悉評卷科目涉及的專業知識，具備過硬的專業能力，才能夠正確把握試題的命題意圖、考察的知識方向，從而科學靈活地評價考生答案，合理判斷并準確賦分，避免嚴苛呆板的機械給分。

3.評卷過程中心理因素的誘導性

評卷教師基于“理性人”假設的前提被選拔參與評卷工作，然而他們除了具有相同的知識背景、文化傳統等共性要件，還具有不同的成長經歷、欣賞習慣、心態情緒等個性因素。不同評卷教師甚至同一評卷教師在不同階段，都可能因個人原因導致評分差異，其中，個性因素導致的評卷教師的心理差異是導致評分誤差產生的最主要誘因。

（1）排位效應（ranking effect）

在評卷過程中，即使是同一位評卷教師評閱同一份答卷，在不同的評閱時間段，也會出現分數上的細微差別，這種差別和試卷呈現的位次有關，我們稱之為“排位效應”。排位效應是大腦因信息接收順序不同而影響認知的一種表現。一般來說，評卷教師評分行為往往存在先評較松，后評較嚴的趨勢，我們稱之為“首因效應”。如果一位教師在連續評閱多份質量較低的答卷之后，系統分配給予一份要點較為完整的答卷，那么該份答卷評分可能偏高。反之評分可能偏低，我們稱之為“近因效應”。

（2）再認識效應（rerecognition effect）

從整體來看，每位評卷教師的心理素質、業務能力是相對穩定的，但并不是一成不變的，人們對于事物或過程的正確認識，往往需要經過多次的再認識過程才能確立。在評卷過程中，隨著評閱試卷數量的增多，不同考生的回答內容、方式會反作用于評卷教師的思維，其對于評分細則的理解將連續不斷的深化和更新，我們稱之為“再認識效應”。這種過程性理解的進階差異，會對評分的一致性帶來一定程度的影響。

（3）暈輪效應（halo effect）

暈輪效應又稱光環效應，是指評卷教師對考生作答形式或內容的某一方面特征形成好的印象后，擴大到對考生作答整體的評分中去，以偏概全地打出分數。字跡干凈整潔、字體規范美觀的作答往往能夠取得良好的評分印象，此類試卷最終判分結果往往高于單純依據作答內容給予的評分，這是評卷中典型的暈輪效應。

（4）疲勞效應（fatigue effect）

評分教師在長時間高強度的評分工作后，情緒和動機都會減弱，感到身體疲勞、精力不足，評分責任心、使命感有所下降，績效水平降低，導致評分一致性變差，評分準確性降低。

（5）趨中性傾向（neutral tendencies）

有研究表明，隨著評卷工作的進行，同一位評卷教師評卷速度、出分率等會提高，但是會出現趨中評分傾向[3]。趨中評分傾向指評卷教師在評卷過程中分數整體集中在中間分數段上下小幅度波動。趨中評分這種帶有“平均主義”色彩的評分策略有利于評卷教師規避評分不一致的風險和爭議，順利通過評分一致性檢驗，但是將直接導致評價效度降低，影響考生真實水平的呈現，帶來評分誤差。

（6）極端性傾向（extreme tendencies）

對于部分評卷教師，一旦接收到存在趨中評分傾向的監控反饋后，可能會出現矯枉過正的現象，即弱化評分標準的一致性，評出一定量的高分或者低分改善趨中評分趨勢。此外，在作文等主觀性較強題目的評閱中，評卷教師會受個人情感體驗、文化認知、生活經歷等因素的影響，對考生作答內容產生情緒共鳴或抵觸，從而打出過高或過低的分數。

（7）異化的目標追求（the pursuit of alienation）

網上評卷系統可以提供實時單題評閱進程分析數據，通過對比評卷教師單體打分結果和整體判分分布、平均分、標準差等數據，來監控評卷教師之間的評分一致性，確保評卷質量。當個體判分游離于預設準允偏差值上限之外，電腦會自動發出警報信息，提醒質檢組對該教師的打分進行檢查。這種評分一致性實時監控促使評卷教師的關注點下意識地從最重要的目標“真分數”轉移到了“評分一致性”上面來，從而產生了“快且一致”的不合理目標追求，明顯偏離了評卷工作的初衷。

4.評卷流程組織管理的專業性

有學者認為，評卷教師自身或評卷環境的問題所帶來的影響是有限且可控的;但是如果計算機系統或者管理上出了問題，網上評卷所帶來的保障就失去了應有的作用[4]。評卷工作往往時間緊、任務重、責任大，這對評卷教師個人的能力素質提出了高要求的同時，管理人員和管理模式的專業性水平也面臨著極大的挑戰。不舒適的評卷環境、不合理的組織規程、不科學的工作模式、不完備的督查措施、不順暢的交流溝通等必然帶來評卷教師的不適感受，從而降低評卷質量，加大評卷誤差。

三、網上評卷誤差控制措施

為提高評卷質量，保證考試信度，必須以評分誤差控制為核心標的，建立科學有效的防控管理體系，通過有效的流程控制和過程管理，使評分結果能夠準確反映出學生的真實水平，發揮出考試在選拔和評價中的甄別作用。

1.科學制定標準答案與評分細則

科學合理的標準答案和評分細則是評卷教師在評卷過程中最重要的參考，是實現評卷公平公正的先決條件。標準答案應盡可能多地涉及回答角度，清晰詳細地羅列答案的基本結構框架、重點內容，方便評卷教師了解題目考察意圖并初步判斷試題的難易程度，并制定評分細則。評分細則要根據題目類型細化評分量表，給出每道題目的滿分、得分、扣分規則等。一般來說主觀題評分細則類型可以分為三類：分級評分、分步評分和要點評分。分級評分適用于主觀性強、開放性大的題目;分步評分適用于答題步驟明確的題目;要點評分適用于主觀性較強、半開放式的題目。

2.建設高素質評卷教師隊伍

評卷教師必須具備較高的專業素養，這是保證閱卷信度和效度的前提。一般在教育考試中，評卷教師的選聘應當遵循“從相關專業正式教師中選聘”的原則，應符合“有規定年限教學經驗并滿足職稱等級要求;具備所評科目的專業知識;責任心強、作風正派、遵守工作紀律、身體健康;無直系親屬參加考試;熟悉計算機操作技能”等條件。

嚴格的選聘控制能夠初步淘汰不適合網上評卷的教師，但并不等同于選拔出的人員都能夠優秀地完成工作任務。部分評卷教師對網上評卷工作不夠熟悉，應對困難和挑戰的準備不足，單憑個人理解掌握評分要求不準確，仍然不能滿足評卷工作需要，因此遴選結束后必須做好配套培訓工作。

3.合理設置評分方法

（1）明確多評控制標準

多評機制是控制評分誤差的有效方法。雙評由兩位評卷教師進行獨立評分，所評分數之差為雙評差值，其允許存在的極限差為雙評差值閾限。當雙評差值小于閾限時，評卷系統以兩位評卷老師的平均值作為最終得分。當雙評差值大于雙評差值閾限時，該答案分發給第三位評卷教師進行三評。

《國家教育考試網上評卷統計測量暫行規范》規定：“評分過程中，雙評差值閾限一般不能大于題目滿分的1/6。”一般情況下將題目滿分的1/6～1/5作為實操過程中的最大允許上限。但是僅有差值閾限最大值的限制性不足以滿足評卷誤差控制的操作需要。評卷專家組對不同考試題目的理解和誤差包容度不同，差值閾限的設置尺度并不統一。雙評差值閾限應盡可能詳細地提供差值閾限設置采用的計算方式方法，而不是僅僅提供上限值。研究顯示，在相同信度水平的條件下，測驗分數分布（尤其是標準差）決定著差值閾限的大小，評分差值閾限的基線值應為1.24倍的標準差[5]。

（2）合理設置單題時限

使用技術手段在網上閱卷系統內設置主觀題最低瀏覽時間，能夠有效防止評卷教師追求高速草率打分的現象發生。在實際操作過程中，要注意時限長短要與單題分值、要點數量、評分的難易程度等正向匹配。對于客觀性較強、考生發揮空間較小的主觀題或者無作答內容的試卷，為提高閱卷效率，避免不必要的時間浪費，可以不進行時間限制。

（3）重視試評的積極作用

在正式評卷前，試評是必不可少的前期準備工作。學科組專家根據不同題目類型、回答水平等挑選出一份或者幾份答卷進行集體討論、合理打分，之后將這些答卷自動分配到評卷教師計算機終端，評卷教師在不可視專家組打分情況下根據已掌握的題目要求、評分細則進行打分。隨后，組織評卷教師對比分析兩組結論，對專家組打分要點、評分思路進行細致研究和反復揣摩，體會不同分數等級的差異所在。通過試評，可以有效幫助評卷教師熟悉題目特點、考察方向、評分細則和操作系統，并檢驗個人對評分細則的理解掌握程度，從而調整給分策略使之更加貼近評分要求。

4.構建質量檢驗評價體系

為保證評卷質量，應綜合運用多種評測手段，建立多維度質量檢驗評價體系，實現對所有評卷教師的工作開展情況的追蹤和檢查，一旦發現異常，可提醒評卷教師及時修正，確保評卷工作高質高效進行。組成評卷質量檢驗評價體系常用的技術手段有評分結果分布曲線檢驗、評卷質量抽查、評分一致性檢驗、異常得分率檢查等。

（1）評分結果分布曲線檢驗

正常情況下，評分結果分布曲線應該呈現正態分布趨勢，通過評卷系統內置檢驗模塊調取個人和小組評分結果分布曲線并過濾出異常曲線，可以直觀對比檢查個人間和個人與小組間的差異，從而實現評卷質量異常檢查。

（2）評卷質量抽查

質檢組和學科組組長可以對已評試卷進行隨機抽樣，對評卷教師打分的恰當性進行人工檢查，對不符合評分細則和尺度的試卷采取返回重評處理，從而實現對部分偏離規則的評分予以糾正。

（3）評分一致性檢驗

單評或多評機制均適用于評分一致性檢驗。對于分值較低的題，可將已評閱的試卷再次發還本人，通過檢查兩次評分結果的差異是否在規定范圍內，來判斷其評分質量和穩定性。對于分值較高的題，可隨機分發給兩位不同的評卷教師進行評閱，如果評分差距在誤差控制閾值內，則評分具有一致性，分數取兩者平均分;如果超出閾值，則發給第三位教師進行評分，直到評分具有一致性。

（4）異常得分率檢查

雖然一份試題不同題目考察的知識點和方式不盡相同，但每位考生的水平是相對穩定的，主客觀題目得分率應具有一致性。通過對比相關題目的得分率，可以定位得分率存在較大波動的考生并進行重點檢查，從而保證考生成績的真實性和有效性。

5.強化評分過程反饋交流

在線實時監控模塊可以及時發現異常糾正偏差，但其效用應不止于此，異常反饋的過程不僅起到糾錯糾偏的作用，更能促進工作的交流互動，幫助個體人員以更宏觀的視角來把握個人工作開展情況，突破自我局限。如果能夠按照評分階段將平均分、平均評卷速度、標準差等數據適時地反饋給評卷教師，使其能夠了解自己以及整體的評分情況，從而及時調整評分策略，就能實現評分細則執行和評卷速度掌握的雙優化、雙促進，達到減少評分誤差的最終目的。

6.完善網上評卷組織體系

網上評卷工作組織體系包含了組織結構、工作模式、質量管理等多環節的布局設置，是評卷自身實施和發展的訴求。在組織結構上，可采用網絡型組織結構，并注重塔式角色分工。成立網上評卷工作領導小組作為管理機構，負責評卷工作的全面組織領導;下設評卷工作辦公室和評卷專家委員會，實行集體領導與分工負責管理模式，分別負責具體事項的組織協調和試卷評閱工作。在工作模式上，根據涉及學科劃分為多個學科組。學科組實行組長負責制，任命有學術權威、有組織能力、業內認可的老師為學科組長，具體負責本學科的試評、評卷以及與之相關的題組之間人員調配、總體進度控制、各項質檢參數設置等工作。在質量管理上，可單獨設置質檢組，負責對評卷教師的工作質量進行檢查并對異常卷進行處理。

7.嚴格網上評卷管理制度

合理的管理制度可以簡化管理過程，提高管理效率。在其適用范圍內具有權威性和相對穩定性，通過強制約束力作用的發揮可以保證工作的有序和高效運轉。

（1）日報告制度

每日定時工作例會匯報當天閱卷情況，及時妥善的處理遇到的困難和問題，以確保后續工作不影響、不間斷、不停滯。

（2）安全保密制度

充分利用人臉識別等現代化技術手段，確保將無關人員隔離在專用場地之外;明確工作紀律，確保評卷信息數據安全。

（3）獎懲制度

制定明確的獎懲規則，正面激勵的同時對違反要求的行為予以約束，避免其病態膨脹和失控。

（4）評價和總結制度

評卷工作結束后，各學科組要提交專業化的評卷報告，對命題等前置性環節提出合理建議。同時，還要總結考評方向，將評卷和教學研究、教學實際相結合，真正發揮評卷工作的積極作用。

參考文獻

[1] 高曉波，姜濤.基于邊緣檢測的OMR圖像傾斜矯正[J].長春理工大學學報：自然科學版，2011，34（01）.