主觀題網上閱卷員隊伍建設與誤差控制研究

2012-11-08 08:05:46劉建華郜國民劉華民

中國考試 2012年9期

劉建華馬睿郜國民劉華民

網上閱卷作為國家推進考試工作標準化改革的重要環節，在我國普通高考、成人高考、公務員考試、英語四六級考試等各類重要考試中已被廣泛使用。網上閱卷是利用高速圖像掃描與識別技術、網絡技術、大型分布式數據庫及大容量智能化的網絡存儲等先進的電子技術和計算機技術進行輔助評卷。在閱卷過程中，閱卷員直接面對由系統隨機分發的考生的答題信息圖像，并通過輸入設備給出考生的得分，由系統自動統計匯總，大大提高了閱卷效率，也極大的提高了閱卷的保密性。

網上閱卷消除了傳統閱卷過程中的非閱卷誤差，方便了閱卷管理，提供了閱卷質量監控的新手段，對于評分誤差的控制具有重要的現實意義。縱覽網上閱卷的全過程，在閱卷工作開始之前，做好閱卷員的遴選和培訓，將誤差控制的關口前移，是控制評分誤差的重點；在閱卷過程中，做好閱卷員的管理和閱卷質量監控，是控制評分誤差的關鍵；在閱卷結束后，建立閱卷員評價體系、模型，并基于閱卷員的原始表現，建立閱卷員信息庫，是控制評分誤差的支撐。

1 主觀題網上閱卷員的遴選和培訓

1.1 閱卷員的遴選

閱卷員的遴選是提高主觀題閱卷質量的基礎環節，同時也是最核心的環節，遴選出一批責任心強、業務水平高的閱卷員，并保持科學、合理的結構和比例，事關整個閱卷工作的成敗。在具體實踐中，管理科學中的履歷分析技術、勝任特征模型理論等人才選拔理論，是做好閱卷員遴選工作的有效工具。

1.1.1 勝任特征模型理論在網上閱卷員遴選中的應用

勝任特征模型也稱為資質模型、素質模型，是組織行為學和人力資源管理理論研究的前沿課題之一，其基本原理是辨別優秀員工與一般員工在知識、技能、社會角色、自我認知、特質、動機等方面的差異。在網上閱卷員遴選工作中，可根據勝任特征理論，以閱卷過程中積累下來的原始數據為基礎，總結分析在閱卷工作中表現優異的閱卷員的共性特點，結合網上閱卷工作的特點，構建網上閱卷員勝任特征指標體系，并通過理論研究、問卷調查等方法，對勝任特征指標進行賦值，建立網上閱卷員勝任特征模型。通過勝任特征模型的考核，讓綜合表現較為突出，適合網上閱卷工作的教師脫穎而出，并將其吸納到網上閱卷員隊伍中來。

1.1.2 履歷分析在網上閱卷員選拔中的應用

履歷分析是通過對評價者的個人背景、工作與生活經歷進行分析，來判斷其對未來崗位適應性的一種人才評估方法。通過履歷分析，可以對考察對象的各種素質尤其是外在型特征有一個全面的了解，為進一步選拔提供重要依據。在具體應用中，可通過專家訪談法和調查問卷法篩選、確定履歷分析的項目并確定其權重，在此基礎上設計加權履歷表。網上閱卷員履歷登記表應主要包括如下四個方面的內容：一是基本信息，包括姓名、性別、出生年月、民族、學歷、學位、專業、職稱、婚姻狀況等；二是知識和工作能力，包括受教育情況、職業經歷、接受培訓情況等；三是家庭和社會關系，包括家庭成員和主要社會關系的基本情況；四是品德素養，包括過去的工作表現、獎懲情況等。在網上閱卷員的履歷評估中，適用于履歷評估三大評估公式中的混合公式，即（其中P為錄取概率，A為個人基本情況得分，B為個人知識與工作能力得分，C為個人家庭與社會關系得分，D為品德素養得分。P、A、B、C、D的值域為0～100），其基本思想是可以容忍閱卷員工作能力、工作水平等方面的小缺陷，但對品德素養等實行一票否決。

1.2 閱卷員的培訓

扎實、有效的崗前培訓是確保閱卷工作平穩順利進行的根本保證，應從源頭抓起，切實做好四項培訓：（1）上崗培訓。主要包括思想政治教育、保密條例教育、工作責任感、榮譽感教育、閱卷紀律教育、業務知識培訓等。（2）試評培訓。主要包括：評分細則的討論、制定、閱卷系統的操作、試評卷和測試卷的評閱等。（3）質量控制培訓。主要包括試卷復評、抽查、退回、修改、問題卷處理等。（4）心理壓力和情緒調節培訓。主要包括放松訓練、腹式呼吸訓練、肌肉放松訓練、漸進式放松訓練等。

2 主觀題網上閱卷員的管理及閱卷質量監控

2.1 閱卷員的管理

閱卷期間，閱卷員的思想狀態、身體狀態、精神狀態、心理狀態的好壞直接影響著閱卷質量。為確保閱卷員能夠以最佳狀態投入到評卷工作中，在閱卷員管理方面可從如下方面開展工作。

一是要完善閱卷組織機構。可根據工作需要，在評卷工作領導小組下設綜合協調組、學科評卷組、評卷質檢組、技術服務組、后勤保障組、紀檢監察組、安全保衛組等機構，明確各工作組職能，確保評卷工作有序進行。二是要強化激勵機制。從物質、精神等多種方面，激發評卷教師的工作積極性，提高整體評卷效率。這里可引入斯金納的強化理論，綜合使用積極強化（如物質獎勵、精神獎勵、差異激勵等）和消極強化（如誡勉談話、退出機制、差異薪酬等），激發起閱卷員的工作熱情，營造積極、向上、和諧的閱卷環境。三是要引入心理干預。長時間高強度的閱卷工作，極易使閱卷員產生心理上和生理上的疲勞。在疲勞的狀態下，閱卷員很難保持注意力的穩定，進而會對閱卷質量造成重大影響，因此必須采用有效手段，調節閱卷員的狀態。（1）優化進度管理，控制閱卷節奏和進度。（2）進行心理輔導，幫助閱卷員克服驕躁心理、松懈心理、畏懼心理、同情心理、定勢心理等不良閱卷傾向。（3）尊重人體生物節律，合理安排工作時間。

2.2 閱卷質量監控

相對于傳統的閱卷形式，網上閱卷的最大優點是可以進行實時的質量監控。試卷評閱工作正式開始后，可以通過隨機抽樣、分段抽樣、自動抽樣、等距抽樣等方法對閱卷員的評卷質量進行抽查，對閱卷員的評分分布、平均分、標準差、有效度、評分一致性等數據進行分析，對閱卷員的評閱質量進行評估，進而確定需要重點抽查的對象，發現可能存在的閱卷誤差。

2.2.1 通過一致性檢驗發現誤差

一致性檢驗包括閱卷員自身的一致性檢驗和閱卷員之間的一致性檢驗。閱卷員自身的一致性檢驗主要是通過隨機抽取某一閱卷員已評試卷的一定比例，返回給該閱卷員重新評閱，比較兩次評分結果是否存在較大誤差。其目的是檢驗閱卷員在不同時段是否能夠保持評分的一致性和穩定性。閱卷員之間的一致性檢驗，主要是通過比較閱卷員之間的，以及閱卷員和閱卷組之間的評分分布、平均分、標準差等數據，檢驗和評價閱卷的閱卷質量。在具體閱卷工作中，主要通過監控閱卷員之間的一致性檢驗，控制評分誤差。

一是通過評分分布發現誤差。評分分布（比率）是對評過的一批試卷中某題得分所作的頻數分布（這一批分數可以是全體評卷員的評分，也可以是一組評卷員或一位評卷員的評分），即該題每個分數段的試卷份數所占已評試卷總數的比例，比如題組全體閱卷員一共評出了100份試卷，而其中得1分的試卷有10份，那么1分段的比例就是0.1。閱卷過程中，由于每個閱卷教師評閱的試卷是由計算機隨機分發的，因此在評出一定數量的試卷以后，每個教師閱卷的評分分布理論上應該與總的評分分布一致，兩者之間越接近說明閱卷的質量越好。

如果某位閱卷員的個人評分分布與總評分分布相差較大，就很可能是把握評分標準不好，出現了評分誤差。再進一步分析，如果是低分段比例過高或高分段比例過高，不太可能是其評閱的試卷都做得很差或很好，而可能是評分過嚴或過寬，偏離了評分標準，出現誤評（參見圖1、圖2）。如果是中間分數段的比例過高，那可能是給了“保險分”，即粗略看出解答既非全對也非全錯，就不再仔細判斷，而是隨心所欲的給一個中間分，這時誤評的可能性就更高了，而且高分誤差（≥2分的誤差）的可能性很大（參見圖3）。

圖1

圖2

圖3

根據評分分布，可以計算出每位閱卷員的評分偏離值，其計算公式為：將第j位閱卷員的評分偏離值記為Pj，Pj=第j位閱卷員的i分段比率-總體的i分段比率。

在閱卷過程中可以對每一道題目，設置一個評分偏離值上限。此上限可隨著閱卷進程適當調整。當某位閱卷員的評分偏離值大于評分偏離值上限時，計算機自動發出警示信息，提示質檢復查人員對該閱卷員進行抽查。

不過單純考查閱卷員的總體評分分布（比率）也有可能出現誤差，比如，評分忽高忽低時，其總體評分分布（比率）就可能是正常的。因此不能只看總體評分分布（比率），還應對閱卷員的分時段評分分布（比率）進行對比，例如以每300份試卷為一個分段節點，對閱卷員每個分段節點的評分分布（比率）進行考查，進而得出更加客觀準確的閱卷員評價。

閱卷過程中，通過評卷系統的查詢和過濾功能，可以非常方便的查看每位閱卷員的評分分布進而發現需要重點復查的對象，圖4、圖5、圖6分別為某年高考數學科目閱卷過程中，低分段過高、高分段過高和有評分趨中性的實證分析。

圖4 低分段過高

圖5 高分段過高

圖6 中間分數段過高

二是通過評分均值發現誤差。因為每個閱卷員每天評閱的試卷是隨機分發的，每個閱卷員每天的評分均值理論上應該和總體評分均值是一致的，且每個閱卷員每天的評分均值理論上是比較一致的，或者說上下浮動的振幅較小。具體實證分析見圖7、圖8。

圖7為某年高考數學某題，小組、全體和每一閱卷員在某一時段的每日評分均值曲線。

圖7

通過對比各閱卷員的每日評分均值曲線和全體的每日評分均值曲線，可以準確定位需要重點復查的閱卷員。

圖8為某年高考數學某題小組、全體和某閱卷員的每日評分均值曲線。

圖8

通過分析該閱卷員的每日評分均值曲線可以發現，該閱卷員評卷前期的每日評分均值均低于平均水平，后期則基本一致，這表明該閱卷在閱卷前期對評分標準把握的不夠好，評分過嚴，打分偏低。

2.2.2 通過綜合質量檢驗發現誤差

其主要方法是通過分析評卷質量列表的相關數據，鎖定重點復查對象，發現潛在的的誤差。

表1比較直觀的顯示了某年高考數學某題，在某時間段內每位閱卷員的完成量、被抽查量、被抽查率、被退回量、被退回率、被修改量、被修改率、通過量和通過率。

表2則顯示了該時間段內該閱卷組的總完成量、總被抽查量、總退回量、總被修改量、總通過量以及平均完成量、平均被抽查量、平均被抽查率、平均退回量、平均被修改量、平均被修改率、平均通過量和平均通過率。

表1

通過對比分析上述數據，閱卷組的平均被修改率為1.25%，而閱卷員pc0301009的被修改率高達13.17%、閱卷員pc0301010的被修改率為2.38%，遠遠高于平均水平，在復查時間有限，無法實現百分之百復查的情況下，需重點復查以上2位閱卷員。

需要注意的是，不論是評分分布曲線、平均分曲線，還是每日評分均值曲線、評卷質量列表，以及標準差曲線、每日評分標準差曲線，都只能從一定程度上反映出閱卷員的閱卷質量。只有綜合考核以上幾組數據才能比較全面客觀的得出閱卷員總體評價。進而發現需要重點抽查的閱卷員，也可相應的為閱卷員信息庫建設、專家型閱卷員的選拔提供可靠依據。