高考語文閱讀主觀題評分方法對題目參數分析的影響

2020-04-25 09:52:44溫紅博

考試研究 2020年1期

溫紅博李峰

一、引言

主觀題和客觀題是教育考試中對題型的一種常見劃分方式（Miller，2009；張敏強，1998）。主觀題要求學生自己寫出認為正確的答案。雖然研究表明主觀題并未比客觀題提供更多的學生信息，也未涉及明顯不同的考查維度（Bennett，1991），但是主觀題更為廣泛地被教學一線接受。

研究者也將這種題目稱為建構性應答題（constructed-response items）。這類題目要求作出具有一定發散性和多元化的回答，能夠體現學生個人思考問題的方式并得出的獨特結果，這種作答的開放性便于測量學生對知識的分析整合、應用評價等能力。因而，這類題目受到高考試題開發者的青睞，成為高考的主要題型。同時主觀題由于開放的作答需要評分人員基于專業經驗主觀地評分，這為高考質量改進帶來了一系列的理論和現實挑戰。

主觀題首先面臨的問題是評分的分數意義。主觀題一般都是多級評分，通常設置一個總分，如6分，并根據學生的作答由評分者評分，但分數的意義可能存在多種不同的解釋。第一種分數是學生能力連續體的一個點，就像學生的身高數值一樣；第二種分數反映了學生答對知識點或掌握的技能個數，如“中國古代的四大發明是什么？ ”，評分為4 分；第三種分數是學生表現出來的能力等級水平。

其次是面臨的問題是評分方法。主觀題通常有三種評分方法：主要特質評分法、分析評分法和整體評分法（Sax，G.，Newton，J. W.，2011）。主要特質評分法以答案達到的特質程度評分，整體評分法根據作答的整體水平評分。這兩種方法由于對特質和整體的描述比較空泛難以客觀操作，評分者的主觀判斷對評分結果的影響較大，評分者信度較低。實踐中主要采用分析評分法，即所謂的“采點”評分。考試實施中一般會列出參考答案，評分者主要根據參考答案中給出的“得分點”進行“采點”評分，學生分數隨著作答得分點的增加而升高。

目前高考主觀題評分同樣存在這兩個問題：一個是分數的意義，將主觀題得分視為等同于物理測量的等距或等比數據，主觀確定題目的分值。第二是采用分析評分法，以正確作答的數目為主要評分手段，答對一點，計1 分（或者加權后計2、3 分）。這種評分考慮了答案的“量”，但忽視了答案的“質”，學生答對的量的變化是否意味著本質上水平的變化？這缺乏足夠的理論和實證支持。主觀題的分數屬于順序數據，本質在于反映學生表現的等級水平，但是這種等級水平不應該是簡單的量上的區別，而應該是在理論指導下對于學生表現的能力等級水平的區分。因此，研究者提出高考應該“由采點賦分向按能力層級和采意賦分過渡”（戴家干，2006）。

對此，國務院《關于深化考試招生制度改革的實施意見》明確提出，高考需要“改進評分方式”。如何改進主觀題評分方式成為高考改革的一個核心技術問題。既然主觀題的評分應該反映學生表現出的能力等級水平，那么問題的關鍵在于能否構建一個科學、合理評價學生能力等級水平的理論。

研究者已經采用可觀察到的學習結果的結構（structure of the observed learning outcome，簡稱SOLO；Biggs，1982）針對學生思維水平的質量進行評價。這種分類評價法將學生的作答反應從低到高分為前結構、單點結構、多點結構、關聯結構和抽象拓展結構（Biggs & Collis，2010；蔡永紅，2006）。前三個層次考查學生掌握知識點的數量，反映了學生在“量”上的差異；后兩個層次則是對“質”的要求，側重考查學生的高級思維能力。SOLO 分類評價法已經在許多學科的主觀題命制和評分中展開了探索。研究發現，采用SOLO 分類法編制的主觀題卷面成績信度較高，能夠較好地反映學生的真實學習成績和思維發展水平（何瓊，2006）。

SOLO 分類評價法為主觀題評分方式改進提供了理論和實證的支持。但是SOLO 分類評價法能否代替傳統的“采點”評分，并作為一種新的評分標準來改進高考主觀題的評分質量，還有待進一步的實證研究。語文是高考中最重要的科目之一，高考語文有大量的閱讀主觀題，可以作為高考主觀題評分改進的一個重要突破口來展開研究。實際上，已經有研究者探討了SOLO 分類評價法在語言測試中的應用（任春艷，2014），為高考語文閱讀主觀題采用SOLO分類評價法進行了有益的探索。

有研究者討論了閱讀能力評價中SOLO 分類評價法的應用（李英杰，2006），但是閱讀能力不同于一般學科知識內容的思維加工，是一種獨特的認知能力。認知心理學提出了關于閱讀的建構整合模型（constructed-integration model，簡稱為CI；Kintsch，1988）。這個理論模型認為，閱讀理解存在三個水平的記憶表征。第一是表層水平（surface level），主要是閱讀者對文本字詞水平的理解；第二是文本水平（text level），主要是指閱讀者在字詞理解的基礎上形成一系列命題；第三是情境模型水平（situation model level），即閱讀者對文本命題和背景知識進行整合，充分理解。 PISA 的閱讀測試中已經通過判定學生所處的文本表征水平作為評分依據（Rai M K et.al，2015）。

為了有效地改進高考語文主觀題評分，本研究從理論建構入手，提出了兩種新的評分方法：SOLO分類評分法和CI 模型評分法。本研究將選取真實的學生高考試題、作答記錄和實際分數，采用三種不同的評分方法，通過比較分析三種評分方法的測量學指標，探討不同評分方法的有效性和優劣。

本研究采用項目反應理論（Item Response Theory，簡稱IRT）對三種評分方法進行測量學分析。 IRT是一種新興的心理和教育測量理論，得到國內外研究者的廣泛認可（羅照盛，2012）。同時，本研究使用估計穩定的兩參數模型（two-parameter normal ogive model，簡稱為2PL;Lord，1952）。研究針對具有多級評分的主觀題，選擇了拓展的分部評分模型（generalized partial credit model，簡稱為GPCM；Muraki，1992），模型公式如下：

Pjk（θ）表示能力值為θ 的學生在第j 題得到k 分的概率，j 為題目編號，k 為學生得分，aj、bj分別表示第j 題的區分度和難度，dv表示學生得到k 分時相對于得到其他分數的相對難度。

相對于2PL 模型，GPCM 模型除了能計算出每個題目的區分度a 和平均難度b 以外，還能計算出每個題目得到每一級分數（類別）時，所對應的題目難度bj（bj=b-dv），簡單來說就是相鄰得分的閾值。GPCM 模型強調每個題目相鄰得分類別所對應的難度閾值。測量中一般認為題目分值越高，難度越大，學生所需的能力值越高。因此隨著分值的增高，難度閾值單調遞增（即b1＜b2＜b3＜……＜bj），步長值呈現依次增大的現象。

研究者一般建議項目反應理論的測驗質量分析需要考慮區分度、步長值（難度）、測驗信息量等三個方面（戴海崎，2006）。本研究將根據學生的同一作答反應，分別計算和比較這些指標，從而判斷三種不同評分方法的優劣。簡而言之，三種評分方法中，每個題目的區分度越合理、步長值（難度）越恰當、測驗信息量越大，評分方法越合理。

二、研究方法

1. 研究對象

本研究采用完全隨機的方式，從高考語文成績數據庫中抽取了1019 名學生，并提取了每道題目（共27 題）的實際得分，以及閱讀主觀題的實際作答圖片。研究所選擇的閱讀部分包括一篇散文及基于此文本的三道主觀題。數據提取時刪除了學生所有的個人信息。

2. 三種評分標準制定

第一種評分標準采用了真實的高考語文主觀題的參考答案和評分方法。SOLO 評分標準由2 名語文老師、2 名語文課程專家和1 名SOLO 研究人員組成專家小組，根據SOLO 分類評價理論和學生作答樣例制定評分標準。每道題的評分準則為五級，評分依次為0-4 分，即前結構0 分，抽象拓展結構4 分。 CI評分標準由2 名語文老師、2 名語文課程專家和1名閱讀認知研究人員組成專家小組，根據情景整合模型（CI）和學生作答樣例制定評分標準。每道題的評分準則為三級，評分依次為0-2 分，即基于字詞的理解記為0 分，基于文本水平的理解記為1 分，基于情境模型的理解記為2 分。

3. 研究過程

研究采用了與高考閱卷流程完全相同的流程，三種評分方法都采用了“2+1”的評分流程。每道主觀題均由兩個評分員根據評分標準獨立評分，兩者的分差為0 時，評分結束，記錄為學生最后得分。如果兩者分差不為0，則由第三個評分員獨立評分，三位評分員中有兩個一致的評分結果，則評分結束，記錄相一致的分數為學生的最后得分；如果三人的結果都不一致，則上交專家小組仲裁。

具體操作中，由于已經有了學生的真實高考數據，基于高考評分標準的評分方法實際上是采用了“1+1”評分流程，即一評后，對比真實成績，如果分差為0，則結束評分；如果分差不是0，則二評。

評分員由一線語文教師和語文教學方向的研究生組成，基本與高考選撥標準一致。三種評分方法的評分小組由9-11 人組成。評分員獨立評分，并不事先通知其評閱的屬于第幾評，全部隨機發放，電腦自動分發作答、記錄、對比評分結果。原始評分法的評分者一致性在0.65-0.69 之間，SOLO 評分法的在0.71-0.74 之間，CI 評分法的在0.78-0.81 之間，三種方法均有較高的評分者一致性。

4. 數據分析

本研究使用R 軟件進行相關的數據分析。

三、研究結果

1. 三種評分方法的基本結果

三道主觀題的原始總分分別為6 分、6 分和4分；采用SOLO 評分方法后，總分統一為4 分；采用CI 評分方法后，總分統一為2 分。三種評分方法的基本情況如表1 所示。

每種評分方法中，三道主觀題都表現出了題目之間中低程度的相關，原始評分法中三道題目的相關在0.35-0.38 之間，SOLO 評分法三道題目的相關在0.38-0.45 之間，CI 評分方法三道題的相關在0.39-0.54 之間。每道題自身采用不同的評分方法之間的相關要顯著高于題目之間的相關。第1 題三種評分方法的相關在0.58-0.84 之間，第2 題三種評分方法的相關在0.56-0.72 之間，第3 題三種評分方法的相關在0.55-0.89 之間。SOLO 評分與CI 評分之間相關最高，達到了高相關的程度（0.72-0.89），原始評分法與SOLO 評分法、CI 評分法的相關略低，但也達到了中等相關的程度（0.55-0.63），表明三種評分方法存在某種內在的關聯。

表1 三道主觀題三種評分方法相關及基本情況

2. 模型擬合程度

三種評分方法的模型擬合指數如表2 所示。結果顯示，三種評分標準下的全卷擬合均較好，可以對數據做進一步的分析。三個模型的AIC 和BIC指標隨著評分方法的改變逐步降低，表明模型擬合越來越好，原始評分模型完全可以接受，SOLO評分模型擬合進一步提升，CI 評分的模型擬合程度最高。三種評分方式下，IRT 分析中測驗的整體EAP 信度依次提高，測驗具有較高的信度（Wu，2005）。

本研究的主要目的是探究三種不同的評分方法對閱讀主觀題題目參數的影響。 IRT 可以分析每道題目的擬合程度，作為題目質量評估的一個基本指標。三道題目的三種評分方法擬合指標如表3 所示。數據顯示，擬合值都在1 附近，P 值都不顯著，三道題目采用不同的評分方法都能夠較好地擬合，說明三種評分方法都具有一定的合理性。

表2 三種評分方法下的模型擬合指數

3. 題目參數分析結果

采用IRT 兩參數模型，分析了三種評分方法對題目參數估計的影響。表4 是題目區分度參數的分析結果。結果表明，三個題目的區分度隨著評分方法的變化有所變化。原始評分方法的題目區分度最低，第一題僅0.313。 SOLO 評分方法比原始評分的區分度有所增加，但是第一題仍然僅有0.363。 CI 評分方法的題目區分度最高，第一題區分度接近合格線。新的評分方法有效地改進了題目的區分度參數屬性，提高了評分的有效性。

題目難度參數分析結果如表5 所示，第三列是三種評分方法下三道題目的整體難度。可以看出，SOLO 評分和CI 評分都導致了題目難度參數降低，其中CI 評分的難度最低。表5 中還呈現了三種評分方法下三道主觀每一個等級得分的難度閾限。一般而言，隨著分值的增加，學生得分的難度應該依次增加。數據表明只有CI 評分方法符合這種假設。原始評分中三道題目都出現了得到1 分的難度超過2 分的現象；SOLO 評分中兩道題目出現了得到3 分比得到2 分更容易的現象。

研究計算了同一題目中所有得分所對應的難度值到均值的距離，結果如表6 所示。結果表明，原始評分下三道題目的步長都有部分異常現象，主要表現在高分段值突然增加。 SOLO 評分下，第一道題目步長正常，第二道和第三道題目的步長異常，主要表現與原始評分結果相同；CI 計分下，三道題目的步長都正常，基于CI 的主觀題評估更符合高分對應高能力的理論假設和實際情況。

表3 三種評分方法下的主觀題題目擬合指標

表4 三道主觀題三種評分方法的題目區分度

4. 測驗信息量

在ITR 理論中，信息量是衡量測量誤差的一個重要指標。一個測驗所包含的信息量越大，測驗的誤差相對來說就越小。三種不同評分方式下的測驗信息量如圖1 所示。其中，傳統評分法在被試能力值為25 時，信息量最大，為1.8；SOLO 評分法在被試能力值為41 時，信息量最大，為3.1；CI 評分法在被試能力值為42 時，信息量最大，為5.6。總的來說，三種評分方法都在能力值為24-42 之間的信息量最高，其中CI 評分法的測驗信息量最大。

表5 三種評分方式下三道主觀題的難度參數估計

表6 三種評分方法三道題目得分之間步長

圖1 三種評分方法下三道主觀題的測驗信息量

四、討論

高考是我國的基本教育制度，受到全社會的高度關注，為此《國家中長期教育改革和發展規劃綱要（2010-2020 年）》明確提出“完善高等學校考試招生制度……保證國家考試的科學性、導向性和規范性”（國務院，2010）。高考主觀題評分目前采用的是基于專家經驗判斷的以參考答案為基礎的評分方法。一般而言，學生答對參考答案的點越多，得分就越高，表明學生能力就越高。鑒于傳統評分的不足，本研究基于學生思維發展的SOLO 學習分類理論和閱讀認知過程的CI 理論，設計了兩種新的評分方法，試圖從實證角度比較三種評分方法對閱讀主觀題題目質量的影響。

雖然高考主觀題的原始評分方法受到了一定的質疑和批評，但是這種基于專家判斷的評分方法是我國教育工作者多年的經驗總結，表現出了較為良好的測量學指標。研究發現，三種評分方法之間具有較高的相關（相關在0.55-0.89 之間）。采用原始評分法，整體測驗具有較好的擬合指標，EAP 信度達到了0.827，基本達到了對這種高利害學業測試的要求。主觀題原始評分的IRT 題目擬合良好，題目的區分度有兩道題達到了區分度的基本要求，每道題的每個得分的閾限大多數依次增加，題目不同分值之間的步長大多數正常。整體而言，高考語文閱讀主觀題采用原始評分法表現出了較好的測量學指標，說明高考語文主觀題原始評分具有一定的科學性和規范性。

另一方面，高考主觀題原始評分法依靠專家小組經驗，這種方法缺乏具體而明確的理論建構和指導，導致科學性不足，導向性不清晰，評分標準主觀性較強，評分員評分主觀而僵化，評分的規范性不強。為了克服原始評分方法缺乏理論指導的不足，本研究總結了兩種可用于高考語文閱讀主觀題評分的理論，并以此設計了新的評分方法。一是反映學生認知發展水平的可觀察學習結果的結構，即SOLO 評分法；一是反映學生閱讀形成的認知表征水平的整合情景模型，即CI 評分法。這兩種評分方法根據相關理論能夠清晰、明確地闡釋閱讀認知發展的層級。這兩種評分方法都在一定程度上超越了內容，重在評估學生的認知思維水平，符合培養學生獨立思考和解決復雜問題能力的核心素養要求。

研究結果表明，兩種新的評分法具有更為優異的測量學指標。 SOLO 評分法和CI 評分法主觀題得分之間的相關顯著提高。原始評分法中相關在0.35-0.38 之間，SOLO 評分法相關在0.38-0.45 之間，CI評分方法相關在0.39-0.54 之間。題目之間的相關增加表明，采用了新的評分方法后，對學生表現的評價一致性在增加。同樣可以看到，CI 評分法提升的程度明顯高于SOLO 評分法。整個測驗的模型擬合中，SOLO 評分法和CI 評分法都能夠表現出與原始評分相似的擬合指標，但SOLO 評分法和CI 評分法模型擬合優于原始評分法。三個評分方法模型的AIC、BIC 依次降低，原始評分法最大，CI 評分法最小，EAP 信度也具有相同的表現，原始評分法最小0.827，CI 評分法最大0.844。三個模型都可以接受，都具有良好的結構效度和測試信度，同時模型擬合誤差最小、測試結果最穩定的是CI 評分法。三種評分方法在題目擬合上都表現良好，所有方法的所有計分點都具有完全可以接受的模型擬合分析結果，在題目擬合分析中，三種方法并沒有明顯的差異。

題目區分度的分析具有與測驗整體擬合結果相同的特點。新的評分方法都顯著提升了題目的區分度表現，第二題的區分度從0.574 提高了1.469，CI評分法比SOLO 評分法提升的程度更高。但是有一個題目使用了CI 評分法，題目的區分度仍然小于0.5，這可能與題目本身有更大的關系。

兩種新的評分方法引起最直接的變化是題目滿分的不同。三道主觀題原始評分法滿分為6 分、6 分和4 分；采用SOLO 評分方法后，滿分統一為4 分，采用CI 評分方法后，滿分統一為2 分。在經典測量理論中，主觀題這種多級計分的分值之間差異被題目整體表現所掩蓋。本研究采用項目反應理論分析主觀題分值之間的變化和差異，來驗證主觀題評分標準和等級的科學性與合理性。所有評分方法的一個基本假設是得到更高分數的學生應該具有更高的能力，反之也是成立的。雖然采用了不同的評分法后，題目的整體難度參數都有所下降，但這并不是研究關注的問題。研究關注的是不同評分方法下，每個題目的每個分值的難度閾限，以及題目之間的步長。研究發現，只有在CI 評分法下，三個主觀題分值的閾限值和步長的變化符合這個假設，低分的閾限低，高分的閾限高，從低分到高分閾限之間的值在減小。原始評分和SOLO 評分中分值的變化都出現了違背這個假設的現象，例如原始評分法第二題1 分的閾限值為-1.126，2 分的閾限值降低到-2.151，這就意味著學生得到1 分的難度大于得到2 分的難度，這就違背了之前的假設，實際上該題在原始評分中得到3 分和4 分的難度都比1 分的難度小。SOLO 評分法較好地改善了這個現象：同樣是第二題，采用SOLO 評分，1 分的閾限值是-2.717，2 分的值是-1.78，得到1 分的難度小，2 分的難度大，但是這時得到3分的難度又降到-2.532，得到3 分變得容易了，依然違背了前述的假設。三個主觀題的分值步長上具有與此基本相同的表現。題目難度參數的分析和比較表明，SOLO 評分法比原始評分法具有更科學、合理的等級劃分，但是仍然存在缺陷，本研究的結果發現CI 評分法區分的學生表現等級得到了支持，各個等級水平之間是清晰而明確的。

項目反應理論的最大特點之一是可以計算每個題目的信息量和測驗的信息量。本研究直接比較了三個題目采用不同評分后測驗信息量的變化。信息量越大表明測驗誤差越小，測驗具有更高的信效度。這個結果與之前都是一致的，原始評分法信息量總和最小，SOLO 評分法顯著地提高了測驗的信息量，但最大信息量是CI 評分法帶來的，三個題目的信息量達到了5.6。

SOLO 評分是一種基于認知發展水平理論的評分方法，研究者廣泛地將該理論應用到各個學科的主觀題評分中，取得了大量的研究成果（馮翠典、高凌飚，2009）。基于SOLO 理論的評分方法可靠、有效地提升了高考語文主觀題的評分質量。但是SOLO適用于一般的認知過程，特別是涉及到具體學習內容的課程。語文學習更多地涉及讀寫認知加工過程，這種認知加工過程有其自身的特點。建構整合模型（CI）是閱讀認知研究普遍認可的理論模型（Kintsch& Walter，2018；Ferstl & Evelyn，2019），CI 評分法相比SOLO 評分法可能更適合閱讀主觀題的評分。研究中發現CI 評分法優于SOLO 評分法，還有一個可能的原因是分數的范圍和等級不同，CI 評分法將學生分為三類，SOLO 評分法將學生分為五類，分類等級較少時，評分者更容易掌握評分標準，區分學生的閱讀能力層級更加準確。

本研究的結果支持了基于理論的評分方法優于基于經驗的評分方法，SOLO 評分和CI 評分都優于原始評分方法，但是本研究還存在一些不足。首先，研究的理論建構上，本研究提出的兩種評分理論還需要進一步驗證，為閱讀主觀題評分建立一個更為明確的理論框架。其次，研究僅涉及了現代文閱讀模塊的主觀題。高考語文中還包括古詩文閱讀鑒賞、語言運用和寫作等不同類型的主觀題。這些主觀題的評分方式還有待進一步研究。最后，本研究的評分方法并未涉及分數加權的問題，由于高考需要對不同的題目進行加權合成一個固定分值。本研究的評分方法不同，題目滿分也不同，在實際應用中該如何加權，也需要進一步探討。

五、結論

本研究結論如下：

首先，三種評分方法都具有較為良好的測量學特征，能夠基本可靠、有效地評價學生的學業表現。

其次，基于理論的主觀題評分方法優于基于經驗的評分方法。

第三，CI 評分法優于SOLO 評分法。 CI 評分法可能是高考語文閱讀主觀題評分一個更為合理的基礎理論和技術路線。