高中學業水平考試等級賦分的分類一致性和準確性研究*

2022-08-06 07:07:04宋吉祥李付鵬

教學與管理(理論版) 2022年8期

宋吉祥李付鵬

（安徽省教育招生考試院命題中心，合肥，230022）

學業水平考試實行等級賦分是新一輪高考改革的重要內容。根據試點省市已出臺的文件規定，學業水平等級性考試科目以等級成績計入高校招生錄取總成績，具體轉換時，先按等級性考試科目的考生原始成績從高到低劃定若干個等級；再將各等級內的考生原始成績，依照給定的轉換方法，分別對應轉換到相應的分數區間，得到考生的等級成績。因此，等級劃分的準確性和一致性在很大程度上決定了等級成績轉換的科學性和公平性。

本文利用項目反應理論的Lee方法，使用大規模教育考試的實測數據，對改革試點省市學業水平等級性考試科目采用五等級和八等級等比例轉換方法進行分數分類的一致性和準確性研究。

一、分類一致性和準確性的涵義及計算方法

1.基本概念

在教育測量中用分類一致性和分類準確性指數來評價分數等級分類的可靠性。分類一致性指在重復測驗中被試被劃分為同一類別的程度，也即兩次平行測驗中被試觀察分類相同的概率。由于很少對同一被試進行兩次平行測試，分類一致性通常是通過單一測試來估計，并且對測量誤差和真實分數的分布有很強的假設[1]。以考試分數的分類為例，對于只有一個及格分數線的考試來說，考生重復參加考試時被相同地劃分為及格或不及格的概率，這就是分類一致性[2]。該定義也可以推廣到多個分數等級的情況[3]。分類準確性是指被試觀察分類與真實分類相同的概率[4]。假定通過某種方法得知考生的真分數，根據考生在考試中得到的觀察分數所作的分類和根據其真分數所作分類的一致性就稱為分類準確性。

從某種意義上來說，分類一致性反映的是對考生決策的信度，而分類準確性反映的是對考生決策的效度。也就是說，等級分類準確性和一致性類似于常模參照考試的信度和效度。在實行等級計分的學業水平考試中，如果考生重復參加一項考試的分數是在同一個等級之內，就可以認為分類具有一致性；如果考生被分類在相應的能力等級水平，就認為分類具有準確性。

2.基于Lee方法的分類指數

目前已發展了多種分數分類準確性和一致性的方法。從方法所屬的測量理論分類，可以分為基于經典測量理論的方法和基于項目反應理論的方法。從方法所屬的試題計分類型分類，可以分為二級計分的方法和多級計分的方法。本研究主要探討項目反應理論的Lee方法為代表的基于觀察分數的分類情況。Lee方法使用IRT作為心理測驗的基礎。假設θ和g（θ）分別表示被試潛在特質及密度函數，x 表示觀察分數，x1，x2，…，xh-1分別表示將被試分為k類的k-1個等級分數，h表示被試分類類別，h=1，2，…，k。分數分類一致性和分類準確性指數可按如下方法計算得到。

分數分類一致性指數。根據IRT模型估計項目反應概率，考慮到條件求和分數分布以及劃界分數，條件分類概率可通過計算在類別h上所有分數x的條件概率之和得出。條件分類一致性φ（θ）被定義為能力為θ的考生在平行測驗上被歸為同一類別h的概率，即θ分布上的條件分類一致性。根據能力分布的密度函數，對條件求和分數概率求積分，就可得到所有考生在測驗中被一致分類的概率，即邊際分類一致性。另一個反映邊際分類一致性系數的指標是Kappa系數，是指測驗真實分類一致性與最大可能分類一致性的比值K=（φ-φc）/（1-φc），φc表示由于偶然機會造成的分類結果一致的概率，其計算公式為，p（h）為 θ在分布上條件分類一致性概率進行積分后的邊際一致性概率，通過對條件分類概率pθ（h）在所有的θ取值區間進行積分所得。

分數分類準確性指數。假設在總成績測量中有一組真實的分數，即 τ1，τ2，…，τk-1，可確定每個具有能力參數為或者真分數為τ的考生真實的分類狀態。如果已知考生真實的分類狀態η（1，2…，K），可計算出真分數下的條件分類概率準確分類的條件概率，γ（θ）=pθ（η），邊際分類準確度指數為。分類準確度通常通過假正向和假負向錯誤率來評估。條件假正向分類錯誤率是指考生被劃分到高于考生真實類別的概率，條件假負向分類錯誤率是指考生被劃分到低于考生真實類別的概率。對于θ∈η*，條件假正向分類錯誤率和條件假負向分類錯誤率可分別表示為，，邊際正向分類指數和邊際負向分類指數分別為。有關Lee方法更為詳細的介紹可參見有關文獻[5]。

二、基于Lee方法的數據模擬

通過模擬研究，分析到Lee方法估計分類一致性和準確性指數，探討高中學業水平考試五等級賦分方法和八等級賦分方法的分類一致性和準確性。

1.研究數據

研究數據取自某省某年度高中大規模測試的考試成績，抽取樣本量2942（不含零分考生）。試題來自綜合科目，共計90道，這里選取前60道進行研究。試題編碼后的主要統計信息見表1所示。60道試題，均為四選一選擇題，采用0～1計分方式編碼（答對得1分，答錯得0分），總分為60分；總體平均分38.27分，標準差10.12，成績呈負偏態分布。

表1 試題編碼后的主要統計信息

2.數據擬合

基于Rasch模型的測量，在檢驗分數分類的一致性和準確性之前，需進行試題數據與Rasch模型的擬合分析。只有當數據擬合模型時，Rasch測量的客觀和等距的優良特性才能表現出來，后續統計分析的結果才是有效的。表2提供了Infit MNSQ（Infit Mean Square）和 Outfit MNSQ（Outfit Mean Square）卡方擬合指標。Infit MNSQ和Outfit MNSQ可接受的取值范圍在很大程度上取決于研究目的，一般建議取0.5～1.5的范圍[6]。從表2中可知，這里Infit MNSQ的值基本處于0.7～1.3，說明學生的能力水平與題目難度比較吻合。Outfit MNSQ的值僅有個別試題的擬合統計指標略高于1.5，沒有擬合統計指標低于0.5的試題。總體上來說，本研究選取的數據基本擬合Rasch模型，可以進行后續的Rasch分析。

表2 試題擬合統計

3.等級劃分

本研究討論的是試點省市學業水平等級性考試科目采用的五等級和八等級等比例轉換方法。八等級賦分方法將每門等級性考試科目中考生的原始成績從高到低分為 A、B+、B、C+、C、D+、D、E共8個等級，對應的等級比例依次為3%、7%、16%、24%、24%、16%、7%、3%。五等級賦分方法將每門等級性考試科目中考生的原始成績從高到低分為A、B、C、D、E共5個等級，對應的等級比例依次為15%、35%、35%、13%、2%。兩種等級賦分方法的劃界分數均是按照考生成績分布與各等級既定比例確定。等級劃分從總體上決定了對考生能力層次的劃分。基于本研究樣本，經測算，五等級的劃界分數依次為50、38、27、20，八等級的劃界分數依次為 55、52、47、38、31、25、21。

一般認為，不同等級的被試應具有一定的水平差異，劃分等級時，一個基本的要求是每相鄰兩個等級的條件標準測量誤差之和必須小于兩個等級的劃界分數之差[7]。圖1給出了五等級賦分和八等級賦分的成績分布密度曲線圖，表3給出了分數分布及條件標準測量誤差。由于兩個等級模擬使用的數據相同，圖1中兩個圖形的密度曲線圖是相同的，圖形具有較為明顯的雙峰特點，正態性略差。與五等級相比，八等級區間之間的分差小一些，最小的分數區間為[52，55]，僅有3分的差異。等級B+和B的劃界分數52分，等級B+和等級A的劃界分數為55分，兩個劃界分數之差為3分，52分和55分處的條件標準測量誤差分別為1.81和1.29，兩者之和略高于區間分差3分。表3顯示條件標準測量誤差較大的區域在中低分區間，兩種等級賦分方式各等級區間具有一定的差異，也都沒有出現等級區間端點分數重疊或較為接近的現象。五等級和八等級兩種等級劃分方式，五等級相鄰兩個等級的條件測量標準誤差之和均小于兩個等級的劃界分數之差，八等級在中低分端出現相鄰兩個等級的條件測量標準誤差之和略高于兩個等級的劃界分數之差的情況。初步判斷，五等級分類更為合理。

圖1 五等級（上）和八等級（下）的成績分布

表3 分數分布與條件測量標準誤差（CSEM）對應關系

4.總體分析

表4給出了五等級賦分和八等級賦分的分類準確性和一致性統計指數。結果顯示，五等級和八等級賦分的各項統計指數都不是很高，分類一致性和準確性指數都低于0.8，邊際分類一致性指數高于Kappa系數，正向錯誤分類和負向錯誤分類均比較高。其原因可能是多方面的，既可能與等級劃分有關，也可能與測驗編制有關。

表4 分數分類一致性和準確性

但就分類一致性和準確性比較而言，分數分類準確性的指數好于分類一致性；就五等級賦分和八等級賦分比較而言，五等級賦分的分類一致性和準確性指數好于八等級賦分。

5.分類一致性分析

圖2給出了五等級和八等級分類一致性指數的可視化分布圖。每個單元格都顯示了在兩個假設的平行測驗形式上實現等級組合的概率。對角線代表分類一致性的概率?？忌?個平行測驗中被一致分類的概率可能和劃界分數的位置有關，由于八等級臨界分類點更多，劃界分數附近的考生更多，就更容易在兩次劃分中被分到不同的等級；五等級臨界分類點較少，劃界分數附近的學生相對少一些，相對來說，被錯誤分到兩個相鄰等級的概率也就少一些，分類的一致性略高一些。從圖2中可以看出，五等級中兩次被分類超過一個等級的可能性為零。對于八等級，有可能在一次被分類為A，而在另一次被分類為B+或B，其他等級也存在類似的情況。

圖2 五等級（左）和八等級（右）分類一致性

6.分類準確性分析

計算分類準確性的目的是確定在給定其真實能力水平的情況下是否將個人實際劃分為適當的類別[8]。如果根據個人的真實分數，我們的分類決策不準確，那么考生真實分類時可能被高估或低估。圖3給出了五等級和八等級分類準確性的圖形化分布。顯示了兩類等級劃分方式都是在劃界分數點附近的分類準確性具有下降的趨勢，遠離劃界分數點的分類準確性具有上升的趨勢；兩類等級劃分方式在均值附近的分類準確性均較低；分數的兩端和較寬分數區間的分類準確性相對高一些，較窄的分數區間的分類準確性相對較低；也顯示出五等級的分類準確性明顯好于八等級。

圖3 五等級（上）和八等級（下）分類準確性

三、分類一致性和分類準確性的影響因素

上述研究表明，在IRT模型下分類一致性和分類準確性指數受等級數量、劃界分數位置、分數分布等因素影響。

劃界分數位置的影響。劃界分數在測驗分數分布中的位置對分類一致性和分類準確性的估計影響較大。靠近劃界分數的分類一致性和分類準確性有降低的趨勢，遠離劃界分數的分類一致性和分類準確性有升高的趨勢。這顯示測驗分數在等級劃界分數附近的考生更容易在兩次或多次劃分中被分到不同的等級，而測驗分數距劃界分數較遠的考生相對更能夠被劃分到同一個等級。當劃界分數靠近測驗分數平均值時，分類一致性指標和分類準確性指標較小，而當劃界分數在分數分布的兩端，也就是在平均分的臨近區間中，劃界分數與測驗分數平均值距離變大時，分類一致性指標和分類準確性指標也變大。這與目前的研究結論具有一致性[9][10]。

等級劃界分數數量的影響。測驗等級劃分的數量少一些，分數分類一致性和分類準確性相對高一些，測驗等級劃分的數量多一些，分類一致性和分類準確性相對低一些。這顯示等級數量越少，處于劃界分數點及其附近的考生數量也相對較少，兩次或多次被劃分到不同等級的考生數量也相對較小。

分數分布的影響。等級劃界分數點落在考生分數分布較為密集的區域，等級分類的一致性和準確性相對更低一些。這說明在較為密集的分數分布區域進行等級分數的劃分，必然存在著有較多的學生處于不同臨界等級的附近，兩次或多次分類被劃分到不同等級的可能性更大一些。

四、啟示與思考

本文采用一份大規模教育測量數據，以高中學業水平等級性考試科目兩種賦分方法為例進行了分類一致性和分類準確性的研究，得出如下啟示：第一，等級賦分應保持適當的等級數量。較多的等級數量易造成分數分類一致性和分類準確性較低，前三輪高考改革試點省市依次減少等級數量，這個改革方向是正確的，目前大多數高考改革省市實行的五等級賦分方法是較為適當的。第二，等級賦分應根據分數分布合理設定劃界分數。目前試點改革省市，第一批省市以3分一個等級的均勻等距分數區間設定等級，第二批部分省市和第三批、第四批省市在高分端和低分端實行小的分數區間等級，在分數的中部實行較大的分數分布區間等級，后者更加符合大規模測試分數分布的規律，一般認為具有一定規模測試考生人數的原始分數服從正態分布，測驗分數的分類一致性和分類準確性更高，更加具有科學依據。但是，對所有學科使用基于觀察分數的固定百分比確定劃界分數的方式，還有待進一步研究。第三，等級賦分對學業水平考試命題提出了較高的要求。試題命制應充分考慮考試的分數分布，試卷的平均分應設定在盡量遠離等級分數劃界點的位置，由于均值附近一般分布較多的考生，使劃界分數盡量遠離測試的平均分，避免出現較多的考生被錯誤的分類。同時，要合理劃分學生的學業水平，在命題時就要規定不同知識深度水平試題的比例，一方面要滿足課程標準規定的不同認知類型比例的要求，以便于保證考試的認知要求或能力結構與課程標準的能力結構相一致；另一方面也要與學業水平考試等級的劃分要求相一致，由于學業水平考試科目在國家課程設置上天然存在著課程內容、學時和要求的差異，不同的課程在未來高校不同專業學習中也各有側重，而實現不同學科分數之間的可比性，則要求不同科目的基本條件具有一致性，特別是在統計指標上具有一致性，應該合理設置考試內容與試卷結構，在確定不同知識深度水平的試題比例時，要考慮學生達到某一水平，正確應答的試題比例和數量，合理設定各學科試卷難度，進一步提高試題質量。

本文的研究有一定的局限性。分數分類的影響因素非常多，運用一個特定的理論和分析方法分析的結果可能不具有普遍性，不同的學科也可能具有不同的分數分布特征，還有其他的一些因素都有可能影響分析結果。因此，本文研究結果的穩定性和有效性還需要進行進一步的驗證，這是下一步的工作。