學業質量監測的有關測量技術分析

2024-12-31 00:00:00邢建穆明

中國教育技術裝備 2024年15期

摘" 要" "基于項目反應理論的學業質量監測已成為當今教育評價改革的有效手段和重要實施項目，為推動區域監測的有效實施，從大型學業質量監測的抽樣設計與等值數據分析入手，深入淺出地闡釋學業質量監測項目的完整技術框架，對學業質量監測的水平等級劃分及多維項目等值技術提出優化建議，基于PISA測試定制軟件ConQuest的技術參數設置原理進行數學闡釋。

關鍵詞" 義務教育；學業質量監測；項目反應理論；教育評價；ConQuest量尺分數；等值技術；等級劃分；PISA

中圖分類號：G40-05" " 文獻標識碼：B

文章編號：1671-489X（2024）15-0-05

DOI：10.3969/j.issn.1671-489X.2024.15.127

0" 引言

對比分析歷年的國家和省級義務教育質量監測樣本縣結果報告發現，大型學業質量監測基本采用相對一致的項目反應理論（IRT）模型及技術參數，呈現了當前義務教育學業質量監測的主流測試技術。區域監測作為義務教育質量監測體系的組成之一，已納入區域教育評價改革工作規劃。為推動當前區域學業質量監測科學發展工作，做好國家和省級義務教育質量監測結果運用工作，本文對大型學業質量監測的抽樣設計和項目反應理論應用技術進行分析闡釋，以期幫助一線中小學教育測量人員對學業質量監測技術有系統的了解和掌握。

1" 抽樣設計

鑒于義務教育階段學校和學生量大、面廣的特點，以外顯分層變量進行分層，采用分層不等概率抽樣的方式，按照抽樣設計效率概念公式將分階段抽樣樣本量折合為簡單隨機抽樣樣本量，以此抽樣思想確定樣本縣抽樣學校數以及每個學校計劃抽樣學生數。通常分階段整群抽樣的設計效率依賴于群的規模大小和組內相關系數的大小。

1.1" 抽樣原理

按照統計學定義，以抽樣的平均值方差作為抽樣方差，樣本均值對總體均值估計的精度可以通過均方誤差描述。根據樣本估計量事先給定的抽樣絕對誤差（一般設定在95%置信區間內，即對應約2倍的樣本均值標準誤，抽樣誤差近似視為樣本均值誤差）計算有效樣本量，即簡單隨機抽樣的樣本量。簡單隨機抽樣的抽樣誤差（成數的抽樣平均誤差）公式為：

其中n*為有效樣本量，p為總體參數（如學業質量監測抽樣可理解為男女性別比率）。一般國測報告中省抽樣誤差控制在4%，可計算有效樣本不低于156人。

兩階段整群抽樣的有效樣本量是指從抽樣精度的角度，樣本均值的方差與簡單隨機抽樣樣本均值方差相同時，簡單隨機樣本對應的樣本量。按照設計效率的概念及定義公式，分階段整群抽樣的設計效率可采用如下公式計算：

deff=1+（n-1）p

根據deff的公式，實際樣本與有效樣本的關系可用下式表示：

nc=n*×[1+（n-1）p]

其中nc為兩階段整群抽樣的實際樣本量，n*為有效樣本量，n為每群中抽取的樣本數（通常n至少大于20），p為組內相關系數。如總體參數p在樣本統計量95%的置信區間內，樣本估計量的絕對誤差不超過5%，樣本統計量近似服從標準正態分布，對應的標準誤的2倍為5%，p取0.1，n=20，要滿足上述抽樣精度，第一階段需抽取58所學校，第二階段在抽到的學校中抽取20名學生。

1.2" 抽樣步驟

1.2.1" 分層

根據分層變量將樣本抽樣總體學校分層。

1.2.2" 分階段抽樣

第一階段，在每層內采用PPS（概率與元素的規模大小成比例）的方法抽取學校（采用等距抽樣確定）；第二階段，在抽取到的每個學校采用簡單隨機抽樣的方法抽取學生（采用隨機數表）。

1.2.3" 設計權重

在抽樣調查中每個樣本單元（被試）不僅代表自己，而且代表研究總體中那些沒有被選入的樣本單元。進行目標變量的有效估計和推斷時，需要把調查到的原始結果擴大到能代表研究總體的情況，進而得到總體參數的無偏估計。在多階段抽樣條件下，設計權重是每個單元在不同階段入樣概率倒數的乘積。

1）學校的設計權重（w11）：

其中，Si為i層的所有學生數，Sij為i層第j個樣本學校學生人數，mi為i層抽到的學校個數。

2）學生的設計權重（w22）：

其中，Sij為i層第j個樣本學校學生人數，Sijk為i層第j個樣本學校計劃參加測試的學生人數。

每個樣本學生的設計權重是兩階段權重的乘積，即：

在計算樣本縣學業成績平均分時將樣本縣所屬的樣本學生成績取加權平均值可以得到樣本縣平均分，采用Fay平衡半樣本方法可計算樣本縣平均分的抽樣方差的估計值，即得到抽樣標準誤，以此評估樣本縣平均分的偏離程度。R語言軟件包survey的svrepdesign命令可以進行平衡半樣本方法的方差估計。國際學生測評項目（PISA）采用KeyQuest軟件進行抽樣設計，被試權重由抽樣軟件生成。

2" 學業描述

國測和省測監測學科結果報告一般采用兩種指標描述學生學業成績：一是量尺分數，通常采取常模參照，如國家義務教育學業質量監測以每學科首次監測平均分為常模；二是水平等級，通常采取標準參照，如國家義務教育學業質量監測依據監測學科的國家課程標準，借助項目反應理論劃分確定水平等級。

2.1" 量尺分數

從2022年山東省首次義務教育學業質量監測樣本縣監測結果報告分析可以看出，山東省監測采用PISA和國家義務教育質量監測一致的測量技術模型程序進行。山東省首次監測的文化課學科有數學和科學（初中物理、生物、地理）兩門課程，量尺分數分別呈現學生學科總成績及內容維度、認知維度、核心素養表現的各子維度成績。通過閱讀PISA的有關監測結果數據發現，PISA監測同一年度的三門學科領域（閱讀、數學、科學）采用IRT模型進行學生能力成績的估計，又由于同年度某學科測試并不是由一個題本完成，而是由多個題本完成，每個題本由不同的試題題塊構成，即平衡不完全題塊設計（BIB），可采用同時估計或分別估計等化測量能力和試題參數。

2022年山東省義務教育質量監測在模型估計方程中設置全省參測樣本學生學科能力參數的平均值為0，同時采用補償性多維IRT模型，將同一學科按不同角度劃分的不同維度的各子維度能力值進行估計（同樣設置各子維度的樣本均值為0），其中初中科學可劃分為物理、生物、地理三個不同的內容子維度，采用項間多維形式將三科能力參數分三個子維度估計標定，認知維度和學科素養表現維度采用項內多維形式估計標定。將估計的服從標準正態分布的學科整體和子維度能力值統一轉換為平均分為500、標準差為100的量尺分數，國測初中科學內容維度采取平均分為200、標準差為50的轉換參數，其用意之一主要是體現初中科學為合考

科目。

2.2" 等值技術

大型學業質量監測項目在系統整體設計時均考慮了不同年度相同科目的等值，基于項目反應理論的等值技術在學業質量監測中被廣泛采用。利用項目反應理論，理論上對任意兩個不同的測驗都可以進行等值，但在實踐中，只有兩個測驗檢測的是相同的潛在特質，潛在特質的維度相同，并且有共同題或有些被試同時接受兩份測驗即存在重疊測驗資料，才能進行有意義的等值分析。對兩個測驗進行等值的關鍵步驟是確定等值常數。確定等值常數的方法有很多，但是在實踐中用得最多的方法是特征線法（“HB”算法）。假設X測驗和Y測驗，含有N個相同試題，這部分相同試題被稱為錨題。在等值過程中，需制定一個測驗為基測驗，然后將另一個測量值標定在基測驗上，計算兩位具有相同能力值的被試在N個共同題的兩份測驗的真分數（真分數為具備能力θ的被試在整個試卷各試題的特征曲線之和，即各題答對概率之和）。由于是共同題，將所有被試的真分數差的平方和求極小值，得到兩個等值常數。將不同測驗的項目參數和被試能力值標定在同一能力量尺上，以便進行有關等值比較[1]。

基于等值常數的確定，不同項目反應理論測量

軟件對被試潛質和項目參數的等值實現有著不同的

側重，如MULTILOG、R語言plink包等軟件采用項

目特征線原理的“HB”算法，能夠將兩份測驗資料

合并估計為同一量尺的能力值和項目參數，而

PISA測試定制軟件ConQuest不含等值軟件模塊，跨年度的等值通常采用“鏈接”等值方法實現。2015年之前，PISA的等值方法采用均值/方差法（MV），采取線性轉換的方式分別標定以實現跨年度等值。因2015年之前PISA測試用的都是單參數模型（單參數模型區分度為1），經典的等值轉換公式中的斜率等值常數為1，故等值常數只有一個截距值，也被稱為均值/均值（MM）法。PISA2015進行跨年度等值時，因換用兩參數模型，采用的是同時標定法。

在大型學業質量監測中，對參測學生學科子維度的能力測試是非常必要和重要的數據處理環節，通常采用多維IRT模型。多維IRT模型定義坐標原點到項目正確反應概率為0.5的等概率線的距離為項目難度的絕對值。多維項目難度參數定義為：bj=-dj/MDISCj

，其中，ajk為子維度區分度，dj為截距參數，為試題難度[2]。

多維IRT模型在做等值分析時相對復雜些，需要將ConQuest估計的試題整體難度參數還原為多維項目截距參數，根據多維項目難度參數定義公式得知試題難度參數只是將截距參數根據試題自身區分度向量的模進行了縮放。可以借鑒單維IRT模型等值原理，多維IRT模型通過合適的轉換矩陣A和B，將不同測驗的能力和試題參數等值到同一量尺上，從而實現多維結構的等值。通常用于多維等值轉換的公式為：

其中、、表示新測驗的能力參數向量、區分度參數向量和截距參數，、、表示新測驗等值到基測驗上的能力參數向量、區分度參數向量和截距參數。

對于項目間多維可采用均值/均值法和均值/標準差（MS）法進行等值，類似單維模型的等值算法，由兩個不同測驗錨題參數的均值和方差計算等值常數矩陣（其中等值斜率矩陣A為對角矩陣），新測驗各子維度的能力值根據等值常數矩陣標定到基測驗上，此等值方式簡單。也可采用同時標定法，將不同年度的樣本（含有足夠錨題）合并到一份測驗中進行同時標定，采用類似單維標定的方式，根據基測驗的能力值與已有的量尺分數估算轉換常數，得到轉換線性方程，將新測驗的能力值轉換到量尺分數上，從而實現等值。此方法理論上誤差小。

對于國家義務教育質量監測的初中科學（測驗題本含物理、生物、地理三個內容維度試題）科目，可采用項目間三維模型實現與起始年度（2017年）的等值，采取MM或MS法進行等值標定。從2020年的樣本縣監測報告推斷出目前國家義務教育質量監測的初中科學沒有考慮物理、生物、地理三科的跨年度等值。

2.3" 等級劃分

國家義務教育課程標準將學生學業水平劃分為I（不合格）、II（合格）、III（良好）、IV（優秀）四個水平等級，國家義務教育質量監測的學生學業等級描述內容總體上由專家組初步制定和根據測試結果修改完善兩個階段組成，并和試題的設計與復查融合在一起，通常采用修正的安格夫法進行等級臨界點的劃分。而PISA測試采用類似標簽法進行等級臨界點的劃分，基于精熟度劃分試題所屬的等級水平組，利用項目反應理論將試題難度和學生的能力分布特征統一到同一個量尺上，從而實現學生的精熟度水平和試題難度在一個量尺上表征。參照試題難度參數與學生能力值的匹配性檢驗——懷特圖，在此量尺上將測評題目從易到難排列、學生的能力從低到高分布；經專家評議后在題冊中選擇某一個題目作為劃分等級的標志參考。如PISA等級劃分以項目反應理論為基礎，借助預期成功率、水平寬度、反應概率等關鍵變量的定義規則劃定等級臨界點。預期成功率、水平寬度、反應概率的定義描述如下。

1）預期成功率指在均衡分布于同一等級水平組的試題組成的測試中，處于該水平的學生回答試題時被期望的正確率。PISA認為預期成功率為至少正確完成該等級水平組50%的試題，在中間及偏上水平的學生可以達到更高的正確率。取預期成功率為50%的最低被試能力值為該水平層級的下限等級分界點。

2）水平寬度指各水平上下界之間的距離。不同水平應該有大約基本相等的寬度，有時也不做此方面的硬性要求，如PISA科學素養測試中的水平寬度設置為0.8logits。最低水平下限的確定服從“最低水平的寬度與其他水平的寬度基本相同”的假定。

3）反應概率指當某試題難度值與學生能力值匹配時，學生正確回答該試題的概率，即確定該層次水平中中等能力水平的學生正確解決該層次中平均難度試題的概率值。

在滿足預期成功率的基礎條件下，水平寬度（a）與該層級的學生反應概率值（b）之間存在一定約束條件公式，基于此公式可計算水平寬度，劃分出上限等級分界點。水平寬度與該層級的學生反應概率值的關系公式為：

在實際的等級劃分中為避免層級的區間重疊，可以根據預期成功率結合約束條件公式從優先劃分最高等級的下限分界點開始，再以此劃分低等級的下限分界點。在應用單維項目反應理論對被試的整體學業水平等級劃分后，依據子維度能力向量合成疊加構成整體能力值及個體從屬整體的基本思想，若整體能力為某一水平等級，則各子維度也處于同一水平等級。考慮到多維項目反應理論（包括題間多維和題內多維）一般多采用補償模型，應用多維模型進行不同維度的子能力值和項目參數估計后，在整體能力層級上下限分界點劃定的區間內，對應將各子能力值排序后確定各子能力的等級區間分

界點。

3" 軟件應用

3.1" 參數估計

項目反應理論的核心為試題參數和能力值的估計，ConQuest軟件是PISA測試的定制分析軟件，前期版本以拉希創制的單參數邏輯斯蒂模型為基礎[3]，采取聯合極大似然估計（JMLE）和邊際最大似然估計（MMLE）構建模型方程進行能力和試題參數估計。其中，聯合極大似然估計在參數估計Estimate語句中采用的方法為（method=jml）；邊際最大似然估計在參數估計Estimate語句中采用的算法可分為邊界積分方法（method=quadrature）、蒙特卡羅方法（method=montecarlo）和高斯－厄米特積分（method=gauss）法，默認的是高斯－厄米特積分法。聯合極大似然估計是對能力參數與試題參數同時估計，邊際最大似然估計是通過作答向量的邊際似然函數估計試題參數，在具體參數估計計算積分時可采用邊界積分、高斯積分和蒙特卡羅采樣積分法。

ConQuest軟件既可以估計試題參數，也可以估計被試能力值，分別通過show parameters和show

cases語句實現。估計被試時由Estimates設定似

然方程估計能力參數格式類型，即由Estimates=

type語句設定，type可以是eap（貝葉斯法的期望估計值）、latent（似真值估計）、mle（邊際似然估計）、wle（加權似然估計）和none，也可由plausible給出似真值文件，如plausible=mdim.pls，通常PISA采用5個不同的似真值描述被試能力值，同時PISA給出似真值的平均估計值。當對試題參數進行估計時，默認是使用似然值估計，即latent。在PISA類測試中通常設置被試能力分布均值為0，以便于跨年度的比較，通過如下語句

完成：

Set constraints=cases;

通常在估計學科整體學業表現時采用單維模型，在估計各子維度能力時采用補償性多維項目模型。以某學校初中七年級科學年度學業考試為例（188名考生，地理、生物合考。其中地理29題，生物38題；地理為維度1，生物為維度2），采用單參數多維多級評分模型，ConQuest軟件代碼如下：

datafile msd.dat;

format id 1-8 response 10-76;

labels lt;lt;msd.txt;

codes 0，1，2;

key 1111111111111111111111111111111111111111111111111111111111111111111！ “1”;

key xxxxxxxxxxxxxxxxxxxxxxxxx2222xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx222222" ！ “2”;

score（0，1）（0，1）（）！item（1，2，3，4，5，6，7）;

score （0，1）（0，1）（）！item（8，9，10，11，12，13，14，15，16，

17，18，19，20，21，22，23，24，25）;

score （0，1，2）（0，1，2）（）！item（26，27，

28，29）;

score （0，1）（）（0，1）！item（30，31，32，33，

34，35，36，37，38，39，40，41，42，43，44，45，46，

47，48）;

score （0，1）（）（0，1）！item（49，50，51，52，53，54，55，56，

57，58，59，60，61）;

score（0，1，2）（）（0，1，2）！item（62，63，64，

65，66，67）;

model item + item* step;

Set constraint=cases， update=yes;

Estimate ！ method=gauss;

itanal ！ estimates=latent gt;gt;MSD.itn;

show cases！estimates=eap gt;gt;MSD.eap;

show cases ！ estimate=mle gt;gt;MSD.mle;

show cases！estimates=latent gt;gt;MSD.pls;

show cases！estimates=wle gt;gt;MSD.wle;

show ！ estimates=eapgt;gt;MSD.shw;

3.2" 適配度及項目差異檢驗

3.2.1" 適配度檢驗

ConQuest的模型適配度通常為試題適配度檢驗，即比較考生在試題上的實際表現與應用IRT模型所估計出的預期表現，通常習慣上把能力量尺分割成等距的10～15個區間，某個能力組別考生在某個試題作答正確的比例為實得百分比，即某個能力組內的考生答對某試題的總數與該能力組的考生總人數之比。該能力組的期望百分比為以每一能力組別的組中點代表該組的能力值，以該值按照IRT模型計算在該題的正確反應概率，將實得百分比與期望百分比之差作為原始殘差，將原始殘差標準化后轉換為標準化殘差，可構建卡方檢驗，通常采用Q1指標檢驗模型適配度。ConQuest軟件有兩種形式的卡方擬合指標：Outfit MNSQ（未加權）和Infit MNSQ（加權后），兩項指標均由殘差計算而來，一般取Outfit MNSQ指標，建議取0.5～1.5的范圍，表示該題對測量具有生產性。

3.2.2" 項目差異功能

不同測量都是由具體的項目試題構成，具有不同文化背景和生活環境的被試由于對試題的熟悉程度、理解能力等方面不同，可能造成結果的不同，從而導致測量結果對一些群體的個體有利，對其他群體個體不利，即導致項目功能差異（DIF）現象。利用基于拉希模型的隨機系數多項式Logit模型可以獲取不同組別的DIF估計值，設用γ表示項目與有關因素變量的交互效應，即表示不同組別群體在試題難度上的差異。美國教育考試服務中心對DIF進行了分類，把ConQuest軟件估計的DIF效應量范圍劃定為：2γ＜0.426為輕微DIF；0.426≤

2γ＜0.638為中度DIF；2γ≥0.638為嚴重DIF。

ConQuest軟件的DIF檢定采用多面模型進行DIF分析，此DIF分析原理為采取項目反應理論取向的DIF鑒定法，通過計算兩個群體得到的兩條試題特性曲線之間的面積實現比較DIF。即不存在DIF時，一道試題在兩個群體的試題特性曲線是重合的，所夾面積為0。根據任兩條試題特性曲線（ICC）之間所夾面積的通用計算公式，對于單參數模型在一定能力區間內兩條曲線所夾面積為等量尺后目標群體與參照群體的試題難度值差的絕對值。

現以八年級地理區域學業考試為例分析，ConQuest代碼為：

datafile dldif.dat;

format id 1-9 xb 10 response 11-39;

labels lt;lt;dldif.txt;

codes 0，1，2;

key 11111111111111111111111111111 ！ “1”;

key xxxxxxxxxxxxxxxxxxxxxxxxx2222 ！ “2”;

model item + item * step - xb + item * xb;

Set constraint=cases， update=yes;

Estimate ！ stderr=full， method=gauss;

show ！table=2gt;gt; dldif.shw;

其中，“model item + item* step - xb + item*

xb”語句中涉及項目和性別兩個方面，當ConQuest傳遞數據時，它將識別項目和性別變量的所有可能組合，并構建58個通用項目（兩個個性別的29個試題）。模型聲明要求使用項目、性別主效應以及項目和性別之間的交互效應來描述對這些通用項目進行正確響應的概率，同時項目評估模型使用分部模型。

4" 結束語

總之，以PISA測試技術為代表的大型學業質量

監測項目，技術細節內涵豐富，需要探索學習的內容尚有許多。鑒于PISA監測項目的不同目標要求只測評學生的宏觀學科能力素養，而綜合考量基于區域監測的診斷功能考慮，在進行學生學科能力素養水平測量的同時還要兼顧微觀認知診斷。基于此，在應用項目反應理論測試學生核心素養能力的同時融合認知診斷理論模型，能夠更好地發揮區域監測宏觀測量和微觀診斷的雙重功能，從而提高區域監測效能。

5" 參考文獻

[1] 穆明.基于IRT的測驗等值應用研究[J].教育與裝備研究，2023，39（2）：64-70.

[2] 杜文久.高等項目反應理論[M].北京：科學出版社，2014：

61-62.

[3] 希爾倫斯，格拉斯.教育評價與監測：一種系統的方

法[M].邊玉芳，譯.北京：教育科學出版社，2017：190-191.

作者簡介：邢建，淄博市教育招生考試院副院長；穆明，高級教師。