不定長CAT 引入曝光因子的平均調整信息選題策略研究*

2015-12-27 06:25:26朱隆尹丁樹良程小揚藍立毅

心理學探新 2015年1期

朱隆尹，丁樹良，程小揚，藍立毅

(1.江西師范大學，南昌330022;2.贛南師范學院，贛州341000)

1 引言

計算機化自適應測驗(Computerized Adaptive Test，CAT)是項目反應理論(Item Response Theory，IRT)和計算機技術相結合的產物，是目前流行的現代考試方式之一。有了一個高質量的題庫以后，CAT 需要考慮的主要問題有測驗入口設計、能力估計方法、選題策略和終止規則等四個問題。一個好的選題策略要兼顧提高能力估計的精度和測驗的安全性。Lord(1977)最早提出了極大Fisher 信息量選題策略(MFI)，張華華(2002)認為極大信息量選題法雖然測驗效率高，但試題曝光率太高，容易引發測驗安全問題;Chang 和Ying(1999)進而提出了按a-分層選題策略，文劍冰和侯杰泰(2001)研究過a-分層選題策略。一般情況下子題庫數量都是相等或近似相等，程小揚和丁樹良(2011)認為分層化選題策略中子題庫題量不平衡會改善CAT 性能他們在按a-分層選題策略基礎上提出子題庫題量不平衡的選題策略。Chang，Qian 和Ying(2001)和Qing等(2003)認為按a-分層選題策略沒有考慮項目a、b 參數的相關性，由此提出了按b -分層的選題策略。Barrada，Mazuel 和Olea(2006)認為按b -分層選題策略在3PLM 中沒有充分考慮項目的猜測度等參數，他們提出充分利用3PLM 項目所有參數的MIS-B 選題策略，特別有趣的是MIS -B 選題策略在2PLM 下實際上就是按b -分層選題策略。程小揚、丁樹良、嚴深海和朱隆尹(2011)在Lord 的極大信息選題策略基礎上引入曝光因子以改善項目曝光率，具體做法如下:

記ecf(j)、λj和a(j，T，K)分別為項目j 的曝光因子、調節因子和區分度aj的冪函數，把極大Fisher信息量選題法中的信息量計算方法修正為:

表1 λj的取值與ecf(j)的關系

其中N 為題庫項目總數，nj為項目j 被前n -1 個考生使用的次數。

其中aj為項目j 的區分度，T 表示分T 個階段選題，k(k=1，2，…，T)表示當前CAT 實施中選題所處的階段。

CAT 施測時每次只要從題庫中選取fj(θ^)最大的當前考生尚未使用的項目(稱為該考生的剩余題庫，不致混淆時，簡稱為剩余題庫)即可。

程小揚等人(2011)引入曝光因子的選題策略能很好地改善項目的曝光率，有力地增強了測驗的安全性。為方便敘述，這里稱程小揚等人(2011)的這個選題策略為程氏選題法。

程氏選題法是否有其他進一步改進的方法和策略，改進后效果如何是一個值得探討的問題。

2 新選題策略設計

即

當項目量小時，(5)式不一定成立，但是這里仍采用(5)式的區間作為的一個區間估計(只不過這時估計精度比較差)。把［- ME()，+ME()］平均分成q 等分(q 為項目參數估計時結點數，據漆書青，戴海琦，丁樹良(2002)介紹，BILOG推薦使用項目數量的平方根取整的2 倍)，記為x1，x2，…，xq，則平均調整信息計算方法如下:

這樣，CAT 施測時每次只要從剩余題庫中選取Avgj()最大的項目即可。稱(6)式的選題法為極大平均調整信息策略(Maximum Average Adjustment Information Strategy，MAAIS)。

為了考察新的選題策略的表現，將其和幾種目前認為較好的進行比較，比較方法是Monte Carlo 模擬，并采用以下評價標準，CAT 的測驗偏差Bias、測驗標準誤差MSE、測驗效率E、試題曝光均勻度Chi、測驗重疊率R 和綜合評價Comp，各指標計算公式如下:

設M 為被試總數，infj為被試j 測量的總信息量，Lj為被試j 的測試長度，為被試j 的能力估計值，θj為被試j 的能力真值，N 為題庫總項目數，Ai是題庫中第i 個項目的曝光率，TO 是被試的項目重疊總數，mi是題庫中第i 個項目使用的次數。

用AvgL 表示平均測驗長度。

顯然，測驗效率E 值越大越好;測驗偏差Bias、測驗標準誤差MSE、試題曝光均勻度Chi 和測驗重疊率R 則是其值越小越好。

綜合評價Comp 的計算方法是對Bias、MSE、E、Chi 和R 統一量綱后再加權求和。陳德枝(2004)給這五個標準的權分別是0.5、0.5、1、1 和1(當然也可根據實際需要適當調整)。對評價標準統一量綱的方法是:對值越大越好的評價標準，所有方法在此標準上的最大值做分母，各種方法在該標準上的值做分子，求這兩者的比值;對值越小越好的評價標準，所有方法在此標準上的最小值做分子，各種方法在該標準上的值做分母，求這兩者的比值。顯見，Comp 是越大越好。

3 實驗方法與結果分析

Monte Carlo 模擬實驗中題庫分4 個階段，考試總信息量取16，考試最大試題長度為40 個，考生樣本數量為1000 人，試題庫數量為1000 題?？忌后w能力服從標準正態分布，試題難度參數b 分別考慮服從N(0，1)且-3≤b≤3 和U(-3，3)兩種情況，試題區分度參數a 分別考慮lna 服從N(0，1)且0.2≤a≤2.5 和U(0.2，2.5)兩種情況，試題猜測度c 服從α 為5 和β 為17 的貝塔分布，考慮到每個題庫重復5 次實驗的平均時間約1 小時左右，本文共模擬了6 個題庫，每個實驗結果為6 個題庫分別重復5 次的總平均值。文中所有實驗程序均采用Matlab 2007 編寫運行。

表2 3PLM 不定長CAT 不同選題策略實驗結果(lna∽N(0，1)，b∽N(0，1))

表3 3PLM 不定長CAT 不同選題策略實驗結果(lna∽N(0，1)，b∽U(-3，3))

表4 3PLM 不定長CAT 不同選題策略實驗結果(a∽U(0.2，2.5)，b∽U(-3，3))

表5 3PLM 不定長CAT 不同選題策略實驗結果(a∽U(0.2，2.5)，b∽N(0，1))

縱觀上面四個表可以看出，與其他兩個選題策略相比，MAAIS 和OMAAIS 選題法都有較明顯的優勢，當難度b 服從標準正態分布時OMAAIS 要比MAAIS 好，當難度服從均勻分布時，MAAIS 要比OMAAIS 好。

當然在表中列出的選題策略中，按計算量由小到大排序的順序分別是:按b - 分層、程氏選題法、OMAAIS 和MAAIS。在模擬實驗時在每個重復實驗中MAAIS 下每個考生花費的時間不到1 秒鐘，只要采用適當的編程優化，MAAIS 增加的計算量可以接受。

4 進一步要研究的問題

雖然這里只給出了3PLM 模型下不定長CAT的結果，事實上以上實驗結果也適用于2PLM 模型下不定長CAT。

MAAIS 和OMAAIS 選題策略相對程氏選題法明顯增加了計算量，如何繼續進一步優化以減少計算量是今后要研究的問題之一;另外如何將MAAIS和OMAAIS 選題策略用到多級評分模型CAT 或認知診斷的CAT，這也是今后要進一步研究的問題;還有當題量很小時，(5)式誤差或很大，估計區間是否應該放大，以及如何放大，放大以后效果如何等等都值得考慮。

本文在第十屆海峽兩岸教育與心理測量年會上宣讀時，UIUC 張華華先生和臺灣中正大學蘇雅蕙女士給出了十分中肯的評論，給本文的修改提供了很大的幫助，特此致謝。

陳德枝.(2004).Samejima 等級反應模型下CAT 選題策略比較研究.碩士論文.(未出版).南昌:江西師范大學.

程小揚，丁樹良.(2011).子題庫題量不平衡的按a 分層選題策略.江西師范大學學報，35(1)，5 -9.

程小揚，丁樹良，嚴深海，朱隆尹. (2011). 引入曝光因子的計算機化自適應測驗選題策略.心理學報，43(2)，203 -212.

漆書青，戴海琦，丁樹良.(2002).現代教育與心理測量學原理.北京:高等教育出版社.

文劍冰，侯杰泰.(2001).A -stratified 方法在不定長度CAT中的應用. 臺北:第五屆華人社會心理與教育學術研討會.

張華華.(2002). 計算機自適應考試設計中的誤區.考試研究，2，35 -39.

Chang，H.H.，Qian，J.，＆ Ying，Z.(2001).A-stratified multistage CAT with b -blocking. Applied Psychological Measurement，25，333 -341.

Chang，H.，＆ Ying，Z.(1999).A-stratified multistage computerized adaptive testing. Applied Psychological Measurement，25，211 -222.

Juan，R.B.，Paloma，M.J.，＆ Julio，O.(2006).Maximum information stratification method for controlling item exposure in computerized adaptive testing.Pslcothema，18(1)，156 -159.Load，F.M.(1977).Practical applications of item characteristic curve theory.Journal of Educational Measurement，14，117 -138.

Qing，Y.，＆ Chang，H. H. (2003). A - stratified design with content-blocking.Br J Math Stat Psychol，56，359 -378.