朱隆尹,丁樹良,程小揚,藍立毅
(1.江西師范大學,南昌330022;2.贛南師范學院,贛州341000)
計算機化自適應測驗(Computerized Adaptive Test,CAT)是項目反應理論(Item Response Theory,IRT)和計算機技術相結合的產物,是目前流行的現代考試方式之一。有了一個高質量的題庫以后,CAT 需要考慮的主要問題有測驗入口設計、能力估計方法、選題策略和終止規則等四個問題。一個好的選題策略要兼顧提高能力估計的精度和測驗的安全性。Lord(1977)最早提出了極大Fisher 信息量選題策略(MFI),張華華(2002)認為極大信息量選題法雖然測驗效率高,但試題曝光率太高,容易引發測驗安全問題;Chang 和Ying(1999)進而提出了按a-分層選題策略,文劍冰和侯杰泰(2001)研究過a-分層選題策略。一般情況下子題庫數量都是相等或近似相等,程小揚和丁樹良(2011)認為分層化選題策略中子題庫題量不平衡會改善CAT 性能他們在按a-分層選題策略基礎上提出子題庫題量不平衡的選題策略。Chang,Qian 和Ying(2001)和Qing等(2003)認為按a-分層選題策略沒有考慮項目a、b 參數的相關性,由此提出了按b -分層的選題策略。Barrada,Mazuel 和Olea(2006)認為按b -分層選題策略在3PLM 中沒有充分考慮項目的猜測度等參數,他們提出充分利用3PLM 項目所有參數的MIS-B 選題策略,特別有趣的是MIS -B 選題策略在2PLM 下實際上就是按b -分層選題策略。程小揚、丁樹良、嚴深海和朱隆尹(2011)在Lord 的極大信息選題策略基礎上引入曝光因子以改善項目曝光率,具體做法如下:
記ecf(j)、λj和a(j,T,K)分別為項目j 的曝光因子、調節因子和區分度aj的冪函數,把極大Fisher信息量選題法中的信息量計算方法修正為:


表1 λj的取值與ecf(j)的關系

其中N 為題庫項目總數,nj為項目j 被前n -1 個考生使用的次數。

其中aj為項目j 的區分度,T 表示分T 個階段選題,k(k=1,2,…,T)表示當前CAT 實施中選題所處的階段。
CAT 施測時每次只要從題庫中選取fj(θ^)最大的當前考生尚未使用的項目(稱為該考生的剩余題庫,不致混淆時,簡稱為剩余題庫)即可。
程小揚等人(2011)引入曝光因子的選題策略能很好地改善項目的曝光率,有力地增強了測驗的安全性。為方便敘述,這里稱程小揚等人(2011)的這個選題策略為程氏選題法。
程氏選題法是否有其他進一步改進的方法和策略,改進后效果如何是一個值得探討的問題。

即

當項目量小時,(5)式不一定成立,但是這里仍采用(5)式的區間作為的一個區間估計(只不過這時 估 計 精 度 比 較 差)。把[- ME(),+ME()]平均分成q 等分(q 為項目參數估計時結點數,據漆書青,戴海琦,丁樹良(2002)介紹,BILOG推薦使用項目數量的平方根取整的2 倍),記為x1,x2,…,xq,則平均調整信息計算方法如下:

這樣,CAT 施測時每次只要從剩余題庫中選取Avgj()最大的項目即可。稱(6)式的選題法為極大平均調整信息策略(Maximum Average Adjustment Information Strategy,MAAIS)。
為了考察新的選題策略的表現,將其和幾種目前認為較好的進行比較,比較方法是Monte Carlo 模擬,并采用以下評價標準,CAT 的測驗偏差Bias、測驗標準誤差MSE、測驗效率E、試題曝光均勻度Chi、測驗重疊率R 和綜合評價Comp,各指標計算公式如下:
設M 為被試總數,infj為被試j 測量的總信息量,Lj為被試j 的測試長度,為被試j 的能力估計值,θj為被試j 的能力真值,N 為題庫總項目數,Ai是題庫中第i 個項目的曝光率,TO 是被試的項目重疊總數,mi是題庫中第i 個項目使用的次數。

用AvgL 表示平均測驗長度。
顯然,測驗效率E 值越大越好;測驗偏差Bias、測驗標準誤差MSE、試題曝光均勻度Chi 和測驗重疊率R 則是其值越小越好。
綜合評價Comp 的計算方法是對Bias、MSE、E、Chi 和R 統一量綱后再加權求和。陳德枝(2004)給這五個標準的權分別是0.5、0.5、1、1 和1(當然也可根據實際需要適當調整)。對評價標準統一量綱的方法是:對值越大越好的評價標準,所有方法在此標準上的最大值做分母,各種方法在該標準上的值做分子,求這兩者的比值;對值越小越好的評價標準,所有方法在此標準上的最小值做分子,各種方法在該標準上的值做分母,求這兩者的比值。顯見,Comp 是越大越好。
Monte Carlo 模擬實驗中題庫分4 個階段,考試總信息量取16,考試最大試題長度為40 個,考生樣本數量為1000 人,試題庫數量為1000 題??忌后w能力服從標準正態分布,試題難度參數b 分別考慮服從N(0,1)且-3≤b≤3 和U(-3,3)兩種情況,試題區分度參數a 分別考慮lna 服從N(0,1)且0.2≤a≤2.5 和U(0.2,2.5)兩種情況,試題猜測度c 服從α 為5 和β 為17 的貝塔分布,考慮到每個題庫重復5 次實驗的平均時間約1 小時左右,本文共模擬了6 個題庫,每個實驗結果為6 個題庫分別重復5 次的總平均值。文中所有實驗程序均采用Matlab 2007 編寫運行。

表2 3PLM 不定長CAT 不同選題策略實驗結果(lna∽N(0,1),b∽N(0,1))

表3 3PLM 不定長CAT 不同選題策略實驗結果(lna∽N(0,1),b∽U(-3,3))

表4 3PLM 不定長CAT 不同選題策略實驗結果(a∽U(0.2,2.5),b∽U(-3,3))

表5 3PLM 不定長CAT 不同選題策略實驗結果(a∽U(0.2,2.5),b∽N(0,1))
縱觀上面四個表可以看出,與其他兩個選題策略相比,MAAIS 和OMAAIS 選題法都有較明顯的優勢,當難度b 服從標準正態分布時OMAAIS 要比MAAIS 好,當難度服從均勻分布時,MAAIS 要比OMAAIS 好。
當然在表中列出的選題策略中,按計算量由小到大排序的順序分別是:按b - 分層、程氏選題法、OMAAIS 和MAAIS。在模擬實驗時在每個重復實驗中MAAIS 下每個考生花費的時間不到1 秒鐘,只要采用適當的編程優化,MAAIS 增加的計算量可以接受。
雖然這里只給出了3PLM 模型下不定長CAT的結果,事實上以上實驗結果也適用于2PLM 模型下不定長CAT。
MAAIS 和OMAAIS 選題策略相對程氏選題法明顯增加了計算量,如何繼續進一步優化以減少計算量是今后要研究的問題之一;另外如何將MAAIS和OMAAIS 選題策略用到多級評分模型CAT 或認知診斷的CAT,這也是今后要進一步研究的問題;還有當題量很小時,(5)式誤差或很大,估計區間是否應該放大,以及如何放大,放大以后效果如何等等都值得考慮。
本文在第十屆海峽兩岸教育與心理測量年會上宣讀時,UIUC 張華華先生和臺灣中正大學蘇雅蕙女士給出了十分中肯的評論,給本文的修改提供了很大的幫助,特此致謝。
陳德枝.(2004).Samejima 等級反應模型下CAT 選題策略比較研究.碩士論文.(未出版).南昌:江西師范大學.
程小揚,丁樹良.(2011).子題庫題量不平衡的按a 分層選題策略.江西師范大學學報,35(1),5 -9.
程小揚,丁樹良,嚴深海,朱隆尹. (2011). 引入曝光因子的計算機化自適應測驗選題策略.心理學報,43(2),203 -212.
漆書青,戴海琦,丁樹良.(2002).現代教育與心理測量學原理.北京:高等教育出版社.
文劍冰,侯杰泰.(2001).A -stratified 方法在不定長度CAT中的應用. 臺北:第五屆華人社會心理與教育學術研討會.
張華華.(2002). 計算機自適應考試設計中的誤區.考試研究,2,35 -39.
Chang,H.H.,Qian,J.,& Ying,Z.(2001).A-stratified multistage CAT with b -blocking. Applied Psychological Measurement,25,333 -341.
Chang,H.,& Ying,Z.(1999).A-stratified multistage computerized adaptive testing. Applied Psychological Measurement,25,211 -222.
Juan,R.B.,Paloma,M.J.,& Julio,O.(2006).Maximum information stratification method for controlling item exposure in computerized adaptive testing.Pslcothema,18(1),156 -159.Load,F.M.(1977).Practical applications of item characteristic curve theory.Journal of Educational Measurement,14,117 -138.
Qing,Y.,& Chang,H. H. (2003). A - stratified design with content-blocking.Br J Math Stat Psychol,56,359 -378.