張濱




摘要:針對最大信息量選題策略中因項目曝光不均勻所導致的題庫安全性問題,在沿用曝光因子和自動控制區分度函數的基礎上,在0-1評分的不定長計算機化自適應測驗下提出了一種新的選題策略。蒙特卡洛實驗結果表明新的選題策略通過在測驗過程中動態控制曝光因子和區分度的大小,使信息量大的項目被選中的概率提高,既保證了測驗的效率和精度,同時也較大程度地降低了項目的曝光率,提高了題庫的安全性。
關鍵詞:計算機化自適應測驗;項目反應理論;選題策略;項目信息量;蒙特卡洛模擬
中圖分類號:TP391.76? ? ? 文獻標識碼:A
文章編號:1009-3044(2023)31-0071-03
開放科學(資源服務)標識碼(OSID)
0 引言
計算機化自適應測驗(Computerized Adaptive Test,CAT) 是以現代測量理論為基礎,結合了計算機技術的一種新型測驗形式。相比傳統的測驗形式,計算機化自適應測驗實現了個性化測驗,有著更精確的測量精度并且保證了測驗過程更加公平,具有高效、準確、公平、靈活等優勢。目前,CAT廣泛應用于各類考試中,如國外的美國研究生入學考試(GRE)、美國(工商)管理類研究生入學考試(GMAT) 以及國內的漢語水平測試(HSK)、第四軍醫大學對應征者進行的文化水平測驗都是采用CAT的測驗形式。
在計算機化自適應測驗中,選題策略是較為關鍵的一環,不僅直接影響著測驗的效率和精度,和題庫的安全性也密切相關。目前CAT中用得較多的選題策略是Lord[1]在1970年提出的最大Fisher信息量選題策略(Maximum Fisher Information, MFI) ,該選題策略的測驗效率非常高,使用少量的項目就能夠快速準確地估計被試的能力水平。然而,MFI對高區分度項目的過度使用使得這些項目的曝光次數較多,低區分度的項目被調用的次數較少,嚴重影響了題庫中項目曝光的均勻性,進而對題庫的安全性產生威脅。后來學者們針對MFI在曝光度和安全性上的缺陷提出了不同的選題策略。Chang和Ying提出了按a分層法[2](a-STR) ,這是一種通過區分度的大小對題庫進行分層實現逐層升a的選題策略。針對MFI選題策略的缺陷,結合按a分層法選題策略分層的思想,程小揚和丁樹良等引入了三個新的變量提出了引入曝光因子的最大信息量選題策略,下面簡稱程方法。這三個變量分別是項目j控制曝光因子ecf(j)、ecf(j)的調節因子[λi]以及區分度aj的冪函數a(j,T,k)。其中ecf(j)=mj / m,mj 是項目j被前m-1個被試使用的次數,m是前m-1個被試使用題庫中所有項目的平均次數。[a(j,T,k)=a2(T-k)T-1j],T表示將測驗過程中的選題分為T個階段,k(取值為1,2 ... T) 表示CAT進行選題時項目j所處的階段[3]。在MFI選題策略基礎上引入曝光因子以及區分度函數后,項目的調用次數變得更加均勻,較大程度地改善了項目的曝光率。李萍和甘登文等考慮到引入曝光因子的CAT選題策略仍需對題庫進行分層才能夠進行選題,提出了不需要進行分層就能自動控制區分度作用的新選題策略[4],下面簡稱李方法。通過引入新的區分度冪函數a(j,i)實現在測驗過程中動態調節區分度對信息量函數的影響。在定長CAT測驗中,a(j,i)=[a2·(test_length-L(i))/test_lengthj],在不定長CAT測驗中,a(j,i)=[a2·(Infor-infor(i))/Inforj]。其中的test_length代表定長測驗中預設的測驗長度,L(i)是第i個被試當前已經作答完的項目數量,Infor代表不定長測驗中被試需完成的項目信息總量,Infor(i)則是第i個被試當前已經完成的項目信息總量。新的區分度冪函數實現了隨著測驗進程的深入,逐步減少區分度對信息量的影響,在引入曝光因子的基礎上,進一步降低了被試的測驗長度。朱隆尹、丁樹良和程小揚等引入曝光因子后,通過調整信息平均的方法提出了引入曝光因子的平均調整信息選題法[5]。賀翔、羅芬等在動態a分層方法基礎上引入均值不等式,構造了新的動態a分層法,進一步提高了測驗的安全性[6]。楊文清在引入曝光因子的基礎上定義了曝光因子控制指數函數,通過這一函數逐步弱化曝光因子在選題策略中的影響[7],下面簡稱楊方法。王璞玨和劉紅云基于推薦系統中協同過濾推薦的思想,提出兩種可以利用已有答題者數據的CAT選題策略:直接基于答題者推薦(DEBR)和間接基于答題者推薦(IEBR)[8]。李佳和丁樹良等提出了區分度與測驗進程相匹配的CAT選題策略,這是一種相對嚴格的升“a”方法[9]。
以上選題策略在對題庫安全性控制方面,部分項目仍存在著曝光次數過多的現象。本文在引入曝光因子的基礎上,參照李方法的自動控制區分度函數,在選題中同時對區分度和曝光因子進行動態控制,提出了一種新的選題策略,以獲得更好的題庫安全性。
1 新的選題策略
程方法在MFI選題策略基礎上引入曝光因子后,較好地解決了某些項目曝光次數過多的問題,使得項目調用次數更加均勻,但被試的測驗長度有所增加。李方法實現了不需要分層即可隨著測驗過程的深入減小區分度對信息量選題的影響。本文綜合了程方法引入曝光因子的后有效降低項目曝光率的優勢以及李方法動態控制區分度影響信息量選題方法的特點,參照楊方法在引入曝光因子的同時對曝光因子ecf(j)指數化,楊方法中并未對區分度進行動態調節,而是使用項目本身的區分度去削弱其對信息量的影響。新的選題策略中,通過同時對區分度及曝光因子進行動態調節,削弱曝光因子和區分度在測驗后期對信息量的影響,以達到保證測驗效率的同時提升題庫安全性的目的。
使用新的選題策略項目j要滿足的條件為:
[j=argmaxj∈RaIj(θ)ecf(j)t(i)·at(i)j] (1)
式子中的控制曝光因子和區分度的控制函數使用李方法中不定長測驗的自動控制區分度函數t(i)=[2(Infor-infor(i))/Infor],Ra表示當前被試在題庫中尚未作答的項目,[Ij(θ)]是估計能力為[θ]的被試在項目j上所含的項目信息量,ecf(j)是程方法中的曝光因子,Infor代表不定長測驗中被試需完成的項目信息總量,Infor(i)則是第i個被試當前已經完成的項目信息總量。
2 實驗設計
本文實驗中的測驗采用0-1評分的三參數Logistic模型,其項目反應函數為:
[Pj(θi)=P(uij=1 | θi)=cj+(1-cj)exp{aj(θi-bj)}1+exp{aj(θi-bj)}]? (2)
在3PL模型中,[uij]是取值為0或1的伯努利隨機變量,代表著被試i在項目j上的二級計分反應,[uij]值為1表示被試正確作答項目j,[uij]值為0則表示被試錯誤作答項目j;[Pj(θi)]表示能力為[θ]的被試i在二級評分項目j上正確作答的概率,[aj],[bj],[cj]分別為項目j區分度參數,難度系數以及猜測參數。
2.1 模擬生成題庫和被試
計算機模擬生成含有項目數量為1 000題的4個題庫,題庫中項目的區分度參數、難度參數和猜測參數均按照分布模擬生成[9]。得到以下4個項目參數服從不同分布的題庫:
題庫1生成區分度a服從對數正態分布,難度b服從標準正態分布,猜測參數c服從α為5,β為17的貝塔分布,記為[Ina~N(0,1)∧a∈(0.2,2.5),b~N(0,1)∧b∈(-3,3),c~Beta(5,17)]。
題庫2生成區分度a服從均勻分布,難度b服從均勻分布,猜測參數c服從α為5,β為17的貝塔分布,記為[a~U(0.2,2.5),b~U(-3,3),c~Beta(5,17)]。
題庫3生成區分度a服從對數正態分布,難度b服從均勻分布,猜測參數服從α為5,β為17的貝塔分布,記為[Ina~N(0,1)∧a∈(0.2,2.5),b~U(-3,3),c~Beta(5,17)]。
題庫4生成區分度a服從均勻分布,難度b服從標準正態分布,猜測參數服從α為5,β為17的貝塔分布,記為[a~U(0.2,2.5),b~N(0,1)∧b∈(-3,3),c~Beta(5,17)]。
計算機模擬生成1 000個被試,被試的能力參數均服從標準正態分布,即能力參數[θ~N(0,1)],且[-3<θ<3]。
2.2 模擬被試作答
根據所選項目j的項目參數a、b、c以及被試i的能力估計值θ,代入式(2)計算其答對項目的概率[Pj(θi)],同時通過計算機模擬生成一個服從0到1之間均勻分布的隨機數r,記為[r~U(0,1)]。如果[r<Pj(θi)],認為被試i正確作答了項目j,記被試i在項目j上作答反應[uij=1];倘若[r?Pj(θi)],則認為被試i錯誤作答了項目j,則被試i在項目j上作答反應[uij=0]。
2.3 模擬CAT施測過程
CAT施測過程有兩個階段,第一階段是模擬測試的初始階段,從題庫中隨機選擇3個項目供被試作答,答對計1分,答錯計0分,計算被試的得分與失分的比值的自然對數值,將其作為被試的初始能力估計值;隨后進入第二階段,即被試能力的精確估計階段,使用貝葉斯期望后驗估計方法精準估計被試的能力值。
2.4 評價指標
本文用測驗效率Eff、測驗偏差Bias、測驗標準誤差MSE、試題曝光均勻度Chi及測驗重疊率R、最小測驗試題長度MinL、平均測驗試題長度AvgL等評價指標來評價選題策略的優劣,除測驗效率值為越大越好以外,其余評價指標均為越小越好。
3 實驗結果及其分析
表1至表4的數據是在不定長CAT測驗中選用三參數Logistic模型的實驗結果,通過四張表數據可以看出,新的選題策略在保證測驗效率和測量精度的情況下,有效降低了測驗的曝光均勻度,保證了題庫的安全性。在測驗效率上,新方法除略低于李方法外,比其他方法都表現得更好;新方法在損失少許測量精度的同時,極大地降低了測驗項目的曝光率和測驗的重疊率;新方法在測驗長度上總體與李方法相當,優于其他的選題策略。總體而言,新的選題策略提高了題庫的安全性的同時,測量的精度依然能夠保持在一個較好的水平。
4 小結與展望
本文對CAT的重要組成部分選題策略進行了研究。在選題策略的研究中,沿用程小揚提出的曝光因子和李萍的自動控制區分度函數的基礎上,在使用0-1評分三參數logistic模型的不定長CAT中,提出了新的選題策略。Monte Carlo模擬實驗表明新的選題策略在保證測量精度的同時,大幅度地降低了項目的曝光均勻度,有效提升了題庫的安全性。在自適應測驗選題算法改進上,新的選題策略較以往的選題方法在曝光均勻度上表現更好,但在測驗效率和測量精度等指標的表現上沒有與李方法拉開差距。因此,在今后的研究中可以進一步提高該選題策略的測驗精度,降低其測驗的長度;其次,新的選題策略僅在不定長CAT上進行了應用,其在定長CAT上的表現還需進一步的研究。
參考文獻:
[1] LORD F M. Some test theory for tailored testing[R]// HOLZMAN W H.Computer assisted instruction, testing, and guidance.New York: Harper & Row, 1970:139-183.
[2] CHANG H H,YING Z L. A-stratified multistage computerized adaptive testing, Applied Psychological Measurement, 1999, 23(3): 211-222.
[3] 程小揚,丁樹良,嚴深海,等.引入曝光因子的計算機化自適應測驗選題策略[J].心理學報,2011,43(2):203-212.
[4] 李萍,甘登文,丁樹良.自動控制區分度作用的選題策略研究[J].江西師范大學學報(自然科學版),2013,37(1):101-105.
[5] 朱隆尹,丁樹良,程小揚,等.不定長CAT引入曝光因子的平均調整信息選題策略研究[J].心理學探新,2015,35(1):68-71.
[6] 賀翔,羅芬,甘登文,等.一種提升題庫安全性的選題策略[J].江西師范大學學報(自然科學版),2016,40(4):363-368.
[7] 楊文清.CAT中提升題庫安全性的選題策略和a分層終止規則的研究[D].南昌:江西師范大學,2017.
[8] 王璞玨,劉紅云.讓自適應測驗更知人善選——基于推薦系統的選題策略[J].心理學報,2019,51(9):1057-1067.
[9] 李佳,丁樹良,況天昊.區分度與測驗進程相匹配的CAT選題策略[J].江西師范大學學報(自然科學版),2021,45(4):384-389.
【通聯編輯:王 力】