劉洪峰 郭文明 余曉佳
(南方醫(yī)科大學(xué)網(wǎng)絡(luò)中心 廣東 廣州 510515)
?
基于項目反應(yīng)理論的自適應(yīng)考試系統(tǒng)的研究與設(shè)計
劉洪峰郭文明余曉佳
(南方醫(yī)科大學(xué)網(wǎng)絡(luò)中心廣東 廣州 510515)
針對基于經(jīng)典測量理論的傳統(tǒng)考試暴露出越來越多的缺點和不足這一情況,提出基于項目反應(yīng)理論的計算機自適應(yīng)考試系統(tǒng)。它能根據(jù)被試者的能力水平選擇相應(yīng)難度的題目,實現(xiàn)更快、更準確地估計出被試者的能力值。對自適應(yīng)考試系統(tǒng)中所涉及的幾個關(guān)鍵技術(shù)(參數(shù)估計、參數(shù)等值、題目曝光率控制、題庫建設(shè)等)進行研究與改進,實現(xiàn)了系統(tǒng)的設(shè)計與開發(fā)。實驗結(jié)果表明,該系統(tǒng)可以有效地測試出被試者的能力值,達到了預(yù)期目的。
項目反應(yīng)理論自適應(yīng)考試參數(shù)估計
隨著計算機和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,將計算機和網(wǎng)絡(luò)技術(shù)應(yīng)用于教育已經(jīng)成為一種趨勢。基于經(jīng)典測量理論CTT(ClassicalTestTheory)的傳統(tǒng)考試已經(jīng)暴露出很多的缺點和不足。因為CTT不論被測試者能力水平的不同,都用相同的試題進行測試,這樣就導(dǎo)致對試題區(qū)分度和難度的估計嚴重依賴于被試者的作答情況,對被試者的能力值估計也會依賴于所測試的題目,使得基于CTT所測試出來的結(jié)果并不能真正代表被試者的能力水平[1]。因此,探索一種新的考試形式已經(jīng)迫在眉睫。計算機自適應(yīng)考試系統(tǒng)建構(gòu)在項目反應(yīng)理論的基礎(chǔ)之上,讓考試變得更加高效。由于項目反應(yīng)理論有關(guān)信度理論的先進性,測量的精度也得到了更有力的保證。讓人驚喜的是,測驗效度的改善和精度的提高并沒有帶來人力和財力的增長,相反考試變得更加高效了。因為自適應(yīng)考試的突出特點就是考試的剪裁性,被試者所做的每一道題目對他來說都是最有效的測量,從而可以使被試者要做的題目數(shù)量大大減少,有效地節(jié)約了考試時間;并且這是在保證測量在一定精度上而達到的[2]。
自適應(yīng)考試現(xiàn)在還處于起步階段,現(xiàn)有的自適應(yīng)考試系統(tǒng)也各種各樣,功能參差不齊。本文針對自適應(yīng)考試系統(tǒng)所涉及的幾個關(guān)鍵技術(shù)進行了研究與改進,設(shè)計并開發(fā)了一個穩(wěn)定和可靠的自適應(yīng)考試系統(tǒng)。
1.1項目反應(yīng)理論
項目反應(yīng)理論IRT(ItemResponseTheory)是建立在潛在特質(zhì)理論基礎(chǔ)上的現(xiàn)代測量理論,是該自適應(yīng)考試系統(tǒng)構(gòu)建的理論基礎(chǔ)。項目反應(yīng)理論模型提出了被試者對測試內(nèi)容的反應(yīng)行為和其潛在的能力特質(zhì)之間的關(guān)系。在IRT中應(yīng)用最廣泛的是Logistic模型,因為該模型避免了復(fù)雜的積分運算,在估計能力和項目參數(shù)時要簡便得多[3]。
三參數(shù)的Logistic模型表達式是:
(1)
其中:i=1,2,…,n;θ表示考生的能力水平;pi(θ)表示能力水平為θ的考生答對試題i的概率;ai表示試題i的區(qū)分度;bi表示試題i的難度;ci表示試題i的猜測系數(shù)。另外,當猜測系數(shù)ci為0時就變成了雙參數(shù)模型;當ci=0并且ai=1時就變成了單參數(shù)模型。
1.2項目信息函數(shù)
項目信息函數(shù)是項目反應(yīng)理論中用以刻畫試題有效性的工具,它是直接反映被試者的得分情況對其能力估計精度的指標。項目信息函數(shù)的定義為:
(2)
由函數(shù)定義可知,I(θ)只是θ的函數(shù)。項目信息函數(shù)在測試題目質(zhì)量高低的過程中扮演著舉足輕重的角色,因為它能反映出題目對被試者能力值估計的正確性判斷上提供的信息量大小,并且只有當被試者的能力參數(shù)接近試題難度參數(shù)時,項目信息函數(shù)才能取得極大值。同時,根據(jù)項目信息函數(shù)的定義,可以計算出當信息函數(shù)為極大值時的能力參數(shù)取值為:
(3)
式(3)也是在自適應(yīng)考試過程中選擇后續(xù)試題的理論依據(jù)所在。總之,項目信息函數(shù)是反映試題優(yōu)劣的一個綜合指標,是項目反應(yīng)理論的重要組成部分。
根據(jù)該自適應(yīng)考試系統(tǒng)功能的要求,該系統(tǒng)分為3個模塊,分別是學(xué)生在線考試模塊、教師管理模塊和管理員系統(tǒng)模塊,整個系統(tǒng)結(jié)構(gòu)如圖1所示。
該自適應(yīng)考試系統(tǒng)采用B/S模式,前臺主要負責(zé)學(xué)生的自主考試,滿足學(xué)生對所學(xué)知識點有更深入了解的需求,同時教師也能根據(jù)學(xué)生的考試得分情況掌握學(xué)生的學(xué)習(xí)狀況。后臺主要提供題庫中各種試題信息的更新與維護以及試題庫的升級等功能。

圖1 自適應(yīng)考試系統(tǒng)框架結(jié)構(gòu)圖
3.1參數(shù)估計
在自適應(yīng)考試中,如何能正確估計學(xué)生的能力值是關(guān)鍵之一。目前應(yīng)用最廣泛的是極大似然估計法,但是極大似然估計法有時會出現(xiàn)迭代過程不穩(wěn)定、無法滿足收斂精度等問題,特別是當被試者答對或答錯所有題目時,能力估計將無法進行等缺點[4]。所以,下面介紹另外一種估計方法——貝葉斯估計法。
貝葉斯估計法是在貝葉斯公式基礎(chǔ)上進行的:
(4)

(5)
對于來自于先驗分布g(θ)的某一被試者產(chǎn)生反應(yīng)數(shù)據(jù)Uj的無條件概率就是:
(6)
經(jīng)過計算,可以求得θj的無條件期望為:
(7)

(8)
這一算法的一個突出特點是沒有迭代計算。其次,公式中A(Xk)值是在采用“貝葉斯估計法”估計題目參數(shù)時,經(jīng)過最后一次EM循環(huán)(求期望—極大化)調(diào)整過的能力節(jié)點Xk的權(quán)重。這意味著使用了這些A(Xk)值作為能力參數(shù)θj的先驗分布,同理L(Xk)值也是以同樣方法得到的[5]。
基于貝葉斯估計法的優(yōu)點,并且為了更加準確地估計出被試者的能力值,這里采用貝葉斯估計法與極大似然估計法相結(jié)合的方法來精確估計被試者的能力值。在考試的初始階段,使用貝葉斯估計法;隨著題目數(shù)量的增多,在貝葉斯估計法基礎(chǔ)上附加一個極大似然估計。這么做的優(yōu)點是貝葉斯估計提供了被試者較好的能力估計初值,從而可以使極大似然估計的精度大大提高,同時也可以降低貝葉斯估計對能力先驗分布的依賴。
3.2題目參數(shù)的等值
根據(jù)項目反應(yīng)理論的原理,參數(shù)估計值具有不變性的特點,但是,參數(shù)估計值的單位系統(tǒng)具有不確定性。在IRT題庫建設(shè)中最重要的是題目參數(shù)的等值問題。在能力參數(shù)未知的情況下,同一批題目根據(jù)不同被試樣組的實測數(shù)據(jù)分別估計出的兩套題目參數(shù),也會由于參照系的不同而有著不同的表現(xiàn)形式,但兩者之間一定具有某種線性轉(zhuǎn)換關(guān)系[6],這也就是題目參數(shù)等值的理論基礎(chǔ)。
對于題目參數(shù)的等值問題,這里可以利用不同的測試樣本中所包含的相同題目(又稱錨題)這一特征。由于不同的被試者都對錨題做出了反應(yīng),因此錨題中的每道試題都有成對的估計參數(shù)值。如果使用的是二參數(shù)Logistic模型,就分別是區(qū)分度參數(shù)ax和ay、難度參數(shù)bx和by,并且存在下列的線性轉(zhuǎn)換關(guān)系:
(9)這里,A、B稱作等值常數(shù),對于等值常數(shù)的求解,利用題目特征曲線的方法。由于題目特征曲線集中了題目各個方面的信息,因此建立在題目特征曲線基礎(chǔ)上的等值方法也有著更優(yōu)良的特點。
這里用一個函數(shù)來表示m道錨題在不同的兩個量表上的題目特征曲線之差求平方后再求和:
(10)
再令:
(11)
其中N表示被試樣組人數(shù),然后通過極小化Hcrit函數(shù)就能求得等值常數(shù)A、B的值。
3.3題目曝光次數(shù)控制
題庫中的題目由于性能上優(yōu)劣的不同,造成在自適應(yīng)考試的過程中,有的題目經(jīng)常會被選中,顯得很活躍,有些題目則相反。活躍的題目主要是一些難度適中和區(qū)分度較好的試題,而非活躍的題目則是一些知識內(nèi)容比較偏僻的試題。對于活躍的題目,使用一次就曝光了一次,如果在短期內(nèi)頻繁地被使用,就可能造成這些題目大面積被曝光,產(chǎn)生漏題現(xiàn)象[7],所以題目曝光次數(shù)必須要嚴格加以控制。
為了改善這一狀況,可以給每道題目賦予一個曝光控制參數(shù)K。然后在考試過程中,當某道題目被選為下個最合適的施測題目時,這時讓計算機產(chǎn)生一個0~1之間的隨機數(shù)x(0 3.4起點算法與終止算法 表面上看,初始題目的選擇對被試者最終得到的估計能力值并不重要,因為自適應(yīng)考試的特點就是通過被試者對每一道題目做出的反應(yīng)來逐步估計出其能力值。但是,實際上事情并不這么簡單,不同的試題難度起點算法,其影響是多方面的。對于一個被試者來說,假如起點題目選得很難,他將通過不斷地答錯大多數(shù)題目來向自己的能力真值靠攏,心理上會感到挫敗,這樣會削弱他對后面題目的信心;相對的,假如起點題目選得很容易,他將通過不斷地答對大多數(shù)題目向自己的能力真值逼近,其信心會激發(fā),但這也有可能使其產(chǎn)生麻痹思想[8]。 為了使上述情況有所緩解,起點算法可以采用給所有被試者施測一個平均難度相等但卻包含了難度不等的m道題目的測驗。這些測驗在題庫中有很多等值的副本,每一個被試者可以隨機選擇,但是試題的曝光次數(shù)要受到一個參數(shù)的控制。被試者做完這個測驗后,使用貝葉斯方法估計其能力參數(shù)的初值。 而終止算法則采用達到了固定的測驗長度與達到了測驗估計精度相結(jié)合的方法。當然,如果發(fā)現(xiàn)有人在考試過程中作弊,考試也可以在人為干預(yù)下強行終止。整個考試過程可以用圖2來表示。 圖2 自適應(yīng)考試系統(tǒng)流程圖 3.5題庫建設(shè)和系統(tǒng)實現(xiàn) 在試題庫的建設(shè)過程中,為了節(jié)省人力、物力和節(jié)約時間,采用專家估計和似然法相結(jié)合的方法來求出試題的難度、區(qū)分度及猜測系數(shù)。同時,題庫中的題目還要保證具有一定的寬度,即試題的考核點要覆蓋考試幾乎所有的內(nèi)容;題目又要有足夠的深度,即在每一項考試內(nèi)容上都要有足夠多的和難度層次不同的題目來對能力水平不同的被試者施測,這樣才能估計出他們的能力值。由于自適應(yīng)考試是根據(jù)“最大信息量”原則從題庫中選取后續(xù)試題,即每選一道試題都要對題庫中所有題目進行信息量的計算,這樣會對服務(wù)器造成極大負擔(dān)。根據(jù)式(3)可以計算出使項目信息函數(shù)取最大時的能力參數(shù)取值,因此,在構(gòu)建題庫時,題庫表增加一個字段ability,此字段存放的是最適合此題目的能力值。這樣在選取后續(xù)試題時只需搜索與被試者當前能力值相匹配的題目即可,從而大大減輕了服務(wù)器的負擔(dān)。題庫表的一些字段說明如表1所示。 該自適應(yīng)考試系統(tǒng)使用VisualStudio2010和SQLServer2008作為開發(fā)工具,對于后續(xù)試題的選擇算法,采用遺傳算法。因為遺傳算法具有其他算法所沒有的自適應(yīng)性、全局優(yōu)化性和隱含并行性,并且在解決問題時有很強的魯棒性,所以采用遺傳算法來完成后續(xù)試題的選取。 表1 題庫表字段說明 4.1題目參數(shù)估計檢驗 題目參數(shù)估計是題庫建設(shè)中的重要環(huán)節(jié),也是自適應(yīng)考試質(zhì)量能否得到保證的關(guān)鍵[9]。在實驗中,采用與現(xiàn)在常用的參數(shù)估計軟件Bilog軟件進行對比的方法,分別對取自題庫中的100道題目進行題目參數(shù)估計。該自適應(yīng)考試系統(tǒng)估計出的區(qū)分度和難度分別用a、b表示,Bilog軟件估計出的區(qū)分度和難度則用A、B表示。其中一部分題目的參數(shù)估計結(jié)果如表2所示。 表2 題目參數(shù)估計值 從表2中的實驗數(shù)據(jù)可以看出,該自適應(yīng)考試系統(tǒng)的題目參數(shù)估計結(jié)果是可靠的,基本上實現(xiàn)了Bilog軟件同樣的功能。由于可以對該系統(tǒng)的題目參數(shù)估計程序根據(jù)實際需求作進一步的修改和完善,因此,它將會更適合復(fù)雜的具體應(yīng)用環(huán)境。 4.2能力參數(shù)估計檢驗 由自適應(yīng)考試的原理,即根據(jù)被試者對所呈現(xiàn)題目的反應(yīng)數(shù)據(jù),動態(tài)地估計被試者的能力值,并貫穿于考試過程的始終。這里基于題庫中的題目,利用計算機模擬一個考試,并進一步模擬了被試者不同的得分模型。其中一部分的實驗結(jié)果如表3所示。 表3 能力參數(shù)估計值及估計誤差 從表3中的數(shù)據(jù)可以看出,答對題數(shù)越多,能力值的估計也就越大。其中第2個和第3個雖然答對題目的數(shù)量一樣,但由于其答對的具體題目不相同,所以能力估計值也不相同。除了第5個的能力值估計標準誤差稍大一點外,其他的能力值估計標準誤差都很接近。這些實驗結(jié)果無論是從理論上還是從實際考試經(jīng)驗上看,都是合理的。 基于項目反應(yīng)理論的自適應(yīng)考試系統(tǒng)在提高考試效率的同時著重考察被試者的實際能力水平,對于提高學(xué)生的學(xué)習(xí)自主性和積極性有一定幫助。由于在考試過程中呈現(xiàn)給考生的試題難度與其能力水平相適應(yīng),因此每一名考生的答題情況更為可靠,更能充分體現(xiàn)出考生的能力水平。經(jīng)過改進后的該自適應(yīng)考試系統(tǒng),參數(shù)估計過程更加穩(wěn)定,結(jié)果更加可靠;起點算法的改進提高了出題速度;同時,對試題曝光次數(shù)的控制保證了考試的安全性。今后,如何能更加準確地評估考生的能力值,以及如何改善出題策略,使得考試變得更加高效,是未來研究的重點。 [1] 羅永蓮,郭玉棟.經(jīng)典測量理論在小型專業(yè)題庫中的應(yīng)用研究[J].計算機應(yīng)用與軟件,2009,26(10):105-106,129. [2] 劉麗平,王文杰,郭世寧.計算機自適應(yīng)考試系統(tǒng)題庫的設(shè)計與實現(xiàn)[J].計算機系統(tǒng)應(yīng)用,2006,15(3):10-12,16. [3]LindenWJVD,GlasCAW.Computerizedadaptivetesting:Theoryandpractice[M].Netherlands:KluwerAcademicPublishers,2000:101-116. [4] 張淑梅,辛濤,曾莉,等.2PL模型的EM缺失數(shù)據(jù)處理方法研究[J].應(yīng)用概率統(tǒng)計,2011,27(3):241-255. [5]WainerH.Computerizedadaptivetesting:APrimer[M].Hillsdale,NJ;LawrenceErlbaumAssociates,1990. [6] 全敏鳴.基于項目反應(yīng)理論的計算機化自適應(yīng)測試系統(tǒng)的研究[D].上海交通大學(xué),2010. [7] 羅永蓮,賈玉芳.項目反應(yīng)理論在題庫建設(shè)中的應(yīng)用研究[J].計算機應(yīng)用與軟件,2015,32(1):86-88,152. [8] 黃伯平,趙蔚,余延冬.自適應(yīng)學(xué)習(xí)系統(tǒng)參考模型比較分析[J].中國電化教育,2009(8):97-101. [9] 王芳,燕雁,趙守盈.項目反應(yīng)理論模型應(yīng)用中需要注意的幾個問題[J].中國考試,2015(2):20-24. RESEARCHANDDESIGNOFADAPTIVEEXAMSYSTEMBASEDONITEMRESPONSETHEORY LiuHongfengGuoWenmingYuXiaojia (NetworkCenter,SouthernMedicalUniversity,Guangzhou510515,Guangdong,China) Inlightofthesituationthattheclassicmeasuretheory-basedtraditionalexaminationsexposemoreandmoreshortcomingsanddeficiencies,weputforwardtheitemresponsetheory-basedadaptivecomputerexamsystem.Itcanchoosethequestionswithappropriatedifficultiesaccordingtothefacultyofexamineestoachievefasterandmoreaccurateestimatesontheabilityvalueofthem.Westudiedandimprovedseveralkeytechnologiesinvolvedinadaptiveexamsystem(parameterestimation,parameterequivalent,questionsexposureratecontrol,itembankconstruction,etc.),andimplementedthedesignanddevelopmentofthesystem.Experimentalresultsshowedthatthesystemcaneffectivelytesttheabilityvalueofexamineesandachievestheexpectedgoals. ItemresponsetheoryAdaptiveexamParameterestimation 2015-07-30。廣東省科技計劃項目(2013B090500024,2014A040401026)。劉洪峰,碩士生,主研領(lǐng)域:云計算,遠程教育。郭文明,教授。余曉佳,工程師。 TP ADOI:10.3969/j.issn.1000-386x.2016.10.020

4 實驗與評價


5 結(jié) 語