摘要:針對目前計算機自適應測試系統在遠程網絡測試中存在的局限性,提出了基于XML的在線自適應測試系統模型。通過題目自反應理論建立計算機自適應測試模型,并提出了一種約束試卷生成的參數模型,利用增量學習算法設計了組卷策略,解決了遠程網絡自適應測試系統中計算量大、易造成網絡交互阻塞瓶頸等技術問題。最后給出了系統的設計模型,并描述了該系統的實現過程。
關鍵詞:題目反應理論; 計算機自適應測試; 在線
中圖分類號:TP393文獻標志碼:A
文章編號:1001-3695(2008)01-0184-03
教育測試是進行人才選拔和能力評測的主要形式。當前考試的指導理論主要有以真分數理論為代表的經典測試理論和項目反應理論[1]兩種。經過了近百年的發展,經典測試理論建立了一系列題目分析的公式,如表示難度的p值、表示區分度的題目與測試相關系數、估計分數真值的標準誤差及由此推算出來的信度公式等。經典測試理論對建立試卷、考分轉換和等值等均有一套較為完整的方法。但此理論仍有不夠完善的地方,如考生分數和題目難度有著密切關系,即題目難度是相對考生而言的。如何使得題目參數穩定而不受受測樣本影響,出現了項目反應理論。項目反應理論是以受測者回答問題的情況,經題目特征函數的運算,推測受測者的能力[2]。
根據應試者對題目的反應信息量,選擇難度與應試者能力相匹配的題目,能夠準確、快速地檢驗被測試者的能力水平,彌補古典測試理論的不足。但由于IRT實現技術上需要實時了解被測試者答題情況,并進行大量計算,實際的應用一直受到技術條件限制,一般需要計算機輔助,以IRT理論為指導建立計算機自適應測試系統。早期最著名的測試系統LOGIST、BILOG等都是單機形式。計算機
網絡技術的發展為測試理論進行大規模推廣提供了技術支持。近年來測試理論的研究與實踐應用取得了引人注目的發展,如美國的GMAT、TOFEL、微軟的MCP等考試都采取了CAT的形式[3]。可見CAT代表著今后教育測試的發展方向和重點。本文提出的基于XML的在線CAT系統模型,解決了實時交互帶來的網絡帶寬問題。
1計算機自適應測試理論與分析
根據項目反應理論,能力為θ的人答對題(u=1)概率為
其中:θ為受測者能力值;a為題目的區分度;b為題目的難度;
c為題目的猜測系數;P表示能力為θ的人答對此題目的概率。
作者試題反應理論是教育測試領域中的一個重要理論。IRT的基本思想[4]是:應試者的某種潛在特質與他們對題目的反應(正確作答的概率)之間存在一定的關系,并且這種關系可以通過數學模型表示出來。IRT通過數學模型建立起了應試者能力、題目參數以及正確作答的概率之間的關系。
目前最常用的IRT模型有logistic模型。Logistic模型是1957年伯恩鮑姆提出的一種二級評分IRT模型。此模型與實際測驗結果匹配較好,分為單參數、雙參數以及三參數模型。單參數以及雙參數logistic模型都是三參數logistic模型的特例。應試者的表現情況與這組潛在特質之間的關系可通過一條連續遞增的函數來表示。該函數叫做試題特征曲線(item characteristic curve,ICC)。事實上,將能力不同的考生的得分點連接起來所構成的曲線便是能力不同的考生在某一測驗試題上的特征曲線。ICC表示某種潛在特質的程度與其在某一試題上正確反應的概率。這種潛在特質的程度越高(越強),其在某一試題上的正確反應概率就越大。三參數logistic模型的題目特征曲線如圖1所示。
其中:
a參數代表題目的區分度,即特征曲線在拐點處的斜率,它的值越大說明題目對應試者的區分程度越高;
b參數代表題目的難度,即特征曲線的拐點在橫坐標上的投影;
c參數代表題目的猜測系數,即特征曲線的截距,它的值越大,說明不論應試者能力如何都容易猜對本道題目。
基于IRT的測試系統在實施過程中要求實時反應,所以基于IRT理論的測試一般都借助于計算機進行。這就產生了計算機自適應測試系統。根據考生的估算能力值選擇合適的題目,不斷抽取與受測者能力相適應的題目是CAT的基本原則。準確估計被測者的能力水平是CAT順利進行的前提。在測試過程中,IRT對被測者能力的估計方法一般采用極大似然估計法。通常利用IRT題庫中題目的最大信息函數來確定所選擇的題目。IRT用題目的信息函數I(θ)來表示題目參數與受測者能力的關系:
其中:θ表示受測者能力估計值;aj、bj、cj分別表示第i題的區分度、難度和猜測系數。
對于不同能力的受測者,題目有不同的信息量。信息量取最大值時,它所對應的能力值即是最適合于采用此題目測試的人員的能力值。因此在CAT系統中,根據前面推測的能力值,系統搜尋相應信息量最大的題目進行測試。另外,還可以采用Bayes方法選取試題。它是以能力估計值在測試后的改變作為選擇標準,即選擇使得能力估計值在測試后改變最小的題目進行測試。
正確估計受測者的能力是CAT順利進行的前提。為計算其能力值通過對下式進行反復迭代:
初始測試題目的選擇一般采用隨機進入法,由系統隨機選擇開始測試的題目。但為了更快地找到符合考生能力的題目,可以從以下幾個方面考慮初始題目的選擇:選擇中等難度的題目,即假設應試者的能力為中等水平,由CAT系統在題庫中隨機選擇中等難度的題目作為測試開始點,參數的設置由系統固定為中等水平。由應試者自行決定自己的初始能力水平,系統給出幾個選項由應試者選擇:初級、中級、高級等。每個選項的參數值都由系統內定。如果想更加準確地得到應試者的能力參數,可以通過預考的方式進行,即在正式測試前,給一定數量與測試內容相似的題目(如10道題,這些題目要體現不同的難度系數),系統可以根據應試者預考的結果大體估計考生的實際水平,從而粗略得出考生的初始能力參數[5]。如果是一個連續的網絡學習環境,可以根據考生上一次測試的結果確定本次測試的初始能力參數。式(4)用于計算其標準誤差,當值小于某個給定值時,考試結束。
CAT測試終止條件一般有如下幾種方式:a)固定測試長度,即固定測試時間或測試題目數量,當時間達到一定期限或當測試題目數量達到一定個數時,測試終止。b)固定能力估計的標準差,當能力估計的標準差小于某一預先確定的值時,測驗結束。這種方法能克服a)的缺點,但如果終止條件定得過嚴往往會使測驗時間過長。c)比較被測試者連續兩次估計的能力水平,當比較結果小于某個預先設定的數值時終止測試。這種方法克服了a)b)的缺點,同時能力水平估計結果與b)非常接近,但所用的測驗試題數目卻比b)少。計算機自適應測試能夠用最少的測試題目來估計應試者的能力。在一些自適應測試的應用研究中證明,它只需測試50%左右的題量便能對被測者的能力進行準確的估計,有效提高了測量的精度和效率,適合網絡自適應測試[6]。
2試題組卷算法
設計一個模式優良的試題數據庫,需要首先設計出它的實體聯系模型。一道試題最重要的特征是它所考查的知識內容,即知識點。對題目難度衡量值的確定和修正應當是對知識層次和智力層次都相當的學生而言,同時它還應當建立在統計的基礎之上[7]。為了滿足設計功能的通用性,本設計分別實現了兩種試題生成模式,即自動選題模式和手動選題模式。在自動選題模式下,需要解決如何在給出一種題型的題目總分數和題目總數的條件下,在試卷總分數、考試時間和卷面難度系數的約束下自動合理地選取試題,生成符合約束條件的試卷。約束條件也稱為試卷指標,即一份試卷或一道試題應具有的參數特性。該參數特性包含:a)試卷組成指標,包括總分、題分、題目總數、類型題目數量、考試時間、卷面難度系數、知識點數量、各知識點所占比例等;b)單道試題選取指標,即選取試題庫中某道試題所需要滿足的條件,包括題型、難度系數、估時(完成該試題所需時間的參考值)、知識點等。
本設計采用一種增量學習算法來實現滿足試卷指標的試題的選取。它的基本思想是考生在它的考試狀態空間(歷史記錄)中執行動作(答題),以期獲得它的目標。當考生從狀態N到狀態N+1轉換時,它接收歷史記錄行為的反饋信息。選題策略的目標是學習一種控制策略來選擇一個試題(卷),從而使考生最大化積累反饋信息帶來的“回報”。算法如下[8]:
a)初始化工作,系統給出試題的初始值,考生給出答題保留初始值;
b)對于系統的每一次所給定的累加值,循環c)~g);
c)考生給出系統累加值的第I次預測值;
d)考生進行第I次答題達標值;
e)動態更新學習率;
f)系統用動態增量—學習算法學習考生的答題達標值;
g)考生是否達到預期的達標值,如果沒有則轉到b);否則結束。
設計出符合用戶要求和一定約束條件的試卷模式;然后再按試卷模式選取試題組成試卷。組卷過程是在考綱的題分、難度系數、試題覆蓋面、題型比例等約束都滿足的條件下,根據經驗和考試目的,通過對不同的知識點賦予恰當的題型組合;并在此基礎上確定各考題的難度系數,最終由具有這些特性的試題構成試卷的算法實現過程。
3系統主要功能的關鍵技術實現
目前大部分測試系統都基于C/S結構,計算的邏輯主要集中在服務器端。在測試過程中,被測試者每做一道題目都要通過網絡與測試服務器進行交互。服務器進行應試者能力的估計和試題的選擇后,通過網絡重新發布新的題目。這樣,一旦用戶過多,系統的負載就呈級數增長,網絡不堪重負,很容易造成網絡阻塞,影響測試的正常進行。現在都采用設置考點、將試題庫下載到考點,然后考點通過局域網絡的方式進行考試。這樣雖然解決了網絡阻塞問題,但不能實現完全開放形式的測試。考生必須在指定時間到指定的考點進行測試,測試的時間和地點受到很大限制。這種模式適合正式嚴格的能力測試,而對于通過遠程網絡平臺進行學習的學生來說,測試的目的主要是考查對知識的掌握程度,并根據測試的結果及時調整自己的學習進度和思路。這樣就無法實現真正的遠程網絡自適應測試,達到輔助學習的目的。為此本文通過引入移動XML技術,提出了基于XML的IRT遠程網絡測試系統框架;通過XML攜帶題目和測試策略移動到客戶端的方式,測試可以異步進行,在技術上避免了網絡交互阻塞問題,從而使真正的開放式遠程網絡自適應測試成為可能。
本文建構基于XML技術的跨平臺分布性和數據與操作分離的、特性的試題庫管理系統,采用在網絡環境下的物理上分布、邏輯上分布的分布式數據庫結構來設計試題庫管理模型。試題文檔庫的數據交換功能有:a)客戶端可根據自己的需求選擇和制作不同的試題文檔,對試題文檔進行編輯和處理。服務器只需發出同一個XML試卷文件,數據計算不需要回到Web服務器就能進行。這樣將大部分處理負載從Web服務器轉移到Web客戶端,從而使廣泛、通用的分布式計算成為可能。b)由于XML具有數據顯示與內容分開的特點,利用XSL就能對同一個XML試卷文檔引用不同的樣式表。可根據具體的教學環境需要預先定義XSL試卷文檔的顯示樣式,得到不同的顯示結果,使試卷文檔的表現更加合理,最大限度地滿足用戶的分布化、開放化和個性化需求。c)在客戶端能實現顆粒狀刷新,即每當一部分數據變化后,服務器不需要重發整個結構化數據,只需發送變化的數據給客戶。客戶端不需要刷新整個使用者的界面就能顯示出變化的數據。
服務器端用XML語言編寫,使用Microsoft XML parser 作為XML 解析器。用XML語言來描述題目的數據結構并以非常自由的格式存儲,同時使用XML語言來分解原題目內容的語義。本系統的數據結構主要有兩類:
a)測試,描述某一測試的屬性;
b)題目,表示某一具體題目的屬性。
其DTD(文檔類型定義)的格式定義如下:
(a)測試的各元素定義
〈ELEMENTTEST(CDATE|STARTDATE?|ENDDATE?|)*〉
〈!ATTLIST TEST
ID CDATA#REQUIRED !8位數字長的一個惟一的ID號
TITLE CDATA#IMPLIED !測試的名字
MAXSCORE CDATA #REQUIRED !最高分值
MINSCORE ADATA \"0\" !最低分值,缺省為 0
PASSSCORE CDATA #REQUIRED !及格分值(測試通過分值)
TIMELIMIT CDATA \"0\" !測試時間,缺省0為無限
〉
例如,〈TEST ID = \"20020112\" MAXSCORE=\"100\" PASSSCORE=\"60\"〉…〈/TEST〉。〈IRT 參數〉 語法為如下:
〈!ELEMENT IRT_PARAMETER EMPTY〉
DISCRIMINATION CDATA \"1.0\"
!在IRT中使用的題目的區分度
DIFFICULTY CDATA \"0.0\"!題目的難度系數
GUESSING CDATA \"0.0\" 〉!題目的猜測系數
例如,〈IRT_PARAMETERDISCRIMINATION =\"1.5\" DIFFICULTY =\"-0.8\"/〉。
(b)題目的各元素定義
〈!ELEMENTQUESTION (CDATE|CATEGORY|IRT_PARAMETER|CONTENT|HINT)〉
〈!ATTLIST QUESTION
ID CDATA#REQUIRED
!8位數字長的一個惟一的ID號
TITLE CDATA#IMPLIED!題目的名稱
MAXSCORE CDATA #REQUIRED〉!題目的最高分值
例如,〈QUESTIONID=\"20020101\" MAXSCORE=\"10\"〉…〈/QUESTION〉。
網絡用戶遠程登錄到測試網站,系統為每個考生生成一個專用登錄助手。該助手負責為考生提供測試引導、信息交互等服務。一旦考生登錄成功,該助手就由管理助手派遣,導航到考生客戶端,并且負責考生與系統之間的溝通。
4結束語
系統在反復論證的基礎上,組織專家和科技人員進行認真的調研,針對各種考試方式開發出實用的考試平臺。目前,本系統已經基本建成,正在試運行階段,基本功能都已具備,但在遠程自適應等方面有待進一步的研究和開發。以項目反應理論為基礎的自適應測驗是根據每個學員的不同情況,用幾組不同的試題來測量學員能力水平的一種測驗。自適應測驗比常規測驗具有更高的效率。它可以用比常規測驗更少的試題而獲得可與之相比或更佳的測量效果。
參考文獻:
[1]畢忠勤,陳光喜,徐安農. 計算機自適應測試系統的算法研究[J].桂林電子工業學院學報,2004,24(6):50-53.
[2]張華龍,龍華. 計算機自適應考試技術在網絡教育中應用[J].東華大學學報,2003,30(3):76-80.
[3]BRUSILOVSKY P. Knowledge tree: a distributed architecture for adaptive e learning[C]//Proc of the 13th International World Wide Web Conference. New York: ACM Press,2004:104 113.
[4]余民寧.試題反應理論的介紹[J].研習資訊,2004(1):98 120.
[5]吳志新. 基于XML的計算機自適應測試技術的應用研究[J].微機發展,2005,15(2):137 139.
[6]BRUSILOVSKY P. Developing adaptive educational hypermedia systems: from design models to authoring tools[C]//MURRAY T, BLESSING S, AINSWORTH S. Authoring tools for advanced techno ̄logy learning environments: toward cost effective adaptive, interactive, and intelligent educational software. Dordrecht:Kluwer Acade ̄mic Pulishers, 2003:377-409.
[7]MURRAY T.Metalinks: authoring and affordances for conceptual and narrative flow in adaptive hyperbooks[J]. International Journal of Artificial Intelligence in Education, 2003,13(2-4):197-231.
[8]HENZE N. Personal readers: personalized learning object readers for the semantic Web[C]//Proc of the 12th International Conference on Artificial Intelligence in Education. Berlin:Springer, 2005.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”