肖 剛,王昌達,張文莉
(江蘇大學 江蘇 鎮江 212013)
云計算技術的發展為網絡化考試帶來前所未有的機遇。HSK[1]是中國漢語水平考試的縮寫,是為測試母語為非漢語者的漢語水平而設立的國家級標注化考試。HSK作為國家級水平考試面向國際社會開考達十多年了,其成績是外國留學生進入中國高等院校學習專業的必要條件,并且已經成為國內外一些機構人員選拔的一種依據。但在HSK考試中,主要還是采用傳統的考試形式,即統一的紙質試卷。這種統一的試題內容,并不適用于各個層次水平的學生,無法真正考查出學生對知識的掌握程度。盡管專家們命題過程中總是盡量保持考試難度的穩定性,但不同試卷之間在難度、信度、分數分布方面的差別很難完全避免。因此,對HSK的要求也越來越高,不僅要求實現“試卷”之間的等值,甚至要求實現“試題”之間的等值。
為克服傳統考試中的不足,本文提出了一種基于項目反應理論的HSK分級自適應考試系統。該系統將自適應技術、計算機技術和教育技術相結合,按國家漢辦的規定,將水平等級劃分為6個等級,1級最低,6級最高。同時對考生和測試基本項目的定義做了抽象與擴充,以一套試卷作為一個基本的測試項目而不是一個題目。測試過程始終圍繞學生的能力進行,測試時系統自動地適應參加考試學生的情況,根據學生的能力從題庫中自動獲取相應級別的試題組成試卷[2-5]。該系統已在奧地利孔子學院的教學中投入運行,收到了良好的效果。2013年初,該軟件得到了漢考中心的高度評價與項目資金支持。
目前該考試系統可以通過云平臺在 http://42.121.136.212/index.php訪問。該系統的使用目的是為參加對外學漢語學習的學生提供一個參考的學習分班等級,以及學習后的學生自我評估。該系統并非設計用于取代國家漢辦的HSK分級考試。
項目反應理論是一種關于現代心理的測量理論。它的特點是以概率來解釋受測者對項目的反應和其潛在能力特質之間的關系。項目反應理論的基本思想起源于上世紀三十年代末和四十年代初,1946年塔克(TuKer)正式提出“項目特征曲線”概念。所謂項目特征曲線就是表征受測者的能力與特質水平與其對一個測驗項目的正確反應概率之間關系的二維曲線圖。不同的特征曲線假設對應著不同項目反應模型。
項目反應理論的模型有二十余種,可根據實際情況選擇適當的模型。目前應用最廣的項目反應理論模型是邏輯斯蒂模型[6]。
項目反應理論是以受測者的回答問題的情況,經項目特征函數的運算,推測受測者的能力。根據參數的不同,特征函數可分為單參數、雙參數和三參數3種模式,公式如下:
其中,D是常數,值等于1.702;
θ:受測者能力值,一般在實際應用中,取值范圍多取[-3.00,3.00];
a:項目的區分度,即特征曲線的斜率,它的值越大說明項目對受測者的區分程度越高。a=(H-L)/N其中H表示高分組答對題的人數;L表示低分組答對題的人數;N表示高分組與低分組人數之和。
b:題目的難度,即特征曲線在橫坐標上的投影。
b=R/N,其中R表示試題的答對人數,N表示考生人數。
c:題目的猜測系數,即特征曲線的截距。它的值越大,說明不論受測者能力高低,都容易猜對。
P(θ):表示能力為θ的受測者答對此項目的概率。
基于以下兩個原因,我們將選用二參數的邏輯斯蒂模型[7]。
三參數邏輯斯蒂模型中的參數C的心理測量學的含義含糊不清,而且數學上難以估計。
在能力參數估計時,二參數邏輯斯蒂模型存在充分統計量γj,

其中γj是考生在一個測試上的題目加權總分,其權重是每個題目的區分度參數aj。可以證明能力的極大似然估計量就是根據γj估計的。但三參數邏輯斯蒂模型至今未能找到能力參數估計的充分統計量,使得能力參數的估計可靠性收到懷疑。
HSK自適應分級考試系統中,共有6個級別,一級水平最低,六級水平最高。而在實際應用中θ的取值一般取為[-3.00,3.00]。因此可以將θ的取值區間分為6個區間 :[-3.00,-2.00],[-2.00,-1.00],[-1.00,0],[0,1.00],[1.00,2.00],[2.00,3.00],分別對應一到六級的能力區間。當每一張試卷做完后,求出其相應的θ的極大似然估計值。并根據此極大似然估計值選出下一次考試的級別,然后隨即抽取若干題目組成一套試卷,再次進行考試。測試項目的難度以及區分度分別為整套試卷題目的難度、區分度的平均值:
基于項目反應理論的HSK自適應分級考試系統基本流程如圖1所示。

圖1 系統流程圖Fig.1 Flow chartof the system
主要過程如下:
當受測者進行測試時,受測者自選開始級數,并在該級數的題庫中隨機抽取若干題組成一張試卷,進行作答。作答完后估計能力值。并進行終止條件判斷。若滿足終止條件,則測試結束,并給出該受測者最后的水平級別。若不滿足終止條件則由能力的極大似然值θ判斷下一個考試的級別,繼續測試。
教師首先將級別編號,并將隸屬于某個級別的題庫和題目分類在該級別下。當測試開始時抽取試題組成臨時題庫,并將臨時題庫中試題編號、題庫及其題目設為關聯[8-9]。

圖2 系統數據結構圖Fig.2 Structure diagram of the system
確定能力初值是指在受測者在進行測試之前,對受測者的能力值進行初始估計,一般有以下幾種方法:
1)選擇中等難度的試題,即假定受測者的能力為中等,在題庫中隨機抽取難度為中等的題目,作為測試的開始點。
2)根據歷史記錄確定受測者的初始能力值,受測者可能參加過測試,可以根據以前的測試記錄決定此次的開始題目。
3)受測者自行選擇,由受測者對自己的能力水平做初步估計,選擇測試起始項目。
本系統中采用受測者自行選擇,即受測者自行選擇測試的起始級別,然后系統在所選級別的題庫中隨機抽取若干題組成一張試卷。
對考生能力的估計是系統順利進行的前提,本系統采用最大似然估計法[10]通過受測者的似然函數取來求測試者的能力參數,假設一位受測者在一次有n份試卷的測試中,若以表示能力為θ的受測者對試卷i的反應為ui(若及格,ui=1;若不及格ui=0)的概率。基于局部獨立性的假設,上述觀察到的反應模式的聯合概率是每一張試卷反應概率的連乘級,即:

其中:
n:試卷數
Puii:受測者第份試卷幾個的概率
Quii:受測者第份試卷及格的概率
公式 (4)稱為似然函數,當似然函數取最大值時的θ值,稱為θ的極大似然估計值,也就是說當考生的能力值為極大似然估計值時,考生對試題做出的反應模式的可能性最大。
根據極大似然估計的思想,求出最有可能的P值,作為P的估計值,使L能取極大值。由高等數學方法求極值可知,L(u1,u2,……,un)與 ln L(u1,u2,……,un)同時達到極值點,因此對數似然函數可簡化為:

通過求式(6)便可獲得參數的極大似然估計值。對改式中的θ求一階導數并使其等于0,即:

由于式(7)是非線性方程,可用牛頓-拉夫遜(N-R)迭代法求解。

自適應測試的一大優點是可以用較少的試題施測,達到較高的測量精度。測驗是否終止是根據測驗目標是否達到來決定的。主要有3種方式[11]。
1)固定測驗長度,即當測驗項目達到一定數量時,測驗自動終止,此方法易于實現,可以對每個測驗項目的使用率作精確統計,但這種算法實際上是不公平的,因為測驗終止時,可能只有一部分受測者的能力估計是完成的,而且要確定一個合適的長度一般來說并不容易。
2)比較受測者能力參數最后兩次的估計值,當這個值小于預先給定的數值時,測試自動終止。
3)當能力參數估計的標準差小于某一預先確定的值時,測驗自動終止。這種方法具有更高的效率,能克服固定測驗長度的缺點,但當估計標準差要求過嚴時,測驗可能過長。
上述的終止方法都存在缺點,因此在系統中采用(1)、(2)結合起來使用,當測試滿足任何一個條件,測試即終止。并給出最后的水平級別。在系統中根據需要設定測試項目的最大長度,從而避免了測試時間過長與效率低下的問題。
以下是準考證號為602346的考生的自適應測試過程中的相關記錄信息,如表1所示。

表1 602346考生的信息記錄Tab.1 Information recording of 602346 candidates
1)測試開始時,考生自選3級的題目開始測試,它具有較高的區分度值。該測試通過考核,但此時的極大似然估計法無法進行能力估計。
2)其次抽取6級的試題試題進行測試,難度值和區分度都比較大,該考核未通過,該考生在兩個試題的反應組型為(1,0)利用這兩次抽題的已知項目參數和極大似然估計法,從而估計出該考生能力估計值為-0.21。
3)接著,根據第二次抽題的能力值從3級題庫里面抽取試題。該考生通過此次考核,再估計出考生的新能力值威0.35。然后根據新的能力值再去題庫抽題,以此類推。從表5.1可以看出該考生最后兩次測試的能力估計值滿足終止條件。因此得出該考生的HSK等級為4級。
綜上所述,本文設計的系統對考生的HSK等級估計準確且測驗效率高。
文中將項目反應理論用于HSK自適應分級考試中,提出了一種始終圍繞受測者能力的考試系統。文中給出了項目反應理論的深入分析,對系統中能力初值的確定、能力估計、級別選擇、終止條件做了較深的研究與具體的解決方法,并給出了系統的流程描述。該系統依托于公共云平臺,目前已經在應用于奧地利格拉茨大學孔子學院的日常教學中。
[1]張萍,吳秉會.網絡輔助教學:意義、問題與對策[J].黑龍江高教研究,2010(5):153-155.ZHANG Ping,WU Bing-hui.The network assisted teaching:significance,problems and countermeasures[J].Heilongjiang Researches on Higher Education,2010(5):153-155.
[2]幸濤.當前考試理論研究的進展[J].心理發展與教育,2005(z1):63-69.XIN Tao.The current progress of examination research[J].Psychological Development and Education,2005(z1):63-69.
[3]李衛東,黃河笑,郭俊文.IRT在自適應考試中的應用[J].計算機工程,2001,27(7):179-181.LIWei-dong,HUANG He-xiao,GUO Jun-wen.Application of IRT in computerized adaptive test[J].Computer Engineering,2001,27(7):179-181.
[4 Choi,Hae-Gill,Jeong,Hwa-Young.Service based E-learning system model using IRT[J].Advanced Materials Research,201 2:2155-2158.
[5]楊承青,張晉軍.漢語水平考試(HSK)改革設想[J].語言文字應用,2007(3):107-112.YANG Cheng-qing,ZHANG Jing-jun.Chinese Proficiency Test(HSK)reform[J].Applied Linguistics,2007(3):107-112.
[6]詹沐清,盧榮華.論項目反應理論模型[J].科技信息,2009(15):28.78.ZHAN Mu-qing,LU Rong-hua.Item response theory Computer Adaptive[J].Science,2009.15:28.78.
[7]朱正才.大學英語四、六級考試分數等值研究[J].心理學報,2005,27(2):280-284.ZHU Zheng-cai.College English equivalent of six test scores[J].Acta Psychologica Sinica 2005,27(2):280-284.
[8]Chang,Wen-Chih,Sheng-Lin,Integrating IRT to clustering strudent’s ability with K-means[M].2009 4th International conference on Innovative Computing,Information and Control,ICICIC 2009.
[9]邵晨輝,陳玉泉,徐良賢.基于題目反應理論的機助自適應考試[J].計算機工程,2000,26(11):161-163.SHAO Chen-hui,CHEN Yu-quan,XU Nian-xian.Based on item response theory computer assisted adaptive test[J].Computer Engineering,2000,26(11):161-163.
[10]王飛.基于Agent的計算機自適應考試系統的應用 [J].南京工業大學學報:自然科學版,2003,25(6):82-86.WANG Fei,Agent-based computer adaptive testing system application [J].Journal of Nanjing University of Technology:Natural Science Edition,2003,25(6):82-86.
[11]于海霞,劉競杰,王家琪.基于項目反應理論自適應考試系統的設計與應用[J].合肥學院學報,2010,20(3):44-48.YU Hai-xia,LIU Jing-jie,WANG Jia-qi.Based on item response theory adaptive testing system design and application[J].Journal of HefeiUniversity,2010,20(3):44-48.