劉 拓 張佳慧 辛 濤
(北京師范大學心理學院,北京100875)
1914 年Kelly 將多項選擇題(multiple - choice item,MCI)的題目形式引入測驗,從而使以論文為主要形式的早期測驗大量減少,短測驗大量增加。經過一個世紀的發展,多項選擇題已經成為教育和心理測驗中最為常見的題型之一。
多項選擇題有諸多的優點,首先,它的評分規則固定、一致,因此信度較高;第二,它的計分方便,這有利于大尺度(large scale)的測驗和計算機化測驗的實現;第三,它可以控制二選一題目中的猜測行為。一般而言,一道多項選擇題包含題干部分和選項部分,選項部分則由一個正確項和若干個干擾項(distractor)組成。許多研究中干擾項被籠統的當作錯誤選項對待,這實際上造成了被試信息的浪費。如Levine 和Drasgow(1983)就發現高能力和中等能力被試選擇的干擾項不同,Thissen,Steinber 和Fitzpatrick(1989)發現干擾項與被試能力水平是非單調的關系。Jacobs 和Vandeventer(1970),Sigel(1963)以及Thissen(1976)也針對被試在Raven Progressive Matrices測驗中干擾項的作答模式作了一系列研究。
可見,干擾項包含有價值的信息,僅僅把多項選擇題處理成為“對錯”題,顯然不盡合理。如何有效利用多項選擇題中干擾項的信息,一般需要三個步驟:(1)編制含有豐富干擾項信息的題目;(2)提取題目中的信息;(3)利用提取的信息進行量化分析。下文將逐一介紹這些步驟中涉及的方法,并分析它們利用干擾項信息的思想。
為了利用干擾項信息,研究者們首先想到的就是設計新的題目形式。使得干擾項具有明顯的程度差異(Tamir,1971),能夠反映被試者對知識技能的誤用、理解錯誤和發展層次不足等問題。最常用的題目設計是順序多項選擇題(ordered multiple -choice item,OMCI)設計(Briggs,Alonzo,Schwab,&Wilson,2006)。它的設計理念是:學生的理解能力是一個連續的維度,但卻可以從高到低區分成不同水平,OMCI 的選項就對應著這些理解水平,這樣通過干擾項信息就可以了解答錯被試的認知層次。另外一種題目設計是Tamir(1989)推薦的雙層多項選擇題(two - tier multiple - choice item,two - tier MCI)設計。這種設計就是在普通MCI 中再增加第二層選項,作為第一層選項的解釋和說明(Treagust,1988)。這樣通過第二層的解釋就可以了解被試選擇干擾項的原因。之后Liu,Lee 和Linn(2011)又建議干擾項應該具有等級關系,兩層選項需要分開評分,并稱這種雙層MCI 為解釋性多項選擇題(explanation multiple-choice item,EMCI)。雙層MCI 的使用較廣,具體應用研究可以參見Griffard 和Wandersee(2001),Tan,Taber,Goh 和Chia(2005)。新的MCI 設計一方面保持了MCI 較為客觀的優勢,同時也提供了更多的干擾項信息。但是由于設計更復雜,信息的編碼和量化分析也存在難度,如雙層MCI中對干擾項信息的解釋還主要依靠測驗使用者主觀的邏輯和經驗分析。
任何題目需要進行量化分析都需要對其進行評分或編碼。最常用的評分方式主要有二級計分和等級計分。絕大多數的分析方法和測量模型都是基于這兩者進行的。這兩種編碼方法關注的都是被試的正答反應,分析角度也是從被試的強項出發。如經典測量理論(classical test theory,CTT)中的總分,項目反應理論(item response theory,IRT)中的θ 值,都代表被試水平高低。Luecht(2007)闡述了一種從被試弱項角度出發的方法,數據增廣(data augmentation)方法。如從正確項出發,可將3 名被試在3 道題上的作答描述為反應矩陣U;而從干擾項出發,則可以將他們的作答描述為增廣矩陣(augmented data matrix)V(圖1)。

圖1 反應矩陣與增廣矩陣
V 的獲得遵循一定規則,比如假設干擾項與總分之間存在負相關,若被試選擇了“與總分負相關最大”的干擾項則記“1”分,否則為“0”分,再由增廣矩陣出發就可以構建新的統計指標和測量模型。可見,增廣矩陣的獲得方法不同,反映的干擾項信息就不同,與此對應的分析方法也不同。數據增廣的方法使用還較少,現有的嘗試可參見Luecht 的研究。
對題目中干擾項進行編碼后,通過量化分析方法就可以將干擾信息應用到測量和評估中。現有干擾項的量化分析方法主要有三種:一是,使用統計學方法分析干擾項本身的測量特性;二是,構建多項選擇題模型,通過模型參數來解釋干擾項;三是,使用干擾項信息輔助其它測量與評估。
統計類的分析方法是一系列方法的統稱,它旨在通過構建統計指標來描述干擾項的測量學特性,從而幫助干擾項的編寫和解釋,如點二列相關、Attali 和Fraenbel(2000)的PBDC指標,Love(1997)的干擾項選擇比(distractor selection ratio,DSR)等。以PBDC指標為例,它的公式如下:

其中,MDC和SDC分別代表選擇干擾項或正確項的被試的平均分和標準差,P 為人數比率。易見,PBDC實際是一個修正后的點二列相關,與CTT 中的意義一致,它是一個區分度,表示干擾項區分被試的能力。所以在測驗編制時可以用來檢驗干擾項的優劣。
點二列相關的統計指標是在整個被試能力范圍上反映被試對選項的選擇,無法獲得特定能力水平上被試的選項選擇情況,Love(1997)的DSR 解決了這一點,其表達式如下。

統計類分析方法的共同點是直接針對干擾項,而不會同時考慮整個測驗和被試的測量。模型化的方法則可以兼顧,不過,由于模型化方法需要對干擾項進行參數化,CTT 無法精細到選項水平,因此這類的方法都是基于IRT 或認知診斷理論(cognitive diagnostic theory,CDT)的。
4.2.1 多級計分IRT 模型
最常用的MCI 模型是多級計分IRT 模型。它主要包括等級反應模型、評定量尺模型、部分計分模型、名義反應模型(nominal response model,NRM)等。前三種擬合OMCI,而NRM 則更擬合一般的MCI (Drasgow,Levine,Tsien,Williams,& Mead,1995)。為了說明NRM 對干擾項信息的利用,以NRM 與2PLM 為例,使用MULTILOG7.0 對詞匯理解能力測驗(曹亦薇,1999)某一項目進行分析,其項目反應函數圖如下:

圖2 某項目NRM(左)與2PLM(右)項目反應函數圖對比
與圖2(下)相比,圖2(上)除了能夠反映能力水平在-0.5 以上的被試更容易答對該項目(選第“2”項),還提示了干擾選項“1”和“3”分別對能力水平在-2 以下和能力水平在-2 到-0.5 之間的被試有較強的“吸引力”,如進一步對項目內容進行分析,則可能更加清晰的說明不同能力水平被試在作答時的思維過程。NRM 是擬合MCI 的基礎模型,之后在它的基礎上又發展出了納入“猜測”參數的multiple-choice 模型(Thissen & Steinberg,1984)。
4.2.2 嵌套logit 模型
所有的多級計分IRT 模型都是將作答反應與被試心理特質直接掛鉤,但Suh 和Bolt(2010)認為干擾項與正確項并非平行關系,正確項反映被試達到該水平,干擾項共同反映被試未達到該水平,而干擾項中的任一選項則是未達到水平被試的可能選擇。由此他們提出嵌套logit 模型簇(nested logit models,NLMs),如3PLM 嵌套logit 模型(3PL -NLM)可表述為:

公式(3)(4)可看出3PL -NLM 實際上是將選項區分出了兩層,第一層用3PLM 來反映被試選擇正確項的概率,而第二層用NRM 來反映被試選擇各個干擾項的概率。第二層嵌套在第一層中,干擾項的選擇是在被試沒有選擇正確項的前提之下。NLMs 的優點在于既符合邏輯,又不會增加參數估計的負擔。
4.2.3 MC-DINA
近年來認知診斷模型蓬勃發展,但絕大多數的認知診斷模型都只適用“0,1”計分,為此de la Torre(2009)在DINA 模型的基礎上,提出了適用于MCI的MC-DINA(multiple -choice DINA,MC -DINA)模型。要定義MC-DINA 模型,需要對qj進一步細化,將第j 題選項h 所包含的屬性表示為qjh。與此對應通過αi與qjh的匹配可將被試劃分為Hj+1(Hj為題目j 的選項個數),可表述為以下形式:

其中,h*=0,1,2,3,…,Hj,h*=0 代表未編碼選項,用來表示被試掌握的屬性未涉及到任何一個選項所包含屬性的情況,此時ηij=0。類似DINA 模型的定義,可將MC-DINA 模型定義為:

相對于IRT 模型,MC -DINA 模型對干擾項信息的利用更精細,能夠促進被試的知識狀態的診斷。但MC-DINA 模型需要估計大量的參數,這極大限制了MC-DINA 的應用。另外,MC -DINA 中的參數也難以解釋。
干擾項信息除了能夠提供更多的被試診斷信息外,還能作為輔助信息參與到其它的評估過程中去。如在個人擬合(person fit)的研究中,Drasgow,Levine和Williams(1985)提出的用于探測被試異常反應模式的合適度指標(appropriateness measurement),Wollack(1997)提出的用于探測被試抄襲(copying)行為的指標,都利用了干擾項信息。又如Lau,Lau,Hong 和Usop(2011)在計算機自適應測驗(computerized adaptive testing,CAT)中,利用干擾項對“猜測”(guessing)加以控制。
這一類方法中研究最多的是干擾項功能差異(differential distractor functioning,DDF)。DDF 的概念最早由Green,Crone 和Folk(1989)提出,目的在于通過干擾項信息來檢測項目功能差異(differential item functioning,DIF)。一般的DIF 研究只關注不同組別被試在是否正確作答上的差異,但Suh 和Bolt(2011)認為,干擾項既對不同組別的被試呈現出不同的吸引力,又對其它干擾項和正確項存在著功能差異。為了檢測DDF 研究者們開發了許多不同類型的方法,如標準化方法(Schmitt & Bleistein,1987),發生比方法(Penfield,2008),多步logistic 回歸方法(Abedi,Leon,& Kao,2008)等。這些方法大都借鑒了DIF 分析,效果也比較相近(Koon,2010),都比較一致的認為DDF 可能導致DIF(Penfield,2010,2011)。
綜觀所有干擾項信息的利用方法,形式和思路上不盡相同,但目的主要有三點,一是,了解干擾項的測量學特性,如統計類的分析方法;二是,利用干擾項的信息幫助評估被試的心理特質水平,如模型類方法、題目設計方法。三是,利用干擾項的信息輔助其它評估,如用DDF 方法。未來干擾項的研究還有很大的空間,一方面,現有的方法還存在一些不足,如增廣矩陣的量化方法,測量模型參數估計和結果解釋等。另一方面,針對不同的評估目的,仍然需要開發更多的干擾項信息利用方法。
題目的編制是測量、評估的基礎,為了利用好干擾項的信息,在題目編制時題目如何設計,選項如何設置仍然值得考慮。在題目的設計上,使用不同的設計方法可能能夠挖掘出更多信息或實現不同評估目標。如Kubinger,Holocher-Ertl 和Reif(2010)使用兩個正確項來控制干擾項排除法帶來的猜測。不過,新穎的題目設計同時也需要開發與之相對應的量化分析方法,才能有效提取和解釋干擾項信息。在選項的設置上,干擾項數目的設置一直未達成共識,一個干擾項提供的信息太少,而過多的干擾項又會增加負擔。CCT 主要通過考察信、效度指標來探討這個問題,而IRT 和CDT 還提示研究者需要考慮如題目內的多維、選項間的依存、認知屬性的測量等因素。因此,選項設置的合理性問題還有待進一步探討。
現代測量理論試圖解釋更復雜和精細的問題,開發更復雜的MCI 模型有助于挖掘更多干擾項信息,也能提高模型的擬合度,但現有MCI 模型依然很少,特別是在多維IRT 和CDT 框架下。當然,復雜模型也存在參數估計、結果解釋困難的問題。比如在認知測驗中,干擾項反映被試的認知過程、思維策略,而用NRM 的“難度”參數來解釋就有些牽強。又如MC-DINA 模型雖然能夠提供更精細的診斷信息,但認知屬性稍多,其模型參數就無法估計。怎樣將數學模型與實際的心理學、教育學理論的融合則需要更多的實證性研究。
4.3 中的方法說明了干擾項信息的利用不應該限于模型和統計指標的開發,在心理和教育測量的其他過程中同樣可以考慮納入干擾項信息。用干擾項來評估DIF 就是很好的例子,而Kim(2006)也發現,在鏈接(linking)中加入干擾項信息,可以在不影響效果的前提下減少題目的使用。這些研究都提示干擾項存在更多價值,今后在個人擬合研究中,可加入干擾項反應模式,從而提高對異常反應的識別效果。計算機自適應測驗中,可加入干擾項信息來提高選題過程和參數估計的準確性。這些都是值得考慮的方向。
總之,多項選擇題中干擾項信息的利用實際上是一種非常經濟、有效的信息獲取方式。在測驗的編制時,可以節省題目量,幫助題目性能檢測。在被試評估時,又可以提供更多的診斷信息。如何能夠更有效的利用干擾項信息,值得研究者們繼續探索。
曹亦薇.(1999).初中詞匯理解能力量表的編制.心理學報,2,215 -221.
Abedi,J.,Leon,S.,& Kao,J.C.(2008).Examining differential distractor functioning in reading assessments for students with disabilities.Los Angeles,CA:National Center for Research on Evaluation,Standards,and Student Testing(CRESST).
Attali,Y.,& Fraenkel,T. (2000). Thepoint -biserial as a discrimination index for distractors in multiple - choice items:Deficiencies in usage and an iternative.Journal of Educational Measurement,37,77 -86.
Briggs,D. C.,Alonzo,A. C.,Schwab,C.,& Wilson,M.(2006).Diagnostic assessment with ordered multiple-choice items.Educational Assessment,11,33 -63.
dela Torre,J.(2009).A cognitive diagnosis model for cognitively based multiple - choice options. Applied Psychological Measurement,33,163 -183.
Drasgow,F.,Levine,M. V.,& Williams,E. A. (1985). Appropriateness measurement with polychotomous item response models and standardized indices.British Journal of Mathematical and Statistical Psychology,38,67 -86.
Drasgow,F.,Levine,M. V.,Tsien,S.,Williams,B.,& Mead,A.D.(1995).Fitting polytomous item response theory models to multiple-choice tests.Applied Psychological Measurement,19,143 -166.
Green,B.F.,Crone,C.R.,& Folk,V.G.(1989).Amethod for studying differential distractor functioning. Journal of Educational Measurement,26,147 -160.
Griffard,P. B.,& Wandersee,J. H. (2001). The two - tier instrument on photosynthesis:What does it diagnose?International Journal of Science Education,23,1039 -1052.
Jacobs,P.I.,& Vandeventer,M. (1970). Information in wrong responses.Psychological Reports,26,311 -315.
Kim,J. (2006). Using the distractor categories of multiple -choice items to improve IRT linking. Journal of Educational Measurement,43,193 -213.
Koon,S.(2010).A comparison of methods for detecting differential distractor functioning.Unpublished Doctorial Dissertation,The Florida State University.
Kubinger,K.D.,Holocher -Ertl,S.,Reif,M.,Hohensinn,C.,& Frebort,M. (2010). On minimizing guessing effects on multiple - choice items:Superiority of a two solutions and three distractors item format to a one solution and five distractors item format.International Journal of Selection and Assessment,18,111 -115.
Lau,P. N. K.,Lau,S. H.,Hong,K. S.,& Usop,H. (2011).Guessing,partial knowledge,and misconceptions in multiple-choice tests. Educational Technology & Society,14,99 -110.
Liu,O.L.,Lee,H.S.,& Linn,M.C.(2011).Aninvestigation of explanation multiple - choice items in science assessment.Educational Assessment,16,164 -184.
Levine,M.V.,& Drasgow,F. (1983). The relation between incorrect option choice and estimated ability. Educational and Psychological Measurement,43,675 -685.
Love,T. E. (1997). Distractor selection ratios. Psychometrika,62,51 -62.Luecht,R.M. (2007). Using information from multiple -choice distractors to enhance cognitive -diagnostic score reporting.In J.P.Leighton & M. J. Gierl(Eds.),Cognitive diagnostic assessment for education:Theory and practices(pp.319 -340).Cambridge University Press.
Penfield,R.D.(2008).Anodds ratio approach for assessing differential distractor functioning effects under the nominal response model.Journal of Educational Measurement,45,247 -269.
Penfield,R.D.(2010).Modeling DIF effects using distractor -level invariance effects:Implications for understanding the cause of DIF. Applied Psychological Measurement,34,151 -165.
Penfield,R.D.(2011). How are theform and magnitude of DIF effects in multiple -choice items determined by distractor -level invariance effects?Educational and Psychological Measurement,71,54 -67.
Revuelta,J. (2004). Analysis ofdistractor difficulty in multiple-choice items.Psychometrika,69,217 -234.
Schmitt,A.P.,& Bleistein,C.A.(1987).Factors affecting differential item functioning for Black examinees on Scholastic Aptitude Test analogy items(Research Rep. NO. 87 - 23).Princeton,NJ:Educational Testing Service.
Sigel,I.E.(1963).How intelligence tests limit understanding of intelligence.Merrill-Palmer Quarterly of Behavior and Development,9,39 -56.
Suh,Y.,& Bolt,D.M.(2010).Nested logit models for multiple-choice item response data.Psychometrika,75,454 -473.
Suh,Y.,& Bolt,D.M.(2011). A nested logit approach for investigating distractors as cause of different item functioning.Journal of Educational Measurement,48,188 -205.
Tamir,P.(1971).An alternative approach to the construction of multiple choice test items.Journal of Biological Education,5,305 -307.
Tamir,P.(1989).Some issues related to the use of justifications to multiple-choice answers.Journal of Biological Education,23,285 -292.
Tan,D. K - C.,Taber,K. S.,Goh,N. K.,& Chia,L - S.(2005).The ionisation energy diagnostic instrument:A twotier multiple - choice instrument to determine high school students’understanding of ionisation energy. Chemical Education Research and Practice,6,180 -197.
Thissen,D. M. (1976). Information in wrong responses to the Raven Progressive Matrices. Journal of Educational Measurement,13,201 -214.
Thissen,D.,& Steinvberg,L.(1984).Aresponse model for multiple choice items.Psychometrika,49,501 -519.
Thissen,D.,Steinberg,L.,& Fitzpatrick,A. R. (1989). Multiple-choice models:the distractors are also part of the item.Journal of Educational Measurement,26,161 -176.
Treagust,D.F.(1988). The development and use of diagnostic instruments to evaluate students’misconceptions in science.International Journal of Science Education,10,159 -169.
Wollack,J. A. (1997). Arominal response model approach for detecting answer copying.Applied Psychological Measurement,21,307 -320.