摘 要 心理與教育測驗中存在著被試作答異常現象(能力測驗中的猜測現象和睡眠現象,人格測驗中的非0下漸近線現象和非1上漸近線現象),會導致被試能力或人格特征的測量偏差,在能力測驗中,研究者已提出了多種方法來糾正猜測現象和睡眠現象,這些方法往往需要調整或刪除被試作答信息,而四參數模型不需要改變被試作答信息而能有效糾正被試能力高估或低估現象,在人格測驗中存在著非0下漸近線和非1上漸近線現象,四參數模型能增強測驗項目擬合性能,提高人格測驗的準確性。
關鍵詞 IR7;猜測現象;睡眠現象;四參數Logistic模型
分類號 B841.7
1 測驗中的猜測現象和睡眠現象(非0下漸近線現象和非1上漸近線現象)
按測驗對象的內容來分,心理與教育測驗可以分為智力測驗、能力傾向測驗、教育成就測驗、人格測驗等,而智力測驗、能力傾向測驗、教育成就測驗都是最佳行為測驗,可以統稱為能力測驗。在能力測驗中,低能力被試靠猜測或者其他原因答對了高難度試題,這種現象叫做猜測現象(guesser,or guessing phenomenon),猜測現象在能力測驗中比較常見。在能力測驗中還存在另一種現象,即高能力被試答錯容易試題的現象,Wright(1977)將其稱為“睡眠現象”(sleeper,orsleeping phenomenon),比如一些學習成績較好的學生都可能有過這樣的體驗:在測驗時有些試題比較容易,但由于某些原因做錯了。在計算機自適應測驗(Computerized AdaptiveTest,CAT)測驗中,高能力被試可能會由于一些原因而答錯容易試題,Rulison和Loken(2009)概述了高能力被試答錯容易試題的幾種原因:焦慮、測試不良環境導致的被試分心、不熟悉計算機(在CA7時)、粗心、誤解了題意等等,由于這些原因導致了被試答錯相對容易的試題。此外測驗動機過強、家長期望壓力過大也往往會造成高能力被試沒有考好,答錯了對于他們來說較為容易的試題,對于猜測現象,在項目反應理論模型中用c參數(thelower asymptote)來反映,使用三參數Logistic模型來分析存在猜測現象的測驗數據。對于睡眠現象,Barton和Lord(1981)提出用丫參數(thcupperasymptote)來反映,即在三參數Logistic模型的基礎上增加r參數,使用四參數Logistic模型來分析同時存在猜測現象和睡眠現象的測驗數據。
以上論述了在能力測驗中的被試猜測現象和睡眠現象,相應的,在人格測驗中存在被試作答的“作假”現象(Faking)。被試作假行為也有多種,包括被試期望反應行為、掩飾行為、趨中反應和隨機化行為等等。隨機化行為,往往是被試對人格測驗不予以配合時發生的,這種情況可以通過指導語等方式取得被試的配合。對于趨中反應,可以通過營造一個良好的測驗環境,使用指導語鼓勵被試按實際情況作答來避免。在人格測驗中,這里將主要論述對測驗結果影響較大的被試期望反應行為和掩飾行為這兩種主要的作假現象,在人格測驗中,被試往往會受到社會期望壓力、焦慮、掩飾等因素的影響,會產生兩類作答反應傾向:一是由于社會期望壓力、焦慮或其他因素,被試在試題上表現出入格特征維度高水平方向的傾向性作答(例如在社會期望反應方向為正向記分時),使得被試在這一人格特征維度上的總分偏高,本文將這種現象稱為非0下漸近線現象(non-zero lower asymeptote),可以用c參數來反映(Rouse,Finger,Butcher,1 999;ReiseWaller,2003);二是由于被試掩飾、說謊等原因,在試題上表現出入格特征維度低水平方向的傾向性作答(例如人格病理方向為正向記分方向),使得被試在這一人格特征維度上的總分偏低,本文將這種現象稱為非1上漸近線現象(non-one upoerasymeptote),可以用r參數來反映(ReiseWaller,2003)。非0下漸近線現象和非1上漸近線現象是在人格測驗中常見的兩種作假現象。非0下漸近線現象和非1上漸近線現象,造成被試得分不準確,導致人格測量的偏差。相對于能力測驗而言,在人格測驗中被試很容易作假,這在職業選拔、人才測評的人格測驗中尤為突出,Reise和Waller(2003)在分析人格測驗MMPI-2時,發現了測驗中的試題既存在著下漸近線,同時也發現一些試題存在著上漸進線,認為非1上漸近線現象也是試題的一個屬性,這時可以用四參數Logistic模型來反映并擬合測驗數據。
能力測驗中的猜測現象和睡眠現象,人格測驗中的非0下漸近線現象和非1上漸近線現象,本文統稱為被試作答異常現象。這些被試作答異常現象會導致測驗總分偏高或偏低,導致測量偏差。心理與教育測量的研究主要目標之一就是減小測量誤差,提高測量的準確性,如何來克服這些被試作答異常現象對測量的影響?在經典測量理論下,如果高能力被試(人格特征高分被試)答錯了容易試題,被試將失去該道試題的分值,從而使得被試得分偏低;如果低能力被試(人格特征低分被試)答對了高難度試題,被試將得到該題的分值,使得被試得分偏高。因此,在經典測量理論下計算被試總分時,往往難以對被試的作答異常現象(猜測現象和睡眠現象,非0下漸近線現象和非1上漸近線現象)進行有效糾正,而在項目反應理論下,當被試作答異常現象時,被試能力估計或人格特征估計情況是怎樣的呢?在四參數模型中c參數反映了猜測現象門10下漸近線現象),r參數反映了睡眠現象(非1上漸近線現象),那么c、Y參數是否有助于心理與教育測驗的準確測量?下面就以上兩個問題,從能力測驗和人格測驗兩個方面進行論述。
2 在能力測驗中對被試作答猜測現象和睡眠現象糾正的研究情況
2.1 對被試作答猜測現象和睡眠現象糾正的早期研究情況
在早期IRT研究中,許多著名的IR7研究者(Wright,1977;WainerWright,1980;BartonLord,1981;MislevyBock,1982)都對測驗中的猜測現象和睡眠現象進行了分析,并提出多種糾正方法,以下按研究論文發表的時間順序進行論述。
最早對測驗中猜測現象、睡眠現象進行研究的是Waller和Wright。Waller(1974)認為,如果要調整被試作答情況的權重以消除猜測現象的影響時,應該考慮被試能力與項目難度之間的距離來進行調整。Wright(1977)論述了Rasch模型應用中的問題,其中包括了被試作答的猜測現象、睡眠現象、遲鈍現象、緩慢現象等,但Wright認為不必分析每一個被試是否存在這些現象,只有當這些現象會影響被試能力估計而產生偏差時,可以采用刪除該被試的有關作答情況的方法來糾正。
Wainer和Wright(1980)在Rasch模型下探討了猜測現象和睡眠現象時對能力估計的影響,使用了5種方法進行對比:①純Rasch模型,②傳統的糾正猜測現象方法,⑧使用Jackknife方法④使用AMT-Robustified Jackknife方法,⑤WIM方法(此方法是檢驗被試作答模式是否奇異,如果統計值大于,值的臨界值,則刪除被試在該試題上的作答情況,再進行能力估計)。Wainer和Wright在比較分析后,認為AMT-RobustifiedJackknife方法在出現猜測現象和其他作答情況時都有較好的糾正作用;WIM方法只有當低能力被試靠猜測答對試題時,能提高能力估計的準確性;傳統的糾正猜測現象方法只有當猜測現象的比例比較大,測驗較長,而且被試為低能力被試時才體現了較好的糾正作用;而在測驗長度比較短時,Jackknife方法糾正被試能力高估或低估現象都比較好。
Barton和Lord(1981)對SATVerbal、SATMath、GRE Verbal、AP Calculus四批測驗數據進行分析,其研究目的是:(1)在三參數Logistic模型下,分析高能力被試的能力估計值是否會被低估;(2)在三參數Logistic模型的基礎上增加v參數后,分析被試能力估計值的變化情況。通過四參數Logistic模型與三參數Logistic模型的結果比較,Barton和Lord認為:在三參數模型增加7參數后,測驗極大似然值沒有顯著增加;在被試整體上比較分析,被試能力估計值沒有顯著的變化,此外,四參數模型增加了計算的復雜性,因而Barton和Lord認為不提倡使用四參數模型,這里要特別指出的是,Barton和Lord(1981)對四參數模型的觀點也不是完全否定的。在該研究報告的最后一段話認為,如果高能力被試答錯容易試題時,在正態肩形模型(單、兩參數正態肩形模型)下不予以“原諒”,則可以使用Y參數為0.98或0.99的四參數模型作為特例(strong case)來特殊處理,可以糾正高能力被試答錯容易試題時的能力估計“懲罰過大”的現象。可見Barton和Lord也部分肯定了在高能力答錯容易試題時,四參數模型能夠糾正被試能力低估現象。
Mislevy和Bock(1982)在單、兩參數Logistic模型下,探討了低能力被試依靠猜測答對了高難度試題(猜測現象)和高能力被試因為疏忽而答錯了容易試題(睡眠現象)的情況,這時被試的能力估計值往往顯得偏離過大,即高估或低估了被試能力。對于被試作答時存在的猜測現象和睡眠現象,Mislevy和Bock提出了逐步調整被試作答情況權重的方法,即被試所作答試題的難度b與被試自身能力估計值0之間的距離來給予被試作答情況不同的權重:(1)當b與0的距離較近時,給予被試作答情況較大的權重,當b與0的距離較遠一些時,則給予被試作答情況較小的權重;(2)如果b與0的距離很遠并超過一定范圍時,則刪除被試在該試題上的作答情況再進行能力估計,以減小能力估計的偏差。
2.2 對被試作答猜測現象和睡眠現象糾正的近期研究情況
從1980年代中期至2000年,對被試能力高估或低估現象的研究沉寂了一段時間。至2000年,美國高等教育年鑒報道,ETS曾經讓參加CAT-GRE測試的大約0.5%的考生免費重考(Carlson,2000),許多研究者由此又開始關注被試能力高估或低估現象,認為E7S讓考生免費重考可能是這些考生能力被嚴重低估而導致不可信,許多研究者已經對此問題進行了探討,包括從改進選題策略、使用四參數模型的角度進行了研究分析。
2.2.1 改進選題策略的方法
改進選題策略的方法是主要是由Chang和Ying(1999,2002)提出。Chang和Ying(2002)認為2000年ETS的GRE CAT測驗中被試能力低估,主要是CAT的選題策略存在設計誤區。因為在使用傳統的Fisher最大信息量的選題方法時,在測驗的開始階段往往就選擇項目信息量最大的試題(即區分度較大的試題)給被試作答,這往往造成被試能力估計不穩定,被試能力估計值擺動幅度過大。Chang和Ying通過公式推導,發現初始估計不穩定表現在兩個方面:一是,如果被試在測驗開始答錯了幾道試題(開始測試時一般是中等難度試題),傳統的最大項目信息量方法可能會將被試能力估計值向負方向推很遠。即使被試在后面的試題回答正確,往往也很難在測驗結束前將分數爬回到高分區,從而使得被試能力被低估:二是,如果被試在測驗開始連續答對幾道試題,傳統的最大項目信息量方法可能會將被試能力估計值向正方向推很遠。即使考生在后面的試題中答錯了若干道試題,也有可能獲得高分,被試能力被高估,Chang和Ying認為使用a分層最大信息量方法,在測驗開始時,選擇區分度較小的試題,就可以避免在測驗開始時,被試發揮不佳而導致能力估計值擺動幅度較大的現象,從而避免被試能力被低估,Chang和Ying(2008)在2002年的研究基礎上進一步論述了a分層最大項目信息量選題策略,并使用CAT模擬的方法進行分析,發現在CAT測驗開始階段使用項目信息量較小的試題的選題策略,可以減小被試能力估計值擺動的幅度,減小在初始階段被試能力估計的均方誤差RMSE和偏差Bias。此外,Rulison和Loken(2009)的研究也進一步論證了Chang和Ying的a分層選題策略的觀點,Rulison和Loken的研究結果顯示,當高能力被試作答出現答錯相對容易試題時,a分層選題策略可以在一定程度上幫助被試能力估計值回到CAT模擬初值。在一定程度上減小被試能力低估現象的幅度,但是同時也發現,a分層選題策略的糾正作用遠不及四參數模型的糾正作用。
2.2.2 使用四參數模型的方法
已有多個研究提出了使用四參數模型方法來糾正被試能力高估現象和低估現象。(1)戴海崎和簡小珠(2005)分析了當被試答錯相對容易試題(即存在睡眠現象),或被試答對相對高難度試題(即存在猜測現象)時,會導致被試能力的低估或高估現象;并提出四參數模型方法,以糾正被試能力低估或高估現象。(2)簡小珠(2006),以及簡小珠、戴海崎和彭春妹(2007)的研究中,在紙筆測驗的形式下設計安排中等能力被試作答不同難度的試題(包括設計安排被試作答的猜測現象和睡眠現象)。在單、兩參數Logistic模型下,發現被試能力估計值存在著第一未契合現象(其本質是被試答對高難度試題時被試能力被高估的現象)和第二未契合現象(其本質是被試答錯容易試題時被試能力被低估的現象)。在四參數Logistic模型下,c、Y參數可以有效糾正第一、第二未契合現象,也就是說,能有效糾正被試能力高估或低估現象。此外,r參數在0.70至0.98之間能有效的糾正高能力被試答錯容易試題時能力被低估現象,如果Y參數進一步增大到0.999或0.9999Y參數的糾正作用將逐漸消失;c參數在0.30至0,01之間能有效的糾正低能力被試答對高難度試題時能力被高估現象,如果c參數進一步減小到0,001或0,0001,c參數的糾正作用將逐漸消失。(3)Rulison和Loken(2009)使用CAT模擬方法模擬了被試測試過程。在測驗長度為30和45題時,(a)在二參數Logistic模型下,在測試開始階段額外增加兩道中等難度的試題并讓被試答對,這時低能力被試和高能力被試的最終能力估計值受到的影響較小,然而,如果在測試開始階段額外增加兩道中等難度的試題并讓被試答錯,這時低能力被試的最終能力估計值受到的影響較小,而高能力被試的能力估計值在CA了的過程一直受到答錯試題的影響,而且測驗的最后能力估計值顯著低于模擬初值;(b)在四參數Logistic模型下,在測試開始階段額外增加兩道中等難度的試題并讓被試答錯,這時高能力被試的最后能力估計值能順利到達模擬初值,也就是說,高能力被試的最后能力估計值不再受到答錯容易試題的影響,通過一系列的CAT模擬和比較分析,Rulison和Loken認為四參數模型下,能較好的糾正高能力被試答錯容易試題時的能力低估現象,同時也能較好的糾正低能力被試答對高難度試題時的能力高估現象,因此建議在CAT研究與應用時使用四參數Logistic模型。
2.3 被試作答猜測現象和睡眠現象的糾正方法比較分析
由以上研究可知,針對猜測現象和睡眠現象(被試能力高估和低估現象),許多研究者提出了許多糾正方法,包括刪除被試作答情況的方法、傳統的糾正猜測現象方法、Jackknife方法、AMT-Robustified Jackknife方法、逐步調整被試作答情況權重的方法和使用四參數Logistic模型的方法等等。在這些方法中,哪些方法值得優先選擇呢?本文認為使用四參數Logistic模型的方法是較優的方法,因為:(1)對被試作答情況進行刪除或調整的方法(包括傳統的糾正猜測方法,Jackknife方法,AMT-Robustified Jackknife方法,刪除被試作答情況方法,逐步調整被試作答情況權重的方法),是針對被試作答的猜測現象或睡眠現象(被試能力高估或低估現象)采用的補救方法,這些補救方法往往會改變被試作答情況的原始信息,或者刪除了被試作答情況的原始信息,也就是說,沒有“尊重”被試原始作答信息,(2)改進CAT選題策略的方法(ChangYing,2002),僅是在一定程度上糾正CA7測試中的被試能力高估或低估現象,其糾正作用不及四參數模型,而且該方法僅適合在CAT測試,不適合紙筆測驗:(3)使用四參數Logistic模型的方法,四參數模型中的c參數反映猜測現象,r參數反映睡眠現象,因而能適合被試作答的猜測現象和睡眠現象,能夠從數學模型內部來有效糾正被試能力高估或低估現象,而不需要調整或刪除被試作答的原始信息,使用四參數Logistic模型方法,可以有效糾正被試能力高估或低估現象,因而值得優先選擇。
2.4 被試作答猜測現象和睡眠現象糾正的研究趨勢分析
由以上研究,還可以歸納出以下三個研究趨勢:(1)從研究分析的測驗形式來看,從紙筆測驗形式發展到CAT模擬測驗形式,在早期,多數研究者都從紙筆測驗形式的角度來分析的;近年來,出現了使用CAT模擬測驗的方法來分析(ChangYing,2002;ChangYing。2008;RulisonLoken,2009);(2)從研究對象的角度來看,從整體分析被試在測驗上的作答情況,發展到單獨額外增加猜測現象或睡眠現象的方法來進行研究。在早期,多數研究者是從紙筆測驗整體角度來分析被試猜測現象或睡眠現象,猜測現象和睡眠現象混合在測驗的整體作答情況之中,研究者往往只是從測驗整體上進行大致的分析研究。而最近兩個研究(簡小珠等,2006;RulisonLoken,2009)通過研究設計,額外安排被試答對高難度試題的現象(猜測現象),或安排被試答錯容易試題的現象(睡眠現象),使得對猜測現象或睡眠現象的研究分析更具有針對性。由這兩個研究的結果可知,猜測現象肯定會導致被試能力高估現象,睡眠現象肯定會導致被試能力低估現象,而在早期研究者從測驗整體分析時,只是模糊的認為猜測現象或睡眠現象會影響被試能力估計,沒有得出肯定的結論;(3)從糾正方法的角度來看,從調整或刪除被試作答情況的方法,發展到使用數學模型的方法來擬合被試作答情況,早期研究者往往是提出調整被試作答情況權重的方法,或采用刪除被試作答情況的方法,來糾正被試能力高估現象或低估現象。而最近研究者提出使用四參數模型宋分析被試作答時的猜測現象或睡眠現象,從數學模型內部來糾正被試能力高估或低估現象,此外,已有的這些研究都只分析了兩級記分模型下被試能力高估和低估現象,而在多級記分模型下是否存在被試能力高估或低估現象?以及如何進行糾正?這有待于研究者進一步探討分析。
3 人格測驗中非0下漸近線現象和非1上漸近線現象及其糾正研究情況
人格測驗有多種類型,這里僅論述常用的、測查人格病理傾向、在人格維度分量表上累加記分的人格測驗,比如MMPI-2,艾森克人格問卷,16PF人格測驗等一些常用人格量表。許多研究者都對人格測驗的作假現象進行了研究,駱方和張厚粲(2007)概述了以往對人格測驗作假現象控制和識別的研究情況,并概括了預防控制、識別作假現象的6種方法:采用迫選式量表、使用警告語、使用假渠道技術這三種方法是事前控制技術;社會稱許性量表(作假識別量表)、IRT識別技術、反應時技術是事后識別技術。然而,(1)采用迫選式量表、使用警告語、使用假渠道技術存在以下不足:在測驗采用迫選方式會改變正常的測驗情境,而使用警告語或者測謊技術,很容易影響被試作答的情境(駱方,張厚粲,2007);被試在人格測驗的許多作假行為有時往往是無意識的,自己都無法意識到,那么警告語和使用假渠道技術是無法完全預防被試作答的作假現象。(2)社會稱許性量表(作假識別量表)、反應時技術,用于作為識別被試作假行為,往往只注重識別被試的作假情況;通過這些方法識別出來后的被試,其作答問卷可能會刪除,或要求被試重測。通過IR了識別技術,通過統計檢驗方法,也只能識別到了一部分作假比較嚴重的被試,而一些被試無意識中在一部分試題的作假行為可能無法識別,也無法糾正。近年來,已經有研究使用IRT中的三參數Logistic模型和四參數Logistic模型來分析和糾正被試作假現象,這些方法在駱方等的論文沒有涉及,下面將具體論述。
Rouse,Finger和Butcher(1999)在分析MMPI-2量表時中發現,在攻擊性量表和負性情緒量表上的c參數估計值較小,小于0.10;而在精神質、強迫癥、積極情緒量表的c參數估計值較高,而都在0.10至0.25,部分試題的c參數在0.30以上。Rouse等對以上現象進行進一步對測驗數據的數據分析,認為主要是社會期望導致測驗中被試作答存在非0下漸近線現象。
Reise和Waller(2003)使用單、兩、三參數Logistic模型來分析MMPI-2的測驗數據,發現使用這些模型都不能很好的擬合測驗數據,而且發現有些項目存在非1上漸近線現象,但由于當時沒有的四參數Logistic模型數據分析程序,Reise和Waller使用轉換被試人格特征性質方向的方法即三參數模型的轉換形式來分析測驗中存在上漸近線的項目的擬合情況。在該論文中的應用意義部分,Reise和Waller認為在四參數模型能較好擬合被試作答的非。下漸近線現象和非1上漸近線現象,因而四參數Logistic模型可能成為未來研究的一個熱點方向。在最新的WINS了EPS軟件說明書中(Linaere,2009a),四參數模型項目參數估計程序引用的例子即是Reise等的研究論文。
2009年,多位研究者的合作編著《以數學模型為基礎的心理測量新方向》即將出版,其中的一章內容是Waller和Reise將四參數模型應用于MMPI-2的研究報告(WallerReise,in press),該研究論文認為Ba~on等對四參數模型的研究方法不當,論據不夠充分。而且Waller等概述了IRT方法在人格測量的應用,并論述了四參數模型近年來在人格測驗中的研究情況,該研究報告是對Reise等的研究的繼續發展,Wailer等應用四參數模型來分析MMPI一2測驗數據,發現能較好地擬合存在上漸近線現象的測驗項目,Waller等將四參數模型與三參數模型進行比較:(1)在估計被試人格特征方面,三參數模型下高人格特征被試的人格特征值容易被低估,而四參數模型下則不會被低估,(2)在測驗精度方面。四參數模型的測驗信息量在低分段(即能力區間1-4,0])要高于三參數模型,測驗精度略好于三參數模型。最后,作者還進一步論述了c、Y參數在人格測驗中的必要性:一是人格測驗項目存在著極端性(即存在非。下漸近線現象和非Ⅱ上漸近線現象);二是人格測驗項目上存在的“非對稱的項目特征模糊性”(non-symmetric item ambiguity),即人格測驗在人格特征維度上的一端測量可以模糊,而在人格特征維度的另一端的測量要求精確(not ambiguous),這時需要c或丫參數來反映,以得到更精確的測量。
以上人格測驗的研究中,都使用了三參數模型和四參數模型分析測驗數據,并擬合和糾正被試“作假”現象(包括非0下漸近線和非1上漸近線現象),以實現較為準確的測量。當然四參數模型作為一種擬合和糾正被試作假現象的方法,與目前其他被試作假現象的控制識別方法一樣,也還在不斷完善中,有待于進一步探討和發展。
4 被試作答異常現象糾正的實踐意義與研究進展
4.1 在能力測驗中糾正被試作答猜測現象和睡眠現象影響的實踐竟義
2000年ETS曾經讓參加GRE測試大約0.5%的考生免費重考(Carlson,2000),許多研究者認為很可能是被試能力被嚴重低估而導致不可信,2002年,ETS再次被報道在CAT-GMA7測驗中,有將近1000人的考生的分數估計不準確(能力被低估),這將影響這些考生被一流MBA學院錄用的機會(Merritt,2003)。Rulison和Loken(2009)在四參數模型下進行CA了模擬研究,在初始階段安排高能力被試答錯兩道相對容易的試題后(被試作答睡眠現象),發現被試能夠在后面的試題作答中使得被試分數能夠“爬回來”,達到高分區,從而達到模擬初值,能夠糾正被試能力低估現象,Rulison和Loken的CA了模擬研究為解決CAT測驗中存在能力低估的問題,提供一個很好的思路與解決方案。
而對于在傳統的紙筆測驗中存在著被試作答的猜測現象和睡眠現象,這時可以應用四參數模型宋糾正被試能力高估或低估現象的方法進行糾正,以得到更為準確的測量分析。
4.2 在人格測驗中糾正非0下漸近線現象和非1
上漸近線現象影響的測量鴦義
人格測驗所測量內容往往涉及被試個人敏感的問題,而又不存在正確的答案,所以被試很容易對人格測驗作假。被試在有意識或無意識中隱瞞自己真實情況或者按照社會期望的要求來回答,以及一些其他原因導致了被試作假現象,由于被試作假現象的存在,嚴重影響了人格測驗的有效性,甚至導致人們有時懷疑人格測驗的有效性,對測驗作假現象的預防控制、識別、擬合、糾正,是每一個人格測驗在編制、施測、分析測驗數據和報告研究結果時都必須考慮的。而近二三十年來在許多研究者的共同努力下,已經發展了多種方法來預防、控制、識別被試作假現象(駱方,張厚粲,2007)。而IR7中四參數模型方法是近年來逐漸被關注和發展出來的方法,可以用來擬合和糾正人格測驗中的非0下漸近線現象和非1上漸近線現象,是人格測驗中擬合和糾正被試作答異常現象的新方法,Waller和Reise(in press)認為,四參數模型能較好擬合和糾正人格測驗中的非0下漸近線現象和非]上漸近線現象,因而使用四參數模型可以提高人格測量的精度。
4.3 近年來四參數模型的研究進展情況
四參數模型在1981年提出來后(BartonLord,1981,),很長一段時間里(]981-2003年)都被研究者所忽視;而在最近幾年(1003~2009年),四參數模型的研究較為活躍,重新被研究者關注(WailerReise,in press)。除了本文前面所論述有關四參數模型的研究之外,還有以下研究者對四參數模型也進行了探討。
Linacre(2004)從被試作答的潛在特質似然比的角度,論述區分度、猜測現象、疏忽現象都是試題的屬性,并探討c參數、v參數的初步估計公式。
Hessen(2004)在分析Logistic模型分類時,以四參數Logistic模型為基礎,認為三、兩、單參數Logistic模型是四參數Logistic模型的一個特例。而且通過分析被試作答的潛在特質似然比,從數學公式和理論上分析了c參數、Y參數的有關性質。Hessen(2005)進一步探討了c’0時的四參數Logistic模型,即三參數Logistic模型丫型的形式,而且把四參數Logistic模型進行改寫成一個非參數IR7模型的形式,并對該非參數模型的一些數學性質等進行了探討,以及應用于項目功能差異(DIF)的分析。
Emons。Siitsma和Mei5cr(2005)論述單、兩、三、四參數模型的一致性,認為單、兩、三參數模型是四參數模型的一個特例,并分析測驗項目擬合情況時,同時也發現測驗中的許多試題存在著非l上漸近線現象。遺憾的是,Emons等沒有對此測驗現象進一步的探討。或許是由于當時沒有四參數模型的項目參數估計軟件,因而Emons等(2005)沒有進一步分析。
2006年,Loken和Rulison使用貝葉斯估計方法實現了對四參數模型的參數估計方法(LokenRulison。2006:引自WallerReise\",io press)。而Waller和Reise(in press)則使用蒙特卡洛馬爾可夫鏈方法(MCMC方法),即Gibbs sampler方法應用于BRUGS(Thomas,2006),實現了對四參數模型的項目參數估計。
最新的IR7軟件WINS7EPS(Linacre,2009a)包含了四參數Logistic模型的項目參數估計模塊,可以登陸其網站下載試用版本(Linacre,2009b)。W1NSTEPS可以處理的最大值為10,000,000被試30,000試題,255得分等級。對于心理與教育測量中的幾百人被試,幾十道試題的測驗數據,可以WINSTEPS在幾分鐘內完成四參數模型下的參數估計。所以,有了四參數模型的項目參數估計軟件后,過去四參數模型應用的主要障礙(項目參數估計的運算復雜性和費時)就不再存在了,
由此可見,四參數模型的研究在近年來較為活躍。多位研究者對四參數模型的性質進行了探討,進行了項目參數估計的研究,并且出版了用于分析測驗數據的軟件WINS7EPS。為四參數模型的廣泛應用提供了堅實的基礎。
5 小結
在能力測驗中,被試作答的猜測現象會導致被試能力高估現象,被試作答的睡眠現象會導致被試能力低估現象。對于測驗中的被試能力高估或低估現象,研究者已經提出了多種方法來糾正。四參數模型能適合被試的各種作答情況(包括被試作答時的猜測現象和睡眠現象),不需要調整或刪除被試作答的原始信息,從數學模型內部能有效糾正被試能力高估和低估現象,因此在能力測驗的研究分析中,可以使用四參數Logistic模型的方法宋糾正被試能力高估或低估現象。
在人格測驗中,由于被試無意識的社會期望反應和掩飾防御反應等等,被試作答存在著非。下漸近線現象和非1上漸近線現象,會影響測驗結果的準確性,目前研究者已經提出了多種預防控制、識別和糾正方法,而四參數模型能較好的擬合和糾正被試作答的非0下漸近線現象和非!上漸近線現象,提高人格測量的準確性,當然。四參數模型在人格測驗中的研究與應用還需要進一步的探討。
總之,在能力測驗中,四參數模型能較好的糾正被試猜測現象和睡眠現象導致的能力高估和低估現象;在人格測驗中,四參數模型能較好擬合被試作答的非0下漸近線現象或非1上漸近線現象,提高測量的準確性。