摘要 Raseh模型是在國外學術界受到廣泛關注和深入研究的一個潛在特質模型。該模型為解決心理科學領域內測量的客觀性問題提供了一個可行性很高的解決方案。而國內關于Rasch模型的理論探討和應用研究卻并不多見。不同于一般項目反應理論,Rasch模型要求所收集的數據必須符合模型的先驗要求,而不是使用不同的參數去適應數據的特點。Raseh模型的主要特點(包括個體與題目共用標尺、線性數據、參數分離)確保了客觀測量的實現。未來關于Rasch模型的研究方向包括多維度Rasch模型、測驗的等值與鏈接、計算機自適應性考試,大型應用測量系統(比如Lexile系統)等等。
關鍵詞 Raseh模型;潛在特質模型;客觀測量
分類號 B841
Rasch模型(Rasch,1960)是由丹麥數學家和統計學家Georg Rasch(1901~1980)提出的一個潛在特質模型。這一模型以自然科學領域內的客觀測量為標桿,為社會科學領域內的測量建立起一套客觀標準,以確保測量所提供的信息更為客觀和可靠(BondFox,2007)。經過半個世紀的發展,Rasch模型已在心理科學領域得到了廣泛應用(例如,MerrellTymms 2005;Mok,Cheong,Moore,Kennedy,2006;Waugh,2002,2003;Weave,2005)。在國內,雖然早在上世紀80年代就已經有了關于Rasch模型的介紹和研究,但很長一段時間內,這一領域并未贏得學術界足夠的重視。筆者作過一個簡單的統計,在“中國知網”(1915至2008年)和“中國期刊全文數據庫”(1915至2009年)中以“Rasch”為主題進行搜索,總共只找到93篇非重復中文文獻(搜索日期為2009年11月10日)。文獻數量按年份分布如表1。

在2000年之后,尤其是最近5年,Rasch模型得到了越來越多的重視,研究也日益增多,研究所涵蓋的領域包括心理、教育、考試研究、統計、醫學、康復等學科。但在已發表的文獻中,系統性介紹Rasch模型特點以及其發展趨勢的仍然很少。少數幾篇綜述文章多發表于上世紀90年代初(例如,Keats,陳富國,1990;羅冠中,1992),并未反映出Rasch模型在近20年的發展。基于此,本文將從基本理論、數學表述、以及主要特點幾個方面對Raseh模型的進行了討論,探討其如何幫助心理科學研究者實現客觀測量,并介紹其最新的發展趨勢。
1 Rasch模型的基本理論
作為一種潛在特質模型,Raseh模型通過個體在題目上的表現(通常表示為原始分數)來測量不可直接觀察的、潛在的變量。根據Rasch模型原理,特定的個體對特定的題目作出特定反應的概率可以用個體能力與該題目難度的一個簡單函數來表示。個體回答某一題目正確與否完全取決于個體能力和題目難度之間的比較。

IRT模型或其他統計方法傾向于使用不同的參數來以適應數據的特點,而Rasch模型則要求所收集的數據必須符合模型的先驗要求(Andrich,2004)。這正是Rasch模型所強調的“客觀測量”的一個關鍵點。我們可以舉一個例子來看一看用參數來適應數據這種方法的不足。有不少研究對體能測驗結果進行了因子分析,試圖確定體能這一潛在變量的結構(例如,Fleishman,1964;Marsh,1993;PonthieuxBarker,1963)。而無論是探索性因子分析,還是驗證性因子分析,在試圖建立客觀測量時均有明顯缺陷。Marsh(1993)指出,探索性因子分析使研究人員無法控制最終所得出的因子結構。研究人員無法測試任何先驗因子結構,數據所產生的結果便是最終結果。至于驗性因子分析,盡管它可以讓研究人員測試其先驗因子結構,并提供指標來判斷先驗因子結構與實證因子結構之間匹配的程度,但也未能達到客觀標準。因為數據作為一個“現實”,而因子模型只是用來“解釋”這些數據。當模型無法正確地解釋數據時,就必須對模型進行修改,對參數進行修訂,直到修訂后的模型和參數可以很好地解釋數據。因此,在上述以數據為本的研究中,要想取得一個穩定的體能因子結構幾乎是不可能的,因為各研究中體能測試的樣本不同,所使用的體能指標也不同。從這個意義上講,如果沒有建立起一個獨立于數據的、客觀的尺度,在不同情境所得到的測量結果就不可能進行有意義的比較。有鑒于此,Rasch模型設定了客觀測量中數據必須滿足的先驗要求。如果數據不適合Rasch模型,首先應該做的是審視數據本身可能存在的問題,而不是改變模型自身參數設置來適應不同的(可能存在問題的)數據。在Rasch模型下,不同的研究結果(因子結構、測驗量尺等等)可以適用到其他情境下,因此,在不同情境下進行的測量可以在一個穩定和一致的框架內進行解讀和溝通。有研究者(Al-Owidha,2007)比較了Rasch模型和三參數IRT模型在同一套學業測驗數據上的表現。結果發現,雖然三參數IRT模型對數據的擬合度高于Rasch模型(這不難理解,因為三參數模型的方法是使用更多參數去使“模型適應數據”,而Rasch模型卻要求“數據符合模型”),但Rasch模型卻能提供更穩定、更精確的題目難度參數,以及更好的題目和測驗信度。
4 Raseh模型的主要特點
4.1個體和題目共用同一把尺
Rasch模型通過對數轉換,將個體和題目在同一單維度尺上進行標定(WrightMasters.1982)。基于各自在此單維度連續體上的位置,個體與個體之間、題目與題目之間、個體與題目之間可以方便地進行直接比較。這是Rasch模型區別于傳統測量方法的一個顯著特征,也是實際應用當中最有意義的一個方面。例如:在傳統測量方法下,如果A題目沒有對某學生施測,那么即使該學生回答過類似的另一題目B,也很難預測其在A題目上的表現。然而,Rasch模型可以解決這一問題。依據各自的能力或難度水平,個體和題目被標定在同一量尺的不同位置上。根據這種相對位置所提供的信息,即使沒有真正施測,也可以預測學生在該題目上的表現。
4.2數據的線性特質
任何觀測值都來源于原始數據,但原始數據所提供的卻往往并非有效的“量度”,因為從原始數據人們很難作出有價值的推論(Wright,1997;WrightMok,2000)。Bond和Fox(2007)指出,原始數據很多時候表示的僅僅是個體或題目的次序,而并非是關于“多少”的問題,也就是說,無法得知不同分數之間的距離,更無法提供分數在比例上的意義,而這恰恰是有效測量的關鍵所在。心理測驗經常使用李科特量表(例如:非常不同意,不同意,同意,非常同意)。學生在此類量表上的原始分數看起來是等距的,但這并不意味著原始分數所代表的心理特質水平也具有等距的意義。因為等距的量度意味著分數每增加一個單位,所代表的特質水平也相應地有一個同等大小的增量。然而事實并非如此。“非常不同意”與“不同意”之間的距離,未必等于“不同意”與“同意”之間的距離。
數據的線性是任何統計方法——比如因子分析——的一個基本假設(WrightMasters,1982)。然而,很多數據,就象學業考試的原始分數,實質上并不符合線性數據的要求。因此,嚴格來講,大部分統計方法并不適用于這種非線性(或非等距)數據。只有將這種數據轉換為線性的、等距的數據,才可應用統計方法(Wright,1997)。Rasch模型可以將非線性數據轉換成為具有等距意義(對于所測量特質而言)的“logit scale”數據,從而使客觀的測量成為可能(Linacre,2006)。有些學者(例如,Fischer,1995)甚至認為Rasch模型是唯一可行的將次序數據轉換為線性數據的方法。
4.3參數分離
由于個體所得到的原始分數依賴于所施測的題目,而對分數的解讀又依賴于特定施測樣本,因此傳統測量方法很難用來比較或預測個體在不同測驗之間的表現。這是傳統測量理論的一個重大缺陷。假設有兩份測量同一心理特質的心理測驗問卷A和B,一名學生在A卷中得到80分,那么他在B卷中可以得到多少分?很難預測。即使是同一學生,題目測量的是同一特質,只要題目不同,分數也可能有不同。再舉一例:學生甲在A卷中得到80分,學生乙在B卷中也得到80分。哪一位學生所對應的心理特質水平更高?很難直接作出判斷,因為雖然他們分數相同,但卻是在不同測驗中得到的,其分數所代表的含義也不同。
為了避免直接對原始分數進行解讀所造成的困難,有時會用標準化分數(如z分數和t分數)代替原始分數來比較在不同測試上的得分。然而,標準分數的計算依賴于所選取的樣本。由于不同樣本的平均數和標準偏差都不同,意味著基于標準分數的比較只適用于來自同一樣本的個體。百分數也有類似的問題。相同的成績,在不同的常模中所對應的百分數也會不同。
Wright和Stone(1979)指出了客觀測量兩個相輔相成的要求。一個是題目難度的標定必須獨立于被試樣本的分布,另一個要求是對個體能力的測量必須獨立于題目的難度分布。此一特點稱為“參數分離”或“參數恒定”(EmbretsonReise,2000;WrightMasters,1982;WrightMok,2000)。在前文述及之方程(1)中,正確反應的概率只由個體的能力(θm)和題目的難度(δi)所決定。這意味著Rasch模型所提供的個體能力和題目難度參數,是完全獨立樣本分布或題目難度分布的。因此,Rasch模型符合客觀測量對于參數分離的要求。
然而,需要特別指出的是,在實際應用當中,運用Rasch模型對個體能力和題目難度進行標定時,其數值往往會隨著題目難度和個體能力的不同組合而改變。這豈不是和“參數分離”的要求不一致嗎?其實不然,“參數分離”并非要求每次標定的絕對估值都一樣,而是要求個體與題目之間的差異(在潛在特質量尺上的相對位置)保持不變,也就是保持一種相對的恒定。從這個意義上來說,Rasch測量提供的是關于個體能力和題目難度的等距分數,而不是等比分數。
5 Rasch模型擬合度
如前所述,Rasch模型是一個理想的數學模型,在現實的測量中不大可能得到完美的實現。因為再簡單的測試,都可能受到無關因素的干擾。例如數學考試,學生的表現除了受數學能力影響之外,還有可能受學生的閱讀理解能力(能否讀懂題目)的影響。心理測驗的成績主要由所測特質決定,但也可能受施測當時學生的身體狀況和意愿,以及其他不可預測的因素影響。雖然測量的復雜性和不完善性是客觀存在的,但測量工具開發者和使用者應該知道所收集的數據在何種程度符合測量模型要求。Rasch分析提供的擬合度指標可以檢驗實證數據與Rasch模型的擬合程度。題目的擬合度指標不好,說明可能存在目標特質之外的其他變量,或者對所測量特質的定義不恰當。
很多運行Rasch分析的計算機程序(例如,WINSTEPS,ConQuest)提供兩種形式的卡方擬合指標:Outfit Mean Square(Outfit MNSQ)和InfitMean Square(Infit MNSQ)。這些擬合指標都是由殘差計算而來。Outfit MNSQ是殘差的均方。InfitMNSQ則是加權(以方差為加權系數)后的殘差均方。Outfit MNSQ對極端值(異常數據)比較敏感,因為極端值會產生的較大的殘差。而Infit MNSQ對題目難度與個體能力水平相當的數據較為敏感,因為此類數據方差(加權系數)較大(smith,2002)。Outfit MNSQ和Infit MNSQ的取值范圍介于0到正無窮大。理想值為1,意味著實際數據完全與Rasch模型相擬合。大于1(underfit)表示實證數據的變異數多于Rasch模型的預期;小于1(overfit)表示實證數據的變異數少于Rasch模型的預期。從測量的角度來看,underfit(大于1)的數據對測量客觀性的負面影響要大過overfit(低于1)的數據。Underfit是由雜亂無章的答案所造成,會直接損害測量的質量。而overfit雖然可能會降低測量的效率,但對測量質量的影響反而不大(BondFox,2007)。Infit MNSQ和Outfit MNSQ可接受的取值范圍在很大程度上取決于研究目的。Linacre(2006)建議取0.5至1.5的范圍,但很多研究選取了更為嚴格的標準,例如,0.7至1.3(Mok et al.,2006;ZhuCole,1996)或0.8至1.4(WolfeChiu,1999)。Infit和Outfit指標也有標準化的形式,分別表達為Infit ZSTD和Outfit ZSTD。Infit ZSTD和Outfit ZSTD服從t分布,理想值為0,標準差為1。
不過,在Rasch分析中對于擬合指標的使用必須謹慎。Wright和Panchapakesan(1969)指出,在測驗發展過程中,簡單地刪除擬合指標不好的題目并非值得提倡的做法。測驗設計者應該仔細審查這些擬合指標不好的題目,找出可能對其產生影響的其他因素,如區分度和猜測效應的影響。Bond和Fox(2007)也建議利用擬合度指標來查找表現異常的題目和個體,而不是將它們作為決定是否刪除某個題目的簡單標準。smith(2002)指出,應該把實證數據對測量模型的擬合程度看作是一個連續體,而不是一個簡單是或否的問題。換句話說,“擬合”與“不擬合”之間并沒有森然的壁壘,應該根據不同情況選擇合適的標準。
6 Rasch模型的發展趨勢
如何真正實現測量的客觀性一直是困擾心理科學,乃至所有社會科學研究者和實踐者的問題。Rasch模型在解決這個問題上實現了很大的突破,其堅實的理論基礎,簡單的數學表述也確保了它廣泛的應用前景。Rasch模型在諸多方面與IRT模型相類似,但卻從根本上避免了多參數IRT模型在應用上所固有的缺陷。除了心理科學領域,關于Rasch模型的研究和應用還大量出現于教育領域(例如,Ito,Sykes,Yao,2008;LiuWilson,2009;Tong Kolen,2007),衛生和醫學領域(例如,Hsueh,Wang,Sheu,Hsieh,2004;Strong,Kahler,Ramsey,Brown,2003;Tesio,2003)。體育和運動科學領域(例如,BowlesRam,2006;HandsLarkin,2001;Heesch,Masse,Dunn,2006;Zhu,200 1;ZhuCole,1996),等等。
Rasch模型從產生至今已有半個世紀,但仍保有旺盛的生命力,并處于持續不斷的發展之中。多維度Rasch模型(Multidimensional Rasch Model)是其中一個很重要的趨勢。比如運用多維度Rasch模型對“國際學生評價項目”(Programme for International Student Assessment,PISA)數據的分析(例如,LiuWilson,2009);對包含不同分量表的測驗數據進行分析(例如,Cheng,Wang,Ho,2009);等等。這里的多維度并不是對Rasch模型單維度要求的一種顛覆,而是一種發展。在多維度Rasch模型里,對同一維度的個體能力和題目難度的標定仍然固守單維度原則,但與此同時,它充分利用相關維度特質(或相關分量表)所提供的有用信息,以提高測驗的效率和對目標特質測量的精確度。多維度Rasch模型在某種程度上解決了單維度模型分析多維度測驗數據時遇到的信、效度問題(RostCarstensen。2002;YaoSchwarz,2006),也使測驗在涵蓋較為廣闊范圍內容的同時,也有較高的測驗精確度(cheng et al.,2009),從而極大地延伸了Rasch模型的應用空間和前景。
測驗的等值和鏈接(Test equating and linking)是Rasch應用的另一個熱點研究領域。測驗的等值與鏈接是指將不同測驗中取得的分數轉化為可以互相替換或比較的分數的統計過程。等值主要處理內容相同而難度不同的測驗,而鏈接則用來處理內容和難度都不相同的測驗(KolenBrennan,2004)。越來越多的研究著眼于運用Rasch模型建立一把垂直量尺(vertical scale)(例如,Custer,Omar,Pomplun,2006;HansonBeguin,2002;Ito et al.,2008;Pomplun,Omar,Custer,2004;TongKolen,2007)。比如,常識告訴我們小學二年級學生的數學能力應該比一年級學生高,但要想確切知道他們之間的數學能力差距,卻很困難。因為不同年級的考卷題目所測量的內容和,或題目的難度水平不同,因此所得到的分數無法直接比較。如果構建一把可以測量不同年級水平的數學能力的垂直量尺,將在不同試卷上得到的分數放在同一把量尺上進行比較,就可以知道不同年級學生的數學能力差異,跟蹤學生在數學能力上的發展。然而,構建這種垂直量尺的嘗試受到許多因素的影響,比如數據收集方案(通用題目設計或逐級共用題目設計)、建尺方法(同時標定或分級標定)、甚至所使用的電腦程序(WINSTEPS、BILOG-MG、或其它程序)。是否存在所渭“最佳方法”,還沒有達成一致。
基于Rasch模型的計算機自適應性考試(Computer Adaptive Testing,CAT)已成為當今教育測量研究與實踐的一個重要發展方向。傳統考試方法要求所有考生作答完全一樣的題目。背后的一個假設是,任何題目對全體考生提供的評價信息是一樣的。而事實并非如此,對某一水平考生有用的題目,對另一水平的考生來說可能完全沒有意義。CAT則根據考生不同的能力水平,提供不同的測驗題目,以一種最有效、最經濟的方法來標定考生的能力。Rasch模型在實現CAT的各個方面,包括試題庫的建設,測驗題目難度的標定,題目或測驗之間的等值,對“作弊策略”的偵測,以及最后的評分,都扮演著重要角色(例如,GershonBergstrom,1995;Scalise,2004;StylesAndrich,1993)。
對于Rasch模型在實現客觀測量中的作用,除了持續不斷的理論探討之外,也越來越多地得到了實際應用的佐證。Lexile系統(Stenner,Sanford,Burdick,2007)便是其中較為成功的一個范例。Lexile是一個英文閱讀評估系統,其基礎是基于Rasch模型發展而來的針對個體閱讀能力和文章閱讀難度的Lexile量尺。這把量尺有固定的原點和相等的測量單位,可以提供關于個體英文閱讀能力和英文閱讀材料(包括段落、文章、甚至整本書)的難度水平的客觀信息。利用這些信息,可以將個體的閱讀能力與閱讀材料的難度水平進行匹配,從而更好地促進閱讀能力的發展。Lexile系統現階段主要還是應用于以英文為母語的群體中,但據筆者所了解的情況,針對中文閱讀的Lexile系統也正在發展當中。
有批評者認為Rasch模型的問題在于太過“完美”,導致在現實世界中的測量很難真正實現。某種程度上來說,這不是Rasch模型所獨有,而是所有數學模型共有的問題。所謂模型,是排除了所有干擾之后的理想狀態,這在本質上就決定了模型在現實世界中不可能百分之百實現。這也是為什么要檢驗模型與實證數據是否吻合,為什么需要擬合度指標。真正的問題在于,很多數學模型過于復雜,對于實踐工作的指導意義不大。Rasch模型是一個相對簡單的模型,以一種最有效率的方式規定了客觀測量所需要滿足的條件。因此具有極大的實踐指導意義。對于關注Rasch模型并有興趣進行相關研究的同仁來說,如何在進一步推動Rasch模型理論發展的同時,將先進的測量技術和結果解讀方法介紹給測驗的直接施測者和使用者(比如心理測驗使用者、一線教師、以及大型考試管理者),以幫助實踐工作,應該是今后的重點工作方向。