托幼機構教育質量評價的多元概化理論分析

2013-04-12 00:00:00陳德枝秦金亮李克建

幼兒教育·教育科學版 2013年10期

[摘要]探討托幼機構教育質量評價的信度，對提高評價的科學性和權威性具有重要意義。本文運用多元概化理論，對某次托幼機構教育質量的評價數據進行分析。評價工具為《中國托幼機構教育質量評價量表（試用版）》，評價對象為浙江省不同地區的22個托幼機構的48個班級。分析結果表明：在六個子量表中，子量表一（空間與設施）的方差分量最大，子量表三（集體教育活動）的方差分量最小；子量表三與其他五個子量表的協方差相對較小：各個子量表的可靠性指數都在0.8以上，合成可靠性指數也在0.9以上：通過增加評價者人數可以提高評價的信度，但是提高的幅度在逐步減小。

[關鍵詞]多元概化理論；托幼機構；教育質量評價

[中圖分類號]G617[文獻標識碼]A[文章編號]1004-4604（2013）10-0022-05

托幼機構教育質量評價是一項極其重要的工作，20世紀80年代末以來，我國就開始了示范園和幼兒園分等定級的評估實踐，一些地方性的幼兒園評估標準也陸續出臺。但是，現有的大量研究（劉焱，1998；戴爽翔、劉霞，2003；劉麗湘，2006）與實踐均表明，我國托幼機構質量評價的過程不夠嚴謹、評價的信效度不高、評價標準未經檢驗，評價的科學性存在著明顯的缺陷。

托幼機構教育質量評價是一種多人參與、多維度展開的復雜的評價活動，其評價結果的準確性受到評價者、評價項目和評價情境等多方面因素的影響。在考察評分者信度時，我們常常運用求兩個或多個評分者獨立評分間相關的分析方法（例如有多個評分者時計算肯德爾和諧系數）。但實際情況是。當有兩個或多個評價者對不同的幼兒園進行評價時，評價者間的任何系統誤差都會影響評價者信度。比如某幼兒園因為由對標準的掌握相對較寬松的評價者來測評而導致得分偏高，而另一幼兒園因為由對標準的掌握相對較嚴的評價者來測評而導致得分偏低。當我們把不同評價者的評分放在一起比較時，每個評價者的系統偏差從總體上就構成了隨機誤差。因為他們的評價結果被放在了同一個參照系統中處理（如求算術平均數等），這樣一來，肯德爾和諧系數就不能準確反應評價者信度的高低，評分者之間的相對一致性較高而系統誤差卻很大，這時的評價者信度并不高。不僅如此，這種傳統的信度分析方法（如相關分析法）無法分解評價中的各種誤差來源，難以考察因測量情境關系變化而引起的誤差變化，缺乏一個綜合統一的評價指標對多維度的評價活動進行信度分析。當多個評價者進行多維度測評活動時，運用多元概化理論（Multivariate Generalizability Theory，MGT）可以進行更深入、更精確的分析。

概化理論運用實驗設計的思想，采用方差分析的統計分析技術，可以分析測評中的各種變異來源，并對此進行分解、估計與控制。近幾十年來，概化理論因應實踐的需要，已從單變量概化理論發展到多元概化理論。單變量概化理論主要用于單個維度的測評和分析，多元概化理論則主要用于多維度的測評和分析，尤其是面對多維度復雜測量與評價情境，多元概化理論對分析測評誤差的來源、提高測評的精度、提升測評的質量具有重要的意義。

一、研究方法與過程

（一）研究對象

根據浙江省各地區不同的經濟發展水平。研究者在經濟發展較好、一般和欠發達的三個地區抽取了來自市、縣、鄉村三類行政區域的22所托幼機構的48個班級作為研究對象。

（二）評價工具與評價過程

本研究所使用的托幼機構教育評價工具是《中國托幼機構教育評價量表（試用版）》（以下簡稱《量表》）。《量表》共包括七個子量表，采用7點記分方式。評價者主要通過班級觀察的方式進行評分。其中第七個子量表（對家長與教師的支持）主要通過對家長和教師的訪談收集信息，但研究者發現，其中的一些項目，大部分受訪者無法做出清晰回答，說明該子量表需加以修訂和完善。為此，本研究僅對前六個子量表的評價結果進行多元概化分析。這六個子量表分別是：空間與設施、幼兒保育、集體教育活動、幼兒游戲材料與活動、互動和一日活動。

（三）評價方案的設計

本研究共有12名評價者（r）運用《量表》對48個班級（c）進行了觀察和評分。評價者為高校學前教育專業的教師和研究生，他們都曾參與《量表》的研制工作，并接受了規范的評價培訓和施測訓練。一般情況下，對同一班級的評價在同一時間由2-3名評價者獨立進行。我們把托幼機構班級作為評價目標，評價者和量表作為測量側面。其中，量表為固定測量側面，評價者為隨機測量側面。量表包含六個子量表，所以我們從六個方面進行評價。我們把測量設計看作是單側面的多元嵌套設計，即評價者嵌套于幼兒園班級（r·：c·）。

（四）數據格式與處理

評價者觀察和評分工作結束后，我們對每位評價者的評價結果進行了整理，形成以下格式（如表1所示）。基于各子量表的平均數，我們運用多元概化分析軟件mGENOVA進行分析。

二、研究結果與分析

根據概化分析的基本步驟和主要內容，我們對G研究和D研究分別加以報告與說明。

（一）G研究結果

G研究是指在一定測量情境條件下，收集資料，設計方案，并進行試驗性測試，求出各種方差分量的階段，結果如表2所示。表中對角線上的數據為方差分量，它表示各子量表所能解釋的變異情況。首先我們分析效應c（托幼機構的班級）在各子量表上的方差分量，其中子量表一（空間與設施）的方差最大。這說明在此次評價中，它的作用最大。其次是子量表二（幼兒保育）和子量表五（互動），最小的是子量表三（集體教育活動）。對角線上方的數據為相關系數，從表中可以看出，各子量表間的相關系數均在0.7以上，這為對各子量表的評價結果進行綜合分析提供了一定的實證依據。對角線下方的數據為協方差分量，它表示該變量與其他變量間的共變性。從表中可以看出，相比較而言，子量表三（集體教育活動）與其他五個子量表的協方差較小。這表明此次評價中，在區分質量高低方面，子量表三較其他子量表相對差些。效應（r：c）在各子量表上的方差協方差矩陣由兩部分組成：評價者的誤差方差協方差、評價者和托幼機構交互作用的誤差方差協方差。從表中可以看出，該效應在子量表二上的值最大，在子量表四上的結果最小。這其中的原因是什么？是評價者的評價不一致造成的，還是評價者與托幼機構的交互作用引起的？也許受嵌套設計的局限，目前我們還無法做出進一步的解釋。

（二）D研究結果

D研究是指在改變某些測量情境條件下，利用G研究所獲結論，去考察如何提高測量信度，改進測量效度的工作。改變測量情境條件包括增加或減少評價者、增加或減少評價項目、固定測量側面等。本研究在嵌套設計的基礎上，主要從不改變測量情境條件和改變評價者側面兩個方面進行探討。

1.測量情境條件不變的D研究結果

測量情境條件不變的D研究結果如表3所示，表中全域分數方差結果即表2中的對角線分量（具體說明見上）。可靠性指數是指測量目標自身的分數變異在總的分數變異中所占的比率，數值越大說明測量的精度越高。從表中可以看出，各子量表的可靠性指數均在0.9以上，同時絕對誤差方差都較小，說明各子量表的評價一致性比較好。可靠性指數最高的是子量表一，最小的是子量表三。另外，對各子量表的可靠性指數加以合成用以估計總體評價精度的指標，即合成可靠性指數為0.97526，表明這次評價的總體準確性也較高。信噪比指標表明全域分數變異和誤差變異之間的差值，如子量表三的絕對信噪比是10.043494，表明在這些分數中全域分數變異大約是誤差變異的10倍。

2.改變評價者側面的D研究結果

我們通過改變評價者側面的人數進行了D研究。托幼機構教育質量評價是一項十分繁重、費時、費力的評價工作。本研究中，我們設計了以下幾種方案：評價者人數分別為1人、2人、3人、4人和5人。為便于分析，我們又增加了部分機構由2人評價，部分機構由3人評價（為便于表述，簡稱部分2人部分3人，下同）這一種情況。我們討論的主要問題是，在六種評價者側面人數不同的情況下，各子量表的可靠性指數及合成可靠性指數的情況。

從表4可以看出，在六種不同評價者側面人數下，各子量表的可靠性指數均在0.85以上，說明精度都比較好。相比較而言，當評價者側面人數只有1人時。可靠性指數相對來說是最低的，當評價者人數為5人時，可靠性指數是最高的。雖然隨著評價者人數的增加，各子量表的可靠性指數在提高。但是提高的幅度在逐步減小。比如，當評價者人數從1人增加到2人時，子量表一的可靠性指數變化了0.02592；當評價者人數從4人增加到5人時，子量表一的可靠性指數僅增加了0.00253。

另外，對評價者人數為2人和部分2人部分3人兩種情況進行比較時發現，在某些子量表上的可靠性指數大小近似；對評價者人數為3人和部分2人部分3人兩種情況進行比較時發現，前者各子量表的可靠性指數較后者要大。

合成可靠性指數結果如表5所示。當評價者人數從1人增加到5人時，合成可靠性指數在不斷增加，這說明總體評價精度在不斷提高，但提高的幅度在逐步減小。

三、討論

本研究采用多元概化理論對托幼機構教育質量評價的實際情況進行了分析。在所考察的六個子量表當中，子量表一（空間與設施）的方差分量最大，子量表三（集體教育活動）的方差分量最小；另外，子量表三與其他各子量的協方差也相對較小。子量表一主要是對托幼機構設施、設備等硬件環境進行的觀察評價，評價者易觀察、易評價，這可能是其評價信度較高的一個重要原因。而子量表三主要是對集體教育活動進行的觀察評價，每位評價者所觀察評價的活動各不相同，這可能是導致其評價信度較低的原因之一。另外，各子量表的可靠性指數均在0.8以上，合成可靠性指數也在0.9以上。這說明在各個子量表上評價者的意見比較一致，同時總體評價的一致性也比較好。

本研究還通過改變評價者人數來探討評價可靠性的變化情況。結果表明，隨著評價者人數的增加，各個子量表的可靠性指數在不斷提高，但提高的幅度在逐步減小；合成可靠性指數也存在類似情況，即，合成可靠性指數隨評價者人數的增加而不斷提高，但提高的幅度在逐步減小。有研究者將這種現象稱之為“邊際效益遞減”。

綜合以上研究結果，我們認為，總體而言，此次觀察評價結果的可信度較高；考慮到以班級為單位的托幼機構教育質量評價是一項費時費力的評價活動，我們建議最好結合實際情況，至少安排兩位受過訓練的評價者對同一班級進行觀察評價；另外，當觀察過程中有分組活動同時進行時，觀察者應對各組活動進行觀察和評分，以提高評價的準確性。

幼兒教育·教育科學版2013年10期

幼兒教育·教育科學版的其它文章: 全球視野下的學前教育使命; 澳大利亞《早期學習框架》述評; 電腦屏幕和紙質界面對5～6歲大班幼兒閱讀效果的影響研究; 運用故事法提升大班幼兒社會觀點采擇能力的實驗研究; 兒童圖畫書閱讀過程中的知覺選擇和理解性特征的眼動研究; 中班幼兒口語詞匯廣度水平與閱讀能力的相關性研究及教育建議