●張麗
?
科學取樣以小窺大
●張麗
2013年底,成都市被確定為全國中小學教育質量綜合評價改革實驗區(qū)。2014年,成都市在一、二、三圈層分別選取一個區(qū)(市、縣)試點教育質量綜合評價改革,并率先在全國(30個實驗區(qū))形成評價報告。2015年,成都市教育質量綜合評價改革覆蓋全市所有區(qū)(市、縣)和直屬學校,采用抽樣概率與規(guī)模大小成比例的抽樣方法(簡稱PPS法),抽取了20007名五年級學生和11998名八年級學生進行測評,涉及全市175所小學和148所初級中學。
由于本次測評涵蓋全市21個區(qū)(市、縣)和直屬學校,同時存在沒有可直接利用的學校信息數據庫、部分學校一校多區(qū)、學生流動等實際問題,為了保證收集到的數據能代表各個區(qū)(市、縣)的真實情況,保證測評結果的科學性和準確性,抽樣成為本次測評的一項重大基礎性工作。由于實際問題較為復雜,抽樣過程經歷了多次修改和調整,力圖保證抽樣學生的代表性。在經歷了本次測評的完整抽樣工作后,現對抽樣的認識以及實踐后的思考作一梳理,供全國各實驗區(qū)學習交流。
抽樣原因。教育質量綜合評價采取抽樣方式選定參與評價的對象,主要有兩方面的原因,一是抽樣的目的及其自身的特點,二是評價改革的政策要求。就抽樣的目的及自身特點而言,抽樣是為了通過對有限對象的測查推論總體情況,而不用對全體個體進行逐一考查,相較于普查、典型調查(包括重點調查等)、個案研究,具有節(jié)約調查成本(人力、費用及時間)、隨機性、推論準確性高的特點。抽樣在教育測評中實用性較強,由于教育測評涉及學生人數眾多,測試的組織和實施需要較多的人力和物力,目前大型教育測評項目(如PISA、TIMSS、NAEP、我國基礎教育質量監(jiān)測等)均采用抽樣的方式搜集數據資料,通過對抽樣學生的測評推論全體學生的整體情況。
《教育部關于推進中小學教育質量綜合評價改革的意見》(教基二[2013]2號)中就評價方法明確指出:“測試和調查都要面向學生群體采取科學抽樣的辦法實施,不針對學生個體,不得組織面向全體學生的縣級及以上統(tǒng)考統(tǒng)測,避免加重學校和學生負擔。”因此,無論是從節(jié)約成本角度,還是從減輕學校和學生負擔角度,抽樣都是現階段教育質量綜合評價優(yōu)先采用的方式。
常用抽樣方法及其特點。常見的抽樣方法包括簡單隨機抽樣、等距抽樣、分層抽樣、整群抽樣、多階段抽樣。簡單隨機抽樣是按隨機性原則直接從總體中不放回的抽取樣本,其特點是簡單直觀,推論總體準確,是其他抽樣方法的基礎。等距抽樣是按某一順序將總體中所有單位排序,再以固定間距直接隨機抽取調查單位,其特點是代表性好,但樣本分散,調查成本高。分層抽樣是把總體單位按一定標志分成若干類型,在各類型中隨機抽取調查單位,其特點是代表性好,調查成本比較節(jié)約。整群抽樣是將總體分成若干群,以群為單位,從總體中隨機抽取群,對抽中的群內單位全部進行調查,其特點是代表性相對差一些,但調查成本較低。多階段抽樣是按不同層級,逐層抽樣,最低層級上隨機抽取調查單位,是簡單隨機、等距、分層、整群等方法的綜合運用。目前大型教育測評項目中一般均采用多階段抽樣,本次中小學教育質量綜合評價也采用了這種抽樣方法。
大型教育測評的抽樣一般包括抽取樣本區(qū)(市、縣)、抽取樣本校、抽取樣本學生三個環(huán)節(jié)。2015年成都市根據全市五年級和八年級學生總數確定各抽取12000個樣本,且全市21個區(qū)(市、縣)和直屬學校全部參加本次測評。因此,本次測評只需抽取樣本校和樣本學生。
首先是抽取樣本學校。根據上報的學校學生數量信息,分別計算成都市每個區(qū)(市、縣)的五年級和八年級學生總量,以此作為從各區(qū)(市、縣)抽樣的基數;根據各區(qū)(市、縣)五年級和八年級的學生總數,確定24000個樣本應分攤到各個區(qū)(市、縣)的比例和實際樣本數量;以各個區(qū)(市、縣)應被抽取的學生樣本數量為基礎,根據PPS法在各個區(qū)(市、縣)中抽取樣本學校,并確定樣本學校中應抽取的學生樣本數量。
關于樣本學校數量的確定。PISA規(guī)定每個經濟體不得少于150個學校樣本,參照這個標準,本次八年級抽樣抽取150所學校,再按各個區(qū)(市、縣)內學校數的比例分配。而五年級學校數明顯多于八年級,且五年級每所學校的平均人數要比八年級少,如果5年級也抽取150所學校,會造成大量學校人數小于應抽樣的人數。基于上述考慮,五年級按150所學校進行分配后,再在每個區(qū)(市、縣)增加1所學校,從而減少和避免學校總人數小于應抽取樣本數的情況。本次抽樣設定學校樣本數的目的,是為了估計一個區(qū)(市、縣)內每所學校應抽取的人數以及計算抽樣間距(學生總數/抽樣學校數)。只要每所學校抽取人數和步長比較合理,各個區(qū)(市、縣)應抽取的學校數可以按照各個區(qū)(市、縣)學校的特點進行設定。
其次是抽取樣本學生。每個區(qū)(市、縣)抽取學校數設定后,再根據每個區(qū)(市、縣)抽取的總人數計算出每個學校應抽取的人數,依據應抽取的學生數量,隨機抽取學生樣本。
建立和維護學校基本信息數據庫。本次測評抽樣的基礎性工作是收集各個區(qū)(市、縣)學校的基本信息,包括學校城鄉(xiāng)分布、學校類型、學校榮譽、辦學質量、學生數量、對應年級教師數量等信息。由于缺乏可使用的完整學校基本數據信息,本次基礎信息的采集使用教育局近期相關數據和學校填報相結合的方式,但結果并不理想。一是教育局提供的相關數據盡管是近期的,但也存在不完全準確的情況;二是一校多區(qū)的校區(qū)信息沒有明確,可能導致測評實施的難度增大,因此在抽樣過程中需要特別注意;三是在間隔期間個別學校發(fā)生變動的情況未知;四是部分學校對于城鄉(xiāng)分布的界定存在疑惑,導致上報的數據存在偏差,不利于后期的數據分析。這些因素都可能導致抽樣的誤差增大,因此,建立區(qū)域學校基本信息數據庫以及針對學校、學生變動等情況對數據庫的維護和更新顯得尤為重要,這是提高測評工作效率的重要保證。
注意抽樣的細節(jié)問題。本次測評學校抽樣結果中存在不同教學質量學校的比例在各區(qū)(市、縣)之間存在一定差異。其原因在于,我們在區(qū)(市、縣)內部抽取學校時,沒有進一步考慮分層變量。分層變量是可能與學業(yè)質量密切相關的影響因素,一般有兩類,顯性分層變量和隱性分層變量。顯性分層變量一般為學校所屬地(分為城區(qū)、鎮(zhèn)區(qū)、鄉(xiāng)村)等;隱性分層變量包括學生入學成績等級、學校質量、學校性質(公辦、民辦)等。應該將區(qū)(市、縣)內所有學校劃分到不同的顯性層級中,在各層次里再按照隱性變量為學校排序,最后根據計算出的抽樣間距在每個外顯層面抽取樣本學校。這個過程可以保證各個顯性分層中均勻包含各類學校,避免出現區(qū)(市、縣)之間學校質量分布不均的問題。對于顯性分層變量和隱性分層變量,顯性分層變量一般為地域變量,較易確定,如本次測評中以區(qū)(市、縣)作為顯性分層變量。而隱性分層變量需要收集相應信息,這里又存在一些問題,如學校質量涉及如何界定不同質量水平的問題,不同區(qū)(市、縣)之間學生初始成績需要等值的問題等。這些問題,還有待于我們在實際工作中進一步研究解決。
基于追蹤研究的需要。成都市作為全國中小學教育質量綜合評價改革實驗區(qū),評價工作已經成為年度連續(xù)性工作,涉及到評價后對學校教育質量變化的評估。將連續(xù)測評結果反饋給學校,對學校制定未來發(fā)展計劃非常必要。因此,在保證抽樣能代表各區(qū)(市、縣)總體情況的前提下,如何針對學校進行跟蹤研究,這個問題在抽樣時需要考慮。一個思路是,事先確定有代表性的跟蹤研究學校,在抽樣完成后,如果沒有抽到該學校,根據顯性和隱性變量,取代被抽到的類似學校。另一個思路是,不事先確定跟蹤研究對象,在兩次抽樣中找尋兩次都被抽中的學校進行跟蹤研究。
抽樣測評的未來走向。在“互聯(lián)網+”時代的云計算、大數據、人工智能技術不斷成熟的背景下,抽樣測評的未來走向可能有兩個,一是新技術促使抽樣過程更加便捷和自動化,根據完善的、豐富的基礎信息,結合測評需求設計抽樣步驟,通過高效的程序化過程就能迅速準確地完成抽樣;二是來自大數據的挑戰(zhàn),大數據的一個特點就是全樣本數據的收集和分析,目前大數據在商業(yè)領域運用較多,但在教育領域的應用還比較少,如果將來大數據在教育領域的運用日益廣泛,未來在考慮成本、可操作性、教育教學實際情況等多種因素后,可以選擇抽樣測評或全樣本測評。
張麗
成都市教育科學研究院督導監(jiān)測評估研究所教研員。
(責任編輯曾憲波)