陳科武
[摘要]重點介紹和分析學生成長百分等級模型的原理、優缺點及改進方向,并在Visual Studio 2015下實現了相關算法。通過某區域某屆初中學生的成績追蹤分析,初步驗證了該模型用于增值評價和學生成績等級呈現的效用。
[關鍵詞]增值評價;學生成長百分等級模型;教育評價;學生成長評價
[中圖分類號]G424.74[文獻標識碼]A
[文章編號]1673—1654(2023)03—042—009
教育評價是教育教學研究的關鍵環節,正確的評價能對教育教學行為和成效進行準確的鑒定和診斷,為后續教育教學工作提供激勵與導向。傳統上,我國教育評價手段傾向于關注學生的考試分數和排名,關注學校的升學率,由此導致學生學業負擔過重,引發家長和社會普遍的教育焦慮。2020年10月,中共中央、國務院印發《深化新時代教育評價改革總體方案》,指出要“改進結果評價,強化過程評價,探索增值評價,健全綜合評價,充分利用信息技術,提高教育評價的科學性、專業性、客觀性”[1],意在引導教育評價向正確的方向發展。增值評價作為近年教育評價的研究熱點,從成績起點看進步,有助于引導教學利益相關各方關注學生的學業成長和進步,而不是具體的考試分數,克服“唯分數”論的傾向,從而有助于減輕學生和家長的焦慮。本文是以初中學生為案例,使用學生成長百分等級模型進行增值評價的實踐探索。
一、學生成長百分等級模型簡介
用于對學生進行增值評價的模型很多,這其中,學生成長百分等級模型因其使用靈活、易于理解等特點得到了較為廣泛的應用。學生成長百分等級模型,即Student Growth Percentile(SGP),是美國學者Damien Betebeener于2009年基于百分位回歸提出的學生成長評估模型。當前,該模型已成為全美國使用最為廣泛的教育增值評價模型之一[2]。
(一)SGP
將學生的當前考試百分等級與先驗成績相同學生(學術伙伴)的百分等級比較,獲得的百分等級作為該生的SGP。所有學生的SGP平均約為50,一般認為35—65為正常成長范圍,65以上為成長優異,35以下為成長不足[3]。
(二)mSGP(median or mean SGP)
將學校(或班級)所有學生某學科的SGP取中位數或平均值,稱為該學校(或班級)該學科的mSGP。mSGP可以用于學校(或班級)效能的增值評價。
(三)SGP的計算方法
1.標準方法

2.百分位回歸估計
如果學生樣本數量不夠大,每組“學術伙伴”的當前考試成績不足以形成一個分布,可以通過百分位回歸來估計SGP。
首先根據前一次考試成績,找到該學生的“學術伙伴”,假設人數為N,計算當前考試“學術伙伴”組的成績等級,并分別統計低于和等于該學生當前成績等級的人數,記為L、E,由以下公式計算該學生的成長百分等級PR(Percentile Rank),即為SGP:
PR=(L+0.5×E)/N×100[5]。
如圖1所示,在7年級期末測試中,學生A(圖中白色小人)和其他9位學生的百分等級均為60,這樣就構成了一個“學術伙伴”組。在8年級期末測試中,此學術伙伴組發生了分化,學生A和組內另外1人的百分等級為70,另有3人百分等級高于70,5人百分等級低于70,代入公式,可以得出PR等于60:PR=(L+0.5×E)/N×100=(5+0.5×2)/10×100=60,即學生A的成長百分等級為60,高于平均增長水平。
二、學生成長百分等級模型的實證分析
(一)研究方法
1.數據來源和變量選取
選取深圳市某區8所初中學校2018級學生的三次統考成績。其中,7年級入學考試成績作為基準測試成績,并跟蹤7年級期末考試和8年級期末考試成績作為對比,對三次考試成績的學生名單進行匹配,剔除因休學、疾病等原因存在部分或全部學科缺考的學生,實際納入學生樣本2178人,分別來自8所學校的49個班。考慮到初中學科的變化,選取語文、數學、英語及三科總分成績構建增值評價模型。
2.統計方法
根據百分位回歸估計的原理,在Visual Studio 2015下,使用C#語言開發SGP計算程序,同時使用SPSS 26.0和Excel 2016進行數據統計分析。
(二)學生、班級、學校層面的相關性分析
1.學生層面的相關性分析
從表1的統計結果可以看出,在學生個體層面,各學科SGP及總分SGP均與基準測試的百分等級無關,說明從學生層面來講,用SGP模型衡量進步值不依賴于先驗成績。語文、數學、英語三科SGP及總分 SGP均存在顯著的正相關(p<0.01),相關系數在0.208-0.702之間,其中數學SGP與總分SGP有最大的正相關值0.702。
2.班級層面的相關性分析
從表2的統計結果可以看出,在班級層面,各學科mSGP及總分mSGP與基準測試的百分等級存在一定程度的正相關,其中英語學科存在顯著的正相關(p<0.01,相關系數0.407),提示班級的學習基礎對學生的學業進步存在一定的影響。需要說明的是,8所學校均按政策要求實行均衡分班,由于各校所在學區招生競爭激烈程度不同,各校生源質量存在一定的差異。分析結果也可以從側面驗證教育均衡化政策的正確性和必要性。語文、數學、英語三科mSGP及總分mSGP均存在顯著的正相關(p< 0.01或p<0.05),相關系數在0.321~0.815之間,與總分mSGP存在最大正相關值的是語文mSGP,相關系數為0.815。
3.學校層面的相關性分析
從表3可以看出,在學校層面,各學科包括總分mSGP與基準測試的百分等級的相關性不明顯。語文、數學、英語三科都與總分mSGP存在顯著的正相關(p<0.05),相關系數在0.735~0.786之間。語文、英語兩科之間存在顯著的正相關(p<0.01),相關系數為0.842。
(三)班級、學校層面mSGP與正態化標準分升降比較
標準分數(standard score),又被稱為z分數,是計算分數與平均數的差再除以標準差,它反映的是一個分數距離平均數的相對標準距離。由于z分數考慮到了分數分布的離散程度因素,相對于使用原始分比較,能更精確地反映學業水平。理想化的z分數要求原始分數遵循正態分布,但這在一般考試中通常難以被滿足,所以在實際工作中,首先根據標準正態分布常模量表,建立標準分與百分等級對照表,然后將原始分轉化成百分等級分,通過查詢上述對照表,獲得正態化標準分。正態化標準分是一種基于考試常模的排位分,用正態化標準分增長來評價學生的學業進步,比直接比較成績相對排位變化更加科學。筆者所在學校使用平均分為500、標準差為100的統考正態化標準分進行班級、學校層面的學業增值評價,并將其作為教師工作績效考核的依據之一,同時也用于兄弟學校之間學業水平進步情況的比較。多年的實踐證明,這種模式是較為準確的,且能獲得一線教師的認同。將班級、學校層面mSGP與正態化標準分升降進行比較,也可以從側面驗證mSGP用于班級、學校層面增值評價的有效性。
1.學校層面mSGP與正態化標準分升降比較
2.班級層面mSGP與正態化標準分升降比較
從圖2和圖3的統計結果可以看出,無論是學校層面還是班級層面,mSGP與對應學科的正態化標準分變化的趨勢基本一致,mSGP大于50,標準分升降一般為正值,mSGP越大,標準分增加的值越大,反之亦然。可見,與標準分升降類似,mSGP可以作為學校、班級層面進行增值評價的依據。
(四)SGP用于學生個人成長評價
目前在“雙減”政策指引下,學生學年考試成績只能用等級分的方式呈現。本質上來說,等級分是一種含糊的終結性評價,因為“含糊”,單純呈現等級分在一定程度上反而會加劇學生家長的成績焦慮。SGP體現的是學生的努力程度和學業進步程度,與等級分一起呈現,有助于引導學生家長關注學生的學業成長和進步,緩解成績焦慮。SGP不僅能體現學生的學業成長是否符合要求,還能提供學生不同學科成長是否相似、是否偏科等信息,為家長和教師提供相關預警。
1.成績等級計算
參照深圳中考相關標準,設定成績等級并劃定各等級比例為:A+(5%)、A(20%)、B+(25%)、B(25%)、C+(20%)、C(5%)。在SPSS 26.0統計的百分等級分的基礎上,使用Excel 2016的if函數進行轉化。
2. SGP評價點數計算
為了方便學生和家長理解,參考美國新澤西州教育署的評價點數轉換表,使用Excel 2016的vlookup函數將SGP轉化為如表3所示的SGP評價點數[6]。
3.學生成績呈現
由前面的數據統計分析可知,在學生個體層面,各學科SGP都與基準測試的百分等級無關。因此,每位學生成績同時呈現相對獨立的成績等級和學生成長百分等級點數,要注意引導家長在關注成績等級之余,更要關注學生成長百分等級。
從表4學生成績典型個案可以看出,1班林同學,語、數、英三科均為“A+”,且三科SGP點數都是4,可見該同學成績優異,且進步穩定。2班龍同學,三科成績等級分別為“B+”“C+”“C+”,但是三科SGP點數分別為4、4、3.8,說明該同學起點雖然較低,但是各科都進步明顯,值得大力表揚和鼓勵。4班陳同學,三科成績等級分別為“A+”“B+”“B+”,三科SGP點數分別為4、2.4、1,從數據可以看出,該同學整體成績雖然尚可,但數學、英語兩科成績下滑,尤其是英語,下滑明顯,提示老師和家長應當引起重視。4班楊同學三科成績等級分別為“B+”“A+”“A”,三科SGP點數分別為1、3.8、1,該同學聰明外向,是典型的理科男生,單純從成績等級來看尚可,但從SGP點數可以看出,語文、英語兩科下滑非常嚴重,這與該生家庭問題有著密切的關系,只有同時呈現成績等級和SGP點數,兩者相結合,才能觸動家長;楊同學第一次英語成績96分,本次英語成績83分,假設他的預期英語SGP成長目標是50,老師查成績表與他的英語“學術伙伴”比較可知,本次英語成績必須達到91分。2班廖同學三科成績等級分都為“C”,但是英語SGP為4,這一點也成為老師激勵該生的契機。可以看出,由于成績等級和SGP點數相對獨立,家長能夠更全面地了解學生的成績和學業進步情況,緩解成績焦慮;教師可以通過SGP了解學生的學業成長是否符合學校要求、要達到預期成長目標學生需要的成長程度、是否有個別低成長學生應當引起特別關注等。SGP與成績等級相結合,更加有利于發揮評價的鑒定、診斷、監督、導向、激勵等作用。
(五)mSGP用于學校的評價
在國際上,使用mSGP對學校效能進行增值評價已經得到廣泛應用[2];除此以外,mSGP還能提供很多有用的信息,例如在學校層面,校長可以知道本校的學生學業成長與其它學校比較是否符合要求、不同年級的學生成長是否相似等。
容易看出,學校5總分mSGP為64,在8所學校中位居第一,整體成績進步最佳,學校5的語文mSGP、數學mSGP、英語mSGP分別為62、53、68,說明三科都有進步,其中又以英語成績進步最大;學校2、學校3大部分學科mSGP值小于50,整體退步。
三、SGP模型的優勢和不足以及改進方法
(一)優勢
1. SGP模型不依賴歷次考試的垂直等值,同時不依賴線性假設和方差齊性假設,具有較大的靈活性。
2. SGP模型使用成績的百分等級位的相對變化衡量學生成績的進步,容易被一線教育工作者和學生、家長理解接受。
3. SGP模型關注的不是學生的絕對成績或者成績排位,而是百分等級位的進步程度,符合發展性評價的理念。
4. SGP模型不僅可以通過對學生歷次考試各科的SGP值進行記錄,從而描述學生的成長軌跡,而且還可以對成長軌跡進行線性回歸,從而實現對學生成長的預測。
5.將學生的SGP在班級、學校層面累積,計算平均值或中位數,得到mSGP,可以作為對班級、學校進行增值評價的有效手段。
(二)不足與改進方法
1.從SGP的原理和計算過程可以看出,SGP是一種關于測量結果的常模參照解釋,也就是說,它測量的是在常模群體中的相對排名變化,并不能判斷被測者是否達到指定的測量標準[5]。
2. SGP取決于“學術伙伴”的百分等級進步值,屬于條件狀態(conditional status)的測量,它的準確性首先依賴于每位考生有足夠多的“學術伙伴”,這一點對考試規模提出了比標準分模型更高的要求,為了使測量結果更加精確,建議考生總數在5000人或更多[5],因此,SGP更適合區域性的考試評估。本文數據來源選自深圳市某區8所初中學校2018—2019年統考成績,因疫情原因,無法獲取原計劃中的更大規模的數據樣本,這也是本文的一個不足之處。
3.在理想情況下,“學術伙伴”的百分等級應當形成正態分布,實際上在“學術伙伴”百分等級非理想分布情況下,會引入一定的誤差。改進方法如下。
(1)因為中位數疊加了多種誤差來源,可以使用SGP平均值而不是中位數計算mSGP[7]。
(2)數據源可以使用多年考試的數據,有研究指出,與使用一年的數據比較,使用兩年的數據能夠減少40%的偏差[7]。
(3)有學者提出了模擬-外推(SimulationExtrapolation,SIMEX)算法和等級化模擬-外推(Ranked Simulation-Extrapolation)算法,最多可以減少75%的誤差[7]。
(4)因為是常模參照,SGP要求2次考試的被試群體一致,對于區域性考試而言,學生因休學、疾病等原因缺考導致相關數據缺失是常見的,被試群體的不穩定會降低SGP結果的準確性。因此,一方面應當加強對考試的管理,做好數據清理工作,進行大數據分析與預警,改進算法;另一方面,可以降低mSGP在學校、教師績效考核中的權重,正確引導相關決策。
四、結語
學生成長百分等級模型關注學生的學業進步而非具體分數,同時還可以對學生的成長進行預測,既能用于評價學生個體的學業進步水平,也能用于評價班級、學校的效能,且其基本理念容易被一線教育工作者和學生、家長理解、接受,是值得探索應用的增值評價方法。然而,教育評價是一個復雜的問題,必須結合其他評價手段和評價指標進行全面、綜合的評價,方能實現科學決策。
參考文獻:
[1]深化新時代教育評價改革總體方案[EB/OL].[2022-08-06]. http://www.gov.cn/zhengce/2020/10/13/content_5551032.htm.
[2] Michael D K. Value-Added and Student Growth Percentile Models:What Drives Differences in Estimated Classroom Effects [J]. Statistics and Public Policy,2018,5(1):1-8.
[3]謝小慶.用于成長評估的學生成長百分等級模型——來自美國的經驗[J].教育測量與評價,2019,(6):3-9.
[4]周園.增值評價中學生增長百分位模型及其估計方法概述[J].教育導刊,2019,(11):61-67.
[5]符華均,等.基于學生成長百分等級模型的學業進步評價[J].中國考試,2019,(2):14-18.
[6] New Jersey Department of Education. Median Student Growth Percentile(mSGP)Conversion Chart [EB/OL]. [2022-08-06]. https:// www.state.nj.us/education/AchieveNJ/re-sources/mSGPConversionChart. pdf.
[7] Castellano K E,Mccaffrey D F. The Accuracy of Aggregate Student Growth Percentiles as Indicators of Educator Performance [J]. Educational Measurement:Issues and Practice,2017,36:14-27.
Practical Exploration of Educational Value-added Evaluation Based on Student Growth Percentile Model
Chen Kewu
Shatangbu School,Shenzhen,Guangdong,518114
Abstract:Value-added evaluation is a hot research topic of educational evaluation in recent years. This paper attaches importance to the introduction and analysis of the principle,advantages and disadvantages,and improvement direction of the student growth percentile model. Moreover,the relevant algorithms under Visual Studio 2015 are accomplished. Through the performance tracking analysis of students in 8 junior high schools in a certain region,the utility of the model for value-added evaluation and the presentation of studentsgrades is preliminarily verified.
Key words:Value-added Evaluation,Student Growth Percentile Model,Educational Evaluation,Student Growth Evaluation
(責任編輯:吳茳、白云)