

摘" " " 要:21世紀以來,教育評價能力構建及評價能力發展受到世界銀行和聯合國開發計劃署以及國際社會諸多學者的高度重視,并對此進行了深入的研究。與之相比,我國的教育評價實踐還缺乏此方面的研究,更缺乏教育評價能力與其能力結構的擬合研究,致使教育評價常常失去其有效性,導致教育評價質量的低下。從評價環境、評價系統、評價質量三個維度循證教育評價能力結構,是提升教育評價能力的出發點,任何一個維度及其要素的遺失或其功能的衰退,都會影響教育評價的效果。因此,可以從優化教育評價系統、正視教育評價的網絡關系、動態認識教育評價對象的行動過程等方面入手,提高教育評價能力與其能力結構的擬合性,達到提高教育評價質量、為教育決策提供優質服務的目的。
關 鍵 詞:教育評價;教育評價能力;教育評價能力結構
引用格式:楊穎秀.教育評價能力與其能力結構的擬合研究.[J].教學與管理,2024(16):1-6.
中國共產黨第二十次全國代表大會將完善教育評價體系作為科教興國戰略的重要內容。然而,在教育評價改革的過程中,人們未給予“為什么評價”“誰來評價”“怎么評價”“評價效果如何”等與教育評價能力因素相關的問題充分的重視,因而雖破了“五唯”,但又有“六唯”“七唯”……“N唯”,或顯性“無唯”而隱性“有唯”等評價亂象的出現。這樣的問題說到底是教育評價能力的匱乏導致教育評價質量低下的結果。
教育評價能力是正確實施教育評價的前提,無論是對學生能力的評價還是對教育其他方面的評價,沒有較高的評價能力就保障不了評價的質量,也無法達到評價為決策服務的目的。為提高教育評價能力,21世紀以來致力于評價能力構建的研究大量涌現,使之成為評價領域的研究熱點[1]。世界銀行(The World Bank,WB)和聯合國開發計劃署(Unite Nations Development Programme,UNDP)通過教育案例研究等方式對評價能力構建(evaluation capacity building,ECB)和評價能力發展(evaluation capacity developing,ECD)進行了系統研究,為提高教育政策的制定效果和組織決策效果提供了參考。國外有學者通過研究發現,2000-2019年,評價能力構建的研究集中在能力構建的維度、背景和實踐等方面,并通過對6本評價雜志的文獻計量分析,揭示了評價能力構建研究的學術群體及其相互關系[2]。也有學者通過對這段時間發表在主流評價雜志上(如American Journal of Evaluation等)關于評價能力構建的文獻分析,發現此方面的研究可以分為案例應用、評價能力或評價能力構建研究、主要觀點概括、框架描述、非正式文獻綜述等方面[3]。
與之相比,我國學者對教育評價能力的研究還十分薄弱。使用CiteSpace軟件,對20世紀90年代以來教育評價研究的綜述[4],基于大數據的教育評價研究綜述[5],以及對2000-2020年的教育評價研究綜述[6],其關鍵詞突現率圖譜均未出現“教育評價能力”一詞。由此可見,深入探討什么是教育評價能力、其結構由哪些因素構成、哪些方面尚存不足、教育評價能力如何與能力結構擬合等一系列問題,是我國提高教育評價能力、保障教育評價質量的必然選擇。這些問題也是本研究要回答的問題。
一、教育評價能力及其結構的理論基礎與模型構建
始于測量時代的教育評價經歷了一個多世紀的發展進程,每一個階段表現出的典型特征都反映著教育評價能力的基本狀況。因此,對教育評價典型特征的認識成為認識教育評價能力及其結構的重要依據。
1.教育評價能力及其結構的理論基礎
關于什么是評價,有三種比較有代表性的觀點,一是認為評價是對評價對象進行價值判斷的過程。如美國評價標準聯合會將評價定義為:“評價是對某些對象的價值(如優缺點)的系統調查。”[7]本杰明·布魯姆(Benjamin Bloom)也指出:“評價是指基于準則和標準作出判斷。”[8]二是認為評價是提供評價信息的過程。如美國全國評價研究委員會將評價定義為:“評價是一種確定、獲取及提供敘述性與判斷性信息的過程,這些信息涉及研究對象的目標、設計、實施及結果的價值與優缺點,以便指導如何決策,如何符合績效的要求,并增加對研究對象的了解。”[9]三是認為評價是一種共同建構的過程。共同建構是指通過對各類與評價有利害關系的人的需求、關注點和問題的應答,并通過解釋性辯證環節進行對話和協商,逐步使雙方達成共識,形成結論,呈現評價結果[10]。這三種不同的解釋是從評價的價值準則、評價的信息效用和評價的行動特征來認識教育評價的行為本質的。也就是說,價值、效用、行動特征是評價的基本要素,不同的價值取向帶來不同的行動特征,會收到不同的評價結果。
自20世紀初期以來,教育評價先后以“測量”“描述”“判斷”“響應”和“協商”為行動特征,經歷了五個發展階段。“測量”是以考試分數作為原始數據對學生學習成績進行的評價技術,這種評價的導向作用是強化基礎知識訓練和追求效率,學校被視為加工學生的“工廠”,考試是學生升學的基本程序。“描述”源于拉爾夫·泰勒(Ralph W. Tyler)1933年開始的8年項目研究。項目評價者的作用在于描述特定目標的優點和缺點,“描述”則成為項目研究的評價技術。“判斷”是應教育者希望評價者承擔裁判員的責任而出現的評價技術。20世紀60年代中期以后,出現了一系列以“判斷”為導向的評價模型,如CIPP模型、以效果為導向的無目標(Goal Free)模型(或目的游離模式)等。20世紀70年代中期以后出現了以“響應”和“協商”為技術手段的建構式教育評價。建構式教育評價強調環境對評價對象的影響,重視評價對象在評價過程中的自我感受,以及他們對評價議題的“主張”“焦慮”及“爭議”。這種評價將評價對象視為評價過程中的參與者,認為評價要從評價對象的角度出發,關注他們提出的“觀點”“擔心”和“不同意見”,盡力規避他們面臨的各種風險,并在此基礎上確定評價議題,實施評價行動[11]。
從對教育評價的認識和教育評價發展的行動特征來看,教育評價的價值屬性、工具屬性、目標屬性或效果屬性是教育評價具有的基本屬性。圍繞這些屬性衡量教育評價的有效性,就要求評價者要有對價值進行判斷的能力、正確使用評價工具的能力、實現評價目標或為決策提供參考的能力。
2.教育評價能力結構模型構建
從教育評價的含義和教育評價發展的典型特征來看,評價能力是提高教育評價質量不可或缺的基本條件,決定著教育評價的效果。因此,評價能力構建成為21世紀以來評價討論的熱點和評價研究的新領域[12]。
世界銀行早在1987年就開始了對評價能力構建的研究,旨在幫助發展中國家提高評價能力。世界銀行認為這是一項有意識的工作,旨在使持續創建和維持有質量的評價及其使用成為常規的整體組織流程[13]。特別是1998-1999學年開始的持續3個學年的研究提煉出了許多成功的經驗和案例,包括在擁有40所學校約42,000名學生的獨立學區進行的根植于學生、教師、課程等評價能力構建的案例研究[14]。大量的經驗和案例使之構建了可持續的評價系統,以確保評價的實施和精致地使用。世界銀行將評價能力的成功解釋為:如果一個國家能夠提高監測信息和評價結果的可用性,但其若得不到應用,那么評價能力的構建也是無用的。例如,可通過提供替代政策、計劃和項目的可能收益及成本信息,啟發并支持政府決策和規劃[15]。也就是說,評價能力構建的目的在于對評價結果的有效使用。
聯合國開發計劃署將能力定義為“個人、機構和社會以可持續方式履行職能、解決問題、確定和實現目標的才能”[16],并認為能力發展是一個過程,在這個過程中,能力隨著時間的推移而得以獲得、加強、適應和堅持 [17]。評價能力也是如此,要在時間的推移中逐漸提升。而要促進評價能力的發展,就需要了解評價能力的基本組成部分和要素,在此基礎上構建評價能力系統。所以,評價能力構建與評價能力發展均成為與評價能力息息相關的評價領域的研究主題。根據聯合國開發計劃署對能力及其發展的解釋可以認為,教育評價能力是教育評價主體以可持續的方式履行教育評價職能,解決教育問題,確定和實現教育培養目標的才能,是有效實施教育評價的必要條件。世界銀行在對學生評價系統的構建過程中,也充分地考慮了教育評價能力及其效果問題,認為學生評價系統主要包括兩個維度:一是評價類型或目的,包括課堂評價、考試、大型的系統層面的評價等。二是質量驅動,質量驅動考慮的關鍵因素不是提供一個可參考的學生評價系統的理想概況,而是評價活動個人的和綜合的質量,即以評價活動生成的恰當信息支持決策活動。因此,質量維度應包括提供可能的環境背景,關照系統聯盟,使用恰當的評價工具、過程和程序等。在對這兩個維度充分分析的基礎上,提出了構建更有效的學生評價系統的矩陣框架,寫入《學生評價體系什么最重要》的框架文件中[18]。從對這一框架的解釋來看,提供有質量的評價信息以支持決策既是構建學生評價系統的出發點,也是其目的。
美國斯坦福大學Guillermo Solano-Flores教授采用并擴展了上述評價框架中的質量驅動維度,從三個方面提出衡量評價能力的基本框架。第一,支持或有助于評價活動的有利環境,具體指一個國家在多大程度上已經發展或能夠開發和使用技術健全的評價工具;第二,評價活動和工具與教育系統的其他組成部分保持一致,具體指一個國家在多大程度上已經建立或能夠建立和維持評價系統與教育系統的其他組成部分保持一致;第三,使用已有的評價工具進行評價的質量,具體指一個國家能夠在多大程度上利用評價工具和評價系統提供的信息對其政策和實踐產生影響[19]。
此外,還有加拿大渥太華大學的學者認為,以往對組織評價能力維度的研究并不清晰,因此試圖通過對最高國家政府組織評價能力關鍵方面的實證研究闡明組織的評價能力維度。研究認為,組織的評價能力由人力資源、組織資源、評價規劃和活動、評價素養、組織決策、學習效益六個維度組成,每一個維度又分為不同的子維度。組織在這些維度和子維度上的評價能力可以分為低、發展中、中等和具有典范性四個層面,組織的評價能力不僅在不同維度之間存在差異,而且在不同的子維度之間也存在差異[20]。
上述研究不僅揭示了與教育評價及其能力相關的概念,也揭示了教育評價能力的基本要素。這些研究均出自于權威的國際組織或世界著名大學的權威專家,其研究方式來自于大量的實地研究和案例研究,這表明其研究的過程和結果都是真實的、準確的。在此基礎上,我們所獲得的研究信息當然也是可靠的,是具有信度和效度的。使用內容分析法依據扎根理論對上述研究信息進行編碼,可以歸納得出教育評價能力要素的交集,并揭示教育評價能力結構的基本維度。具體信息見表1。
綜合人們對教育評價的認識及其在不同階段表現的行動特征和世界銀行、聯合國開發計劃署以及相關學者對教育評價能力及其結構的研究,我們可以得出教育評價能力涉及的基本要素,即教育評價的價值、內容、利益相關者,以及教育評價工具、教育評價對政策制定或決策實踐的影響等。這些因素可以歸結為以價值、內容以及利益相關者為支撐的教育評價系統,以工具為內核的教育評價環境,以評價結果的應用程度為標志的教育評價質量三個方面,每一個方面的建設情況以及與其他組成部分的關系都可以表現出不同的水平,三個維度的綜合結果構成教育評價的整體能力,其具體的能力結構可以用模型來表示,如圖1所示。
圖中的第一個維度是教育評價系統,衡量這個系統的能力高低取決于它與教育系統其他組成部分保持一致性的程度。如果評價者已經建立或能夠建立和維持教育評價系統與教育系統其他組成部分以及其他相關系統保持一致、形成聯盟,則表明這個評價系統具備了一定的評價能力;教育評價系統與教育系統其他組成部分以及其他相關系統的一致性越高,則表明教育評價能力越強。
第二個維度是支持或有助于教育評價的環境,環境指向教育評價工具的擁有、開發和使用情況。如果評價者(包括政府、學校、教師、評價的委托者等)具有了技術健全的教育評價工具,或有能力開發或使用技術健全的教育評價工具,則意味著這個評價者具備了一定的教育評價能力;具備、開發、使用教育評價工具的程度越高,則說明教育評價能力越強。
第三個維度是教育評價使用評價工具進行評價的質量。如果評價系統能夠恰當使用教育評價工具,堅持正確的價值理念,通過有效的評價為教育政策的運行、教育決策和教育實踐提供真實的信息,并對其產生積極的影響,則表明這個評價系統具有評價能力;其積極影響越大,則說明教育評價系統的能力越強。
二、忽視教育評價能力的主要表現
盡管教育評價能力在教育評價中具有重要的作用,但實踐中忽視教育評價能力因素的現象卻比比皆是,直至影響教育評價的質量,甚至帶來不利的評價后果。
1.忽視教育評價的價值屬性
如前所述,以技術手段為行動特征而實施教育評價,就其實質而言,體現的是價值的轉換,因為不同的教育評價標準會對教育行動起到不同的導向作用。但目前的問題在于教育評價受管理者和評價委托者的評價能力限制,時有因對教育行動方向的忽視而機械看待教育行為結果的現象發生。如教育評價的“N唯”傾向以追名逐利的價值取向帶來評價負效應[21],使教育評價成為忽視價值判斷的偽評價[22],由此衍生的改進策略難免充滿虛擬性[23]。正是這種價值意義的缺失和功利意義的強化,往往導致舊的問題未能解決,而新的問題卻又產生。長此以往,學校領導者、教師、學生等評價對象便容易陷入一種被動接受評價的怪圈,學校的辦學活力、育人宗旨、教育規律都會不同程度地失去其真正的意義。
2.忽視教育評價的效度
對效度的前沿認識是從整體化的視角認識效度問題。就測驗而言,效度被認為是基于測驗分數而做的解釋、推斷及行動的適切性。效度分析則是收集效度證據以支撐對分數的解釋或推論的審查過程[24]。這種解釋同樣適用于教育評價[25],即教育評價的效度至少需要三個方面的條件保障。其一,保證教育評價的題項、任務或問題等能夠準確反映試圖評價的構想,不能缺失或不充分,不能超出試圖評價的范疇,即要保證評價的內容效度。其二,保證所要評價的是特定對象在特定條件中的表現,即保證數據來源的真實。其三,保證對評價結果所做的解釋是正確的,即保證對數據分析的準確[26]。在此基礎上進行的效度分析應包括對評價假設的陳述、數據收集、數據分析及理論建構等一系列過程,據此獲得更多的效度證據[27] 。同時,這一系列過程的不同組成部分之間也是相互聯系和相互影響的,如果評價問題不準確、不充分,就保證不了內容效度,那么在此基礎上進行的數據收集即使是真實的,也不具有評價的有效性。同樣,如果數據來源不真實,在此基礎上建立的數據分析也無法保證其有效性。
事實證明,教育評價忽視效度分析的做法是存在的。現存的學校評價、教師評價、學生測評等多種教育評價行為,不僅缺少對評價內容體系的效度檢測,也缺少對特定對象的個性化分析,更缺少對評價結果的有效解釋,即使是影響世界各國教育政策制定的PISA(Programme for International Student Ass-
essment)測試也存在效度失真的問題。例如,受不同國家文化習慣和不同經濟基礎等條件的影響,學生對“庭院”的理解程度是不同的,那么以對庭院設計為題材的數學題測試,以及據此做出的數據分析和結論就難以保證PISA測試的內容效度和數據來源的真實性[28]。同樣,每一所學校都是一個不同的個體,建立在統一評價指標體系下的學校評價和對評價數據的簡單化解釋,顯然不能充分區分不同學校間的差異性。強調這種差異性并不意味著要降低評價標準,而是要強調指標檢測對不同層次學校的不同意義以及基于具體情境檢測對改進策略的正確思考。僅以師生比為例,小學、初中、高中的師生比分別是1∶19、1∶13.5、1∶12.5,這是一個非常簡單的量化指標體系,并沒有區分不同規模、不同辦學形式的學校在教師配置方面的差異性,也無法了解不同的學校在教師配置中要解決的實際問題。因此,在統一量化指標的前提下對不同的學校、不同的教師、不同的學生進行的評價,其數據就可能是不充分、不真實的,在此基礎上進行的評價數據分析也必然是低效度的。
3.忽視教育評價工具的建構意義
評價工具的轉換反映的是評價理念的轉換。以“響應”和“協商”為主的現代教育評價技術更多地是從評價對象的視角看問題,關注環境對評價對象的影響,賦予每一個評價對象解釋自身行為的空間。這種評價過程追求的是利益相關者之間的平等對話,帶來的是評價對象對行為的反思和改進。這是一種縱向主體與橫向主體共同互動的評價技術,具有矩陣式的網絡交流特征,應用起來相對復雜,并耗費時間。正因為如此,教育評價對這種技術的使用還不夠普遍、不夠成熟或流于形式。例如,對學生的成績評定基本是自上而下的,學生與教師之間的平等對話、學生與學生之間的平等交流少之又少。
三、教育評價能力擬合其能力結構的建議
教育評價能力的提升在于評價能力結構中各要素發揮作用的效果提升,其作用發揮得越好,教育評價的能力與其能力結構的擬合度就越高,教育評價的能力也就越強。為此,可以從教育評價的能力結構入手,探討如何提升各要素在能力結構中的作用效果,進而達到提升教育評價能力的目的。
1.優化教育評價系統
優化教育評價系統首先要確立教育評價的價值標準。這是教育評價的方向,而沒有方向的評價是盲目的評價,最終將導致南轅北轍的教育行動。教育是培養人的社會活動,“為誰培養人”始終是教育要明確的方向性問題,教育評價的過程就是對培養人的方向及其影響下的行動效果做出檢驗的過程。黨的教育方針已經指明了培養人的方向,執行黨的教育方針是踐行這個方向的前提。
其次,要優化教育評價的內容體系,提高評價的內容效度。教育評價的內容體系是教育評價的依據,效度較低就會影響評價結論的可信度。為此,教育評價的內容體系必須具有真實性、針對性、充分性。真實性是指教育評價的內容能夠準確反映教育評價的任務,它來源于評價要解決的問題。針對性是指教育評價的內容要契合評價對象的實際情況,遠離評價對象的客觀環境,對評價對象不了解、不理解、不認同的評價內容都不能準確反映評價對象的客觀實際,評價的結果勢必缺少有效性。充分性是指教育評價的內容能夠全面地反映教育評價的任務,既不斷章取義,也不避重就輕。否則,得到的評價結果自然是不真實的,也是不具有效度的。
最后,要提升教育評價管理者和委托者的素質,使其具備較高的教育評價能力,勇于承擔責任。一是教育評價的管理者和委托者要有較好的政策素養,具備制定政策和執行政策的基本能力,能夠準確理解黨的教育方針,把握教育評價的方向。教育管理者和委托者要了解教育評價理論的發展動態,掌握教育評價工具的變化動態,恰當地選擇和使用教育評價工具,并據此獲得教育評價的真實信息。二是教育評價的管理者和委托者要具有甄別教育評價內容有效性的能力,要能根據具體的評價對象確定不同的評價問題、選擇不同的評價內容。三是教育評價的管理者和委托者要有承擔責任的勇氣。傳統的評價范式認為:責任性能被指派,因為經由相關的因果鏈,它便是可決定的了。評價的建構主義范式則認為:責任性是同時且多重的形構者匯聚的一個特征,沒有行構者,也就沒有行構者的子集可以單獨挑選出加以贊揚或責備[29]。因此,教育評價不能將評價中的問題僅僅歸于評價對象,也要從評價者的角度尋找問題的根源,承擔引發問題的責任。
2.正視教育評價的網絡關系
教育評價是政府、學校及社會其他組織共同參與的過程,在現代教育評價中體現于“響應”和“協商”的對話過程,這符合治理活動的基本特征,也是教育評價需要正視和掌握的技術。然而,體現治理特征的教育評價并非由來已久。在官僚制度管理模式下,政府的職能在于“劃槳”,其主導的教育評價行為必然表現為事必躬親。在新公共管理模式下,政府的職能在于“掌舵”,但因市場主義競爭機制的導向,以“企業家”形象出現的政府在教育評價中難免忽略評價的價值屬性。因此,在珍妮特·登哈特(Janet V. Denhardt)和羅伯特·登哈特(Robert B. Denhardt)合著的《新公共服務:服務,而不是掌舵》一書中,批評了政府在企業化管理模式中的“掌舵”現象,提出了政府在治理模式中的“服務”職能。“服務”調節的不再是企業家和顧客的關系,而是政府和民眾的關系,追求的不再是效率,而是保障公民的基本權利[30]。遵循這一理念,政府在教育評價中的參與和服務易于使其與評價對象達成相互支持的評價目標,評價對象的需求、問題、困境在政府的服務性評價中可以得到理解和幫助,而評價的第三方機構,即評價的委托者,是作為政府所提供的教育評價服務的支持者參與評價過程的。
多元主體參與教育評價過程,必然產生一定的網絡關系,這就要求教育評價在網絡視角下審視利益相關者的行動。網絡是指系統中元件之間的連接模式[31]。社會網絡理論強調個體與社會環境是網絡關系,這種網絡關系是影響個體行為的重要因素。強調構建教育評價的網絡關系,就是要強調以整體的評價視角認識評價過程中各相關要素的相互影響性和利益相關者的協作共贏性。例如,學校是社會網絡系統中的一部分,與家長、社區、政府、他校、其他社會組織等交互作用,形成點線交織的網絡系統,飽含作為評價對象的校際關系以及與其他因素之間的交叉關系。同為評價對象的學校,在辦學條件、師生來源、地理位置、學校歷史等諸多方面存在差異,與他校之間同向、相向或逆向而行。學校與社會其他因素的關系既表現于學校的各項活動會影響社會其他因素的變化中,也表現于社會各因素的變化會影響學校的活動軌跡中。基于網絡系統的評價,就要找到學校在網絡系統中的位置、在網絡系統中與其他因素的關系,以及其他因素對學校產生的影響。如果忽略了這些,就等于忽略了學校與其他社會組織地位的不對等性及其異質性,這種忽略難免產生對教育行為結果的誤判。
3.動態認識教育評價對象的行動過程
教育評價是對評價對象發展過程的評價,這一過程是動態的。因此,教育評價不能僅以單一的指標衡量評價對象的行為結果,而要注重檢測其行為結果的增值性,削弱評價對象的橫向競爭。如前所述,評價對象對各種教育教學任務的理解受到自身所處環境條件的影響和限制,他們所采取的行動在此前提下有著不同的理由和選擇。已經得到驗證的是,僅以原始分數對學生作出的評價和僅以升學率對學校作出的評價,都無法獲得對每一位評價對象個體的深入了解,也難以據此得出公正的結論。同時,衡量教育行為結果的指標不僅有投入和產出的比率,如教育經費支出與在校學生數量之比,還有對教育行為影響結果的考量,如培養的學生素質如何,能為社會增添多少正能量等。增值性評價則有助于得到真實的評價數據和正確的結論。
參考文獻
[1] Hallie Preskill,Shanelle Boyle.A Multidisciplinary Model of Evalu-ation Capacity Building[J]. American Journal of Evaluation,2008,29(04): 443-459.
[2] Steffen Bohni Nielsen,Sebastian Lemire. Mapping the evaluation ca-pacity building landscape: A bibliometric analysis of scholarly com-munities and themes[J]. Evaluation and Program Planning. 2023,99,1-10.
[3] Isabelle Bourgeois,Sebastian Thomas Lemire,etc.Laying a Solid Foundation for the Next Generation of Evaluation Capacity Building: Findings from an Integrative Review[J]. American Journal Evaluation,2023,44(01):29-49.
[4] 司林波,馬佩璽,喬花云.近三十年國內教育評價研究的發展歷程、熱點領域及變遷特征[J].現代教育管理,2023(11):63-73.
[5] 萬曉容,朱麗佳,陳俊,等.基于大數據的教育評價研究綜述[J].軟件導刊,2022,21(11):232-238.
[6]郎藝鴿.2000-2020年國內教育評價趨勢及路線綜述研究——基于CiteSpace知識圖譜的分析[J].數據,2023(01):193-194.
[7] 梶田叡一.教育評價[M].李守福,譯.長春:吉林教育出版社,1988:20.
[8] 洛林安德森,等.布魯姆教育目標分類學修訂版(完整版):分類學視野下的學與教及其測評[M].蔣小平,張琴美,等譯.北京:外語教學與研究出版社,2009:62.
[9] 黃光雄編譯.教育評鑒的模式[M].臺北:師大書苑有限公司,1989:192.
[10][11][29] 埃貢.第四代評估[M].秦霖,蔣燕玲,等譯.北京:中國人民大學版社,2008:42-43,2-19,73.
[12] Leslie A. Fierrol,Christina A. Christie. Evaluator and Program Manager Perceptions of Evaluation Capacity and Evaluation Practice[J]. American Journal of Evaluation,2017,38(03): 376-392.
[13][15] Keith Mackay. The World Bank’s ECB Experience[J]. New Di-rections for Evaluation,2002:93,81-100.
[14] Jean A. King. Building the Evaluation Capacity of a School District[J]. New Directions for Evaluation,2002:63-80.
[16][17] UNDP. Capacity Assessment Practice Note. July 2006:5. https//www.undp.org.
[18] Clarke,M.(2012). What matters most for student assessment systems:A framework paper. The World Bank website:https://openknowledge.worldbank.org/bitstream/handle/10986/17471/682350WP00PUBL0WP10READ0web04019012.pdf?sequence=1.
[19][28] Solano-Flores,G. amp; Milbourn,T. (2016). Assessment capacity,cultural validity,and consequential validity in PISA. RELIEVE,22(1),M12. DOI: http://dx.doi.org/10.7203/relieve.22.1.8281.
[20] Isabelle Bourgeois,J.Bradley Cousins.Understanding Dimensions of Organizational Evaluation Capacity[J].American Journal of Evaluation,2013:1-21.
[21][22] 陳玉琨.教育評估的理論與技術[M].廣州:廣東高等教育出版社,1987:29,8.
[23] 福勒.教育政策學導論[M].2版.徐慶豫,譯.南京:江蘇教育出版社,2007:285.
[24][25][26][27] 約翰遜,克里斯騰森.教育研究定量、定性和混合研究方法[M].重慶:重慶大學出版社,2015:133,134,133,134.
[30] 珍妮特·登哈特,羅伯特·登哈特.新公共服務:服務,而不是掌舵[M].3版.丁煌,譯.北京:中國人民大學出版社,2016:101-102.
[31] 徐俊銘.組合網絡理論[M].北京:科學出版社,2007:5.
【責任編輯" " 鄭雪凌】
該文為國家社會科學基金“十四五”規劃教育學一般課題“中小學教師供給政策執行追蹤與改進研究”(BFA220178)的研究成果