陳淑清,王秀紅,乞 佳,欒慧敏
(1.東北師范大學 化學教育研究所,吉林 長春130024;
2.東北師范大學 國際與比較教育研究所,吉林 長春130024)
SBAC組織由美國三個教育評價機構,即引領計算機自適應測驗創新的“教師和教育研究者的終結性評價資源多州聯盟”(SMARTER)、開發綜合性學習評價體系的“平衡聯盟”(Balanced constrium)以及以開發形成性評價的 MOSACI聯盟合并組成[1]。2010年,美國政府為深化基于標準的教育改革,頒布了全國統一性質的《共同核心州立標準》(Common Core State Standards,簡稱“核心標準”)。為促進核心標準的實施,進一步提升基礎教育質量,美國政府通過“力爭上游計劃”,撥款3.5億美元研發基于核心標準的評價體系,SBAC評價體系正是美國政府資助的研究項目之一①。SBAC的總體目標是通過評價促進學生學習和改善教學,以確保所有學生高中畢業時已為升學和就業做好準備。目前,美國已有27個州參加該評價體系的研發[2]。本文擬對美國構建的SBAC評價體系的框架性內容加以探討。
20世紀90年代以來,美國興起了“基于標準的教育改革”運動。由于美國實行地方分權教育體制,各州自行制定課程標準(簡稱“州標準”)。由于各州的課程標準在內容上存在較大的差異,導致美國教育質量參差不齊。2001年美國頒布的“不讓一個孩子掉隊法案”(The No Child Left Behind Act of)明確提出,對不能達到州課程標準(以下簡稱“州標準”)的學校實行嚴厲問責。為此,各州為免受責罰,紛紛降低州標準的內容要求,以使學生學業成績“達標”,這在一定程度上導致美國教育質量的下降。為改變這一現狀,美國頒布了旨在統一美國K-12年級課程的“核心標準”[3]。在這一背景下,為推動“核心標準”實施,構建與之相適應的評價體系成為美國基礎教育領域中重要的課題。
針對美國當前評價體系的種種問題,美國教育部長鄧肯(Arne Duncan)指出:“我們從教師那里聽到的最大抱怨是州的標準化考試,迫使教師實施應試教學,而考試卻測不出真正重要的東西。”[4]這表明美國現有評價體系存在嚴重弊端,一方面州標準化考試缺乏科學性、有效性,學業成績考試無法對學生的高級思維技能與深層次的學習能力進行考察;另一方面,由于缺乏統一的、高標準的學業評價體系,美國各州的學業評價結果也必然缺乏全國可比性。例如,2008年南卡羅萊納州公布的評價結果顯示,有82%的學生通過了州的學業水平考試;但是,該州的考試結果與全國考試管理委員會(NAEP)的考試結果相比較時發現,實際該州只有20%的學生達到了州標準要求[5]。為改變美國基于州標準學業評價效果不好的現狀,基于核心標準構建下一代評價體系,成為美國學業評價改革的迫切訴求。
SBAC評價體系的框架性內容由終結性評價、形成性評價、臨時性評價和網上報告系統等四部分組成。
SBAC評價體系下的終結性評價一般在學年的第12周實行(也可選擇在學年初進行)。終結性評價由兩部分組成,即綜合性的期末計算機自適應測驗和表現性任務。這兩部分評價將為學生提供他們在為升學與就業做準備方面所取得進展的信息,用于支持高風險的學生、學校、教師和校長的問責決策。
1.計算機自適應測驗(Computer Adaptive Testing)
計算機自適應測驗是運用計算機手段,根據學生的作答情況對試題難度進行自動調整的測驗[6]。在該測驗中,若一個學生正確回答了一個試題,那么接下來將呈現一個挑戰性的試題;若回答錯誤,那么將呈現一個較簡單的題目。計算機自適應測驗在每個內容域下將有大約40—65個試題,包括選擇題、建構題、技術增強題[7]。選擇題與技術增強題由計算機計分,其他題目則由人工智能引擎進行可信的電子計分,電子計分題中的10%將由人工重復計分,以確保引擎的準確性[8]。
2.表現性任務(Performance Tasks)
表現性任務是以課程目標為導向,學生親自完成的評價活動。通過觀察學生在實際任務中的表現,評價者對學生的知識、技能和能力做出一定判斷。在SBAC評價體系下,學生每年將完成閱讀、寫作和數學等方面的表現性任務。表現性任務將通過計算機發送,一般要求在一至兩課時內完成。表現性任務的計分一部分由計算機實行,另一部分由人工進行。其中,10%的建構題和33%的表現性任務由教師進行計分,但教師不能夠對自己學生的作答計分[7]。
研究表明,無論終結性評價設計得如何完備,也無法向教育工作者充分提供他們所需要的學生在學校發展中的全部信息。臨時性評價與形成性評價彌補了終結性評價的這一缺陷。臨時性評價是在學年中進行,實施周期介于終結性評價與形成性評價之間的一種評價類型,通常在學校或地區一級實施。臨時性評價在實際操作中具有較大的靈活性,教師和管理者可以根據實際情況選擇學年中的某一時間點進行測驗,也可選擇測驗題針對核心標準中某一具體的內容集群進行深層次的評價。臨時性評價包括計算機自適應測驗與操作性任務,不同的是臨時性評價的測驗題與操作任務絕大多數是公開的。臨時性評價的結果將在兩個星期內返回,測驗結果的報告規模與終結性評價類似,但評價的結果不累計用于問責的終結性評價分數之中。
保羅·布雷克(Paul Black)和迪倫·威廉(Dylan Wiliam)研究發現,有效的形成性評價包括以下特征,即教師對評價證據做出教學調整的反應;學生得到他們學習的反饋與他們進行什么樣改進的建議;學生參加到自我評價的過程中[9]。概括地說,評價只有在其信息是用于調整教學以滿足學生需要時才是形成性的[9]。
SBAC評價體系中的形成性評價的目標是幫助管理者和教師有效地使用終結性評價和臨時性評價的數據,并培養他們在教學過程中收集證據以診斷學生學習能力,從而促進學生學習。為了實現這一目標,SBAC評價體系將通過專業學習工作小組提供培訓和合作的機會,幫助教師提升評價素養;理解核心標準的內容要求;開發示范性的課程單元;協調課程、評價與教學的關系;深層次地認識學習過程以持續地改進教學實踐,促進教師專業發展。
為將上述三種評價的結果有效反饋給評價利益相關者,SBAC還將開發安全的網上報告系統。SBAC報告系統由標準化報告和定制化報告組成,以滿足不同利益相關者的不同需要。開發SBAC報告系統有以下目的,即管理一個綜合的評價與問責系統,以滿足成員州的需要;提供“早期預警”信息來監管課程、教學和學習;及時地進行有根據的課程和教學改進;支持教師專業發展;向評價利益相關者,包括高等教育機構提供可比較的學生成就信息,以用于地區、州和聯邦水平的教育問責。
在報告內容上,SBAC報告系統既包含動態的部分,如與教學單元、教案和課程資源相聯系的評價結果;也包括靜態的部分,如與問責制和成長模式相聯系的評價結果。在報告形式上,SBAC報告系統將同時提供標準化的紙質報告和技術化的網絡數據分析工具,通過一系列的數據分析和報告生成工具來創建定制報告;通過各種各樣的圖表清晰、形象地展示數據;在報告系統的安全性方面,SBAC將進行保密設置,并提供各種各樣的訪問界面,每一類使用者只能訪問相應的評價信息。與此同時,SBAC還將仔細檢查報告的框架為地區和學校管理者以及教師提供有效解釋評價結果的培訓,以便于他們對評價數據進行更為明智的使用。
SBAC評價體系的一個重要特征就是評價方式的平衡性。可以說,SBAC評價體系有效地平衡了終結性評價、形成性評價和臨時性評價三大評價方式。其中每一類都有不同的側重點與作用,但三者之間又相互聯系,共同構成完整的綜合性評價體系。SBAC終結性評價的主要目的是對學生的成績進行地區、學校、班級等各級別的比較,從而對學校、校長、教師工作有效性進行問責。由于終結性評價需做到嚴謹、精確,以保證評價的公平性和有效性,這會導致終結性評價缺少必要的靈活性,使教育者無法對學年中出現的非預期的學生表現進行評價,也無法收集學生學習發展過程的信息。為此SBAC評價體系通過形成性評價和臨時性評價加以補充與平衡。形成性評價發生在課堂教學中,教師用其診斷學生在學習中處于什么狀態,在認知和理解的何處存在差距,從而有針對性地改進教學。形成性評價被嵌入到學習活動中,并與當前教學單元直接相連,經常被稱為“每時每刻”的評價或是形成性教學[10]。臨時性評價介于終結性評價與形成性評價兩者之間,實施規模與周期均處于中等水平。臨時性評價的結果與形成性評價一樣,可以為教師的課堂教學提供信息,但兩者又存在一定的差別,臨時性評價的結果可以進行有意義的整合并在更廣泛的水平進行報告,而不局限于課堂。同樣,實施的時間也可能是由學校或地區來控制而非教師。發生在課堂的形成性評價,與關注課堂但不局限于課堂的臨時性評價將一起為教育者提供學生學習發展狀況的信息,從而彌補終結性評價的不足。我國目前的學業評價體系設計中主要采用終結性評價方式,過分關注學生的學業成績,因而導致評價過于關注學習結果,而忽視學習過程等問題的產生。借鑒美國的經驗,我國在學業評價體系開發過程中,應把形成性評價等評價方式納入到評價體系中來,構建終結性評價與形成性評價相結合的平衡體系。
SBAC評價體系是以創新的、高效的技術服務為支撐。SBAC評價體系的顯著特征體現在多方面,如結合計算機自適應測驗的精確性與有效性特點;廣泛使用先進技術促進組織開發創新的、貼近現實生活的題目類型;通過記錄學生廣泛的長期的表現,為當地教師、管理者專業發展與能力建設提供有效信息與資源;通過共同使用的電子化平臺與跨州資源,遠程發送評價以并創建標準化的及可定制化的報告等。SBAC評價體系以技術為支撐的評價體系符合了成本效益性原則,能夠適時地追蹤和分析學生個體、學生群體、班級、學校、地區、州在為升學與就業做準備的學生學業狀況。我國目前的評價體系中的技術程度有待提高,電子信息平臺的建設和利用還不到位,這會導致學業評價信息無法實現共享的問題。借鑒美國的經驗,我國在學業評價體系的設計上,應加強評價信息平臺的搭建,提高學業評價體系的技術含量,促進評價體系在先進技術的支持下,高質量運行。
SBAC評價體系的評價結果處理是多元化的:一是由于SBAC評價體系的根本目的是了解學生學業表現,促進學生為升學和就業做好準。因此,評價的結果將及時反饋給學生,幫助學生了解自己學習進展情況以及與核心標準的學業水平目標之間的差距。二是利用評價結果改進教師教學和促進教師專業發展。在SBAC評價體系框架下教師不僅可以在課堂中使用學生測驗數據,改進教學;也可以進入數字化圖書館,獲得專業發展的資源。三是用于學校的問責。SBAC終結性評價的結果也將用于學校問責。評價數據在學校水平上得到了更為顯著的使用,那些被確定為年度教學質量低下的學校將受到懲罰,而年度教育質量高的學校將會受到獎勵。目前,我國學業評價結果的處理還不夠完善,評價目的主要是用于教育質量的監測與評估,用于學校的問責和掌握學生總體學業水平狀況;而忽視評價結果用于促進教師專業素質提高和學生個別化指導的作用。借鑒美國的經驗,我國在學業評價體系設計上應充分考慮評價結果多樣性需要,實現評價結果處理的多元化。
[1]Vermont Department of Education.SMARTER Balanced Assessment Consortium (SBAC)frequently askedquestions[EB/OL].http://education.vermont.gov/new/pdfdoc/pgm_curriculum/EDU-SMARTER_Balanced_Assessment_Consortium_Frequently_Asked_Questions.pdf.2011-03-21/2012-10-31.
[2]SMARTER Balanced Assessment Consortium.Member States.[EB/OL].http://www.smarterbalanced.org/about/member-states/.2012-09-24.
[3]周琴,楊登苗.為升學和就業做準備:美國共同核心州立標準述評[J].比較教育研究,2010(12):13-17.
[4]李茂.美國中小學迎來考試2.0時代[N].中國教師報,2010-10-13(4).
[5]項賢明.20世紀90年代以來的美國教育改革[J].比較教育研究,2003(5):28.
[6]SMARTER Balanced Assessment Consortium.Computer Adaptive Testing[EB/OL].http://www.smarterbalanced.org/wordpress/wp-content/uploads/2011/12/Smarter-Balanced-CAT.pdf.2012-11-27.
[7]Center for K-12Assessment &Performance Management at ETS.Coming Together to Raise Achievement:New Assessments for the Common Core State Standards[EB/OL]. http://www. k12center. org/rsc/pdf/Assessments_for_the_Common_Core_Standards.pdf.2011-6/2012-10-24.
[8]Shavelson,R.J.et al.On the Impact of Curriculum-Embedded Formative Assessment on Learning: A Collaboration between Curriculum and Assessment Developers,Applied Measurement in Education[R].2008:295-310.
[9]Margaret Heritage.Formative Assessment and Next-Generation Assessment Systems:Are We Losing an Opportunity?[EB/OL].http://www.edweek.org/media/formative_assessment_next_generation_heritage.pdf.2010-9/2012-11-27.
[10]Marianne Perie,Scott Marion,and Brian Gong.Moving Toward a Comprehensive Assessment System: A Framework for Considering Interim Assessments[J].Educational Measurement:Issues and Practice,Fall,2009,28(3):5-13.