王旭東/浙江省溫州市教育評估院質量評價科科長
浙江省基礎教育課程改革專業指導委員會委員

王旭東
長期以來,小學生學科評價結果以總分呈現,已經成為學生負擔壓力的源頭。隨著教育評價的改革推進、中國學生核心素養的落實,小學生學科學業評價要消除分數化評價,實施項目化、等第化評價。各小學都應構建以校為本的學生學業評價體系,有效促進學生有意義的學習和健康成長。
學生學業評價體系主要由各學科測評內容項目、測評方式和評價標準組成。評價體系必須基于課程標準,基于本校教與學的實際,結合學校辦學理念和特色,體現校本化評價。
區域性統考通常采用紙筆測試,統考結果通常以學科總分形式出現,學科等第劃線也是全區域一個標準,這些數據常常用于學校教學質量評定、教師教學業績評定,加劇了“唯分數論”的導向,成為小學生學業負擔和學習壓力最重要的來源。在2016年浙江省教育質量綜合測評中,溫州市72.1%的四年級學生認為主觀學業負擔較重,29%的四年級學生有學習焦慮,主要表現在于“校內各種考試太多”“學校老師布置的作業太難”和“家長、家教、輔導班等布置的作業太多”。數據還發現四年級學習壓力感較大的學生,其主觀幸福感、自尊心、師生關系、同伴關系、親子關系等表現較差,其一般焦慮感較高、學習焦慮感較高、網絡成癮的人數比例明顯偏高。這些壓力負擔與學生作業量感受、考試頻率感受、學習緊張、作業難度、考試難度、課堂教學內容難度、校內競爭壓力、考試焦慮、課外作業量感受、父母攀比壓力、父母期望壓力等顯著相關,這些相關因素都與分數評價顯著相關。
2001年,教育部《基礎教育課程改革綱要(試行)》指出,“改變課程評價過分強調甄別與選拔的功能,發揮評價促進學生發展、教師提高和改進教學實踐的功能”,也就是說,中小學課程評價要促進學生的學習和發展,促進教師的專業發展。2014年,浙江省教育廳發文明確規定:“嚴禁在小學低年級統一考試,嚴禁按成績給學生排名”,“小學低年級段不準采用統一的紙筆測試”、“一二年級期末考試和考查推廣非紙筆測試形式”。在省教研室評價部門的引領下,全省各地學校紛紛嘗試項目式評價,無分數化評價。2016年9月,上海市教委發布《關于小學階段實施基于課程標準的教學與評價工作的意見》和《小學中高年段基于課程標準評價指南(征求意見稿)》,要求小學中高年級語文、數學、英語三門學科實施“等第制”評價,從小學低年段向中高年段延伸,同時低年段“等第制”評價還從語數外擴展至所有學科。浙江省也要求小學各年級各學科成績評價都要項目化,各項目評定都要等第化,項目和等第設置要校本化。
采取等第化評價,消除了“分分計較”的思想,會明顯降低學生的學業負擔。上海從2013年起,在小學一二年級實行“等第制”評價,“學生學習壓力小”的比例已從30.93%提高到74.19%。消除課程分數化評價是對“甄別與選拔功能”的釜底抽薪的重要舉措。
項目測評類型通常分為紙筆性評價、表現性評價和過程性評價三類;中高年級段學生學科評價由過程性評價、表現性評價和紙筆測試三類組成;低年級段學生學科評價由過程性評價和表現性評價兩類組成。
表現性評價。表現性評價通常要求學生在某種特定的真實或模擬情景中,運用先前所獲得的知識完成某項任務或解決某個問題,以考查學生知識與技能的掌握程度、問題解決、交流合作和批判性思考等多種復雜能力的發展狀況。測試內容體現多維度學習目標,具有一定的復雜性和開放性,表現性評價能夠檢測高級認知能力、情感、態度等重要的教育結果,重點測評動手實踐、合作交流與創新能力、情感和態度等內容與領域,彌補紙筆測試的不足。表現性評價側重聽、說、讀、講、演、奏、做等方面,通常以比賽、活動、展示、項目測評等方式進行,如常見的游園考、樂考悅考、闖關考、期末嘉年華等。
過程性評價。過程性評價是對學生日常學科上課、作業、活動等學習過程中表現出的學習行為、學習態度、情感和價值觀等綜合性評價,是基于學生學習生活全過程的觀察和記錄做出定性評價,可以采取教師評價、學生自評和同學評價方式進行。
過程性表現類通常還可以分成作業評價、課堂表現、學科活動等子項目。作業評價側重作業態度、作業的準確性、完成的及時性、自我訂正表現等。課堂表現側重課前準備、聽記認真程度、提問交流、小組合作等?;顒訁⑴c指學生參與學科性活動的積極性和效果,如語文的課外閱讀、科學的家庭實驗室等。也可以直接將這些表現整合成一個項目“平常表現”。
紙筆性評價。小學一二年級不允許紙筆測試,小學中高年級段的語文、數學、英語和科學學科每學期末可以進行一次紙筆測評。提倡以校為本的紙筆測試,反對區域性統一紙筆測試。校本化紙筆測試,要注意難度的把握,要發揮測試的激勵功能和診斷功能,要發揮紙筆測試的優勢,要提高教師的命題能力,加強試卷命題過程的管理,優化試卷的質量。
紙筆性題目具有覆蓋面廣的優點,側重考查知識的記憶和理解。表現性評價題目具有深度性和實踐性的優點,側重實踐應用和綜合能力。過程性評價具有考查學習品質、學習態度等綜合素養等優點。由單一的紙筆測試轉向多元化測評,使得測評內容立體豐富,能彌補單一測試類型的局限。
紙筆測試試卷往往要講究內容結構效度和重難點。現在要把一個學科測評“拆分”成幾個項目測評,這幾個項目相當于以前一份試卷中的幾道“大題目”,這幾道“大題目”必須體現學科核心能力和重要知識模塊。
測評項目結構要完整
上海要求各學科圍繞學習興趣、學習習慣和學業成果三個維度設置學科特色的評價項目。筆者認為,學科測評項目的構建可以從學習結果和學習過程兩個維度展開(見表1)。學習結果的評價通常采用表現性評價和紙筆評價,要處理好兩者的內容整合性。學習結果評價可以從“知識、能力”和“技能、情感、態度”兩個方面進行再分解。
知識、能力方面側重學科知識模塊和低層次認知能力,測評類型以紙筆測試為主。例如:語文學科從知識模塊角度可以分解為現代文、古詩文和寫作等子項目。數學學科可以分解為數與代數、幾何與圖形、統計與概率等。
技能、情感、態度方面側重學科高層次能力和行為化的技能,測評類型以表現性評價為主。例如:語文表現性評價方式可以采用寫字、手抄報、故事會和朗讀演講、無領導小組討論等。數學表現性評價方式可以采用口算、估算與筆算(含計算器使用)、動手操作(拼擺、畫圖、制圖、模型制作等)、真實調查統計測量等。英語表現性評價可以采用課文復述和口語、唱英語歌曲、講英語故事、編演英語課本劇等。科學學科可以采用實驗操作、系列觀察、科技制作、研究小報告等。音樂學科可以采用現場視唱、打節奏、演唱(獨唱、合唱)、舞蹈、演奏樂器等。美術學科可以采用現場書法、繪畫、泥塑、剪紙等。
學科備課組要做好學科項目整體策劃案。依據教材內容和教學實踐,確定項目數量、各項目測評重難點、測評方式和測評時間。做到項目數量合適,項目評價質量優勝;測評方式豐富,突出表現性評價;測評時間分散,避免集中在期末。
項目內容要突出重難點
學科學業評價主要考查學生的學科基礎知識、運用學科知識解決實際問題的能力、學科學習有關的中國學生核心素養。運用學科知識解決實際問題的能力主要指學生利用學科知識解決真實情景和科學情景等實際問題的能力,參與實踐活動的情況及其在實踐活動中的具體表現。學科學習有關的中國學生核心素養主要指學生的學科思想與方法的領會情況,包括知識遷移能力、觀察和解釋能力、預測推理能力、批判性思維和創造性思維能力等,還有學生的學習習慣、方法、能力和意志品質等素養。例如:語文學科要突出聽、說、讀、寫的能力;科學學科要關注學生科學知識與方法、科學意識與實踐探索能力;體育學科要關注學生體育與健康知識、體育技能與體質素養、意志品質等;音樂學科要關注學生音樂知識與技能、欣賞、審美與表達能力。

表1:學科測評項目的構建

表2:學科學業評價項目體系
目前,我們發現學校表現性評價出現簡單化、形式化、娛樂化傾向,很容易導致考查重難點不突出,很難反映學科學習的整體效果。筆者認為,表現性評價要內涵化、課標化,要求項目內容具有一定的覆蓋性和典型性,保證項目測評的結構效度。每個項目也要保證測評的科學性和準確性,必須基于課程標準,必須突出重難點,保持“教-學-評”的一致性。例如:常見鐘表問題的表現性評價試題:評委先把時鐘模型的時針和分針各撥到一個位置,讓學生讀數;再告知學生一個時刻(如8點15分),要求學生將時針、分針撥到相應的位置。這樣的試題只測評鐘表讀數,鐘表讀數并非課程的重點內容。因此,這個試題應該如下改編:評委先把時鐘模型的時針和分針各撥到一個位置(如9點35分),讓學生讀數;再把時針和分針各撥到13點10分位置,問學生時間變了多少小時?多少分鐘?改編題不僅測評鐘表的讀數,而且測評了學科重難點——時間單位的轉化。
學齡兒童一旦進入小學,在與同學一起學習、游戲和活動中,很容易出現與“他人比較”的心理,會發現自己許多地方“不如他人”,尤其小學生學業成績的分數的微弱差異,也會導致學生的自信心下降,影響身心健康成長。雖然我們都明白,小學生成績區分度很低,難度值基本上高于0.85,相差一兩分沒有多大價值,但是很容易用于排名,很容易被兒童誤解為“差異很大”;采用等第評價,可以淡化排名現象和“差異感”,有利于強化學生的自信心,減輕學生的學業負擔。
等第化評價采用三個等級比較合適。建議用星級表示,如★★★、★★、★,或AAAAA、AAAA、AAA。不提倡采用優秀、良好和合格。如此表達,符合學生和家長的心理。
筆試成績等第劃線通常有兩種,一是基于測評分數,這種劃線要充分考慮試卷的難度和效度,試卷難度過高過低都會影響劃線。二是基于排名,這種劃線方式可以避開試卷難度的影響,但是有“競爭”的意味。筆者認為,小學筆試評價等第劃線應將這兩種方式進行整合,本著“發揮評價結果的導向性和激勵性,促進學生的發展”劃線。在實際操作中,允許補考或免考,盡量引導學生通過努力達到最高級別。
表現性評價標準要與量具同時完成。在具體測評時,要引導學生盡可能達成最高級別。例如,小學二年級數學“測量”項目:用10厘米長的三角尺量一根彎曲沒有彈性的長24厘米的毛線。評價分為三檔:拉直毛線,一尺一尺量,方法和讀數正確,得★。對折一次,量一次,再量一次(或估算),方法和讀數正確,得★★。對折三次,量一次,方法和讀數正確,得★★★。小評價師可以用“你還有什么更快捷更科學的方法嗎”引導學生獲得★★★。
過程性評價的評價標準必須在開學初公布,讓學生對照評價標準管理自己,發揮評價的導向功能。可以采取學生自評、同學他評、教師評價等多元主體評價,特別要凸顯個人自評,自評不僅僅是一個評價過程,更是一個自我反思的過程,自我評價素養對孩子未來的成長具有較大的影響力。

圖1
學校層面頂層設計宏觀化
學校層面頂層設計思想應該為“測評內容突出核心素養,形式側重表現性和過程性,組織有學校特色”,分別依次從測評時間、測評學科、測評年級和測評方式四個維度進行策劃和優化,如圖1所示。
測評時間集中在期末,由于時間和工作量緊張,測評項目數量會受到很大的限制,影響了學科內容的結構效度。學校要根據學習進度將測評項目分散在各月份,各課程每學期可以安排2~4次,讓各項目考查的時間比較充足,保證考查的深度和廣度。過程性評價通常分為兩次,一次安排在期中,發揮督促和導向功能。紙筆測試安排在期末,不建議在過程中實施。各學科測評都必須以表現性評價為主。
學校層面的頂層設計要關注時間結構的均衡性、年段項目數量與結構的均衡性、學科項目與結構的均衡性,要關注整體氛圍和主題的設計,盡心盡力測評出每個學生的優點、潛能、不足及發展態勢。
年級評價體系要整合化
年級段學業評價主要從組織成本上思考評價體系,要對各學科的評價項目進行結構優化,尤其在各學科項目的數量和時間上進行協調,對有些不同學科項目進行合并整合。例如:英語聽說能力和語文聽說能力可以合并到“聽說能力”,也可以把各學科的平常表現整合成三類:語文、數學、英語等學科的平常表現,體育、藝術、技術學科的平常表現,拓展性校本課程的日常表現。
學科評價體系要專業化
各學科課程的測評項目的數量和內容要依據課程標準、教學內容、學科特點、教學實際、學生興趣、學校特色等做策劃。各學科組要對本學科的學業評價做中觀設計,既要充分研究學科項目評價,也要兼顧相關聯的拓展性課程的項目評價。就是同一個項目,在不同學期、學年也要有不同的要求,不同的評價標準,保持“教-學-評”的一致性。如語文的寫作,隨著學段的提升,水平要求也在提高。
學科組的設計體現學科的專業性,要關注項目結構、項目內容的科學性和學科特色,保證各項目測評的有效性,可參考表2進行設計。
學生的成績單由學校發布,由學校統一蓋章,表明學校是學生評價的主體。然而,由于長期存在普遍性的區域統考、校際聯考,導致學校自我命題權、成績認定權等評價權不斷淪陷。隨著課程和評價改革的推進,學校特色化、個性化建設和拓展性課程校本化的研發得以進一步實施,教育行政部門和校長逐漸恢復“學校是學生評價主體”的理念,都認識到“一套區域性統一的紙筆試卷不能科學評價不同學校的學生”,特別是《中國學生發展核心素養》發布后,學校必須建立以校為本的學生學業成績評價體系,才能促進學生全面又個性化的發展。學業評價校本化,可以消除校際之間的橫向比較,有利于淡化“教育的功利性”。
各地教育行政部門都發文嚴格控制小學生區域性統考,隨著政策的執行力度加大,區域性統考現象逐漸減少,學校層面自行組織的考試越來越多。上海市實施小學等第化評價以后,很多學校基于市教委的評價指南,開始研制學校的等第制評價方案,引領等第化評價校本化。溫州市建設小學、廣場路小學、石坦巷小學、平陽縣鰲江小學等已經先行一步,各學科采取項目等第化評價。這些學校同一個學科測評的項目數量不同、項目內容不同、評價標準不同、測評方式不同,初步體現了學生評價校本化的思想。
小學生學業評價改革依然任重道遠。一改傳統的分數評價,實施項目化、等第化評價,學校和教師都會遇到巨大的困難和挑戰。學校必須結合課程體系、辦學理念、學校特色和學校實際,做好頂層設計,創設積極的評價改革氛圍,讓項目化、等第化評價成為學校文化的重要組成,成為落實中國學生核心素養教育的最重要途徑之一,從而促進學生優質學習和健康成長。