


【摘要】表現性評價,作為一種評價方法,適用于評價表現性技能和復雜的表現性任務,近年來頗受語文教師重視。但在教學實踐中,較為普通地存在著百分制偏好、維度厘定隨意、工具通用性差、表現特征描述籠統、規則封閉僵化、過多使用表現清單、使用頻率過高、缺乏樣例支撐、忽視學生參與等誤區。本文對這些誤區進行分析,并提出了糾正建議。
【關鍵詞】表現性評價,運用誤區
“表現性評價”(performance assessment)的概念是舶來品,于世紀之交引入我國?!镀胀ǜ咧姓Z文課程標準(2017 年版)》中關于“表現性評價”的要求為:“有條件的地方,可以運用信息技術,豐富學生的表現性評價,形成多樣化的學生成長記錄,全面而科學地衡量學生的發展?!盵1]而語文教學中的表現性評價,是指在閱讀與鑒賞、表達與交流、梳理與探究等語文實踐活動或問題解決、任務完成中,運用核查表、表現清單、評分規則等評價工具觀察學生言語活動的過程及產生的成果,以此評價學生語文素養發展狀況的方法。作為一種評價方法,它適用于評價表現性技能(如朗讀、復述等)和復雜的表現性任務(如寫作、演講等),遠超乎2017 年版課程標準所要求的“成長記錄”之用。在指向核心素養的課程與教學視域下,語文表現性評價廣泛運用于大單元教學設計、微專題教學設計中。這自然是令人高興的。可是有的使用者照貓畫虎,以致出現了諸多問題,極大地影響了表現性評價功能的發揮。本文歸納了表現性評價在實際運用中的若干誤區,舉例分析并提出避免落入這些誤區的建議,以期有益于同行。
誤區一:百分制偏好
傳統的紙筆測試常采用百分制,60 分為及格。受此影響,有教師在制作評價量表時,不考慮評價內容(表現性技能或表現性成果)的規模和復雜程度,以及該項評價在單元或學期評價中的權重,一律賦以100 分(詳見表1)。
這是一份表現清單,用以評價統編高中語文教材必修上冊第一單元的“朗誦”。這個單元由五首現代詩歌和兩篇小說構成,單元學習任務為“任選一首詩,有感情地朗讀,把你對詩作的理解通過朗讀表達出來”。
“朗誦”作為一種表現性技能,用表現性評價是合適的,因而該量表運用的適切性沒有問題。但是,設計者將這一單元的“評點”“對話文章”“詩文朗誦”“詩歌寫作要領”“詩歌寫作”都設成百分制,忽視了任務之間的權重差異,極大地影響了信度(不同評價者評分的一致性),使得評分失去了“數”的意義。
其實,表現性評價通常會使用比紙筆測試規模小一些的量表。教育評價專家格蘭特·威金斯提出:“提供有效適當的區分來保障足夠公正的評價,但在量表上不宜使用太多的分值(通常不超過6分),以免破壞信度。”[2]如美國大學入學考試SAT(Scholastic Assessment Test)的寫作,從寫作觀點或論點、事例或論據的組織、句式、詞匯水平、語法和用法五項進行評價,由兩個人同時打分,每一項從最低分1 分到最高分6 分,將得出的總成績除以6 作為最終得分,這個最終得分的范圍在2 分到12 分之間。[3]這一做法值得借鑒。
誤區二:維度厘定隨意
高質量的表現性評價離不開對表現對象的專業分析,以及回答好“該表現最關鍵的組成要素有哪些”這個問題。表現“要素”(或稱維度、項目、指標),關涉表現性評價的效度。
綜合中外學者的研究和實踐經驗,這些要素包括如下幾點:(1)完整而確切的,包括學生表現或成果的重要方面;(2)要素之間的關系合乎邏輯,它們彼此區別,又共同指向描述的對象;(3)對表現的各方面有適當的側重——對重要的內容強調得多;(4)要素的數量最好不超過五個;(5)排序合乎邏輯,便于用戶理解與實際操作(詳見表2)。
表2 用于評價必修上冊第三單元的“朗誦”。該單元由《短歌行》等八首古詩詞組成,主題是“生命的詩意”?!皢卧獙W習任務二”設計的“朗誦”活動包括“設計朗誦腳本”“組織詩歌朗誦會”等,表2 針對的是“組織詩歌朗誦會”。
由表2 可知,維度的數量在上述建議表現要素的范圍內。但這四個維度是否足以覆蓋“朗誦”的重要方面,維度的切分是否合乎邏輯、有主次之分,各維度的計分方式是否一致,其術語運用、排序是否有助于用戶(學生)理解,這些方面都有待商榷。比如計分方式雜糅,前兩個維度整體計分,后兩個維度分項計分,使得量表的實用性、可行性大打折扣。
對于這個量表的改進,可從“內容呈現”(即背誦的正確率、流暢性)、“聲音處理”(包括節奏、輕重、緩急、音準)、“輔助行為”(包括表情、動作、目光接觸以及身外材料輔助)擬寫“具體要求”,下調總分值,并根據學習內容和學情區別不同的權重。
誤區三:工具通用性差
按其適用范圍,表現性評價工具指向特定任務與通用兩類。前者只為評價某一特定的任務開發;后者在相似的任務中是通用的,即可以使用同一個評分工具評定所有的作文、演講。例如,美國著名的“寫作分析6+1 要素評分規則”是典型的通用類評價工具。通用類評價工具,一次開發,多次運用,既能降低開發成本,也便于學生的能力遷移。
從筆者所了解的情況來看,當前語文教師對于表現性評價工具的開發表現為“一多一少”:多的是指向特定任務的評價工具,局限于課時或單元的某一任務評價;少的是指向相似任務、通用于不同單元的評價工具。評價工具開發隨意,缺乏學段內表現或能力進階的整體考量。相似任務的評價工具很難見出其一致性,從而造成所開發的評價工具通用性差,上文所列的表1、表2 就是如此。表1、表2出自同一種教學設計資料,都指向“朗誦”表現,卻使用了不同的維度框架。如此安排,孤立地看沒有大問題,但連貫起來,從學生角度思考,不一致的評價量表影響了學生對技能的理解和遷移。
“對于學生來說,反復使用這一通用評分規則有助于他們理解合格的標準,理解標準的內涵,有助于他們發展遷移能力”[4]。制定通用的評分規則,對教師的專業素養是一個考驗。比如“朗誦/朗讀”,該表現性技能既可評價閱讀理解的程度,又可評價口頭表達的水平。以評價口頭表達的水平為例,與此相鄰的語文技能表現還有口頭復述、口頭報告、討論、演講、辯論等。如能按照洛伊斯·蘭寧“過程的結構”理論[5]提煉口頭表達共同的技能要素,那么就可以制定出通用的評分規則。經過筆者的實踐證明,上述提及的“內容呈現”“聲音處理”“輔助行為”三維框架,可通用于各種“口頭表達”類型。如此,表現性評價才不會囿于瑣碎的知識和技能。當然,“通用”是有限度的,要與學情相應,可采用教育評價專家格蘭特·威金斯提出的“折中做法”:先使用通用標準,然后使用具體指標來細化某些準則。[6]誤區四:特征描述籠統格蘭特·威金斯提出:“評分規則不是單憑想象和討論就能設計出來的。評分規則來源于標準,來源于已有的不同質量的表現樣本的分析。”[7]其一語道出評價工具開發的兩條基本路徑:一種是演繹的,即自上而下,由課程標準(內容標準、表現標準)、目標、任務或經驗等推導而得;一種是歸納的,即自下而上,由分析學生代表作業開始。當然還有二者綜合的。
表現性評價工具的開發,從我國語文課程的現狀看,使用較多的是演繹法。其中以依據目標與任務的推導為多,依據經驗推導的次之,依據課程標準、語文能力專業表現推導的最少。由此造成對各維度、各水平/等級的特征描述顯得抽象籠統,如表3?!拔乃嚩淘u”即篇幅短小的文藝評論,同與之相鄰的時事評論、文學評論、文學鑒賞等皆屬評論型的文本。評論型的文本,與感論型(如雜感、讀后感)、研究型(如學術小論文)、論辯型(如辯論詞)、建議型的文本同屬論述類文本[8],與實用類、文學類文本區別開來。
表3 的評價標準,用論述類文本(屬概念/上位概念)替代了“文藝短評”(二級種概念/下位概念),造成與誤區三相反的問題,即太過“通用”了。這樣一來,文藝短評特有的要求,諸如準確把握作品的情感、形象、思想內涵、藝術特點,從中選點聚焦評論,精要復述、介紹或引用作品內容,敘議結合等,都不見了。
對此,筆者開發的文學評論整體評分規則[9]可供參考:
1 分=評論點不聚焦,未能就作品提出自己的觀點,只是對作品的淺層闡釋,結構布局不清楚或詳略失當,語言蒼白無力。
2 分=有比較明確合宜的評論點,能就評論點提出較為明確的觀點,有對作品的淺層分析,結構布局不夠清楚或詳略不夠適當,語言有一定的思辨性。
3分=有明確合宜的評論點,能就評論點提出明確的觀點,分析闡述較為深入理性,結構布局比較清楚,詳略比較適當,語言有一定的思辨性和文學性。
4 分=有明確合宜的評論點,能就評論點提出鮮明的觀點,分析闡述深入理性且有一定的辯證,結構布局清楚,詳略適當,語言有一定的思辨性和文學性。
5 分=有明確而獨特的評論點,能就評論點提出鮮明而獨特的觀點,分析闡述深入、理性而辯證,結構布局清晰靈活,語言體現思辨性與文學性的結合。
這是整體評分規則,其中包括評論點選擇、觀點表達、分析闡述、結構布局、語言五個維度,盡力描述各水平的特征(盡管還不太具體),便于學生理解和使用。整體評分規則適用于簡單的成果或表現,須要進行快速、整體評價的狀況。教學中最好轉換為分項評分規則,以便于學生理解標準,或給學生作出詳盡的反饋。
誤區五:規則封閉僵化
相對于前述四個誤區,這一誤區隱蔽性較強,不易被發現。運用表現性評價的各種評分工具,是為了診斷任務理解和完成情況,給出有用的、完好的推論,從而更好地促進學生學習。如果評分工具知識陳舊(錯誤就更不應該了)、因襲套路(如表3 所用的議論文三要素),就很可能抑制學生的表現,妨礙學生的學習和發展。且看表4:這是一個表現清單,用于“實用性閱讀與交流”任務群之“校園閱讀節策劃”。對于高中學生來說,“策劃書”的創意及創意的可行性最為重要。試想,一份行文規范但創意單薄的策劃書,一份行文有瑕疵、格式不走尋常路但充滿思想和創造性的策劃書,哪份更可取呢?表4 的評分工具,固然給理解力較弱的學生提供了支架,但也給那些思維靈動的學生戴上了“緊箍咒”。這就是所謂的“規則封閉僵化”。
為此,格蘭特·威金斯鄭重告誡:“我們千萬不要制定那些一味因襲成規或傳統套路的評分規則……評分規則并不天生地壓抑革新,只有壞的評分規則才壓抑革新。如果我們忘記或避免評價影響和目的,就會產生壞的評分規則?!盵10]如果理念落后、知識陳舊、思維固化,開發的評分規則很可能限制學生的創造性表現,對此我們一定要加以警惕。
誤區六:過多使用表現清單
表現性評價有三種工具類型——核查表、表現清單和評分規則。核查表只回答是否具備要素(維度、指標),不能區分有不同層次或水平的表現。表現清單比核查表稍微精細一些,它列出要評價的各個要素和評分量表。前述表1、表2、表3 與表4 都是表現清單,除表3 是三點量表(優秀、良好、一般)外,其余都是百分制量表。
表現清單的好處是開發成本低,使用者可以靈活地權衡不同要素的重要性。但它有一個主要的不足,就是缺乏對不同表現性水平的詳細說明。比如表1,“語調、節奏的把握是否正確”(這種表述類似核查表,也是不恰當的,可改為“正確把握語調、節奏”)這一條,即使將分值從20 分縮減到5 分,也無法判斷該得幾分。如朱迪思·阿特所說的:“因為缺乏對不同表現水平的詳盡說明,教師不同的期望值和表現性標準會降低評價的可信度。”[11]
鑒于核查表、表現清單的局限,表現性評價更多采用的工具是評分規則,中外有關表現性評價的專著都將評分規則視為主流。筆者翻閱近年來多種語文教育書刊中的表現性評價工具,出現最多的卻是表現清單。有所謂“新教學設計”,一整套采用的都是表現清單,這大大窄化了表現性評價,顯得單調而乏味。也有期刊處理得比較好,以《語文建設》為例,該刊2021 年第1 期關注的“寫作評價”、第5 期關注的“閱讀評價”,多采用了評分規則,如表5。[12]
表5 是分項評分規則,由維度、等級/水平、描述和表現樣例(略)等組成。頂行顯示維度,是文本普適三維度(內容、結構、語言)的具體化;最左列顯示三個水平等級。巧妙的是,無論是維度還是水平等級都用了百分比,如此便可根據論辯稿在不同單元中的評價權重靈活賦分,比如滿分10 分或6 分等。表現性評價的運用,除以上六個誤區外,還有其他一些誤區。
一是使用過頻。一個單元中充斥大量的表現性評價,勢必干擾學生的沉靜學習。表現性評價“是一種很耗費人力的評價方法”,因而“只有時間允許時,才能考慮使用表現性評價”[13]。單元表現性評價要讓渡給核心的表現性任務,非核心任務可用交流式或選擇性反應評價。
二是缺乏樣例的支撐。學生無法理解什么是“優秀”的,或者因只展示一個樣例,“他們很可能會片面地模仿樣例或者完全照搬”[14]。比如制作“文學短評”評分工具時,就可借助唐圭璋《唐宋詞鑒賞詞典》、傅庚生《中國文學欣賞舉隅》等書籍中的文本作為樣例。有具體樣例的評分規則,能夠為目標用戶(如學生、教師等)理解和運用評分規則提供支持。
三是忽視學生的參與,學生機械運用表現性評價。其實,從開發表現性評價工具開始,就可讓學生參與。如必修上冊第二單元“小組合作,從新聞價值、報道角度、結構層次、語言表達等方面草擬一份優秀新聞評選標準”,即是學生參與評分規則的制定。其前一任務“選擇一份報紙或一個新聞網站,瀏覽一周的內容,從中挑選出三四篇你認為比較優秀的新聞作品”,可以理解為樣例搜集與分析,整個開發過程可以理解為自下而上的歸納式開發路徑。
出現以上誤區的主要原因是,教師缺乏系統的表現性評價知識,以及評價實踐經驗、實證研究不足。筆者撰寫此文旨在喚起語文同人對該問題的重視。
參考文獻
[1]中華人民共和國教育部. 普通高中語文課程標準(2017年版2020年修訂)[S]. 北京:人民教育出版社,2020:46.
[2][6][7][10]格蘭特·威金斯. 教育性評價[M].“促進教師發展與學生成長的評價研究”項目組,譯. 北京:中國輕工業出版社,2005:163,155,161,159.
[3]江南夢憶. 美國作文試卷如何進行標準評分[EB/OL].[2012-01-07].[2021-07-28]. http://blog.sina.com.cn/s/blog_48ee7201010124i2.html.
[4]周文葉. 中小學表現性評價的理論與技術[M].上海:華東師范大學出版社,2014:122.
[5]林恩·埃里克森,洛伊斯·蘭寧. 以概念為本的課程與教學:培養核心素養的絕佳實踐[M]. 魯效孔,譯. 上海:華東師范大學出版社,2018:19.
[8][9]林榮湊. 論述文寫作16 課[M]. 杭州:浙江工商大學出版社,2018:4,147.
[11]朱迪思·阿特,杰伊·麥克塔爾. 課堂教學評分規則:用表現性評價準則提高學生成績[M].“促進教師發展與學生成長的評價研究”項目組,譯. 北京:中國輕工業出版社,2005:8.
[12]郭家海. 表現性評價:情境寫作背景下的評價轉向[J]. 語文建設,2021(1上).
[13]理查德·J·斯蒂金斯. 促進學習的學生參與式課堂評價(第4 版)[M].“促進教師發展與學生成長的評價研究”項目組,譯. 北京:中國輕工業出版社,2005:158.
[14]格蘭特·威金斯,杰伊·麥克泰格. 追求理解的教學設計(第2 版)[M]. 閆寒冰,等譯. 上海:華東師范大學出版社,2017:203.