● 季益龍 逯 行 張家華 周躍良
作為新一輪教師評價改革的突破口和落腳點,教師教學評價不僅是反映教師教學能力發展、促進教師教學能力提升的關鍵抓手,也是落實立德樹人根本任務、培育學生核心素養、建設教育強國的基礎支撐。[1]2022 年10 月,中共中央、國務院印發的《深化新時代教育評價改革總體方案》(以下簡稱《總體方案》)重點指出:“改革教師評價,推進踐行教書育人使命,特別突出教師教學實績的考核,評價回歸教育本質,把認真履行教育教學職責作為評價教師的基本要求。”[2]同時,教育部聯合多部門出臺了多個文件和計劃,明確提出“要求充分利用物聯網、大數據、5G、人工智能等新一代信息技術的優勢,以新理念、新技術、新模式、新機制提高教育評價的綜合性、科學性、客觀性”[3]。然而,傳統教師教學的評價理念、評價主體、評價內容、評價方法等多個方面都難以滿足教育數字化改革的現實需求。基于此,本文聚焦“教師教學的智能評價”這一核心議題,系統回顧和分析教師教學評價范式的歷史演變,并提出智能技術賦能教師教學評價變革的理論框架及實踐路向,以期為數智時代教師教學評價改革提供理論借鑒與實踐引導。
教師教學評價是對教師教學過程及成效進行多元、客觀、人本的價值判斷的活動。[4]智能技術賦能教師教學評價實現邏輯的明確,首先需要追溯教學評價范式的提出及演變。所謂范式(Paradigm),最初來源于自然科學領域,“是一套相互關聯的概念,它提供了人類觀察和理解特定問題和活動的框架,用于表示某個領域的共有信念、基本觀點、價值標準、具體操作規范等認識世界和理解世界的工具、精神定向工具的有機整體”[5]。教學評價范式的形成與發展不能墨守成規,當老的范式不能解決實際問題時,范式便要發生迭代。以物聯網、大數據分析、機器學習、知識圖譜為代表的智能技術全面賦能教師評價改革,引起教師教學的評價范式正在經歷從量化的范式、描述的范式、表現性的范式向數據驅動的第四代范式演化(如圖1所示)。不同范式之間既相互聯系又有所區別,擁有獨特的理論體系、實踐模式和技術框架,通過對四種評價范式在評價理念、評價內容、評價方式、評價技術和評價結果等多維度分析,發現當前教師教學的評價范式也正在從經驗決策轉型到數據驅動,從人工手動變革到機器智能。

圖1 教師教學評價范式的歷史演變
興起時期的量化測評是教師知識水平和教學能力測評研究中最早期、最成熟的測量方法,具有實施成本低廉、評分易標準化和結果分數化等優勢。量化評價范式是一種以測量為特征的結果性評價,主要有三種方式:教師專業標準制定、問卷量表測量和教師資格考試。首先,20 世紀90 年代開始,以歐美發達國家為代表紛紛推出的教師專業標準,是一種較為嚴謹、標準化的教學能力測評體系,[6]如國際IBSTPI 教師通用能力標準[7]、美國NBPTS 的專業教師教學標準[8]、澳大利亞國家教師專業標準[9]、加拿大安大略省教師能力標準[10]、歐洲教師能力和資質的共同標準[11]等。這些教師專業標準被用作提高教師教學質量、規范教師專業實踐、調控教師教學行為的一種手段,促進了世界各國師資優質均衡發展。其次,國內外很多學者根據評價目標編制出相關的教學能力評估量表,借助問卷指標的構成要素進而表達測評對象的能力水平。這種方法主要是依靠教師的自我調查報告,用于對教師的認知水平、教學技能、情感態度、行為規范等教學領域的客觀評價。何齊宗等人將鄉村小學教師教學能力劃分為專業知識、教學能力、職業品格、個人特質等四個維度。[12]王光明等人通過自制教師核心素養和能力的測評問卷研究發現教師的核心素養和能力水平整體較好,教師的思想政治素養得分最高,而研究創新能力得分最低。[13]最后,教師資格認定的測評方法主要通過紙筆測試的方式考查教師候選人的職業道德與基礎素養、教育知識與應用、教學知識與能力等三門筆試科目,并邀請學科專家對教師候選人進行標準程序化的教育教學能力面試,對能夠勝任教師職業的人員進行資格認證,以規范教師職業準入門檻。這種測評方式是一種典型的標準量化測評,它主要目的在于構建具有一定選拔和鑒別功能的、實踐性強的教育教學基礎能力和基礎素質測評體系。
教師作為教育系統內的主體人,其教學評價不能僅用問卷或標準進行衡量,因而量化的評價范式受到教育學界的廣泛批評與反對。隨后,描述評價范式開始興起與發展。發展時期的描述評價范式是一種以描述為特征的過程評價,主要通過深度訪談和課堂觀察的方式對教師教學能力及教學行為進行觀察描述,但其主觀性相對較強,過度依賴于人工編碼與統計,其測量結果難以得到大規模、常態化、便捷性使用。其中,深度訪談是一種自下而上的訪談方式:從訪談資料中形成結論和理論,通過專家與教師的田野互動,對其教學能力、教學行為和意義建構獲得解釋性理解和反饋的一種測評活動。通常由一些專家、學者對中小學教師進行深度訪談,用一些描述性的語言呈現評價結果,描述被評價者相關的教學基本信息、教學表現水平、教學行為分析等,并診斷出可能存在的教學問題。[14]這種評價方式一般用于形成性評價,用于教師的教學目標是否達成和教學問題的歸納總結。所謂的課堂觀察,是一種從國外引入的課堂教學評價的方法,專家深入一線課堂或通過教學錄像對教師的課堂教學過程進行觀察、記錄和分析。常見的課堂觀察評價框架有FFT(Framework for Teaching)[15]、FIAS(Flanders Interaction Analysis System)[16]、CLASS(Classroom Assessment Scoring System)[17]和馬扎諾模型(Marzano Model)[18]等。
專業化時期的表現性評價范式是一種基于真實課堂情境、運用評分細則對教師完成真實教學任務的過程表現或成效做出價值判斷的真實評價,具有面對真實教學情境、采集伴隨性表現數據、聚焦多元教學能力提升三大特征。與前兩種評價方式相比,表現性評價更加聚焦真實情境,運用教師成長檔案袋進行專業、過程、精準的教學診斷和反饋。但是,由于評價體系依賴于測評專家,人員、技術、精力的限制導致其很難實現大規模、動態性、智能化測評。近些年,世界各國學者和政府在教師評價、教師教育項目和教師資格認證過程中開始采用表現性評價的方案越來越多。例如,美國教師表現性評價edTPA、CAP 和PACT 項目,[19]澳大利亞職前教師表現性評價GTPA、AFGT 項目[20],加拿大安大略省教育部頒布的《教師表現性評價:技術手冊》等等。[21]上述教師教學的表現性評價在教學實踐中形成了一套完整的運作機制,體現出一些共同的特點:第一,在評價主體上,強調主體責任意識,融合多元評價力量;第二,在評價標準上,搭建精細評價框架,確保結果客觀精準;第三,在評價任務上,營造真實教學情境,采集伴隨性表現數據;第四,在評價實施上,秉承循證理念,持續促進有效教學。
智能化時期的數據驅動評價范式是一種創新的教師教學測評方法,利用智能技術采集多源異構數據,并借助技術工具分析、聚合形成可用信息數據,進而綜合、優化形成有用知識,是一種可以服務決策的綜合評價。該范式以數據為第一生產要素,其核心在于借助智能技術推動教師教學評價在評價理念、內容、形式和方法上的系統變革,旨在破解教師教學評價的智能化、科學化和精準化三大難題。然而,當前教師教學評價的研究仍然以傳統教育評價范式為主,基于數據驅動的智能評價的相關研究相對較少。近些年,也有一些研究開始采用數據驅動方式探索教師評價。例如:Saquib 等人指出,利用機器學習和自然語言處理技術評價教師的教學行為和學生的學習行為,評價結果具有較高的準確度;[22]Prieto 等人綜合分析教師眼動追蹤、教師行動軌跡、教學音頻和視頻數據,構建智能課程分析的多維度評價指標體系;[23]Ramakrishnan 等利用CNN 與Bi-LSTM 深度學習算法,自動提取課堂教學視頻中師生的面部表情與課堂對話數據,實現課堂教學中積極和消極氛圍的智能分類;[24]盧國慶等人基于人工智能引擎,通過對教師教學行為的類型、規律及差異性的自動標注,為改進教師的課堂教學及開展教研活動提供實踐案例。[25]但是,這些研究都基于單模態或雙模態對教師的認知、言語、情感、行為和生理等數據進行評價,缺少從多源異構數據融合的方式構建教師教學評價體系,難以獲得全面、科學的教師教學評價結果。
對于任何評價活動而言,至少需要考慮四個問題:為何評(Why)?評什么(What)?怎么評(How)?評何用(Use)?這些問題的回答闡述就構成了智能技術賦能教師教學評價的理論框架:核心目標、評價內容、評價技術和評價結果(如圖2 所示)。該框架以促進教師專業發展為核心目標,以教學準備、教學實施、教學效果和教學反思的全域教學數據鏈為評價內容,借助智能技術的感知、連接、計算和反饋能力對多源數據融合分析,賦能教師教學“四個評價”,構建了一個集“目標—內容—技術—結果”四位一體的多元、循環、綜合的WWHU 理論框架,為保障教師教學的智能評價實踐提供一定的理論支撐。

圖2 智能技術賦能教師教學評價的理論框架
評價理念對教師評價改革起到牽引和導向作用,旨在回答“為何評(Why)”的問題。評價理念是泛在的行動主體進行價值操作的導向,它的歷史演變過程反映了學者對教師評價理念認識的不斷深化。[26]教師教學評價的核心任務是價值導向,有什么樣的價值導向,就會生成何種評價指揮棒。課堂教學是一種培養人的活動。因而,對教師教學的評價,其根本目標不是為了獎罰教師,也不是為了判斷是否合格,而是為了促進教師專業成長,全面落實立德樹人這一根本訴求。通過對教師教學評價范式的歷史演變進行回顧與分析發現,教師教學評價理念的形成不是一蹴而就的,而是隨著時代進步和教育變革不斷迭代發展的。首先,產生時期的量化評價范式是以獎優罰劣、等級評定為評價目的,通過紙筆測試或能力標準來實現對教師教學的量化評估。其次,發展時期的描述評價范式則是以目標判斷、問題分析為評價目的,利用深度訪談或課堂觀察來實現對教師教學的定性評估。再次,專業化時期的表現性評價范式結合前兩者的優勢,以診斷教學問題、提高教師真實教學表現為評價目的,是一種收集教學全過程的真實表現檔案來實現對教師教學的混合評估。最后,智能化時期的數據驅動范式是以促進教師專業發展為評價目的,強調通過數據來發現并理解教學,以智能技術與教學評價的融合推動教學效率與效能的顯著提升,為創新人才培養提供人力保障。以服務教師專業發展為理念的評價理念,應扭轉不科學、功利性的教師評價導向,堅決克服破“五唯”的頑瘴痼疾,真正發揮測評結果的“改進”本質。
評價內容是一系列耦合教學過程和成效的數據化表征,旨在回答“評什么(What)”的問題。與傳統的經驗式評價有所區別,智能化教學評價內容多來源、異結構、標準化、伴隨式的文本、圖片、音頻、視頻等多模態數據,可實現對教師教學的全過程、全方位、精準化評價。通過分析國內外典型的教師教學標準、課堂觀察評價工具和課堂教學評價框架等,我們構建了教師教學評價內容的數據編碼體系(如表1 所示)。該編碼體系以教學過程階段為考量視角,旨在建立教育學指標與計算機數據標簽的映射關系來表征全域教師教學數據鏈,具體由四階段八維度組成:教學準備階段包括專業基礎和教學設計兩個維度;教學實施階段包括課堂氛圍、教學行為和課堂管理三個維度;教學效果階段包括課后測試和學生評教兩個維度;教學發展階段有教學改進一個維度。

表1 教師教學評價內容的數據編碼體系
評價技術是借助智能技術的感知、連接、計算、反饋等功能,實現教與學全過程的細粒度測評,旨在回答“怎么評(How)”的問題。目前,大多數教師教學的評價方法仍以定量或定性評價為主,評價技術主要包括知識測評、問卷調查、課堂觀察、人工編碼等方式。這種傳統的教師教學評價技術存在主觀判斷、依賴專家、效率低效等問題,無法做到對教學過程中產生的大量多模態數據進行自動化標注,難以為教師提供及時、個性化的教學反饋與改進信息。相比傳統的評價技術,智能評價技術更加注重對多源異構的教學證據進行融合和分析,分別從不同維度對教學過程和結果提供精準刻畫和有效反饋。多源異構數據是指由不同的用戶和不同的來源渠道產生、具有多種數據類型、描述同一主題的多模態數據集合;[27]基于多源異構數據的評價技術,具有伴隨式采集、實時化分析、智能化評價和可視化展示等優勢。具體表現在四個方面:其一,借助智能技術的感知能力,利用物聯網、區塊鏈、數字孿生、VR/AR 等大數據處理技術,通過無感、自動、實時的方式采集教師教學過程的多源異構數據,并對結構化和非結構化的數據集合進行噪聲消除、數據清洗、數據轉換、特征值提取等ETL 預處理,確保評價結果的綜合客觀。其二,借助智能技術的連接能力,將人工專家的教育學指標與計算機的數據標簽建立映射關系,將具有典型的特征向量進行聚類數據簇,構建可量化、可操作、可解釋的AI 評價模型。其核心在于連接教師教學評價相關理論與教學全過程證據,并通過多源數據簇實現對理論層面的連接。其三,借助智能技術的計算能力,根據擬合好的AI 評價模型選擇最優的機器學習算法對教師教學表現證據的一種精確性計算和分析。常見的機器學習算法包括樸素貝葉斯(Naive Bayes)、支持向量機(SVM)、K-最近鄰算法(KNN)高斯混合模型(GMM)、長短期記憶網絡(LSTM)、卷積神經網絡(CNN)、深度神經網絡(DNN)等。其四,借助智能技術的反饋功能,將測評結果應用到教學實踐中,以發揮測評結果的“以評促教”功能。反饋技術通過教師教學AI 評價系統實現教師教學能力的智能評價、教師教學圖譜的可視化、教師群體的聚類分析和教師不良教學行為的預警干預等功能,真正發揮教師教學評價結果的診斷和改進作用。
評價結果是利用智能技術應用于各類教師教學評價場景的價值體現,旨在回答“評何用(Use)”的問題。《總體方案》明確提出“四個評價”,即結果評價、過程評價、增值評價、綜合評價。[28]“四個評價”各有特色和不足,急需利用智能技術賦能四種評價類型,促進教師教學評價結果的改革與創新。首先,智能技術促進更加科學的結果評價。結果評價通常是識別教學目標的達成程度,具有目的性、經濟性和可操作性等特點。然而,長期以來形成的以“唯分數”“重優秀”為主的紙筆測試,導致傳統的結果評價通常不能科學反映出教師真實的教學過程和質量。智能技術主要通過智能教學考試機、智能教學題庫、智能教學評分等應用場景,促進更加科學的結果評價。其次,智能技術賦能更加智慧的過程評價。過程評價真實表達教師在教學全過程中的教學與發展水平,具有情景境性、診斷性、過程性等特點。傳統的過程性評價主要采用教學檔案袋的測評工具,存在主觀性強、人力成本大、難以大規模實施等問題。智能技術主要通過伴隨式數據采集、課堂情緒感知與行為分析、課堂教學活動編排、教學圖譜實時反饋與干預等應用場景,賦能更加智慧的過程評價。再次,智能技術探索更加便捷的增值評價。增值評價以教師教學進步幅度來衡量教師努力程度,具有階段性、成長性、激勵性等特點。傳統的增值評價方法基于描述統計和統計歸回的概率統計,計算出現的“產出量”與“輸入量”之差易,造成過度簡化教師教學的復雜性、沒有考慮教師個性化變量影響、缺乏促進教師發展等問題。智能技術主要通過教學大數據發展評價、個性化教學資源推薦、教師教學生涯規劃等應用場景探索更加便捷的增值評價。最后,智能技術落實更加完善的綜合評價。結果評價是從全流程、多維度的視角對教學活動做出系統性判斷,具有系統性、多元性、公正性等特點。綜合評價正在成為教學評價的主流趨勢,但也存在評價模型與數據指標難以匹配、多源異構數據類型復雜性以及評價結果客觀公正不足等問題,迫切需要借助智能技術來彌補這些不足之處。智能技術主要通過教學評價智能模型、教師綜合素質評價、教師教學數字畫像落實更加完善的綜合評價。
智能技術賦能教師教育評價改革是一項長期性、復雜性、整體性的系統工程,涉及多個層次工作的協同推進。為進一步充分發揮智能技術優勢,更加科學和有效地開展教師教學評價,未來仍需在理念引領、數據融合、平臺搭建、機制保障等四條路徑持續著力(如圖3 所示),以保證智能技術在教師教學評價中的常態化應用。

圖3 智能技術賦能教師教學評價的實踐路向圖
推進智能教育賦能教師教學評價,首要任務就是轉變傳統的教學評價理念,秉持科學的教學評價理念,扭轉不科學的教學評價導向。第一,破除教育測評“唯工具”導向,警惕“唯數據”的測評方式。金生鈜認為,以數據為本的教育測評已經成為現代化教育教學的主導方式,而這種測評方式卻無法體現教師的精神內在性,也無法預測什么是真正的“好的教學”。[29]究其原因,智能技術只是服務于教師教學評價的工具和手段,而非評價活動的核心要素和落腳點。其實踐目標是正確處理好智能技術與教學評價兩個主題之間的關系,以促進智能技術賦能教師教學高質量發展。第二,堅持人機協同教學測評,厘清人機協同評價方式下人類教師與智能機器的角色定位。具體而言,需要堅持人文關懷性與理論科學性的有機統一與雙向驅動,探索一種能夠結合專家智慧與機器智能的人機協同測評范式,通過迭代的專家標注、機器學習和輔助決策的循環過程,使教學評價指標體系能夠更加智能化地構建和實施。第三,以“促進發展”為核心理念,提升教師教學成效。智能教學評價更多體現是方法層面的變革,而其邏輯終點是要服務于教書育人的本質屬性,強調以教師的全流程教學證據為觀測點,分析教學投入及其成效,充分體現出教師教學評價以人為本的發展性向度。
海量的教學數據既是教師教學評價中最重要的“資產”,又是教與學過程和成效信息的集合。根據教師的教學全過程,可以將其分為教學準備證據、教學實施證據、教學效果證據和教學發展證據。然而,智能技術應用于教學測評的最大障礙是無法將多源異構的數據匯聚與融合,難以獲得全面、科學、精準的教師教學評價結果。因此,推進智能教育賦能教師教學評價,核心任務就是匯聚與融合這些跨場景、多類型、互通性的數據集,以為教學評價的科學性和客觀性提供數據支撐。第一,線上數據和線下數據的融合。線上數據存儲于各類在線教學平臺中,包含了教師基本信息、在線教學資源、在線學習活動、在線交互活動、教學過程性數據等。線下數據主要是線下教學活動產生的,包含了課堂教案、教學準備、教學活動設計與實施、課堂實錄、課后作業、教學反思日記等。第二,“硬數據”與“軟數據”的融合。硬數據是基于穿戴設備、傳感器、監控儀、實時錄播系統等傳感設備,將可測量和易量化的“硬數據”通過結構化形式傳到云端服務器上。軟數據利用各類智能教學平臺采集自生成、模糊性、主觀性的非結構化數據,如教學投入度、教學注意力、教學反思力、教學成效度等。第三,時域數據與空域數據的融合。時空數據屬于橫縱坐標系,時域數據依據縱向時間線上累積的時域數據,如課前準備、課中實施和課后改進等。空域數據是橫向空間面上布局的空域數據,如虛擬空間、線下教室、泛在環境等。
搭建智能教師發展平臺是教師教學評價順利開展的關鍵舉措,其落腳點在于結合智能技術感知、連接、計算和反饋的賦能表現,構建一個多層次、智能化、立體開放的教學評價生態體系。第一,面向感知階段的數據基礎層,利用軟硬設備面向實體教學課堂和虛擬教學空間兩大場域采集文本、圖像、音頻和視頻等多源異構數據,加強對數據集無感采集、自動標注、噪聲處理等關鍵技術的研發,實現針對教學大數據的自動化、全流程、大樣本、多場域采集和匯聚。第二,面向連接階段的數據模型層,重點解決的技術難題是如何采用計算機建模技術,從預處理過的測試集中抽象出具有代表性的特征向量,并發現教學評價指標與特征向量的映射關系,甚至通過對多模態數據的分類發現新的評價指標,構建智能教學評價的數據模型。第三,面向計算階段的數據分析層,以構建完善的教學評價指標為基礎,利用文本、聲音、圖像、視覺等四大AI 分析引擎,分析教師的教學設計、課堂情感、教學行為、姿態動作、位置信息、反思日記等數據觀測點。第四,面向反饋階段的數據應用層,需將教學數據分析的結果以動態可視、精準診斷、個性報告的方式智能推送給每位測評教師,以為其提供專業化教學的改進路徑和發展建議。
構建立體的評價保障機制,為智能技術賦能教學評價有序實施提供重要保證,使整個教學評價生態體系有效運轉。第一,夯實智能化教學環境“新基建”,是推動教師教學智能評價的數據底座。一方面,以物聯網、電子平板、智能傳感器、智能攝像頭、VR 眼鏡、數據中心等先進硬件為支撐,建設成具有智能、泛在、交叉、沉浸等功能特征的新型教學環境;另一方面,以云計算平臺、智能錄播系統、智能導學系統、大數據分析平臺等智能平臺為依托,構建云端一體化的數字化教師服務平臺。第二,提升教學評價主體的數字素養,是推動教師教學智能評價的人力支撐。高校專家、一線校長、學科教師等教學評價共同體不僅需要教育測量、教育評價等專業素養,還應該具備智能時代應該具備的數字素養,能夠通過開展智能技術評價相關的教師培訓、研訓活動和實踐應用,積極幫助教師提升數字素養和智能技術應用能力,促進教學大數據驅動的精準化教學。第三,構建數據標準與倫理規范,是推動教師教學智能評價的前提條件。數據標準是從頂層設計的角度制定智能技術賦能教學評價的數據標準規范,[30]包括數據治理制度、數據質量標準、數據技術手冊、數據共享機制等方面,以用于對數據定義、分類、格式、編碼等標準化管理,保障不同數據源頭之間可以做到對同樣的數據理解統一和使用統一。數據倫理規范是以符合道德準則及社會責任的方式去獲取、存儲、管理、解釋、分析、應用和銷毀數據。利用網絡安全、數據恢復、隱私加密、倫理審查等手段,加強對師生數據的隱私保護,以促進教師教學評價的專業、安全、可持續發展。
當前,我國正處于教育評價改革的關鍵時期,教師教學的智能評價是保證與提升教師教學質量的必由之徑,也是教師評價變革的核心問題。但從目前來看,教師教學評價的智能化轉型仍處于探索階段,相關理論模型和技術應用還不夠深入,智能測評體系尚未完善,需要借助智能技術推動教師教學評價在評價理念、內容、形式和方法上的系統變革。因此,本研究圍繞“教師教學智能評價”這一核心主題,構建了一個集“目標、內容、技術、結果”四位一體的多元、循環、綜合的WWHU 理論框架。未來,要推動智能技術賦能教師教學評價的實踐落地,應以秉持科學的教學評價理念為目標導向、以打通全域的教學數據鏈條為核心任務、以構建生態的教學評價體系為關鍵舉措、以完善立體的教學評價機制為重要保障,努力實現我國教師教學評價的智能化、規模化和常態化。