趙 磊,田 丹
遼寧師范大學教育學部, 遼寧 大連 116029
教育評價事關教育的變革方向,是教育發展的“指揮棒”,亦是教育活動中至關重要的一環。建設新時代高質量教育體系,實現教育現代化的宏偉目標,迫切需要深化教育評價改革,以探索、引導各級各類學校服務國家教育戰略的發展之路。2020年10月,中共中央、國務院印發了《深化新時代教育評價改革總體方案》,針對教育評價改革的實質性問題,提出了“改進結果評價,強化過程評價,探索增值評價,健全綜合評價”的目標,并特別強調“要充分利用人工智能、大數據等現代信息技術,創新評價工具,提高評價的科學性、專業性和客觀性,以綜合發揮教育評價的導向、鑒別、診斷、調控和改進作用”[1]。
智能技術賦能教育評價的本質在于借助大數據、人工智能等新型技術的優勢,重構教育評價理念與模式,改進教育評價過程與方法,提升教育評價數字化與智能化水平,并由此引發教育評價形態的變革[2]。人工智能是智能技術的核心構成,具有自主感知、理解、預測和行動等強大功能,能夠增強信息化教學過程中作為交互主體的計算機的靈活性與適應性[3],催生以“數據驅動、智能診斷和精準測評”為特征的教育評價新樣態。“2018人工智能賦能教育變革國際論壇”從“知識圖譜與科學教育”“學習者建模與學習分析”“智能教育解決方案”等方面探討了未來信息化教育評價變革的主要方向[4]。“2020全球人工智能與教育大數據大會”將“智能技術助力教育評價和在線教育過程監控”作為中國教育信息化發展的新趨勢[5]。這都表明當前人工智能賦能教育評價的研究已日漸升溫,并引起了學界的廣泛關注。那么,國際人工智能賦能教育評價的概況如何,形成了哪些研究熱點和前沿,未來需要圍繞哪些課題開展研究?該文嘗試通過對現有國際研究的文獻計量與系統性綜述,回答以上問題,以期凝聚力量集中關注該領域更有價值的課題。
該文采用文獻計量法開展研究,并通過可重復、可復制的技術與方法對樣本文獻進行定量和定性分析。一方面,在文獻檢索、評價與篩選的基礎上,利用CiteSpace可視化工具對數據庫中的相關數據進行編碼與計量,通過發表年份、載文期刊、高影響力作者、高頻關鍵詞和突現關鍵詞等信息的描述性分析,揭示國際人工智能賦能教育評價領域的研究概況、熱點與前沿,并將分析結果以知識圖譜的形式呈現;另一方面,在文獻編碼與計量的基礎上,精讀各聚類的施引文獻,并對其進行綜合性分析與解讀,系統歸納總結研究現狀,預見研究問題與趨勢,為中國人工智能賦能教育評價的研究提供參考方向。
為了盡可能地凸顯文獻的學術性與代表性,該文將研究樣本的來源確定為Web of Science數據庫的核心合集,對人工智能賦能教育評價的文獻進行梳理與篩選。截至2022年4月23日,共檢索到教育科學類英文期刊文獻505篇。通過逐篇瀏覽,剔除不相關文獻335篇(對某種智能技術及其性能評估的文獻180篇、人工智能應用于其他評估領域的文獻120篇、訪談性或報道性文獻35篇),最終獲得有效文獻170篇。
該文利用折線圖描述了樣本文獻的年度分布特征,呈現了人工智能賦能教育評價的研究態勢。如圖1所示,人工智能賦能教育評價研究始于1998年,并且文獻數量呈逐年上升趨勢,表明越來越多的學者關注此領域的研究。1998—2007年,人工智能賦能教育評價步入研究者視野,文獻數量相對較少,年均不足2篇。2008—2017年,發文量明顯提升,并呈波動上升態勢,年均約4篇,共計44篇。2018年起,文獻數量驟然提升,直至2022年4月共有118篇文獻,年均發文量超過20篇。據此可以預測,未來一段時期內該領域的文獻數量仍會持續增長。

圖1 文獻數量的年度分布
如表1所示,國際人工智能賦能教育評價的施引文獻主要來源于教育學和心理學等領域的期刊,被引文獻主要來源于教育學、心理學、社會學和計算機科學等領域的期刊,表明人工智能賦能教育評價的研究主要受到教育學、心理學、社會學和計算機科學等學科成果的影響與關注。統計顯示,共有四種期刊的施引文獻不低于10篇,分別為《計算機與教育》(Computers&Education)、《教育信息技術》(EducationandInformationTechnologies)、《IEEE學習技術匯刊》(IEEETransactionsonLearningTechnologies)和《教育技術與社會》(EducationalTechnology&Society),載文總量為64篇,約占樣本文獻的37.6%。

表1 期刊載文量分布
高產作者群體在一定程度上反映了某學科領域研究隊伍的整體情況,篩選高產作者,分析相關文獻,有助于把握某領域的研究概況[6]。研究發現,發文3篇及以上的學者共有7位,其所屬研究機構分布于美國、中國和印度等國家。如表2所示,這些學者主要對機器學習支持下的自動化評價系統、智能導師系統和文本挖掘工具進行開發與應用研究。

表2 高產作者及其研究內容
關鍵詞是論文研究主題的集中體現,亦是論文核心內容的高度概括與凝練。如果某一關鍵詞在某一領域的文獻中反復出現,那么該關鍵詞所表征的研究主題即是該領域的研究熱點[7]。因此,通過對樣本文獻的關鍵詞進行聚類分析,可在一定程度上揭示人工智能賦能教育評價研究的熱點主題。該文運用CiteSpace對文獻數據進行關鍵詞共現分析,得到如圖2所示的知識圖譜。其中,聚類模塊值Q=0.7693,表明聚類結構顯著。平均輪廓值S=0.9093,表明聚類科學合理,且令人信服。結合所有聚類信息及典型文獻的綜合分析,總結人工智能賦能教育評價的研究熱點包括以下四個方面:

圖2 關鍵詞聚類圖譜
2.4.1 機器學習技術支持下的結果評價
在大數據的支持下,利用機器學習技術賦能教育教學的結果評價,并將其與文本挖掘、情感分析和語言識別等模型有機融合,不僅能夠豐富結果評價的數據來源,拓展評價內容與指標維度,促進評價模式的智能轉型與優化升級,而且有助于學業水平和教學質量的精準測評,有效提升評價結果的客觀性、公平性和準確性。相關研究主要體現在以下四個方面:
一是基于機器學習和自然語言處理技術促進在線同伴互評。在計算機支持的協作學習(computer supported collaborative learning,CSCL)環境下,人工智能技術在很大程度上保證了同伴互評的公平性,為評價學習者的協作學習表現提供了新思路。CSCL往往要求學習者彼此之間開展同伴互評,為各自的學習同伴給予評語和評分,并保持二者的一致性。針對此問題,Rico-Juan J R等將深度神經網絡和自然語言處理技術相結合,檢測學習者同伴互評分數和對應評語的一致性,并以此為依據自動生成合理的分數[8];PinargoteOrtega M等[9]引入文本情感分析和模糊邏輯等軟計算技術(soft computing)構建了互評模型,對主觀文本的內容與互評分數進行比較,從而計算出客觀、準確的成績。這些研究均在一定程度上保證了同伴互評結果的客觀性和公平性。
二是利用自然語言處理技術和機器學習算法開發自動化評價工具,對開放性問題的答案、課程論文、研究報告和口語練習內容進行分析,提升教育文本和語言數據的應用價值。例如:Westera W等[10]應用機器學習和自然語言處理技術開發了自動論文評分系統,在保證學生論文評價精準度的同時,大幅度地減輕了教師在線教學的工作量;Zhang L S等[11]運用循環神經網絡開發了半開放式簡答題評分模型,對七道沒有固定參考答案的閱讀理解試題中1.6萬條答案文本進行自動化評分,結果發現該模型優于以往的封閉式問題評價模型;Zhai X M等[12]開發了科學教育評價模型,對學生所建立的科學模型及相關文本描述進行自動化評估,以幫助教師更加精確、高效地把握學生對科學知識的掌握情況,結果表明機器給出的分數與人類專家給出的分數高度一致;Hunte M R等[13]構建了兒童口語自動評分模型,并呼吁學界關注不同語言背景下人機語音評分的差異及語言材料對兒童復述故事能力的影響。
三是基于評教文本和學習日志全面、客觀地評價教學質量。針對MOOC學習者規模大、問卷調查耗時費力且回復率低等問題,學者進行了相應研究。例如:Tzeng J W等[14]基于深度神經網絡開發了課程滿意度評價系統,并根據MOOC學習行為日志精準評價學習者對教師教學的滿意程度;Lin Q K等[15]基于機器學習算法開發了評教文本的挖掘模型,對學生關于教師教學活動的短評內容進行觀點提取,以彌補預試問卷對教師教學過程考察不足的局限性,提高學生評教的全面性和準確性,結果表明在學生評論情感分類任務中,該模型準確率達到84.78%;Nilashi M[16]利用數據挖掘技術對MOOC學習者的學習評論進行了文本分析,并結合問卷調查探討了MOOC學習滿意度的影響因素,包括課程可理解性、課程價值性、課程信息量、課程結構、課程內容新穎度和課程教學質量等。
四是利用機器學習技術支持題庫創建與優化。例如,El-Alfy E S M等[17]構建了優化試題的溯因機器學習模型(abductive machine learning),利用溯因網絡(abductive networks)模擬考生答題,并統計考試數據,分析答題情況,自動識別題庫中信息量最大的試題子集,進而生成數量少、質量高的試題集。研究表明,該模型不僅適用于GRE、TOEFL和GMAT等國際或國家級別的考試,而且可用于學校期末考試等小型測驗。
2.4.2 基于教育數據挖掘和學習分析技術的過程評價
過程評價強調教與學的情境性和評價者與評價對象之間的交互性。通過對學習過程的實時監測和智能評估,教師能夠及時了解學習者的學習情況,發現學習問題,預測學業風險和學習績效,并為其提供即時反饋,推送個性化學習資源,實施個別化學習指導,驅動學習者自主學習,促進學習過程與評價過程的深度融合。相關研究體現在以下三個方面:
一是基于自適應的個性化學習,即對學習者的學習過程進行動態跟蹤與智能診斷,實時提供自動反饋與精準干預,促進其個性化學習。例如:Yang C W等[18]開發了智能化程序教學系統,對小學生的數學解題步驟進行自動診斷,并為學生提供即時反饋,促進其自主學習;Chen C H等[19]構建了具有即時反饋功能的交互式英語學習環境,通過智能語音識別系統對學習者口語水平進行實時監測和自動評估,為其自定步調開展口語訓練提供支持與幫助;Kose U等[20]利用人工神經網絡模型構建了智能化電子學習系統,對學習者的編程水平進行自動化評估,并根據評估結果為其提供個性化的學習材料;Huang C J等[21]基于支持向量機算法構建分類器,結合有效學習時間、與學習主題高度相關的討論信息和作業中的抄襲行為三種參數,對Moodel平臺中學習者的學習日志進行分析,以了解不同學習者的學習過程,促進其個性化學習;Bonneton-Botté N[22]開發了幼兒書寫技能的智能評價程序,用來記錄和描述幼兒使用電子筆書寫時的筆跡特征,并據此為其提供實時的個性化反饋,以改善其書寫水平。
二是基于學習分析的學業風險預測,即結合機器學習算法構建分析模型,追蹤學習者的學習行為表現,力求對其學習績效進行有效估計和準確預測,及時發現具有潛在風險的學習者,對其實施個別化干預,以達到提升學習效果、降低輟學率之目的。在預測指標方面,學者將在線學業成績的影響因素分為三類,即行為性因素、過程性因素和策略性因素。例如:Luo Y Y等[23]利用隨機森林(random forests)算法構建了學習成績的通用預測模型,指出該模型可用于不同學科和不同層次的學習群體,并通過混合教學實驗證明學習者觀看教學視頻數量與時長、提交作業次數、參與調查次數、發布討論次數、回帖次數和收到回帖的數量等行為數據是預測學業成績的重要指標; Monllaó Olivé D等[24]提出了監督學習框架,預測具有輟學風險的學習者,結果表明學習者在論壇中發表的內容、課程參與情況、測驗完成情況、課程注冊日期與開課日期等數據對學習者在線學習結果預測均有影響;Asselman A等[25]開發了融合腳手架策略的智能導師系統,一方面幫助學習者解決學習過程中的難題,另一方面對其使用腳手架的行為進行探索,以考察學習支架對學業表現的影響作用,結果表明引入使用腳手架策略的評價模型預測精度更高。在預測模型選擇方面,Mason C[26]認為準確性、敏感性、特異性和總體結果是影響預測模型性能的重要因素,并據此對邏輯回歸、概率神經網絡(PNN)和多層感知器神經網絡(MLPNN)三種算法的有效性進行了綜合比較與評估,結果表明PNN的預測效果最好;在教學干預方面,Rodríguez C M E[27]開發了智能推送系統(intelligent nudging system),預測具有輟學風險的學習者,并根據風險等級,為其自動推送相應的學習資源和干預措施。
三是融合機器學習的情緒識別,即實時監測與評估學習者情緒變化,并提供適當干預,幫助其調節負面情緒,集中精力開展學習。例如:Cabada R Z等[28]利用情緒識別技術開發了監測工具,對虛擬環境下學習者編程學習情緒進行實時評估,并將其劃分為興奮、投入、受挫和厭倦四種類型。Liu X Y等[29]基于監督學習和強化學習算法開發了智能學習系統,并結合便攜式腦電圖設備收集學習者在E-learning環境下的腦電波,以此為依據分析學習者的學業情緒,為其推送個性化學習內容,在一定程度上提升了其在線學習滿意度。
2.4.3 大數據和智能導師系統支持下的增值評價
增值評價不僅注重對學習成績進步幅度的考察,而且關注學習成績以外特定能力或狀態的監測,對評價指標與測評模型均具有較高要求。利用大數據和人工智能技術可以對學習過程中的全樣本數據進行采集,并通過較為復雜、精準的算法模型對數據集進行分析,明確各個變量和評價指標間的相互關系,從而更加方便、快捷、清晰地捕捉學習者能力或素養的最新狀態,構建學習者個性化數字畫像,把握其能力素養的差異化增值水平。
求助是學習者自我調節學習的主要策略之一。求助行為是學習者自我調節學習能力的重要表征和評價指標。基于此,Aleven V等[30]構建了學習者求助認知模型(help-seeking model),并將其嵌入智能導師系統,對學習者在智能學習環境下的求助行為進行分析與評估。研究表明,該模型不僅可以用于長時間、細粒度、大規模的數據采集,而且能夠以無干擾的伴隨方式對學習者在自然狀態下的學業表現進行自動化評估,有助于教師及時了解學習者在不同學習階段的求助行為及變化情況,并為其提供適當反饋,提升其學習質量與自我調節學習能力。與其類似,Baker R S等[31]基于數據挖掘技術開發了“逐刻學習曲線”(moment-by-moment learning curve)工具,并以大學遺傳學智能輔導系統中的學習者為研究對象,對其學習進程進行長期跟蹤,通過對不同時間段知識技能狀況的逐點標記和可視化分析,揭示學習隨時間推移發生的各種變化,進而綜合多種形式的數據編碼,生成學習者在不同學習階段的數字畫像,發掘學習者知識結構中穩步增長的因素,為其后續的學習準備(如未來幾周內)提供指導性建議。
2.4.4 人機評分一致性研究
相關研究[32]表明,人機評分一致性是智能化測評工具信效度檢驗的重要指標,具體是指機器和人類專家為測試數據分配分數的相互接近程度。如果機器能夠像人類專家一樣學習并使用經驗,那么人機評分結果將具有較高的一致性。另外,有關學者[33]對110項機器學習賦能科學教育評價的研究成果進行了元分析,結果表明科學教育中人機評分一致性的影響因素可歸納為算法模型、監督學習類型、測評方式、數據結構、學科領域和學校層次六個方面,其中算法模型和學科領域是關鍵因素。
突現詞是在一定時期內頻次變化較快的關鍵詞,亦是識別某領域研究前沿的重要指標。文章運用CiteSpace對文獻關鍵詞進行分析,并將“Minimum Duration”設置為2年,發現近年來人工智能賦能教育評價研究的突現詞為機器學習(machine learning,ML)和自然語言處理(natural language processing,NLP),如圖3所示。

圖3 人工智能賦能教育評價研究的突現詞
通過“Node Details”查看突現詞的施引文獻發現,當前人工智能賦能教育評價的研究前沿為機器學習和自然語言處理技術支持下的教育文本和語言數據的挖掘與評價研究。機器學習是人工智能的核心技術,亦是促進計算機形成人類智慧的關鍵技術,通過“指導”計算機“學習”數據,“訓練”算法,探索數據間相關性,發掘知識模式,力求使計算機模擬人類思維或實現人類學習活動。自然語言處理是人工智能領域的另一個重要研究方向,主要探究人類與計算機之間如何通過自然語言進行有效通信與交流的方法和技術,包括語音、語法、語義及語用等多維度操作。在自然語言處理模型中嵌入機器學習算法,如深度神經網絡、監督學習和集成學習等,有利于計算機自動學習教育文本的語言特征,掌握高層次的語法和語義,提取有用信息,完善自然語言的分類和理解過程,提升教育評價的合理性與準確度。目前,相關研究主要包括兩個方面:一是開發文本挖掘模型或評價工具,對質性數據進行量化分析與自動評分,主要涉及學生評教文本、開放式或半開放式問題的答案、課程論文、研究報告和口語練習等研究對象,這些在前文已有論述;二是構建“質性文本→量化數據”的轉化模型,為教育評估制度有效性的實證研究提供參考依據。例如,Rybinski K等[34]對2012—2018年間英國高等教育質量保證局(QAA)的98項高校教學質量認證報告進行了自然語言處理,并提取報告文本的語義特征加以量化編碼,然后基于編碼后的特征變量和學生對大學教學質量的等級評分,探究了高等教育質量認證機制與學生學習體驗之間的回歸關系,不僅比較了各項認證報告的有效性、指導性和參考價值,而且引發了公眾對英國大學認證制度的深刻反思。
在人工智能時代,尤其是在以ChatGPT為代表的生成式人工智能的驅動下,教育評價改革需要形成“思維比知道重要、問題比答案重要、邏輯比羅列重要”的新理念和新思路[35]。然而,中國教育評價長期存在方式簡單初級、手段傳統落后、內容片面僵化、標準單一匱乏和主體狹窄局限等諸多問題[36],側重對學習者知識記憶、理解和再現等低階認知能力的評價,缺乏對學習者問題解決、意義建構、批判性思維和創新能力等高階思維與核心素養的考查,對學習態度、情緒調節及合作探究等非認知特征評價的關注度亦不夠,并表現出“重結果、輕過程、欠發展”的失衡現象。人工智能技術為教育評價的變革發展和轉型升級賦予了新手段和新動能,更加強調學習結果的自動化、客觀性和全面性評價,同時重視高階思維、學科素養和非認知特征的過程性、增值性與綜合性評價。基于國際研究現狀,并結合國內教育評價改革的現實需求,該文從結果評價、過程評價、增值評價和其他研究等不同角度總結了人工智能賦能教育評價的研究方向、核心技術與研究方法,并對未來研究取徑進行了深刻反思,如表3所示。

表3 人工智能賦能教育評價的研究方向與研究取徑
從國際研究現狀來看,人工智能技術對教育評價的助力主要得益于教育學、心理學、社會學與計算機科學等學科領域理論、方法、技術和實踐成果的交叉滲透和融合創新。這在一定程度上表明了跨越學科邊界的科學思維可以作為推動人工智能賦能教育評價之前沿研究的內生力量,有助于智能時代教育評價研究范式的轉變、研究思路的更新和研究成果的轉化。然而,目前國內相關研究多源于教育學和教育技術學領域,跨學科研究較少,理論研究較多,設計開發和實踐應用等研究較少[37]。少數學者開展了智能教學系統與評價工具的開發研究,但均處于初步探索階段。例如:有學者提出了基于學科知識圖譜的認知評估方法,僅以知識獲取為評價導向,并未涉及學科能力和學科素養測評[38];還有學者對智能化評價系統進行了設計研究,但僅限于系統模型的構建,沒有付諸實踐應用[39]。為此,基于智能時代應有的跨學科研究意識與研究思維,逐步推動中國教育評價研究范式和研究思路的轉變,顯得尤為重要和必要。這需要加強人工智能與教育相關領域及各類人員的交流與合作,構建包括理論研究者、教學實踐者、自主學習者、教育管理者、技術開發者和學科專家在內的協同創新平臺與科研共同體,以促進人工智能核心技術與研究范式和教育科學獨特規律與評價模式的交叉融合,從而實現人工智能對教育評價科學、有效的賦能。
人工智能賦能教育評價并不是追求智能技術應用的量變,而是要以創新為引領,觸發智能技術應用的質變,推動教育理論、評價實踐和技術升級的深度融合與協同創新,并在相應體制機制的支持下促進評價理念、評價模式和評價生態的重塑與再造。目前,中國人工智能對教育評價的賦能已初顯成效,但總體上還處于探索階段,研究和實踐問題頗多。例如:過于追求數據規模與技術應用[40];數據安全隱患與算法倫理風險凸顯[41];個案研究成果顯著,但普適性和推廣性程度不高[42],等等。這些問題的共性誘因很可能在于智能時代的教育評價仍是一個新興領域,其創新程度尚未達到較高水平,并且缺乏相應的理論基礎、標準規范、方法手段、政策支持與制度保障,更沒有形成較為完善的評價體系和穩健的評價模式。為此,智能時代教育評價改革之持續且深入推進亟需以創新為引領,構建既能滿足現實教育需求、又能適應未來教育生態的智能教育評價體系,推動教育評價理論研究、技術應用和制度建設的統籌發展、動態聯動與同向同行。首先,在基礎規律層面,需要加強教育教學和人工智能的理論研究,為探索智能環境下的知識學習特征、能力形成過程、思維發展路徑、教育教學本質和教育評價理念提供理論依據,并促進智能時代新知識觀、新教學觀和新評價觀的構建與發展;其次,在教學實踐層面,需要圍繞新時代的課程標準、人才培養目標、學科特征和教育評價需求,加強智能化教學系統、學習環境和評價工具的設計、開發與應用研究,創新教與學的活動形式、評價模式及指標體系;再次,在體制機制層面,需要以提升教與學效果、效率和效益為目標指向,加強智能時代教育評價政策的頂層設計、制度建設和倫理規范研究,建立健全智能教育評價的保障機制,同時規避與防范測評技術應用的數據安全和倫理風險。