丁 念 亮
當前全球正在經歷新一輪科技革命,人工智能技術已成為推動教育變革的重要力量。教育部于2018年發布《教育信息化2.0行動計劃》,要求進一步推進人工智能教育的發展[1],表明我國教育信息化已進入一個新的階段。教育人工智能的理論探索、技術開發和生態構建將是當前和未來教育研究的重要任務。在學習評價研究領域,人工智能的介入正深刻改變著傳統學習評價模式,但學習評價模式的智能化發展之路卻充滿了諸多挑戰。
人工智能是計算機系統的一種能力,它能夠完成本質上具有人類特征的行為[2]。人工智能的概念源自Alan Turing的《計算機器與智能》,但其作為一個術語則是由麻省理工學院教授John McCarthy 等人首次提出[3]。這一術語本身具有較強的包容性,含有多個相互交叉重疊的概念,如預測分析、深度學習、機器學習、專家系統和社交機器人等。雖然人工智能是一個多維度概念,但其核心都是機器模仿人的一種或幾種智力活動[4]。
在學習評價中的人工智能可以包含上述一個或多個技術概念,這與學習評價的內涵密切相關。學習評價一般理解為對學生學習成效的評價,其內涵在歷史上也經歷了若干變化,至今仍有不同的理解。Harlen將“對學習的評價(assessment of learning)”和“為學習的評價(assessment for learning)”做了區分,認為兩者的差異歸于其各自不同的評價目的[5]。“對學習的評價”目的是終結性的,意在提供可靠的學生學業成績報告,評價過程是線性的;而“為學習的評價”本質上是形成性的、不斷重復的循環過程,目的是從持續的學習活動中提取數據、形成反饋信息并指導學生下一步的學習。與上述兩種理解不同,Dann提出了“評價即學習(assessment as learning)”的概念[6]。這種學評融合的評價理念使學生全程置于評價之中,使教、學、評三者融為一體,評價不再是教和學的附屬品,而是與教和學一起構成的相互關聯和滲透的統一體。學評融合模式的優勢是能夠對學習進行及時反饋和連續反饋,但限于傳統評價手段高昂的時間成本,這種評價模式似乎只是一種現實中難以實現的評價理想。當大數據、人工智能和區塊鏈技術日趨成熟并逐漸滲透到教育領域時,學評融合的評價模式也迎來了新的發展契機。
人工智能等信息技術與學評融合理念的結合可以實現學習與評價的同步。在過去的一二十年中,人工智能技術已經在學習評價中得到越來越廣泛的應用,如智能作文評分系統和智能教學系統等。智能學習評價利用人工智能技術對學習過程大數據進行分析并提供實時反饋。學習過程中產生的大量與學習相關的數字化信息被準確完整地記錄下來用于學習評價。這些數據既包括鼠標點擊次數和鍵盤操作情況,也涵蓋學習任務完成進度及正確率等信息。除此之外,通過精密傳感儀器甚至可以獲得學生的心率、微表情等所有個人活動信息數據。這些學習過程數據由系統預置的評價模型自動分析并生成實時反饋信息,指導進一步學習。理論上,智能學習評價能完全貫徹學評融合的評價思想,徹底改變傳統評價體系下無法連續評價和及時評價的尷尬局面。
智能學習系統從早期的智能專家系統逐漸向自適應和智適應學習系統過渡,不僅自動提供學科知識,對學習行為進行診斷評價[7],還可以憑借大數據和人工智能技術使其擁有媲美特級教師的教學能力[8]。通過基于大數據的量化自我學習算法,智能學習系統全面記錄學生學習行為,評估預設學習內容是否掌握,最終實現學習評價的動態性、全程性和綜合性[9]。信息化時代背景下,智能學習評價的內在價值決定了其存在和發展的合理性。
人工智能技術支持下的學習評價可以快速實現評價目標的個性化。依托智能學習系統,設計者利用人工智能技術對學習大數據進行分析,可以得到學生學習行為的預測信息,進而形成基于學習內容的個性化評價目標。在完成學習內容后,系統可對目標達成情況向學生和教師進行反饋,推送新的學習內容,形成新的評價目標,如此周而復始,引導每個學生完成預定的學習內容。由于學生學習能力存在個體差異,學生的評價目標和學習進度是不一樣的。這與傳統學校教育中的評價體制相異,因而目前無法將人工智能學習系統大規模應用到學校教學中,只能較多滿足自主學習者的需要。
傳統的紙筆評價方式只能進行數據抽樣或階段性測評,獲取學習數據,完成評價和反饋。這種評價方式的不足在于評價過程的中斷。學習評價的理想狀態就是無間斷的全程評價。但全程評價方式會產生巨量數據,傳統數據分析手段無法快速處理,當然也無法進行全程記錄、分析和評價。人工智能技術可以全程記錄學習行為數據,并依據評價模型實現即時性全程性評價。除了學習行為之外,學生的心理狀態、運動情況、休息情況等都可以通過智能便攜設備進行全程記錄和分析評價。
學習評價系統能夠準確客觀地診斷學習表現,幫助師生把握課程目標和教學策略[10]。學習過程大數據是學習行為的數字化體現,排除了人工打分的個人偏好、隨意和誤差等不利因素。數據記錄精確即時,在評價模型成熟可靠的前提下,評價效果必然是客觀和精確的。因此,開發出可靠的評價模型是評價效果的重要保障。但評價模型的開發并非易事,需要融合先進的信息技術和科學的評價理念,經過專業人員通力合作反復測試才能完成。
紙筆評價方式常以階段性評價為主,評價內容圍繞本階段的學習表現,可以包括單元測試、課堂表現、作業成績等主要學習行為。但除此以外的學生素質評價則較為主觀和模糊,缺乏客觀精確的統計數據作為依據。造成這種困難的原因在于缺少一種可以容納全部可測項目的評價工具,僅依靠傳統人力無法完成如此龐大的數據處理工作。人工智能技術的介入使學生綜合素質評價成為可能。綜合素質可以進行測評項目分解,并向人工智能評價系統無限添加,對數據進行自動記錄、分析和匯總,最終得出評價結果和反饋建議。
智能評價系統往往與智能學習系統整合,成為智能學習系統的一部分,傳統評價中的教師評價、學生自評和互評部分被人工智能取代,智能評價系統扮演了教師和學生在傳統評價過程中的角色。原本由教育者和受教育者共同完成的教學評價活動,僅由人工智能便可完成[11],原有的評價參與者被排除在外。通過所謂的算法“黑匣子”,基于深度學習的人工智能所構建的評價系統超出了人類監控能力,導致無法對智能評價系統的準確性、客觀性和公正性做出科學評判。人類有可能從最初的系統設計者,轉變為學習評價的旁觀者;而人工智能評價系統則可能成為教育的隱形操控者。學習評價活動成為智能評價系統獨立掌控的壟斷事務,普通教師對學生的評價和學生的自評互評,因為過于“主觀”或者過于繁瑣而無奈讓位于高效的智能評價。但智能評價系統的設計往往無法完全反映教育目標,如同情心、正義感、批判性思維能力等素質指標。這種狹隘的智能評價系統一旦取代人類成為學習的評價者,教育將面臨被異化的風險。
智能學習系統往往內置評價系統,在評價系統研發和測試階段往往需要教師的參與,把符合時代要求的評價思想融入評價模型,由信息技術專家將教學評價思想轉化為一串串代碼,最終實現學生學習行為的智能化評價。由此帶來的一個重要轉變就是教師職能的弱化。正常使用的智能評價系統已經具備了全自動的評價流程,不需要教師的介入,教師失去話語權,師生關系可能會逐漸淡化。雖然人機交互的自主學習模式已逐漸成為學校教育的重要輔助力量,但人工智能技術目前還不能完全模擬教師在教育中的情感職能。師生之間和生生之間融洽的人際關系對學生未來成長至關重要,去教師化的智能評價系統很難實現如人類之間的直接情感交流,由此可能導致學生的情感缺失和性格障礙,不利于學生的人際交往能力發展[12]。
新時期我國陸續發布的重大教育政策已經明確了綜合素質的重要性。國家近幾年大力推進的新高考改革方案加強了對學生核心價值和綜合能力的考核,并將綜合素質評價作為高考錄取的重要參考。2020年10月,中共中央、國務院印發了《深化新時代教育評價改革總體方案》,要求“改革學生評價,促進德智體美勞全面發展”[13],探索通過信息化等手段記錄學生品行等日常表現,并納入學生綜合素質評價。這些都表明綜合素質評價日益凸顯的重要性和創新評價手段的緊迫性。但目前的評價手段多為主觀評價,難以保證綜合素質評價結果的客觀性和準確性。同時,利用過程數據進行的綜合素質評價也面臨挑戰。首先,人們對綜合素質的理解和界定存在一定的差異,對學習者的技能、信念、毅力、情感、態度等特質尚缺乏清晰的界定和明確的維度,因而難以準確測量和評估。其次,在綜合素質評價建模過程中,存在大量無標注數據。缺乏語義標簽的數據很難用于模型的構建、訓練和完善[14]。造成這一困難的原因在于相關實證研究的不足。墨爾本大學教育學院評價研究中心的桑德拉等認為,缺乏有效的實證研究數據,就無法定義學習過程中學生的各項素質,難以實現學習評價的效度、效用和解釋力[15]。可見,對學習過程要素進行明確的定義是構建測量模型的關鍵步驟,而要對學習過程所涉及要素進行確切定義,只能依靠大量的實證研究。
傳統的學習評價目標較為單一,數據采集方式也較為簡單,評價內容主要涉及課程學習本身,較少大規模采集學生的行為、情感或其他個人信息。因此,在傳統評價體系中,學生個人隱私泄露風險和潛在危害較小。但隨著人工智能技術的介入,學生行為數據的實時采集成為現實。學生的日常學習行為,包括學習平臺登錄次數、使用資源情況、在線學習時長、作業提交情況等都被記錄在案。通過攝像頭和智能便攜設備,學生的地理位置、社交偏好、表情變化、運動和睡眠時長等私密性數據也可以實時記錄和查詢。在符合倫理并遵守法律的前提下合理使用這些數據,可以極大地提高學習評價的準確性和客觀性,甚至可以幫助教師描繪出學生學習的數字全景圖,為客觀評價提供可靠的數據支持。但學生隱私數據實時采集往往伴隨著倫理和法律風險。人工智能技術使學生可以被當作實驗對象時時處處暴露在放大鏡下等待評判,這種評價系統忽略了學生作為人的基本權利,違背了教育評價的本意。沒有約束的智能評價系統極有可能淪為“課堂間諜”[16],對學生的個人隱私構成極大威脅。許多智能系統基于云端建設,更增加了隱私數據濫用的潛在風險。
傳統的學習評價方式以終結性評價為主,簡單易行,成本較低。即使采用形成性評價,教師也只是把評價過程粗略劃分為幾個大的類別,數據采集量不大,對數據處理能力要求不高。因此,傳統評價方式投入的人工和經濟成本相對較低。與之相反,智能評價系統開發費用較高,且管理運行也需要較高的技術要求和成本投入。構建大規模智能評價系統的成本難以準確估算,但通過其他大型人工智能項目動輒數億美元的巨大投入來看,構建和維護一個智能學習評價系統的費用也會相當高昂[2]。桑德拉等指出,構建學習評價系統的測量模型成本較高,不僅耗時費力而且需要技術和設備支持,小規模應用時經濟性也很差[15]。同時,學習行為數據采集需要硬件設施的支持才能實現。傳統學校平臺的數據采集功能十分有限,無法收集到學生平臺之外的學習信息。智能便攜設備盡管可以滿足這一要求,但人人佩戴目前尚不現實。
智能評價系統應該體現正確的教育價值判斷,否則人工智能技術不僅無助于學習評價,反而會造成嚴重誤導。在現有的智能評價系統尚不能對學生情感和綜合素質等方面做出整體評價的情況下,人工評價仍不可缺席。智能評價和人工評價應該形成互補關系,共同服務于學習評價。教師不能一味地將自己的評價者角色讓位于日漸強大的人工智能,也不可完全否定人工智能在重復性技能型工作方面的客觀性和專業性。學習評價不僅僅是對學習成績和行為數據的統計和比較,還應涵蓋復雜的思維活動和細膩的情感活動。目前即使最先進的人工智能系統也無法完全模擬和評價人類的情緒、意志和語言表達。人類評價者的參與可以關照學生的情商和語商等多個評價維度[14],防止評價維度單一而導致的片面性。同時,學習者不論是作為獨立的學習個體還是相互聯系的集體成員,學習評價都應該包含學習者本人的自我評價和同伴互評,而不應當使學習評價成為智能學習系統的壟斷行為。
科學的評價模型是有效實施學習評價的關鍵一環,也是目前大數據時代亟待攻克的難題。學界應當加強與商界的合作,開發大規模適用的智能學習評價系統。因為大數據本身并不能自動呈現教育的真相,應當把大數據變成可理解的小數據,才能對學習狀況進行科學測量和評價,進而提供合理反饋,提高學習質量。這需要本學科教師、評價研究者、人工智能和大數據工程師的有效協作和努力。因此在一定意義上,科學的評價模型是智能化學習評價的核心與關鍵[17]。當把學習測量和學習評價分開看待時,它們的再次結合就變得不那么自然而然,而是需要使預先建構的測量模型與評價內容相適應,即測量模型須涵蓋評價內容且體現評價者的價值判斷。這就要求評價者明確學習評價的價值導向,在構建測量模型時確定“影響學習評價質量的關鍵性假設,并對其逐一檢驗”[15]。
學習評價系統中的數據采集內容能夠包括學生全部學習行為??纱┐髟O備、人臉識別、智慧校園監控等大量數據采集設備的應用使學生時時刻刻都處在“第三只眼”的注視之下,毫無隱私可言。所收集到的數據如何管理一直是嚴肅的倫理問題。人工智能在教育應用中的倫理風險主要在于設計開發和實踐應用兩個環節[11]。學習評價系統的設計人員在開發之初除了要有明確的教育價值理念指導之外,還要有嚴格的倫理規范作為約束。因此,制定符合社會倫理和技術倫理的制度規約是對學生學習行為數據進行管理、使用和保護的制度保障。在有效的倫理框架下開展學習行為評價,才能最大限度地保障學生權利,促進學生健康發展。在具體評價過程中,評價者能否遵守評價倫理制度需要由政策和法規加以強制約束。評價行為必須在法規框架內進行,違反倫理法規,侵犯、泄露、傳播學生隱私的行為應受到法律制裁。學生提出質疑或對隱私有爭議時,應該首先暫停數據采集,在獲得學生或家長同意之后,才能繼續使用。學生、家長和學校共同擁有學習數據的所有權和使用權。只有制定完整的隱私和倫理制度的具體規約,智能學習評價才能在更大規模上健康發展。
在我國現行的教育體制下,由政府推動的自上而下的評價模式改革更容易取得成效。除了加大研發和推廣的投入以外,政府應順應智能時代的發展趨勢,繼續強化政策導向,具體落實教育評價改革。事實上,我國已經發布了若干政策文件,大力推動人工智能學習評價的落實。其中,2020年發布的《深化新時代教育評價改革總體方案》就指明了落實教育評價改革的創新路徑,強調充分利用“人工智能、大數據等現代信息技術,探索開展學生各年級學習情況全過程縱向評價、德智體美勞全要素橫向評價”,“提高教育評價的科學性、專業性、客觀性”[13]。以此為導向,教育主管部門可結合人工智能、大數據和區塊鏈技術嘗試建立區域性乃至全國性的權威智能評價系統,向所有學校開放,統一管理。這樣可以降低小規模開發和應用造成的重復建設和資源浪費;也可以避免由于學校之間數據格式和評價標準的不統一,而無法橫向比較的弊端。
綜上所述,智能學習評價是新時期教育評價改革的重要組成部分,是智能時代 “識才”“育才”“選才”的重要手段。智能學習評價系統構建過程中,探索智能評價建模方法和關鍵技術、正確處理智能評價和人工評價的關系、制定保護隱私合乎倫理的政策法規、注重頂層設計和基層建設的結合,既是實現智能學習評價的保證,也是教育改革的要求。