999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

場景化評價:技術賦能新時代教育評價改革的新趨向

2025-02-27 00:00:00郭炯鄒佳人
中國遠程教育 2025年1期

摘 要:技術賦能教育評價不僅是縱深推進教育評價改革的關鍵途徑和重要突破口,而且是加快推動教育高質量發展的必然選擇。技術賦能教育評價可分為四個發展階段,每一階段均展現出各自顯著的特征,也體現了技術賦能教育評價在實施過程中所面臨的現實困境,因此,場景化評價應是當前智能化評價階段的新趨向。基于對場景化評價內涵和特征的闡述,研究者認為可以將“證據中心設計”(Evidence Centered Design,ECD)理論引入場景化評價中,借鑒學生模型、證據模型、任務模型三個核心要素構建場景化評價設計框架。本研究最后以師范生智能教育素養測評為例,提出了由學習者模型、真實性任務模型、過程流數據模型、評價分析模型四個相互銜接的階段構成的場景化評價設計路徑,旨在為智能化評價的設計與實施提供支撐和參考。

關鍵詞:技術賦能;智能化評價;場景化評價;證據中心設計;設計路徑

中圖分類號:G521" "文獻標識碼:A" "文章編號:1009-458x(2025)1-0071-15

教育評價改革已逐步走向數字化、智能化發展階段,技術賦能教育評價已成為縱深推進教育評價改革的關鍵途徑和重要突破口。發揮智能技術優化教育評價結構,創新教育評價手段的支撐作用,可以讓教育評價改革牽引育人方式轉變,使教育評價回歸促進學生全面發展本位。然而,目前技術賦能教育評價仍面臨學生復雜特征難以表征、評價工具的發展瓶頸難以突破、評價結果的人機互信危機難以規避等評價能力不足的現實困境。場景化評價作為一種能夠評估學生在真實性場景中的行為表現的評價方法,不僅能使評價更具場景真實性、智能動態性、融合連接性和內隱聯結性,還能更全面、更真實地反映學生的能力與素養,從而提供更準確、更具指導意義的評價結果,促進學生全面發展。本研究將回顧技術賦能教育評價的發展階段,并對場景化評價的內涵、特征及其設計路徑進行深入探索,以期為當下技術賦能教育評價改革提供新的思路。

一、技術賦能教育評價的發展階段

技術賦能教育評價經歷了從口頭表達、實際操作到傳統紙筆作答評價模式再到計算機化評價模式的兩次大變革。第一次變革得益于造紙技術和印刷技術的發明與發展,第二次變革以計算機和網絡等技術的迅猛發展與迅速普及為契機,變革速度和影響規模遠超以往(檀慧玲 amp; 王玥, 2023)。技術賦能教育評價發展可以劃分為四個階段,即第一階段計算機化測驗、第二階段計算機自適應測試、第三階段基于數據的持續性動態測試和第四階段智能化評價(Bunderson et al., 1988)。

(一)第一階段計算機化測驗

計算機化測驗的出現和普及得益于試題自動抽取、答題時間監控、自動化評分、過程輸入輸出等計算機控制管理技術以及大容量數據存儲能力、對多項選擇題與簡答題的自動化處理、網絡通信等技術的快速發展。計算機化測驗通常以經典測試理論為理論基礎,通過包含一系列測量量表、測試和練習的題庫系統來實現,廣泛應用于學業測評(如會考、課程考試等)(張敏強, 1999),或用于診斷評估,如挪威的數字素養診斷測試以及匈牙利一至六年級的閱讀、數學和科學等領域的全國性診斷評估系統(Redecker amp; Johannessen, 2013),能夠對學生學習效果、學生在某一學科領域的基礎知識和基本技能等進行評估。

(二)第二階段計算機自適應測試

隨著計算機運行速度和計算能力的顯著提升,以及心理測量理論和自適應算法技術的不斷發展,基于項目反應理論的計算機自適應測試應運而生。計算機自適應測試借助更復雜的評價量表,根據學生的實時測試表現,動態調整后續題目的難度、內容或時間安排,使用標準化考試系統、語言技能測評系統、學科能力與素養測評系統等大型題庫系統,應用于能力測試(如語言測試、GRE General Test和師范生教育技術能力測評等)(張寶鈞, 2003; 韓曉玲, 2022, pp.231-232)、技能鑒定(如美國軍隊職業傾向測驗等)、資格考試(如美國護士執照測驗、注冊會計師測試等)(張華華 amp; 程瑩, 2005)、學科素養(如數學能力和素養、地理核心素養、美術素養等)等多樣化評價場景(林子值 amp; 胡典順, 2021; 姚澤陽, 2022, p.121; 李健 等, 2023),能夠較精確地評估學生真實的學習效果、基礎知識和基本技能等。

(三)第三階段基于數據的持續性動態測試

21世紀初,教育領域經歷了一場由數據挖掘與分析、學習分析、行為跟蹤等技術驅動的變革(Redecker et al., 2012),同時評價范式也轉變為強調數據驅動的個性化指導和過程性評價,技術進步與評價范式轉變共同促進教育評價進入第三階段。基于數據的持續性動態測試依據有效的量表構造規范、個性化的學習者檔案,通過對學生在數字化學習環境中的學習過程進行持續但不引人注目的監測,動態評估其學習軌跡和能力變化,從而能夠有效反映學生的知識結構和學習特點,因此被廣泛應用于學生綜合素質評價、學習預警提示、課程和教學策略優化等多樣化評價場景(羅海風 等, 2024),不僅能夠精準評價學生群體或個體的基礎知識與基本技能,還能揭示學生知識結構以及學習時間、學習習慣、學習進度等學習行為特征(趙慧臣, 2017)。

(四)第四階段智能化評價

近年來,智能技術的快速進步為教育評價實現數字化、智能化發展提供了堅實的技術支持。第四階段智能化評價以專家知識模型和深度學習理論為指導(Ouyang et al., 2023),利用機器學習、深度學習和知識推理等技術,構建知識庫和推理程序,對學生靜態的學習檔案和動態的解決復雜任務的表現進行智能評分和深度解釋,從而為學生提供專家化、個性化的評價和反饋方案。智能化評價正在引領教育評價進入一個嶄新的階段,依托教育機器人、智能輔導系統和可穿戴智能設備等智能教學工具與平臺(吳砥 等, 2023),處理和分析包括文本、音頻、視頻以及來自智能設備的數據在內的多模態數據,為深入分析學生行為特征提供了強有力的支撐。智能化評價使智能輔導和決策反饋成為可能,通過自動化學習評估、個性化學習路徑規劃和個性化學習資源推薦等,評估學生的知識理解深度、個性品質(如興趣、動機等),以及心理健康(如焦慮、抑郁等)等(駱方 等, 2021)。

綜合上述分析,可以梳理并總結出技術賦能教育評價的四個發展階段(如表1所示),每個發展階段都是在前一發展階段的基礎上,通過技術創新、理論深化和方法優化,不斷進行迭代和升級。第一階段計算機化測驗和第二階段計算機自適應測試的核心是基于計算機對學生現有基礎知識和基本技能的顯性測試,是技術賦能教育評價從“替代”傳統紙筆測驗到“增強”測試程序效率和測試成績信效度的發展階段,強調評價的甄別與診斷功能;第三階段基于數據的持續性動態測試和第四階段智能化評價的核心在于運用數字化評價工具,以前所未有的方式重新構思和設計評價任務,對學生在學習過程中所展現的知識結構、行為特征、知識理解以及非認知能力等方面內容進行全面監測與評估,強調評價的診斷與預測功能。

二、技術賦能教育評價的現實困境

近年來,國際測評和教育評價改革實踐強調技術賦能推動學生核心素養發展與評價,以引導教育教學改革。但由于核心素養具有綜合性、復雜性和內隱性的特征,目前還難以對其進行準確和客觀的評價(龍海濤, 2021)。而且,現有技術手段在表征學生復雜特征、突破評價工具發展瓶頸、規避人機互信危機等方面仍面臨評價能力不足的困境,未能有效地對學生關鍵能力與素養進行評價,也無法滿足創新人才培養和選拔需求,制約著教育評價改革的縱深推進。

(一)學生復雜特征難以表征

核心素養評價要求全面深入地表征學生復雜特征,但現有評價模式側重單次、單一知識點的評價,評價結果只能提供對學生特征的簡單化表征,無法全面反映學生能力與素養。其中存在的主要問題有二。一是缺少人機交互的表現性任務。盡管我們普及了在線測試,但多是將傳統紙筆測試以電子化形式“搬運”到在線平臺,偏向于知識傳遞與獲得的標準化任務,缺乏動態環境下對能力與素養的評估,限制了學生展現自我的機會。二是評價標準難以調整。評價標準仍以知識記憶和理解為主(曹培杰 amp; 王阿習, 2023),缺少對問題解決、批判性思維、創造力等素養指標的評價,適用性和可操作性不強,導致評價難以捕捉學生復雜特征,亦難以真實反映學生能力與素養發展情況。

(二)評價工具的發展瓶頸難以突破

為實現全面評價學生的核心素養,評價工具需要超越對知識記憶和理解的評價范疇,轉向通過模擬真實性場景下的評價任務,以獲取學生能力與素養評價的多維度信息。然而,這一轉變面臨技術局限、數據利用問題和場景適應性不足三個發展瓶頸:一是技術支持的不充分使得實時反饋和持續評估難以實施,在很大程度上限制了教學、學習與評價的一體化遷移至多樣化學習環境中,進而影響了教學精準化、學習個性化和評價智能化的實現;二是多模型評價數據利用問題,包括數據采集的局限性,難以精準捕捉表現性和非結構化學習任務中的復雜、動態和多維數據,導致許多評價研究僅限于特定情境,同時數據運用方法尚未成熟,在構建評價模型時需要克服多模態數據之間的同步性、互補性、冗余性以及特征提取和整合等一系列問題(駱方 等, 2021);三是評價工具的場景適應性不足,難以靈活應對復雜多變的教育環境和場景,特別是在資源有限和數字化基礎設施不健全的情況下,無法在不同場景間實現有效應用,進而造成評價與實踐的分離。

(三)評價結果的人機互信危機難以規避

評價模型的可解釋性是指其產生的評價結果能夠被人們理解和接受的程度。隨著深度學習和機器學習技術的發展,可解釋性評價模型主要分為三類:獨立于模型的方法(如LIME、SHAP等),依賴于模型的方法(如線性回歸、決策樹等),以及因果解釋方法(如貝葉斯圖模型等)(趙延玉 等, 2023)。盡管人工智能可解釋性評價模型的準確性顯著提升,但仍存在精度不穩定、教育場景適應能力弱、單一模型分析不足等問題(Ma, 2024),導致人機信任危機,影響教育評價結果的公平性和科學性,容易誤導教育決策。究其根本:一是源于算法偏見,評價結果可能嵌入技術構建者的價值觀,導致價值觀窄化;二是由于認知決策偏差,現有技術未能完全模擬人類思維和缺乏情感理解,加劇了智能機器決策過程中的不確定性;三是因為缺乏對可解釋性評價模型效度的驗證,預測準確性驗證相對較多,而對可解釋性的驗證相對缺乏。

三、技術賦能場景化評價的內涵與特征

當前國際主流的教育評價標準(如PISA 2025等)正逐步重視將真實性測評任務鑲嵌于含有豐富數字化學習資源的真實性場景中,評價學生在完成真實性任務時的學習過程(首新 等, 2024)。與此同時,在元宇宙、生成式人工智能等智能技術推動下,以技術和數據為基礎,聯動多方面場景,一個萬物互聯、智能感知、虛實融合的真實性評價場景正在逐步形成。顯然,新一代智能化評價將展現出新的可能和樣態——場景化評價,它不僅展現了教育評價的未來數字空間樣態,而且強調了場景化的“任務”“聯系”與“應用”,目的是全面捕捉和評價學生在真實性場景中的行為表現。

(一)場景化評價的內涵

場景化評價通過整合虛擬現實、增強現實、元宇宙、生成式人工智能等多種智能技術,將與學生評價緊密相關的人物、時間、空間、事件和內容等具象或抽象事物轉化為虛實融合、深度沉浸、交互性強的真實性場景,為學生提供逼真的場景融合互動,圍繞所要評價的學生能力與素養維度,將評價問題轉化為一系列真實性任務,以“埋點”跟蹤的方式對學生解決任務過程中的行為表現過程流數據進行實時分析和及時反饋,從而捕捉、分析和推斷學生問題解決、批判性思維、創造力等能力與素養水平,促進學生全面發展(顧小清, 2024; Mutweleli et al., 2024)。情境學習理論、赫爾曼·維特金(Witkin, H.)的場依存性理論、證據中心設計理論等多樣化理論是設計場景化評價的潛在理論和方法,能夠為真實性場景建構、評價活動體系設計、依據數據證據推理等提供理論基礎和有效指導(袁建林 amp; 劉紅云, 2017; Chetia, 2019)。場景化評價將使評價如同“顯微鏡”般深度洞察學生現有能力與素養,又如同“望遠鏡”般長遠預見學生的未來潛力和發展趨勢(楊現民 等, 2017),促進學生個體發展,強調評價的預測與發展功能。

(二)場景化評價的特征

1. 場景真實性

格蘭特·威金斯(Wiggins, G.)等強調,真實性任務的設計應包含現實情境,即該任務鑲嵌的場景要盡可能地貼近現實世界中遇到的機會和困難(格蘭特·威金斯 amp; 杰伊·麥克泰格, 2017, p.87)。可見,學生需要完成的真實性任務,包括任務的性質和要求等,必須基于真實性場景。真實性場景作為真實性任務的實踐場域,包括時空背景和數字化資源等,需要貼近現實,評價目標被精心融入場景中,從而引導學生解決現實和未來生活問題,促進能力與素養的逐層深化。同時,通過創設涉及現實世界中經濟、社會和環境等方面的人機交互真實性任務,不僅能夠測試學生的知識記憶和理解,更能助推學生將知識和技能遷移到現實生活場景中,實現對學生能力與素養的直接評價,并發揮場景化評價在“主動育人”方面的積極作用。

2. 智能動態性

智能動態性體現為通過高度智能化和動態適應能力,使場景化評價能夠根據學生學習進度和實時反饋,靈活調整真實性場景和個性化評價方案。具體表現在:一方面,真實性場景可動態調整(袁凡 等, 2022),通過利用追蹤技術、動態模擬技術和事件觸發器,實時接收、傳輸和整合來自現實世界的變化與數據,智能化調整場景設置,能夠增強場景的真實感知、動態互動和智能適應,使評價工具與教育實踐、教育場景、教育環境相銜接,從而為學生提供最適宜的真實性場景;另一方面,個性化評價方案的智能適配,借助智能監測和多模態學習情感計算等技術,持續跟蹤分析學生的認知過程、自我調節過程、情感狀態變化等全過程學習行為表現,進而向學生提供智能化、個性化的學習資源和學習策略等服務與支持,以提升評價的精確度。

3. 融合連接性

場景化評價環境依托“AI+真實性場景”的教學評一體化數字空間,不僅消除了傳統教育場景的壁壘,還實現了學校、社區、場館、工作等多場景聯動、數據互通共享以及技術、教學、評價的深度融合。一是人機融合互動。利用可穿戴和嵌入式傳感器等智能設備,提供豐富的學生體驗視角,使學生能夠無意識地、自然地融入虛實融合的真實性場景中,并在多個場景間自由切換,從而全面捕捉和記錄學生學習行為表現。二是角色與場景的融合。真實性場景提供情感沉浸體驗,不僅能夠充分調動學生的多感官參與,還能增強人與人之間以及人與場景之間的價值觀傳遞,有效促進學生在真實性場景中實現情感與認知的深度互動。三是評價過程與評價結果的緊密結合。通過應用貝葉斯知識追蹤模型(Bayesian Knowledge Tracing,BKT)、知識情境感知的深度知識追蹤模型(Knowledge Context-Aware Deep Knowledge Tracing,KCA-DKT)等自適應學習技術,能夠持續監測和診斷學生與真實性任務的互動情況,為教師和學生提供實時且有意義的反饋信息,有效彌合教學、學習與評價之間的鴻溝。

4. 內隱聯結性

場景化評價的內隱聯結性體現在其以一種不易被學生察覺的方式,持續且穩定地對學生在真實性場景中展現的、難以直接觀測到的個人能力與素養進行評估,并能夠預測學生的未來潛力和發展趨勢,為學生全面成長提供堅實的支撐。場景化評價通過與教學活動的無縫對接,使得評價過程自然地融入真實性場景之中,學生幾乎不會察覺到評價的存在,確保了教學與評價的同步性和連貫性。在真實性任務的完成過程中,學生能夠獲得持續的學習支持和即時反饋,這將幫助他們超越現有能力,向更高層次發展。同時,借助腦機交互和信號傳遞等技術,場景化評價能精確捕捉并映射學生實時的思維活動、意識細胞功能變化、神經元動態突變以及認知過程進展(賈韜 等, 2022),從而揭示他們在創新思維、問題解決、溝通協作和價值觀形成等方面的發展情況。

四、場景化評價的設計思路

(一)以ECD理論為支撐的場景化評價設計框架

1. ECD理論框架

證據中心設計(Evidence Centered Design,ECD)理論是一種依據學習證據進行推理的評價設計方法,基于學習者在完成評估任務時所展現的學習證據來推斷其知識、能力與素養水平(馮翠典, 2012)。在ECD理論概念評價框架的基礎上(Mislevy et al., 2003),有學者進一步強調了學生模型、證據模型和任務模型這三個核心要素(Shute, 2011),它們構成了一個相互獨立又相互作用的閉環結構。學生模型也被稱為能力模型,回答“評價目標”的問題,即定義希望評價學習者哪些知識、技能和素養等;證據模型則回答“如何評價”的問題,即確定評分規則和構建評價分析模型,實現對數據證據的提取和分析;任務模型回答“用什么評價”的問題,即如何通過真實性任務誘導學習者產生行為表現,以支持證據模型所需要獲得的各種數據證據。概言之,ECD理論的核心內涵有三:一是通過構建真實性問題引發學習者產生行為表現;二是依據學習者評價目標收集行為表現過程中產生的可靠數據證據;三是利用評價分析模型對數據證據進行結果推斷。

目前,ECD理論在PISA測試、GRE測試、NAEP等大型教育評價項目,以及在數字素養、核心素養等表現性評價中,展現了其強大的功能和廣闊的應用前景。場景化評價通過模擬真實性場景,對學習者的能力與素養進行評估,與ECD理論的評價過程具有高度一致性:二者都強調明確評價目標、設計真實性任務、收集數據證據以及進行評價結果推斷分析。因此,場景化評價的設計可以借鑒ECD理論來指導其設計與實施。

2. 基于ECD理論的場景化評價設計框架

將ECD理論框架中的學生模型、證據模型和任務模型三個核心要素,作為構建場景化評價設計框架的基礎,能夠為評價過程中的各個環節提供理論支撐和實踐指導,從而形成如圖1所示的一個完整的場景化評價設計框架。首先,評價目標是整個評價活動的起點和依據,根據評價目標對學生在完成真實性任務過程中所需達成的能力與素養進行具體化和標準化處理,構建學生能力評價框架;其次,在評價框架的指導下確定每個評價維度對應的數據證據及其評分標準;再次,創設評價真實性場景,設計引發數據證據產生的真實性任務,并提供任務學習支架;從次,收集學生完成真實性任務過程中產生的過程流數據,以及從過程流數據中提取數據證據并構建評價分析模型;最后,根據評價結果進行反饋和調整。可以看出,與常規教育評價相比,基于ECD理論的場景化評價設計實現了教育評價過程從“片面割裂”到“綜合統整”的轉變。這種轉變要求在設計教什么和如何教之前,首要考慮如何開展評價,確保在課程或一個單元的設計初始階段,能夠依據數據證據將評價目標具體化和標準化,而不是接近尾聲時制定評價方案。

(二)場景化評價的設計路徑

通過對場景化評價內涵、特征以及設計框架的闡釋和分析,將場景化評價的設計路徑劃分為構建學習者模型、真實性任務模型、過程流數據模型和評價分析模型,四個環節既相互獨立又相互作用,共同構成閉環的評價服務支撐體系,從而確保教學評一體化的連貫性與完整性,有助于深入挖掘和分析學生的行為表現。以“師范生智能教育素養測評”為例,從技術應用與實踐層面出發,對上述四個環節的設計路徑進行呈現,形成了如圖2所示的場景化評價的設計路徑。

1. 學習者模型:明確學生評價指標體系,構建學生評價觀測指標框架

學習者模型旨在確立評價目標和描述學生能力與素養,通過明確學生評價指標體系和構建學生評價觀測指標框架兩個環節,確保教育工作者能夠捕捉和觀察到更為精細、微觀的學生學習行為表現。

為了精準、客觀和科學地評價學生的能力與素養,首先需要明確學生評價指標,深入分析所要評價的學生能力與素養的內涵與特征,并有機整合權威評價指標體系/框架,進行指標的系統提取和優化,最終形成學生評價指標體系的一級和二級維度(朱莎 等, 2023)。在此基礎上,為了構建一個更精準、可操作的學生評價觀測指標框架,還需要深入分析評價指標體系的一級和二級維度,明確各個評價維度與學生行為之間的具體聯系和表現特征,并據此分別確立每個評價維度的觀測指標、具體行為表現及其相對應的數據采集類型。在“師范生智能教育素養測評”的場景化評價中,以已有的“師范生智能教育素養框架”為基礎(郝建江, 2022, pp.204-207),將其3個一級維度和9個二級維度作為師范生智能教育素養評價指標體系,并分別確立35個觀測指標、具體行為表現及所對應的數據采集類型,形成師范生智能教育素養評價觀測指標框架。

2. 真實性任務模型:創建真實性場景,設計真實性任務

真實性任務模型需要創建真實性場景,并在場景中設計真實性任務,引發學生展現出與評價觀測指標緊密相關的行為表現,為收集學生行為過程流數據提供基礎,以便深入理解學生如何應用知識和技能解決實際問題。

第一,創建真實性場景,通過構建數字技術豐富的評價環境,為學生提供與現實世界緊密相連、直面真實性問題的線上線下、課堂內外虛實融合的實踐場域(祝智庭 等, 2024)。通過利用元宇宙、AI大模型、動態模擬等技術,整合人物、時間、空間、事件等場景數據維度,創建硬件設備場景、軟件操作場景和任務解決場景,使評價活動和內容與現實世界、學科領域、工作場景保持高度一致,促進學生在與場景實時融合互動中有效應對真實性問題。此外,真實性場景的設計還需嵌入問題解決材料、認知發展資源、探究活動工具等支架,并結合場景識別算法和頻繁序列挖掘算法,對學生在場景中的特征狀態進行感知分析,從而提供實時的、持續的引導和支持。第二,以真實性場景為基礎,緊扣觀測指標,力求貼近現實生活且具備認知挑戰性,設計基于遞進式問題鏈的學習理解型、應用實踐型、遷移創新型三類真實性任務(范佳榮 等, 2024),通過邏輯關聯、層次遞進的任務活動,引導學生在解決現實問題的過程中循序漸進地展現出全面的行為表現。同時,結合自適應學習和生成式人工智能等技術,根據學生表現動態提供模塊化任務,確保學生持續保持在最優學習路徑上,提升學生能力與素養發展水平的可見性。

教育數字化不斷深入發展以及數字技術的廣泛應用對師范生智能教育素養提出了更高的要求,現有診斷性測試、自陳式量表等評價方式已不足以全面測評師范生利用數字技術解決真實教育教學問題的智能教育素養水平。鑒于此,通過學生在真實性測評場景中完成真實性測評任務的行為表現,可以準確表征其智能教育素養水平。本研究選擇“師范生智能教育素養框架”中的“創新教學素養”一級維度下的“教學實踐”二級維度,創設了場景化評價中的測評場景和測評任務(如表2所示)。

3. 過程流數據模型:規范過程流數據格式,形成教育評價數據庫

在數據類型方面,基于真實性場景的行為表現主要形成過程流數據類型。過程流數據是指學生在與場景、任務交互的過程中,經由智能設備產生的連續實時數據,具有來源多樣性、類型復雜性、時間連續性等特征,能夠全面揭示學生的行為表現特征(鄭勤華 等, 2023)。Experience API(xAPI)作為一種采集與存儲過程流數據的技術規范工具,廣泛應用于多場景數據收集和評價模型構建中,能夠將跨平臺、跨終端的異構數據整合為統一格式(王冬青 等, 2018)。為了實現過程流數據的共享特性提取、統一接口整合、多維序列耦合,通過采用xAPI將過程流數據模型的設計路徑劃分為基于Statement屬性規范過程流數據格式、基于學習記錄存儲(Learning Record Store,LRS)系統形成教育評價數據庫兩個階段。

一是基于Statement屬性規范過程流數據格式階段,依據Statement聲明的執行者、動詞、對象等要素,結合場景的五要素(主體、時間、空間、設備、事件)(武法提 等, 2018),形成“學生+時間戳+位置情境+任務情境+設備+數據采集+事件情境”七要素的數據標準化格式。在此基礎上,還需進一步實例化為“哪位學生、在什么時間段、在何種真實性場景中、基于什么真實性任務、使用了哪些硬件或軟件設備、如何采集數據、做了什么事情并取得了怎樣的行為結果”的具體行為表現描述,便于分析和存儲于LRS系統中。以“師范生智能教育素養測評”中學習理解型測評任務為例,其中生成的一條規范過程流數據格式示例為:“學生ID:2024S01;時間段:202X-XX-XX 08:00-09:00;真實性場景:人機對話場景;真實性任務:回答AI大模型提出的教學理論知識問題;使用的數字化設備:計算機、智能語音交互軟件、在線測評系統(含AI大模型);做的事情:學生根據AI大模型提出的關于‘分布式認知理論’的3道客觀選擇題和‘如何運用多元智能理論指導教學實踐’的2道主觀論述題進行回答,闡明自己的觀點和認識;數據采集:通過對話系統日志和內容記錄工具,采集學生思考時間、作答時間和對話關鍵詞等數據;行為結果:學生正確回答3道客觀選擇題,2道主觀論述題完成準確度90%、作答相似度3%,總得分85分,理解和應用教學理論知識的能力等級為‘良好’。”

二是基于學習記錄存儲系統形成教育評價數據庫階段,可以使用HDFS或NoSQL等分布式存儲系統確保數據的高容錯性和可擴展性,形成結構化教育評價數據庫。同時,建立數據索引、執行數據安全措施和備份策略以維護數據庫安全和完整性。此外,通過LRS系統的RESTful API接口,教育工作者可以快速查詢、共享和分析數據。由此確保教育評價數據的安全存儲、規范管理和便捷共享。

4. 評價分析模型:提取數據證據,建立評價分析模型

學生行為表現數據是揭示他們在完成真實性任務時知識掌握、能力展現與素養體現的重要依據。為了精確評估這些能力,需要在過程流數據與具體推論或假設之間建立聯系,從而使數據能夠作為有效證據使用。為此,通過提取數據證據和建立評價分析模型兩個方面,將過程流數據與觀測指標緊密關聯,以此來推斷學生在知識、能力與素養等方面的真實情況。

一方面要提取數據證據。首先,建立證據規則,將過程流數據與評價目標相關聯,并制定評分機制為數據直接賦予分值或通過算法程序進行計算;其次,通過數據預處理和行為模式識別,篩選出與觀測指標高度相關的數據證據;最后,將這些數據證據與觀測指標建立映射關系,為評價分析模型和評價結果提供可靠支持。另一方面要建立評價分析模型。可以通過數據證據特征提取(黃春梅 amp; 王松磊, 2020)、模型建立與訓練(張紅艷 amp; 連雅迪, 2024)和模型信效度檢驗(Waladi amp; Lamarti, 2024),并依據各觀測指標,構建準確性和可解釋性能力強的智能評價分析模型,實現各維度能力與素養的智能分析、評價反饋和預測發展。基于此,可以通過文本報告、可視化畫像等多種方式,全方位輸出學生個體或群體的特征型、發展型和比較型評價結果,并能夠提供包括個性化反饋和差異性建議的評價反饋(柴喚友 等, 2024),從而實現對學生素養水平與發展潛能的精準刻畫,并為制定培養方案和相關教育決策提供科學依據。

五、結語

場景化評價是技術賦能教育評價的實踐方法和創新路徑,對于推動教育領域綜合改革和高質量發展具有重要意義。本研究闡釋了技術賦能教育評價的發展階段與現實困境,論述了場景化評價的內涵與特征,并描述了設計框架與設計路徑,能夠支持場景化評價的設計與開發。但本研究目前提出的設計框架和設計路徑,主要基于現有文獻和技術應用與實踐層面的初步探索,未來研究將致力于融合多學科、多領域以豐富和完善設計框架與設計路徑,在實踐應用中開展場景化評價實證研究,以期為場景化評價的發展與實踐落地提供更多有借鑒意義的思路和方法。

參考文獻

曹培杰, amp; 王阿習. (2023). 新一代數字技術何以賦能教育評價改革. 人民教育(20), 30-32.

柴喚友, 鄭勤華, 胡天慧, amp; 王懷波. (2024). 基于信息技術的表現性評價:概念解析、構成要素及分類框架. 中國電化教育(2), 1-7.

范佳榮, 趙雪妍, amp; 鐘紹春. (2024). 指向學科核心素養的數字化測評工具設計——以初中物理科學探究素養為例. 中國考試(11), 55-66.

馮翠典. (2012). “以證據為中心”的教育評價設計模式簡介. 上海教育科研(8), 12-16.

格蘭特·威金斯, amp; 杰伊·麥克泰格. (2017). 追求理解的教學設計(第2版)(閆寒冰, 宋雪蓮, amp; 賴平 譯). 華東師范大學出版社.

顧小清. (2024). 基于場景的測評:內涵特征、實踐應用與未來展望. 上海教育(8), 30-33.

韓曉玲. (2022). 基于標準的計算機自適應測驗的設計及其有效性檢驗. 山東師范大學.

郝建江. (2022). 師范生智能教育素養框架構建研究. 西北師范大學.

黃春梅, amp; 王松磊. (2020). 基于詞袋模型和TF-IDF的短文本分類研究. 軟件工程(3), 1-3.

賈韜, 王國成, amp; 郭春寧. (2022). “元宇宙熱的冷思考”筆談(上). 科學·經濟·社會(1), 1-14.

李健, 宋乃慶, 王詩夢, amp; 孫小堅. (2023). 一項工具開發:如何才能測評學生美術素養? 華東師范大學學報(教育科學版)(6), 118-132.

林子值, amp; 胡典順. (2021). 多維項目反應理論在數學素養測驗中的應用. 中國考試(5), 72-80.

龍海濤. (2021). 人工智能時代教育評價改革:契機、挑戰與路徑選擇. 中國考試(11), 10-18, 34.

駱方, 田雪濤, 屠焯然, amp; 姜力銘. (2021). 教育評價新趨向:智能化測評研究綜述. 現代遠程教育研究(5), 42-52.

羅海風, 羅楊, amp; 劉堅. (2024). 人工智能時代的教育評價改革. 中國考試(3), 8-17, 97.

首新, 張夢蝶, 譚舒予, amp; 蔡其勇. (2024). 在數字世界中學習:能力需求與過程本質——PISA(2025)LDW測評評述. 電化教育研究(11), 115-121, 128.

檀慧玲, amp; 王玥. (2023). 教育評價數字化轉型的內生動力與核心議題. 教育研究(12), 143-151.

王冬青, 韓后, 邱美玲, amp; 凌海燕. (2018). 基于情境感知的智慧課堂動態生成性數據采集方法與模型. 電化教育研究(5), 26-32.

吳砥, 郭慶, 吳龍凱, amp; 程浩. (2023). 智能技術賦能教育評價改革. 開放教育研究(4), 4-10.

武法提, 黃石華, amp; 殷寶媛. (2018). 場景化:學習服務設計的新思路. 電化教育研究(12), 63-69.

楊現民, 駱嬌嬌, 劉雅馨, amp; 陳世超. (2017). 數據驅動教學:大數據時代教學范式的新走向. 電化教育研究(12), 13-20, 26.

姚澤陽. (2022). 地理核心素養測評的理論與實踐研究. 華東師范大學.

袁凡, 陳衛東, 徐銣憶, 葛文碩, 張宇帆, amp; 魏薈敏. (2022). 場景賦能:場景化設計及其教育應用展望——兼論元宇宙時代全場景學習的實現機制. 遠程教育雜志(1), 15-25.

袁建林, amp; 劉紅云. (2017). 核心素養測量:理論依據與實踐指向. 教育研究(7), 21-28, 36.

張寶鈞. (2003). 簡論計算機自適應語言測試的工作機制. 語言教學與研究(3), 18-24.

張紅艷, amp; 連雅迪. (2024). 數智教育評價范式轉變動因、特征與實現路徑研究. 黑龍江高教研究(1), 23-30.

張華華, amp; 程瑩. (2005). 計算機化自適應測驗(CAT)的發展和前景展望. 考試研究(1), 12-24.

張敏強. (1999). 20世紀教育測量學發展的回顧與現狀評析. 教育研究(11), 32-37.

趙慧臣. (2017). 教育信息化促進學生評價改革. 教育研究(3), 120-121, 129.

趙延玉, 趙曉永, 王磊, amp; 王寧寧. (2023). 可解釋人工智能研究綜述. 計算機工程與應用(14), 1-14.

鄭勤華, 陳麗, 柴喚友, 王磊, amp; 王懷波. (2023). 基于信息技術的表現性評價:內涵、作用點與發展路向. 中國電化教育(3), 55-61.

朱莎, 郭慶, amp; 吳砥. (2023). 計算心理測量視域下的學生數字素養測評. 現代遠程教育研究(6), 19-29.

祝智庭, 趙曉偉, amp; 沈書生. (2024). 融智課堂:融入AI大模型的創新課堂形態. 電化教育研究(12), 5-12, 36.

Bunderson, C. V., Inouye, D. K., amp; Olsen, J. B. (1988). The four generations of computerized educational measurement. ETS Research Report Series, 1988(1), i-148.

Chetia, B. (2019, February 27). All about using scenario-based assessments in online learning. CommLab India. https://blog.commlabindia.com/elearning-design/scenario-based-assessments

Ma, X. (2024). Artificial intelligence-driven education evaluation and scoring: Comparative exploration of machine learning algorithms. Journal of Intelligent Systems, 33(1), 20230319.

Mislevy, R. J., Almond, R. G., amp; Lukas, J. F. (2003). A brief introduction to evidence‐centered design. ETS Research Report Series(1), i-29.

Mutweleli, S., Mwathe, G., amp; Mundi, S. (2024). Scenario-based assessments: Experience from East Africa. In E. Care, M. Giacomazzi, amp; J. K. Mugo (Eds.), The contextualisation of 21st century skills: Assessment in East Africa (pp. 135-149). Springer International Publishing.

Ouyang, F., Dinh, T. A., amp; Xu, W. (2023). A systematic review of AI-driven educational assessment in STEM education. Journal for STEM Education Research, 6(3), 408-426.

Redecker, C., amp; Johannessen, ?. (2013). Changing assessment—Towards a new assessment paradigm using ICT. European Journal of Education, 48(1), 79-96.

Redecker, C., Punie, Y., amp; Ferrari, A. (2012). eAssessment for 21st century learning and skills. In A. Ravenscroft, S. Lindstaedt, C. D. Kloos, amp; D. Hernández-Leo (Eds.), 21st century learning for 21st century skills: 7th European conference of technology enhanced learning. Proceedings 7 (pp. 292-305). Springer Berlin Heidelberg.

Shute, V. J. (2011). Stealth assessment in computer-based games to support learning. Computer Games and Instruction, 55(2), 503-524.

Waladi, C., amp; Lamarti, M. S. (2024). Adaptive AI-driven assessment for competency-based learning scenarios. In M. Khaldi (Ed.), Innovative instructional design methods and tools for improved teaching (pp. 215-226). IGI Global.

Scenario-based Assessment: The New Trend of Technology-empowered Educational Assessment Reform

in New Era

Abstract: Technology-empowered educational assessment is not only a key pathway and an important breakthrough for deepening educational assessment reforms, but also an inevitable choice for accelerating the high-quality development of education. Technology-empowered educational assessment can be divided into four developmental stages. Each stage shows its own significant characteristics and also reveals the practical dilemmas faced by technology-empowered educational assessment in the implementation process. Therefore, scenario-based assessment should be a new trend in the current stage of intelligent assessment. Based on the explanation of the connotation and features of scenario-based assessment, researchers believe that the “Evidence Centered Design” (ECD) theory can be introduced into scenario-based assessment, and a scenario-based assessment design framework can be constructed based on the three core elements of learner model, evidence model, and task model. Finally, taking the assessment of normal university students’ intelligent educational literacy as an example, the article proposes a scenario-based assessment design path consisting of four interconnected stages: learner model, authentic task model, process data model, and assessment analysis model, aiming to provide support and reference for the design and implementation of intelligent assessment.

Keywords: technology empowerment; intelligent assessment; scenario-based assessment; evidence centered design; design path

404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 欧美性猛交xxxx乱大交极品| 尤物国产在线| 欧美日韩成人| 国产剧情国内精品原创| 天堂在线视频精品| 亚洲va欧美va国产综合下载| 国产黄在线观看| 欧美第二区| 少妇精品网站| 伊人久久婷婷五月综合97色| 沈阳少妇高潮在线| 亚洲精选无码久久久| 国产 在线视频无码| 亚洲欧洲自拍拍偷午夜色无码| 日韩精品一区二区三区视频免费看| 欧美亚洲香蕉| 亚洲国产黄色| 欧洲日本亚洲中文字幕| 天天激情综合| swag国产精品| 热伊人99re久久精品最新地| 国内黄色精品| 白浆视频在线观看| 日韩不卡高清视频| 亚洲国产亚综合在线区| 国产精品林美惠子在线播放| 色哟哟国产精品一区二区| 国产色偷丝袜婷婷无码麻豆制服| 国产在线一区视频| 在线亚洲精品自拍| 青青国产在线| 精品成人免费自拍视频| 综合亚洲网| 日韩无码黄色网站| 亚洲丝袜中文字幕| 亚洲日韩精品无码专区97| 色综合手机在线| 又大又硬又爽免费视频| 国产尤物在线播放| 国产无码高清视频不卡| 五月婷婷综合色| 伊人久久久久久久| 狠狠色综合网| 欧美三级不卡在线观看视频| 99热这里只有免费国产精品| 色婷婷综合激情视频免费看| 99精品免费在线| 亚洲熟女中文字幕男人总站| 国产精品亚洲片在线va| 亚洲中文字幕23页在线| 午夜影院a级片| 久久女人网| 亚洲AⅤ无码国产精品| 久久天天躁夜夜躁狠狠| 六月婷婷激情综合| 亚洲人成网址| 久久精品人妻中文系列| 久久久噜噜噜久久中文字幕色伊伊| 国产成人精彩在线视频50| 日韩国产欧美精品在线| 日本午夜三级| 男人天堂亚洲天堂| 午夜欧美在线| 国产精品手机视频| 亚洲欧美一区二区三区蜜芽| 婷婷综合色| 日本少妇又色又爽又高潮| 成人亚洲天堂| 国产成人一区免费观看| 亚洲日产2021三区在线| 免费国产不卡午夜福在线观看| 精品少妇人妻av无码久久| 日本免费精品| 亚洲国产综合精品一区| 欧美一区中文字幕| 四虎在线观看视频高清无码| 日韩不卡高清视频| 色噜噜狠狠狠综合曰曰曰| 亚洲a级在线观看| 啊嗯不日本网站| 国产一级片网址| 免费国产小视频在线观看|