

摘 "要 "空間能力是個體對客體或空間圖形在頭腦中進行識別、編碼、貯存、表征、分解組合和抽象概括的能力, 是個體理解自身所處環境并解決問題的認知基礎。準確、便捷、有效地測評空間能力, 對增強STEM教育教學水平和人才培養質量都具有重要意義。由于空間能力受多因素共同作用, 具有復雜性、多維度、內隱性的特點, 使得利用計算機評價空間能力比較困難。本研究旨在準確、有效、大規模地測評空間能力, 將使用多模態學習分析方法探索學習者空間認知行為表現特征, 并基于視頻游戲環境研發空間能力隱形測評關鍵技術與工具。具體包括: 1)構建空間能力內在表征框架和評價指標體系; 2)基于多模態學習分析構建學習者空間能力行為表現模型; 3)探索視頻游戲影響空間能力的關鍵因素, 并使用游戲引擎開發基于視頻游戲的測評工具; 4)使用以證據為中心的設計框架和貝葉斯網絡模型, 開發并部署能夠推斷和預測空間能力的測評算法; 5)在實驗室和真實課堂情境開展實證研究, 驗證測評工具有效性。研究成果將有利于理解人類空間認知過程和行為表現, 拓展和豐富空間能力相關理論, 并為大規模數字化測評提供關鍵技術支撐。
關鍵詞 "基于游戲的測評, 空間能力, 多模態學習分析, 游戲化學習, 隱形測評
分類號 "B841
1 "問題提出
空間能力(spatial ability), 也稱空間認知能力, 是探測、處理、整合和構想環境中所有空間因素的能力, 主要包括空間觀察、空間記憶、空間思維和空間想象等方面(李洪玉, 林崇德, 2005)。空間能力是人和動物賴以生存的基礎, 個體在腦中對所有感官模態的空間信息和內在心理圖像進行加工, 從而理解自身所處的環境并解決各種問題(石祝, 尚俊杰, 2024)。空間能力水平將直接影響人們對科學、技術、工程、數學(science, technology, engineering, mathematics, 簡稱STEM)領域問題的理解、表征和解決(Sorby amp; Panther, 2020; Uttal amp; Cohen, 2012), 對于學習者的學業表現和職業選擇具有重要意義。研究顯示, 空間能力與算術、
閱讀和科學論述能力緊密相關, 并能顯著預測學習者的學習成績(Geer et al., 2019; Hodgkiss et al., 2018; Liu et al., 2021; Xie et al. 2020)。大規模縱向追蹤研究表明, 空間能力對創造力發展也具有獨特作用(Kell et al., 2013), 而且能夠顯著預測青少年未來在STEM領域中所取得的職業成就(Wai "et al., 2009)。因此, 有針對性地培養和評價空間能力, 不僅有助于提高學生的問題解決能力, 也有利于在科技創新、航空航海等領域選拔人才(晏碧華, 2021; 周加仙, 蔡永華, 2013)。但由于空間能力的復雜性、多維度和內隱性, 一直以來, 對于空間能力的測量和評價都是困擾研究者和教育者的難題。這一方面導致了教育系統在選拔人才時忽視了空間能力的重要價值(Lubinski, 2010), 另一方面也限制了空間能力理論研究和教學實踐的發展。因此, 探明空間能力的關鍵構成要素, 構建空間能力評價指標體系, 并基于真實情境開發準確、有效、易用的空間能力評價工具成為國內外研究者廣泛關注的重要問題。
空間能力測評研究通常采用經典紙筆量表(如心理旋轉測試), 但由于研究者對空間能力內涵及其組成部分的不同定義, 導致空間能力紙筆測試種類繁多、維度各異(Martín-Dorta et al., 2008)。而且, 部分測試脫離真實情境, 影響測評工具的生態效度, 降低了對實際空間問題解決水平的預測性(A?ikgül et al., 2023)。在應用過程中, 研究者也發現傳統紙筆測試參與度較低, 低年齡被試者難以完成較長的測試任務, 并且測試過程中的霍桑效應會導致測試結果與預期偏離(石祝, 2019)。在此基礎上, 研究者也開始探索使用計算機化測評工具評價空間能力。早期的計算機化空間能力測評通常是將紙筆測試遷移到計算機平臺, 其理論基礎和評價量規都與傳統紙筆測試大致相同。例如, 心理旋轉測試、空間定向測試、普渡空間可視化測試都有其計算機化版本, 并且信度和效度都經過驗證(Friedman et al., 2020)。雖然這類計算機化測試相比傳統紙筆測試, 具有簡化評分程序, 拓展測試人數的優點, 還可以設置任務內容和任務流程, 對數據加以收集和診斷(Hunt amp; Pellegrino, 1985), 但由于受限于紙筆測試的研究框架, 存在脫離真實情境、變量維度單一、缺乏過程性數據等缺點, 并不能充分利用計算機在內容呈現、數據處理和自動化分析上的優勢。
近年來, 基于游戲的測評逐漸成為教育測量領域的熱點(Hong amp; Liu, 2022; 徐俊怡, 李中權, 2021)。相比傳統的計算機化測評, 基于視頻游戲的測評具有諸多優勢。一方面, 視頻游戲具有多感官輸入、沉浸式環境、智能化反饋等特點, 所構建的虛擬環境能夠有效促進復雜問題解決, 并記錄過程性數據來反映學習者行為(Owen amp; Baker, 2020)。學習者在游戲中的得分、運動軌跡、注視位置和時間等, 都能作為評估空間能力的實證數據。另一方面, 視頻游戲能夠創建貼近真實任務的虛擬場景, 在游戲過程中嵌入無干擾的隱形測評(stealth assessment)能有效避免霍桑效應, 增強測評的生態效度(Kim amp; Shute, 2015)。最重要的是, 視頻游戲是深受大眾喜愛的互動媒體, 它們可通過在線平臺廣泛發布, 吸引眾多參與者, 從而生成大規模的數據樣本(Spiers et al., 2023), 為面向廣大人群的認知能力測試和大數據研究奠定基礎(Xu et al., 2023)。由此可見, 視頻游戲為認知能力的計算機化評價提供了豐富的可供性(affordance)和新的發展契機。
基于此, 本研究創新性地提出將視頻游戲虛擬環境與空間能力測評相結合的研究設計和技術方案。其基本研究思路是: 首先, 在文獻調研和因素分析的基礎上, 構建空間能力內在表征框架和評價指標體系。其次, 使用多模態學習分析方法探索學習者空間認知行為表現特征模型。然后, 使用以證據為中心的設計框架(evidence centered design, ECD)結合貝葉斯網絡模型(Bayesian network, BN), 構建整合“熟練度?證據?任務”三級變量網絡的空間能力評價變量網絡模型。之后, 基于視頻游戲引擎開發空間能力隱形測評工具, 通過視頻游戲虛擬環境中的互動任務將學習者內隱的思維過程顯性化, 并將測評算法嵌入程序, 在測試程序后臺自動收集學習者行為數據作為證據用以推斷分析。最后, 根據基于設計的研究(design-based research, DBR)方法, 在實驗室和真實課堂環境中開展實證研究, 驗證測評工具的有效性, 并對測評工具循環迭代。根據以證據為中心的設計框架, 本研究所選取的變量主要有三類: 一是由空間能力理論與測評目標所確定的熟練度(proficiency)變量, 如空間可視化、心理旋轉、空間導航; 二是由視頻游戲測評工具設計特征所決定的任務(task)變量, 如方向、選擇操作、反應時、任務完成時間; 三是由熟練度變量和任務變量之間因果關系所確定的證據(evidence)變量, 如路線分布、漫游熵、選擇正確率等(Almond et al., 2015)。在這三類變量中, 任務變量是詳細描述測評任務特征的參變量, 證據變量是從學習者行為中直接測量得到的可觀察變量,而熟練度變量通常是不能直接觀察的潛變量, 需要將證據變量代入證據識別規則和證據積累算法中進行推斷和計算而得, 以上三種變量共同構成了空間能力的“熟練度?證據?任務”三級變量網絡。在此基礎上, 本研究將構建基于貝葉斯網絡的空間能力的評價指標體系, 并將其腳本部署在視頻游戲后臺, 實現對空間能力的游戲化測評。
2 "研究現狀
2.1 "基于游戲的測評方法
隨著視頻游戲技術和虛擬現實顯示設備的不斷發展和成熟, 教育游戲與模擬仿真在教學實踐中得到廣泛應用, 基于游戲的測評方法開始成為研究者關注的重點。基于游戲的測評(game-based assessment, GBA)是指通過游戲或游戲化活動來對某個對象進行評價(Heinzen et al., 2015), 強調運用游戲設計原則來測量人們努力發揮到最佳水平時的表現。使用基于游戲的測評方法可以將視頻游戲作為測試環境來對人的能力、人格等心理特征和行為表現進行量化評價(孫鑫 等, 2018)。根據測評的形式, 基于游戲的測評可以被分為游戲得分、外部測評、內嵌測評和嚴肅游戲分析四類(Kim amp; Ifenthaler, 2019)。其中, 游戲得分關注在游戲中實現目標或克服困難, 完成特定任務所用時間也是游戲得分指標; 外部測評是指在游戲環境之外開展的測試, 例如訪談、問卷、知識圖譜或因果圖; 內嵌測評則是游戲玩法的一部分, 并不會打斷游戲體驗, 通常是通過點擊流、日志文件和信息軌跡中獲取豐富的學習者行為數據; 嚴肅游戲分析和學習分析類似, 主要分析學習者個人特征(如社會背景信息、先驗知識、技能和能力、興趣等)和生成的游戲數據(如花費的時間、完成的目標或任務、導航模式、社交互動等) (Loh "et al., 2015)。
近年來, 研究者開始使用基于游戲的測評方法來測量學習者的心理特征。其中, 最具代表性的是Shute等人提出的“隱形測評”, 即通過識別玩家在游戲內的行為指標證據來推斷其潛在技能(Shute et al., 2015)。隱形測評強調使用不顯眼的方法(如日志文件和眼動追蹤)持續收集行為數據, 并檢查學習者在游戲中的認知和非認知變量的發展, 模糊了游戲、學習和測評之間的界限(Shute amp; Ventura, 2013)。在此基礎上, Shute和Rahimi (2021)在物理模擬游戲Physics Playground中使用以證據為中心的設計框架構建貝葉斯網絡模型, 實現創造力的隱形測評, 并將其與游戲外部的創造力測評對比, 驗證了測評工具的信效度。隱形測評的思想被廣泛應用于基于游戲的測評研究。在認知能力方面, Quiroga等(2015)選用12款商業視頻游戲和11項智力能力測試來驗證是否可以使用游戲來評價智力的一般因素(g)。因子分析結果表明, 視頻游戲與智力測試能夠測量相同的高階潛在因子, 兩者測試結果具有強相關性(r = 0.93), 說明商業視頻游戲能夠可靠地測量個體的智力差異。Foroughi等人使用視頻游戲《傳送門2》內置的迷宮編輯器設計了一組含有15個游戲迷宮關卡的《傳送門2》測評量表, 用以評價玩家完成游戲迷宮的能力水平, 發現其結果與瑞文高階推理測試(RAPM)和Bochumer 矩陣測試(BOMAT)所測得的流體智力變量具有強相關性(r = 0.78) (Foroughi et al., 2016)。在行為動作方面, Roh和Lee (2014)使用體感游戲來評價注意缺陷多動障礙(ADHD)兒童與普通兒童的注意力, 發現ADHD兒童在漏擊率、誤擊率、平均反應時和反應時標準差這四個指標上具有顯著差異, 根據以上指標, 能夠有針對性地開發三維體感游戲來提升兒童注意力。紐約大學Wayne Mackey等人開發了第一人稱射擊游戲訓練平臺Aim Lab, 為玩家提供第一人稱射擊訓練并提供實時反饋和診斷分析。研究者在后臺收集超過4000萬用戶在射擊任務中的行為表現數據, 以此來分析玩家在虛擬空間中長期運動學習的特點(Listman et al., 2021)。
基于游戲的測評還可以測量復雜問題解決和元認知等高階思維過程。此類任務通常強調在真實情境中解決問題, 其測評方式始終與游戲緊密相連(張生 等, 2019)。例如, 經典模擬任務“裁縫店(Tailorshop)”就要求被試者扮演一家裁縫店的管理者, 通過控制工人數量、機器數量、調節原材料和廣告等因素, 來盡可能實現更高產量、銷售額和工人滿意度, 這些指標就被作為復雜問題解決能力的測量指標(Danner et al., 2011)。香港中文大學開發的嚴肅游戲《農場狂想曲2》構建了農場種植規劃任務來支持復雜問題解決, 玩家需要選擇一塊土地, 然后根據當地氣候選擇投資的作物或動物, 并考慮溫度、土壤、降水等環境因素, 通過施肥、澆水、喂食、洗澡等動作改變農產品參數, 獲得盡可能多的收益(蔣宇 等, 2011)。 Li等人將視頻游戲“推箱子(Sokoban)”改編為解謎任務, 并將“每個項目的計劃時間與總時間之比”作為元認知計劃的評價指標(Li et al., 2015)。
根據以上研究可以發現, 基于游戲的測評方法在內容開發、信息呈現、數據收集、可解釋性、測評體驗、應用推廣等方面都具有顯著優勢: 首先, 視頻游戲環境能夠為學習者呈現豐富多樣的信息刺激, 支持具身沉浸的交互體驗, 提供適時有效的操作反饋, 從而將游戲內容與能力特征聯系起來, 讓游戲為個體提供思考和行動的線索(徐俊怡, 李中權, 2021)。其次, 通過游戲后臺記錄, 分析學習者在視頻游戲環境中產生的、連續多樣的過程性行為表現數據, 可以對學習者特征(知識、能力、態度等)進行測量和評價。這種測評工具可以嵌入游戲后臺, 實現沉浸式學習環境中的隱形測評(龔鑫 等, 2023), 不僅能夠有效降低被試者的測驗焦慮(Mavridis amp; Tsiatsos, 2017), 也可以避免霍桑效應。第三, 視頻游戲可以通過畫面和聲音呈現學習者的行為表現, 通過恰當的游戲機制設計, 能夠有效地將學習者內隱的認知過程通過交互行為可視化, 直觀呈現學生的學習策略和行為風格, 并加強了數據的可解釋性。第四, 視頻游戲的感官刺激和故事情節能夠為學習者營造沉浸愉悅的使用體驗, 有助于提升參與動機和投入度(李一茗 等, 2021)。最后, 基于游戲的測評能夠有效地降低測試參與門檻, 并且可以通過在線平臺大規模推廣部署, 易于形成大數據樣本, 為面向廣大人群的認知能力測試和大數據研究奠定基礎。
2.2 "空間能力的游戲化測評研究
對于空間能力的評價始終是困擾研究者的難題。一方面, 研究者對于空間能力的概念內涵和構成因素尚未形成共識, 影響測評指標選取和量表開發。另一方面, 空間能力涉及對心理表象的保持、操作和重構, 而心理表象是個體對外部事物的內部再現, 其認知加工過程難以通過客觀有效的研究方法被直接測量。早期空間能力研究通常使用基于經驗的評價, 如言語報告、描畫和再認等, 但以上方法過于依賴被試者的自我內省和主觀描述, 缺少客觀證據支持。隨著上世紀心理測量學的發展, 研究者開發了一系列經典空間能力測評量表, 如心理旋轉測試(mental rotation test, MRT) (Vandenberg amp; Kuse, 1978)、心理切割測試(mental cutting test, MCT) (College Entrance Examination Board, 1939)、普渡空間可視化測試(Purdue spatial visualization test: rotations, PSVT:R) (Bodner amp; Guay, 1997)、空間定向測試(spatial orientation test, SOT) (Friedman et al., 2020)、圣巴巴拉方向感測試(Santa Barbara sense of direction scale, SBSOD) (Hegarty et al., 2002)等。這些空間能力測評量表通常是從信息加工的角度出發, 通過反應時和正確率指標來反映心理表象操作過程的快慢與難易程度, 但測評指標的單一性也限制了對空間能力特征和內部機制的深入研究(劉鳴, 2004)。
近年來, 計算機化測評技術的發展為空間能力測評領域帶來了新的研究方向, 研究者開始使用數字虛擬環境來訓練和評價空間能力(郭守超, 2022; 尚俊杰 等, 2022; Uttal et al., 2013)。具體來說: 在基于對象的小尺度空間能力上, 典型空間能力測試主要有心理旋轉測試和空間可視化測試(包括心理切割、心理折疊和幾何體組合任務等)。此類測試多數是經典紙筆量表的計算機化版本, 與傳統心理旋轉測試紙質量表相比, 基于3D虛擬對象的心理旋轉能力測評能得到更高的評價準確率(Bartlett amp; Camba, 2023)。也有研究者使用3D建模工具來測評空間能力。例如, 郭守超(2022)在3D CAD軟件中自動采集學習者交互數據, 系統分析了如何在三維虛擬環境中以數據驅動的測評方式來評價空間能力。在基于環境的大尺度空間能力上, 典型的數字化測試包括虛擬Morris水迷宮測試(virtual Morris water maze, VMWM) (Thornberry et al., 2021)、八臂迷宮測試(4-on-8 Virtual Maze, 4/8 VM) (West et al., 2018), 以及各類虛擬空間導航任務。此類測試通常包括學習階段和測試階段: 在學習階段, 參與者要學習虛擬環境的空間位置, 研究者記錄其探索時間、探索距離等數據; 在測試階段, 參與者進入虛擬空間完成測試任務, 研究者記錄其成功到達目標位置的正確率、所用時間、路線分布等指標, 來對其空間導航和空間學習能力加以量化(張鳳翔 等, 2023)。例如, Waller (2005)要求被試者在虛擬環境中移動位置后重新指向物體位置, 并識別建筑形狀, 以此來評價參與者基于視角轉換的空間能力。Ventura等人開發的虛擬空間導航測試(virtual spatial navigation assessment, VSNA)根據完成導航和收集任務所用時間來評價空間能力(Ventura et al., 2013)。Weisberg等人開發的虛擬導航測試Virtual SILCton, 要求被試者完成指向任務和模型構建任務, 并自我報告導航過程(Weisberg et al., 2014)。West等(2018)構建基于VR場景的八臂迷宮導航任務, 通過改變迷宮背景的環境線索, 并觀察被試者在改變前后完成任務所用時間, 來判斷其導航策略(反應策略或空間策略)。Malanchini等(2020)開發了虛擬導航測試Spatial Spy, 在其中設置地圖識別、路徑記憶、地標導航、方向導航、掃視(scanning)和透視(perspective-taking)共6個任務, 根據參與者能否在限定時間完成導航任務來匯總計算其任務得分, 并結合任務用時形成對空間導航能力的評價。以上任務通常是基于環境的路徑探索, 也有研究者通過量化個體行動軌跡來分析自由探索模式, 并提出重訪行為(revisit)、擴散模式(diffusion)、漫游熵(roaming entropy)及軌跡整合度(experienced integration)四個指標, 重訪行為代表探索的謹慎程度, 擴散模式代表個體在區域內擴散的速率, 漫游熵描述在給定時間內個體運動彌散程度, 軌跡整合度描述個體探索環境中連接性較強部分的程度(Brunec et al., 2023; Gagnon et al., 2018)。以上指標可以用來描述和預測被試者空間能力水平。
基于視頻游戲的空間能力測評研究是近幾年出現的新趨勢。此類研究的特點是使用商業游戲引擎或游戲編輯器開發游戲化測評工具, 并且通常會開展驗證性實驗, 將經典空間能力量表作為外部測試與新開發測評工具相對比, 來驗證其結果的有效性。例如, Peters等人在3D益智游戲Minecraft的虛擬環境中開發了模式完形、心理旋轉和空間構建任務, 使用前者作為歸納推理的指標, 后兩者作為空間能力的指標。結果顯示, 基于Minecraft的測試與常規心理測試(心理旋轉測試VMRT與瑞文標準推理測試RSPM)的結果潛變量高度相關(r = 0.72, p = 0.002) (Peters et al., 2021)。Kim等人基于Unity平臺開發了可以在線評估空間推理能力的視頻游戲Shadowspect, 在小規模驗證實驗中收集了44名學生的游戲行為數據變量(包括“完成任務的時間、成功完成謎題的數量、失敗后重返謎題的次數、已解決謎題的活動時間、失敗嘗試總數、操作形狀的次數、Elo平均能力分數”等27個變量指標)。之后, 研究者使用隨機森林回歸模型計算了上述指標與兩個外部測試(空間推理量表SRI和圣巴巴拉實體測試SBST)得分的相關性, 并確定模型中最重要的三個特征變量是“完成任務所用時間、持久性和能力得分” (Kim et al., 2023)。與此同時, 也有研究者利用視頻游戲能夠吸引大量玩家主動參與的特點, 使用移動社交軟件實現面向大規模人群的空間能力游戲化測評。例如, Coutrot等人(2019)將傳統尋路任務和路徑整合任務游戲化, 開發了移動端游戲Sea Hero Quest, 通過對游戲軌跡的分析來測量個體空間導航能力, 并發現游戲測量結果與真實導航能力顯著相關, 具有良好生態效度。更進一步地, 研究者利用該款游戲在世界范圍內收集到了300多萬份玩家數據, 通過大數據分析發現: 性別、年齡、生活環境等因素對空間導航能力都存在影響(Coutrot et al., 2022)。Xu等人(2023)基于微信平臺開發了心理旋轉測試小游戲《狼來了》, 吸引公眾參與心理旋轉測試任務, 獲得了橫跨多年齡段的大數據樣本(N = 216, 713)。基于此, 研究者發現空間能力及其可塑性并非同步發展, 心理旋轉表現在28歲時達到峰值, 而其可塑性早在18歲時就已達到峰值(Xu et al., 2023)。由此可見, 基于游戲的空間能力測評具有諸多優勢: 一方面, 視頻游戲虛擬環境能夠為學習者提供豐富多樣的空間信息刺激, 支持沉浸式、多模態、強反饋的人機交互體驗。另一方面, 視頻游戲后臺日志文件能為研究者提供細粒度的數據記錄和分析, 并且其輕松有趣的測評形式能夠吸引廣大用戶群體主動參與, 從而能以較低成本, 在較短時間內獲得大數據樣本, 實現面向空間能力的大規模測評研究。
2.3 "空間能力的多模態測評研究
多模態(multimodal)概念最初由Kress和Van Leeuwen (2001)提出, 其核心定義為“在符號產品或事件中綜合使用多種符號模態, 以促進人類感官與外界環境的交互”。在教育領域, 多模態技術的應用不斷拓展, 開始利用先進傳感器技術和機器學習算法構建信息模型, 來處理和分析復雜情境中的過程性學習數據(張琪 等, 2020)。近年來, 隨著多模態學習分析技術的進步, 研究者得以將眼動追蹤、生理信號、語音、視頻和數字化日志等多源信息融合計算, 全面理解學習者的學習和認知過程(田陽 等, 2019)。
在空間能力的測評研究中, 多模態技術的應用日益廣泛, 涵蓋了眼動追蹤、腦電圖(EEG)、功能性磁共振成像(fMRI)和功能性近紅外光譜(fNIRS)等。這些技術從不同維度提供了生理和行為數據, 為空間能力的全面評估提供了堅實的支持。眼動追蹤技術在其中扮演了關鍵角色, 提供了注視時間、注視點分布、掃視路徑、瞳孔直徑變化和注視次數等重要預測指標。這些指標不僅反映個體在執行空間任務時的注意力分配, 還能揭示其認知策略(Fourtassi et al., 2017; Soares et al., 2022)。例如, 在心理旋轉任務中, 瞳孔的顯著擴張、較長的注視時間和復雜的掃視路徑通常指示個體在處理復雜空間信息時需要更多的認知資源。腦電圖技術在空間能力測評中同樣發揮著重要作用。腦電圖能夠記錄大腦的電生理活動, 通過分析事件相關電位(ERP)和事件相關去同步(ERD)現象, 為評估空間能力提供了新的視角。特別是在心理旋轉任務中, Beta波段的ERD現象在頂葉區域尤為顯著, 反映了個體的空間認知能力和策略使用情況(陳鴻舟, 2015)。此外, EEG信號的變化揭示了不同的認知機制, 如前額葉和頂葉區域的活動差異, 這可能與個體在任務執行過程中所采用的認知策略密切相關。此外, 功能性磁共振成像和功能性近紅外光譜技術的應用為研究大腦的空間表征和路徑選擇提供了強有力的工具。研究表明, 海馬區與頂葉、前額葉的協同作用對于實現有效的空間導航至關重要(Kong et al., 2017)。通過整合fMRI數據與眼動追蹤數據, 研究者能夠深入分析個體在導航任務中的實時腦活動和行為表現, 為揭示空間導航的認知過程提供了更為豐富和立體的信息(Ardila, 2018)。然而, 每一種單獨的技術在實際研究中都存在一定的優勢和局限性。例如, EEG技術雖然具有高時間分辨率, 能實時反映大腦活動, 但空間分辨率較低, 腦功能溯源分析不夠精確。而眼動數據雖然能反映當前的注視過程, 但難以揭示大腦的內在加工機制。因此, 將fMRI與眼動追蹤和EEG相結合的研究手段越來越受到神經認知領域研究人員的重視。多模態技術的融合為空間能力的全面評估提供了新的可能性, 通過整合眼動數據、腦電信號和腦影像數據, 可以更深入地了解個體在空間任務中的認知過程。
多模態學習分析更側重于收集學習者在真實物理環境中的行為數據和生理信號, 以補充或驗證虛擬環境中收集的數據(汪維富, 毛美娟, 2021)。顯然, 多模態學習分析可以整合學習者在解決空間任務時的多模態、互動的數字痕跡, 以此為基礎, 實現基于多模態數據的空間能力動態評估和反饋。此外, 結合人工智能方法可以進一步理解、解釋和推理學習者的空間能力。例如, 在心理旋轉任務中, 結合眼動數據和腦電信號, 可以揭示個體在不同策略下的認知加工模式(Xue et al., 2017)。結合多模態數據能夠提供更準確的空間能力預測模型, 例如通過機器學習算法整合不同模態的數據, 能夠提高預測的準確性和穩健性(Fourtassi et al., 2017)。因此, 將學習者的生理數據(如眼動、腦電、表情)與虛擬行為數據(如數字化日志、錄屏)結合, 可通過多模態學習分析方法揭示背后的認知機制, 為基于視頻游戲的空間能力評估工具提供理論支持。
3 "研究構想
本研究旨在準確、有效、大規模地測評空間能力, 將采用多模態學習分析、貝葉斯網絡計算建模、隨機對照實驗與因素分析、基于設計的研究等跨學科研究方法, 結合視頻游戲所收集的學習者空間能力行為表現數據樣本, 研究基于視頻游戲的空間能力測評技術方案, 并開發面向空間能力的游戲化測評工具, 研究框架如圖1所示。
首先, 研究1通過文獻調研與因素分析, 確定空間能力的概念、分類、表征形式和經典測評指標, 確定空間能力的熟練度模型; 研究2利用多模態學習分析方法探明學習者在三維虛擬空間中解決空間問題時的行為表現特征, 計算構建空間能力行為表現模型, 以此確定適用于測評的可觀察變量指標和空間能力任務模型; 研究3通過文獻調研和驗證性對比實驗, 確定視頻游戲影響空間能力的關鍵因素(如界面維度和任務類型), 明確視頻游戲的人機交互特征, 并使用游戲引擎開發基于視頻游戲的測評工具, 完成空間能力的呈現模型; 研究4將在前三者的基礎上, 采用計算建模與機器學習方法, 結合以證據為中心的設計框架(ECD)與貝葉斯網絡模型(BN), 設計并開發能夠推斷和預測空間能力的測評算法, 并將其嵌入游戲后臺程序之中, 實現對空間能力的隱形測評; 研究5將空間能力測評工具分別在實驗室和中小學課堂中應用, 通過隨機對照實驗與真實情境下的教學實踐, 驗證空間能力測評工具的有效性, 并探索能夠在實驗室和真實課堂中有效應用的測評模式。
3.1 "研究1: 空間能力內在表征框架與評價指標體系構建
本部分將重點關注空間能力的概念、分類、表征形式和經典測評指標, 以確定空間能力內在表征框架和變量網絡, 并構建對應的評價指標體系。具體包括: 調研空間能力測評相關的理論和實證研究, 明確空間能力的核心概念、影響因素、表征形式和經典測評量表。首先, 根據空間能力經典理論, 初步確定空間能力的分類框架和維度, 如認知過程、空間尺度、空間維度、動態靜態等。之后, 在先前研究基礎上, 收集空間能力經典測試量表, 并在實驗室環境中開展驗證性實驗, 通過因素分析, 探索各類指標變量之間的相關關系和從屬結構, 以此構建變量關系網絡和內在表征框架, 形成空間能力的熟練度模型。基于空間能力變量關系網絡和表征框架, 梳理經典空間能力評價量表和評價任務, 并分析不同空間能力測評的認知加工過程, 明確不同空間能力測評指標對空間能力因子的預測關系。總的來說, 研究1主要是基于經典心理測量學范式, 通過文獻調研從已有研究中明確空間能力基本概念與分類, 總結并歸納各類空間能力的心理表征、典型任務和關鍵測評指標。然后開展驗證實驗, 通過因素分析, 確定各類測評指標之間的相關性和結構關系, 初步形成空間能力變量關系網絡, 為研究4空間能力貝葉斯網絡的構建奠定基礎。根據空間能力分類框架, 可以被計算機化測評的各類空間能力測評任務及其潛在測評指標如表1所示。
3.2 "研究2: 基于多模態學習分析的空間能力行為表現模型
本部分將采用多模態學習分析方法確定學習者在三維虛擬空間中解決空間問題時的行為表現特征, 計算構建空間能力行為表現模型, 以此確定適用于測評的可觀測變量, 進一步明確空間能力的任務模型。具體包括: 1)使用視頻游戲編輯工具或游戲引擎設計空間能力測試任務集。該測試任務集圍繞空間能力的可觀測變量構建, 通常是由一系列由易到難的游戲任務關卡組成。例如, 在三維虛擬環境中構建一組迷宮任務, 在其中設計定向導航任務和地標導航任務來收集學習者行為數據的可觀察變量(如任務用時、行動軌跡、無效探索時間、完成任務數量、游戲內得分等指標)。通過改變導航任務中導航距離、地標線索、信息提示等要素, 來考察被試者在不同條件下的導航過程。之后, 根據研究者確立的證據規則, 對以上可觀察變量指標進行證據識別和證據匯總, 作為評價和預測學習者空間能力水平的證據變量。2)使用眼動追蹤和腦電圖(EEG)采集被試者實時生理信號開展多模態學習分析。為獲得學習者在真實物理環境中的行為數據和生理信號, 以補充或驗證虛擬環境中收集的數據, 在上述研究過程中, 使用多模態學習分析方法將學習者的多模態生理數據(如眼動、腦電、表情等)與游戲行為數據(如鼠標鍵盤操作數據流、游戲動作錄像、游戲錄屏畫面等)相結合。整合學習者在解決空間問題過程中產生的多模態、互動的數字痕跡, 以此實現基于多模態數據的空間能力動態評估和反饋。例如, 在時間軸上將多模態數據同步, 根據學習者在完成迷宮任務時的眼動指標(首次注視時間, 注視總時間、注視點分布、注視次數、掃視路徑和瞳孔直徑變化等)、腦電指標(α波、θ波、N2、P2、P3波幅, 頂葉區域Beta波段的ERD現象)分析學習者解決空間問題時的生理表現特征, 基于此提出多模態數據驅動的空間能力模型。3)通過與空間能力外部測試對比驗證本研究證據變量的有效性。使用經典空間能力測試(如Morris水迷宮測試、心理旋轉測試)對同一批被試者展開外部測試, 將測試結果作回歸分析, 驗證本研究空間能力測評任務的有效性。
3.3 "研究3: 視頻游戲影響因素分析與游戲化測評工具開發
本部分通過文獻調研和驗證性對比實驗, 確定視頻游戲影響空間能力的關鍵因素, 明確視頻游戲的人機交互特征, 并使用視頻游戲引擎開發基于游戲的測評工具, 完成空間能力的呈現模型(presentation model); 具體來說, 1)在文獻調研的基礎上, 開展增值研究與認知后果研究, 探討“哪些游戲功能和特征能夠影響空間能力”以及“玩某種游戲是否會影響空間能力”, 以此確定能夠影響各類空間能力的視頻游戲類型(Mayer, 2014)。石祝和尚俊杰(2024)分析了各類視頻游戲的媒介特征, 并構建了視頻游戲影響空間能力的理論機制模型。研究顯示, 視頻游戲影響學習者空間能力的關鍵要素是游戲界面空間維度(2D/3D)和游戲玩法要求的操作速度(actions per minute, APM), 游戲界面要能夠提供與測評任務空間維度相一致的空間刺激, 而游戲玩法要能夠激發學習者與測評任務相對應的認知加工過程。在此視角下, 三維益智游戲(3D puzzle games)兼具三維虛擬空間場景和較慢的游戲節奏, 既能提供與三維心理旋轉、空間可視化、空間導航等測試任務相匹配的空間刺激, 又能鼓勵學習者使用空間認知策略探索環境, 是最有可能影響空間能力的游戲類型。2)使用視頻游戲引擎(如Unreal 5、Unity3D)設計并開發測評空間能力的三維益智游戲。此游戲將在三維虛擬空間場景中構建各類空間能力測試關卡, 玩家以第一人稱視角控制虛擬化身(avatar)在其中探索并完成各類空間能力測試任務。測試任務根據表1所述, 將經典測試任務改編成為游戲關卡, 針對對象操作、掃視透視、空間導航這三種空間能力分別設計一系列由易到難的游戲關卡作為空間能力的測評單元。最后, 設計游戲背景故事將這些關卡整合為一個完整的視頻游戲, 實現空間能力的呈現模型。該呈現模型確定了視頻游戲的交互界面, 并限定了玩家操作行為的邊界, 以此可以進一步明確證據模型應當選取哪些行為表現和后臺數據作為判斷空間能力水平的可觀察變量, 并為測評算法開發奠定基礎。
3.4 "研究4: 基于貝葉斯網絡模型的空間能力測評算法開發
研究4將采用計算建模與機器學習方法, 結合以證據為中心的設計框架與貝葉斯網絡模型, 構建空間能力內在心理表征(熟練度模型)與外在行為表現(任務模型)變量之間的證據關系(證據模型), 設計并開發能夠推斷和預測空間能力的測評算法, 并將其嵌入視頻游戲后臺程序之中, 實現對空間能力的隱形測評。具體來說, 第一步是構建空間能力測評算法, 根據ECD框架來組織變量關系, 該框架的優點在于能夠在復雜表現任務情況下對復雜能力展開測量。因此適用于空間能力的游戲化測評(Choi amp; Mislevy, 2022)。ECD框架的三個核心變量模型分別是熟練度模型(也稱學生模型)、證據模型和任務模型, 三個模型協同運作, 共同構成“熟練度?證據?任務”三級變量網絡, 并最終以呈現模型的形式交付使用(Almond et al., 2015)。在本研究中, 如表1所示, 空間能力內在表征的一、二級分類維度對應熟練度變量, 空間能力外在行為表現對應證據變量(如反應時、正確率等), 而任務變量體現在測評任務的設計之中(如任務難度、虛擬代理數量等)。
本研究選取貝葉斯網絡進行分析和數據建模, 不僅是因為其適用于ECD框架, 而且是因為其在基于游戲的測評中具有諸多優勢(de Klerk et al., 2015)。一是能直觀展現變量關系, 提供圖形化的熟練度模型, 便于整合現有理論和專家知識; 二是作為概率模型, 可從數據中學習并隨數據增加不斷優化; 三是能從游戲環境中獲取學習者表現數據, 提供多粒度實時分析; 四是有可靠軟件支持, 便于構建復雜大型網絡, 降低分析難度(Almond et al., 2015)。此外, 貝葉斯網絡可以使用離散變量快速評價, 適合嵌入到游戲引擎之中。其構建過程如下: 1)根據領域分析(即研究1)所確定的空間能力維度和變量關系構建貝葉斯網絡模型原型, 將空間能力分類變量作為熟練度變量, 搭建貝葉斯網絡的一級和二級節點; 其次, 在潛在評價指標中(見表1), 根據研究2和研究3, 確定適用于空間能力測評的可觀察變量(即證據變量)和任務變量, 并將二者共同作為貝葉斯網絡最低層級的子節點; 第三, 設計證據規則, 按照證據規則將證據變量識別轉化為中介變量, 并進一步匯總計算, 從而推斷空間能力的熟練度變量, 從而使貝葉斯網絡一、二級節點和底層節點依據變量關系連接起來。在形成貝葉斯網絡基本結構之后, 需要根據現有研究證據, 定義每個節點的先驗概率分布(通常使用正態分布), 使用研究2、研究3中學習者空間探索的實驗數據對其進行預訓練, 確定變量節點間的概率分布, 檢查并完善網絡。2)將所有通過計算機自動化收集的交互數據按照Experience API (簡稱xAPI)數據規范整理重構, 將行為變量以“用戶?對象?操作”的格式加以匯總, 以實現多源數據融合的數據建模方法(武法提, 黃石華, 2020)。之后, 將貝葉斯網絡嵌入到游戲后臺程序之中, 每當玩家完成一個游戲關卡時, 系統將自動調取日志文件, 對空間能力貝葉斯網絡的各個子節點(證據變量和任務變量)生成新的證據, 而父節點(即中介變量或熟練度變量)則會根據證據識別和證據積累過程自動更新, 從而實現對空間能力整體和各個子維度能力水平的概率估計。該測評工具將能夠自動記錄學習者的行為數據(如在游戲中的位置、觀察方向和按鍵操作流), 以此來實時追蹤其互動行為, 并能將反映空間能力水平的可觀測變量數據作為證據輸入到貝葉斯網絡中, 從而更新空間能力水平的概率預測。最后, 通過用戶界面將評價結果可視化反饋給教育者和學習者。
3.5 "研究5: 空間能力測評工具的驗證研究與教學實踐
本部分聚焦空間能力游戲化測評的驗證與優化, 旨在通過驗證性實驗與教學實踐, 驗證本研究開發的空間能力測評工具的有效性。首先, 采用心理測量學量表的經典方法, 在實驗室環境中招募參與者(以在校大學生為主)開展隨機對照實驗, 在填寫基本背景信息和所學專業后, 分別完成本研究開發的空間能力游戲化測評和空間能力經典測評。為控制測評媒介帶來的無關變量, 也便于收集和處理數據, 本研究使用計算機化的空間能力經典測評作為外部測試, 包括心理旋轉測試(VMRT)、空間定向測試(SOT)、圣巴巴拉固體測試(SBST)以及虛擬水迷宮測試(VWM)等。通過一致性檢驗、隨機森林回歸、多元線性回歸或結構方程模型, 對比不同工具測評結果之間的相關性, 確定空間能力游戲化測評工具的有效性。將實驗結果數據納入貝葉斯網絡模型, 來進一步訓練和更新空間能力測評系統的參數。
之后, 研究者將使用基于設計的研究方法, 在真實教育情境中與中小學教師長期合作, 對游戲化測評工具開展教學實踐, 通過設計、開發、反復實施的迭代循環, 確保其能夠準確、有效且高效地測評學習者的空間能力(梁林梅 等, 2022)。本部分的目標是通過廣泛的教學實踐來驗證本研究開發的空間能力評估工具在各教育階段的有效性。具體來說, 將依據本課題組在游戲化學習方面的研究經驗, 開發用戶體驗調查問卷和技術接受度問卷展開調研, 并輔以一對一訪談和焦點小組訪談, 收集教師和學生對測評工具的反饋建議, 來對測評工具不斷迭代和優化, 并在此基礎上探索在真實課堂環境中使用空間能力游戲化測評工具的教學模式。
4 "理論建構與創新
空間能力是與語言能力、數字能力并列的人類基本認知能力, 被稱為“所有思考的根基” (周加仙, 蔡永華, 2013)。空間能力不僅影響學習者在數學、科學等學科的學業表現, 而且能夠預測他們未來在STEM領域的職業發展(Wai et al., 2009)。因此, 準確、有效且高效地測評空間能力, 不僅對心理學、認知神經科學、腦科學等研究領域具有重要的科學意義, 而且對于科技創新、航空航海等專業領域的人才選拔和培養具有重要的教育意義和應用價值。由于空間能力具有復雜性、多維度、內隱性的特點, 一直以來, 空間能力的測量和評價都是困擾研究者和教育者的難題。已有研究通常是將空間能力經典紙筆量表數字化, 普遍存在脫離真實情境、數據維度單一、信息量較小、可解釋性與可遷移性差等問題, 難以實現對空間能力的整體理解(Uttal et al., 2013)。當前已經有研究使用三維虛擬空間來測評空間導航能力, 豐富和拓展了空間能力的測評指標(Malanchini "et al., 2020; Ventura et al., 2013; Weisberg et al., 2014; West et al., 2018)。更進一步地, 研究者也開始嘗試基于視頻游戲開發空間能力測評工具, 這不僅拓展了空間能力的過程性指標(Kim et al., 2023; Peters et al., 2021), 而且能收集到傳統測評工具難以獲得的大數據樣本(Coutrot et al., 2019; Xu et al., 2023)。
本研究在前人研究基礎上進一步發展了基于視頻游戲的空間能力測評方法。相比于先前的游戲化測評研究多聚焦于對游戲后臺數據的事后分析, 本研究的創新在于將游戲化測評與多模態學習分析深度融合, 實現了對空間能力的過程性評價和整體性理解。首先, 在自主開發的視頻游戲測評工具中, 創造性地將以證據為中心的設計框架和貝葉斯網絡相結合, 用于識別和匯總能夠推斷學習者空間能力水平的多模態行為數據, 能夠充分利用已有研究和專家背景知識, 并增強了測評模型的可識別性與可解釋性。其次, 創新性地提出多源數據驅動的空間能力測評范式, 構建了整合學習者行為數據(觀察數據)、游戲后臺數據(交互數據), 以及游戲過程中的生理信號數據(情境數據)的多源數據采集機制(郭守超, 2022), 并將以上數據在時間軸上對準, 根據證據規則納入到推斷系統中, 更新對空間能力的概率預測, 實現空間能力的自動化測評。再者, 本研究深入分析視頻游戲影響空間能力的認知機制, 使用三維益智游戲(3D puzzle games)作為訓練和測評空間能力的虛擬環境, 并在視頻游戲中使用xAPI規范自動采集學習者交互數據, 實現空間能力的隱形測評, 可以有效避免測評對學習過程的影響, 以及測試焦慮、霍桑效應等人因誤差, 兼顧內在效度與生態效度, 為未來游戲化空間能力測評工具的推廣應用奠定技術基礎。最后, 本研究旨在實現對空間能力的整體理解, 力求在基于游戲的測評中覆蓋空間能力不同尺度、不同認知過程的特征變量, 通過測評結果進一步豐富和拓展了空間能力的概念和內涵, 為空間能力理論研究提供工具支撐。
本研究使用以證據為中心的設計范式構建了一套獨創性的測評工具, 旨在深化對空間能力的認知。在理論研究基礎上, 借助前沿的多模態分析技術, 在游戲互動的場景下, 同步采集腦電圖、眼球追蹤等多元生理信號, 同時整合游戲后臺的操作日志及行為表現指標。依據“熟練度?證據?任務”的框架結構, 將空間能力各級各類變量整理匯總到貝葉斯網絡模型之中, 構建空間能力的隱形測評, 實現對空間能力的整體理解。本研究所創設的游戲化測評工具, 不僅有效規避了傳統心理測試中常見的局限——如缺乏過程數據、易受社會期望偏差影響等弊端, 更巧妙地利用了視頻游戲作為大眾媒體的強大吸引力, 具備低成本、高覆蓋的優勢。借助社交網絡與互聯網平臺的便捷傳播特性, 游戲化測評能夠激發廣大玩家的參與熱情, 進而收集到海量數據, 其樣本規模可達萬、十萬甚至百萬級。如此龐大的數據樣本為認知能力的大規模群體性研究提供了前所未有的機遇。綜上, 本研究設計的基于視頻游戲的空間能力測評, 有望攻克長久以來空間能力難以量化與評估的難題, 對于大范圍人才選拔與培育工作具有深遠意義, 并能為空間能力研究領域帶來新的突破。
參考文獻
陳鴻舟. (2015). 基于腦電的不同策略下心理旋轉的認知機制研究 [碩士學位論文]. 上海交通大學.
龔鑫, 許潔, 喬愛玲. (2023). 基于沉浸式學習環境的隱形性評估: 機理、框架與應用. 電化教育研究, (12), 64?72.
郭守超. (2022). 數據驅動的空間能力評價研究 [博士學位論文]. 華東師范大學, 上海.
蔣宇, 尚俊杰, 莊紹勇. (2011). 游戲化探究學習模式的設計與應用研究. 中國電化教育, (5), 84?91.
李洪玉, 林崇德. (2005). 中學生空間認知能力結構的研究. 心理科學, 28(2), 269?271.
李一茗, 楊上琦, 黎堅. (2021). 基于游戲的評估: 特殊兒童心理評估的新方向. 中國特殊教育, (12), 90?96.
梁林梅, 蔡建東, 耿倩倩. (2022). 學習科學研究與教育實踐變革: 研究方法論的創新和發展. 電化教育研究, 43(1), 39?45+62.
劉鳴. (2004). 表象研究方法論. 心理科學, 27(2), 258?260.
尚俊杰, 曾嘉靈, 周均奕. (2022). 學習科學視角下的數學空間游戲設計與應用研究. 電化教育研究, 43(7), 63?72.
石祝. (2019). 視頻游戲對中學生空間能力和問題解決能力的影響: 基于視頻游戲《傳送門2》的實證研究 [碩士學位論文]. 北京師范大學.
石祝, 尚俊杰. (2024). 視頻游戲對空間能力的影響與作用機制. 中國電化教育, (5), 32?44+113.
孫鑫, 黎堅, 符植煜. (2018). 利用游戲log-file預測學生推理能力和數學成績——機器學習的應用. 心理學報, 50(7), 761?770.
田陽, 陳鵬, 黃榮懷, 曾海軍. (2019). 面向混合學習的多模態交互分析機制及優化策略. 電化教育研究, 40(9), 67?74.
汪維富, 毛美娟. (2021). 多模態學習分析: 理解與評價真實學習的新路向. 電化教育研究, (2), 25?32.
武法提, 黃石華. (2020). 基于多源數據融合的共享教育數據模型研究. 電化教育研究, 41(5), 59?65+103.
徐俊怡, 李中權. (2021). 基于游戲的心理測評. 心理科學進展, 29(3), 394?403.
晏碧華. (2021). 飛行員空間能力: 認知計算的可塑性與滲透性. 北京: 科學出版社.
張鳳翔, 陳美璇, 蒲藝, 孔祥禎. (2023). 空間導航能力個體差異的多層次形成機制. 心理科學進展, 31(9), 1642? 1664.
張琪, 李福華, 孫基男. (2020). 多模態學習分析: 走向計算教育時代的學習分析學. 中國電化教育, (9), 7? 14+39.
張生, 任巖, 駱方. (2019). 學生高階思維能力的評價: 復雜問題解決的測量述評. 中國特殊教育, (10), 90?96.
周加仙, 蔡永華. (2013). 空間思維能力的認知機制及其對STEM教學的啟示——與美國Nora S. Newcombe院士的對話. 全球教育展望, 42(2), 3?11.
A?ikgül, K., ?ad, S. N., amp; Altay, B. (2023). Spatial ability test for university students: Development, validity and reliability studies. International Journal of Assessment Tools in Education, 10(1), 76?97.
Almond, R. G., Mislevy, R. J., Steinberg, L. S., Yan, D., amp; Williamson, D. M. (2015). The conceptual assessment framework. In Bayesian networks in educational assessment. Springer.
Ardila, A. (2018). Historical development of human cognition: A cultural-historical neuropsychological perspective (Vol. 3). Springer.
Bartlett, K. A., amp; Camba, J. D. (2023). Gender differences in spatial ability: A critical review. Educational Psychology Review, 35(1), 8.
Bodner, G. M., amp; Guay, R. B. (1997). The Purdue visualization of rotations test. The Chemical Educator, 2, 1?17.
Brunec, I. K., Nantais, M. M., Sutton, J. E., Epstein, R. A., amp; Newcombe, N. S. (2023). Exploration patterns shape cognitive map learning. Cognition, 233, 105360.
Choi, Y., amp; Mislevy, R. J. (2022). Evidence centered design framework and dynamic Bayesian network for modeling learning progression in online assessment system. Frontiers in Psychology, 13, 742956.
Cohen, C. A., amp; Hegarty, M. (2012). Inferring cross sections of 3D objects: A new spatial thinking test. Learning and Individual Differences, 22(6), 868?874.
College Entrance Examination Board. (1939). CEEB special aptitude test in spatial relations. Author.
Coutrot, A., Manley, E., Goodroe, S., Gahnstrom, C., Filomena, G., Yesiltepe, D., … Spiers, H. J. (2022). Entropy of city street networks linked to future spatial navigation ability. Nature, 604(7904), 104?110.
Coutrot, A., Schmidt, S., Coutrot, L., Pittman, J., Hong, L., Wiener, J. M., … Spiers, H. J. (2019). Virtual navigation tested on a mobile APP is predictive of real-world wayfinding navigation performance. Public Library of Science ONE, 14(3), e0213272.
Danner, D., Hagemann, D., Holt, D. V., Hager, M., Schankin, A., Wüstenberg, S., amp; Funke, J. (2011). Measuring performance in dynamic decision making: Reliability and validity of the tailorshop simulation. Journal of Individual Differences, 32(4), 225?233.
de Klerk, S., Veldkamp, B. P., amp; Eggen, T. J. (2015). Psychometric analysis of the performance data of simulation-based assessment: A systematic review and a Bayesian network example. Computers amp; Education, (85), 23?34.
Foroughi, C. K., Serraino, C., Parasuraman, R., amp; Boehm- Davis, D. A. (2016). Can we create a measure of fluid intelligence using puzzle creator within Portal 2? Intelligence, 56, 58?64.
Fourtassi, M., Rode, G., amp; Pisella, L. (2017). Using eye movements to explore mental representations of space. Annals of Physical and Rehabilitation Medicine, 60(3), 160?163.
Friedman, A., Kohler, B., Gunalp, P., Boone, A. P., amp; Hegarty, M. (2020). A computerized spatial orientation test. Behavior Research Methods, 52, 799?812.
Gagnon, K. T., Thomas, B. J., Munion, A., Creem-Regehr, S. H., Cashdan, E. A., amp; Stefanucci, J. K. (2018). Not all those who wander are lost: Spatial exploration patterns and their relationship to gender and spatial memory. Cognition, 180, 108?117.
Geer, E. A., Quinn, J. M., amp; Ganley, C. M. (2019). Relations between spatial skills and math performance in elementary school children: A longitudinal investigation. Developmental Psychology, 55(3), 637?652.
Hegarty, M., Richardson, A. E., Montello, D. R., Lovelace, K., amp; Subbiah, I. (2002). Development of a self-report measure of environmental spatial ability. Intelligence, 30(5), 425?447.
Heinzen, T. E., Landrum, R. E., Gurung, R. A. R., amp; Dunn, D. S. (2015). Game-based assessment: The mash-up we've been waiting for. In T. Reiners amp; L. C. Wood (Eds.), Gamification in education and business (pp. 201?217). Springer International Publishing.
Hodgkiss, A., Gilligan, K. A., Tolmie, A. K., Thomas, M. S. C., amp; Farran, E. K. (2018). Spatial cognition and science achievement: The contribution of intrinsic and extrinsic spatial skills from 7 to 11 years. British Journal of Educational Psychology, 88(4), 675?697.
Hong, X., amp; Liu, Q. (2022). Assessing young children's national identity through human-computer interaction: A game-based assessment task. Frontiers in Psychology, 13, 956570.
Hunt, E., amp; Pellegrino, J. (1985). Using interactive computing to expand intelligence testing: A critique and prospectus. Intelligence, 9(3), 207?236.
Kell, H. J., Lubinski, D., Benbow, C. P., amp; Steiger, J. H. (2013). Creativity and technical innovation: Spatial ability’s unique role. Psychological Science, 24(9), 1831? 1836.
Kim, Y. J., amp; Ifenthaler, D. (2019). Game-based assessment: The past ten years and moving forward. In: Ifenthaler, D., Kim, Y. J. (Eds.), Game-based assessment revisited. Advances in Game-Based Learning. Springer, Cham. https://doi.org/10.1007/978-3-030-15569-8_1
Kim, Y. J., Knowles, M. A., Scianna, J., Lin, G., amp; Ruipérez-Valiente, J. A. (2023). Learning analytics application to examine validity and generalizability of game-based assessment for spatial reasoning. British Journal of Educational Technology, 54(1), 355?372.
Kim, Y. J., amp; Shute, V. (2015). The interplay of game elements with psychometric qualities, learning, and enjoyment in game-based assessment. Computers amp; Education, 87, 340?356.
Kong, X. Z., Wang, X., Pu, Y., Huang, L., Hao, X., Zhen, Z., amp; Liu, J. (2017). Human navigation network: The intrinsic functional organization and behavioral relevance. Brain Structure and Function, 222(2), 749?764.
Kress, G., amp; Van Leeuwen, T. (2001). Multimodal discourse: The modes and media of contemporary communication (pp. 20?22). Arnold Publishers.
Li, J., Zhang, B., Du, H., Zhu, Z., amp; Li, Y. M. (2015). Metacognitive planning: Development and validation of an online measure. Psychological Assessment, 27(1), 260?271.
Listman, J. B., Tsay, J. S., Kim, H. E., Mackey, W. E., amp; Heeger, D. J. (2021). Long-term motor learning in the “wild” with high volume video game data. Frontiers in Human Neuroscience, 15, 777779.
Liu, S., Wei, W., Chen, Y., Hugo, P., amp; Zhao, J. (2021). Visual-spatial ability predicts academic achievement through arithmetic and reading abilities. Frontiers in Psychology, 11, 591308.
Loh, C. S., Sheng, Y., amp; Ifenthaler, D. (2015). Serious games analytics: Theoretical framework. In C. S. Loh, Y. Sheng, amp; D. Ifenthaler (Eds.), Serious games analytics. Methodologies for performance measurement, assessment, and improvement (pp. 3?29). Springer.
Lubinski, D. (2010). Spatial ability and STEM: A sleeping giant for talent identification and development. Personality and Individual Differences, 49(4), 344?351.
Malanchini, M., Rimfeld, K., Shakeshaft, N. G., McMillan, A., Schofield, K. L., Rodic, M., … Plomin, R. (2020). Evidence for a unitary structure of spatial cognition beyond general intelligence. NPJ Science of Learning, 5, 9.
Martín-Dorta, N., Saorín, J. L., amp; Contero, M. (2008). Development of a fast remedial course to improve the spatial abilities of engineering students. Journal of Engineering Education, 97(4), 505?513.
Mavridis, A., amp; Tsiatsos, T. (2017). Game-based assessment: Investigating the impact on test anxiety and exam performance. Journal of Computer Assisted Learning, 33(2), 137?150.
Mayer, R. E. (2014). Computer games for learning: An evidence-based approach. Boston Review.
McLaren-Gradinaru, M., Burles, F., Dhillon, I., David, A. L., Umiltà, A., Hannah, J., Dolhan, K., amp; Iaria, G. (2020). A novel training program to improve human spatial orientation: Preliminary findings. Frontiers in Human Neuroscience, 14, 5.
Owen, V. E., amp; Baker, R. S. (2020). Fueling prediction of player decisions: Foundations of feature engineering for optimized behavior modeling in serious games. Technology, Knowledge and Learning, 25(2), 225?250.
Peters, H., Kyngdon, A., amp; Stillwell, D. (2021). Construction and validation of a game-based intelligence assessment in Minecraft. Computers in Human Behavior, 119(5), 106701.
Quiroga, M. á., Escorial, S., Román, F. J., Morillo, D., Jarabo, A., Privado, J., ... Colom, R. (2015). Can we reliably measure the general factor of intelligence (g) through commercial video games? Yes, we can! Intelligence, 53, 1?7.
Roh, C. H., amp; Lee, W. B. (2014). A study of the attention measurement variables of a serious game as a treatment for ADHD. Wireless Personal Communications, 79, 2485?2498.
Shute, V. J., amp; Rahimi, S. (2021). Stealth assessment of creativity in a physics video game. Computers in Human Behavior, 116, 1?13.
Shute, V. J., amp; Ventura, M. (2013). Measuring and supporting learning in video games: Stealth assessment. Cambridge, MA: The MIT Press.
Shute, V. J., Ventura, M., amp; Ke, F. (2015). The power of play: The effects of Portal 2 and Lumosity on cognitive and noncognitive skills. Computers amp; Education, 80, 58?67.
Soares Jr, R. da S., Oku, A. Y. A., Barreto, C. S. F., amp; Sato, J. R. (2022). Applying functional near-infrared spectroscopy and eye-tracking in a naturalistic educational environment to investigate physiological aspects that underlie the cognitive effort of children during mental rotation tests. Frontiers in Human Neuroscience, 16, 889806.
Sorby, S. A., amp; Panther, G. C. (2020). Is the key to better PISA math scores improving spatial skills? Mathematics Education Research Journal, 32(2), 213?233.
Spiers, H. J., Coutrot, A., amp; Hornberger, M. (2023). Explaining world-wide variation in navigation ability from millions of people: Citizen science project Sea Hero Quest. Topics in Cognitive Science, 15(1), 120?138.
Thornberry, C., Cimadevilla, J. M., amp; Commins, S. (2021). Virtual Morris Water Maze: Opportunities and challenges. Reviews in the Neurosciences, 32(8), 887?903.
Uttal, D. H., amp; Cohen, C. A. (2012). Chapter Four - Spatial thinking and STEM education: When, why, and how? Psychology of Learning and Motivation, 57, 147?181.
Uttal, D. H., Meadow, N. G., Tipton, E., Hand, L. L., Alden, A. R., Warren, C., amp; Newcombe, N. S. (2013). The malleability of spatial skills: A meta-analysis of training studies. Psychological Bulletin, 139(2), 352?402.
Vandenberg, S. G., amp; Kuse, A. R. (1978). Mental rotations, a group test of three-dimensional spatial visualization. Perceptual and Motor Skills, 47(2), 599?604.
Ventura, M., Shute, V., Wright, T., amp; Zhao, W. (2013). An investigation of the validity of the virtual spatial navigation assessment. Frontiers in Psychology, 4, 852.
Wai, J., Lubinski, D., amp; Benbow, C. P. (2009). Spatial ability for stem domains: Aligning over 50 years of cumulative psychological knowledge solidifies its importance. Journal of Educational Psychology, 101(4), 817?835.
Waller, D. (2005). The WALKABOUT: Using virtual environments to assess large-scale spatial abilities. Computers in Human Behavior, 21(2), 243?253.
Weisberg, S. M., Schinazi, V. R., Newcombe, N. S., Shipley, T. F., amp; Epstein, R. A. (2014). Variations in cognitive maps: Understanding individual differences in navigation. Journal of Experimental Psychology: Learning, Memory, and Cognition, 40(3), 669?682.
West, G. L., Konishi, K., Diarra, M., Benady-Chorney, J., Drisdelle, B. L., Dahmani, L., ... Bohbot, V. D. (2018). Impact of video games on plasticity of the hippocampus. Molecular Psychiatry, 23(7), 1566?1574.
Xie, F., Zhang, L., Chen, X., amp; Xin, Z. (2020). Is spatial ability related to mathematical ability: A meta-analysis. Educational Psychology Review, 32, 113?155.
Xu, S., Song, Y., amp; Liu, J. (2023). The development of spatial cognition and its malleability assessed in mass population via a mobile game. Psychological Science, 34(3), 345?357.
Xue, J., Li, C., Quan, C., Lu, Y., Yue, J., amp; Zhang, C. (2017). Uncovering the cognitive processes underlying mental rotation: An eye-movement study. Scientific Reports, 7(1), 10076.
Video game-based assessment of spatial ability
SHANG Junjie, SHI Zhu, SHEN Kejie
(Lab of Learning Sciences, Graduate School of Education, Peking University, Beijing 100871, China)
Abstract: Spatial ability refers to the ability of individuals to recognize, encode, store, represent, decompose, combine and abstract objects or spatial figures in their minds, which is the cognitive foundation for understanding one's environment and solving problems. Building an accurate, convenient and effective assessment system of spatial ability is of great significance to the enhancement of STEM education and the quality of talent cultivation. Due to the complex, multi-dimensional and implicit nature of spatial ability, it is difficult to evaluate spatial ability via computer-based assessments. This study aims to accurately, effectively, and massively evaluate spatial ability by using multimodal learning analytics methods to explore the characteristic behavioral expressions of learners' spatial cognition, and by developing key technologies and tools for spatial ability stealth assessment based on video game environments. The specific contents include: 1) Construct a framework for the intrinsic representation of spatial ability and an evaluation index system; 2) Constructing a learner spatial ability behavior performance model based on multimodal learning analysis; 3) Explore the key factors that influence spatial ability in video games, and use game engines to develop game-based assessment tools; 4) Use evidence-centered design frameworks and Bayesian network models to develop and deploy assessment algorithms capable of inferring and predicting spatial abilities; 5) Conduct empirical research in laboratory and real classroom settings to verify the effectiveness of evaluation tools. The research findings will contribute to a better understanding of human spatial cognition processes and behavioral performance, expand and enrich theories related to spatial abilities, and provide key technical support for large-scale digital assessment.
Keywords: game-based assessment, spatial ability, multimodal learning analysis, game-based learning, stealth assessment