摘要:如何有效釋放多源異構教育數據的價值潛能,已成為教育數據治理領域的核心關切。教育數據“使能”的前提,是以通用語義模型實現教育數據的一致性表達與計算,從而突破多系統間的數據“隔離”,提升數據的規范性與聯通性。基于此,該文在分類理論和教育測量理論的基礎上,構建了包含語義抽象維度、教育對象維度和數據特征維度的教育數據空間,并設計了與之對應的教育數據模型。進一步,闡明了該模型的數據結構,包括觀測對象、層次語義、條件約束、數值指標四個組成部分。基于“數智大腦”系統,以蘇州某校為例,展示了教育數據通用語義模型在數據治理實踐中的應用方法與過程。研究結果表明,該模型能夠有效整合來自多平臺、跨場景的多源異構教育數據,支持數據的統一表達與計算,并通過深度畫像釋放其潛在價值。
關鍵詞:教育數據模型;教育數據標準;教育數據治理;教育數字化轉型
中圖分類號:G434 文獻標識碼:A
數據是科學認識事物本質與規律的基礎,也是智能社會發展的核心,教育領域亦不例外。在我國教育數字化轉型過程中,基于新一代信息技術的教育教學模式、服務供給方式和教育治理模式正在不斷構建,旨在釋放教育數據潛能,揭示教育系統中的復雜規律[1]。經過數十年的信息化建設,教育領域已積累了大量數據[2],教育數據正成為推動教育研究和教學改革的關鍵要素。
充分釋放教育數據的價值潛能,需要實現多源異構教育數據間的自由轉化與融合計算,而這依賴于通過教育數據標準或建模等方式實現數據的兼容統一。在廣泛而持續的數據治理實踐中,教育領域已研究并開發了一系列支撐教育系統建設的數據模型、標準和組件,旨在提升各系統間數據表達的一致性并促進數據交換。然而,由于教育領域的特殊性,數據復雜度與規模不斷增加,對教育數據進行有效治理的難度呈指數級拉升,幾乎成為了一項“不可能完成”的任務。這種局面顯然限制了教育數據在一線教學中的利用,其價值化過程長期受阻。具體而言,當前教育數據的有效應用面臨三大挑戰:第一,教育數據類型繁多且結構復雜,難以被清晰辨識和系統組織[3];第二,不同教育教學系統間的數據兼容性依然較弱,數據交換困難,且推動數據標準化的成本極高[4];第三,多數教育數據系統為技術性實現,一線教育工作者難以理解和直接使用數據,更難以根據具體需求個性化調整。這些問題共同制約了教育數據在實踐中的價值發揮。
為應對數據治理過程中的挑戰,關鍵在于實現多維復雜教育數據的統一語義表達[5]。本研究聚焦于教育數據內在邏輯的統一化與語義化,旨在構建支持多源異構教育數據的通用語義模型,支撐教育數據在分散系統間的準確理解、一致流動與計算轉化[6],以突破數據價值釋放的瓶頸。
(一)教育數據治理瓶頸的深層原因
1.“教育數據”本體內涵理解尚未清晰統一
教育數據治理的突破關鍵在于對教育數據本身的深入理解。盡管已有大量研究試圖界定“教育數據”的內涵,但其定義仍難以精準描述。有學者認為,教育數據用于描述學生、教師、學校等實體的屬性和特征,包括成績、教學質量、可靠性、有效性以及相關標準與指標。Data-based Decision Making in Education一書中,Schildkamp和Lai等將教育數據定義為通過定性或定量方法收集的,涵蓋學生、學校、領導和教師的信息[7]。謝娟則將教育數據界定為與教育中個體相關的信息或數據產物,如個人信息、思維習慣和性格特點[8]。楊現民等進一步將教育數據區分為兩類:廣義上源自教育活動的人類行為數據,以及狹義上來源于管理系統和在線平臺的學習者行為數據[9]。盡管上述研究從多個角度嘗試對教育數據的內涵進行界定,但尚未在學界達成對教育數據本體的一致理解。同時,現有定義在表達教育數據內涵時,未能以適當的粒度全面體現其領域的完備性和結構性,因而在治理設計中對教育數據的認識仍顯不足,制約了相關實踐的深入推進。
2.教育數據的復雜性挑戰未得到有效應對
教育數據的內涵復雜性[10],本質上由其領域特點決定:(1)教育數據來源廣泛,涵蓋學生、教師、家長等多類主體,涉及個體、班級、學校、區域等多個層面,并通過物聯網、平臺采集和圖像識別等多種技術手段獲取;(2)教育數據形態多樣,覆蓋教學、評估、管理及資源等多個領域,表現為結構化、半結構化和非結構化等多種載體形式[11];(3)教育數據與環境緊密相關,其生成過程天然具備時空特性,體現出情境的動態性與時效性[12];(4)教育數據具有抽象、主觀和難以量化的特點[13],由于學習活動以“人”為中心,故教育數據涵蓋從外顯行為到內隱心理的多維表達[14]。這些特征的共現不僅決定了教育數據的內涵復雜,也推動其邊界持續擴展。在教育數字化轉型過程中,各類教育系統間的不同要素關系進一步復雜化,延展至跨系統、跨應用、跨場景的多維學習時空,顯著增加了教育數據在兼容表達與交換生成的難度,嚴重制約了應用價值的實現[15]。
(二)教育數據建模的現狀應對
1.國內外對教育數據的建模
近年來,國際上不斷推動教育數據模型的應用與改進。美國教育統計中心主導的通用教育數據標準(Common Education Data Standards,CEDS)構建了教育數據基礎模型,將教育領域細分為13個“域”,并通過“實體”來描述每個“域”的組成;針對每個“實體”,進一步定義了多個數據“元素”,通過統一命名約定確保數據的一致性[16]。教育數據聯盟(Ed-Fi Alliance)提出的統一數據模型(Unifying Data Model,UDM)進一步強化了“以學生為中心”的數據表達,采用統一建模語言(UML)類圖的方式,捕捉教育領域中實體、屬性與關聯的邏輯結構[17]。學校互操作框架協會(SIFA)構建的學校互操作框架(SIF)通過基于XML的數據模型提升了教育技術間的互操作性。該框架不僅包含數據模型,還定義了數據交換架構和協議,能夠與其他基礎教育數據模型(如CEDS)協同工作[18]。IMS全球學習聯盟(IMS Global Learning Consortium)制定的Caliper Analytics標準,提供了一套詳盡的規范來描述、收集與交換學習活動數據,旨在通過多種指標與事件類型捕捉學生在不同學習平臺和應用中的互動,幫助教育機構從數字資源中提取學習數據[19]。
我國教育數據治理正在從無到有逐步推進,盡管已發布相關標準和規定,但尚未形成完整的教育數據模型,現階段仍以對數據物理層格式的一致性定義為基礎開展治理工作。2022年11月,教育部發布了《教育基礎數據》《教育系統人員基礎數據》和《中小學校基礎數據》等三項標準[20],明確了教職工和學生基本信息的數據格式,以及學校、在校人員和教學活動的基本數據規范。與國際上通過數據架構規范實現數據共享的路徑不同,我國主要采用自上而下的行政手段推動基礎教育數據的統一管理,具體措施:一是在區級、市級層面實現基礎教育數據的標準化存儲、服務和利用;二是開發區域教育數據一體化系統以整合數據資源。在政策指導下,各省市相繼出臺了相關管理細則,如浙江省的《教育管理基礎數據元素和代碼規范標準》[21]和上海市的《上海教育數據管理辦法(試行)》[22]。然而,教育數據治理的深入離不開教育數據模型。為此,學術界開展了相應研究,顧小清等提出的新一代學習操作系統,將教育數據模型與智能算法融合,構建了“數智大腦”這一教育數據中樞[23];武法提等則基于多源數據融合,設計了一種共享教育數據模型,并結合國際通用的xAPI數據規范,對異構學習記錄數據進行標準化處理與格式生成[24]。
2.主流教育數據模型的比較
從教育數據定義、類型支持、表達與轉化能力、實施難度四個維度對主流教育數據模型進行了比較,如表1所示。總體而言,目前大多數教育數據模型僅適用于特定教育場景下已定義的部分數據類型,這意味著在面對新類型教育數據時,往往需要通過升級模型來實現,難以滿足多變的教育數據治理需求。與此同時,少數相對通用的模型,如CEDS,雖然具有一定的普適性,但其應用仍局限于對特定的、有限類型的教育數據進行統一命名,未能深度解耦多元教育場景,也未建立更為抽象和統一的教育數據構型,因此無法支持復雜場景的教育數據表達。此外,這些主流的教育數據模型大多僅在支持有限的教育數據類型定義上進行了技術性規范,未能明確教育數據的多維語義。顯然,這類模型更多側重于技術層面的規范化,且難以為一線教師提供通用且具有清晰業務語義的數據使用支持。


多樣化來源的數據需要被有效地承載與處理,以多種形式生成價值信息,并傳遞給不同的數據消費者和設備。這對教育數據模型提出了支持數據生命周期各種階段與狀態的能力要求,同時依賴相適配的基礎設施和工具提供全方位支持[25]。本研究以“教育數據”本體為整體建模對象,構建一種形式通用、語義清晰的教育數據模型,旨在通過統一結構和表達方式,兼容擴展對多源異構教育數據的支持。該模型的目標是降低不同系統間數據在兼容、理解、轉換和融合方面的成本,從而使得突破數據孤島的目標成為現實可能。
(一)教育數據本體表達需統一與貫通
從數據科學視角看,數據拓展了傳統哲學中“數”的概念,其本質為傳遞信息的符號載體,能夠直接或間接表達客觀事物的性質、關系和尺度[26]。教育數據,顧名思義是指教育領域中的數據。根據其價值邊界,教育數據可被描述為:在教育教學過程中,由人、事、物、場、境等構成的質性與量化信息的符號集合。這些數據不僅包含對客觀教學要素的刻畫,還包括與人相關的主觀認知表達,具有重要的理解和應用價值[27]。需要強調的是,教育數據的邊界并非固定不變,而是隨著環境和需求的變化不斷延展,體現出動態性與適應性,如圖1所示。

在復雜且動態的教育數據邊界內,實現數據的規范化存儲、表達與轉換,需要對多源異構數據進行縝密的邏輯梳理與分類集中[28]。為了融合不同來源、格式和維度的教育數據,并對其進行多角度的價值化,必須在更高的抽象層面上理解和把握教育數據,這使得建模的核心集中于“教育數據”這一概念本體。因此,有必要構建“教育數據”本體的基本結構,并深入提煉和重組其關鍵特征,從而整合不同類型的教育數據及技術實現規格,通過“通用”設計消解“異構”帶來的挑戰,最終實現數據的跨域共享和有效利用。
(二)教育數據多維語義需被全面表達
不同視角和策略下構建的教育數據模型,反映了教育數據在深度、廣度、側重和靈活性等方面的差異。這些差異不僅體現了對數據特性多樣化的理解,也直接影響了模型的功能特點和適用范圍,同時進一步約束了教育數據的利用方式與潛力。教育數據的價值植根于學習的本質,其構型自然要體現數據的學習相關語義層次,而這要求在教育語境下對數據內涵及其價值化過程進行深入解釋[29]。教育數據的語義表達需以數值的多維語義結構化為基礎,構建數據語義模型,以實現對數據語義在多維、多層次上的揭示[30]。
異構融合的教育數據模型需滿足以下語義表達要求:第一,在空間維度上合理界定教育領域的實體類型,確保模型結構能夠承載衍生實體及規則,從而提高數據表達粒度和業務滲透深度;第二,在價值維度上適配教育數據的基本語義抽象與情境化特征,包容其處理過程中的樣態變化,釋放數據在轉化環節中的價值[31];第三,支持豐富的教育領域元素及復雜結構的建立,清晰、準確表達教育數據的含義,避免語言模糊問題,確保語義具有高區分度[32]。通過對教育數據語義的多維表達,可以深化其在教學與學習層面的理解與分析,進一步釋放數據潛能。
(一)關鍵理論
基于教育數據本體構建的通用語義模型,其核心在于將教育領域中的實體、語義及關系抽象為一套普適且可量化的復雜分類體系。分類相關理論的引入能夠有效優化概念的組織方式,并與教育測量理論相結合,共同提升教育數據模型的科學性與實用性,從而更好地服務于教育數據的表達與應用。
1.質性:分類與類型
涂爾干指出,“分類是指人們把事物、事件以及有關世界的事實劃分成類和種,使之各有歸屬,并確定它們的包含或排斥關系的過程。”[33]面對雜亂的事物或現象,分類能夠有效地減少復雜性。采用分類的思維和方法,可以從混亂中帶來秩序,清晰地定位屬性空間的多個重要維度,有序地聚集同質類型[34]。類型學認為,在描述一個對象或對象集合時,必然會使用有限數量的性質,這些性質在形式上屬于變量。多個變量的組合形成屬性空間,而類型學在屬性空間中創造了選定的部分。因此,類型學實際上是對屬性空間的歸約,即選擇一定數量的變量組合[35],這些組合便構成了所謂的“類型”。
在古典類型學的研究中,Weber提出的理想類型(Ideal Type)、Becker和McKinney提出的構造類型(Constructed Type)、Simmel提出的實在類型(Real Type)等都是較為著名的概念類型。Bailey對上述概念類型分析后,提出了類型構成的三層模型(Three-Level Model)[36],如圖2所示。模型的三個層次包括概念層次(Conceptual Level)、經驗層次(Empirical Level)和指標層次(Indicator Level)。概念層次由純粹概念類型的類型學所代表,只對概念進行分類,可以完全是假設或想象的結構,沒有經驗的對應;經驗層次則只對經驗實體進行分類,沒有概念理論的對應;而指標層次是前兩者的結合,通過將概念層面(X)和經驗層面(X’)映射到第三層面(X”)而形成。由三層模型闡釋的類型系統,體現了人類質性認識客體的基本結構。

2.量化:教育測量
教育數據的獲取反映教育測量的過程,是對教育主體在特定維度上的屬性描述,尤其體現為一種量化描述[38]。教育測量揭示了客體認識的質與量統一的內在過程。楊向東指出,教育測量是測量理論和建構理論的有機結合[39]。在結構主義范式下,人類的認知結構和過程,即知識的獲得、存儲、組合和運用成為心理學的研究對象;而從認知結構和過程中提煉出的智力、學業成就、動機、態度、個性等心理屬性被稱為“建構”(Construct)[40]。測量試圖以“量”描述不同對象在同一屬性上的相似或差異,通過設想的模型結構,將觀測指標與心理屬性進行聯結[41]。Mislevy認為,測量是基于證據的推理過程,通過特定情境下的表現推斷一般情況下的認知和行為[42]。他的研究團隊提出了包含任務模型、學生模型和證據模型的以證據為中心的測驗設計框架[43]。任務模型的輸出是個體在任務情境下的表現;學生模型以變量形式描述測量的屬性和建構;證據模型則作為橋梁,將觀測數據與心理屬性聯結,可被分為測量模型和評分模型。評分模型提供評分標準,測量模型則將觀測數值與屬性變量聯結,最終實現從外顯行為數據到心理屬性數據的轉換。
(二)構建過程
1.“教育數據”本體的抽象、多維與分層
通過維度分層的邏輯策略對教育數據進行抽象,可以從整體框架上把握其基本構成,為復雜數據分類和統一語義化過程提供骨架。該抽象框架可分為意義深化層、領域表達層和教育數據層,通過關鍵維度的組合,從教育對象與關系到質性語義表達,再到數據特征量化,逐層深入實現教育數據的結構化表達,如圖3所示:(1)意義深化層提取了語義抽象維度,反映了教育數據中深層語義信息,是實現數據驅動決策的關鍵。該維度表達了教育活動中相關數據的意義信息,體現了數據從直觀表象向深層意義的轉換,支持語義的精準表達;(2)領域表達層包括教育對象維度和語義抽象維度,在意義深化層的基礎上擴展了教育對象這一實體要素。教育對象維度關聯特定教育場景中的對象實體,如學生、教師、學校、班級等,表達數據所反映的主要教育對象加上語義抽象維度對數據質性含義的表達,共同實現了特定教育對象的數據領域意義表達,支撐了教育領域豐富且有層次的語義圖景;(3)教育數據層包括教育對象維度、語義抽象維度和數據特征維度。數據特征維度提供了教育數據的統計和計量特征的量化表達,支持數據的數值化。三個維度共同構成了教育數據層的整體結構,支撐教育數據的領域意義表達和量化。

2.構建開放多維的教育數據空間
教育數據的維度分層為教育數據空間的形成提供了邏輯基礎。語義抽象維度、教育對象維度和數據特征維度共同構成了可拓展的教育數據空間,如圖4所示。該空間中的每個位置代表一個特定類型的教育數據,其中語義抽象維度是教育數據意義表達的核心,體現核心價值。

在語義抽象維度上,經歷了對前述教育測量理論中內涵要素的取舍,本研究將教育數據分為四個價值階段:描述階段、計量階段、證明階段和概念階段。相應地,教育數據在此維度上可被分為四種基本類型:描述類數據、計量類數據、證據類數據和屬性類數據。這四種類型數據反映了從外顯行為到內在建構的全過程,貫通了教育數據價值轉化的鏈條,如圖5所示:描述類數據以直接記錄具體客觀對象的表象信息為主,通常以非結構化或半結構化的數據形式存在,也可通過類似xAPI的結構化描述標準進行記錄[44];計量類數據通過數學或心理統計對真實狀態或行為進行量化,核心作用在于將描述類信息初步轉化為數值,進一步可作為教育測量中的觀測數據,為心理屬性的評分提供佐證。證據類數據對教育對象特定行為或狀態的假設斷言進行評分,其數值反映斷言在現有證據(描述類數據和計量類數據)支持下的達成度。屬性類數據則作為最終的測量產物,通過前面三類數據實現教育測量中的數據轉化過程,將動機、學習態度等抽象心理屬性以數值的形式進行展現[45]。
教育對象維度可以覆蓋教育領域內的多種實體,且具有高拓展性。參考CEDS模型,教育實體包括教育數據所關聯的人、概念、資源、組織單位(如學校、年級)等[46]。基于領域驅動的設計方法,每種教育實體被分為個體和群體兩種形式,例如學生個體和學生群體。在此基礎上,進一步形成不同粒度的實體關系,例如班級可以包含學生群體,也可作為行政班個體存在,這為教育數據的準確表達提供了結構基礎[47]。
數據特征維度則包括數據表達的基本要素:質性描述和量化取值。量化維度上不同的等級劃分或數值取值,在現實中對應不同的質性意義。例如,學科成績取值為A,代表優秀;取值為B,代表良好。同時,數據特征維度可被區分為統計類數據和非統計類數據:區別于僅反映樣本中個體特征的非統計類數據,統計類數據反映樣本總體對個體量化水平的估計,并與教育實體中的群體型實體適配,從而形成數據類型上的約束。
3.以通用語義模型形式化教育數據空間
教育數據空間與通用語義的教育數據模型之間存在一體兩面的映射關系。一方面,教育數據空間的全域覆蓋揭示了教育數據模型達成“通用”能力的可行性,并從多個維度規約數據要素的構成;另一方面,數據模型通過數據空間中各維度所包含的屬性形成統一的教育語義表達,以豐富的教育數據分類對應教育數據空間的不同區塊。教育數據通用語義模型由四部分構成:(1)觀測對象;(2)層次語義;(3)條件約束;(4)數值指標,對應于教育數據空間的教育對象維度、語義抽象維度和數據特征維度,如下頁圖6所示。每部分都有特定的屬性限制、類型要求和取值要求;當所有維度屬性的類型和取值確定后,即生成了一條符合通用語義模型的教育數據。

觀測對象部分由教育實體構成,以標識被感知或測量的教育對象,如教師、學生、班級、學校等個體和群體,支持拓展。層次語義部分承載教育數據的主要意義價值,由輔助實體、語義抽象類型和語義內容三部分組成:輔助實體捕捉反映被測量對象(即教育實體)的直接數據來源,如試卷、作業、項目等,若為空,則表示該教育數據直接來自于對教育實體的觀測;語義抽象類型屬性有四種取值,分別為抽象屬性類數據、證據評分類數據、基礎計量類數據和描述記錄類數據,通過確定該屬性值,可以明確教育數據在轉化過程中所處的價值環節;語義內容屬性以短語或句子結構呈現,主要為非結構化的文本信息,體現教育數據的豐富含義,如“學生在A活動中表現出的領導力”。條件約束部分由時空等條件屬性構成,可加入“地點”條件,支持拓展,以使教育數據的指向更加明確。
此外,數值指標部分由統計特性、度量規則和數據值三個屬性組成。數據值表達教育數據中量化的具體數值以及數值所對應的質性含義。但值得注意的是,質性描述和量化取值之間需具有明確的映射關系以實現質與量的統一,如“深入理解”和“操作熟練”分別對應分值段“80-100”和“40-60”。度量規則屬性則指向限制質性和量化取值的規則,通常為度量單位,如次、分、秒。此外,數值指標部分還標識統計特性,若取值為統計量,則表示該教育數據與某個群體型教育實體相關,其目的在于為特定教育數據的運算規則提供標識。

(一)實踐案例
1.案例背景與實施動因
蘇州市Y實驗學校正積極推進以素養發展為導向的教學改革,已常態化應用多種教學工具,包括互動問答、作業練習、閱卷系統、課堂小測驗以及在線學習平臺,這些工具中留存了多種教育數據。為充分發揮數據價值,學校嘗試構建融合多維信息的學生能力深度畫像,逐步實現基于數據循證的綜合素質評價。然而,實踐中面臨多重數據挑戰:教師通過問卷和量表收集的評價數據難以統一存儲與整合;各應用中數據的語義模糊且格式不兼容,導致對齊成本極高等。目前,業內普遍通過建立以數據倉庫為核心的數字基座,依賴技術人員對有限且簡單的數據進行配置和畫像生成。然而,這種架構無法支持一線教學中對數據個性化和靈活應用的深層需求,嚴重制約了教育數據價值的有效發揮。
受限于現實條件,Y學校當前主要通過將系統數據導出為表格文件并依賴人工處理來滿足需求。然而,這種方法不僅工作量大且繁瑣,還需要反復簡化,最終得到的“學生畫像”難以實現學校對學生信息深度刻畫和精準分析的目標。基于本研究提出的教育數據通用語義模型設計并開發的“數智大腦”系統[48],能夠實現多樣化業務數據的精準表達、一致存儲與高效整合,從而有效解決學校在數據價值化過程中面臨的難題。
2.教育數據通用語義模型的作用過程與效果
數智大腦系統通過通用語義模型對Y學校常態化存儲的多源異構教育數據進行匯集、整合與治理,并基于此,通過數據融合計算支持學生畫像的深度構建。表2展示了學校當前可采集的教育數據,可以發現該校的數據類型較為多樣,但在來源和結構上存在較大差異。

在數智大腦系統中,所有“教育數據”均基于本體視角,采用通用語義模型結構進行存儲和表達。Y實驗學校將現有教育應用數據通過文檔和API接入,將其與教師日常填寫和收集的數據表格一起傳入數智大腦,進行數據結構和格式的統一化與語義化處理,如圖7所示。以學生A的教育數據為例,其“學生學習投入度”需要多種教育數據的支持,包括“學生課堂參與表現”“學生課堂測驗表現”和“學生技術使用表現”等證據評分數據,以及“學生課堂舉手提問次數”“學生課堂回答問題次數”和“學生課堂參與討論次數”等基礎計量數據。每項數據都必須具備明確的語義和測度規格。通過這一方式,數據能夠在系統中以統一結構進行交換、轉化和生成,避免了數據表達與處理對業務邏輯的依賴,從而顯著簡化了系統建模和工程實現的難度。

數智大腦系統以教育數據通用語義模型為核心,延展其功能設計,帶來了操作簡便、理解直觀和應用靈活的系統體驗。教師可以根據需求提取和調取數據,調整運算邏輯,支持深層語義的數據血緣,從而實現學習投入度的深度刻畫。需要指出的是,這一過程不僅包含客觀采集和系統生成的數據,還結合了主觀評價數據。這種方法在真實數據應用中極為常見,體現了“以教育數據通用語義模型表達教育數據”對治理實踐挑戰的有效回應。
(二)結語
本文基于類型學和教育測量理論,構建了一個靈活開放的教育數據通用語義模型,旨在從根本上解決多源異構教育數據的融合與價值化問題。該模型可替代物理層的教育數據標準,通過統一的邏輯結構實現物理結構的對齊,支持多維教育數據的精準語義表達和一致性計算轉化,為教育數據的復雜處理和價值釋放提供了切實可行的結構形式和工程基礎。
當前,數智大腦系統已在部分學校得到應用,通過連通數據孤島、顯化數據價值,有效推動了教育數據治理的實踐。未來,教育數據通用語義模型將在實際使用中持續優化,主要包括以下方向:(1)借助智能技術,自動生成并校準教育數據的類型和子類型;(2)實現對XML、Excel等通用文檔格式的教育數據條目的語義映射與結構轉換;(3)構建專用的教育數據運算邏輯與規則體系。盡管該路徑面臨設計與開發的高度復雜性,對領域專家與架構設計人員提出較高要求,但在降低教育數據治理實施成本方面,其潛在效益依然顯著,具有重要的應用價值。
參考文獻:
[1] 劉三女牙,彭晛等.數據新要素視域下的智能教育:模型、路徑和挑戰[J].電化教育研究,2021,42(9):5-11+19.
[2] 徐峰,吳旻瑜等.教育數據治理:問題、思考與對策[J].開放教育研究,2018,24(2):107-112.
[3] 王娟,楊現民等.大數據時代教育政務數據開放的風險分析及防控策略研究[J].中國電化教育,2020,(6):95-103.
[4] 許曉東,彭嫻等.美國通用教育數據標準對我國高等教育數據治理的啟示[J].高等工程教育研究,2019,(1):103-108.
[5][25][31] 祝智庭,彭紅超等.解讀教育數據智慧[J].開放教育研究,2017,23(5):21-29.
[6] Wise A F, Shaffer D W. Why theory matters more than ever in the age of big data [J].Journal of Learning Analytics,2015,2(2):5-13.
[7] Schildkamp K,Lai M K,Earl L.Data-based decision making in education: Challenges and opportunities [M]. Dordrecht,Netherlands:Springer Dordrecht,2012.
[8] 謝娟.教育數據治理的倫理框架:價值、向度與路徑[J].現代遠程教育研究,2020,32(5):15-24.
[9] 楊現民,陳世超等.大數據時代區域教育數據網絡建設及關鍵問題探討[J].電化教育研究,2017,38(1):37-46.
[10] 吳南中,黃治虎等.大數據視角下“互聯網+教育”生態觀及其建構[J].中國電化教育,2018,(10):22-30.
[11][13][28] 金玉梅,陳航.教育大數據挖掘的價值定位、現實限制與有效策略[J].教育理論與實踐,2021,41(19):3-8.
[12] 劉三女牙,楊宗凱等.教育數據倫理:大數據時代教育的新挑戰[J].教育研究,2017,38(4):15-20.
[14] 劉三女牙,李卿等.量化學習:數字化學習發展前瞻[J].教育研究,2016, 37(7):119-126.
[15][29][48] 顧小清,王羽萱.以學習操作系統構建數字化轉型的數智動能[J].電化教育研究,2024,45(2):55-61+70.
[16][46] U.S. Department of Education. Common Education Data Standards [DB/OL]. https://ceds.ed.gov/dataModel.aspx,2024-04-02.
[17] Ed-Fi Alliance. Ed-Fi Unifying Data Model [DB/OL]. https://edfi. atlassian.net/wiki/spaces/EFDS5/pages/26706992/Ed-Fi+Unifying+Data+ Model,2024-12-13.
[18] Schools Interoperability Framework Association. Schools Interoperability Framework [DB/OL]. http://specification.sifassociation.org/Implementation/ NA/4.3/,2022-10-27.
[19] IMS Global Learning Consortium. Caliper Analytics [DB/OL]. https:// www.imsglobal.org/spec/caliper/v1p2,2020-03-27.
[20] 教科信函[2022]57號,教育部關于發布《教育基礎數據》等三項教育行業標準的通知[Z].
[21] 浙教辦技[2021]50號,浙江省教育廳辦公室關于印發教育管理基礎數據元素和代碼規范標準的通知[Z].
[22] 滬教委信息[2019]33號,關于印發《上海教育數據管理辦法(試行)》的通知[Z].
[23] 顧小清,李世瑾.人工智能教育大腦:以數據驅動教育治理與教學創新的技術框架[J].中國電化教育,2021,(1):80-88.
[24] 武法提,黃石華.基于多源數據融合的共享教育數據模型研究[J].電化教育研究,2020,41(5):59-65+103.
[26] 沈書生.聚焦學習決策:指向認知發生的數據及其應用[J].電化教育研究,2021,42(11):13-19.
[27] 顧小清,杜華等.智慧教育的理論框架、實踐路徑、發展脈絡及未來圖景[J].華東師范大學學報(教育科學版),2021,39(8):20-32.
[30] 孫豐滿.電子文件管理元數據值語義結構化分析[J].現代圖書情報技術,2008,(10):16-21.
[32] 孫豐滿.電子文件管理元數據元素語義的結構化探索[J].中國圖書館學報,2009,35(1):97-103.
[33] [法]愛彌爾·涂爾干,[法]馬塞爾·莫斯.原始分類[M].上海:上海人民出版社,2005.
[34][36][37] Bailey K D.Typologies and taxonomies: An introduction to classification techniques [M].Thousand Oaks,California:Sage Publications,1994.
[35] Capecchi V.On the definition of typology and classification in sociology [J]. Quality and Quantity,1968,2(1):9-30.
[38] 陳榮榮.數據驅動學校教育教學改進的進階路徑[J].教學與管理,2023,(21):35-38.
[39][45] 楊向東.理論驅動的心理與教育測量學[M].上海:華東師范大學出版社,2014.
[40] Snow R E,Lohman D F.Implications of cognitive psychology for educational measurement [M].New York,USA; Macmillan,1989.263-331.
[41] Borsboom D.Measuring the mind: Conceptual issues in contemporary psychometrics [M].Cambridge,United Kingdom:Cambridge University Press,2005.
[42][43] Mislevy R J.Test theory reconceived [J].Journal of Educational Measurement,1996,33(4):379-416.
[44] 顧小清,鄭隆威等.獲取教育大數據:基于xAPI規范對學習經歷數據的獲取與共享[J].現代遠程教育研究,2014,(5):13-23.
[47] 伊文斯.領域驅動設計:軟件核心復雜性應對之道[M].北京:人民郵電出版社,2016.
作者簡介:
彭振宇:在讀博士,研究方向為教育數據治理、學習科學與技術設計。
王羽萱:在讀碩士,研究方向為教育數字化轉型、學習分析。
Overcoming the Bottleneck in Value Extraction: Construction and Application of a Universal Semantic Model for Multi-source Heterogeneous Educational Data
Peng Zhenyu, Wang Yuxuan
Department of Educational Information Technology, East China Normal University, Shanghai 200062
Abstract: The effective unlocking of the value potential of multi-source, heterogeneous educational data has become a core issue in the field of educational data governance. The key to “empowering” educational data lies in achieving consistent representation and computation of data through a universal semantic model, thereby breaking down data “silos” across multiple systems and enhancing the standardization and connectivity of the data. Based on classification theory and educational measurement theory, this study constructs an educational data space encompassing three dimensions: semantic abstraction, educational entities, and data characteristics, and develops a corresponding educational data model. Furthermore, the study clarifies the data structure of this model, which consists of four components: observation objects, hierarchical semantics, conditional constraints, and numerical indicators. Utilizing the “Smart Brain” system, the paper demonstrates the application methods and processes of the universal semantic model for educational data governance through a case study at a school in Suzhou. The findings show that this model effectively integrates multi-source, heterogeneous educational data across platforms and scenarios, supports unified data expression and computation, and leverages deep profiling to unlock its latent value.
Keywords: educational data model; educational data standard; educational data governance; educational digital transformation
收稿日期:2025年1月10日
責任編輯:宋靈青