趙金暉,程學林,張圣揚,張 微,尹天鶴
(1.浙江大學 軟件學院,浙江 寧波 315100;2.寧波數聯軟件有限公司,浙江 寧波 315100;3.寧波工程學院,浙江 寧波 315100)
近年來,各類在各級教育中的信息均取得了豐碩的成果,基礎教育,職業教育,高等教育和繼續教育與自己的需求相結合的領域,都出現了擴大資源的覆蓋面,促進教育公平和提高教育教學質量等的利用信息技術的典型應用,教育信息化帶動作用日益凸顯[1]。
目前,云計算、大數據、物聯網等新興技術正廣泛應用于各行業,信息社會作為一個整體的程度不斷加深。同樣,互聯網思維在傳統教育行業中的實踐方興未艾,教育行政部門和學校都積極推進教育信息化改革[2]。
教育信息化在各個階段的表現包括但不限于多媒體教學、家校互動以及教學教務線上化、覆蓋教學測評的題庫組卷和閱卷系統、豐富的線上教學資源。教育信息化水平日漸提高,但測試仍然是重要的學業評價和控制手段[3-4]。教育信息化不僅包括教學活動信息化,還包括校園生活管理系統,豐富的校園生活數據是優化教務教學管理決策重要的參考,如圍繞校一卡通收集的消費、考勤等行為數據。
在信息化進程中,不僅要建設與安全并重,在注重硬件與軟件協同發展的同時,還要重視數據采集和維護管理。數據是教育信息化中科學決策、精細管理、即時分析的基礎。然而粗放式數據管理普遍存在,標準化的數據流程勢在必行,最終實現數據的有序開放與共享[5-6]。
另一方面在新高考政策下,高考從標配走向自選,從選課到教學的多個環節對信息化需求日益旺盛。學生如何選課、學校如何開設課程、教學如何考核、學業水平如何分析等成為學校和教育信息化企業關注的焦點。其本質是滿足教學的個性化需求[7]。
該文以寧波市某中學教學數據應用為場景,基于該學校采集和存儲的學生個人信息、考試成績、校園一卡通等豐富的校園數據,結合數據可視分析和數據倉庫的理論方法,探索面向學生、校園的數據分析體系,設計并形成可視化數據分析門戶,為教學數據可視分析提供敏捷方案,從而更好地服務精細化教學管理工作[8]。
教學數據可視分析的實施以學校原有系統正常運行為基礎。教學數據可視分析系統的數據架構則關注數據上云和數據倉庫的建設[9-11],最終數據可視化分段則通過商業智能工具,構建可視分析門戶[12-13],并結合具體教學數據分析模型,展示教學數據的可視分析結果[14]。該方案采用的整體數據處理架構如圖1所示。

圖1 數據架構
教學數據源,通常是分布在不同的教務系統和數據庫中,為了便于從多源異構的數據源中抽取、轉換、加載數據,保證數據采集過程規范化和文檔化,該文提供了專門的ETL過程解決方案,可以實現數據上云過程的文檔化和自動化。
數據倉庫是系統的數據中心,也是數據源和商業智能間的數據中轉站。借鑒企業信息化工廠體系,在關系型數據庫上建立數據倉庫和數據集市,數據集市中的數據直接供給商業智能工具。數據源到數據倉庫,數據倉庫到數據集市的ETL過程承載了計算的負荷,從而加速商業智能響應。商業智能工具直接從數據量較小的數據集市調用數據,數據檢索的負荷低,響應快。
圖2是分析學生成績數據建立的ER模型,其中測驗實體是該ER模型的核心,一個班級進行的一場考試就是一場測驗,也可以涵蓋少數群體的考試。一次考核包括多科目的測驗。ER模型還涉及學生班級年級間的隸屬關系、班主任和班級間的對應關系、任課教師和班級間的對應關系。

圖2 數據倉庫ER建模
圖3則是在圖2的基礎上,面向成績主題分析建立的星型模型,其中的實體表和聯系表派生于ER模型。成績單事實表為成績單聯系表(即學生-測試聯系表)。事實表與學生、教師、日期、考試等維度表進行關聯,并通過ETL進行數據的聚合。

圖3 數據倉庫星型模式建模
教學數據可視分析系統面向全體在校師生,基本的數據分析需求可以簡單地劃分為學生域數據分析和群體域數據分析,從多個維度對數據進行描述性統計分析,將積淀的數據以直觀的方式呈現出來。校園師生通過登錄教學數據可視分析系統可以獲取自身相關的歷史或截面數據。客觀數字圖表有助于掌握教學現狀,輔助教學計劃調整。該文更進一步地探索了人工智能在學習分析中的應用,滿足學生成績預警的需求。
圖4和圖5從學生域和群體域分別展示了在分析學生成績和消費、考勤的過程中采用的數據指標。

圖4 部分成績可視分析數據指標
學生域數據分析跟蹤各個科目歷史考試成績,明確學生當前學科成績分布特點以及未來成績趨勢,為學業干預提供主要基本輸入。監控學生校園消費,匯總按月、按周、按日統計消費額度和頻數,為消費異常預警提供輸入。分類匯總學生考勤信息,作為學業干預的輔助信息輸入。
群體域數據分析則從年級、班級、科目等維度跟蹤并匯總歷史考試成績、校園消費、考勤記錄、選課信息。群體域數據分析跟蹤了群體指標數據的歷史變化趨勢,探索了群體指標數據的分布。
其中學生成績包括原始分、Z標準分和T標準分。原始分即考生卷面實際分值。單個原始分既無法直接呈現接收相同測評的考生間的差異,也無法體現同一考生在不同測評中的表現差異。Z標準分和T標準分通過式(1)和式(2)計算得到。
(1)
T=50+10×Z
(2)

學生在高考時除語文、數學、外語三門為必考科目外,考生要從思想政治、歷史、地理、物理、化學、生物、技術七門選考科目中,選擇三門作為選考科目。所以群體域數據分析需包括對選課信息的跟蹤和匯總,為教學資源的合理調配和開課形式的多樣化提供參考。群體域分析結合學生域分析,共同輔助在校師生合理制定和調整學習計劃。
該文提出的方案在不影響原有系統的基礎上,實施教學數據可視分析系統的搭建,系統面向全體師生和教務部門。教務部門擁有系統訪問的最高權限,系統服務教務部門進行學習分析和教學資源調配,優化教學管理活動。教師可分為任課教師和班主任,班主任可訪問所帶班級數據和班級學生數據,任課教師可訪問所帶學生成績相關數據。學生可訪問自身歷史數據,及時調整學習計劃和校園生活。
圖6展示了該系統包括的十大模塊。學生、教師、班級和學校畫像實現了基本數據分析需求中學生域數據的可視化展示,各校原系統數據面向全校師生,充分可達。系統以可觀的數字和直觀的圖表自動跟蹤學生成績、消費、考勤數據的描述性統計指標。

圖6 教學數據可視分析系統功能設計
學生對比分析和班級對比分析功能模塊為教務部門和教師提供了快速定位學生或班級的有效手段,實現優勢互補,促進學生、班級共同進步。
選課分析功能模塊、消費分析功能模塊、考勤分析功能模塊、成績預測功能模塊在畫像功能模塊的基礎上,更深入地探索數據。
選課分析功能模塊包括選課組合占比分析、選課關聯分析、選課組合競爭分析。其中選課組合占比分析和選課關聯分析共同輔助教師資源調配、課程開課形式多樣化以及科目教學合作。選課組合競爭分析功能,發掘各選課組合競爭激烈程度,呈現各水平學生在的選課偏好,為學生制定學習計劃提供參考。
消費分析功能模塊和考勤分析功能模塊都提供了預警功能,及時發現異常消費或考勤行為,輔助教學管理活動。其中消費分析功能模塊直觀呈現消費頻數、額度分布,輔助定位貧困生,結合學生畫像、考勤分析和對比分析,實現更精準的幫扶。
成績預測功能模塊則是人工智能技術在教學管理領域的探索。
成績預測功能模塊為了體現學生成績在一定范圍內波動的合理性[15-16],將學生成績劃分為不同的等第,對數據進行離散化的處理。
可用于預測學生考試成績的特征包括成績歷史屬性、學生自身屬性、消費考勤數據等等。成績歷史屬性又可以取最近多場次成績指標、最近多場次成績指標環比變化等。學生自身屬性則包括年齡、性別、家庭狀況等。學生近期消費頻次、消費額度、考勤狀況等則可以作為可能影響學生成績的校園生活數據特征。
決策樹作為分類算法具有良好的解釋性,選擇信息增益算法自上而下構建決策樹,來選擇對成績預測有顯著影響的特征。D表示訓練集,A表示可能用于預測成績的特征,n表示劃分的成績等第類別數,m表示當前節點子節點數量即特征A的可能情形數。H(D)經驗熵表示當前節點的混亂程度,H(D,A)條件經驗熵表示根據A特征構建的子節點總體混亂程度,g(D,A)信息增益表示A特征的影響是否顯著。每次取信息增益最大的特征構建子節點。經驗熵或信息增益為零不再構建子節點。經驗熵、條件經驗熵和信息增益分別按式(3)~式(5)計算得到。
獲取顯著特征后,輸入特征到神經網絡進行成績預測。和傳統的機器學習方法相比,神經網絡具有擬合任意函數的能力。神經網絡能夠在模型訓練過程中學習到特征組合到結果的映射,不僅僅是各個特征單獨或少數特征組合對預測結果作用能被體現,特征間潛在的聯系對預測結果的作用也能被神經網絡學習到。
(3)
(4)
g(D,A)=H(D)-H(D,A)
(5)
可視分析部分采用Quick BI進行實現,限制篇幅,下面僅展示以學生為主題實現的可視分析結果頁面。
圖7展示了學生畫像的部分內容。在該界面,左側展示的是學生基本信息,右側以詞云的方式展示了該學生的標簽信息。標簽信息根據學生歷史成績、消費、考勤數據進行自動計算產生。

圖7 學生畫像
圖8展示了學生某次考試的各門學科成績,包括總分、班級排名、年級排名。還展示了近五次考試總分變化趨勢。

圖8 學生成績分析
圖9展示了學生月消費額和平均消費額趨勢,近8個月總消費額,近5天消費趨勢。

圖9 學生消費分析
以寧波市某中學為研究案例,通過挖掘學校數據可視分析需求,制定學生域和群體域數據分析指標和相應的可視化方案,進行了功能模塊和技術框架設計,探索了人工智能在教學管理中的應用,最后通過商業智能分析工具進行了可視分析實現。整個實施過程,應用了云計算、ETL過程、數據倉庫等多種技術,提高了校園教學數據管理化水平,推動了智慧校園的建設。