文 /潘晶晶 姚鄭 關婕
隨著信息技術的迅速發展,教育信息化已經成為了衡量教育發展水平的重要標志。基于大數據分析的新一代智慧教育系統是未來發展的必然趨勢,它將師生以及師生的行為軌跡、資源環境等通過信息手段整合重組,通過信息傳遞為各級用戶提供有據信息,通過模型建立預測機制,形成智能學校[1]。
中國科學院在“十三·五”期間推行“智慧中科院”,“智慧教育”作為“智慧中科院”的重要組成部分,要將中科院多個學校的信息資源進行深度整合,基于大數據技術,以數據為紐帶,把中科院的教育信息化提升到一個新高度。
基于大數據分析的學生畫像系統可以為高校管理人員對學生實現引導和個性化管理提供數據性支持,因地制宜地幫助學生更好的適應社會的需求。另一方面,可以向學生提供接近實時的學業生活的活動信息,幫助學生了解自己的學習生活習慣,激發學生的內驅力,改進自身的行為。
目前我國高等教育體制的一個共性問題就是在教學過程中,是以教師為主進行教學,不同接受能力、不同興趣愛好的學生被教師在授課過程中被一刀切,教師很少會關注學生的接受能力、缺乏激發學生主動思考的能動性。隨著社會的快速發展,社會對人才的要求更加豐富多樣,學生的興趣、能力也千差萬別,這樣傳統的一視同仁的教育教學模式與社會人才需求的多樣性存在著矛盾,而且日益凸顯。
解決這一問題,首先就要深入了解學生,隨著信息化日益發展,面對龐大的學生群體,利用大數據對學生的方方面面進行分析、判斷和預測,勢在必行。
學生畫像系統將匯集學生學習、生活、教務、后勤、網絡、通勤等多個方面的數據,以學生為中心,將多維度的數據互相關聯,充分利用大數據的優勢,創建呈現學習、成績、出勤、生活規律、消費、網絡行為等不同維度需求的模型,對學生特征做出抽象概括,為學生精準管理與服務奠定基礎[2]。其分析結果將應用于分類統計、相關性分析、個性服務等更高層次的應用。
學生畫像系統是精準描繪學生在校期間學業生活的具體活動的大數據系統。其特點主要包括以下幾點:
(1)精準描述學生具體學業生活發展
本科生和研究生要在大學要渡過少則三四年、多則五六年的時間,在此期間,學生生活和學習中的點點滴滴將產生大量的數據。學生畫像系統結合大數據、人工智能、機器學習、物聯網等前沿技術,利用高校現有各種信息系統的數據,以大數據為手段,對學生的學習能力、努力程度、生活規律、經濟狀況、性格特點等多維度進行分析和量化,描繪學生的成長軌跡。

圖1 學生個人畫像和群體畫像

圖2 學生畫像系統架構設計
(2)科學引導學生發展,進行風險干預
根據大數據相關研究,學生的學業成績和自身的學習能力、學習努力程度以及日常行為習慣密切相關[3],比如學生的選課偏好、考勤、參加科學講座、在圖書館借閱書籍、甚至在食堂吃早餐的規律,都可以成為預測學生學業成功與否的因子。因此,學生畫像系統將對學生日常學習生活中的細微變化進行分析,預測學生的學業風險因素,為管理者進行管理和干預提供依據。
(3)為教育決策提供全面的數據支持
學生畫像系統充分利用多維度的標準化行為和數據,例如學生選修課程、成績、出勤、網絡學習平臺的使用、圖書館門禁和書籍借閱、一卡通消費、上網日志數據等等[4]。根據不同需求,分析學生的作息習慣、消費情況、社交狀況、上網習慣、訪問圖書館時長等信息,實現不同群體,不同個人的多維度對比,反映學生個體和在群體中的相關情況,從而為學校對學生進行個性化、精準化的教學管理提供重要依據。
(4)描畫學校教育業務場景
學生畫像系統在對學生個體描畫的基礎上,匯總數萬名學生在校園中的學習和生活軌跡,將其與學校各類教學、后勤管理業務交匯,可以使校園管理者進一步深入了解學生對于教室、圖書館、校園超市、食堂、運動場館的使用情況,在關鍵點上(例如課程安排時間、食堂開放早晚)進行改善。
1. 系統架構設計
1) 硬件終端層,通過云存儲、GPU和CPU服務器、應用防火墻技術提供面向人工智能最大定制化的架構設計,形成快速訓練和推理計算方法。
2) 虛擬化層,通過云計算系統管理軟件將服務器按照需要進行虛擬化處理,并將存儲動態分配給虛擬化服務器,實現服務器整體虛擬化。
3) 管理服務層,針對復雜的計算環境采用管理系統對計算數據資源進行管理和監控。根據高校管理者、學生的不同的需求以及使用習慣,部署不同的深度學習框架,如Caffe、TensorFlow、CNTK、mxnet等,實現對圖像、視頻、語音、自然語言的處理[5]。
4) WEB層,根據系統實際應用需求,設計深度學習模型和算法,這些算法和模型可以在系統中進行靈活配置,實現自動化智能處理,并將結果數據進行可視化展示。
2. 系統功能設計
學生畫像系統的主要功能是將多渠道獲取的數據進行匯總整理后,依據不同的模型進行分析后,展示給終端用戶。該系統自動接入校內的多個系統數據,如教育業務系統數據、校園一卡通數據、網絡日志數據,在數據整理之后,進行數據標準化,實現了數據存儲和接口提供的統一性。同時,該系統的計算中心周期性地調用數據接口,將分析與預測的結果提供給上層的應用服務。
(1)數據收集整理
收集學生的個人信息、消費數據、上網數據、圖書館數據等原始數據并存儲,設計備份策略及其他數據安全防護措施,對這些數據進行清洗、加工整理,對缺失異常等情況進行填充,生成干凈數據。
(2)數據特征提取
利用數據倉庫中的干凈數據進行數據挖掘,結合算法模型,根據管理者對學生的關注點進行數據特征的提取。比如從成績數據中可以提取學業水平“正常”和“可疑”的學生,管理者可對可疑學生進行重點關注。

圖3 學生畫像系統功能設計
(3) 數據建模
系統根據已提取的數據特征,利用聚合等數據挖掘方法進行數據建模,預測學生的未來行為。
(4)建立學生畫像
系統利用學生的數據特征將學生進行歸類,歸類后在進行每個類型的特征評級,把這些評級綜合起來就形成了學生的畫像。
3. 數據分析維度
(1) 學生個人信息:涵蓋學生的年齡,性別,民族,生源地,培養單位,類別,攻讀方式,培養層次,等等,從而分析學生基本人口統計學信息。
(2) 食堂消費數據:涵蓋學生的消費次數、時間和金額,從而分析學生飲食偏好、規律,以及消費能力。
(3)宿舍門禁信息:涵蓋學生進入宿舍的門禁刷卡信息,從而分析學生的生活規律。
(4)體育設施使用情況:涵蓋學生使用體育館設施、游泳館、健身房的信息,從而分析學生的運動偏好和規律。
(5)乘坐校車情況:涵蓋學生預約校車和乘坐校車的信息,從而分析學生在各個校區之間的通勤規律。
(6)校醫院使用情況:涵蓋學生使用各個校區醫院的信息,從而分析學生的健康狀態,以及消費能力。
(7) 圖書館使用情況:涵蓋學生進出各校區圖書館設施的門禁信息,從而分析學生使用圖書館學習的規律和時長。
(8)圖書館借閱情況:涵蓋學生從圖書館借閱各類書籍期刊的信息,從而分析學生書籍閱讀方面的數量和偏好。
(9)上網行為規律:涵蓋學生上網的信息,從而分析學生上網的地點、時長、偏好等等。
(10)選課情況:涵蓋學生選課的信息,從而分析學生選課的偏好以及學業任務的繁重與否

圖4 學生個性特征描畫

圖5 學年消費賬單分析

圖6 學生訪問特征描畫
(11) 講座出勤情況:涵蓋學生參加講座的簽到情況,從而分析學生的講座參與度。
(12)網絡學習平臺的使用情況:涵蓋學生使用網絡學習平臺的信息,從而分析學生登錄情況,下載閱讀平臺資源情況,提交作業情況。
場景一:學生個體特征描畫
根據從各個系統采集到的數據,將學生相關數據匯總,經過關聯對比分析,摘取學生的特征信息,并向學生推送,使學生對自己的日常行為規律有一定了解,激發學生關注自身生活習慣的興趣。
場景二:學年消費賬單分析
多渠道匯總學生的消費記錄,向學生推送,使學生(或者家長)對自己的消費規律有一定了解。
場景三:學生訪問特征描畫
根據從各個系統采集到的數據,將學生相關數據匯總,經過關聯對比分析,摘取學生群組的特征信息,并向相應機構推送,使該機構對與其產生業務關聯的學生群組有一定了解,以便針對含有突出特征的學生群組采取相關反應。
通過利用學生個人信息、食堂消費、宿舍門禁、校車乘坐、圖書館進出、借閱、上網行為、講座出勤、網絡學習平臺使用的數據,充分描繪學生特征,使得每名學生的學習生活的信息得以挖掘, 從而在死板的數據和生動的教育教學之間搭建橋梁,為高校管理提供更加科學、有效的依據,為學生選課、升學、就業方向、職業規劃等提供參考。
隨著智慧教育建設的不斷推進,教育信息化的水平越來越高,對學生畫像的研究和探索也會越來越深入。學生畫像可以改變教學模式,提高教學水平,加強素質教育, 尊重學生的個性發展,挖掘學生的特長,真正做到因材施教。
但是如何高效地利用信息化的海量數據,如何更加精準地畫出學生的畫像卻是一個復雜的事情,值得不斷的深入探索和研究。