


DOI:10.3969/j.issn.1671-489X.2023.14.075
摘? 要? 學生數字畫像是提升區域教育質量的有力抓手,從實踐的視角出發,梳理新時代背景下學生數字畫像的時代意義與邏輯,提出區域學生數字畫像體系并解釋具體的畫像指標,為區域治理改革與現代化提供有力支持。使用聚類算法進行數據分析,利用實踐中積累的數據,挖掘學生數字畫像中存在的數據價值。
關鍵詞? 教育信息化;學生數字畫像;聚類算法
中圖分類號:G527.51? ? 文獻標識碼:B
文章編號:1671-489X(2023)14-0075-07
Construction and Application of Digital Por-traits of Regional Students//KANG Yongping
0? 引言
根據《教育信息化2.0行動計劃》的部署,2019年上海市閔行區入選教育部首批8個“智慧教育示范區”之一 [1]。作為教育部“智慧教育示范區”創建單位之一,閔行區在未來幾年以“數據驅動的大規模因材施教”為建設目標,先行先試,開展新一輪的教育信息化探索實踐工作。在此背景下,為推動教育信息化、現代化建設的步伐,解決結合全區特點進行教育轉型發展的問題,閔行區提出使用學生成長數據反映教育轉型的方針。
在此前信息化建設工作中,通過在區域層面建立不同維度的學生成長數據庫,閔行區已積累大量學生成長數據,其數據規模已經能夠在一定程度上反映學生日常學習生活的狀態及發展軌跡,以及學生成長軌跡的不同特點和個性差異。為了進一步提升區域現代化治理水平與能力,促進教育公平事業的不斷推進,提高教育質量,辦好人民滿意的教育,建立學生數字畫像,助力區域教育治理,成為大數據時代的教育契機,也是實現當下教育目標的有力抓手。
如何建立學生數字畫像成為當前工作的重難點,區域背景下的學生數字畫像“是何”“如何”等問題亟待解決。將當前問題進一步拆解,如何從紛繁龐雜的海量數據中找出背后蘊含的聯系和規律,從而建立較為全面的學生數字畫像,繼而為閔行區教育的科學決策和學校的精細化管理提供支撐和依據;又該如何利用學生成長數據向家長和社會傳遞“全面發展”的教育觀,成為現有工作的關鍵與突破點。
因此,本研究建立在對閔行區已有學生成長數據的理解之上,從頂層進行設計,從區域層面構建學生數字畫像體系,并對學生數字畫像進行應用分析。
1? 區域學生數字畫像構建依據
學生畫像的概念起源可追溯至用戶畫像(User Persona),由交互設計之父Alan Cooper提出[2]。用戶畫像的建立旨在通過一系列的屬性數據對目標用戶的特征進行提取,從而幫助產品設計、運營人員從廣泛的用戶群體中抽象出典型用戶,是一個描述用戶需求的工具。與之類似,學生畫像通過學生較為全面的學習成長數據建立學生成長模型,對學生的特征進行標簽化,以服務于不同教育利益相關者,例如,幫助教師進行教學策略的調整以及為教育管理部門進行區域教育資源調配提供參考等。
在教育情境中,不同利益相關者間存在多樣的供需關系,既包含學生學習需求與學習資源供給間的小循環,同時也存在社會需求與教育供給間的大循環。相較于商業情境中的用戶畫像,學生畫像會更加復雜,難以直接借用用戶畫像的分類標準與規則。因此,針對教育情境中的典型用戶群體,需結合相關教育理念以及學生數據構建學生數字畫像。
將“數據驅動的大規模因材施教”作為首要建設目標,在于利用數據較為全面地理解并刻畫學生的成長過程,針對具體成長問題,為學生提供個性化的策略與資源支持。這與“全人教育”的理念高度耦合,該理念強調人的整體發展,強調個體的多樣性,強調經驗和個體之間的合作,強調培養“全人”。而從學生數字畫像的角度理解,意圖利用學生成長數據,發現學生個人潛能,以培養完整個體。同時,1996年《德洛爾報告》中提出學習的四大支柱,分別是:
1)學會認知,學習廣泛的一般性知識,并有機會就少數科目開展深入研究;
2)學會做事,不僅要掌握職業技能,還要具備處理各種情況和團隊協作的能力;
3)學會做人,培養個性,能夠在不斷增強的自主性、判斷力和個人責任的基礎上采取行動;
4)學會共存,加深對他人的理解,認識相互依存的道理[3]。
這不僅反映出了教育的可持續性,也突出了其社會性,與傳統教育理念相比,在新時代,教育的意義與功能也獲得新的解讀。通過長期的改革與實踐,我國的教育培養理念也在不斷豐富與發展。《中共中央 國務院關于深化教育教學改革全面提高義務教育質量的意見》[4]指出,堅持“五育”并舉,全面發展素質教育,突出德育實效,提升智育水平,強化體育鍛煉,增強美育熏陶,加強勞動教育。
因此,本研究結合“全人教育”的教育理念與國家相關政策,從頂層設計區域學生數字畫像體系。
2? 區域學生數字畫像體系及解釋
國家政策方針為區域學生數字畫像體系構建提供了政策依據,而在實踐層面,學生數字畫像是國家政策與實踐積累的雙重映射。區域學生數字畫像體系的建立是教育數據治理的重要手段,能夠對區域教育質量、學生發展質量的提升起到促進作用。學生數字畫像體系的建立需要依托區域數字化平臺和畫像模型的構建,閔行區在教育信息化建設初期就建立了學生成長檔案,隨著教育信息化進程的開展,檔案的數據也在不斷豐富。結合國家教育數據治理導向和“全人教育”的教育理念,參考許多發達國家從國家、地區等政府層面對學生開展的學業成就評價,閔行區構建了包括靜態、動態兩個方面,共五個分析維度的學生數字畫像。學生數字畫像靜態部分主要由個人信息與監護人信息構成,動態部分由學業水平、個性技能、實踐體驗和身心健康四個維度構成,具體如圖1所示。
以下重點闡釋動態畫像的四個維度。
1)學業水平。學業水平維度的數據采集點主要
為學生在校期間的學業成績,重點記錄學生學業水平考試成績、學科課程成績,為動態數據中最為直觀、最易量化的學生數據。此維度主要反映學生各門課程知識和技能掌握情況以及運用知識解決問題的能力等。在中國國家教育質量評價項目(National Assessment of Educational Quality, NAEQ)、美
國學業成就測評項目(National Assessment of Education Progress, NAEP)等規模較大、較為權威的教育評價項目中,學業水平是需要考查的尤為重要的維度。
2)個性技能。個性技能維度的數據來源主要為學生在校期間參與的其他學習相關活動,包括校內主題活動、各級別學生競賽、校本課程學習情況,重點記錄學生參加研究性學習、社會調查、科技活動、創造發明等非學科基礎課程的學習情況。此維度主要反映學生的創新思維、調查研究能力、問題解決能力、批判性思維等核心素養,對接當前教育領域普遍關注的21世紀核心素養、中國學生發展核心素養中的重要指標內容。
3)實踐體驗。實踐體驗維度的數據來源主要為學生在校期間的自主管理和社會實踐,包括家校合作、班級管理,以及志愿者服務(公益勞動)、青少年宮活動等體現學生行為規范、社會責任感等方面的活動記錄。實踐體驗維度是學生踐行社會主義核心價值觀、弘揚中華優秀傳統文化的主要體現,與《中國學生發展核心素養》提出的“社會責任、國家認同”等相一致。
4)身心健康。身心健康維度包括學生身體健康、心理健康、道德/思想健康,重點記錄《國家學生體質健康標準》測試結果,參加體育運動、藝術活動的經歷及表現水平等。此維度主要反映學生的健康生活方式、體育鍛煉習慣、身體機能、運動技能和心理素質,對藝術的審美感受、理解、鑒賞和表現的能力。
3? 學生數字畫像應用及案例分析
在現有學生數字畫像分析研究中,大部分處理方法以統計性描述為主,但數據中所蘊含的價值不限于此。在一線實際應用中,學生數字畫像價值更為凸顯。例如,可利用學生基本特征、在線學習行為和學習路徑構建數學模型,構建高風險學習者畫像,能夠反映高風險學習者的學習能力、行為表現、學習路徑等特征,并具有教學情境性,能為針對性教學設計及在線學習支持服務設計提供數據支撐[5]。再如,學生數字畫像適用于對學生綜合素質進行刻畫,利用中小學生綜合素質成長過程性數據,構建區域的學生綜合素質成長標簽模型和畫像模型,實現對不同學生群體及個體的身心健康、學業發展、公民素質、興趣特長等進行綜合素質大數據畫像,從而發現學生個體或特定群體的特征
規律[6]。
結合學生數字畫像的具體應用,可以發現,不同于統計分析模型,整合多來源數據,利用如機器學習、深度學習算法進行數據處理,可進一步挖掘數據中的價值。本研究采用閔行區已構建的學生數字畫像,通過實踐過程中記錄的閔行區學生學習數據,采用K-Means++聚類算法構建真實的學生畫像,挖掘其中的價值。
3.1? 數據收集與分析處理
本研究選取閔行區學校層面的學生數據,其中學生數字畫像中的靜態學習數據如年級、性別等,數據格式規范,可作為學生特征數據進行聚類;畫像動態數據學業水平、個性技能、實踐體驗、身心健康四個維度中部分數據字段無固定記錄規則,故需要對各維度數據的記錄方式、記錄情況進行分析,通過預處理確定聚類分析的數據字段,以確保聚類和分析的科學性、有效性。處理后的動態數據字段包括四個維度一級指標及具體二級指標。
3.1.1? 學業水平
學業水平維度的數據為學生參加考試的情況,聚類分析采用學業水平考試(考試科目為語文、數學、英語、物理、科學,考試類型為期末考試)數據中記錄了分數的數據。
3.1.2? 個性技能
個性技能維度數據來源采用了興趣課程、校外社團和獲獎信息中共八個字段數據。興趣課程采用課程類型、課程級別、上課形式三個字段數據;校外社團采用課程類型、課程級別兩個字段數據;獲獎信息采用獲獎類型、獲獎類別、獲獎級別三個字段數據。
3.1.3? 實踐體驗
實踐體驗維度數據分為自主管理、主題活動、校運會、校內閱讀、社會實踐五個二級指標,共采用九個字段數據。自主管理采用職務類別一個字段數據;主題活動采用體驗類型、展示級別、展示形式三個字段數據;校運會數據經處理采用參加次數、獲獎次數兩個字段數據;校內閱讀經處理采用書籍類別、借閱總次數兩個字段數據;社會實踐采用實踐類型一個字段數據。
3.1.4? 身心健康
身心健康維度的數據采用了學生身高體重和視力兩個二級指標,共五個字段數據。身高體重數據采用學校記錄的學生數據,并通過BMI指數(身體質量指數)計算公式獲得學生BMI指數,即最終采用身高、體重、BMI指數三個字段數據;視力數據采用系統中記錄的學生左眼視力和右眼視力兩個字段數據。
基于上述數據字段,項目組隨機抽取了系統中4 000名八年級學生數據,對每個學生樣本多維多條的數據進行整理,將信息完全重復且可確認為填寫重復的數據進行刪除,抽取和整理不符合格式要求和填寫要求的數據,并對樣本中仍存在的多維多條數據進行壓縮合并。之后,確定字段記錄中的類別變量,對字段中的內容進行編碼合成,根據規則將類別變量轉換為尺度變量以進行進一步分析。
3.2? 數據分析結果
在對學業水平、身心健康、個性技能和實踐體驗數據進行標準化之后,本研究采取K-Means++聚類算法分析,基于肘部法則,計算每個簇的質點與簇內樣本點的平方距離誤差,即畸變程度,得出不同類別學生的數字畫像表征。通過多輪的聚類嘗試和摸索,最終得出學生的最佳聚類為四類,如表1所示。其中第一類包含117名學生,約占學生總數的3%;第二類一共有440名學生,約占學生總數的12%;第三類學生共計882名,約占學生總數的23%;第四類學生最多,一共2 355名,約占學生總數的62%。
這四類學生在學業水平、身心健康、個性技能和實踐體驗的ANOVA分析如表2所示,可以看出顯著性水平都為十分顯著,說明聚類結果比較好。
這四類學生在四個維度上的表現水平如圖2所示,每一類之間的差別比較明顯,有的類在個性技能表現最好,有的類在實踐體驗上十分突出,有的類則在學業水平、身心健康、個性技能和實踐體驗的表現上都不錯。依據學生數字畫像各維度,可以將這四類學生畫像標記為:均衡發展型學生、勤奮學習型學生、體驗豐富型學生和有待引導型學生。
3.2.1? 均衡發展型
均衡發展型學生在全面發展水平的四個維度上的表現比較均衡,而且表現水平都不錯,這類學生占總人數的23%。如圖3所示,均衡發展型學生在學業水平的表現水平為0.22,身心健康的表現水平為0.33,個性技能的表現水平為1.27,實踐體驗的表現水平為0.27。四個方面的表現水平都是正值,說明這類學生的各方面的表現都處于一個較好的水平,在全面發展水平表現較好。均衡發展型學生熱愛學習,有學習積極性,也能積極參加興趣課程和社會實踐,因此,在個性技能和實踐體驗的表現也不錯,這類學生能很好地進行自我管理,勞逸結合,在身心健康水平方面表現良好。
3.2.2? 勤奮學習型
勤奮學習型學生的人數較多,共2 355人,約占學生總數的62%。如圖4所示,勤奮學習型學生在學習水平上的表現最好,為0.35,而其他方面如身心健康(-0.24)、個性技能(-0.40)和實踐體驗(-0.24)上的表現水平較差,都低于人均表現水平。說明這類學生平時大部分時間都花在學習上,對待學習積極認真、勤奮刻苦,十分上進,因此學業水平表現較好。但是對與學習無關的課外興趣活動和實踐活動的參與不夠積極,因此,在個性技能和實踐體驗水平上的表現較差,而且由于大部分時間都花在學習上,學習壓力較大,負擔較重,視力也不好,因此,在身心健康表現水平上的表現也一般。
3.2.3? 體驗豐富型
體驗豐富型學生共計117名,約占總人數的3%。如圖5所示,可以看出體驗豐富型學生比較突出的表現就是實踐體驗表現水平較高,個性技能表現也相對突出,而學業水平表現較差,身心健康表現一般。這類學生熱衷于參加校內外舉辦的各類主題活動、社會實踐活動等,而且積極承擔班級職務和校內職務,有著較好的興趣愛好,因此,有著十分豐富的成長體驗,個性技能上自然也就相對突出。但是這類學生由于興趣廣泛,而且在學校大部分時間都在各類活動上,雖然體驗很豐富但是學業水平表現較差,在學習上花費的時間需要適當增加。
3.2.4? 有待引導型
有待引導型學生約占學生總數的12%,如圖6所示。對有待引導型學生,教師和家長需要付出更多努力和關心,因為相比前幾類學生,這類學生雖然有較好的身心健康,但是在學業水平上,個性技能上和實踐體驗上的表現都相對較差,可以看出,這類學生平時不僅對學習的積極性不夠,不肯努力,在學習之外的個性上、興趣上、經歷上也都沒有心思,表現都不好。所以這類學生往往對自己的學習規劃和生涯規劃比較欠缺和迷茫,不知道前進的方向,沒有前進的動力。因此,對這類學生,學校和家庭都需要給予更多的引導和關心。
4? 存在的問題與相關策略
本研究基于閔行區現有教育信息化建設基礎,從區域層面構建了學生數字畫像體系,并進行了一線應用與分析。但應用學生數字畫像過程中還存在一些問題。
4.1? 存在的問題
首先,目前還存在大量異構數據,現有學生成長數據來源于多個區域業務平臺與行政單位,通過數據上報或自動采集的方式匯集至區域數據中心,但由于初期缺乏頂層設計以及模塊化架構,現有數據格式各異,數據索引缺失,同時也缺少自動化數據清洗工具,增加了學生畫像數據處理的難度。
其次,數據采集的深度與粒度不足,填報數據是現有學生成長數據的主體,比如學生參與活動的名稱、地點、時間等,但從學生的學習或成長的角度考慮,測量的深度還處于較淺的層次,難以準確地反映學生正在成長中的某一維度的發展,因此,在之后的平臺數據采集設計工作時,可增加更加細粒度的數據來源,從而更加細致地刻畫學生的數字畫像。例如,可以通過分數判斷學習者是否通過了考試,但是更有價值的數據可能包括答案及學習者如何回答問題的特征,他們花多長時間回答,以及他們的鼠標是否懸停了一個錯誤答案一段時間。
最后,數據采集的基礎設施不足,現有學生成長數據采集的深度缺少設備的支持,比如學生的體質健康數據中,通過BMI值反映學生的體形體態,但結合實踐經驗,此指標并不能準確體現學生的身體形態,因此,需要借助額外設備進行數據采集。再如,學生的學習過程數據采集,需要在平臺中嵌入數據埋點進行細粒度的數據采集,從而更好地追溯學生學習失敗或者學習狀態的原因分析。
4.2? 相關策略
首先,建立全方位、全過程的學生成長監測體系。現有數據中喪失了較多學生成長過程中的數據,學生數字畫像難以有效助力學生成長。因此,應建立全方位、全過程的學生成長監測體系,盡可能收集學生成長過程中的數據,在較長生命周期內為學生提供畫像服務。
其次,在后疫情時代,在線教育很可能成為一種重要的教育模式,而隨之產生的學生學習數據成為現有學生成長數據的有力補充。因此,應注重在線教學設計,如相關課件開發、教與學組織形式、教學內容的設計等方面的創新,讓學生參加更多線上的學習活動,從而豐富現有數據類型,彌補數據缺陷。
最后,注重教師信息化教學能力培訓。以區域學校為基本單位,結合學校發展的實際情況與教師發展特點開展針對性培訓,注重教師信息化思維養成,引導教師利用信息化手段變革傳統課堂,讓教師熟練使用教育資源智能檢索工具、跨越時空教學的可視化展示工具和信息化環境下教學評價工具,間接為學生成長數據積累提供實踐保障。
在大數據時代,數據量的激增為教育教學改革帶來了新方法、新手段、新工具,借助學生數字畫像,可幫助學生、教師以及管理者更加全面直觀地了解學生個人發展。同時學生數字畫像也為教育現代化建設提供了有力支撐。
5? 參考文獻
[1] 教育部辦公廳關于公布2019年度“智慧教育示范區”創
建項目名單的通知[A/OL].(2019-05-06)[2020-01-15].
https://www.moe.gov.cn/srcsite/A16/s3342/201905/
t20190517_382370.html.
[2] Cooper A.交互設計之路:讓高科技產品回歸人性[M].
Ding C,譯.北京:電子工業出版社,2006.
[3] Delors J. Learning: The treasure within[M].Unesco,
1998.
[4] 中共中央 國務院關于深化教育教學改革全面提高義務
教育質量的意見[A/OL].(2019-07-08)[2019-10-11].
https://www.gov.cn/zhengce/2019-07/08/content_5
407361.htm.
[5] 肖君,喬惠,李雪嬌.大數據環境下在線學習者畫像的
構建[J].開放教育研究,2019,25(4):111-120.
[6] 李勤業.基于大數據技術的區域學生綜合素質畫像研究
[J].教育傳播與技術,2020(2):30-34.
項目來源:華東師范大學區域教育信息化咨詢服務項目(項目編號:IC202130340)。
作者簡介:康永平,上海市閔行區教育局信息中心副主任,工程師。