方芳





摘要:隨著信息化技術的不斷推廣,各大學校紛紛依托在線平臺開展線上教學活動,如何有效利用平臺上的學習數據更好地精準教學成為目前重要的研究領域之一。文章提出了構建學生畫像的流程,包括采集“雙平臺”——超星學習通平臺和頭歌教學實踐平臺上的學生學習數據,對數據進行預處理,構建學生個體畫像以及基于K-means聚類算法將學習數據進行聚類生成學生群體畫像。最終,將學生分為三類不同特征的群體,教師針對不同學生群體畫像進行分析,制定更科學的分類教學策略,實現個性化教學。
關鍵詞:用戶畫像;聚類算法;雙平臺
中圖分類號:TP391文獻標志碼:A0引言教育部發布《教育信息化2.0行動計劃》,正式提出了教育信息化2.0,標志著我國教育信息化建設進入新的發展時期,開啟智能時代教育新征程。
在此背景下,各個高校都積極推進利用在線學習平臺進行線上線下混合式教學,常用的平臺有超星學習通平臺、智慧職教平臺等。如何有效利用平臺上積累的學生學習過程數據,通過數據挖掘為教師提供精準的學情分析和教學診斷信息已成為新的研究熱點。本文通過挖掘分析教學過程中學生使用“雙平臺”時產生的學習數據,有效構建學生用戶畫像,為個性化教育研究提供新的思路。
1用戶畫像研究現狀用戶畫像是給用戶標上特征標簽,是一種基于用戶真實數據的形式化表示。通過對知網的中國學術文獻網絡總庫進行文獻統計分析發現,2010—2015年研究用戶畫像的文獻并不多,但2016年至今,研究文獻逐步遞增,已成為研究的熱點之一。用戶畫像技術目前已被廣泛運用到社交媒體、電子商務、圖書館學等領域。例如,萬家山等[1]基于智慧學習平臺上用戶的偏好和行為動態特征實現KD樹聚類算法,提出一種社交用戶畫像模型;王曉霞等[2]考慮了用戶基本維度畫像、行為畫像、產品畫像和觸點畫像四級架構,運用大數據技術精準構建運營商大數據用戶畫像模型;過仕明[3]對圖書館用戶群體進行細分,在基于不同群體行為數據的基礎上,結合場景五力理論重構了四類不同群體的用戶畫像。上述用戶畫像研究主要集中于社交媒體、電子商務和圖書館學等方面,在教育領域的應用研究偏少。
2基于雙平臺構建用戶精準畫像以本校IT類大數據技術專業學生的“數據分析與可視化”課程在超星學習通和頭歌教學實踐雙平臺上產生的與學習行為相關的數據為研究基礎,通過數據采集、數據預處理、聚類建模構建學生用戶個體及群體畫像,并應用到實踐教學中。用戶畫像構建應用流程,如圖1所示。
2.1數據采集構建在線學生用戶畫像的前提是數據采集。數據采集是科學進行數據分析工作的基礎,是根據項目的需求收集、獲取有用數據的過程[4]。本文研究用戶畫像主要是針對IT類的學生。與其他專業的學生相比,IT類學生除了理論知識的學習,更加注重編碼實踐能力的培養。運用“雙平臺”的方式開展線上線下混合式教學,需確定在兩個平臺上采集的數據字段,以便于后續數據的采集。采集的數據主要分為兩類:學生靜態基本屬性特征和學生動態學習行為屬性特征。學生靜態基本屬性特征主要是針對用戶的學號、姓名、班級等短時間內不變信息的記錄。學生動態學習行為屬性特征主要包括:出勤情況、視頻觀看情況、作業及測試完成情況等實訓任務過程數據的動態變化信息。具體采集字段如表1所示。
2.2數據預處理數據預處理是指對數據提前進行一些必要的處理,提高數據的質量,避免模型構建結果不精準。其包括數據合并、數據清洗、數據標準化和數據變換等。
2.2.1數據合并雙平臺學生數據中有共同的字段屬性,如學生、學號等。因此,按照主鍵合并方式將超星學習數據和頭歌實踐任務數據進行合并。
2.2.2特征構建特征構建通過研究原始的學習數據集,將數據集的各個字段通過加工運算構建出新的統計字段,從而找出有意義、有價值的數據特征,有利于后續的建模分析。特征構建字段如表2所示。
各特征構建字段計算公式:(1)出勤率=學生個人出勤次數/總出勤次數;(2)視頻觀看時長比=課程所有視頻觀看時長/課程視頻實際總時長;(3)章節測試參與率=學生個人測驗次數/總測驗次數;(4)作業提交率=學生個人作業次數/總布置作業次數;(5)章節測試平均分=學生所有測試的平均值;(6)作業平均分=學生所有作業的平均值;(7)實訓任務平均分=學生所有實訓任務的平均值;(8)實訓學習效率=log(實訓中得分/實訓總耗時);(9)實訓能力值=實訓獲得經驗值/實訓測評次數。
2.2.3數據清洗數據清洗主要是檢查數據是否有空值、重復值和異常值,保證數據的質量,避免臟數據影響后續的數據處理和建模。
2.2.4數據標準化由于數據來源的不同通常會導致數據的量綱、量級產生差異,為了讓這些數據具備可比性,需要采用數據標準化方法。最典型數據標準化是數據歸一化處理,即將所有的數據都統一映射到0~1之間。本文采用離差標準化方法。
2.3用戶畫像構建2.3.1數據分析學生個體用戶畫像基于學生個體在課程中整體學習表現情況進行構建,從班級中抽取2個同學的學習過程數據用于數據分析和可視化。學生個體畫像雷達圖如圖2所示。
深入分析學生個體畫像的雷達圖,客觀整理出兩位學生的與學習相關的特征標簽,個體畫像描述如下:
徐某,女,出勤率100%,自主學習能力強,課前主動積極在學習通上按照正常倍速觀看視頻提前預習,章節測試和作業按時完成,正確率較高,通過觀察實訓能力值和效率證實該同學動手編碼能力強。
劉某,男,基本按時出勤,學習上不主動,不能自覺地觀看學習通上視頻,作業和測試缺交現象比較嚴重,老師外力督促效果不佳,實訓學習效率低下,編碼能力弱,綜合成績差。
2.3.2聚類建模實現群體畫像K-means聚類算法是聚類分析中較為常見的一種非監督學習算法,其原理非常簡單,是一種典型的基于距離的聚類算法。它通過計算不同樣本間的距離來判斷它們是否相近,相近的就會放到同一個類別中去。它能發現K個簇,且每個簇的中心采用簇中所含值的均值計算而成。
聚類算法對算法影響最大的是聚類數,聚類數對聚類的影響很大。根據手肘法確定K-means最佳聚類是3個。經過K-means聚類算法后,得到3個類別的聚類中心,將聚類中心用雷達圖顯示,如圖3所示。從圖3可知學生群體畫像一共分為3個群體。學生群體1:這類學生屬于優等生,能積極主動地去學習,課堂參與率高,理論知識扎實,有較強的自學能力,實訓任務效率高,編碼動手能力強。學生群體2:這類學生屬于中等生,有一定的理論知識,但編碼動手能力不強。學生群體3:這類學生屬于后進生,學習上比較懶惰,不能積極主動地完成學習任務,喜歡使用刷課軟件觀看平臺上視頻,導致觀看時長比較短,基礎知識薄弱,編碼動手能力差,不及格率高。
2.4在教學中應用學生用戶畫像在日常的教學中,教師能夠利用學生個體畫像和群體畫像進行分析,針對不同學生的學習能力,制定更科學的分類教學策略,實現個性化教學。
2.4.1精準識別不同群體的學生,制定學習措施在傳統教學中,有些學生不太愿意和老師溝通交流,教師很難甄別不同類別的學生。通過學生用戶畫像,教師能夠快速識別后進生,及時制定幫助策略。
2.4.2改進教學設計從構建用戶畫像過程中,能針對產生的問題改進教學設計。例如,在完成實訓任務過程中,如果很多學生的實訓耗時比較長或測評次數較多時,說明學生不能靈活掌握知識點,需要教師把此題進行重點講解。
3結語本文采集IT類學生在“雙平臺”(超星學習通平臺和頭歌教學實踐平臺)上積累的學習過程數據,通過數據預處理,構建學生個體畫像和學生群體畫像,利用畫像可以精準識別不同群體的學生,制定個性化學習措施。后續將使用不同聚類方法進行驗證性分析對比,找出最優的聚類方法。
參考文獻
[1]萬家山,陳蕾,吳錦華.基于KD-Tree聚類的社交用戶畫像建模[J].計算機科學,2019(增刊1):442-445,467.
[2]王曉霞,劉靜沙,許丹丹.運營商大數據用戶畫像實踐[J].電信科學,2018(5):127-133.
[3]過仕明.數字圖書館用戶畫像及場景重構研究[J].情報科學,2019(12):11-18.
[4]黃紅梅,張良均.Python數據分析與應用[M].北京:人民郵電出版社,2018.
(編輯 姚鑫)
Research on student portrait technology based on dual platform learning dataFang? Fang
(Hunan Vocational College of Science and Technology, Changsha 410000, China)Abstract:? With the continuous promotion of information technology, universities and colleges are increasingly relying on online platforms to launch online teaching. How to effectively use the learning data on the platform for better precision teaching has become one of the important research fields. This paper proposes the process of constructing student portrait, including collecting the student learning data on the “dual platform”-Superstar Learning Communication Platform and Touge Practice Teaching Platform, preprocessing the data, constructing student individual portrait and clustering the learning data based on K-means clustering algorithm to generate student group portrait. Finally, divides students into three groups with different characteristics. Teachers analyze the portraits of different student groups, develop more scientific classified teaching strategies, and achieve personalized teaching.
Key words: user portrait; clustering algorithm; dual platform