文/張海華 郭田友 張非
隨著社會步入大數據時代,高校不可避免的需要在教學及管理方面進行一系列改革。這其中最大的變化在于,學生的一切行為在學校面前都將是“可視化”的,隨著大數據技術的深入研究與應用,高校在教學及管理領域的專注點將聚焦于如何利用教育大數據為學生提供優質的課程設計、良好的學習環境、精準的生活服務。于是,“大學生畫像”概念應運而生。
用戶畫像(persona)的概念最早由交互設計之父Alan Cooper在《About Face:交互設計精髓2》一書中提出:“Personas are a concrete representation of target users.” 是指真實用戶的虛擬代表,是建立在一系列真實屬性數據之上的目標用戶模型。
大學生畫像來自于用戶畫像,其定義目前尚無統一標準。[1]李光耀等描述為“基于大數據技術,通過整理搜集學生在網上的瀏覽、點擊、留言、評論等碎片化的行為軌跡,研究學生言行,這些學生的言行軌跡直接或間接反映了用戶的性格、習慣、態度等信息”。[2]董瀟瀟等描述“大學生行為畫像是利用校園數據將學生行為信息標簽化。”
本文將大學生畫像描述成“基于以學生為中心的理念和校園大數據,根據其人口學特征、學習行為、社交活動、消費行為、思想動態、興趣愛好等信息抽象出來并標簽化的一系列學生模型集合。”
大學生畫像對于高校的教學、管理和服務等方面均有著重要的指導意義和現實價值。
在課程設置方面,分析學生學業畫像,可以幫助教學管理部門更加客觀的了解學生對大學課程的真實需求,更加科學的設置課程體系,能夠精準的評價每一名學生。成都電子科技大學通過構建“學生畫像”成功實現大學生學習掛科預警機制。
在學生工作方面,分析學生消費畫像,可以幫助學工部門了解學生的經濟和消費狀況,從而設計精準、科學的幫扶機制,幫助貧困生順利完成學業。南京大學成功將大數據技術應用于貧困生幫扶。安徽師范大學利用大數據挖掘技術為科學資助和精準資助提供了決策支持。
在畢業指導方面,分析學生職業畫像,根據學生的能力模型進行職業發展軌跡推薦和“學生-企業”雙向推薦,實現畢業生個人素質、求職意愿和企業崗位需求信息的“人崗精準對接”。海南師范大學利用大數據技術實現學生精準就業,提升了聘效率,拓寬學生就業渠道,有效管控就業數據。
根據大學生在校期間各項活動和數據,我們可以構建學生基礎畫像、學業畫像、消費畫像、心理畫像、思想政治畫像、職業畫像、人格畫像、評優助困畫像、健康畫像等一系列大學生畫像集合。
構建大學生畫像主要包括數據采集、數據清洗、用戶建模、標簽挖掘、畫像聚類、可視化等工作。
數據采集按實時性分為在線采集和離線采集,其中在線采集包含個人基礎數據和使用智慧校園系統發生的行為數據(如學習、消費、交流、上網等)。離線采集包括對各類系統交互日志和網絡爬蟲數據按照一定的算法規則進行挖掘收集。
通過數據采集得到的原始數據源存在“臟數據”,為了保證后期標簽挖掘的準確性,需要進行填空、去噪、刪重、修正、規范化等預處理。通過文本挖掘算法得到標簽元數據和標簽數據集并使之標準化,基于前述畫像維度進行用戶建模,并通過聚類算法對學生畫像分類。
在進行用戶建模之前,需要進行數據采集和清洗,我們選擇Python中的Sklearn和Pandas等模塊作為數據清洗工具。
分析結構化數據的構成,我們做了如下清洗工作:通過使用常量替換、均值填充、回歸預測等方法處理如考試成績、三餐消費等缺失值、異常值問題;篩選并刪除重復數據;利用分箱技術的箱體均值法處理圖書借閱的噪音數據問題;通過格式轉換處理數據編碼和日期表示不一致問題;最后對清洗結果中同一維度的數據進行歸一化和正則化處理,如家庭收入、學習成績均處理成[0,1]之間的數字。
一個事件模型包括時間、地址、人物、內容四要素,每一次學生行為均是一次隨機事件,可以描述為誰在何時何地址做何操作。因此數據模型概括為如下公式:學生標識+時間+行為類型+應用系統+內容。
學生標簽的權重可能隨時間增加而衰減,因此定義時間衰減因子為r,行為類型、應用系統決定權重,內容決定了標簽,可轉換為公式:標簽權重=衰減因子×行為權重×應用權重。
如某學生上月10日在圖書館系統查詢了主題為大數據研究的論文,假設時間衰減因子公式r=1-(m-m0)*0.05(即每隔一個月衰減0.05),圖書館系統的權重為0.8,則其數據模型為:
學生學術標簽為:科研,大數據,權重為(1-0.05)*0.8=0.76。
通過定義各類行為的時間衰減因子和系統以及內容權重,就可以對學生的全部行為建模。
標簽元數據是用于描述標簽分類的數據,我們將標簽元數據劃分為基本標簽、經濟標簽、成績標簽、知識標簽、體育標簽、消費標簽、飲食標簽、社交標簽、性格標簽、心理標簽、學習標簽、思想標簽等。
從數據提取維度來看,標簽分為事實標簽、模型標簽和策略標簽。事實標簽來源于真實數據,定性描述學生的基本屬性等,如家庭好、消費高、學霸。模型標簽是對學生屬性及行為進行抽象和聚類概況出來的,如足球迷群體、電競迷群體。策略標簽是根據學生信息和行為配合一定的規則策略設定,如可能掛科、有自殺傾向等。
在實踐中,通過抓取校園論壇挖掘思想動態標簽,抓取百度貼吧挖掘社交標簽,分析學習成績設置成績標簽,分析圖書借閱數據設置知識標簽,分析消費行為和消費水平設置消費標簽、飲食標簽等。
通過挖掘標簽以及設定權重,我們就可以用模型完整的表示一個大學生。
聚類,顧名思義就是“物以類聚,人以群分”,其主要思想是按照特定標準把數據集聚合成不同的簇,使同一簇內的數據對象的相似性盡可能大,同時,使不同簇內的數據對象的差異性盡可能大。就本文而言,聚類就是把相似的大學生分到同一組。
譜聚類(Spectral Clustering)是一種基于圖論的聚類方法——將帶權無向圖劃分為兩個或兩個以上的最優子圖,使子圖內部盡量相似,而子圖間距離盡量距離較遠,以達到常見的聚類的目的。
譜聚類的圖模型可解釋為:無向帶權圖模型G=
基于Python實現譜聚類算法流程如下:
(1)利用歐氏距離計算距離矩陣;
(2)利用kNN計算鄰接矩陣A。
(3)由鄰接矩陣A計算度矩陣D和拉普拉斯矩陣L,并標準化L→D-1/2LD-1/2。
(4)對L→D-1/2LD-1/2進行特征值分解,得到特征向量Hnn;
(5)將Hnn當作樣本送入K-means進行聚類,獲得聚類結果C=(C1, C2, ..., Cn)。
針對高校智慧校園系統產生的海量數據,探究大學生畫像的應用具有重要的現實意義。本文通過描述數據采集、用戶建模、標簽挖掘、畫像聚類等一系列流程構建大學生畫像集合,可以為每一位大學生提供個性化、精準的學習規劃和校園服務。