韓鳳霞
(北京信息科技大學 工程訓練中心,北京100192)
當今大學生成長在以互聯網和手機通信為代表的現代傳媒手段蓬勃興起的時代,雖然可以開拓國際視野,但也缺乏自制力,容易迷失方向,無法自拔;還有部分學生由于其人生觀、價值觀在成長過程中發生偏差,崇尚享樂主義,主要精力不放在學習上,學生的自主能力差,不能正確的處理學習和交友,學習與休息,學習與娛樂等的關系。自我控制能力差,紀律松懈,作風散漫。從而導致了多門課程重修,學習進入了惡性循環。2012年中國社會科學院在國內教育發展研究報告中指出,目前國內每年平均有50萬大學生選擇了退學,其達到了大學招生的0.75%左右。其中主要原因是由于成績差,對個人學業或是對學校教學環境喪失信心[1]。大學生選擇退學的結果給社會、學校、家庭帶來了很大負面影響。
從學校的管理角度出發,若能建立動態的預警教育機制,對大學生的不良思想、行為做到事先警示教育、事后跟蹤管理,對學生可以起到“揚鞭奮起”的警示與鞭策作用。學籍異常都是逐漸產生的,怎樣在產生惡果之前及時介入干預和幫扶,怎樣才能做到“防微杜漸”、是急待解決的問題[2][3]。
目前,高校學籍管理一般分為校院兩級管理模式,學校級別的管理主要靠建立規章制度和執行規章制度,而學院對學生的管理主要靠學籍監控及預警指導為主。教務工作與學生思想政治工作在學生管理方面相對獨立,主要是事后預警。
(1)成績預警:根據教學管理系統,統計學生完成的學分及學分績點和教學計劃要求的進程比對,評估學生學習情況,并預測學生完成培養方案的趨勢,將可能無法完成培養方案的學生整理匯總,并將其交給學院輔導員。輔導員針對學生的具體情況進行干預并對其預警。
(2)日常預警:可以借助教師定期對學生考勤記錄、作業是否按時完成、以及課堂學習狀態等進行分析,學院教學管理者收集到相關信息后進行整理及篩選后反饋給輔導員,由輔導員進行預警處理。
由此可見,目前的預警主要是單方向的,孤立的事后預警,具有遲滯性。只有出現嚴重的學籍異常后,才采取相應的對策解決問題,但是對于一些潛在的問題,學生不能發現,比如對處于網癮狀態而上學期表現良好的學生不能及時發現。現有的學籍預警系統無法做到對學生的學習和生活狀況的實時監管,對問題的根源無法追蹤。要以“學生為本”構建全方位預警方式的構架,將大數據挖掘技術和傳統的人力管理相結合,做到“防微杜漸”,減少產生惡劣的后果。
隨著大數據時代的到來,學生的所有行為在高校面前幾乎全是“可視化”的。許多高校開始研究如何有效的利用大數據技術為人才培養服務,挖掘學校海量數據潛在的巨大價值,進而提出“學生畫像”的概念。學生畫像即學生特征進行標簽化處理,是高校利用采集到學生的各方面數據,構建一個學生數據抽取模型。通過分析其個人基本屬性、學籍信息、考勤信息、上網行為、借閱圖書信息、校內消費行為及個人興趣愛好等重要特征,進而抽象出學生的在校畫像,該畫像可以作為是學校教學管理的重要依據。學生畫像可以為學校提供了充足的學生數據,對學生特征數據進行降維及聚類分析,能夠幫助學校快速準確的了解各個學生的學籍狀態,依據評價結果,有針對性的對相關學校有關部門、教師、家長和學生傳遞預警信號,必要時采取干預措施,對學籍狀態出現異常的學生給予有針對性的引導,避免因各種原因導致學生無法完成學業或產生其他不良結果的事情發生。
隨著信息化建設的不斷推進,高校在各種管理系統中采集并保存了有關學生信息的海量數據,并逐步形成了一個從學生基本信息、學籍信息、校內消費、圖書借閱到上網行為的多維度數據存儲體系。如果能夠根據學校管理決策的需要構建一個數據倉庫,對該存儲體系統的數據進行抽取、清洗、轉換并載入數據倉庫中,進而形成一個高質量的數據中心,學生畫像是在學校數據倉庫中進行數據挖掘,通過其中多維度的數據信息,分析學生的有關信息,還原學生的基本屬性、學習成績、上課考勤、圖書借閱行為、上網行為以及校內消費行為等屬性。了解學生的各種特征及需求,精準描述學生群體特征,針對特定場景進行學生不同維度的聚類分析,將雜亂無章的海量數據轉變為栩栩如生的學生畫象,進而監控學生的學籍狀態,并預測學生學業走向,必要時管理者可以干預學籍異常學生行為,對其進行有效的管理。
學生畫像的主要任務是給學生貼“標簽”,標簽是指可以準確精煉的描述學生的特征標識,比如性別、年齡、民族、興趣愛好等,將學生的所有標簽綜合在一起,就可以構成學生的“畫像”了。本文主要從學生的基本屬性、學習成績、上課考勤、圖書借閱行為、上網行為以及校內消費行為對學生特征進行研究。學生畫像主要分三步:①采集學生數據;②統計分析,生成學生特征標簽;③生成學生畫像。流程如圖1所示。

圖1 學生畫像流程
首先,對學校各個數據源進行數據抽取、清洗、轉換、裝載入學生數據倉庫中,采集到的學生數據分為靜態特征數據和動態特征數據,所謂靜態特征數據是學生相對固定不變的特征信息,如姓名、性別出生日期、民族等特征,動態特征數據就是學生隨時間的推移不斷變化的行為特征,如學習成績、上課考勤、圖書借閱行為、校內消費行為及上網行為等。
其次,利用收集到的學生特征屬性信息,通過統計分析為學生在不同緯度特征上貼上標簽。其中,對于學生靜態屬性,例如學號、姓名、性別、出生日期、民族籍貫等,通過對采集到的特征數據進行抽取、清洗及轉換,可以直接為學生貼上標簽。 對學生動態屬性貼標簽時,需要根據具體需求進行統計分析。比如對學生學習狀況分析時,需要對學生學年學期不同課程性質課程獲取的成績標準化處理,然后進行統計分析,生成學生學期不同課程性質獲取的平均成績,從而為該生貼上學習狀況標簽。依據同樣方式為學生貼上上課出勤特征、上網特征及借閱圖書特征等。
最后,根據學生的所有標簽為學生畫像,通過畫像可以直觀地呈現學生特征屬性。

圖2 學生畫像框架圖
高校為學生特征生成畫像后,通過分析學生畫像可以實時準確了解學生的各方面特征,掌握其基本學籍狀態。考慮到學生畫像中不同特征間具有某種相關性,而相關性會增加統計分析的復雜程度,采用主成分分析法對學生畫像進行分析,將最初具有關系的屬性用新的相互獨立的屬性來替代。選取盡可能少的屬性來反映學生的所有特征。分析學生畫像主要包括以下步驟:
(1)將n個學生畫像數據按列生成矩陣S,如公式(1),該矩陣由n行m列組成


(2)對矩陣S每行(學生特征)進行標準化處理,即將學生特征值歸一化處理,利用公式(2)進行特征標準化。

(3)學生特征矩陣計算,輸出協方差矩陣R(公式(3));

對學生特征矩陣進行標準化處理后,用處理后的矩陣替代原學生特征矩陣S,從而使得統計分析輸出的結果具有更好的質量,利用公式(4)計算學生特征矩陣S的相關系數。

(4)計算協方差矩陣R的特征值(λ1,λ2…λm)以及特征向量ɑi=(ɑi1,ɑi2,…ɑim),i=1,2…m,并利用公式(5)計算貢獻率。

其中w表示特征值λi的貢獻率。
(5)選擇主成分
根據標準化的學生特征數據,根據特征貢獻率將學生特征值按降序排列,根據統計需求取前若干行(特征),形成降維后的學生特征矩陣
(6)對矩陣進行聚類分析,采用KHM(K-Harmonic Means)對矩陣聚類,該算法將每個學生特征數據到各聚類中心的調和平均值的和看作目標函數公式(6)。

通過對北京信息科技大學31個專業2個年級5367名學生靜態數據及動態特征數據采集、整理、過濾分析,形成學生畫像。其中包括靜態特征(基本屬性)24個,動態特征5個,總計29個特征信息。針對學生的特征數據生成學生特征矩陣,進而對學生特征矩陣進行主成分分析法進行降維處理,動態提取學生關鍵特征值,從而生成新的學生特征矩陣,然后利用基于距離的聚類分析法,將學生進行聚類,將嚴重偏離中心點的學生特征信息提取出來,如圖3所示,離群點的學生信息有可能為學籍狀態異常,進而生成學籍異常學生信息,通過將模型提取的學籍異常學生信息與學院核對,結果發現95%的學生確實存在學籍異常特征。

圖3 學生學籍狀態聚類圖
在分析過程中產生了一些急待解決的新問題,為進一步動態地監控學生學籍的狀態,需要教務處、學生處、學院、任課教師、輔導員及學生多方形成合力,缺少任何一方的積極推進,都無法順利完成預警工作并取得實效。必須在以下幾方面進行加強建設:①及時上報課堂考勤數據。任課教師考勤是考勤預警的最準確、全面的數據來源,數據匯總要及時,以免錯失最佳干預期。②各個信息系統數據充分共享。各個應用系統之間的信息避免出現孤島現狀,實行實時的共享和同步。
采用學生畫像的方法監控學籍狀態,構造學生特征矩陣,并經過降維處理,簡化特征,能夠實時掌握學生學籍的動態生特征信息,及時的發現問題,未雨綢繆的采用預警措施,利于學校的學風建設,對于學籍信息不穩定的學生,采取實時預警措施。在有大量信息的教育領域,將基于學生特征畫像方法應用于學籍狀態監測,在高校學生管理中加以推廣應實驗結果表明,所得出的結論對高校教學和人才培養具有一定的指導意義。
[1]楊東平.中國教育發展報告2012[M].北京:社會科學文獻出版社,2012.
[2]張紅云.高校學習預警機制探索[J].科技信息,2010(1):801.
[3]章東飛.大學生學籍預警機制探索[J].教育學術月刊,2010(5):75-76.
[4]袁安府,張娜,沈海霞.大學生學業預警評價指標體系的構建與應用研究[J].黑龍江高教研究,2014(3):79-83.
[5]吳青芳,胡欣敏.高校學籍管理與學風建設關系研究[J].化工高等教育,2010(4):21-24.
[6]李愛鳳,劉葵,唐連章等.數據挖掘技術在數字化校園共享數據中心的應用[J].實驗室研究與探索,2013(11):232-236.
[7]黃曉霞,程論.綜合評價與數據挖掘的比較[J].上海海市大學學報,2007(12):54-58.
[8]劉昕,鄭莆燕,劉莉.學分制下二級學院學生預警機制的探索與實踐[J].教育與職業,2013(1中):174-175.
[9]林靜,陶愛萍.我國近二十年高校學籍管理制度理論研究綜述[J].江蘇高教,2012(1):60-62.
[10]曾麗.學分制條件下學籍管理的完善[J].鞍山科技大學學報,2006(6).
[11]張波,耿在丹,杜保強.基于數據倉庫的學生信息管理決策系統[J].實驗室研究與探索,2009,28(12):60-62.
[12]華金秋.臺灣高校學習預警制度及其借鑒[J].江蘇高教,2007(5):136-137.
[13]趙力,王濤,金代志等.高等院校學籍管理系統功能設計,2009(8):107-108.
[14]別紅桂.高校學籍管理工作的改革與探索[J].教育探索,2011(1):88-89.
[15]趙雄輝,聶娟.高等學校學籍管理制度建設原則探討[J].高等教育研究學報,2006(3):78-80.
[16]Li Y,Tang SD,Lu J,et al.A survery of contentbased image retrieval with high-level semantics[J].Pattern Recognition.2008,10(1):12-18.
[17]MORGAN STANLEY.Cloud Computing Takes O ff M arket Set to Boom as Migration Accelerates[R].2011.