孫偉 郝愛語 雷暉
摘要:通過對某高職院校頂崗實習數據采集和處理,通過數據分析的方法,獲取頂崗實習數據中所包含的信息,挖掘數據中的規律,為高職教育實習工作提供數據支持。
關鍵詞:高職教育;數據挖掘;數據分析
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)05-0108-03
1 引言
近年來,數據挖掘與分析技術日趨成熟,而各個院校在多年信息化的過程中都積累了大量的教育數據,教育數據的挖掘與分析成為數據分析和挖掘中的一個熱門研究方向[1]。
為更好地服務高職院校實習工作,在采集某高職院校的頂崗實習數據后,按照要求對數據進行清理,并使用數據分析的方法進行研究,得到相應的信息,最后通過數據直觀、準確地展示頂崗實習的真實狀態,并分析其中的原因,為研究頂崗實習管理工作提供數據上的支持和服務。
2 數據采集處理
2.1 數據采集
根據Garcia等的教育數據挖掘流程,將教育數據挖掘工作分為六大步驟:數據采集、數據處理、數據挖掘、結果評估、知識發現和反饋實驗教學[2]。其中第一步數據采集是從教學環境中采集數據的過程。這個過程有時會非常的復雜,某些數據需要自己進行爬取或采集,這可能涉及程序開發、數據統計,有時還需要得到信息管理人員支持、高層管理人員授權等多方面工作。這是教育數據挖掘工作的第一步,有時也是最難的實施的一步,可能的困難主要是否允許獲取數據、數據的類型、范圍、特征、隱私問題、數據集覆蓋面等各方面的問題。
為更好地采集頂崗實習數據,本文所研究的頂崗實習數據集由某高職院校頂崗實習管理系統直接導出,數據集格式為csv格式,這種方式避免了數據采集的難度,簡化了數據采集的流程,同時所獲得原始數據集比較全面和準確。
2.2 數據處理
數據處理,即數據清理,原始數據導出后往往存在個人隱私、數據不完整、數據與分析需求不對接等問題,需要對數據進行數據處理[3]。
首先是脫敏處理,諸如個人私密信息如電話、身份證號、通訊地址等敏感數據不能直接使用,為保護個人隱私,需要進行模糊化處理或予以刪除。
本數據集中隱私字段的具體處理過程如下:
1)將學生姓名、學號等信息予以刪除,增加一個序號予以區分。
2)將手機號碼按號段推算出用戶手機運營商后刪除手機號碼字段;
3)通過家庭住址推算出學生居住地城市規模,并根據我國當前城市二三四線城市劃分標準進行等級劃分,得到相應等級。根據家庭住址還可以推算出戶籍類型,得出農村和城鎮戶口類別,為生源情況進行劃分。此外根據家庭住址還可以推算出居住地域,并按照江蘇省內的情況進行區域劃分,同時反向補充和完善家庭所在地區。
4)根據實習單位地址推算出實習城市規模、實習城市地域、實習城市等級。
其次需要將原始數據進行變換,以滿足數據分析的需要。因數據分析需要,需要對現有的頂崗實習數據集進行如下的預處理:
1)數字型標識字段轉換:通過班級編號計算出理工和人文類別。
2)通過身份證號碼反向完善性別、籍貫、生日等信息,彌補學生登記時缺失的數據字段,同時刪除原始的身份證號字段。
3)通過出生日期和入學時間推算出學生年齡長幼,并劃分為相應的等級。
4)由擔任的班干職務推算出是否擔任班干。
通過上面的操作,由原始數據生成如圖1的待分析數據集:
圖1 數據處理后的數據集
3 數據分析
數據分析是針對現有數據采用適當的統計分析方法,提取數據形成有用的信息,并以直觀有效地形成展現出來,形成結論和概括總結的過程。這一過程是由數據轉換為信息的過程。在實際應用中,數據分析的結果往往以直觀的圖表形式展示出來,以幫助人們根據結果圖表做出判斷。
3.1 文理科專業的性別分布情況分析
借助魔鏡等在線數據分析工具,生成了如圖2所示的文理科專業的性別分布情況圖,該圖清楚的展示出了人文專業與理工專業的男女生比例,可以非常清楚地看出人文專業的女生和理工科男生占比非常高,人文專業的男女比例約為1:2.4,理工科男女生比例約為:2.6:1。這體現出選擇時學生性別與專業之間有非常強的關聯。
3.2 班級年齡與班干之間分布情況
根據學生年齡和正常入學年齡比較,并將是否擔任班干因素加入,得到圖3所示的關系圖。
圖3顯示同一班級中年齡大(超過正常年齡2歲)和較大(超過正常年齡1歲)的同學較多,擔任班干的情況與年齡分布類似。這說明學生中因各種原因沒能按正常年齡考入大學的學生比例較高,約為正常的2倍,而比正常入學年齡小的學生比例較低,約為正常年齡的1/7,擔任班級干部的比例與年齡分布情況類似,說明是否擔任班干和年齡關系不大。
3.3 專業對口率
專業對口率是學校非常關心的一個指標,它關系著專業辦學方向是否準備,專業人才培養方案是否合理以及教學水平是否到位等眾多因素。為更真實地反映出各專業實習階段的對口率,根據學生反饋,將其中的數據提取并分析,得到如圖4所示的專業對口率:
3.4 實習去向
為更方便地開展實習就業指導工作,學校需要掌握學生就業去向,根據學生家庭住址和實習單位地址,提取并通過數據分類處理,生成如圖5和圖6所示的實習去向、實習地域變化情況圖。
從圖5和圖6兩張圖可以看出,不少學生從三線城市進入到一二線城市實習。為研究得更加細致,對學生原居住城市和實習城市進行了地域劃分,其中連云港作為學校所在地,從蘇北五市中單獨出來,單列為一個區域,而根據傳統分法,將江蘇的南京和鎮江列為一個區域,蘇中和蘇南按傳統分法列為兩個區域,江蘇以外的區域按中國大的地域進行劃分。
目前根據學生原來居住的城市和實習的具體地域看,該學校的學生大量的進入到蘇南城市(蘇州、無錫、常州)實習,這些城市對學生的吸引力非常強,這與江蘇大力支持蘇南發展,蘇南城市經濟相對發達、企業眾多、就業機會多、發展機遇多、收入相對較高等因素有關。對學生吸引力較大的其他地區是華東(在此主要指上海和杭州)、連云港、南京、鎮江等,除連云港是學校所在城市外,其他地區也是經濟較為發達的地區,對年輕人吸引力非常大。年輕人才的不斷流入,將會提高這些經濟發達地區勞動力素質、加大就業競爭壓力、增加流動人口管理成本。
與此相對應的是徐州、淮安、鹽城、宿遷及蘇中地區的學生則出現大量外流的情況,學生選擇到外地實習與這些城市對學生的吸引力下降有關系。這些城市地處江蘇北部,不是江蘇的發展重點,當地經濟相對落后、薪資收入相對較低,就業機會少、發展潛力有限,大量學生在實習時不愿意回到家鄉工作,而是選擇到蘇南、南京、上海等機會更多的發達地區進行實習,這大大影響了學生返鄉,在此格外注意的是徐州地區,入學時離開徐州的學生數量眾多,實時人才外流的情況也非常明顯。從長遠來看,這些經濟相對落后區域的青年人才將逐漸被蘇南、上海、南京等經濟發達地區吸引走,逐漸會陷入經濟發展落后與人才不斷外流的惡性循環,這將制約這些城市的長遠發展,蘇南蘇北的發展差距會被逐漸拉大。
4 結語
根據所收集的數據,采用數據分析和挖掘的方法進行了初步的處理,以直觀的形式展現了數據中所包含的信息,為更好地開展實習工作提供了數據上的支持[4]。未來的研究在現有基礎之上,還需要在數據收集的范圍、數據量上加大投入,同時還需要在數據挖掘技術上進一步綜深入,爭取獲取更多的價值。
參考文獻:
[1] 楊現民, 李新,邢蓓蓓.面向智慧教育的教學大數據實踐框架構建與趨勢分析[J].電化教育研究,2018(10):1-5.
[2] GarciaE,RomeroC,VenturaS,de Castro C.A collaborative educational association ruleminingtool[J].The Internet and HigherEducation,2011,14(2):77-88.
[3] 郭寶軍.高校教育大數據的分析挖掘與利用[J].電子技術與軟件工程,2018(18):165.
[4] 何文珍,蔡躍.基于知識圖譜的國外學習分析可視化研究[J].中國成人教育,2018(13):15-21.
【通聯編輯:代影】