楊眾 王旭東 叢玉正
摘要:隨著信息化技術(shù)的快速發(fā)展,高校的信息系統(tǒng)日趨完善,各種信息系統(tǒng)如學(xué)習(xí)平臺(tái)、教學(xué)和辦公應(yīng)用系統(tǒng)都運(yùn)行在數(shù)據(jù)中心,數(shù)據(jù)中心存儲(chǔ)了大量的業(yè)務(wù)信息。對(duì)高校數(shù)據(jù)中心存儲(chǔ)的各類應(yīng)用數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)化和處理,建立面向主題的數(shù)據(jù)倉(cāng)庫(kù)。對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行挖掘和探索式分析,以可視化駕駛艙的方式直觀地展現(xiàn)學(xué)校的實(shí)際數(shù)據(jù)狀態(tài),通過(guò)對(duì)數(shù)據(jù)的可視化分析可以為學(xué)校在辦學(xué)、人才培養(yǎng)和學(xué)生管理等方面提供數(shù)據(jù)支持和決策。
關(guān)鍵詞:數(shù)據(jù)中心;數(shù)據(jù)分析;數(shù)據(jù)倉(cāng)庫(kù);可視化;智慧校園
中圖分類號(hào):TP393文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2021)17-65-4
0引言
自教育部發(fā)布《教育信息化十年發(fā)展規(guī)劃(2011—2020年)》以來(lái),國(guó)內(nèi)各高校對(duì)信息化建設(shè)大力投入,各類業(yè)務(wù)系統(tǒng)逐步建設(shè)完善,信息化服務(wù)水平不斷提高[1]。數(shù)據(jù)中心的建立有效地解決了各系統(tǒng)數(shù)據(jù)存儲(chǔ)分散、數(shù)據(jù)標(biāo)準(zhǔn)不一致和數(shù)據(jù)共享困難等信息孤島問(wèn)題。下一步將圍繞如何發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)價(jià)值進(jìn)行研究,對(duì)數(shù)據(jù)中心存儲(chǔ)的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行有效挖掘,實(shí)現(xiàn)跨業(yè)務(wù)系統(tǒng)、高效的數(shù)據(jù)分析,讓數(shù)據(jù)“說(shuō)話”,達(dá)到數(shù)據(jù)分析展現(xiàn)的統(tǒng)一歸口,實(shí)時(shí)展現(xiàn)學(xué)校各方面的數(shù)據(jù)狀態(tài),為學(xué)校領(lǐng)導(dǎo)提供決策支撐。
教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)是一門(mén)涉及計(jì)算機(jī)科學(xué)、教育學(xué)和統(tǒng)計(jì)學(xué)的交叉學(xué)科,它致力于分析學(xué)校教育環(huán)境下的獨(dú)特?cái)?shù)據(jù),目的是為了更好地了解學(xué)生及學(xué)校環(huán)境,從而提高學(xué)校教學(xué)成效[2]。
1技術(shù)路線
研究分析的數(shù)據(jù)來(lái)源于高校數(shù)據(jù)中心,數(shù)據(jù)中心通過(guò)與統(tǒng)一認(rèn)證平臺(tái)、人事系統(tǒng)、科研系統(tǒng)、學(xué)生系統(tǒng)和一卡通等系統(tǒng)進(jìn)行數(shù)據(jù)交換進(jìn)而存儲(chǔ)大量的業(yè)務(wù)數(shù)據(jù)。通過(guò)對(duì)數(shù)據(jù)中心的數(shù)據(jù)源進(jìn)行ETL(提取、轉(zhuǎn)化和裝載),將想要進(jìn)行分析的主題數(shù)據(jù)進(jìn)行高效的提取和處理,形成數(shù)據(jù)倉(cāng)庫(kù),進(jìn)行建模分析。數(shù)據(jù)倉(cāng)庫(kù)是專門(mén)為數(shù)據(jù)的統(tǒng)計(jì)分析和決策支持而設(shè)計(jì)的,存儲(chǔ)著需要進(jìn)行分析的面向主題數(shù)據(jù),數(shù)據(jù)具有穩(wěn)定并隨時(shí)間變化等特點(diǎn)[3]。研究的技術(shù)路線情況如圖1所示。
1.1數(shù)據(jù)操作
采用的開(kāi)發(fā)語(yǔ)言為Python 3,開(kāi)發(fā)IDE為PyCharm 2020,數(shù)據(jù)庫(kù)為Oracle 12c。數(shù)據(jù)庫(kù)操作基本代碼如下:
1.2數(shù)據(jù)處理
由于數(shù)據(jù)中心的數(shù)據(jù)來(lái)源于不同系統(tǒng),各個(gè)系統(tǒng)始建于不同時(shí)期,所用數(shù)據(jù)標(biāo)準(zhǔn)各不相同,導(dǎo)致數(shù)據(jù)質(zhì)量參差不齊。要想對(duì)數(shù)據(jù)進(jìn)行分析就需要對(duì)數(shù)據(jù)的質(zhì)量問(wèn)題進(jìn)行處理。
Python中有著豐富的數(shù)據(jù)處理、分析和挖掘工具包。采用Numpy庫(kù)實(shí)現(xiàn)了多維數(shù)組與矩陣的高效運(yùn)算,Pandas庫(kù)函數(shù)對(duì)數(shù)據(jù)的編碼問(wèn)題、缺失值問(wèn)題與異常值的問(wèn)題進(jìn)行有效處理,生成規(guī)整數(shù)據(jù)裝載進(jìn)數(shù)據(jù)倉(cāng)庫(kù)。比如用dropna函數(shù)對(duì)不規(guī)整數(shù)據(jù)進(jìn)行刪除,fillna函數(shù)對(duì)空值進(jìn)行替換等。
1.3數(shù)據(jù)展現(xiàn)
在數(shù)據(jù)展現(xiàn)方面,將對(duì)系統(tǒng)分析出來(lái)的數(shù)據(jù)通過(guò)Web可視化進(jìn)行展現(xiàn),這里采用Flask Web容器來(lái)部署pyechars技術(shù)。pyechars是Python語(yǔ)言中用于設(shè)計(jì)Echars圖表的類庫(kù),對(duì)百度開(kāi)源圖表庫(kù)Echars進(jìn)行了封裝,實(shí)現(xiàn)了Java Script的圖表庫(kù)技術(shù)。相比于Matplotlib繪圖,pyechars有著可移植性強(qiáng)、展現(xiàn)直觀、生動(dòng)、可交互、可高度個(gè)性化定制等特點(diǎn)[3]。下面采用pyechars繪制學(xué)生消費(fèi)情況柱狀圖,代碼如下:
2數(shù)據(jù)分析設(shè)計(jì)實(shí)現(xiàn)
本研究對(duì)高校幾大核心業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行整理和抽取,按照招生、教職工、學(xué)生消費(fèi)和科研4個(gè)數(shù)據(jù)主題進(jìn)行展示與分析。
2.1招生分析
招生作為高校人才培養(yǎng)的主要入口之一,生源質(zhì)量的好壞和招生計(jì)劃是否合理都會(huì)影響學(xué)校的教學(xué)成果。本研究選取了學(xué)校近8年本科生招生數(shù)據(jù)進(jìn)行研究分析,按照招生完成率、錄取情況、學(xué)生情況和地區(qū)招生情況進(jìn)行了統(tǒng)計(jì)分析。各主題分析指標(biāo)類型如表1所示。
通過(guò)調(diào)用Python機(jī)器學(xué)習(xí)第三方模塊Sklearn,對(duì)招生計(jì)劃數(shù)和實(shí)際錄取人數(shù)進(jìn)行回歸分析。研究利用corr()函數(shù)對(duì)計(jì)劃和實(shí)際錄取人數(shù)進(jìn)行相關(guān)性評(píng)估計(jì)算,得出分?jǐn)?shù)為0.97,非常接近于1,這說(shuō)明二者有明顯的線性相關(guān)性,也就是說(shuō)招生計(jì)劃越多,實(shí)際招生人數(shù)也越多,招生情況回歸分析如圖2所示[4]。
利用最小二乘法對(duì)歷年的招生數(shù)據(jù)建立數(shù)據(jù)模型,在LinearRegression中調(diào)用fit()訓(xùn)練方法進(jìn)行數(shù)據(jù)模擬仿真[5]。采用score()函數(shù)對(duì)訓(xùn)練出的模型進(jìn)行打分,為0.98分,模型效果比較理想,使用predict()函數(shù)對(duì)未來(lái)招生的情況進(jìn)行預(yù)測(cè)。預(yù)測(cè)結(jié)果為當(dāng)招生計(jì)劃數(shù)增加至2 000人時(shí),實(shí)際招生人數(shù)會(huì)達(dá)到1 957人。預(yù)測(cè)實(shí)現(xiàn)代碼如下所示:
2.2學(xué)生行為分析
隨著各應(yīng)用系統(tǒng)及大數(shù)據(jù)中心的建設(shè),學(xué)生在校內(nèi)的學(xué)習(xí)和生活痕跡都會(huì)被系統(tǒng)記錄并存儲(chǔ)。通過(guò)抽取、整合學(xué)生數(shù)據(jù)和一卡通數(shù)據(jù),按照以下幾個(gè)主題對(duì)學(xué)生日常行為數(shù)據(jù)進(jìn)行分析展現(xiàn),如表2所示。
圖書(shū)館和自習(xí)室是大學(xué)生主要的學(xué)習(xí)場(chǎng)所,對(duì)一年中30萬(wàn)條學(xué)生進(jìn)出圖書(shū)館和自習(xí)室的門(mén)禁記錄進(jìn)行了統(tǒng)計(jì)分析,學(xué)生行為數(shù)據(jù)如圖3所示。
發(fā)現(xiàn)學(xué)生行為數(shù)據(jù)存在如下規(guī)律:
①在學(xué)習(xí)方面,學(xué)生進(jìn)出圖書(shū)館的時(shí)間主要集中在每年的6月、7月、12月和1月,每年2月和8月圖書(shū)館的訪客最少,周末進(jìn)出圖書(shū)館人數(shù)少于平時(shí)。從數(shù)據(jù)中可以分析出,學(xué)生在臨近1月和7月的期末考試前夕進(jìn)入圖書(shū)館自習(xí)室學(xué)習(xí)的次數(shù)最多,側(cè)面反映出學(xué)生平時(shí)缺乏自主學(xué)習(xí)的能力。針對(duì)這種現(xiàn)象,建議學(xué)校增加學(xué)生階段性過(guò)程考試,培養(yǎng)在校學(xué)生養(yǎng)成良好的學(xué)習(xí)習(xí)慣。
②通過(guò)對(duì)學(xué)生在一天之中進(jìn)出圖書(shū)館的時(shí)間進(jìn)行分析,發(fā)現(xiàn)學(xué)校進(jìn)圖書(shū)館的時(shí)間主要集中在7時(shí)、8時(shí)、12時(shí)和13時(shí),離開(kāi)圖書(shū)館的時(shí)間集中在18時(shí),在6—7月時(shí),學(xué)生離開(kāi)圖書(shū)館的時(shí)間推遲至22時(shí)。從數(shù)據(jù)中可以分析出學(xué)生在一天之中學(xué)習(xí)集中的時(shí)段,由于期末學(xué)習(xí)任務(wù)較重,學(xué)生在圖書(shū)館自習(xí)的時(shí)間較晚,建議學(xué)校在期末前夕適當(dāng)延長(zhǎng)圖書(shū)館的閉館時(shí)間,為學(xué)生提供更多的學(xué)習(xí)時(shí)間。
在學(xué)生消費(fèi)方面,統(tǒng)計(jì)出各年級(jí)和專業(yè)在校生的消費(fèi)情況,包括平均消費(fèi)和最低情況,為學(xué)校在評(píng)獎(jiǎng)助學(xué)金和助學(xué)貸款方面提供消費(fèi)數(shù)據(jù)支撐。
2.3教職工分析
教職工分析聯(lián)合人事、科研和教務(wù)業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行分析。
教職工基本情況:展示教職工的年齡、工齡、學(xué)歷和戶籍信息,向?qū)W校展現(xiàn)教職工的基本情況信息。
教職工發(fā)展情況:教師的崗位、職務(wù)、職稱和編制類別等信息,分析各部門(mén)的崗位任職情況,為學(xué)校接下來(lái)的教師人才培養(yǎng)提供數(shù)據(jù)支撐。
博士教師情況:學(xué)校的博士教師情況和各部門(mén)博士人員數(shù)量,為學(xué)校申博和學(xué)科評(píng)估提供數(shù)據(jù)支撐。
人才引進(jìn)/流失情況:學(xué)校每年招入和流出的人員信息,更有目的性地制定人才引進(jìn)計(jì)劃。
2.4科研分析
各部門(mén)科研情況:學(xué)院各部門(mén)的科研成果情況,包括項(xiàng)目、論文、著作、專利和鑒定等。分析學(xué)院各職稱和各級(jí)別教師的科研成果情況:統(tǒng)計(jì)學(xué)校各專業(yè)科研成果,根據(jù)教職工的科研成果進(jìn)行統(tǒng)計(jì)分析,按照專業(yè)和學(xué)科計(jì)算出科研分?jǐn)?shù),對(duì)科研分?jǐn)?shù)進(jìn)行統(tǒng)計(jì)分析,找出優(yōu)勢(shì)學(xué)科[6]。
3結(jié)束語(yǔ)
通過(guò)對(duì)學(xué)校各方面的數(shù)據(jù)進(jìn)行分析和挖掘,使原來(lái)數(shù)據(jù)中心和業(yè)務(wù)系統(tǒng)的數(shù)據(jù)重新發(fā)揮了巨大價(jià)值。將數(shù)據(jù)進(jìn)行可視化分析可以發(fā)現(xiàn)數(shù)據(jù)中存在的問(wèn)題和規(guī)律,對(duì)學(xué)校在教學(xué)或科研上出現(xiàn)的異常數(shù)據(jù)進(jìn)行預(yù)警,使學(xué)校管理者在決策上由被動(dòng)變?yōu)橹鲃?dòng),大大提高了學(xué)校信息化的服務(wù)質(zhì)量,向?qū)崿F(xiàn)智慧校園邁進(jìn)。
參考文獻(xiàn)
[1]王運(yùn)武.中國(guó)教育信息化戰(zhàn)略規(guī)劃的世紀(jì)變遷[J].江蘇開(kāi)放大學(xué)學(xué)報(bào),2016,27(4):37-46,89.
[2]黃連強(qiáng).大數(shù)據(jù)背景下高校教學(xué)信息化研究[J].電腦編程技巧與維護(hù),2018(4):96-97,121.
[3]李蒙昭.數(shù)據(jù)可視化平臺(tái)圖表推薦系統(tǒng)的研究[D].武漢:華中科技大學(xué),2019.
[4]王瑞昌.面向教職工的數(shù)據(jù)中心數(shù)據(jù)共享的研究與實(shí)現(xiàn)[D].成都:西南交通大學(xué),2012.
[5]李天輝.基于python的數(shù)據(jù)分析可視化研究與實(shí)現(xiàn)[J].電子測(cè)試,2020(20):78-79.
[6]劉少楠.基于B/S模式的高校科研管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].沈陽(yáng):東北大學(xué),2015.