林德智,張柳
(北海職業學校,廣西 北海 536009)
隨著大數據技術和應用不斷創新突破,人們漸漸認識到大數據對于產業的升級和經濟結構調整的重要支撐作用。對于教育行業來說,大數據的引入推動了教育教學方式的改革,以數字化手段實現教育信息化。根據中共中央國務院印發的《深化新時代教育評價改革總體方案》的要求,學校要“創新評價工具,利用人工智能、大數據等現代信息籍數,探索開展學生各年級學習情況全過程縱向評價、德智體美勞全要素橫向評價”。各高校積極響應了國家的號召,利用大數據技術不斷全面深化教育改革,包括教育教學、教育管理中信息化系統的建設[1]。Picciano在他的論文中表示,大數據能幫助導師分析學生的學習情況,了解他們是否能掌握所學知識[2]。與此同時,大數據的發展推動了教師個體的發展[3]。為適當今信息化教學的新時代,教育工作者需要通過大數據了解學生學習情況,動態調整專業和課程的設置,以建立健全人才培養體系[4]。但是,在實際運用信息系統處理學生的數據的時候,往往因平臺之間存在信息孤島,這些數據得不到充分挖掘和利用。因此,本文旨在利用大數據分析技術分析整合從教務系統中提取一學年的學生學習成績為例,通過使用python進行分析,評估學生對知識的掌握情況,進而引導各專業團隊針對大數據分析的結果提升專業和課程建設的成效。
本文通過該校的教務系統獲取了全校學生2019-2020學年第二學期和2020-2021學年第一學期的大數據。這部分數據存儲在不同的excel表格內,不僅涵蓋了教務系統本身提供的學生各項期末成績,還包括了從其他業務系統獲取的數據,例如從學工系統獲取的綜合測評成績;從到夢空間獲取的第二課堂積分;從易班獲取的易班網薪經驗值;從圖書館獲取的借閱記錄等。
這些數據種類繁多,單獨分析并不能全面評價一個學生的在校表現情況,容易造成“一刀切”“唯分數論”的教育教學局面。因此要秉承尊重學生個體差異的理念,注重“德智體美勞”的育人方向。從全局的高度利用大數據分析技術匯總、清洗和分析學生的各項數據,朝著個性化教育的方向思考[5]。
工欲善其事必先利其器。由于教務系統中存儲的信息來自各個業務系統,因此導出來的原始數據的大小、類型和結構可能不盡相同,需要數據整合來對不同類型的數據進行整合。Python的Pandas函數庫中提供了Join函數,依據共有數據把兩個或者多個數據表格組合起來。通過pd.join指令,以學生的名字和學號作為索引,可將專業課成績、綜合測評成績和第二課堂成績等等合并到一個表格中。此外,本文按照分類思想將每個學生都看作一個獨立的對象并制作行索引標簽,而其他信息等作為他們的屬性,通過loc方法獲取指定對象所在的行,即可查閱對應的屬性。
通過調用Python的Pandas函數庫先對原始數據中的缺省數據進行處理。因為教務系統中學生個人信息的數據采自數據中心,而數據中心的數據是人為錄入的,期間難免會出現漏填或錯填的情況。再加上學生在校期間可能會停學、休學和入伍,而數據中心是按學年為周期采集數據的,這樣一來就可能出現這部分數據欄為空的情況。這部分數據并不能反映客觀情況,故我們應該把它們當缺省值處理。使用Pandas中的np.NaN 表示缺省值,通過pd.isnull()和pd.notnull()來判斷原始數據中存在缺省的字段,再通過篩選刪除掉對應行。
早在20世紀60年代,國外許多大型教育機構(PISA、TIMSS)就開始采用多層線性模型、回歸模型、因子分析以及Apriori算法在內的多種方式研究影響學生成績的因素。楊琴在2016年通過建立時空特征模型來分析采集自校園WIFI的學生行為數據[6]。因此為了最終實現可視化,首先要為標準化的數據設置數據模型和算法。邏輯回歸(Logistic Regression)是機械學習中的一種分類模型,是解決二分類問題的利器。以學生的易班網薪經驗值為例,設定默認輸出的概率值為0.5,假設我們設定大于80分的概率值為屬于A(1)這個類別的概率值。現在有一個樣本的輸入到邏輯回歸的輸出結果是0.55,那么這個概率超過0.5,那么我們可以預測這個樣本就是A(1)類別。反之,如果輸出的值為0.3,那么預測結果我們可以歸為B(0)類別。
線性回歸算法(Linear Regression)是利用回歸方程(函數)對一個或多個自變量(特征值)和因變量(目標值)之間關系進行建模的一種分析方式。線性回歸算法有兩種,一種是線性關系,另一種是非線性關系。我們用線性回歸算法處理專業課(PEC和PCC)。
PEC=a×ER+b×UP
PCC=a×ER+b×UP
其中,ER為考試成績Examination Result,UP為平時成績Usual Performance,由此我們通過設置權重a和b即可建立特征值ER和UP與目標值PEC和PCC的關系。
聚類算法是一種典型的無監督學習算法,主要用于將類似的樣本自動歸類到一個類別中。在聚類算法中根據樣本之間的相似性,將樣本劃分到不同類別中,對于不同的相似度計算,會得到不同結果,常用的相似度計算方法有歐式距離算法。在這里我們主要通過聚類算法實現數據的篩選排序。使用聚類算法可以篩選出經過缺省處理過的數據進行刪除;另外還可以實現將信息按學年、學院、專業等等字段分類顯示,方便使用Matplotlib獲取對應字段進行可視化[7]。
數據可視化是指直觀展現數據,它是數據處理過程的一部分。借助數據可視化,能更直觀地理解數據,有助于解釋數據中隱藏的模式,做分析時可以利用這些模式選擇模型。Matplotlib是Python變成語言的開源繪圖庫。它是Python可視化軟件包中最突出的,使用最廣泛的工具,可以創建主流的可視化類型-折線圖、散點圖、直方圖、條形圖、誤差圖、餅圖、箱型圖等。通過Matplotlib得到專業必修課和專業選修課的正態分布圖。

圖1 專業必修課的正態分布圖

圖2 專業選修課的正態分布圖
本文對教務系統的數據處理和可視化進行了的研究和探索,初步驗證了方法的可行性和可操作性,往后的工作包括利用主成分、相關性、聚類、關聯規則挖掘、多元線性回歸等分析方法優化可視化圖表,進一步提升此項目對專業課程建設和教學管理的指導性作用。