李娜娜 萬 青 任芝軍 閆運忠
(河北工業大學 天津 300401)
McKinsey定義大數據技術[1]為一種在獲取、存儲、管理、分析等方面規模遠超傳統數據庫軟件工具處理數據能力范圍的數據集合,具有海量數據信息、快速的數據流轉、多樣化的數據類型以及價值密度低四大特征。大數據的意義不在于獲取龐大復雜海量數據信息,而在于對看似無關聯數據進行專業化、定制化處理,以達到挖掘數據背后隱藏關聯信息,獲取數據增值的能力。舍恩伯格和庫克耶在《大數據時代》[2]指出大數據不采用抽樣調查的隨機分析法,而是對全部海量數據進行分析處理。IBM 提出大數據具有海量、高速、多樣性、可變性、低價值密度、復雜性、真實性[3]7V 特征。
在線教學不受時間空間限制,以自己喜歡的學習模式開展自主學習。《教育信息化十年發展規劃(2011-2020)》中提出,學校在教育教學方面的變革要以學習者采取多樣化、個性化學習方法改革上取得突破進展。[4]在線學習已成為混合式教育、差異性教育、終身學習型教育領域主要研究熱點。[5]
今年新冠病毒肆虐,全球絕大多數學習者采用了在線教方式學習,在線教育的用戶滲透率得到空前提高,各層次用戶群體對在線教育持續關注度熱情不減。但是,由于在線教學對學習者自主學習能力提出較高的要求,學習過程狀態無法得到實時評估,學習效果參差不齊。在缺乏授課者實時隨堂監管情況下,部分學習者會出現因缺乏自我有效管控而導致專注力不夠、學習狀態渙散等效率低下行為。因此需要建立一種在線教學監督系統,通過收集在線學習全流程中學習者的學習效率反饋數據,對采集的各類型數據進行處理分析,得出學習者的學習效果分析結果,根據反饋推斷出知識掌握情況,同時給出指導性的改進意見,提升學習全過程的知識認知水平。
如何利用大數據,最大程度挖掘在線教育教學潛在價值,成為各研究所重點研究內容。美國2005 年DQC[6]建議教育決策者大量收集高質量教育教學數據,為更好提升學習效果給出策略性可行建議。2009 年在全美開展的SO1[7]項目,希望利用數據分析技術對學校每個學習者的特點、學習進度開展針對性的分析與未來學習能力預測。同時為每一位學習者提供個性化的學習任務清單,來適應不同教學進度。在《教育數據挖掘分析提升教學概述》[8]中明確表示在教育教學領域中結合教育大數據運用數據挖掘和分析數據技術提升教學水平。近年我國也陸續出臺《促進大數據發展行動綱要》《“互聯網+”行動計劃》《新一代人工智能發展規劃》等文件,明確發展教育文化系統大數據。[9-10]
教育數據分析是利用相關數據分析手段對采集到的數據進行歸納、分析、解讀的過程。根據分析結果判斷采取不同干預措施以及學習改進計劃,提升學習者的學習成效。
(1)數據采集:包括數據庫采集中ETL和Sqoop,關系型數據庫MySQL 和Oracle 等;網絡數據采集中借助于網絡爬蟲或網站公開的API;文件采集中實時文件采集和處理技術flume、基于ELK 的日志采集和增量采集等。
(2)大數據預處理:數據分析前為提高數據質量,將采集到的原始數據“清洗、填補、平滑、合并、規格化、一致性檢驗”操作,為后期分析奠定基礎。
(3)大數據存儲:用存儲器以數據庫的形式,存儲采集到數據的過程,包含三種典型路線:基于MPP架構的新型數據庫集群;基于Hadoop 的技術擴展和封裝;大數據一體機。
(4)大數據分析挖掘:數據挖掘算法、可視化分析、語義引擎、預測性分析、數據質量管理等方面,對復雜無規律的數據進行萃取、提煉、分析、整合的過程。
(5)數據反饋:以可視化方式將分析結果數據呈現給學習者,以此作為制定教學效果判別依據。
(6)可行性建議:根據可視化反饋結果結合可行性建議進行有針對性的學習方式改進。
綜上所述,當今教育現代化背景下,利用大數據分析技術,通過對在線學習過程中產生的結構化、半結構化、非結構化數據進行采集挖掘分析,可以得出不同學科背景、不同學習能力等學習者的學習差異、了解不同學習者的行為學習特征。以此為據,制定出可視性、差異化、定制性學習策略,為學習者在線學習的效率提升提供可行的方案。