湯希瑋,胡秋玲
(湖南第一師范學院a 信息科學與工程學院;b 圖書館,湖南 長沙 410205)
教育大數據的出現至少要歸因于數字時代的兩大趨勢。第一,傳統教育機構產生了大量標準化教育信息。具體而言,學生信息系統已被廣泛用于存儲和組織學生的個人資料信息(例如人員統計、學術背景)和學術記錄(例如課程注冊和最終成績)。這些數據往往涉及到幾十年來在某個教育機構學習的學生,這些機構的學生信息系統使得大規模管理和分析這些數據成為可能。第二,某些在面對面的課堂上很難記錄的學習行為現在可以被學習管理系統捕獲。在大多數情況下,教師使用學習管理系統分發教學材料、處理學生作業以及與學生溝通交流。就某一學生而言,從點擊課程模塊到修改提交的論文,這些帶有時間戳的日志相當于數千個數據點。除了學生信息系統和學習管理系統之外,數字學習環境(如各種社交網絡、論壇、基于教育游戲的學習環境、學習存儲庫、虛擬環境、無處不在的計算環境等等)中的創新技術能夠跟蹤和收集學生的各種數字足跡,也產生大量異構和多模態的數據。
教育大數據具有數量大、更新速度快、多樣化等特點,對分析學習者行為具有很高的價值。教育大數據為解決以前代價高昂甚至不可能回答的問題提供了堅實的數據基礎。通過跟蹤學生行為的數字足跡,研究人員能夠更精細地把握學習過程。通過將行為數據與心理調查表結合,研究人員可以將學生的行動序列映射到認知特征上,并驗證觀察到的行為痕跡是否與理論假設一致,從而有針對性地完善學習理論。豐富的教育大數據有助于人們了解具體教育政策的影響,并解決與政策有關的問題。例如,將學習過程數據和管理數據關聯起來可以揭示各種教育不平等現象的細微差別,并能以更短的反饋周期為采取切實的行動提供依據。幾十年來,人們一直在尋找與一對一輔導相媲美的有效教學方法,而教育大數據及其分析結果可用于探索學生的學習軌跡,設計自適應和個性化的學習環境,使個性化教學從理想走向現實。在教育界,越來越多的人希望通過分析教育大數據提高學習成績、推薦課程、分析學習模式、預測輟學率、提高教師工作效率、減少管理工作量等等。大數據分析正在改變教育行業,并為學習者和教師提供新的機會。
目前,國內教育大數據的研究論文不少,但是,這些論文往往局限于教育數據挖掘和學習分析兩大研究領域中的一個或兩個,全局性的分析文章還不多見。本文致力于填補這一空白,全景展現教育大數據的分類層次、平臺技術、研究主題和面臨的挑戰。首先從微觀層面、中間層面和宏觀層面深入探討教育大數據的內涵和外延,然后闡明教育大數據的各種平臺處理技術,最后重點分析教育大數據的主要研究方向和面臨的挑戰。
為了更好地理解教育大數據的作用,我們從三個層面對其進行考察,即微觀層面(如點擊流數據)、中間層面(如文本數據)和宏觀層面(如機構數據)。在微觀層面,教育大數據是細粒度的交互式數據,活動之間的間隔短至數秒。大多數微觀層面的數據是學習者與其學習環境交互時被自動收集的,這些環境包括智能家教系統、大規模在線開放課程(MOOC)、模擬仿真和游戲等等。中間層面的大數據涵蓋了學生在智能輔導系統、在線論壇、社交媒體等學習環境中進行寫作活動產生的各種數據。這些在自然狀態下被系統捕獲的原始數據能夠反映學習者的認知能力、社交能力和學習情感狀態等。宏觀層面的教育大數據由各教育機構產生。具體的例子包括學生人員統計、入學數據、校園服務數據、課程時間表和課程注冊數據、大學專業要求和學位完成數據等。宏觀層面的教學數據通常是在很多年的時間跨度內收集的,很少更新,通常每個學期只更新一到兩次(例如,課程表信息,成績記錄)。值得注意的是,這些微觀/中間/宏觀層面的分類不應該被視為嚴格不同的層次,因為它們在每個數據源中可能有相當多的重疊。例如,智能輔導系統中的擊鍵日志是微觀層面的數據,這些數據又可以表征寫入行為(例如,突發寫入、編輯過程等),而書面文本的內容和語言特征代表了可以用自然語言處理技術分析的中間層數據。類似地,社交媒體交互活動通常涉及微觀層面的時間戳(有時還需要位置信息),以及每個帖子的中間層數據。
Hadoop、Spark 和Samza 是目前比較流行的大數據分析系統。Hadoop 用于復雜的離線教育大數據處理,Spark 經常用于離線快速教育大數據處理,Samza 主要用于解決流式教育數據處理過程中的的高數據率和大數據量問題。
Hadoop 是一種開源框架,由一組實用程序構成[1]。它使用簡單的編程模型跨計算機集群分布式處理大型數據集,具有低成本、高效率、高可靠性、高可擴展性和高容錯能力。Hadoop 包括一些核心模塊,底層是hadoop 分布式文件系統HDFS,存儲了Hadoop 集群中所有存儲節點上的文件。HDFS之 上 是 由 JobTrackers 和 TaskTrackers 構 成 的MapReduce 引擎。除此之外還包括數據倉庫工具Hive 和非關系型數據庫NoSQL 等模塊。
Apache Spark 是一個統一的分布式內存計算引擎[2]。Spark 的設計目標是為編寫大數據應用程序提供一個統一的平臺,它的應用范圍限制在計算引擎之內,從存儲系統加載數據并計算,但最終結果并不永久存儲在Spark 中,Spark 可以和多種存儲系統結合使用,如Kafka(一個開源的流處理平臺)、Hbase(一種開源的分布式非關系型數據庫)、Hive、HDFS 以及關系型數據庫。Apache Spark的局限性在于沒有文件管理系統,需要與其他平臺集成,不支持完整的實時數據處理,內存消耗非常高,小文件發行問題,等待時間較長,支持算法偏少,不能自動處理背壓,需要手動優化等。
Samza 是一個分布式的流式數據處理框架,它基于Hadoop 并使用Kafka 分布式消息系統處理實時數據[3]。Samza 的目標是將數據流作為接收到的消息進行處理,Samza 的數據流初始元素是一個消息,數據流是分區的,每個分區都有一個特定的ID(標識)或偏移量。Samza 將存儲和處理放在同一臺機器上,不加載額外的內存,盡管Samza 主要是依賴于Hadoop 的Yarn 和Kafka,但是它的Execution模塊和Streaming 模塊是可插拔的。
教育大數據研究可大致劃分為四個方向:學習者的行為和表現、大數據建模和教育數據倉庫、教育體系的改進、大數據融入課程。
這一研究方向包括如下主題:學習分析、用戶行為和態度、適應性學習和學習滿意度。
基于不斷增長的教育大數據,學習分析可以增強對學習行為的理解,為決策者、講師和學習者提供有用的建議,幫助教育從業者提高教學效率[4]。在學習分析領域中,許多研究已經開展并取得了相關的成果[5]。值得注意的例子包括對學習者失敗風險的識別[6]和來自社區間互動的數據流分析[7]。
學習管理系統(LMS)在高等教育教學模式中發揮著基礎性作用。通過學習管理系統分析學生的行為和態度并改善學習過程的新研究方向已經出現。例如,Cantabella 介紹了一個在穆爾西亞天主教大學進行的案例[8],該案例考慮了LMS 的訪問量、學生使用的工具及其相關事件并根據學生的學習方式(即校內、網上和混合)分析了他們過去四年的行為。
自適應學習系統通過持續的互動為學習者提供建議。豐富而個性化的學習資源、及時的反饋系統、快速的溝通系統、自適應的實時評估更符合個人需求。個性化自適應學習已經成為教育大數據研究的新范式。例如,有研究考慮到MOOC 用戶多、資源豐富,但缺乏自適應學習的特點,建立了以學習者認知需求為中心的自適應學習MOOC 教育大數據系統模型[9]。
在線學習平臺產生的教育大數據提供了與滿意度相關的各種信息如學習內容、服務、互動、努力程度等,它是一種適合實時處理的大數據集范式。教育大數據為在線課程提供了實施非侵入性和過程性評估策略的機會,對傳統且耗時的收集反饋方式(如問卷調查)是一種有力的補充。例如,Elia G 設計了一種新方法,分析學生在線學習產生的數據,評估學生對課程的滿意程度[10]。
隨著學習人數的日益增加,在線學習門戶網站或在線教育系統跟蹤和記錄的數據量越來越龐大,標準分析程序已經無法滿足處理要求。需要建立和使用大數據模型加快分析進程。另一方面,許多NoSQL(非關系型數據庫)平臺,如Hadoop、Cassandra、MongoDB 等已經出現,且支持MapReduce范式,這為并行地計算和分析教育大數據,進而抽取相關模式提供了基礎。許多研究人員根據不同的教學應用場景,提出了各種教育大數據分析模型。例如ahin M 基于多種機器學習方法開發的各種模型如決策樹[11]、邏輯回歸、支持向量機、集成學習和k-最近鄰方法等,提出了一種自適應神經模糊推理系統(ANFIS)。ANFIS 結合了神經網絡技術和模糊推理方法,能夠高精度地預測MOOC學生的輟學率。
教育機構的管理人員需要及時的分析報告,以評估和跟蹤學生的成績、入學人數的增減、學術資格、實驗室和建筑維護記錄、學生訪問記錄和全體學生就業記錄等。目前,大多數研究報告都需要花時間從分散在不同來源的數據庫中收集數據,在約定的期限內,分析師們往往只能提供有限卻昂貴的信息。因此,建立提供許多接口,能夠兼容和管理各種數據類型的數據倉庫成為教育大數據研究的核心挑戰。Neamah 提出了一組構建教育數據倉庫的步驟[12],第一階段進行數據預處理、數據收集、數據輸入和數據驗證,第二階段對高校不同資源庫中的信息和數據進行加載、提取和轉換,第三階段存儲所有信息和數據,創建數據倉庫。
改進教育體系的研究涵蓋了統計工具和分析軟件的選擇、教育排名系統、互聯網的使用等主題。
當今社會,大數據軟件專家的數量遠遠小于實際需求。解決這一問題的潛在方法是選擇和使用專業的數據分析軟件和統計工具。Ozgur C 比較了Excel 插件、SPSS、SAS 和R 四種數據分析軟件[13]。作者概述了每種軟件的授權費、培訓時間和費用、統計方法和應用領域等,為大學師生提供有價值的參考。
目前有許多排名系統為高等教育提供地區性、全國性或國際性的評估服務,然而,由于它們通常采用主觀性評價指標和權重因素,產生的排名結果在客觀性和公正性方面備受質疑。教育大數據的涌現,為教育排名系統研發提供了全新的視野。例如,Qiu 等人在大數據技術的支持下,開發了一個實時、可擴展和模型驅動的高等教育排名系統[14]。
如何評估互聯網對教育的影響一直是研究者感興趣的主題。目前,兩種大數據分析工具即谷歌趨勢(Google Trends)和網絡分析工具(Web analytics tools),為了解學習者使用互聯網的情況提供了巨大的潛力。基于這兩個創新工具,監測大規模教育互聯網的使用數據,研究人員能夠了解在教育教學中,互聯網的使用是否緩解或加劇了現有的教育不公平、提高或降低了學習效率等問題。
越來越多的研究認為,在教學中,要對大數據的概念和技能進行實質性的覆蓋,需要更多地、逐步地對學生進行干預,并將大數據主題整合到多個核心課程中。許多研究針對將大數據融入課程這一主題展開了有益的探索。例如,Buffum 等人開發了一個面向中學的大數據課程模塊[15],該模塊與美國課程標準結合緊密。他們的研究表明,在中學引入大數據教學,能夠豐富包括科學、數學和語言藝術在內的核心學科。Nelson 等人針對電氣和計算機工程專業的研究助理開發了一個大數據教育課程項目[16]。美國會計協會(AAA)和國際大學商學院促進協會(AACSB)一直強調將大數據及其處理技術整合到會計課程中的重要性。為了響應這些呼吁,并確定一個共同的教學資源主體,Sledgianowski等人設計了一個會計教育框架,幫助教育工作者將與大數據和商業分析相關的信息系統和技術能力整合到會計課程中[17]。
1.教育大數據采集和元數據(描述數據的數據)自動生成
數據采集的目標是在數據存儲到數據倉庫或其他存儲設備之前對數據進行收集、過濾和清理。然而,定義數據過濾器是主要的挑戰之一。而另一個挑戰是如何自動生成元數據。元數據描述了需要記錄哪些數據,以及如何記錄和測量數據。需要新的方法和思路記錄數據的上下文環境和語義。
2.教育大數據質量
數據的價值取決于數據的質量。通常情況下,數據包含誤差、錯誤和不完整性。但是,目前低質量數據已經成為一個嚴重的問題。在許多數據倉庫項目中,數據清理消耗大約30%至80%的開發時間和預算。提高教育數據質量是大數據分析專家面臨的重要挑戰。
3.教育大數據的共享和轉移
盡管數據在急劇增長,但大多數數據仍然無法訪問或無法全部訪問。由于大數據的異質性和規模性,大數據的共享成為一項具有挑戰性的任務。此外,將大規模的教育數據從一個位置無縫地轉移到另一個位置也是一個潛在的挑戰。
4.教育大數據的查詢和索引
在教育大數據的查詢和索引中,存在一些挑戰。首先,大數據存儲在分布式系統中,因此大數據集的索引結構和查詢理論應該基于這樣的系統來發展。其次,樹狀結構在傳統的查詢優化和索引技術中非常流行,但在大數據集上卻不能很好地工作。第三,容錯是大數據查詢和索引中需要注意的一個重要方面。此外,在大數據分析中保持合理的查詢性能和吞吐量是一個重大的研究挑戰。
5.教育大數據的不確定性
當從多個異構來源收集教育數據時,數據的不確定性也伴隨而來。通常,不斷擴大的數據規模導致數據的不確定性發生突變,傳統數據梳理工具失去作用。教育大數據的這種不確定性嚴重影響了深度學習算法的性能。近年來,不斷有研究人員提出各種方法,試圖解決數據的不確定性給教育大數據學習帶來的問題,然而,為了確保從大數據分析中得出可靠的結論,仍然需要更合適的方法來理解數據的不確定性。
6.教育大數據的隱私、安全與倫理
數據隱私、安全和倫理是大數據創新生態系統的三大關注點。數據隱私涉及到如何查看和管理教育信息,數據安全涉及到個人重要信息的保護,數據倫理與數據分析的濫用有關,其中,隱私是最大的擔憂。在相互聯系和開放的當今世界,包括個人信息在內的信息共享越來越多,而大數據的陰暗面就是允許對這些信息進行監視。另外,即使有強大的網絡安全,仍然可能存在隱私侵犯,因此,研究和開發新的工具和技術保護高度分布在網絡中的大規模數據至關重要。
7.教育數據的可視化
可視化的教育大數據能夠生成易于使用的、動態的、交互式的分析視圖。然而,靜態或動態教育大數據的可視化是主要的研究挑戰之一。這種挑戰來自數據感知、數據的實時性以及交互的可擴展性。降低延遲和減少數據是解決這一問題的思路之一,同時,隨著自動化技術的不斷發展,數據的分析解釋工作在人類的適度參與下,下一代可視化技術預計會隨著時間的推移而快速發展。
本文從數據分層、技術平臺、研究方向和研究挑戰等方面對教育大數據的研究工作進行了全面分析。各種各樣的數據源(如學習管理系統、開放教育資源、大規模在線課程、社交媒體和關聯數據等)產生了類型各異的教育數據。為了理解這些異構的教育大數據,本文首先從微觀/中間/宏觀三個層次探討了教育大數據的產生和應用場景,然后研究了教育大數據的分析和處理平臺。為了給研究人員提供積極的參考,本文著重分析了教育大數據研究的四個方向及其涵蓋的主題,同時梳理了教育大數據研究面臨的各種挑戰。