劉樂,穆佳男
(貴州師范大學教育學院,貴陽 550025)
國務院于2015年8月發(fā)布了《促進大數(shù)據(jù)發(fā)展行動綱要》,在綱要中明確表明“數(shù)據(jù)是國家基礎性戰(zhàn)略資源”。隨后在啟動的十大工程之一“公共服務大數(shù)據(jù)工程”中,創(chuàng)造性地提出要建設教育大數(shù)據(jù)。現(xiàn)在各國正在爭相進行教育大數(shù)據(jù)的相關戰(zhàn)略部署,在我國教育大數(shù)據(jù)已經(jīng)成為我國教育研究中不可或缺的一部分[2]。
目前,教育領域在人工智能等科技的沖擊下面臨著全新的布局,正因看到了大數(shù)據(jù)技術與其他行業(yè)的結合,教育領域的學者也在積極探索如何深入挖掘大數(shù)據(jù),將其與教育深入融合,以此來助力我國教育事業(yè)的改革。本文將對我國教育大數(shù)據(jù)目前發(fā)展的理論研究、技術研究以及應用場景進行探討,希望對其他相關學者有幫助。
本文通過對教育大數(shù)據(jù)相關文章先進行檢索和梳理,借助CiteSpace軟件進行可視化分析,比較教育大數(shù)據(jù)理論、技術、應用的熱點和趨勢,以期較為客觀地反應這一領域地基本情況,因此本文圍繞著“教育大數(shù)據(jù)研究熱點”為問題,總結目前發(fā)展趨勢,為國內學者進一步研究提供參考。
為了更直觀呈現(xiàn)教育大數(shù)據(jù)的研究樣態(tài),本文借助陳超美博士研發(fā)的CiteSpace軟件,這是一款基于Java的可視化分析軟件。通過此軟件可以得到本領域的“科學知識圖譜”,知識圖譜能夠反映出本領域研究的熱點和趨勢,以此來形成本領域的研究演化進程。
本文的樣本直接來源是中國知網(wǎng),從2010年到2021年6月,在中國知網(wǎng)上,以“篇關摘=(教育大數(shù)據(jù))”檢索出來451篇文獻,來源期刊限定為北大核心、CSSCI。通過手工篩選,剔除報道、會議通知、文件、征稿啟事、卷首語等無價值的條目,共得到402篇有效文獻。
本文基于文獻計量學及科學知識圖譜方法,結合CiteSpace軟件對上述檢索樣本進行發(fā)文趨勢、期刊來源分布、關鍵詞詞頻和中心度進行分析,歸納國內研究的熱點和趨勢。
通過對近20年教育大數(shù)據(jù)研究的發(fā)文量統(tǒng)計,可以整體把握教育大數(shù)據(jù)研究的發(fā)文量變化趨勢,具體文獻走勢如圖1所示。

圖1 發(fā)文量年度趨勢
總體來看,教育大數(shù)據(jù)的研究呈增長趨勢。教育大數(shù)據(jù)的相關研究從2013年開始興起,到2015年期間都是緩慢增長,從2015年開始快速增長,這主要源自于國家在2015年推出的《國務院關于積極推進“互聯(lián)網(wǎng)+”行動的指導意見》,智慧教室、專遞課堂等“互聯(lián)網(wǎng)+教育”的產(chǎn)出,開始走進校園。同時利用學習分析等技術,來挖掘教育大數(shù)據(jù)中隱藏的教育規(guī)律,從而對翻轉課堂、個性化教學進行支持也是當前研究的重點、難點。在2017年到2020年,每年發(fā)文量保持在75篇左右。從2013年到2021年6月,發(fā)文量增加了近10倍。
對文章刊登的期刊進行分析,能夠使我們了解,目前這一研究領域在哪門學科的研究人員在關注。期刊來源分布如表1所示。可以看出,教育大數(shù)據(jù)主要是教育技術學領域在研究,其次是圖書情報。總體而言,教育大數(shù)據(jù)發(fā)文期刊的類別主要分布以教育類期刊為主,其次是計算機類期刊。教育領域的刊物是屬于社會科學一類,計算機領域的刊物屬于自然科學一類。而社會科學領域重理論研究,自然科學領域更重視實踐研究。“教育+大數(shù)據(jù)”的組合是使用科學技術來解決教育領域的難題,從文章分布期刊來看,目前這一領域理論研究明顯多于實踐研究。

表1 發(fā)文期刊數(shù)量
中心度和詞頻高的關鍵詞代表著這一領域的研究者們共同關注的熱點。中心度越高,說明該詞在網(wǎng)絡中所占比重越大、越重要。詞頻越高,說明該詞在該領域是研究的重點。如表2所示。

表2 關鍵詞
文獻中出現(xiàn)詞頻數(shù)排名前十的關鍵詞有“教育大數(shù)據(jù)”“大數(shù)據(jù)”“學習分析”“人工智能”“個性化學習”“數(shù)據(jù)挖掘”“數(shù)據(jù)治理”“教育信息化”“智慧教育”。其中學習分析、數(shù)據(jù)挖掘、數(shù)據(jù)治理等人工智能技術是對教育大數(shù)據(jù)進行分析,找出數(shù)據(jù)中隱藏的教育規(guī)律,來解決個性化學習、教育信息化、智慧教育等方面遇到的問題。
“大數(shù)據(jù)”一詞誕生于計算機行業(yè),作為一個專業(yè)術語被專業(yè)人士定義為“數(shù)據(jù)數(shù)量規(guī)模巨大,以至于無法采用人工的方式在合理且有限的時間內進行清洗、管理、分析、整理成人類能夠理解的信息”。教育大數(shù)據(jù)特指教育領域的大數(shù)據(jù)。楊現(xiàn)民把教育大數(shù)據(jù)定義為能夠采集到的、在教育活動中產(chǎn)生的、用于教育發(fā)展的數(shù)據(jù)集合[3]。孫洪濤認為教育大數(shù)據(jù)必須要滿足兩個服務對象:教育主題、教育過程。并且具有強周期性和教育價值的數(shù)據(jù)集合,這個數(shù)據(jù)集合具有高復雜性[4]。吳中南則將教育大數(shù)據(jù)定義為在教育體系中產(chǎn)生的所有數(shù)據(jù),不僅包含了線下學校、社會、家庭等教育場景中的數(shù)據(jù)還包括線上各個教育應用中產(chǎn)生的數(shù)據(jù)[5]。婁曉敏與吳中南的看法相似,但她并沒有局限教育大數(shù)據(jù)的來源,她認為凡是能在教育領域創(chuàng)造價值并且助力教育發(fā)展的數(shù)據(jù)都可稱之為教育大數(shù)據(jù)[6]。
以上幾位學者都有自己的看法,同時又對教育大數(shù)據(jù)有共同的觀點。首先,教育大數(shù)據(jù)是服務于教育行業(yè)。其次,教育大數(shù)據(jù)在教育過程的各個階段都能起到重要作用,例如學習者的個性化學習、教育資源共享與傳遞、教育管理與決策等方面。
大數(shù)據(jù)技術在教育領域的應用主要包括數(shù)據(jù)采集技術、數(shù)據(jù)存儲技術、數(shù)據(jù)挖掘技術。
3.2.1 數(shù)據(jù)采集技術
在大數(shù)據(jù)技術中,數(shù)據(jù)采集是最基礎最重要的環(huán)節(jié),在采集過程中,數(shù)據(jù)質量、數(shù)據(jù)范圍、可靠性等因素,最終影響著教育大數(shù)據(jù)價值潛能的實現(xiàn)程度[7]。
(1)物聯(lián)感知。利用傳感器、GPS、攝像頭等物理技術對互連(物理或虛擬)的事物進行識別物體、信息采集,來實現(xiàn)特定對象的評測、感知。其主要技術包括物聯(lián)感知技術、可穿戴設備技術和校園一卡通技術。
(2)視頻錄制。視頻錄制分為線上線下兩種方式。線上視頻錄制是指在計算機視窗環(huán)境內的內容進行錄制,一般利用計算機自帶的屏幕錄制工具。線下視頻錄制是指利用攝像機、手機等帶有錄像功能的設備對計算機硬件終端等進行視頻錄制[8]。
(3)圖像識別。圖像識別技術是指計算機對圖像進行處理、加工、分析等工作,識別不同類型、不同方式、不同模型的目標和對象的技術。目前圖像識別技術是深度學習算法的落地實踐應用。
(4)平臺采集。借助網(wǎng)絡爬蟲等數(shù)據(jù)采集技術,按照一定的規(guī)則,對平臺上用戶的點擊次數(shù)、來瀏覽時長等信息進行獲取[9]。該類技術主要有各行業(yè)各公司根據(jù)自我需求來進行相關平臺開發(fā),并通過自身指定的規(guī)則選擇對平臺的部分數(shù)據(jù)進行公開。
3.2.2 數(shù)據(jù)存儲與挖掘技術
數(shù)據(jù)存儲技術一般使用Hadoop、云存儲等技術對關系型數(shù)據(jù)、非關系型數(shù)據(jù)進行存儲。有學者使用內容中心網(wǎng)絡(CCN)與軟件定義網(wǎng)絡(SDN),提出了未來互聯(lián)網(wǎng)模型,目的是提高大數(shù)據(jù)架構(Hadoop)的可擴展性。此外,數(shù)據(jù)倉庫也是教育大數(shù)據(jù)存儲的備選方案之一[10]。
教育數(shù)據(jù)挖掘是指開發(fā)、研究和應用計算機方法來對傳統(tǒng)教育環(huán)境中的大量數(shù)據(jù)進行分析和監(jiān)測,從而更好地理解學生及其學習系統(tǒng)。教育數(shù)據(jù)挖掘利用課堂實錄、學生作業(yè)、考勤打卡、學習資源使用等數(shù)據(jù),進行學習者學習風格、學習模式建模,來預測學習者學習情況,并對其進行干預或者促進等操作,為教學者、教育管理者、學習者等對象提供現(xiàn)狀分析以及決策建議。
3.2.3 數(shù)據(jù)可視化技術
在大數(shù)據(jù)分析過程中,可視化是重要一環(huán)[11],可視化數(shù)據(jù)能夠解決教師做出決策時面臨的問題。隨著大數(shù)據(jù)技術的不斷升級創(chuàng)新,現(xiàn)在已經(jīng)可以構建關于智人的認知模型,并運用可視化技術將其展示出來,但大數(shù)據(jù)背后蘊藏的知識與智慧我們只觸及了其中一部分。在智慧課堂中產(chǎn)生的動態(tài)生成性數(shù)據(jù),來源不同、數(shù)據(jù)類型不同、數(shù)據(jù)維度也不盡相同,面對這種情況要開展數(shù)據(jù)分析工作,交互式可視化分析技術必不可少,并且單純的依賴計算機技術是不可靠的,數(shù)據(jù)分析工作更多的是要依靠人的認知、推理等能力[12]。
教育大數(shù)據(jù)提出至今,不少學者、教育機構和企業(yè)紛紛加入實踐隊伍中,實踐者分布于各個國家,涵蓋地區(qū)廣泛。目前教育大數(shù)據(jù)的應用范圍不算非常廣泛,主要集中在課堂教學、在線學習等,還有研究人員通過分析社交媒體的數(shù)據(jù)來研究某種教學內容的受關注程度。
3.3.1 在線教育中的應用
目前大數(shù)據(jù)支持下在在線教育中的應用比較有特點的兩個案例分別是“函數(shù)課程分析”和“無屏幕編程教育”。
2014年,日本Benesse公司和DK(digital knowledge)開展了函數(shù)課程“通信教育講座”,參加該課程的小學生將得到一塊平板電腦,學生在使用平板電腦過程中產(chǎn)生的數(shù)據(jù),由該公司收集處理后,開展相關的應用研究。其中收集的數(shù)據(jù)種類包括課上和課下兩部分。課上數(shù)據(jù)包括課堂內容、學習目標、授課方式、教學設計等,課下數(shù)據(jù)包括復習測試、自主學習時間、資源推送學習、家校參與情況等。將收集到的數(shù)據(jù)利用相關技術進行分析,定位學習者學習風格、探索學習者學習方式,并與教師家長進行緊密溝通,改善現(xiàn)有上課模式[13]。該方法主要針對個性化教學,讓大數(shù)據(jù)助力因材施教,對學生提供精準的學習幫助。
在2018年1月1日到2020年6月30日,研究人員對全球范圍內涉及無屏幕編程教育的推特推文進行了數(shù)據(jù)處理,利用社交媒體研究法(SMR),采用定量與定性相結合的方式進行分析。發(fā)現(xiàn)現(xiàn)階段在全世界范圍內,多數(shù)人秉持著持續(xù)觀察、大力支持的態(tài)度。而最近發(fā)展區(qū)和支架理論是無屏幕編程教育的理論基礎,無屏幕編程教育從四個方面來分析學習者的認知能力、學習質量、計算思維,在最后會評估是否對學習者形成了良好的促進作用[14]。
3.3.2 學校中的應用
在學校中應用大數(shù)據(jù)相關技術,在高等教育中較為常見,其一是“課堂視頻分析”,其二是“批改網(wǎng)”。
課堂實錄分析一直是教育技術領域研究的重點,這是學者們觀察教育過程、得出教育規(guī)律的重要手段之一。在華中師范大學教育技術團隊的不懈努力,針對數(shù)字化課堂實錄開發(fā)出了視頻分析工具。團隊運用S-T分析功能對優(yōu)質課進行了分析,發(fā)現(xiàn)教學過程中每個不同教學模式有著明顯的不同特征,不同科目之間、新舊教師之間,在師生互動、主題探討等方面的特點也不盡相同[15]。
批改網(wǎng)一直是英語類教師們使用頻率最高的大數(shù)據(jù)教育應用。在2015年舉辦的北京市初中生英語寫作比賽中,批改網(wǎng)發(fā)揮了巨大作用。通過對學生作文和語料庫之間的對比,采用一定的計分算法,對雷同、抄襲、病句等情況進行判斷。以班級為集體,將學生作文得分的具體情況形成診斷報告發(fā)送給各個班級的英語教師。對學生個人而言,能夠針對學習者個人情況,在單詞搭配、語法時態(tài)、詞組搭配等,給出了詳細的意見。并且通過此次活動,批改網(wǎng)也形成了更加精準的語料庫。教師們反映,批改網(wǎng)基于教育大數(shù)據(jù)形成的學情診斷報告在一定程度上能夠幫助教師改進課堂教學效果。
教育大數(shù)據(jù)的研究雖然逐步深入,但是面臨不少挑戰(zhàn)。包括技術方面的挑戰(zhàn)、安全與隱私的挑戰(zhàn)、價值的挑戰(zhàn)。
4.1.1 教育大數(shù)據(jù)的技術挑戰(zhàn)
教育大數(shù)據(jù)在應用場景的各個環(huán)節(jié)中存在各種挑戰(zhàn),例如在數(shù)據(jù)采集前期,由于我國現(xiàn)階段還沒有數(shù)據(jù)統(tǒng)一的法定條文,又面臨著不同系統(tǒng)、不同來源之間兼容性的問題。遵從頂層設計原則,應由相應的協(xié)會組織或者教育部牽頭,對數(shù)據(jù)格式、數(shù)據(jù)傳輸協(xié)議、數(shù)據(jù)存儲等關于大數(shù)據(jù)的問題制定符合行業(yè)規(guī)范、符合社會需求的統(tǒng)一范式。再根據(jù)地域不同、機構類型不同、學校不同按照自身需求,再統(tǒng)一范式下設計適合自身的系統(tǒng),打破數(shù)據(jù)孤島,讓教育大數(shù)據(jù)發(fā)揮更大的價值。
4.1.2 教育大數(shù)據(jù)的安全與隱私挑戰(zhàn)
在人工智能倫理領域中,教育大數(shù)據(jù)也面臨著侵犯個人隱私和數(shù)據(jù)安全的挑戰(zhàn)。無論是從智慧課堂還是學習系統(tǒng)中得到的數(shù)據(jù),都有關用戶的隱私。現(xiàn)在數(shù)據(jù)的安全性等級和隱私性關系還沒有相關的評估規(guī)則和評估工具。又因現(xiàn)在科技的飛速發(fā)展,黑客若利用系統(tǒng)漏洞獲取學習者相關信息,這不僅會對學習者個人造成騷擾還會對當?shù)氐慕逃叩闹贫ㄐ纬梢欢ǖ挠绊憽2⑶谊P于數(shù)據(jù)的所有權問題,也是目前各位學者關注的一個焦點。教育數(shù)據(jù)源自用戶,但又通過學習系統(tǒng)形成。目前通過強制性協(xié)議,數(shù)據(jù)所有權大部分是相關企業(yè)擁有,但是數(shù)據(jù)所有權到底歸誰?這其中牽扯到的利益如何?都是需要我們深思熟慮的問題。
4.1.3 教育大數(shù)據(jù)的價值挑戰(zhàn)
數(shù)字經(jīng)濟時代,教育大數(shù)據(jù)在政企協(xié)同、行業(yè)協(xié)同以及區(qū)域協(xié)同等方面對教育數(shù)字化升級、產(chǎn)業(yè)數(shù)字化轉型具有重要意義。礦產(chǎn)、物資等有形資產(chǎn)如果被惡意使用,則會被嚴格的法律制裁,而具有無限潛力的數(shù)據(jù)被外泄、被攻擊時,因是無形資產(chǎn)所以無法被法律裁定。而將數(shù)據(jù)完全保護起來就無法發(fā)揮應有的社會價值。因此如何開放數(shù)據(jù)、開放什么數(shù)據(jù)、開放到什么程度,這是目前面臨的挑戰(zhàn)之一,對數(shù)據(jù)進行評估以此來保證重要的、有價值的數(shù)據(jù)被嚴密保護,也是挑戰(zhàn)之一。這些都是目前為止各個國家、聯(lián)盟所面臨的重大挑戰(zhàn)[16]。
教育大數(shù)據(jù)最有價值的地方應當表現(xiàn)為“因材施教”“重構評價體系”“創(chuàng)新教學模式”等目前在教育領域遭遇瓶頸的業(yè)務上面,并且積極推動教育融入信息時代也是其體現(xiàn)價值的方式之一。
4.2.1 實現(xiàn)個性教學
“因材施教”是孔子提出來的觀點。信息時代下,利用眼動儀、課堂實錄、作業(yè)筆記、視頻學習等學習記錄來發(fā)現(xiàn)影響學習者學業(yè)發(fā)展水平的因素,構建學習者畫像,并對學習者開展全方面、客觀的評價,在此基礎上對學習者進行因材施教,幫助學習者認識自己、重構自己,形成自己的學習風格,找到自己的優(yōu)勢所在,確定自己的發(fā)展方向。
4.2.2 重構評價體系
現(xiàn)存的學生、教師、學校的評價體系,無一不是更加注重結果而非過程。在教育大數(shù)據(jù)的支持下,智慧校園的構建能為學校里的人員提供科學、準確的數(shù)據(jù)支撐。尤其是教師方面,響應教育部新發(fā)布的《深化新時代教育評價改革總體方案》,“破五唯”、實施四個評價等措施,不僅從科研成果、申報項目等方面來評價教師,更讓課堂設計、備課教學等方面融入到教師評價體系中。從而推動整個教育系統(tǒng)的變革。
4.2.3 創(chuàng)新教學模式
在教育大數(shù)據(jù)的信息化背景下,利用課件、視頻、課堂實錄等學習記錄對學生進行全方位的了解,教師基于教育大數(shù)據(jù)落實教學反思,對現(xiàn)存的教學模式進行創(chuàng)新。應用教育大數(shù)據(jù)讓教育信息化有了新的發(fā)展[17]。