◆黃志宏 巫莉莉
優(yōu)質(zhì)數(shù)字化教育資源共享是課程建設(shè)的根本出發(fā)點(diǎn),加快數(shù)字化資源建設(shè)是高校教學(xué)質(zhì)量和教學(xué)改革工程的重要舉措之一,是促進(jìn)課程建設(shè)、提高教學(xué)質(zhì)量的關(guān)鍵環(huán)節(jié)。2018 年4 月13 日發(fā)布的《教育部關(guān)于印發(fā)〈教育信息化2.0行動(dòng)計(jì)劃〉的通知》(教技〔2018〕6 號(hào))中明確提出:“國(guó)家將實(shí)施教育大資源共享計(jì)劃,利用大數(shù)據(jù)技術(shù)采集、匯聚互聯(lián)網(wǎng)上豐富的教學(xué)、科研、文化資源,為各級(jí)各類學(xué)校和全體學(xué)習(xí)者提供海量、適切的學(xué)習(xí)資源服務(wù),打破教育資源開(kāi)發(fā)利用的傳統(tǒng)壁壘。”[1]
目前高校雖然都在陸續(xù)開(kāi)展數(shù)字化教育資源的共享建設(shè),但在建設(shè)過(guò)程中仍存在一些問(wèn)題。
1)數(shù)字化教育資源數(shù)據(jù)海量且共享度低,價(jià)值密度較低的數(shù)據(jù)無(wú)法有效提純。
2)數(shù)據(jù)資源維度少,師生的個(gè)性化標(biāo)簽太少,數(shù)字化教育資源無(wú)法與師生精準(zhǔn)匹配,實(shí)現(xiàn)因材施教及個(gè)性化教學(xué),從而導(dǎo)致數(shù)字化教育資源共享應(yīng)用推廣成效不佳。
為了解決上述問(wèn)題,需要借助大數(shù)據(jù)分析技術(shù)對(duì)師生的教學(xué)過(guò)程數(shù)據(jù)進(jìn)行分析,幫助教師對(duì)海量的數(shù)字化教育資源進(jìn)行優(yōu)化篩選,向?qū)W生推送適合自己的學(xué)習(xí)內(nèi)容,實(shí)現(xiàn)個(gè)性化教學(xué)。
平臺(tái)框架校園數(shù)字化教育資源共享應(yīng)用平臺(tái)以虛擬化平臺(tái)為基礎(chǔ)支撐,基于大數(shù)據(jù)實(shí)驗(yàn)平臺(tái)和管理平臺(tái)中的數(shù)據(jù)采集、清洗、存儲(chǔ)、分析技術(shù),對(duì)在線課程平臺(tái)中的師生教學(xué)過(guò)程數(shù)據(jù)進(jìn)行分析研究,對(duì)學(xué)生學(xué)習(xí)狀態(tài)進(jìn)行評(píng)估,構(gòu)建學(xué)生個(gè)人行為畫(huà)像,并向?qū)W生推薦個(gè)性化學(xué)習(xí)所需的圖書(shū)館優(yōu)秀數(shù)字資源和互聯(lián)網(wǎng)教育資源。平臺(tái)框架如圖1 所示。
關(guān)鍵技術(shù)
1)大數(shù)據(jù)技術(shù)[2-4]。數(shù)據(jù)采集是大數(shù)據(jù)生命周期的第一個(gè)環(huán)節(jié),就是綜合利用FTP、http、WebService、JDBC、syslog 等接口以及網(wǎng)絡(luò)爬蟲(chóng)工具,獲取信息系統(tǒng)業(yè)務(wù)數(shù)據(jù)、設(shè)備日志數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),它是大數(shù)據(jù)知識(shí)服務(wù)模型的根本。
數(shù)據(jù)清洗是過(guò)濾掉海量數(shù)據(jù)中沒(méi)價(jià)值的、錯(cuò)誤干擾數(shù)據(jù),保留滿足業(yè)務(wù)分析所需的有效數(shù)據(jù)。通過(guò)制定對(duì)應(yīng)的ETL 數(shù)據(jù)清洗策略來(lái)保證數(shù)據(jù)質(zhì)量,同時(shí)保障根據(jù)時(shí)間演進(jìn)不斷更新數(shù)據(jù)模式,確定數(shù)據(jù)實(shí)體及其之間的關(guān)系,最終將數(shù)據(jù)按照統(tǒng)一的格式進(jìn)行存儲(chǔ),以便提供給上層進(jìn)行數(shù)據(jù)分析。
數(shù)據(jù)存儲(chǔ)是采用關(guān)系數(shù)據(jù)庫(kù)、大數(shù)據(jù)分布式存儲(chǔ)、數(shù)據(jù)倉(cāng)庫(kù)并行的模式將數(shù)據(jù)加載在大數(shù)據(jù)管理平臺(tái),依據(jù)相關(guān)規(guī)范,合理制定并完成數(shù)據(jù)存儲(chǔ)及異構(gòu)數(shù)據(jù)關(guān)聯(lián),將提供的數(shù)據(jù)細(xì)化到字段級(jí)別。數(shù)據(jù)倉(cāng)庫(kù)主要是對(duì)清洗后的數(shù)據(jù)進(jìn)行加載、入庫(kù)、存儲(chǔ)的操作。

圖1 數(shù)字化教育資源共享應(yīng)用技術(shù)平臺(tái)框架

圖2 數(shù)字化教育資源共享應(yīng)用技術(shù)平臺(tái)功能圖
數(shù)據(jù)建模是抽象描述現(xiàn)實(shí)世界的一種工具和方法,是通過(guò)抽象的實(shí)體及實(shí)體之間聯(lián)系的形式,來(lái)表示現(xiàn)實(shí)世界中事務(wù)的相互關(guān)系的一種映射。數(shù)據(jù)模型抽象表現(xiàn)的是實(shí)體和實(shí)體之間的關(guān)系,通過(guò)對(duì)實(shí)體和實(shí)體之間關(guān)系的定義和描述,來(lái)表達(dá)實(shí)際的業(yè)務(wù)中具體的業(yè)務(wù)關(guān)系。
2)非結(jié)構(gòu)化數(shù)據(jù)處理。非結(jié)構(gòu)化數(shù)據(jù)的處理主要包括對(duì)視頻數(shù)據(jù)、音頻數(shù)據(jù)、圖片數(shù)據(jù)以及文檔數(shù)據(jù)的處理。視頻數(shù)據(jù)是非結(jié)構(gòu)化類型數(shù)據(jù)中相對(duì)最為復(fù)雜的數(shù)據(jù)類型,具有編碼格式繁多、數(shù)據(jù)規(guī)模龐大、描述信息維度多、機(jī)器識(shí)別解析難度高等特點(diǎn)。對(duì)于視頻數(shù)據(jù)的處理,可通過(guò)轉(zhuǎn)碼工具,將各種不同的視頻格式數(shù)據(jù)在不明顯影響清晰度等數(shù)據(jù)質(zhì)量的前提下轉(zhuǎn)換為統(tǒng)一格式的視頻數(shù)據(jù),并按文件大小以及視頻時(shí)長(zhǎng)進(jìn)行統(tǒng)一規(guī)格的切片。同時(shí)提取視頻中的音頻信息并轉(zhuǎn)化為文字信息,以識(shí)別該視頻數(shù)據(jù)的內(nèi)容信息,并將此作為檢索數(shù)據(jù)的重要依據(jù)標(biāo)簽之一。
音頻數(shù)據(jù)處理任務(wù)可以分為兩類,一是來(lái)自原始音頻數(shù)據(jù)的分類處理任務(wù),二是來(lái)自視頻格式數(shù)據(jù)中提取的音頻數(shù)據(jù)處理任務(wù)。這兩類任務(wù)核心目標(biāo)是通過(guò)技術(shù)手段獲取音頻數(shù)據(jù)中的語(yǔ)音信息,在將其轉(zhuǎn)化為文本信息后,實(shí)現(xiàn)音頻數(shù)據(jù)的分類和標(biāo)簽化處理,以供檢索。
圖片數(shù)據(jù)處理主要通過(guò)來(lái)自數(shù)據(jù)源的信息、源文件的描述信息和人工鑒別與分類的方式獲取圖片數(shù)據(jù)的分類和檢索信息,同時(shí)借助OCR 等圖片識(shí)別工具,對(duì)圖片中的文字信息加以識(shí)別,從而提取更全面的圖片數(shù)據(jù)所包含的特征信息,實(shí)現(xiàn)更精準(zhǔn)的分類與檢索。
文檔數(shù)據(jù)處理主要通過(guò)OpenOffice 組件,針對(duì)Office(Word、Excel、PPT)文件以及PDF 等常用的文檔數(shù)據(jù)進(jìn)行分析處理,從而形成文檔數(shù)據(jù)的分類與檢索信息。
平臺(tái)功能模塊數(shù)字化教育資源共享應(yīng)用技術(shù)平臺(tái)包含數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)建模、應(yīng)用服務(wù)五大功能模塊,如圖2 所示。
1)數(shù)據(jù)采集模塊。數(shù)據(jù)采集模塊主要采集來(lái)自校內(nèi)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)和來(lái)自校外互聯(lián)網(wǎng)的數(shù)據(jù)。業(yè)務(wù)數(shù)據(jù)采集主要是數(shù)據(jù)采集模塊通過(guò)DB 接口、Socket 接口、WebService接口、FTP 文件接口工具、ETL 工具、網(wǎng)絡(luò)爬蟲(chóng)等數(shù)據(jù)工具采集分布式數(shù)據(jù),關(guān)系數(shù)據(jù)庫(kù)中結(jié)構(gòu)化、半結(jié)構(gòu)以及非結(jié)構(gòu)化的數(shù)據(jù),來(lái)源于教務(wù)系統(tǒng)、圖書(shū)管理系統(tǒng)的業(yè)務(wù)數(shù)據(jù),以及在線教學(xué)平臺(tái)的視頻資料、音頻資料、文本資料、訪問(wèn)日志和師生教學(xué)過(guò)程數(shù)據(jù)。數(shù)據(jù)采集模塊通過(guò)設(shè)定不一樣的采集頻率策略,使用任務(wù)調(diào)度模塊調(diào)用接口采集工具對(duì)接口的數(shù)據(jù)進(jìn)行采集、清洗和入庫(kù)處理。同時(shí),在這過(guò)程中對(duì)數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控。
外部數(shù)據(jù)采集主要是數(shù)據(jù)采集模塊采用通用的網(wǎng)絡(luò)爬蟲(chóng)工具對(duì)外部網(wǎng)站、論壇上的相關(guān)數(shù)據(jù)進(jìn)行采集,使用網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)的API 等方式從關(guān)聯(lián)網(wǎng)站獲取數(shù)據(jù),并使用分詞等技術(shù)對(duì)爬取的數(shù)據(jù)進(jìn)行處理。此外,數(shù)據(jù)采集模塊可實(shí)現(xiàn)附件與正文的自動(dòng)關(guān)聯(lián),可將圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并轉(zhuǎn)換成結(jié)構(gòu)化的方式存儲(chǔ)[5]。
2)數(shù)據(jù)清洗模塊[2]。數(shù)據(jù)清洗模塊的任務(wù)是按照一定規(guī)則過(guò)濾不符合要求的殘缺數(shù)據(jù)、不正確數(shù)據(jù)和冗余數(shù)據(jù),然后把過(guò)濾后的數(shù)據(jù)按照業(yè)務(wù)需求進(jìn)行存儲(chǔ)。數(shù)據(jù)清洗首先根據(jù)業(yè)務(wù)定義和規(guī)則分析數(shù)據(jù)源數(shù)據(jù)是否存在不正常的數(shù)據(jù)結(jié)構(gòu);接著對(duì)結(jié)果集中的數(shù)據(jù)進(jìn)行屬性適配,并基于清洗規(guī)則進(jìn)行數(shù)據(jù)匹配;最后將正常和非正常數(shù)據(jù)分別存入清洗結(jié)果集和異常結(jié)果集,并把結(jié)果集存入數(shù)據(jù)庫(kù),記錄清洗結(jié)果。
為了保證清洗后的數(shù)據(jù)可以為數(shù)據(jù)建模、挖掘分析、應(yīng)用開(kāi)發(fā)提供數(shù)據(jù)服務(wù),數(shù)據(jù)清洗模塊在數(shù)據(jù)清洗過(guò)程中通過(guò)保證數(shù)據(jù)的精確性、完整性、一致性、有效性、唯一性、時(shí)間性和穩(wěn)定性,實(shí)現(xiàn)數(shù)據(jù)的可靠性和可用性。
3)數(shù)據(jù)存儲(chǔ)模塊。數(shù)據(jù)存儲(chǔ)模塊采取關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)和大數(shù)據(jù)系統(tǒng)存儲(chǔ)并行的策略:關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ),采用Oracle 數(shù)據(jù)庫(kù)集群;大數(shù)據(jù)數(shù)據(jù)庫(kù)存儲(chǔ),采用HBase 數(shù)據(jù)庫(kù);大數(shù)據(jù)文件系統(tǒng),采用HDFS 存儲(chǔ)。業(yè)務(wù)系統(tǒng)中結(jié)構(gòu)化的關(guān)系型數(shù)據(jù)主要存儲(chǔ)在Oracle RAC 中,海量高速增長(zhǎng)的互聯(lián)網(wǎng)數(shù)據(jù)則存儲(chǔ)在大數(shù)據(jù)文件系統(tǒng)中。數(shù)據(jù)存儲(chǔ)模塊通過(guò)標(biāo)準(zhǔn)化數(shù)據(jù)接口,為上層應(yīng)用服務(wù)。
4)數(shù)據(jù)建模模塊。數(shù)據(jù)建模模塊主要通過(guò)定義和描述業(yè)務(wù)指標(biāo)和數(shù)據(jù)源之間的關(guān)系模型,定義業(yè)務(wù)指標(biāo)的概念描述,確定業(yè)務(wù)指標(biāo)的數(shù)據(jù)維度,設(shè)計(jì)各功能的數(shù)學(xué)模型,使大數(shù)據(jù)功能符合業(yè)務(wù)邏輯的要求。
5)應(yīng)用服務(wù)模塊[6]。應(yīng)用服務(wù)模塊基于學(xué)校目前的在線學(xué)習(xí)平臺(tái),對(duì)學(xué)生的學(xué)習(xí)行為及教師的教學(xué)行為進(jìn)行綜合分析,利用大數(shù)據(jù)技術(shù)分析出學(xué)生在網(wǎng)絡(luò)上的學(xué)習(xí)行為,如學(xué)習(xí)效果、學(xué)習(xí)興趣等,幫助學(xué)生去學(xué)習(xí)適合自己的學(xué)習(xí)內(nèi)容;同時(shí)針對(duì)學(xué)校教師的教學(xué)情況進(jìn)行大數(shù)據(jù)分析,幫助教師去優(yōu)化其在線教育資源的授課模式。
①師生教學(xué)互動(dòng)分析。教師及學(xué)生在學(xué)校的教學(xué)行為是高校關(guān)注的重點(diǎn)。平臺(tái)通過(guò)采集在線教學(xué)平臺(tái)中師生教學(xué)過(guò)程數(shù)據(jù),能對(duì)學(xué)生的學(xué)習(xí)行為以及教師的教學(xué)行為進(jìn)行分析,分析出教師的教學(xué)行為差異對(duì)學(xué)生學(xué)習(xí)效果的影響、學(xué)生每章節(jié)的學(xué)習(xí)質(zhì)量、學(xué)生在線人數(shù)、學(xué)生訪問(wèn)活躍度,提供教師活躍度、教師工作明細(xì)、資源建設(shè)情況、網(wǎng)站訪問(wèn)情況、課程的互動(dòng)明細(xì)等數(shù)據(jù)。
②數(shù)字化教育資源使用情況分析。通過(guò)對(duì)網(wǎng)絡(luò)教育資源覆蓋情況和網(wǎng)絡(luò)教與資源的集中熱度進(jìn)行分析,可以了解學(xué)生對(duì)數(shù)字化教育資源的選取與利用情況,以便向?qū)W生推送更加適合自己的教育資源,推動(dòng)學(xué)生的學(xué)習(xí)從以教師主講的單向指導(dǎo)模式向建設(shè)性、發(fā)現(xiàn)性的學(xué)習(xí)模式轉(zhuǎn)變,變被動(dòng)學(xué)習(xí)為主動(dòng)學(xué)習(xí),變教師傳播知識(shí)為學(xué)生自己重新構(gòu)建知識(shí),有效地培養(yǎng)了學(xué)生的信息素養(yǎng)和建構(gòu)知識(shí)的能力。
③課程綜合分析。統(tǒng)計(jì)學(xué)校每學(xué)期在線教育平臺(tái)的課程,從各專業(yè)培養(yǎng)方案和教學(xué)計(jì)劃中開(kāi)設(shè)的課程等不同維度進(jìn)行分析,為不同專業(yè)任課教師崗位人數(shù)設(shè)置提供依據(jù),科學(xué)合理地配置師資力量。具體功能包括熱門課程排名、課程師資評(píng)價(jià)分析及排名、統(tǒng)計(jì)所有任課教師人數(shù)、選修學(xué)生人數(shù)、平均授課學(xué)時(shí)、統(tǒng)計(jì)每個(gè)教師負(fù)責(zé)學(xué)生人數(shù)、每周授課學(xué)時(shí)等。
④教學(xué)數(shù)據(jù)分析。通過(guò)對(duì)各類教學(xué)數(shù)據(jù)的分析,匯總班級(jí)學(xué)生學(xué)習(xí)的整體進(jìn)度,幫助教師掌握學(xué)生的在線時(shí)段;提供每位學(xué)生的章節(jié)學(xué)習(xí)情況、資料使用情況;對(duì)于學(xué)習(xí)進(jìn)度落后于規(guī)定計(jì)劃的學(xué)生,可以進(jìn)行在線督促;提供學(xué)習(xí)明細(xì)、學(xué)生在線統(tǒng)計(jì)、學(xué)生訪問(wèn)活躍度、教師活躍度、教師工作明細(xì)、資源建設(shè)情況、課程互動(dòng)明細(xì)、同類課程平均值等數(shù)據(jù);通過(guò)對(duì)學(xué)生典型學(xué)習(xí)特征進(jìn)行抽取,通過(guò)標(biāo)簽的方式對(duì)其進(jìn)行畫(huà)像描述,從整體上呈現(xiàn)其學(xué)習(xí)狀態(tài);通過(guò)挖掘?qū)W生學(xué)習(xí)過(guò)程數(shù)據(jù)發(fā)現(xiàn)其學(xué)習(xí)規(guī)律和特征,對(duì)不符合規(guī)律的異常行為進(jìn)行判斷并預(yù)警和干預(yù);根據(jù)學(xué)生的學(xué)習(xí)數(shù)據(jù),分析其學(xué)習(xí)特征及偏好,并基于此推薦個(gè)性化的學(xué)習(xí)內(nèi)容和學(xué)習(xí)活動(dòng);支持查看用戶情況,查看統(tǒng)計(jì)班級(jí)學(xué)生、團(tuán)隊(duì)人數(shù)、訪問(wèn)占比、訪問(wèn)時(shí)長(zhǎng)等數(shù)據(jù)。
⑤教學(xué)能力評(píng)估。全面考慮教師的教學(xué)工作量和教學(xué)效果,建立教師的教學(xué)能力評(píng)估模型,作為教師評(píng)優(yōu)和開(kāi)課量的參考,也為評(píng)估教師的綜合能力提供基礎(chǔ)教學(xué)能力數(shù)據(jù),同時(shí)可以向?qū)W生提供選課參考。具體功能為統(tǒng)計(jì)學(xué)生評(píng)教情況、學(xué)生成績(jī)等數(shù)據(jù),考核教師的教學(xué)質(zhì)量,綜合分析教學(xué)工作數(shù)量、課程開(kāi)設(shè)數(shù)、選課人數(shù)、學(xué)生評(píng)教分?jǐn)?shù)、學(xué)生成績(jī)等指標(biāo)。
數(shù)據(jù)整合,降低成本投入數(shù)字化教育資源是一種無(wú)形的數(shù)字資產(chǎn),充分地挖掘與運(yùn)用這座可無(wú)限開(kāi)采的數(shù)據(jù)“金礦”,可實(shí)現(xiàn)數(shù)據(jù)“資產(chǎn)”價(jià)值的最大化。教育改革既要有膽魄,更要有科學(xué)依據(jù),將教育活動(dòng)中所產(chǎn)生的教育數(shù)據(jù)進(jìn)行采集,依據(jù)大數(shù)據(jù)分析出的結(jié)果,給管理部門提供客觀的決策依據(jù),可以合理減少人力、物力投入[7]。
個(gè)性化學(xué)習(xí),決策有依據(jù)教育政策的制定不再是簡(jiǎn)單的經(jīng)驗(yàn)?zāi)7拢菑?qiáng)調(diào)更精細(xì)化地捕捉各個(gè)層面的變化數(shù)據(jù),以及由數(shù)據(jù)展現(xiàn)的復(fù)雜相關(guān)性和因果關(guān)系,推動(dòng)學(xué)生個(gè)性化學(xué)習(xí),將教育治理與政策決策帶來(lái)的危機(jī)轉(zhuǎn)化為機(jī)遇。同時(shí),隨著數(shù)字化教育資源的分析推廣,高校管理者在教育決策過(guò)程中能夠更加清晰地了解教育現(xiàn)狀,及時(shí)掌握全面有價(jià)值的信息,在此基礎(chǔ)上制定出更加符合教育現(xiàn)代化要求的教育策略,并最終保障其有效地落地實(shí)施[8-9]。
為了推動(dòng)高校教育教學(xué)模式的不斷創(chuàng)新和改革,優(yōu)化教學(xué)管理方式,提高學(xué)生個(gè)性化自主學(xué)習(xí)的能力,將來(lái)需要構(gòu)建更加先進(jìn)的教學(xué)理論模型,對(duì)多源、多維度的數(shù)據(jù)資源和師生的教學(xué)行為進(jìn)行挖掘分析。教師及學(xué)生個(gè)人行為的標(biāo)簽越豐富,優(yōu)質(zhì)數(shù)字化教育資源的匹配越精準(zhǔn)。■