張偉宏
(福建廣播電視大學職業學院,福建福州,350013)
課堂、考試、師生互動、校園和家校的各種教育活動過程和設備使用中,只要有教育活動的地方,都會收集到大量數據。如何發現這些數據背后的隱藏的大概率規律以及給出解決方法,才是教育質量評價的價值體現。
教育大數據分為廣義和狹義,廣義的教育大數據泛指所有來源于各種教育活動中所產生的復雜的、具有多維特征的數據;而狹義的教育大數據是指學習者在特定學習環境如學生管理系統、在線學習等平臺下產生的行為數據。[1]
教育大數據不同以往的數據的獨特之處在于,通過對教育教學活動的數據加以分析挖掘,可以對授課等教育過程起到啟發、調整的作用。教育大數據讓我們從原來宏觀的大課堂教學到微觀的個體化“培育”,從而實現真正的個性化教育。教學管理者日常所做的成績分析,僅僅是對學習效果的考核和評價。通過對學生教育大數據進行分析、預測,可為教學管理者正確認識教學環境、教學方法、教學手段等教學相關因子與成績的關系,從而促使教學管理者有目的改進以及有針對性地糾正學生的不良學習行為。
2017年6月25日至28日,第十屆教育數據挖掘國際會議在武漢召開,這是EDM大會首次在中國舉行,說明數據挖掘對教育的作用在國內的得到了重視。數據挖掘技術在中國起步雖晚,但是發展已經越來越好,目前數據分析挖掘技術已經成功地應用于市場營銷和金融業等領域,但在教育上的應用還不廣泛也不完善。隨著科技發展和教設的智能化,教育數據通過網絡采集的更加容易,數據量迅速增長,這為數據分析提供了信息基礎。
尤其是網絡教學,在網絡學習中可以記錄學生關于學習行為的各種數據,如點擊了什么網頁,停留多長時間,哪些是最喜歡的頁面,平均多長時間做一道題花,做題的順序有沒有跳躍,有沒有時間檢查、檢查幾遍、查出幾道錯誤。[2]隨著科學技術的發展,學校逐漸擁有越來越多的可用的、高質量的數據,就整個教育領域而言,數據是海量的。這些數據是寶貴的財富,給未來教育帶來更大的可能,但如何進行信息挖掘,則對教育研究者的想象力提出了挑戰。
Bhardwaj和Pal對300名學生表現進行研究,結果表明:學生學業成績與學生在高中的成績、居住位置、教學媒體的應用、母親的教育程度、學生的其他生活習慣、家庭年收入和家庭狀況是非常相關的。[3]舒忠梅和屈瓊斐分別采用逐步回歸、神經網絡等數據挖掘技術,分析學生的學習成績的影響因子,結果表明學生在學習上所花費的時間是影響學生學習成績的主要因素,也驗證了勤能補拙這個道理。黃岡師范學院熊寬江等選取漢語言文學專業2009級某班級學生的成績記錄,對學生進行分類,探索學生的潛在能力??梢娫絹碓蕉嗟膶<覅⑴c教育大數據的分析和挖掘行業中,應用方法也更加多樣化。
為達到數據挖掘的目標,將數據分析和挖掘技術基礎上總結歸納如下五類技術方法:
1.預測。預知事件發展的可能性能夠綜合考評多個預測變量推斷被預測變量,例如,通過對某門課程學習中,學生花費的時間、平時成績情況、對課程態度等,預測學習者在該門課程的學習中取得通過的幾率。[4]
2.聚類。根據數據的特點,通過自然集中距離相近的數據點將一個完整的數據集劃分成不同的子集或群體,在劃分興趣小組是,通過聚類可以把有相同興趣的學生歸為一組,通過聚類給予學生選擇提示,避免的盲目的選擇。
3.關系挖掘。探索發現各種變量因子之間的關系,并對其進行分析以供教育指導使用,例如:探討學生的各種學習活動和學習結果的之間的關系,從而按照指導意義改進教學內容及教學手段方法。
4.可視的機器學習模式。用一種便于人類理解的方式描述數據,以便人們能夠快速地判斷和區分數據特征,該方法主要以可視化數據分析技術為主,用以改善機器學習模型。
5.模式發現。通過對數據項的聚類、數據關系挖掘等過程,構建了一種供未來分。析的有效解釋模型。通過這些技術,就能夠通過大數據來創建為提高學習成績而提供支持的學習分析系統。這些技術將幫助教育工作者在教育過程中及時調整方法和方式,更加有效地引導學生朝著個性化的學習進程邁進。[4]
數據進行分析和挖掘的方法多樣,可以使用可視化數據分析工具也可以設計程序,如工作做常用的EXCEL也可以作為數據分析挖掘的工作。筆者在教學工作中采用計算機相關技術對本校學生的數據進行分析和挖掘,以下是兩例應用案例。
經常需要將WORD和EXCEL文檔數據提取合并,并按一定格式輸出。由于原始素材來源不同、格式不同,導致數據格式、排版格式上存在著差異。所以在數據分析挖掘前需要對數據加以清理,統一標準。
表1是學生名單,表2是學生畢業就業情況表。要求生成畢業生就業情況登記表(表3)。
1.原始數據存在問題

表1 學生名單

表2 學生畢業就業情況表
(1)原始數據包含三年的畢業生數據,將近3000人,數據量大。
(2)學生名單和學生畢業就業情況表數據格式不規范,各部門在表現形式上多樣化。
(3) 數據錄入方式多樣導致錯別字多。
2.數據清理
(1)規范原始數據,確認文字的對齊方式、時間格式、電話格式、籍貫表示、專業表示等,如:表1中“姬取沖”的電話沒有區號。
(2)比照兩表姓名、性別,糾正錯字、漏字。如表1“陳詳妹”與表2“陳祥妹”的文字錯誤。
3.設計程序生成所需報表和圖表
程序中用到的以上兩個表文件:表1是2003級所有班級學生的詳細資料,一個工作表只包含一個班級,工作表以班級命名,如工作表名031JS1,表示03級計算機一班。表2是2003級所有班級學生就業信息,全部在一個工作表中。因為學號具有唯一性,可以作為兩表的索引。在這里以表1為主文件,表2為輔助文件,先從表1中找出學號、姓名、性別、班級、出生年月、家庭住址、聯系電話;然后通過表1中學號(T_NO)在表2中找出 專業、畢業時間、就業單位、單位電話、就業時間、就業單位+工種、單位電話;最后將這些數據填充到表5(畢業生就業情況登記表),得到以“班級+學生”命名的畢業生就業情況登記表報表。
該例子使用程序設計的方式分析挖掘數據并顯示就業情況圖表,適合對計算機知識如編程語言、數據結構有較深的造詣的專業人員。
通過挖掘得出的規則,結合教育分析、指導教學工作,提高教學質量。分析的對象為福建鐵路機電學校的六門專業的全部專業課成績數據,本文以2016-2017 學年第一學期所學的《計算機基礎》為例。計算機基礎上課方式采用的是在多媒體機房,統稱實驗課。分析挖掘數據源中學生的相關數據,來判斷哪些因素對學生的等級考試通過率會造成影響,如性別差別導致學習差距,課程興趣導致學習差距,平時成績導致學習差距,或者幾個因子的組合。
1.確定數據來源
程序以筆者設計的家校通系統數據庫為基礎以及學生的調查信息經過ETL數據集成、清理、轉換及歸約等轉換后生成的。數據分成兩部分,60%用來建模,剩下40%用來檢測。本模塊中選擇與成績相關性較大的性別、計算機基礎平時成績、上機時間三個屬性作為建立學業水平測試分類決策樹模型的依據,學生成績分析基本數據示例如表3所示。
數據源采用福建鐵路機電學校2016級所有專業的500多位學生成績信息。
(1)表中計算機基礎平時成績分為:一般,良好,優秀;
(2)上機時間為計算機實驗課出勤情況,系統經過離散化處理后分成:實驗課曠課的為D,實驗課早退遲到的為C,上滿兩節實驗課的為B,課后仍然上機訓練的為A;
(3)分類屬性為:學業水平測試>=60 的為“通過”, 學業水平測試<60 的為“不通過”。
2.建立決策樹模型
以表3所示的數據為數據源,應用C4.5算法建立決策樹模型,其步驟如下:

表3 學業水平考試預測基本訓練集
(1) 對表3中的計算機基礎平時成績、性別、上機時間三個屬性分別計算信息增益率。通過計算得到:Gainiratio(計算機基礎平時成績 )>Gainiratio(上機時間 )>Gainiratio(性別 ) 。
(2)通過(1)的計算結果可知,“計算機基礎平時成績”屬性具有最高的信息增益,所以其被首先選擇作為根結點。創建一個根節點,并根據“計算機基礎平時成績”屬性的取值將數據劃分成“優秀”、“良好”、“一般”三個樹的分支,通過該屬性值劃分數據集合。
(3)對劃分的每個子數據集遞歸執行(1)(2)。
通過以上步驟,建立如圖1所示的決策樹模型。由于訓練數據集是來家校通系統中數據,再經過ETL的數據集成、清理、轉換及歸約等處理轉換后,不會存在噪聲數據,同樣也會消除數據空缺等現象,屬于高質量的數據。

圖1 學業水平測試預測模型
3.生成分類規則
決策樹的應用是能直接從結果中提取分類規則,并以IF……THEN的構架顯示分類規則。該規則表現形式讓用戶容易理解,建模數據量的越大,生成的規則越準確。由此模塊可得到如下表4的規則用來判定學生的學業水平測試是否通過。

表4 分類規則
4. 指導分類教學
通過對決策樹的分析不難發現,男生通過的概率比女生大,可就算平時成績好的如果上機時間較少的也通不過考試;只要經常上機做練習的學生,不論男女,就算平時成績一般,通過概率也很大;女生需要更多的上機練習;通過該決策樹將學生分成通過和不通過兩個類別,對劃分出處于不通過的學生群體要更加關注,了解不同的個體差距,真正做的因材施教。
教育數據挖掘是應用數據挖掘技術從教與學活動所產生的數據中找出具有指導意義信息的過程。數據挖掘將全面改進教育的方方面面,它對于教育領域帶來的將是異于傳統教育的發展性思維方式,提升教學效率和教育科學性,并會帶來終身教育的個性化匹配。數據挖掘將對學習、教學、科研、管理、決策、就業、招生等許多方面帶來巨大的影響。大數據分析挖掘相關技術的出現,使得教師更好地理解學生,合理的選擇恰當的教學方法,這將給教與學的過程帶來翻天覆地的變革。

表5 XXX學校畢業生就業情況登記表