張鸰 陳燕飛



摘要:當前流行的在線學習方式面臨最大的問題是無法面對面交流及時獲得教學反饋,但是利用現代技術,我們可以通過大數據的方式記錄學生的學習行為,然后利用數據挖掘技術對獲得的行為數據進行分析,并得到相關的教學反饋,這就是所謂的教育數據挖掘(EDM)。例如可以對訪問者基本信息、交互日志、活動行為等一系列過程性數據進行技術挖掘,得出了頁面訪問率、訪問者的來源構成等結論,從而以此為參考對訪問的學生提供各種教學建議:如各種學習資源、定制個性化的教學指導、推薦有效的學習方法,并且為教學實施者提供學生的各種學習信息,從而實現教學決策。
關鍵詞: 教育數據挖掘;網絡教學;數據挖掘算法;決策樹ID3算法
中圖分類號:TP311? ? ? ?文獻標識碼:A
文章編號:1009-3044(2019)28-0021-02
1 引言
教育數據挖掘技術在線上教學過程中的應用涉及很多方面,例如:針對學生基本信息的統計、不同類別生源在線學習行為的分析、教學行為評價反饋、成績分析、教師業務能力分析、在線學習平臺環境分析等。通常情況下,基于在線教學環境的學習行為數據挖掘基本涵蓋兩個方面的內容,第一個方面:通過對登錄次數、瀏覽頁面內容類型、學習時長、討論參與度、點播內容相關度等方面進行分析,評估學生在線學習行為的需求,進行合理的輔導;同時結合在線問答、單元及綜合測試、各種訓練測試等環節,評估教學實施與學習績效, 分析之間的影響因素,提供較為準確的學習規劃。第二方面:通過教育數據挖掘技術,根據不同學生群體的個性化差異,精準識別學員特征,根據他們不同的學習需求、興趣愛好、在線學習行為進行精細劃分,針對不同的關鍵特征開展個性化教學,從而增強學員個性認知。
2 教育數據挖掘相關理論和技術
教育數據挖掘(EDM,Educational? Data? Mining)是指數據挖掘技術在教育教學領的應用,通過對整個教育教學過程中產生的離散數據進行技術分析,為教學的多方面主體(教師、學生、教學管理人員、系統開發維護人員、行業企業)提供必要信息支持的過程。根據數據挖掘應用領域的不同,根據不同的應用場合可以將其劃分為在教學、科研、管理等方面的應用等。
2.1 數據挖掘過程
整個數據挖掘過程包含數據的準備、挖掘、結果評估三個主要部分。具體的數據挖掘流程如圖1所示。
(1)在數據準備階段主要有四個步驟,如圖2所示。在這個環節中,數據按照規則被轉換成為統一格式,生成的數據簡潔、可靠、準確,為進一步的數據挖掘工作奠定了基礎。
(2)數據挖掘
作為整個過程的核心內容,基于挖掘的任務目標,利用選定的數據挖掘算法,將在數據準備階段已經預處理完成的數據進行計算,提煉出用戶關心的內容,并將其通過某種形式展示出來。
(3)挖掘結果評估
對上一環節挖掘的結果進行合理的分析評估,去除其中冗余、無效的數據,將有效可靠的數據進行判定,如果挖掘結果無用,進行回退操作,另外選取數據挖掘算法和新數據重新操作,通過若干次迭代,最終可以篩選達到目標要求的信息,根據需求采用不同的展示方式,幫助用戶理解,并進一步指導決策。
2.2 常用的數據挖掘技術
因為數據類型和結構形式多樣,如關系數據庫數據、數據倉庫數據、空間數據、時間數據、流媒體數據、圖和網格數據、超文本數據等等。因此,衍生出來的數據挖掘方式也門類眾多。目前針對網絡教學數據分析這種特殊形式主要有以下幾種方式:統計分析方式,可以對教學環境中的熱門數據進行統計并做到自動推送;關聯規則挖掘,比如對在線學習過程產生的過程性學習形式數據進行分析,比對學習效果產生結論性指導;聚類分析,是一種動態分類的方法,通過對數據集進行分類,并保證同類數據的相似和各個類之間的明顯差異性;分類和回歸,該算法甚至可以通過學員的基本信息對未來課程的成績進行預測;文本挖掘,對網絡教學平臺中的超文本數據,如教學互動、在線評論、留言等數據進行分析等。通過不同的應用場合,實際選取合適的挖掘技術。
3 決策樹分析算法
3.1 決策樹基本算法
決策樹是一種常用并且很重要的數據挖掘方法,該算法的實現是采用自頂向下的貪婪算法,對給定的數據樣本進行歸納,從無序的數據元組中提取分類規則,從最高層的根節點開始遞歸的產生一個樹形結構,該樹形結構的每個分支節點代表一個測試或選擇結果,通過對每個選擇結果的合理歸類,持續這一過程,直到遍歷所有屬性最終生成決策樹。決策樹算法主要包括兩個過程:構造樹和對決策樹進行剪枝。前者是指將輸入訓練數據作為既定算法的函數值,將輸出的不同屬性值生成各個分支,并且各個分支繼續向下級進行遞歸操作,最終形成決策樹;對于剛剛建立的決策樹,其相當多的分支節點都是因為輸入的訓練樣本數據包含有異常內容構成產生的,這也就是必須要對決策樹進行剪枝的原因。整個決策樹流程如圖3所示。目前比較典型的決策樹算法有CART、ID3、CHAID等等。
3.2 ID3算法
在眾多決策樹算法中,ID3是較早形成的一個基本算法,它是一種貪心算法,利用了自上而下的遞歸分類構造的方式來生成決策樹。該算法的模型產生方式較為簡單、較好的健壯性、分類精度較高,對于網絡學習過程中非增量的數據樣本集具有較好的分類統計能力,比較適合應用在教育數據挖掘的領域。下面對ID3算法展開簡單的討論。
ID3在進行分支節點屬性選擇時,采用信息增益作為度量單位。假設[ni]是數據樣本集S中屬于類別[yi]的樣本數量,S中總的樣本數為count個,則各類別的先驗概率為[Pyi= nicount,i=1,2,…,m]。對于數據集S,樣本期望信息為
4 結束語
網絡教學要求教師能夠從大量冗余繁雜的教學過程數據中,提煉出可靠有用的學習反饋信息,并以此為基礎及時更新和調整教學策略、方法、內容,解決網絡教學無法進行現場互動的問題,實現對教學個體進行個性化的引導,真正做到因材施教,提升在線學習效果。因此教育數據挖掘技術在線上學習環境中有著舉足輕重的作用。在眾多數據挖掘技術中,因為ID3決策樹算法有較強的學習能力,并且比較容易實現,所以特別適用于處理大規模在線學習問題。另外,生成的決策樹可以具體形象地表達出不同分支所對應的分類規則,算法易讀易用,特別適合作為教育數據挖掘(EDM)的技術工具。
參考文獻:
[1] 黃文秀.數據挖掘技術及應用研究[J].網絡安全技術與應用,2018(7).
[2] 孫健,趙鵬,雷鳴.數據挖掘技術在高校教學評價中的應用研究[J].科技資訊,2014(17).
[3] 楊艷霞.基于數據挖掘技術的個性化網絡教學平臺應用研究[J].科技創業月刊,2013(2).
[4] 朱偉忠 .數據挖掘決策樹分類技術及應用的研究[D].華南理工大學,2004.
[5] 謝淑敏. 基于大數據的高職學生學習行為及效果分析[J].電腦與電信,2018(9).
【通聯編輯:梁書】