文/劉巍 董哲宇
數據挖掘如何應用于高校教學
文/劉巍 董哲宇

隨著高校教務管理信息系統應用的不斷深入,其中存儲的數據信息不斷增多,如何充分利用這些數據,從中提取有效信息成為教育工作者日益關注的問題。數據挖掘的應用在一定程度上解決了這一問題。
教務管理信息系統已經普遍應用在我國高校教學管理中,隨著其使用頻率的不斷上升,系統中積累的數據越來越多。教務管理系統中包含了教學所有環節的數據信息,包括專業計劃、開設課程、課程安排、學生信息、學生選課、學生成績等,具有數據量大、數據雜、蘊含信息多、數據表間相互關聯多等特點。但現行大部分教務管理系統,除了進行簡單查詢、修改、單表統計功能外無法實現對數據的詳細、高層次分析,很難發現數據中存在的規則,因此如何對這些數據進行重新利用,從中發現有價值的知識,已經成為教學管理人員關注的問題。
數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,應用數據挖掘來進行教務數據處理,可以發掘其中蘊含的規律,把這些規律運用到教育教學管理中,將有助于教育教學改革,提高辦學水平及管理水平。
數據挖掘技術從一開始就是面向應用的,但在教育領域,數據挖掘還是一種全新的技術。它關注從教育環境產生的數據中發現隱含的知識,這些數據可以是從歷史的或者正在運行的教育系統數據庫中獲得;它的主要作用是對數據庫中的大量數據進行抽取、轉換,通過數據分析發現其中隱藏的模式、關聯、數據反常等對教育和教學決策的起到積極作用的關鍵性數據。數據挖掘更主要是為教學決策提供真正有價值的信息,進而獲得更好的教學效益,例如利用數據挖掘分析結果可以改進教學效果,提高學生成績,找到影響教師教學和學生學習的因素。隨著這項技術的成熟,其在高校教學、管理中的應用更加廣泛。
在數據挖掘教育實踐應用過程中需要選擇合適的數據挖掘功能建立對應模型來解決問題,數據挖掘的主要功能包括分類、估計、預測、關聯、聚類、描述和可視化等,通過文獻調研發現目前在教育教學管理中應用的主要有分類、預測、關聯、聚類等。
分類是最常見的數據挖掘功能之一,分類過程實際上是建立某種模型,然后將其用于對未分類數據進行分類。決策樹、最緊鄰技術、神經網絡等都是最常用的分類技術。
預測是利用歷史數據找出變化規律,建立模型,并由此模型對未來數據的種類和特征進行預測。預測關心的是精度和不確定性,如由學生以往課程成績預測學生轉專業或學籍異動情況。預測通常使用回歸分析、時間數列分析和人工神經網絡等方法。
關聯是要發現大量數據之間有趣的關聯或相關聯系,從而為某些決策提供必要支持,它是數據庫中存在的一類重要的、可被發現的知識,被廣泛應用于決策支持系統。例如,從學生選修課程的傾向可以了解學生需求從而為課程開設提供參考。
聚類是把一組個體按照相似性歸成若干類型,它的目的是使同一類別之內的相似性盡可能大,而類別之間的相似性盡可能小。聚類技術主要包括傳統的模式識別方法和數學分類學,例如,將成績好的和成績不好的學生分別聚類,分析不同類型學生特點。
在國外高校的教育教學管理中,數據挖掘技術應用比較普遍,己成為提高教學管理質量和教學水平的有力工具。例如美國的學校能夠以85%的準確度預測學生的升學率,這樣學校就可以把注意力集中那些容易輟學的學生身上,此外數據挖掘還被用于評價學生學習成果、指導學生課程選擇等多個方面。
表1中呈現了數據挖掘技術在國外高校教育教學管理中最常應用的幾個領域的簡單概括。表中根據教育教學環節進行劃分,按照數據挖掘所選取的數據內容,數據挖掘功能選擇、分析的內容、希望達到的效果等方面呈現數據挖掘在招生、計劃、咨詢、教學運行過程、學籍等多個環節及其子環節中的應用情況。

表1 數據挖掘在國外高校教育教學管理中應用
我國高校中對數據挖掘技術的應用起步較晚,但進入21世紀后發展相當迅速,已經開始應用于教育教學管理的各個方面。在國內教育研究領域主要利用數據挖掘進行計劃、學籍管理、教學運行過程、招生、就業等數據的深層分析。表2中是通過文獻研究,對國內高校數據挖掘教育教學數據挖掘技術在教育教學管理中應用分析及建議。
從表2以及數據挖掘在高校教育教學應用的相關文獻中我們可以發現,數據挖掘在我國高校教育教學管理領域應用中存在如下特點及問題。
1.數據挖掘在教育層面上的研究處于發展的初級階段,但發展速度很快,已經應用于招生、就業、教學計劃安排、課程安排、課程相關性分析、學生評價等多個方面,而且應用領域還在不斷擴展。
2.采用的數據挖掘算法較單一,多數采用分類的決策樹算法或關聯規則Apriori算法,很少能將多種算法結合起來綜合分析應用。
3.多數研究停留在理論階段,實際應用較少。國外的數據挖掘教育領域研究注重實踐應用,注重結果推廣及根據挖掘結果改進教育教學,注重其能對教育教學高效發展的貢獻,而中國高校目前關于數據挖掘教育應用的研究多停留在理論階段,多數研究分析了數據挖掘在教育數據分析應用中的可行性、可以應用的具體領域、可以分析的內容等信息,但具體的實踐操作較少。具體實施數據挖掘的研究,將其結果推廣到教育教學實踐應用的較少。

表2 對國內高校數據挖掘教育教學數據挖掘技術在教育教學管理中應用分析及建議
4.選取數據量不足,覆蓋范圍小。已有研究中大多選取學校中某一個專業或者一兩個班級的學生信息進行挖掘分析,沒有面向全校更廣泛的區域,數據挖掘的數據量及受眾面受到一定影響。
綜上分析,在中國高校教育教學中數據挖掘的具體應用的深入和廣度都有待提高,在今后的應用中可以在以下方面加以改進;
1.根據學校特點選擇數據挖掘算法。每一類數據挖掘功能中都有多種實現算法,因此在實踐應用中應從學校數據情況、挖掘目的、算法特點等方面綜合考慮,選擇符合學校實際的數據挖掘算法。
2.注重數據采集。由于教務數據量大且雜,因此在進行具體問題挖掘時,至少應選取2~3個學年的同類數據,才能保證得到較好的結論。
3.關注挖掘結果的實踐應用。在根據研究內容,完成數據挖掘得出指導性結論后,應將結論應用于實踐,并選取后續對應數據進行分析或進行問卷調查以檢驗挖掘結論的正確性,同時根據驗證情況對建設意見進行修改,這樣才能更好地利用數據挖掘指導教育教學改革。
(作者單位為北京工業大學教務處)