湖南第一師范學院 胡 英
數據挖掘在成績分析中的研究與應用
湖南第一師范學院 胡 英
隨著時代的發展,教育改革的深化,每一年的高校升學率都在直線上升,這給學校的教學管理帶來了很大的沖擊和挑戰。數據挖掘技術能夠從大量的信息資源中搜索到有價值的信息,可以幫助教學管理者進行有效決策,提高工作效率。本文主要討論數據挖掘技術在學生成績分析中的應用,希望對于高校的教學管理有一定參考價值。
數據挖掘 成績分析 研究 應用
隨著科學技術的快速發展,數據庫已經被廣泛應用于各行各業,隨著數據庫中的數據量不斷增長,要從大量的信息資源中挑選出有效的信息是非常重要的工作,數據挖掘技術在這樣的背景環境之下應運而生。數據挖掘技術在教育界的使用具有重要的意義,它可以幫助教育管理決策者有效地做出判斷和決策,有助于從海量的學生信息中發現一些隱藏的、有價值的信息指導教師的教學以及深入研究學生的學習情況。
隨著數據庫的廣泛使用,數據量也不斷增多,從大量隨機的數據中找出隱藏在其中有用的信息的過程就是數據挖掘。這種技術是一種深層次對信息進行分析的方法。數據挖掘技術的應用包含很多學科知識,它的功能十分強大。它在教育領域的應用可以實現分析學生成績與各種因素之間的內在聯系。
隨著數據挖掘技術的快速發展,高校研究人員已經逐漸將數據挖掘及時應用到學生的成績分析中,幫助研究人員找到一些影響學生成績的相關因素,同時能夠全面地分析這些因素與學生成績之間的內在關系。數據挖掘結果可以幫助管理者制定提高學生成績的方案,最大程度地提高學生學習積極性和熱情,從而實現教學質量和教學效果的大幅度提高。
在高校學生成績分析中使用的數據挖掘技術主要有三種:關聯規則、分類技術、聚類分析。這三種方法都有自身的特點,但是對于學生成績分析都有重要作用。
1.關聯規則
關聯規則挖掘方法主要是從實際應用的角度出發,使用數據庫挖掘技術對學生成績分析和處理,然后可以得到一些有規律的資源,例如,學生成績的實際趨勢變化、學生成績與課程的關聯性、學生成績所體現出來的水平層次以及教師對學生成績的影響等,這些相關性可以為學校的教學與管理提供輔助性的幫助。
關聯規則挖掘方法是數據挖掘技術中非常重要的方法,主要是用于探索數據中不同項目之間的內在聯系。支持度和置信度用于衡量關聯規則中的規則興趣度。最為常用的方法是Apriori。這種方法使用的是逐層進行檢索的方式,需要對數據庫進行重復性的搜索和掃描,產生很多的候選集。在分析學生成績的時候,應用關聯規則技術,能夠從有效的數據中搜索到有效的信息資料。隨著信息技術的快速發展,Apriori算法在技術上也進行了相應的改進和提高,所以在進行檢索的時候能夠更加方便和簡潔,而且檢索到的信息資源也十分全面。例如,對學生的英語六級信息數據庫中的成績進行挖掘,在檢索的結果中找到了一些有價值的關聯項集:在2013年的上學期沒有通過英語六級的學生中有80%是男生,然而全體男生中有60%沒有通過大學英語六級。說明這所高校通過英語六級的情況是女生處于偏優的勢態。人們通常認為理工科的男生對于英語的學習天賦比女生的英語天賦要差一些,所以學校應該采取相應的教學和管理方案提高男生在英語學習方面的不足,使學生的綜合素質得到提高。
根據關聯規則得出的信息,給學校管理者的提示是要加強對理工學科男生英語學習的管理,實施多元化管理模式進行學生的分類管理。例如,對于一些自我約束比較差的男生以及英語的實際應用水平比較低的學生進行外語早自習輔導的同時,還應該對于他們進行強制性的晚自習輔導。一方面,可以提升學生的英語成績;另一方面,有利于學生利用晚自習的時間來充實自己的英語知識。同時,學校還應該對外語級別比較低的男生進行思想政治教育,因為學生覺悟的提高可以使學生自覺地養成良好的學習習慣。很多學生平時由于缺乏良好的生活學習習慣,沒有形成學習英語的積極性和熱情。因此應該對其進行多元化管理,將英語學習成績優異的學生的重點進行綜合素質,提高成績優異的學生在平時的學習和生活過程中起到模范帶頭作用。這樣也可以幫助英語水平低的男生解決一些英語學習上的困難。除此之外,這種關聯規則挖掘法可以提示給英語教師在教學中應該注重分析平時男生的英語學習情況。針對男生的學習狀況提出一些針對性的教學方案,激發男生對于英語學習的積極性和熱情,提高男生的英語六級的通過率。這是一項關于學生英語成績的分析,對于學生其他學科的成績也可以用這種數據挖掘技術,進而分析影響學生成績的因素。針對影響因素的性質不同,統計分析這些因素與學生成績之間的關系,然后相應改變教學和管理制度,提高教學質量。
2.分類技術
分類技術當中最為典型的方法就是決策樹的方法,決策樹是一個類似于流程圖的樹狀結構,其中每一個樹節點表示的都是一類或者多類分布。ID3算法是分類技術中最為典型的一種算法。把決策樹的分類方法應用到學生成績分析中,全面分析影響學生成績的相關因素,并分析相關因素與學生成績之間的內在聯系,為教學的管理提供一些有效信息,幫助決策者做出正確決策,促使學校順利完成教學任務,提高教學效果和教學效率。
在生成決策樹過程中,由于某種原因可能會導致數據庫中的數據被劃分成越來越小的部分,決策樹會遭遇到失去統計意義。為了盡量避免這些現象的發生,應該在設計算法之間事先將分類屬性進行正確分組,然后根據這些事先設計的分類值進行全面分析和判斷,但是當發生一個屬性值并不符合給定集合的時候,應該馬上停止進一步劃分這個子集。隨著科學技術的進步,ID3算法也在不斷改進,提高了這種算法的工作效率。例如,要想在學校的數據庫中搜索學生大學計算機基礎課程的成績,改良后的算法所用的時間比改良之前的算法所用的時間明顯減少很多,在很大程度上提高了工作效率。
在分類機制的基礎之上建立的粗糙集理論在分析學生成績中也有重要作用,這種理論可以將一些不全面和不準確的信息進行分析和處理,這種特征正好符合數據挖掘中的數據特性。這種理論主要的應用范圍是離散值屬性,對于學校數據庫中學生的成績進行分析時,應該對其進行離散化,才能夠實現粗糙集理論的意義。例如,在進行高校學生的成績分析中,應該對基本的數據表屬性約值,然后對初步數據表進一步的值約簡,這樣才能夠實現分類規則,粗糙集理論有著對于數據屬性的制約,同時還有其自身的優點,優點主要表現在可以直接地提取分類規則,為學生成績分析工作帶來方便。
3.聚類技術
聚類技術在學生成績中的應用有著十分重要的意義,它可以被看作是統計學的一個分支,同類中的樣本比屬于不同類的樣本之間具有很高的相似性,這種分析方法是一種無指導的學習方法。例如,利用聚類分析技術研究學生成績在相同課程不同院系學生之間的分布。我們想要知道同一個年級不同院系的學生在學習相同課程的時候產生的學科成績的差異性,可以通過對11級3個系(外語系,美術系,經濟管理系),10個班的三門課程(大學體育、大學英語、大學計算機基礎)成績進行分析,了解學生的學習情況。檢索的結果發現,外語系的學生這三門課程的成績都比較好,經濟管理系的學生大學計算機基礎課程的成績比較高,美術系的學生只有大學體育成績比較差。根據這樣的分析結果,經濟管理系的學生在英語和體育方面的成績比較差,所以在進行教學管理的時候應該提出適合經濟管理系學生的英語和體育教學方案,提高經濟管理系學生的英語和體育成績。同時,還應該制定適合美術系學生的體育教學方案,使學生體育成績和其他科目的成績一樣的優秀,不要出現偏科現象。學校可以針對于美術系的學生制定早操計劃,增強學生體質,從而實現學生在進行藝術創作的時候,也擁有健康的身體。
高校學生成績數據庫按照學生學習的課程的性質將課程分為四個類別,主要是公共必修課、專業基礎課、專業類必修課以及專業方向選修課。然后將其進行分類,對于一些不規則的數據進行處理。利用聚類分析技術中最典型的算法對學生學期成績進行處理和分析,可以將聚類數值定為7種。
其中,類別1是成績中等的學生;類別2是專業課的成績不理想但是其他學科成績位于中等的學生;類別3是所有科目成績都不理想的學生;類別4是專業類必修課科目的成績差,但是除此之外其他科目的成績位于中等的學生;類別5是各科目的學習成績都比較好的學生;類別6除了專業方向選修課程的成績之外,其他課程成績是中等的學生;類別7是學生的公共必修課程及格,除此之外的學科成績都比較差。通過分析可以得出類別1的學生比例比較高,高校理工科的學生成績比較好,但是還存在有一些學生的學習成績不及格。在教學管理的時候,對于一些單科學習成績不及格的學生進行專門的研究,然后制定相應的教學方案,防止學生發生偏科現象。例如,有些理科學生的體育成績不及格,學校針對體育單科成績不及格但是其他科目都理想的學生加強體育教學,提高學生的體質,在文化課程優異的同時保證他們身體健康,以實現學生綜合素質的提高。
數據挖掘技術在學生成績分析中具有重要的使用價值,可以為教學管理者提供有效的數據和資源。同時,這種技術能夠在數據庫的海量信息中找出隱藏信息,發現影響學生成績的相關因素,為高校的教學改革提供科學的數據依據和基本的教學保障。
[1]劉美玲,李 熹,李永勝.數據挖掘技術在高校教學與管理中的應用[J].計算機工程與設計,2010.05
[2]頁 川.大數據時代背景下挖掘教育數據的價值——教育部科學技術研究重點項目成果《教育數據挖掘:方法與應用》出版[J].中國遠程教育,2013.04
[3]呂 嵐,林玉連.數據挖掘技術在教學管理中的應用——以對某中學高中文科綜合考試成績進行聚類分析為例[J].軟件導刊,2008.10
[4]劉 芳,林海霞.數據挖掘技術在高校計算機等級考試成績分析中的應用[J].廣西輕工業,2008.11
[5]黃愛輝.決策樹C4.5算法的改進及應用[J].科學技術與工程,2009.01
[6]陳曉玲.數據挖掘在學分制成績管理中的應用研究[D].中南大,2009
[7]杜 聰.數據挖掘技術在科研評價系統中應用研究[D].山東大學,2009
(此文系湖南第一師范學院科研課題,項目編號:XYS09N08)
ISSN2095-6711/Z01-2015-01-0086