遲殿委 李蕊

摘 要 本文基于某高職院校云計算技術與應用專業學生期末成績以及針對學生學習影響因素的調查數據,采用基于關聯規則的數據挖掘算法,進行數據分析實驗,找出該專業不同課程最終教學結果之間的關聯關系,同時也從實驗結果中發現對學生整體學習效果影響明顯的因素,為教師日常教學提供輔助決策支持,對提高人才培養質量具有一定價值。
關鍵詞 成績 數據挖掘 WEKA 關聯規則
中圖分類號:TP311文獻標識碼:A
0引言
數據挖掘自動從大量的數據樣本中尋找數據間潛在的關系,形成有價值的規則,即從大量的、不完全的、有噪聲的、模糊的、隨機的數據庫中,提取隱含在其中的、人們事先不知道的、但又是潛在有用信息和知識的過程。
數據挖掘在教育領域的應用還處在發展階段,如果能對學校考務系統存儲的學生數據運用大數據挖掘技術進行綜合分析,就能發現各信息之間的聯系和規律。
本文以某專業學生期末成績數據及學生基本信息數據為例,結合數據挖掘中數據預處理、連續屬性離散化技術以及關聯規則挖掘技術,分析專業科目之間的相關性、學生最終成績與學生自身屬性、外界因素之間的關聯關系。
1基于關聯規則挖掘的學習成績分析過程
本文實驗平臺采用開源平臺WEKA,該平臺集合了大量能承擔數據挖掘任務的機器學習算法。實驗基本過程是:首先對原始數據集進行數據清洗,包括連續數據的離散化、屬性缺失項的填補等,然后將數據保存為WEKA平臺典型數據文件格式,并加載到相應算法處理界面,配置相關參數進行數據挖掘實驗。
1.1數據采集和預處理
本文以山東某高職院校云計算技術與應用專業學生為例,考試成績數據涉及到的科目有專業必修課、公共基礎課、專業選修課共7門課程。部分學生成績數據如表1。
對表1每個科目成績進行離散處理,根據成績分布特點,部分科目成績普遍偏高,所以人為劃分分數檔次做法可能會影響結果的可信度。這里成績分布比較均勻,沒有明顯的離群點,所以本文采用等寬法進行離散化,分數按照從高檔到低檔分為四個檔次,分別為A、B、C、D,里面出現舞弊的,成績置為0。
1.2課程學習效果之間的相關性分析
該部分實驗目標在于發現不同科目之間學生成績檔次的內在關系,同時也能發現某科目成績與平均分之間隱含關系,產生的這些規則可以為學生提供預警參考,也為不同科目教師提供教學參考。
實驗采用關聯規則挖掘Apriori算法,這里設置最小支持度為0.2,最小置信度為0.6,并將明顯無效的關聯規則消除。以下是部分關聯規則:
(1)綜合人文素質=C ==> 毛澤東思想和中國特色社會主義理論體系概論=C conf:(1)
(2)體育=D ==> 計算機網絡技術=C? conf:(0.99)
(3)JAVA程序設計=A ==> 數據庫原理與應用=A? conf:(0.98)
以上選取置信度接近1的規則,其中第1條規則不難看出公共基礎課的科目之間有很強的關聯關系,這些課程之間的成績會互相影響,第3條規則也能反映同為計算機專業核心課程Java程序設計和數據庫原理與應用也具有極強的相關性。這些規則的形成可以發現不同課程間的內在關系,可以給學生提供參考,加強對其他課程影響比較大的科目的學習力度,從而提升整體學習效果。
1.3影響學習效果的因素調查分析
該部分實驗基于學生調查問卷數據以及學生所有科目成績的平均分,目標在于發現對學習效果有較大影響的因素,以及這些因素之間的隱含內在關系。這里學生屬性主要包括籍貫、專業興趣度、學習動機、任課教師滿意度、家人關注度、性別、平均分。
這里設置最小支持度為0.1,最小置信度為0.8,將數據用Weka進行關聯規則挖掘,得到部分強關聯規則如下:
(1)專業興趣度=喜歡==> 任課教師滿意度=滿意 conf:(1)
(2)學習動機=就業==> 家人關注度=關注? conf:(1)
(3)家人關注度=不關注==> 平均分=D? conf:(1)
(4)任課教師滿意度=滿意 ==> 性別=男 conf:(0.86)
(5)平均分=D ==> 專業興趣度=不喜歡 conf:(0.83)
產生的這些規則能夠反映一些影響學生學習效果的因素。其中,第3條和第5條規則,反映了學生學習效果可能與家人關注度和專業興趣度有很大關系。而從第1條規則看出,學生如果對專業有很大興趣就會對任課教師更加認可。產生的規則可以啟發老師重視學習興趣的培養,適當改進現有教學模式,從而提高學習效果。
2結束語
本文基于某計算機專業學生期末成績以及針對學生學習影響因素的調查數據,采用關聯規則挖掘算法,從樣本數據中找出不同科目教學效果之間的關聯關系和科目之間隱含的相關性,為教師開設的關鍵科目提供警示參考,并加強教師們之間的溝通協調。同時,找出對學生學習效果有明顯影響的因素,包括學生自身屬性和外界因素等,為教師改進教學計劃,關注學生實際情況,更好的因材施教提供輔助決策支持。
作者簡介:遲殿委(1982-),男,山東外事職業大學,系統架構設計師,碩士,研究方向:數據分析與數據挖掘,系統架構設計等。
參考文獻
[1] 劉健.基于數據挖掘的軟件系統優化與重構的研究[D].天津:河北工業大學,2013.
[2] 蘇新寧,楊建林,鄧三鴻等.數據挖掘理論與技術[M]北京:科學技術文獻出版,2003: 53-65.
[3]Mehmed Kantardzic.數據挖掘——概念、模型、方法和算法[M].陳茵,程雁譯.北京:清華大學出版社,2003.
[4] 武書彥,李咚.數據挖掘的探索性研究[J].制造業自動化,2011,33(02):98-100.
[5] 方勝吉,翁蘇湘,李廣慶.淺談高等醫學院校學生”數據挖掘”能力的培養[J]科技創新導報,2010(33):182.