張偉 武延濤
(中國礦業大學徐海學院)
高校教育數據挖掘是高等教育研究的重要課題之一,利用數據挖掘技術可以發掘出數據中隱藏的規律和模式,從而為教育教學決策提供科學依據。高校學生課程關聯研究要對多門課程成績進行數據挖掘,成績統計特征存在顯著差異。本文將在以課程成績分布為正態分布前提下,將不同課程成績分布變換至同一均值和標準差的正態分布,利用插值函數法將不同課程成績進行修正,然后依據等級賦分理論對各課程進行等級評定,再利用Apriori算法挖掘各課程間的聯系。
利用抽樣課程成績樣本均值和樣本標準差確定課程正態總體分布,利用正態總體分布確定成績等級的期望比例,對所有課程進行標準化等級劃分,再利用插值函數法對成績進行修正。
設抽樣學生人數為n課程總數為N門,課程成績總體為X,假設總體服從正態分布,第j門課程成績的總體為Xj,第i名學生第j門課程成績為(i= 1,… ,n;j= 1,… ,N),根據學生的成績xij估計第j門課程Xj,的樣本均值與樣本標準差:

課程考試成績總體X,的樣本均值與樣本標準差:

利用公式(3)估計X,的分布,即課程成績總體近似服從。

表1 等級制與百分制的對應關系
由公式(1)-(3)可得學生課程成績總體X,的近似分布,于是課程總體第l個分數段的期望人數比例為:

依據表1的等級制劃分,按照各分數段人數的期望比例pl將每門課程成績分段,記為 第j門 課 程 第l個成績分數段上下限(約定,應用線性函數插值法修正原始成績,記修正成績為(i= 1 ,… ,n;j= 1,… ,N),根據原始成績確定所屬分數段l值,且

第i門課程成績集合構成一個項集;k門課程成績集合構成k-;包含所有k-(k= ( 1,… ,N)稱為事務數據庫,記為D。
1.頻繁項集的概念
記μ為項集事務數的計數,一門或多門課程成績構成的項集A支持度為項集A 事務數占事務數據庫事務數的比例,即

預先設定的最小支持度閾值min_sup ,若

則稱項集A為頻繁項集,k為k-。
2.關聯規則的指標
設課程項集中事項A和B關聯規則表現為邏輯關系A?B,即課程項集中事項A蘊含事項B的關系,度量關聯規則的三個指標分別為:邏輯關系的支持度、置信度和提升度。
支持度為包含事項A或B事務數占事務數據庫事務數的比例,即

置信度為包含項集A和B同時發生事務數占項集A事務數據庫事務數的比例,即

提升度為事項A蘊含事項 B出現的可能性,即

若lif.(A,B)=1時,則說明事項A和事項B相互獨立;若lif.(A,B)<1,事項A導致事項B不出現;若lif.(A,B)>1,事項A蘊含事項B出現。
3.課程累計支持度
記“Ai”為第i門課程成績為優秀,記“Bi”為第i門課程成績為良好,記“Ci”為第i門課程成績為中等,記“Di”為第i門課程成績為及格,記“Ei”為第i門課程成績為不及格。第i門課程與第j門課程的累計支持度:

基于上述成績修正模型和等級賦分原則,課程各相應期望等級人數相等,且各等級樣本容量較少,當課程間出現至少兩個等級頻繁項集,且大于預先設定的最小累計支持度閾值時,即

則稱課程間存在強關聯。
根據關聯規則的Apriori算法思想:首先,通過設置最小支持度,找出所有頻繁項集;其次,在頻繁項集中產生關聯規則;最后,設置最小累計支持度,計算課程間累計支持度,確定強關聯課程。
金融學專業以銀行方向為例,根據調研法,選取體現學生通識素質、數理能力、專業素質、專業拓展課程18門課程,125名學生成績。按照學期開設情況如表2。

表2 金融學專業前三學年課程列表
根據學生成績計算可得各門課程的樣本均值與樣本標準差(如圖1)。

圖1 抽樣課程成績均值與標準差
課程考試的成績分布因課程不同分布不盡相同,抽樣課程成績期望等級分布如表3,各課程在不同等級的人數偶然性較大,實際成績分布中如KC16,KC17在B等級大量集中,其余各等級偏少,在數據挖掘中將影響課程關聯分析。

表3 抽樣課程期望等級人數分布
現將不同課程成績變換至同一標尺下進行修正。由公式(3)計算得課程成績總體的均值與標準差為:

由公式(4)可得各分數段人數的期望比例如下表所示。

表4 期望比例與等級人數
依據各分數段人數的期望比例,利用插值公式(5)對18門課程進行成績修正。
利用Apriori算法,對修正的成績進行數據挖掘。設置支持度最小閾值,置信度最小閾值為0.50,累計支持度最小閾值。按照課程開課先后順序,可計算得到表5。
利用Apriori算法計算并與成績修正后的計算結果相比較,得出下列結論。
(1)成績修正前后成績分布變化。成績修正前,課程成績樣本均值偏差較大,最小值為66.03,最大值為81.92;樣本標準差最小值為4.23,最大值為17。利用成績正態總體分布在保持排名不變的情況下對成績進行標準化,保證課程各等級人數相等。
(2)成績修正前后課程關聯表現形式。原始成績數據挖掘因為課程在某等級分數較為集中,兩門課程關聯比較集中,在關聯結果中大多數僅顯示一條關聯記錄;成績修正后進行數據挖掘,兩門課程可能出現多等級關聯,結果記錄顯示多條記錄,課程關聯以同等級關聯為主,極大的呈現課程間的強關聯。
(3)成績修正前后課程關聯結果比較。我們對比7對成績修正前后課程關聯。利用原始數據分析的結果中三對課程(KC3,KC4)、(KC5,KC10)、(KC7,KC10)無關聯,但事實上,對成績進行修正后,以上三對課程存在兩個不同等級的關聯。
(4)成績修正前后課程關聯參數比較。通過對比表5和表6,修正成績后四對課程關聯(KC3,KC14)、(KC5,KC7)、(KC11,KC14)、(KC13,KC18)累計支持度明顯高于原始成績對應的情況,(KC3,KC14)累計支持度達0.44,具有較高的關聯性。成績修正前后提升度均大于1,按照課程開設順序有相應的蘊含關系,可提前積極指導學生后期課程學習。

表5 修正后關聯課程支持度、累計支持度、置信度和提升度

表6 修正前關聯課程支持度、累計支持度、置信度和提升度
本文基于課程正態分布總體對課程成績進行標準化,利用線性函數插值法對學生成績進行修正,消除成績分布和標準差的差異性,在同一標尺下進行課程強關聯分析。成績修正的Apriori算法是在統一課程成績標準前提下進行的數據挖掘,消除課程成績評價對課程關聯規則的影響,更加準確地分析課程的關聯程度,對學生課程學習指導更加具有針對性,為專業教學管理提供依據。