摘 要 計算機學科考試中的技能考試過程是一個動態過程,技能操作結果隨著操作過程的推進而改變。文中采用apriori算法對Excel技能考試成績數據進行分析,挖掘Excel技能操作成績數據中隱藏的關聯規則,為教師發現Excel中的關鍵知識點以便改進教學提供決策依據。
關鍵詞 Apriori Excel 成績分析 C#
中圖分類號:TP311.13 文獻標識碼:A
0 引言
目前大多數考試系統中存儲了大量的考試成績數據,通過人工方式或傳統的數據庫管理難以獲取成績數據中隱藏的、反映學生掌握知識規律或整體特征的信息,關聯規則挖掘技術的出現為發現數據中隱藏的信息提供了有力的技術支持。文中選擇Excel技能考試成績數據作為研究對象,從中挖掘出Excel各個知識點之間的關聯關系及影響學生成績的關鍵知識點,這些信息有利于教師提高教學質量,對教師改進教學將會起到事半功倍的作用。
1 apriori算法簡介
1.1 apriori算法中的幾個概念
事務:事務是由包含唯一的事務標識符()及組成該事務的項的列表組成。
1.2 頻繁項集生成過程
Apriori算法是布爾關聯規則中一種最重要的挖掘頻繁項集的算法,它采用逐層搜索的迭代方法來生成頻繁項集, 實現步驟:
第三步 剪枝操作。中包含有頻繁項集集合和非頻繁集集合~,根據頻繁項集的所有子集都是頻繁項集這一性質刪除中不符合這個性質的項集,然后再次掃描數據庫分別計算剪枝操作后中剩余項集的支持計數,根據最小支持度閾值從中找出所有的頻繁項集。
第四步:重復第二步和第三步操作,當頻繁項集集合或候選項集集合時,算法結束,說明數據庫中沒有更大的頻繁項集存在。
1.3 關聯規則生成過程
根據最小置信度域值分析頻繁項集產生關聯規則。
規則的產生:在挖掘過程中會出現很多的關聯規則,只有滿足一定支持度和置信度的強關聯規則才有實際意義或是人們感興趣的規則,因此,我們對所有頻繁項集根據最小置信度閾值來生成對用戶有意義的規則和模式,其方法是:
2 應用apriori算法挖掘Excel技能考試成績中關聯規則
2.1 Excel技能考試成績數據處理
Excel技能操作主要分為單元格操作、工作表操作、公式與函數、圖表操作、數據處理等,我們將Excel各種操作的知識點進行劃分,每個知識點對應一個操作步驟,如果某個知識點操作正確,則對應知識點的值記為1,否則記為0,將考生技能操作中的成績數據轉化為各個知識點相應的0或1布爾值,這樣轉化后得到的由0和1組成的數據就是我們進行關聯規則挖掘的目標數據,如圖1:
2.2 關聯規則挖掘
2.3 規則解釋和分析
規則1和規則2涉及單元格邊框和單元格字體設置這兩個知識點,其中規則1的支持度和規則2的支持度相等,但規則2的置信度比規則1的置信度高,說明規則2比規則1更具可靠性,單元格字體設置這個知識點就是提高教學質量的關鍵知識點,依次類推,我們對考試成績中的知識點進行關聯規則挖掘,可以發現支持度和置信度高的知識點并進行重點教學,將會提高Excel教學質量。
2.4 影響挖掘結果的因素
(1)數據源選取。即待挖掘的數據對象,所有生成的關聯規則都是具體數據對象中隱藏的規律和模式,因此數據源的選擇直接影響到了挖掘的結果。選擇不同考試的成績數據作為挖掘數據源將會得到不同的關聯規則。(2)最小支持度閾值和最小置信度閾值設置。在挖掘數據源確定的情況下,最小支持度閾值和最小置信度閾值也是影響挖掘結果的直接因素。閾值設置較高則產生的規則數量少且規則可靠,但應用面窄,閾值設置較低產生的規則數量多但規則不可靠,生成的規則沒有多大意義,因此,設置合理的最小支持度閾值和最小置信度閾值是關聯規則挖掘需要考慮的一個重要因素。
3 結束語
Apriori算法是經典的關聯規則挖掘算法,在Excel技能考試成績數據中應用該算法可以發現學生掌握Excel技能的學習規律和關鍵知識點,從而為教師改進教學提供依據。由于挖掘的數據源、最小支持度閾值和最小置信度閾值對關聯規則的挖掘結果有重大的影響,因此,在應用apriori算法挖掘關聯規則前,應合理選擇挖掘數據源和設置合理的最小支持度閾值和最小置信度閾值。
參考文獻
[1] 夏英,張俊,王國胤.時空關聯規則挖掘算法及其在ITS中的應用[J].計算機科學,2011.38(9):173-176.
[2] 李靜燕.關聯規則挖掘算法研究[D].西安:西安電子科技大學,2008.
[3] 孫金華,謝彥麒.基于事務壓縮的關聯規則挖掘算法改進[J].微計算機信息,2010.26(9-3):223-225.
[4] 武玉剛,秦勇,宋繼光,楊忠明.基于關聯規則的入侵檢測算法研究綜述[J].計算機工程與設計,2011.32(3):834-837.
[5] 楊金鳳,劉鋒.一種新的改進Apriori算法[J].微型機與應用,2010(1):55-57.