教育大數(shù)據(jù)環(huán)境下基于關聯(lián)規(guī)則的答卷分析模型研究

2017-11-22 07:28:22趙紀濤王婷

現(xiàn)代計算機 2017年29期

關鍵詞：數(shù)據(jù)挖掘關聯(lián)規(guī)則

趙紀濤，王婷

（1.許昌學院高等教育研究所，許昌461000；2.許昌學院信息工程學院，許昌461000；3.許昌學院圖書館，許昌461000）

教育大數(shù)據(jù)環(huán)境下基于關聯(lián)規(guī)則的答卷分析模型研究

趙紀濤1，2，王婷3

（1.許昌學院高等教育研究所，許昌461000；2.許昌學院信息工程學院，許昌461000；3.許昌學院圖書館，許昌461000）

針對現(xiàn)有考試答卷分析的不足，引入數(shù)據(jù)挖掘技術，在開源軟件Weka中構(gòu)建《計算機應用基礎》課程考試答卷分析的模型。實驗表明，數(shù)據(jù)挖掘技術能更深層次地揭示學生認知規(guī)律，反映各知識點掌握水平間的聯(lián)系。所提出的答卷分析方法在促進教學改革、提高教學質(zhì)量方面具有重要意義。

0 引言

《教育信息化十年發(fā)展規(guī)劃（2011-2020年）》發(fā)布以來，信息技術與教育教學深度融合的理念深入人心，各項工作取得了突破性進展，很多網(wǎng)絡課程和教育信息系統(tǒng)上線運行，教育大數(shù)據(jù)逐步形成。《教育信息化“十三五”規(guī)劃》（教技〔2016〕2號）和《2017年教育信息化工作要點》（教技廳〔2017〕2號）明確要求：深入推進信息技術與教育教學深度融合，加強教育行業(yè)數(shù)據(jù)管理與決策支持服務。如何高效、科學地利用已有的教育大數(shù)據(jù)數(shù)據(jù)，挖掘知識模式，更好地服務教育教學，是當前教育信息化領域的一個研究熱點。

考生答卷是一種重要的教學資源，也是學生知識掌握水平的具體體現(xiàn)。科學地分析答卷數(shù)據(jù)，可以了解學生對教學內(nèi)容的掌握情況，揭示認知規(guī)律。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律、提取有用知識的方法與技術。眾多學者對該領域進行了研究。徐巍[1]根據(jù)數(shù)據(jù)挖掘的思想，對成績管理數(shù)據(jù)庫中的大量數(shù)據(jù)進行分析。哈申花等[2]討論了C4.5決策樹分析學生成績數(shù)據(jù)的方法。文獻[3]對關聯(lián)規(guī)則方法在試卷評價中的應用進行了介紹。文獻[4]中探討了聚類分析在教學中應用。杜向科[5]等利用抽樣方法對浙江建院2004.9-2007.7的成績進行了分析。文獻[6]對教育信息化時代下的個性化學習進行了研究。

許昌學院《計算機應用基礎》課程是非計算機專業(yè)的公共必修課，其考試形式為無紙化上機考試。學期末，任課教師將提交各行政班的成績分析報告，包括：平均分、最高分、最低分、不及格率、成績分布表，成績分布曲線等。該報告不完善之處在于：不能夠反映出各知識點掌握水平之間的聯(lián)系，也不能反映出各知識點的掌握水平與學生的專業(yè)、性別等其他因素的聯(lián)系。為更深層次地揭示學生認知規(guī)律，反映出各知識點掌握水平間的聯(lián)系，本文擬引入數(shù)據(jù)挖掘中關聯(lián)規(guī)則方法，對《計算機應用基礎》答卷進行分析。

1 關聯(lián)規(guī)則基礎理論

1.1 基本概念

設I={i 1,i2,…,im} 是m個不同項目的集合，稱為項集（Itemset）。與任務相關的數(shù)據(jù)D是事務的集合，其中每個事務T是I中一些項目的集合，即T?I。每個事務T都有一個唯一的標識符，稱為TID。如果對于I中的一個子集X，有 X?T，那么稱事務T包含X。項集所包含元素的個數(shù)稱為項集長度，長度為k的項集稱為k階項集（k_itemset）。假定把項按字典順序排列，k階項集X可以表示為X[1]X[2]…X[k]。對于項集C=X?Y，若Y為m階項集，那么稱Y是X的m階擴展。

定義1[7]關聯(lián)規(guī)則是描述事務數(shù)據(jù)庫中數(shù)據(jù)項之間聯(lián)系的規(guī)則，它的形式是X?Y，其中X?I,Y?I，并且X?Y=?，X稱為規(guī)則前件（antecedent），Y稱為規(guī)則后件（consequent）。該關聯(lián)規(guī)則的含義為：如果項目X出現(xiàn)，那么Y同時出現(xiàn)的可能性比較高。

定義2[7]項集X在事務集合D中的支持數(shù)（sup?port count）是D中包含X的事務數(shù)，記作X.count。X在D中的支持度就是X的支持數(shù)與D的總事務數(shù)之比，即X在D中出現(xiàn)的概率，用符號Pr（X）表示，X的支持度記作sup（X）。支持度閾值表示項目在統(tǒng)計意義上的最低重要性，用符號ms表示。

定義3[7]事先給定一個ms，如果項集X的支持度sup（X）≥ms，則稱 X 為大項集（large itemset）或者頻繁項集（frequent itemset）。

定義4[7]規(guī)則的強度可以用它的支持度和置信度度量，這兩種度量的形式定義如下：

關聯(lián)規(guī)則X?Y的支持度表示X、Y同時出現(xiàn)的可能性，而置信度確定Y在包含X的事務中出現(xiàn)的頻繁程度。該值等于在X出現(xiàn)的條件下Y也出現(xiàn)的概率，因此，規(guī)則的置信度也可以用條件概率符號Pr（Y|X）表示。置信度閾值表示關聯(lián)規(guī)則在統(tǒng)計意義上應滿足的最低置信度，用符號mc表示。給定事務集合D，關聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于等于ms并且置信度大于等于mc的所有規(guī)則。

1.2 相關性質(zhì)

性質(zhì)1設U={u1,u2,…,uk}為項目集，且U?I，U≠?，Ω?U，對于給定的數(shù)據(jù)D和最小支持度ms，如果U為頻繁項目集，那么Ω同樣是頻繁項集，即如果一個項目集是頻繁的，那么它的子集也是頻繁的。

證明：

∵項集U為頻繁項集，則sup(U)≥ms，設定包含項集U的事務集為D0

又∵Ω?U

則包含U的D0一定含有Ω的

∴sup(Ω)≥sup(U)≥ms

∴Ω必為頻繁項集

性質(zhì) 2設U={u1,u2,…,uk}為項集，且U?H?I，U≠?，對于給定的數(shù)據(jù)D和ms，如果U為非頻繁項集，則H也一定是非頻繁項集。該性質(zhì)的含義是：如果一個項目集是非頻繁的，則它的超集也是非頻繁的。

證明：假設H是頻繁項集

∵ U?H?I，U≠?

∴由性質(zhì)1可以推出項集U為頻繁項集，二者產(chǎn)生矛盾

∴H是非頻繁項集

性質(zhì)3現(xiàn)有關聯(lián)規(guī)則X?Y，滿足X?I，Y?I且X≠?，Y≠?，X?Y≠?，給定的最小支持度ms和最小置信度mc，X?Y為強關聯(lián)規(guī)則；如果Y'?Y，那么X?Y'也為強關聯(lián)規(guī)則。

性質(zhì) 4設關聯(lián)規(guī)則 X?Y，滿足 I=X?Y且X≠?，Y≠?，X?Y=?，對于給定的最小支持度ms和最小置信度mc的強關聯(lián)規(guī)則；如果X?X'，滿足I=X'?Y'且X'≠?，Y'≠?，X'?Y'=?，那么X'?Y'也為滿足給定條件的強關聯(lián)規(guī)則。

根據(jù)上述4個性質(zhì)，可設計出關聯(lián)規(guī)則挖掘算法。代表性的算法有Apriori類和FP-growth類挖掘算法[7]。

2 教育大數(shù)據(jù)挖掘流程

數(shù)據(jù)挖掘是一個系統(tǒng)工程，旨在從已有的數(shù)據(jù)庫中找到先前未知的，能輔助決策的信息，真?zhèn)€過程包括：數(shù)據(jù)的預處理、關聯(lián)規(guī)則挖掘、解釋關聯(lián)規(guī)則和使用關聯(lián)規(guī)則4個階段。

本次實驗環(huán)境采用開源數(shù)據(jù)挖掘軟件Weka[7]，該軟件是由新西蘭懷卡托大學開發(fā)，是用JAVA語言設計的機器學習（Machine Learning）和數(shù)據(jù)挖掘（Data Mining）的軟件。它集合了大量能承擔數(shù)據(jù)挖掘任務的算法，包括分類、關聯(lián)規(guī)則、聚類以及在新的交互式界面上的可視化，是數(shù)據(jù)挖掘和機器學習領域較有影響的軟件。

本實驗的數(shù)據(jù)許昌學院2015級理工類專業(yè)《計算機應用基礎》課程的考試答卷。本課程為無紙化上機考試，把改卷系統(tǒng)導出的成績根據(jù)監(jiān)考記錄，刪除違紀、缺考與作弊考生的答卷，并將各知識點作為一個item，每個答卷作為一個事務T，構(gòu)建事物數(shù)據(jù)庫D。預處理后的數(shù)據(jù)共包含1087個事務，25個Item。

2.1 數(shù)據(jù)預處理

現(xiàn)有的數(shù)據(jù)含有空值、重復值等，必須進行預處理，才能運行數(shù)據(jù)挖掘算法。本次數(shù)據(jù)挖掘采用的預處理操作包括：將答卷轉(zhuǎn)化為0/1布爾矩陣，每行代表一份答卷，每列代表一道題目，0表示該題答錯，1表示該題答對。將空白試卷和不完整試卷刪除，得到1087×25的布爾矩陣。

2.2 挖掘關聯(lián)規(guī)則

根據(jù)關聯(lián)規(guī)則挖掘理論，設定關聯(lián)規(guī)則挖掘中的相關參數(shù)。指定最小支持ms=0.5，挖掘出1項頻繁集18個。指定最小置信度mc=0.9，在事務數(shù)據(jù)庫D上運行經(jīng)典算法Apriori，挖掘相應的強關聯(lián)規(guī)則。表1為挖掘結(jié)果的前6條關聯(lián)規(guī)則。

表1 挖掘的前6條關聯(lián)規(guī)則

2.3 解釋關聯(lián)規(guī)則

由于關聯(lián)規(guī)則它只表示規(guī)則前件和后件同時出現(xiàn)的概率相關性，并不蘊涵邏輯因果性，因此，在解釋挖掘結(jié)果時，應該遵守嚴謹、科學的進行。表1中關聯(lián)規(guī)則I9→I3的可解釋為：“如果正確解答關于知識點I9的題目，那么正確解答關于知識點I3的題目的概率為0.95”，關聯(lián)規(guī)則蘊含的是各知識點掌握程度間的概率關系，能夠幫助教育者在有限的條件下，統(tǒng)籌規(guī)劃，制定更加科學的教學策略，確保教學目標的圓滿實現(xiàn)。

2.4 應用關聯(lián)規(guī)則指導教學

根據(jù)專家對關聯(lián)規(guī)則的解釋，任課教師可以發(fā)現(xiàn)學生的認知特點，揭示各知識點掌握程度之間的關聯(lián)。進而可以有的放矢，把握教學重點、難點，提高自身教學水平。比如：根據(jù)挖掘的關聯(lián)規(guī)則I9→I3（0.60→0.95），教師就應投入更多的精力去講解知識點I9，如果學生掌握了知識點I9，那么知識點I3就可以少講甚至不講，在不講的情況下學生仍有0.95的概率掌握知識點I3。

3 結(jié)語

數(shù)據(jù)挖掘技術可以從大量數(shù)據(jù)中發(fā)現(xiàn)隱含的知識和規(guī)律。本文借鑒數(shù)據(jù)挖掘中的關聯(lián)規(guī)則技術對許昌學院計算機應用基礎課程考試答卷進行分析，實驗表明：關聯(lián)規(guī)則可以反映出各知識點掌握程度之間的聯(lián)系，能彌補現(xiàn)有試卷分析報告的不足，數(shù)據(jù)挖掘技術在幫助教師明確教學目標，把握教學重點，突破教學難點，提升教學水平等方面具有重要意義。本次實驗是在Weka軟件環(huán)境中完成的，對新西蘭懷卡托大學Weka開發(fā)小組的各位專家學者謹致謝意。

[1]徐巍.基于數(shù)據(jù)挖掘的成績分析及輔助管理[J].鞍山師范學院學報,2005,7(3):106-108.

[2]哈申花，張春生.基于C4.5決策樹學生成績數(shù)據(jù)挖掘方法[J].內(nèi)蒙古民族大學學報，2010，25(2):151-152.

[3]彭菊香,何許騰,劉向紅.數(shù)據(jù)關聯(lián)規(guī)則挖掘在高校試卷質(zhì)量評價中的應用研究[J].湖南工程學院學報(社會科學版)，2010，20(2):110-112.

[4]周牧.基于統(tǒng)計的數(shù)據(jù)挖掘在教學中的應用[J].沿海企業(yè)與科技，2010，120(5):162-168.

[5]杜向科.浙江建設職業(yè)技術學院近三年學生成績分析[J].科技信息，2008，6:553.

[6]馬仲吉,李漢斌,劉思來,鎖配烈.教育信息化時代下的個性化學習研究[J].中國教育信息化,2017(06):8-11.

[7]Eibe Frank,Mark A.Hall,Ian H.Witten.The WEKA Workbench.Online Appendix for"Data Mining:Practical Machine Learning Tools and Techniques"[M],Morgan Kaufmann,Fourth Edition,2016.

趙紀濤，男，河南商丘人，碩士研究生，講師，研究方向為教育信息化

王婷，女，河南許昌人，碩士研究生，圖書館館員，研究方向為信息管理

2017-06-22

2017-10-09

Educational Big Data;Association Rules;Data Mining;Answer Sheet Analysis

Answer Sheet Analysis Model Based on Association Rules in Educational Big Data Environment

ZHAO Ji-tao1，2,WANG Ting3

（1.Institute of Higher Education Research,Xuchang University,Xuchang 461000；2.Department of Education Technology and Information,Xuchang University,Xuchang 461000；3.Library,Xuchang University,Xuchang 461000）

Proposes several applications of data mining,introduces data mining technology into answer sheet analysis,and proposes an analysis sys?tem of computer application foundation assessment in the Weka open source software.Experimental results illustrate that data mining tech?nology is helpful to reveal the cognitive law and improve teaching quality.

教育大數(shù)據(jù)；關聯(lián)規(guī)則；數(shù)據(jù)挖掘；答卷分析

許昌學院科學研究一般項目（No.2016041）

1007-1423（2017）29-0044-04

10.3969/j.issn.1007-1423.2017.29.011