【摘 要】通過將數(shù)據(jù)挖掘算法即關(guān)聯(lián)規(guī)則中的Apriori以及分類中的ID3決策樹,編碼實現(xiàn)。對積累于我校教務(wù)系統(tǒng)中的某專業(yè)的英語學(xué)習(xí)相關(guān)數(shù)據(jù)進行統(tǒng)計挖掘和分析,實現(xiàn)基于數(shù)據(jù)挖掘的英語教學(xué)分析系統(tǒng)。
【關(guān)鍵詞】數(shù)據(jù)挖掘 英語 教學(xué)分析
一、引言
隨著計算機網(wǎng)絡(luò)的普及,各地高校的教務(wù)管理系統(tǒng)也如雨后春筍般興起,這些系統(tǒng)的出現(xiàn)為師生及教務(wù)管理員提供了極大的便利。隨著使用時間的增長,系統(tǒng)中會累積大量的數(shù)據(jù),例如師生的信息、學(xué)生的選課記錄、學(xué)生的成績等。這些大量的數(shù)據(jù)的背后往往存在某些潛在的聯(lián)系,這些聯(lián)系對決策支持、教務(wù)分析等都會有極大的幫助。而數(shù)據(jù)挖掘技術(shù)就是用來分析潛藏在大量數(shù)據(jù)中的特殊對應(yīng)關(guān)系的技術(shù)領(lǐng)域。
二、數(shù)據(jù)挖掘概述
(一)數(shù)據(jù)挖掘定義
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
(二)數(shù)據(jù)挖掘步驟
1. 問題定義
分析明確采用什么樣的算法,期望獲得什么樣的結(jié)果。
2. 數(shù)據(jù)準(zhǔn)備
三個步驟:數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換。
數(shù)據(jù)選取指的是從數(shù)據(jù)庫中選擇要用來進行挖掘的數(shù)據(jù)。在本系統(tǒng)中所需的數(shù)據(jù)表大致如下:
學(xué)生基本信息表;
學(xué)生四六級考試信息表;
學(xué)生期末考試成績表;
教師信息表;
學(xué)生課程記錄表;
教師任課信息表。
數(shù)據(jù)預(yù)處理一般可能包括消除噪聲、推導(dǎo)計算缺值數(shù)據(jù)、消除重復(fù)記錄,完成類型轉(zhuǎn)換等。如在學(xué)生基本信息表中,生源地這一屬性有部分值出現(xiàn)空缺,這樣的記錄就應(yīng)該被清洗掉。
數(shù)據(jù)變換的主要目的是消減數(shù)據(jù)維數(shù)或降維,即從初始特征中找出真正有用的特征,以減少數(shù)據(jù)挖掘時要考慮的特征或變量個數(shù)。比如學(xué)生信息表中,聯(lián)系方式或電話號碼不是系統(tǒng)使用數(shù)據(jù)的目標(biāo),故而可以不被抽取出來。
3. 數(shù)據(jù)挖掘
根據(jù)問題定義選擇算法,對準(zhǔn)備好的數(shù)據(jù)進行挖掘獲得結(jié)果。
三、系統(tǒng)設(shè)計與實現(xiàn)
(一)系統(tǒng)架構(gòu)設(shè)計
系統(tǒng)基于Web設(shè)計,采用B/S模式及MVC架構(gòu)。MVC架構(gòu)的優(yōu)勢在于“分而治之”,能夠一次實現(xiàn)多處重用。V是視圖,代表的是用戶交互界面;M是模型,是業(yè)務(wù)流程/狀態(tài)的處理以及業(yè)務(wù)規(guī)則的制定,模型接受視圖請求的數(shù)據(jù),并返回最終的處理結(jié)果;C是控制,從用戶處接受請求,并將模型與視圖匹配完成用戶的請求。
(二)系統(tǒng)結(jié)構(gòu)流程
歷史數(shù)據(jù)采集→轉(zhuǎn)換→集成數(shù)據(jù)倉庫;
顯示界面(任務(wù)設(shè)置,結(jié)果返回)←→數(shù)據(jù)挖掘模塊/數(shù)據(jù)統(tǒng)計。
(三)系統(tǒng)功能模塊實現(xiàn)
1. 用戶模塊
系統(tǒng)的用戶僅限于教務(wù)管理人員,故無需使用角色的設(shè)計,本模塊中只需負責(zé)添加、刪除用戶及修改密碼的管理。
2. 數(shù)據(jù)統(tǒng)計模塊
主要實現(xiàn)將數(shù)據(jù)倉庫中相關(guān)數(shù)據(jù)作統(tǒng)計然后用Jfreechart顯示給用戶。JFreeChart是JAVA平臺上的一個開放的圖表繪制類庫,可生成餅圖、柱狀圖、散點圖、時序圖、甘特圖等。通過圖片顯示,用戶可以直觀的獲取信息。系統(tǒng)中考慮及實現(xiàn)的統(tǒng)計因素主要包括學(xué)生信息、師資信息、平時英語成績、四六級考試成績以及四級參考時英語學(xué)習(xí)時間。
3. 數(shù)據(jù)挖掘之關(guān)聯(lián)分析模塊
若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。進行關(guān)聯(lián)規(guī)則挖掘的算法較為經(jīng)典的是Apriori。挖掘關(guān)聯(lián)規(guī)則主要包含以下兩個步驟:1.頻繁項集產(chǎn)生:根據(jù)預(yù)先設(shè)置的支持度,發(fā)現(xiàn)所有的頻繁項集;2.規(guī)則的產(chǎn)生:根據(jù)所獲得的頻繁項集及設(shè)置好的置信度,產(chǎn)生相應(yīng)的強關(guān)聯(lián)規(guī)則。
假設(shè)有集合X、Y、D、I,一個關(guān)聯(lián)規(guī)則就是X→Y的蘊涵表達式;其中X#8834;I,Y#8834;I且X∩Y=Φ。規(guī)則X→Y在交易數(shù)據(jù)集D中成立,具有支持度s,其中s是D中交易包含X∪Y的百分比即概率P(X∪Y)。若D中包含X的事務(wù)同時也包含Y的百分比是c,規(guī)則X→Y在交易數(shù)據(jù)集D中具有置信度c即條件概率P(Y|X)。實現(xiàn)該算法,采用的是javabean,通過遍歷,在支持度這一條件的設(shè)定下,完成頻繁項集的產(chǎn)生;通過遍歷、置信度的設(shè)立,完成強關(guān)聯(lián)規(guī)則的產(chǎn)生。
系統(tǒng)中進行挖掘的相關(guān)因素包括四六級分數(shù)細節(jié)、平時成績、四六級成績、學(xué)生信息、師資結(jié)構(gòu)等。
4. 數(shù)據(jù)挖掘之決策分析模塊
決策分析依賴于分類及預(yù)測。決策分析基于信息論是自頂向下的遞歸方式構(gòu)造決策樹,ID3是經(jīng)典的實現(xiàn)算法。其實現(xiàn)步驟主要包括兩個過程:1.根據(jù)屬性特征,使數(shù)據(jù)分類;2.根據(jù)形成的類別,對新數(shù)據(jù)進行預(yù)測。
在系統(tǒng)中,決策樹的分類則是四六級考試通過情況。通過挖掘提供各種影響學(xué)生參加四六級考試得分的因素,可能包括生源地、入學(xué)成績、性別、師資、大學(xué)英語學(xué)習(xí)時間等因素預(yù)測學(xué)生的考試成績。
四、總結(jié)
在挖掘過程中發(fā)現(xiàn):
完成大學(xué)英語學(xué)習(xí)與通過四級考試 關(guān)聯(lián)性不強;
四六級考試中聽力與寫作翻譯存在關(guān)聯(lián)性;
四級分數(shù)在425-500之間的,六級不容易通過;
男生與不容易通過四級存在關(guān)聯(lián);
四級通過情況主要決定因素為平時成績,次要因素為師資情況;
六級通過情況主要決定因素為四級成績,次要因素為生源。
需要注意的是,上述挖掘結(jié)果的會因數(shù)據(jù)樣本的差異而存在著不同,支持度及置信度的設(shè)置改變結(jié)果也會有變異,數(shù)據(jù)源若作進一步的擴充,會得出有關(guān)英語教學(xué)更全面的結(jié)論。