摘 要:近幾年隨著其他高校的網(wǎng)絡(luò)教育不斷涌現(xiàn),也對電大的生源產(chǎn)生了一定的影響。我們可以借助數(shù)據(jù)挖掘工具對大量學(xué)員數(shù)據(jù)進(jìn)行深層次分析,找出導(dǎo)致學(xué)員延期畢業(yè)的原因,針對原因找出相應(yīng)的對策,使得學(xué)員如期畢業(yè)。可見把數(shù)據(jù)挖掘技術(shù)應(yīng)用于開放教育有很大的現(xiàn)實意義。
關(guān)鍵詞:數(shù)據(jù)挖掘; 延期畢業(yè)
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-3315(2012)04-135-001
一、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘就是從海量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱藏在其中人們事先不知道的但又有潛在有用的信息和知識的過程。數(shù)據(jù)挖掘技術(shù)要完成不僅是面向一般數(shù)據(jù)庫的簡單查詢工作,而且要對這些數(shù)據(jù)進(jìn)行統(tǒng)計、分析、綜合和推理,得到有用的信息,以指導(dǎo)實際問題的求解.發(fā)現(xiàn)事件間的相互關(guān)聯(lián)。甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)行預(yù)測。數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及數(shù)據(jù)庫、數(shù)理統(tǒng)計、人工智能、可視化、并行計算等方面的技術(shù)。數(shù)據(jù)挖掘技術(shù)從產(chǎn)生以來,已經(jīng)被應(yīng)用于多種領(lǐng)域,并得到了充分的驗證,顯示了其重要的經(jīng)濟(jì)價值,同時在應(yīng)用過程中得到不斷的完善和進(jìn)步。
二、數(shù)據(jù)挖掘在電大學(xué)員數(shù)據(jù)中的應(yīng)用
1.數(shù)據(jù)倉庫的建立
1.1數(shù)據(jù)倉庫主題的分析。建立數(shù)據(jù)倉庫和進(jìn)行數(shù)據(jù)預(yù)處理是進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備.它的任務(wù)是為數(shù)據(jù)挖掘提供合適的數(shù)據(jù)。經(jīng)過分析,我們可以發(fā)現(xiàn)要學(xué)員延期畢業(yè)有以下幾個方面原因:專業(yè)的因素;課程的因素;考試的因素。數(shù)據(jù)倉庫所要實現(xiàn)的系統(tǒng)功能包括:數(shù)據(jù)倉庫可以幫助制定招生策略:還可以對學(xué)員平時的學(xué)習(xí)提供一些有效的建議,提高畢業(yè)率。
1.2數(shù)據(jù)倉庫模型設(shè)計。對“學(xué)員延期畢業(yè)”主題進(jìn)行模式劃分。采用星型架構(gòu)設(shè)計出下面的事實表和各維表:
1.2.1事實表設(shè)計:事實表名稱、學(xué)員成績事實表
索引字段:學(xué)號、課程代碼、班代碼、專業(yè)代碼、學(xué)年學(xué)期號
度量值:成績、學(xué)分
1.2.2維度表設(shè)計:
1.2.2.1學(xué)員維度表名稱:學(xué)員信息
學(xué)員維度表結(jié)構(gòu):學(xué)號、姓名、班代碼、單位代碼、性別、年級、身份證號、籍貫、學(xué)籍狀態(tài)、專業(yè)代碼、職業(yè)
1.2.2.2班級維度表名稱:班級信息
班級維度表結(jié)構(gòu):班代碼、班級名稱、專業(yè)代碼、畢業(yè)學(xué)分、補(bǔ)專學(xué)分、年限、必修學(xué)分、限選學(xué)分、選修學(xué)分
1.2.2.3專業(yè)維度表名稱:專業(yè)信息
專業(yè)維度表結(jié)構(gòu):專業(yè)代碼、專業(yè)名稱、本專科
1.2.2.4課程維度表名稱:課程信息
課程維度表結(jié)構(gòu):課程代碼、課程名稱、學(xué)分、學(xué)時、開設(shè)學(xué)期、性質(zhì)
1.2.2.5時間維度設(shè)計:時問維度表名稱、學(xué)年學(xué)期時間維度表結(jié)構(gòu):學(xué)年學(xué)期號、學(xué)年、學(xué)期
1.2.2.6考試考勤維度設(shè)計:考試考勤維度表名稱、考勤信息
考勤維度表結(jié)構(gòu):學(xué)號、課程代碼、考勤時間、考勤結(jié)果
2.系統(tǒng)的實現(xiàn)
首先,將源數(shù)據(jù)(學(xué)員、班級、專業(yè)、課程等相關(guān)數(shù)據(jù))經(jīng)過抽取、轉(zhuǎn)換、加載存儲到SQL Server數(shù)據(jù)庫中,SQL Server的DTS工具可以完成大部分?jǐn)?shù)據(jù)的轉(zhuǎn)換和清理工作,這樣不同源數(shù)據(jù)就可以統(tǒng)一有序地存儲在服務(wù)器端的SQL Server數(shù)據(jù)庫中,為數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備。其次,利用某種高級語言實現(xiàn)數(shù)據(jù)挖掘算法,編制相應(yīng)的外掛數(shù)據(jù)挖掘模塊。最后與服務(wù)器上的數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交互。在這種利用外掛模塊實現(xiàn)數(shù)據(jù)挖掘的方案中,不同的數(shù)據(jù)庫的訪問技術(shù)有所不同,微軟公司主要的數(shù)據(jù)訪問方法是ADO,它是一個簡單的對象模型,在應(yīng)用程序中使用該模型可以方便地與SQL Server數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交互。
3.數(shù)據(jù)挖掘試驗結(jié)果分析
本文隨機(jī)選取了20名學(xué)員的數(shù)據(jù)作為樣本數(shù)據(jù),對數(shù)據(jù)進(jìn)行離散化等一系列處理以后得到最終決策樹。
從決策樹中,可以方便地得出以下規(guī)則以供決策參考:
3.1若課程不及格比例<50%且考勤為優(yōu)或一般則不會延期畢業(yè);
3.2若考勤為差則會延期畢業(yè);
3.3若課程不及格比例>50%且考勤為一般且年齡在20~30的公司職員則不會延期畢業(yè)。
3.4若課程不及格比例≥50%且考勤為一般且年齡在30~40的干部,則會延期。
從上述規(guī)則中,可以很直接地看到在延期畢業(yè)這個問題上考試考勤是一個非常值得關(guān)注的原因,一般考試不能正常來的學(xué)員都會延期畢業(yè);平時考勤好且課程不及格比例小于50%的,一般都會如期畢業(yè);而課程不及格超過50%的學(xué)員,雖然考勤為良,但是由于年齡和工作的關(guān)系,也會延期。
三、結(jié)束語
把數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)應(yīng)用于電大開放教育,通過需求分析確立主題,利用電大開放教育數(shù)據(jù)庫中已有的數(shù)據(jù)進(jìn)行整合建立電大開放教育數(shù)據(jù)倉庫,并利用粗糙集挖掘出一定的規(guī)則,生成對開放教育有效的決策規(guī)則,并對規(guī)則進(jìn)行分析,最后利用一組隨機(jī)數(shù)據(jù)驗證了決策規(guī)則的有效性。
參考文獻(xiàn):
[1]陳鵬,張紅祥.開放教育考務(wù)系統(tǒng)數(shù)據(jù)庫設(shè)計UJ——思茅師范高等專科學(xué)校學(xué)報,2009(03):60—63
[2]董賀,榮光怡.數(shù)據(jù)挖掘中數(shù)據(jù)分類算法的比較分析Ⅲ.吉林師范大學(xué)學(xué)報(自然科學(xué)版),2008,(04):107—108,1.43