基于距離的孤立點挖掘改進(jìn)算法在教務(wù)管理系統(tǒng)中的應(yīng)用

2014-07-24 15:47牛永鑫

新媒體研究 2014年8期

摘要通過對經(jīng)典的基于距離的孤立點挖掘算法的分析與研究，引入“關(guān)鍵屬性”，即減少了挖掘數(shù)據(jù)量，提高了孤立點挖掘的效率，并將該挖掘模型應(yīng)用到教務(wù)管理系統(tǒng)學(xué)生成績歷史數(shù)據(jù)的挖掘中，從而實現(xiàn)了該系統(tǒng)的設(shè)計。

關(guān)鍵詞教務(wù)管理系統(tǒng)；孤立點；數(shù)據(jù)挖掘

中圖分類號：TP311 文獻(xiàn)標(biāo)識碼：A 文章編號：1671-7597（2014）08-0052-02

教務(wù)管理系統(tǒng)是一個面向?qū)W校教務(wù)管理人員，為其提供服務(wù)的綜合管理系統(tǒng)。教務(wù)人員通過本系統(tǒng)完成日常教務(wù)工作。從學(xué)生入學(xué)開始到畢業(yè)離校，其在學(xué)校內(nèi)的所有和教務(wù)相關(guān)的數(shù)據(jù)都通過教務(wù)系統(tǒng)進(jìn)行管理。目前，這些數(shù)據(jù)還未得到有效利用，只是一個待開發(fā)的“寶藏”。鑒于社會對高等學(xué)校發(fā)展的需求和目前高校數(shù)據(jù)管理現(xiàn)狀，利用這些數(shù)據(jù)理性地分析學(xué)校各方面工作的成效以及學(xué)生培養(yǎng)過程中的得失變得十分重要。

目前，教務(wù)管理系統(tǒng)中的數(shù)據(jù)挖掘大多利用關(guān)聯(lián)分析或分類分析，以發(fā)現(xiàn)一些大的模式。但關(guān)聯(lián)規(guī)則在發(fā)現(xiàn)大的規(guī)則的同時也會忽略那些不經(jīng)常出現(xiàn)的情況，有時這些例外情況更應(yīng)該引起教育決策者和管理者的注意。本文嘗試?yán)霉铝Ⅻc挖掘技術(shù)，對遼寧石化職業(yè)技術(shù)學(xué)院教務(wù)管理系統(tǒng)中積累的數(shù)據(jù)進(jìn)行分析，發(fā)現(xiàn)那些值得注意的例外對象，為教學(xué)管理者和學(xué)生管理者提供有用的信息。

1 應(yīng)用模型的建立

1.1 數(shù)據(jù)預(yù)處理

本文選取的是遼寧石化職業(yè)技術(shù)學(xué)院石油化工生產(chǎn)技術(shù)專業(yè)08級57名學(xué)生在入學(xué)后的三個學(xué)期的基礎(chǔ)必修課和專業(yè)必修課的考試分?jǐn)?shù)作為實驗應(yīng)用的數(shù)據(jù)集，在數(shù)據(jù)預(yù)處理階段，為了在下面的學(xué)生平均績點能夠參照公式計算，所以將考試分?jǐn)?shù)小于60分的學(xué)生成績均修改為50分，因為在公式中如果不及格的分?jǐn)?shù)除以10再減5則就是負(fù)數(shù)，但是學(xué)生的學(xué)分績點不可能為負(fù)。

1.2 孤立點定義

圖1 學(xué)生成績平均績點圖

本文中以學(xué)生成績績點分析為例，選取遼寧石化職業(yè)技術(shù)學(xué)院石油化工生產(chǎn)技術(shù)專業(yè)10級57人的第一、二、三學(xué)期的學(xué)生考試分?jǐn)?shù)作為原始數(shù)據(jù)，三個學(xué)期的學(xué)分績點作為檢測屬性，屬于多變量的孤立點檢測問題。通過對數(shù)據(jù)的分析，利用孤立點挖掘算法可以檢測出學(xué)生的學(xué)習(xí)成績下降、上升幅度大的和成績不穩(wěn)定的即為孤立點。經(jīng)過數(shù)據(jù)預(yù)處理后的學(xué)生平均績點如圖1所示。

2 孤立點數(shù)據(jù)挖掘過程

2.1 系統(tǒng)結(jié)構(gòu)

相對于傳統(tǒng)的基于距離的孤立點檢測算法，經(jīng)過改進(jìn)的挖掘算法同樣可以尋找出相似的孤立點，并給定了孤立點的程度，取消了設(shè)置參數(shù)p和d的要求；同時通過引入關(guān)鍵屬性，可以在數(shù)據(jù)預(yù)處理階段刪除數(shù)據(jù)集中非關(guān)鍵屬性的數(shù)據(jù)，從而提高了效率；第三通過改進(jìn)距離度量，可以降低將正常點誤認(rèn)為是孤立點的概率。在本文中，將改進(jìn)后的數(shù)據(jù)挖掘算法應(yīng)用在遼寧石化職業(yè)技術(shù)學(xué)院教務(wù)管理系統(tǒng)中，對學(xué)生成績的平均績點進(jìn)行孤立點挖掘，以期挖掘出“例外的”但是有用的信息，提供給教育管理者做決策。數(shù)據(jù)挖掘的程序框圖如圖2所示。

2.2 確定關(guān)鍵屬性

對于圖1中的學(xué)生三個學(xué)期的成績平均績點，可以計算出相應(yīng)的屬性隸屬度，分別為λ1=0.142253，λ1=0.288887，λ3=0.035729，可以看出λ2>λ1>λ3，λ2即為關(guān)鍵屬性。所以在數(shù)據(jù)預(yù)處理階段，可以將屬性1和3的數(shù)據(jù)刪除，提高了孤立點挖掘的效率。

2.3 距離度量改進(jìn)

圖3 對于圖3.1的挖掘結(jié)果圖

為了降低數(shù)據(jù)分布不均勻給孤立點挖掘結(jié)果帶來的影響，即把正常點誤認(rèn)為孤立點，本文中采用了基于改進(jìn)距離度量的方法來降低這種影響，挖掘結(jié)果如圖3所示。

3 結(jié)果分析

程序運行結(jié)果如圖4所示。

圖4 基于所有屬性的孤立點挖掘結(jié)果圖

通過圖4可以發(fā)現(xiàn)，在遼寧石化職業(yè)技術(shù)學(xué)院石油化工生產(chǎn)技術(shù)專業(yè)57人中挖掘出的8個孤立點，絕大多數(shù)是成績不穩(wěn)定的學(xué)生，比如王文濤、楊恒等，成績下降的學(xué)生有彭海州、劉強(qiáng)等，成績上升的有呂澤華，這給教育管理者提供了很好的工作參考信息，能夠使教育者抓住班級的特例學(xué)生，特別是成績下降很快的學(xué)生，老師可以經(jīng)常關(guān)注他們的學(xué)習(xí)，以使學(xué)生能夠在短時間內(nèi)將成績提高上來。

另外，在算法改進(jìn)的過程中，對于引進(jìn)關(guān)鍵屬性的概念，可以將非關(guān)鍵屬性的數(shù)據(jù)不做計算，提高了算法的效率，節(jié)約了時間。如圖5、6所示。

圖5 基于λ2的孤立點挖掘結(jié)果圖

由圖4-6相比較來看，孤立點的挖掘結(jié)果基本相同，只是在順序上略有差別，但這點兒差別對于教育工作者來講并不會受到影響，所以在數(shù)據(jù)預(yù)處理階段，本文通過計算出的屬性隸

圖6 基于λ1和λ2的孤立點挖掘結(jié)果圖

屬度，確定出關(guān)鍵屬性，在之后的孤立點挖掘算法中只對關(guān)鍵屬性的數(shù)據(jù)進(jìn)行挖掘，在挖掘結(jié)果中也保留了記錄的全部屬性，這樣就給出了孤立點孤立程度的量的表示。

與傳統(tǒng)的孤立點挖掘方法相比，本文采用的算法消除了對參數(shù)p和d的設(shè)置，用戶只需指定需要挖掘出的孤立點個數(shù)，即k值，就可以檢測出k個孤立點。在時間復(fù)雜度上，本文采用的算法為o（n2），稍優(yōu)于基于索引o（kn2）的挖掘算法。

參考文獻(xiàn)

[1]楊永銘，王喆.孤立點挖掘算法研究[J].計算機(jī)與數(shù)字工程，2008，1（36）：11-14.

[2]韋佳，彭宏，林毅申.基于改進(jìn)距離的孤立點檢測方法[J].華南理工大學(xué)學(xué)報（自然科學(xué)版），2008，36（9）：26-27.

[3]邵峰晶.數(shù)據(jù)挖掘原理與算法[M].北京：中國水利水電出版社，2003.

[4]劉同明.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].北京：國防工業(yè)出版社，2001.

[5]C.Gerior.Software Data mining.DATAMATION，1996.

[6]任承業(yè).校園信息系統(tǒng)中數(shù)據(jù)挖掘的研究與應(yīng)用[J].2003.

[7]陶蘭，王寶迎，呂建軍.數(shù)據(jù)挖掘技術(shù)在高等學(xué)校決策支持中的應(yīng)用[J].中國農(nóng)業(yè)大學(xué)學(xué)報，2003（1）：82-84.

作者簡介

牛永鑫（1969-），男，漢族，遼寧錦州人，副教授，碩士，主要從事計算機(jī)網(wǎng)絡(luò)，數(shù)據(jù)挖掘，計算機(jī)應(yīng)用設(shè)計。endprint

關(guān)鍵詞教務(wù)管理系統(tǒng)；孤立點；數(shù)據(jù)挖掘

中圖分類號：TP311 文獻(xiàn)標(biāo)識碼：A 文章編號：1671-7597（2014）08-0052-02

1 應(yīng)用模型的建立

1.1 數(shù)據(jù)預(yù)處理

1.2 孤立點定義

圖1 學(xué)生成績平均績點圖

2 孤立點數(shù)據(jù)挖掘過程

2.1 系統(tǒng)結(jié)構(gòu)

2.2 確定關(guān)鍵屬性

2.3 距離度量改進(jìn)

圖3 對于圖3.1的挖掘結(jié)果圖

3 結(jié)果分析

程序運行結(jié)果如圖4所示。

圖4 基于所有屬性的孤立點挖掘結(jié)果圖

圖5 基于λ2的孤立點挖掘結(jié)果圖

圖6 基于λ1和λ2的孤立點挖掘結(jié)果圖

參考文獻(xiàn)

[1]楊永銘，王喆.孤立點挖掘算法研究[J].計算機(jī)與數(shù)字工程，2008，1（36）：11-14.

[2]韋佳，彭宏，林毅申.基于改進(jìn)距離的孤立點檢測方法[J].華南理工大學(xué)學(xué)報（自然科學(xué)版），2008，36（9）：26-27.

[3]邵峰晶.數(shù)據(jù)挖掘原理與算法[M].北京：中國水利水電出版社，2003.

[4]劉同明.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].北京：國防工業(yè)出版社，2001.

[5]C.Gerior.Software Data mining.DATAMATION，1996.

[6]任承業(yè).校園信息系統(tǒng)中數(shù)據(jù)挖掘的研究與應(yīng)用[J].2003.

[7]陶蘭，王寶迎，呂建軍.數(shù)據(jù)挖掘技術(shù)在高等學(xué)校決策支持中的應(yīng)用[J].中國農(nóng)業(yè)大學(xué)學(xué)報，2003（1）：82-84.

作者簡介

關(guān)鍵詞教務(wù)管理系統(tǒng)；孤立點；數(shù)據(jù)挖掘

中圖分類號：TP311 文獻(xiàn)標(biāo)識碼：A 文章編號：1671-7597（2014）08-0052-02

1 應(yīng)用模型的建立

1.1 數(shù)據(jù)預(yù)處理

1.2 孤立點定義

圖1 學(xué)生成績平均績點圖

2 孤立點數(shù)據(jù)挖掘過程

2.1 系統(tǒng)結(jié)構(gòu)

2.2 確定關(guān)鍵屬性

2.3 距離度量改進(jìn)

圖3 對于圖3.1的挖掘結(jié)果圖

3 結(jié)果分析

程序運行結(jié)果如圖4所示。

圖4 基于所有屬性的孤立點挖掘結(jié)果圖

圖5 基于λ2的孤立點挖掘結(jié)果圖

圖6 基于λ1和λ2的孤立點挖掘結(jié)果圖

參考文獻(xiàn)

[1]楊永銘，王喆.孤立點挖掘算法研究[J].計算機(jī)與數(shù)字工程，2008，1（36）：11-14.

[2]韋佳，彭宏，林毅申.基于改進(jìn)距離的孤立點檢測方法[J].華南理工大學(xué)學(xué)報（自然科學(xué)版），2008，36（9）：26-27.

[3]邵峰晶.數(shù)據(jù)挖掘原理與算法[M].北京：中國水利水電出版社，2003.

[4]劉同明.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].北京：國防工業(yè)出版社，2001.

[5]C.Gerior.Software Data mining.DATAMATION，1996.

[6]任承業(yè).校園信息系統(tǒng)中數(shù)據(jù)挖掘的研究與應(yīng)用[J].2003.

[7]陶蘭，王寶迎，呂建軍.數(shù)據(jù)挖掘技術(shù)在高等學(xué)校決策支持中的應(yīng)用[J].中國農(nóng)業(yè)大學(xué)學(xué)報，2003（1）：82-84.

作者簡介