999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關聯規則在學生助學系統中的應用研究

2012-04-29 08:48:09周麗娜李劍
考試周刊 2012年62期
關鍵詞:數據挖掘關聯規則

周麗娜 李劍

摘要: 高等教育體制改革的不斷深入和發展促進了我國高等教育規模不斷擴大,高校學生人數逐年增加,由此積累的大量助學信息亟須分析整合。關聯規則是數據挖掘的一個重要分支,主要側重于確定數據庫中不同領域間的聯系,找出滿足給定支持度和置信度的多個域之間的依賴關系,能為幫困助學數據分析提供很好的技術支持。本文就是通過對數據挖掘和關聯規則的研究,對家庭經濟困難學生在校期間的綜合表現與就業去向進行關聯,從中得到輔助學校學工部門有針對性地開展幫困助學工作的建議。

關鍵詞: 數據挖掘關聯規則學生助學系統

1.引言

隨著我國高等教育體制改革的不斷深入和發展,全國高等教育在學總人數已逾千萬,這標志著我國高等教育進入了國際公認的大眾化發展階段。在招生規模不斷擴大的同時,家庭經濟困難學生的問題日益突出。經濟有困難的學生能否順利入學并完成學業,已成為社會普遍關心的問題。

為解決家庭經濟困難學生的學習問題,政府和高校經過多年的努力,建立起一套以國家助學貸款為主體的高校貧困學生資助政策體系。國家從2000年開始推行國家助學貸款制度,經過這些年的工作,各高校學生工作部門都積累了大量與貸款學生有關的原始數據,包括學生的基本信息、在校期間的文化課成績信息、獲獎助學金信息、參加學校的勤工助學的工作情況信息及就業去向信息等,而且這些數據會隨著學校招生規模的不斷擴大、辦學時間的增長而繼續增加。

2.關聯規則

2.1數據挖掘與關聯規則。

數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。數據挖掘最早出現在第11屆國際聯合人工智能學術會議上,它又被稱為數據庫中的知識發現,就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單地說,數據挖掘就是從大量數據中提取或“挖掘”知識。

數據挖掘功能用于指定數據挖掘任務中要找的模式類型。一般地,數據挖掘任務可以分兩類:描述和預測。描述性挖掘任務刻畫數據庫中數據的一般特性;預測性挖掘任務在當前數據上進行推斷,以進行預測。

數據挖掘在學生的招生與就業工作中發揮著作用。有學者通過對歷年的招生信息的分析研究,提出了修改招生計劃的指導意見,變被動招生為主動招生。在就業工作方面,也有人通過對歷年學生的在校表現和就業情況進行綜合分析,提出有相應的分類指導意見。

關聯規則是數據挖掘的一個重要分支,最初其研究對象為交易數據庫,主要目的就是發現交易數據庫中交易項目之間是否存在某種關系,后來又推廣到關系型數據庫,主要目的是從數據庫中挖掘出項集之間的關聯規則。規則的支持度和置信度是規則興趣度的兩種度量。

關聯規則的挖掘主要包括以下兩個主要過程:首先是找出所有頻繁項集,這些項集出現的頻率至少和預定義的最小支持計數一樣。其次是由頻繁項集產生強關聯規則:找出的關聯規則必須滿足最小支持度和最小置信度。

2.2關聯規則分類。

根據分類的標準不同,關聯規則可以有以下幾種分類方式:基于規則中處理的變量類別分類、基于規則中數據的抽象層次分類和基于規則中涉及的數據維數分類。

根據規則中處理的變量的值,可以將規則分為布爾關聯規則和量化關聯規則。布爾型關聯規則顯示了這些變量之間的關系,而量化關聯規則通常是在處理數值型數據時對數值進行分段量化得來的。根據規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則,兩者的區別在于是否涉及不同層次的數據項。如果不涉及不同層次的數據項,得到的是單層關聯規則。在不同抽象層次中挖掘出的關聯規則稱為多層關聯規則。根據關聯規則所涉及的數據維數不同,可以分為單維關聯規則和多維關聯規則。如果關聯規則各項僅涉及一個維度,則稱之為單維關聯規則。如果關聯規則涉及兩個或兩個以上維度,則稱之為多維關聯規則。

3.助學系統關聯規則挖掘

通過開展助學工作,學校已基本形成了助學貸款、獎學金、困難補助、勤工助學和社會助學等五大幫困助學措施,同時也積累了相當多的與助學有關的信息。通過初步分析,可能影響學生就業的諸方面因素有:學生的獎學金獲得情況、貸款額度、勤工助學表現、學歷、專業,等等。助學系統關聯規則挖掘就是希望對以上因素進行分析,找到一些有實際指導意義的規則。整個助學系統數據挖掘大體上分成數據的搜集、清理、集成、變換等預處理工作和關聯規則挖掘工作。

3.1助學系統數據預處理。

3.1.1數據采集

助學系統涉及學校的多個部門,如學生處負責管理獎學金評定等;招生與就業指導辦公室負責管理學生的生源信息和就業信息;財務處負責管理學生的助學貸款信息等;教務處負責管理學生的學籍信息和成績信息等。勤工助學因為涉及多個部門,由設置勤工助學崗位的部門或學院負責對學生的日常考核,匯總工作則由學生處負責完成。

3.1.2數據清理

收集到的學校學生信息有其自身的特點:數據比較完整、數據值的可信度比較高,但是由于有些原始數據是由人工處理完成的,空值的出現不可避免。比如就業信息表中,就有部分記錄信息不完整。通常正常畢業的學生采集的數據基本上比較完整,而對于休學、延學、參軍、結業等不能按時完成學業的學生來說,就業系統中只會保存他們的一些最基本信息。對于這些空值可以考慮將這些信息從就業信息表中移除出去或用約定方法進行數據填充。

同時由于各部門處理數據的側重點、操作人員的處理習慣等各有不同,造成即使是相同的信息也會出現不同表示。例如同樣是表示專業名稱信息,有些部門使用專業名稱全稱,而有些則使用簡稱。對于這樣的情況,可以通過給出標準數據,將其他數據統一改寫成標準數據形式。

3.1.3數據集成

數據集成則是將多個數據源中的數據結合、存放在一個一致的數據存儲中。將多個數據源中的數據集成起來,能夠減少或避免結果數據集中數據的冗余和不一致性。由于歷史和技術普及等多方面的原因,造成數據存儲有多種形式。比如就業信息多以DBF文件格式存儲,而在學校內部,辦公處理軟件的使用率比較高,多數老師習慣于將數據以Excel電子表格或Word文檔形式進行保存。助學系統數據挖掘所處理的數據也是以上述幾種格式為主。在進行數據挖掘前需要對這些以不同形式存儲的數據進行處理,轉換成單一形式。

3.1.4數據轉換

數據轉換就是將數據轉換或歸并已構成一個適合數據挖掘的描述形式,用更抽象、更高層次的概念來取代低層次或數據層的數據對象,將有關屬性數據按比例投影到特定小范圍之中。助學系統的各數據表的屬性通常有大量的不同的屬性值,這時就應當進行進一步概化。

如學生貸款信息中“貸款金額”,該屬性就存在大量不同的值,貸款金額在很大程度上反映了學生的家庭經濟狀況。為了使該信息適用于數據挖掘,就需要對年均貸款額進行概化。在助學系統數據挖掘中,要找出學生在校表現與就業信息的關聯,就離不開就業單位信息。但是學生的就業單位重復率低,存在大量不同的就業單位信息。在挖掘中就不能直接使用就業單位信息,將就業單位按性質進行分類后該數據就比較適合進行數據挖掘了。除了上面提到的一些需要概化處理的信息外,還有勤工助學考核信息、專業信息、生源地、就業地、成績、性別和本專科類別等也需要加以處理。

3.2生成關聯規則。

對數據進行清理和轉換后,再通過“學號”匹配可以將助學系統的各數據表連接成信息總表,這時的數據可以更為有效地進行關聯規則數據挖掘。

關聯規則的生成是整個系統的核心工作。應用數據挖掘技術對收集的助學系統數據進行挖掘分析,可以發現隱藏在數據中的有用的知識,并將其提取出來供學校和相關教師參考。經典Apriori算法的基本思想將關聯規則的生成大體上劃分成了兩步:產生頻繁集和生成強關聯規則。

在搜索頻繁k項集時,首先要找出頻繁1項集。在完成對數據的預處理后,求取頻繁1項集只需簡單地掃描信息總表,對每個項的出現次數計數,生成候選1項集。再通過設置最小支持度計數,篩選生成頻繁1項集。找到頻繁1項集后,通過將頻繁1項集與自己進行連接生成候選2項集。再對得到的候選2項集的出現進行計次,滿足最小支持度計數的予以保留,生成頻繁2項集。依此類推生成頻繁k項集。當頻繁k項集生成以后,對于任意一個頻繁k項集,找出其中所有可能的真子集,作為關聯規則的前件,計算相應規則的置信度。當某一規則的置信度大于給定的最小置信度時,輸出該規則。

3.3規則分析。

通過挖掘系統生成的規則,首先需進行符號轉換,將之前預處理時編碼化的數據還原成原始信息。得到轉換后的規則應該進行理解和分析。通過初步分析,挖掘出的規則大致可以分成符合預先設想的和之前未被發現的兩類。

例如曾獲得過獎學金并且貸款額度中等的學生比未獲獎學金且貸款額度中的支持度小,說明前者的人數較后者少;同時前者的置信度高說明獲得獎學金的同學有更多的就業機會。這些都符合先驗知識。而有些規則無法用先驗知識解釋,比如同樣是參加勤工助學活動,在寧波女生就業比例比男生高。這從一個側面說明女生同男生相比,更傾向于在自己熟悉的環境中就業。

4.結語

本文以寧波工程學院助學系統為依托,深入開展了關聯規則數據挖掘工作。首先,完成了助學系統的數據預處理。通過對原始數據的清理、集成和轉換,將這些數據初步加工成適用于關聯規則挖掘的數據。其次,完成關聯規則挖掘算法的實現,建立針對以上預處理數據的關聯規則挖掘系統,在引入挖掘原始數據后進行數據挖掘。最后,利用挖掘系統對收集的數據進行關聯分析,生成關聯規則。學生通過對關聯規則的理解和分析,產生對貧困生就業有指導性價值的意見。

參考文獻:

[1]R.Agrawal,R.Srikant.Fast Algorithms for Mining Association Rules[C].In:Proceedings of the 20th International Conference on Very Large Databases.Santiago,Chile,1994:487-499.

[2]Jiawei Han,Micheline Kamber.范明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2001.

[3]王登.數據挖掘技術及其在高校素質教育應用中的探討[J].現在電子技術,2007,4:95-97.

[4]劉鵬,孫莉,趙潔,等.數據挖掘技術在高校人力資源管理中的應用研究[J].計算機工程與應用,2008,44(10):201-233.

[5]康振華,趙燕麗,周金剛.數據挖掘在高校就業工作中的應用研究[J].中國科教創新導刊,2007,474:86-87.

基金項目:寧波市教育科學規劃課題2009-46。

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 在线亚洲精品自拍| 欧美精品啪啪| 亚洲精品午夜无码电影网| 18禁高潮出水呻吟娇喘蜜芽| 国产精品久久久久久搜索| 免费无码又爽又黄又刺激网站| 国产麻豆精品手机在线观看| 国产精品成人一区二区| 在线观看无码a∨| 2020极品精品国产| 国产免费久久精品99re丫丫一| 久久窝窝国产精品午夜看片| 亚洲国产综合精品中文第一| 亚洲乱码在线播放| 日韩在线观看网站| 欧美人与牲动交a欧美精品| 欧美一区二区精品久久久| 无码福利日韩神码福利片| 欧美另类第一页| 亚洲天堂久久| 亚洲成a人在线观看| 99免费在线观看视频| 精品国产中文一级毛片在线看| 97在线视频免费观看| 国产精品午夜电影| 成人日韩精品| 无码中文字幕加勒比高清| 日韩AV无码一区| 国产无遮挡裸体免费视频| 国产成人凹凸视频在线| 国产成人久久综合777777麻豆| 最新日韩AV网址在线观看| 91人妻在线视频| 视频一区亚洲| 国产99视频精品免费视频7| av性天堂网| 狠狠做深爱婷婷综合一区| 国内精品伊人久久久久7777人| 在线欧美国产| 狠狠操夜夜爽| 91麻豆久久久| 国产黄色片在线看| 喷潮白浆直流在线播放| 欲色天天综合网| 欧美成人午夜在线全部免费| 亚洲最黄视频| 91av成人日本不卡三区| 99热这里只有精品免费国产| 欧美视频在线不卡| 国产免费怡红院视频| 人妻精品全国免费视频| 九九热这里只有国产精品| 精品视频一区二区三区在线播| 亚洲成人网在线播放| 在线不卡免费视频| 91精品久久久无码中文字幕vr| 男女男免费视频网站国产| 91青青草视频| 亚洲自拍另类| 91在线无码精品秘九色APP| 久久婷婷六月| 色综合久久综合网| 日韩无码黄色| 香蕉久久国产精品免| 国产欧美日韩在线在线不卡视频| 国产一级视频在线观看网站| 毛片免费视频| 国产91透明丝袜美腿在线| 毛片免费试看| 国产精品女熟高潮视频| 国产毛片一区| 国产乱子伦一区二区=| 久久综合色天堂av| 成人另类稀缺在线观看| 亚洲有无码中文网| 久久精品波多野结衣| 福利国产微拍广场一区视频在线| 一本二本三本不卡无码| 三级欧美在线| 另类专区亚洲| 毛片网站免费在线观看| 国产精品一区不卡|