李門樓,郭 嘉
(中國地質大學 研究生院,武漢 430074)
基于數據挖掘技術的研究生信息庫數據的研究及應用
李門樓,郭嘉
(中國地質大學研究生院,武漢 430074)
論文結合D大學研究生信息與管理系統應用的實際情況和迫切需求,針對“海量數據信息嚴重浪費,亟待挖掘其潛在有用信息”這一現實問題,對D大學研究生信息與管理系統多年來積累的信息數據進行深入研究與探討,運用數據挖掘原理,對研究生選課數據、研究生科研及成績數據、研究生畢業單位信息數據進行有效挖掘,以期得到所隱藏的有價值信息,從而指導教學管理和學生的學習方向,繼而提高教學管理水平和研究生培養質量,更好更有效地為研究生的成長和發展服務。
管理信息系統;關聯規則;決策樹;Apriori;C4.5
數據挖掘,簡單的說,就是從大量數據中提取或者“挖掘”有用的知識,是指利用特定的算法從數據庫中提取或者挖掘出潛在的、未被人知的有應用價值的信息。從學校教育角度來說,它是教育信息化建設的發展帶來的產物,是新的信息數據處理技術,其功能和任務是對教育機構的信息數據庫進行潛在信息數據的抽取、轉化、模型化處理、結果分析等,從中獲得有助于教育決策的潛在信息。但目前大部分學校都存在一個普遍的問題:學校多年來積累了海量的數據,可是其中所隱藏有價值的信息,卻知之甚少,所以從教育的角度出發,需要把這些隱藏信息從中挖掘出來,使它們經深層次的挖掘和分析,為教育決策提供更多的有價值信息。
數據挖掘是從大量的數據中挖掘有價值信息的一個過程,有時候又稱為知識發現(Knowledge Discovery in Database)。本文借鑒研究常見的兩種方法。
2.1關聯規則
關聯規則是反映一個事物與其他事物之間的相互依存性和關聯性。如果兩個或者多個事物之間存在一定的關聯關系,那么,其中一個事物就能夠通過其他事物預測到。關聯規則表示了項之間的關系。典型算法是Aprior算法。
2.2決策樹方法
決策樹方法是建立在信息論基礎上的一種對數據進行分類的方法。決策樹一般都是自上而下的來生成的。任意一個結點的狀態(即代表決策或者事件)都有可能產生兩個或者多個狀態(決策或者事件),并最終發展成為各不相同的結果。把決策的分支表示成為圖形,這個圖形看起來很像一棵倒立的樹。典型算法是C4.5算法。
3.1數據篩選
本次研究實驗所選取的是D大學09級研究生的英語成績數據,利用數據庫技術將多個數據表進行整合,合并成研究所需要的一個成績數據。
首先:運用Sql數據庫中的視圖技術,從研究生成績庫、學籍庫和課程庫中選取所需字段(課程名稱kcbmc、學號xh、成績cj、姓名name),抽取900條數據生成09級研究生的英語聽力、英語口語、英語閱讀三門課程的成績數據視圖。
其次,對以上三張數據表進行表的連接,生成一張成績數據分析表(apriori_data_09碩士英語),這個數據表只包含學號(xh)、口語(ky)、聽力(tl)、閱讀(yd)四個數據字段。
對于缺考或無效的學生成績給予去除處理。
3.2數據轉換
把待挖掘數據表中數據字段的格式轉換為邏輯布爾型(真和假),將數據字段中成績大于等于80分的字段設置為“真”,即在數據中顯示;反之設置為“假”,在數據中不顯示。例如:某項中英語口語/聽力/閱讀成績字段中的值如果大于等于80,則該項中會出現“1”/“2”/“3”,反之,則為空。
3.3 Apriori算法應用
實驗所用的數據是09級研究生成績庫中的英語聽力、閱讀、口語三門課程的成績數據,經過上述選擇和篩選,生成了Apriori算法程序中所用到的待挖掘分析數據表apriori_data文件,如表1所示。

表1 apriori_data數據表
對上述apriori_data數據表中891條記錄事務集,設置其最小支持度為 0.2,置信度為 0.5,應用 Apriori算法程序對apriori_data數據表中的聽力、口語、閱讀成績進行關聯規則數據挖掘,如圖1所示。

圖1關聯規則數據挖掘
結果如圖2所示。

圖2挖掘分析結果
頻繁項集I={英語口語成績,聽力成績,閱讀成績}= {1,2,3}的非空子集有{1,2},{1,3},{2,3},{1},{2}和{3}。由I產生的關聯規則及其置信度如下:

找出滿足最小置信度閾值50%的規則,最終產生的強關聯規則如下:
A.當1良好,2、3同時良好的可能性大于86.7%。即:當英語口語成績良好(達到80分以上)時,英語聽力和閱讀同時良好(達到80分以上)的可能性大于86.7%。
B.當2良好,1、3同時良好的可能性大于54.5%。即:當英語聽力成績良好(達到80分以上)時,英語口語和閱讀同時良好(達到80分以上)的可能性大于54.5%。
從上述挖掘結果來看,可以得到一些潛在的關聯:強關聯規則A說明英語口語對英語聽力和閱讀兩門課程成績有重大影響,也就是說口語能力不強的學生,英語聽力和閱讀相對會差一些。這一點就給出了我們一個信號,即在開設英語課程中,要著重考慮安排英語口語課程的課時多些,這樣可以無形中帶動學生英語聽力和閱讀的能力提高。同理,根據上面的強關聯規則B可以得到如下潛在信息,即說明英語聽力對英語口語和閱讀兩門課程成績有重大影響,也就是說聽力能力不強的學生,英語口語和閱讀相對會差一些,這就給出了一個信號,即在開設英語課程中,要著重考慮安排英語聽力課程的課時多些,這樣可以無形中帶動學生英語口語和閱讀的能力提高。
4.1建立模型
挖掘內容確定為:學生基本信息、成績信息、家庭背景信息、科研成果信息、就業情況信息五個方面。主要字段分別為如下幾類。學生基本信息包括:學號、性別、政治面貌。家庭背景信息主要包括家庭基本情況一項信息,即分為兩類:一類是農民、下崗工人;二類是公務員、工人、職工、商人等。學生成績信息包括:學業成績績點、英語專業水平。科研成果信息包括:助研情況、論文發表情況。就業信息包括:就業單位性質。
4.2數據提取及離散歸約化
4.2.1提取
挖掘信息需要從信息系統多個模塊中提取整理,分別從如下數據庫中提取:
英語水平(視圖 lunwen_cet表)、助研情況(視圖lunwen_zhuyan表)、論文發表情況(lunwen_publish表)、學業成績(lunwen_cj表)、家庭情況(lunwen_family表)、學生基本信息(users表)、就業單位信息(lunwen_jyxx表)。
4.2.2處理
為了便于挖掘還需對挖掘字段進行一些必要的處理過程,即要對各屬性字段進行歸約與離散化處理。處理規則如下表2所示。

表2對挖掘字段的處理規則
按照上述標準對原始記錄處理后,得到如下表3所示。

表3原始記錄數據處理結果
4.3結果分析
對以上得出的挖掘數據結果分析,可以得出各因素所在的Variable Importance比例分別是:CET:0.436、XB:0.298、CJ:0.153、PAPER:0.054、ZZMM:0.025、FAMILY:0.022、ZHUYAN:0.012,從這些數據可以得出如下結論:
(1)在對就業單位性質JYDWXZ有影響的八大因素:英語水平CET、性別XB、學業成績績點CJ、論文發表情況PAPER、政治面貌ZZMM、家庭情況FAMILY、助研情況ZHUYAN中,其中英語水平CET是就業單位性質JYDWXZ的最主要的影響因素;其次是性別XB因素;再其次依次是成績CJ因素、發表論文情況PAPER因素、政治面貌ZZMM因素、家庭情況FAMILY因素,最后是助研統計情況ZHUYAN因素。
(2)從就業的角度考慮,那么發表論文情況PAPER因素便顯得影響很小,起不到決定的因素作用,所以各高校近年相繼做出了“取消以發表論文作為碩士研究生畢業條件”的決定,本研究從理論和數據上證明了這一決定的重要性。
(3)英語水平CET在影響就業單位性質JYDWXZ中仍然占主導作用,說明加強英語水平的訓練,對于當代研究生的教育培養仍然是一項重中之重的任務。
(4)從得出的結果可以看出,性別XB因素在就業中仍然占有比較大的分量,雖然國家頒發了很多關于在就業過程中嚴禁性別歧視的規定,可在實際的招聘過程中仍然存在性別歧視的現象。
本文中運用關聯規則方法對學生成績庫進行挖掘作業,找到課程之間存在的潛在聯系,為今后合理設置課程安排提供有效的數據支撐;同時運用決策樹技術對學生就業、學籍、成績、科研數據信息庫進行挖掘作業,總結影響學生就業的關鍵因素,分析其原因,為培養適應社會發展需要的高學歷人才制定更加合理的培養方案提供決策支持。
主要參考文獻
[1]李門樓,郭嘉.研究生教育管理信息化的實踐與思考[J].研究生教育研究,2011(3).
[2]廖芹,赫志峰,陳志宏.數據挖掘與數學建模[M].北京:國防工業出版社,2010.
[3][加]Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2007.
[3]李婷,傅鋼善.國內外教育數據挖掘研究現狀及趨勢分析[J].現代教育技術,2010(10).
10.3969/j.issn.1673-0194.2016.11.099
C37
A
1673-0194(2016)11-0164-04
2016-04-08