999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘技術的研究生信息庫數據的研究及應用

2016-08-05 03:19:46李門樓
中國管理信息化 2016年11期
關鍵詞:英語口語數據挖掘關聯

李門樓,郭 嘉

(中國地質大學 研究生院,武漢 430074)

基于數據挖掘技術的研究生信息庫數據的研究及應用

李門樓,郭嘉

(中國地質大學研究生院,武漢 430074)

論文結合D大學研究生信息與管理系統應用的實際情況和迫切需求,針對“海量數據信息嚴重浪費,亟待挖掘其潛在有用信息”這一現實問題,對D大學研究生信息與管理系統多年來積累的信息數據進行深入研究與探討,運用數據挖掘原理,對研究生選課數據、研究生科研及成績數據、研究生畢業單位信息數據進行有效挖掘,以期得到所隱藏的有價值信息,從而指導教學管理和學生的學習方向,繼而提高教學管理水平和研究生培養質量,更好更有效地為研究生的成長和發展服務。

管理信息系統;關聯規則;決策樹;Apriori;C4.5

1 引言

數據挖掘,簡單的說,就是從大量數據中提取或者“挖掘”有用的知識,是指利用特定的算法從數據庫中提取或者挖掘出潛在的、未被人知的有應用價值的信息。從學校教育角度來說,它是教育信息化建設的發展帶來的產物,是新的信息數據處理技術,其功能和任務是對教育機構的信息數據庫進行潛在信息數據的抽取、轉化、模型化處理、結果分析等,從中獲得有助于教育決策的潛在信息。但目前大部分學校都存在一個普遍的問題:學校多年來積累了海量的數據,可是其中所隱藏有價值的信息,卻知之甚少,所以從教育的角度出發,需要把這些隱藏信息從中挖掘出來,使它們經深層次的挖掘和分析,為教育決策提供更多的有價值信息。

2 數據挖掘方法概要

數據挖掘是從大量的數據中挖掘有價值信息的一個過程,有時候又稱為知識發現(Knowledge Discovery in Database)。本文借鑒研究常見的兩種方法。

2.1關聯規則

關聯規則是反映一個事物與其他事物之間的相互依存性和關聯性。如果兩個或者多個事物之間存在一定的關聯關系,那么,其中一個事物就能夠通過其他事物預測到。關聯規則表示了項之間的關系。典型算法是Aprior算法。

2.2決策樹方法

決策樹方法是建立在信息論基礎上的一種對數據進行分類的方法。決策樹一般都是自上而下的來生成的。任意一個結點的狀態(即代表決策或者事件)都有可能產生兩個或者多個狀態(決策或者事件),并最終發展成為各不相同的結果。把決策的分支表示成為圖形,這個圖形看起來很像一棵倒立的樹。典型算法是C4.5算法。

3 關聯規則在研究生信息庫中的研究及應用

3.1數據篩選

本次研究實驗所選取的是D大學09級研究生的英語成績數據,利用數據庫技術將多個數據表進行整合,合并成研究所需要的一個成績數據。

首先:運用Sql數據庫中的視圖技術,從研究生成績庫、學籍庫和課程庫中選取所需字段(課程名稱kcbmc、學號xh、成績cj、姓名name),抽取900條數據生成09級研究生的英語聽力、英語口語、英語閱讀三門課程的成績數據視圖。

其次,對以上三張數據表進行表的連接,生成一張成績數據分析表(apriori_data_09碩士英語),這個數據表只包含學號(xh)、口語(ky)、聽力(tl)、閱讀(yd)四個數據字段。

對于缺考或無效的學生成績給予去除處理。

3.2數據轉換

把待挖掘數據表中數據字段的格式轉換為邏輯布爾型(真和假),將數據字段中成績大于等于80分的字段設置為“真”,即在數據中顯示;反之設置為“假”,在數據中不顯示。例如:某項中英語口語/聽力/閱讀成績字段中的值如果大于等于80,則該項中會出現“1”/“2”/“3”,反之,則為空。

3.3 Apriori算法應用

實驗所用的數據是09級研究生成績庫中的英語聽力、閱讀、口語三門課程的成績數據,經過上述選擇和篩選,生成了Apriori算法程序中所用到的待挖掘分析數據表apriori_data文件,如表1所示。

表1 apriori_data數據表

對上述apriori_data數據表中891條記錄事務集,設置其最小支持度為 0.2,置信度為 0.5,應用 Apriori算法程序對apriori_data數據表中的聽力、口語、閱讀成績進行關聯規則數據挖掘,如圖1所示。

圖1關聯規則數據挖掘

結果如圖2所示。

圖2挖掘分析結果

頻繁項集I={英語口語成績,聽力成績,閱讀成績}= {1,2,3}的非空子集有{1,2},{1,3},{2,3},{1},{2}和{3}。由I產生的關聯規則及其置信度如下:

找出滿足最小置信度閾值50%的規則,最終產生的強關聯規則如下:

A.當1良好,2、3同時良好的可能性大于86.7%。即:當英語口語成績良好(達到80分以上)時,英語聽力和閱讀同時良好(達到80分以上)的可能性大于86.7%。

B.當2良好,1、3同時良好的可能性大于54.5%。即:當英語聽力成績良好(達到80分以上)時,英語口語和閱讀同時良好(達到80分以上)的可能性大于54.5%。

從上述挖掘結果來看,可以得到一些潛在的關聯:強關聯規則A說明英語口語對英語聽力和閱讀兩門課程成績有重大影響,也就是說口語能力不強的學生,英語聽力和閱讀相對會差一些。這一點就給出了我們一個信號,即在開設英語課程中,要著重考慮安排英語口語課程的課時多些,這樣可以無形中帶動學生英語聽力和閱讀的能力提高。同理,根據上面的強關聯規則B可以得到如下潛在信息,即說明英語聽力對英語口語和閱讀兩門課程成績有重大影響,也就是說聽力能力不強的學生,英語口語和閱讀相對會差一些,這就給出了一個信號,即在開設英語課程中,要著重考慮安排英語聽力課程的課時多些,這樣可以無形中帶動學生英語口語和閱讀的能力提高。

4 應用C4 .5 算法決策樹技術挖掘研究生信息數據庫

4.1建立模型

挖掘內容確定為:學生基本信息、成績信息、家庭背景信息、科研成果信息、就業情況信息五個方面。主要字段分別為如下幾類。學生基本信息包括:學號、性別、政治面貌。家庭背景信息主要包括家庭基本情況一項信息,即分為兩類:一類是農民、下崗工人;二類是公務員、工人、職工、商人等。學生成績信息包括:學業成績績點、英語專業水平。科研成果信息包括:助研情況、論文發表情況。就業信息包括:就業單位性質。

4.2數據提取及離散歸約化

4.2.1提取

挖掘信息需要從信息系統多個模塊中提取整理,分別從如下數據庫中提取:

英語水平(視圖 lunwen_cet表)、助研情況(視圖lunwen_zhuyan表)、論文發表情況(lunwen_publish表)、學業成績(lunwen_cj表)、家庭情況(lunwen_family表)、學生基本信息(users表)、就業單位信息(lunwen_jyxx表)。

4.2.2處理

為了便于挖掘還需對挖掘字段進行一些必要的處理過程,即要對各屬性字段進行歸約與離散化處理。處理規則如下表2所示。

表2對挖掘字段的處理規則

按照上述標準對原始記錄處理后,得到如下表3所示。

表3原始記錄數據處理結果

4.3結果分析

對以上得出的挖掘數據結果分析,可以得出各因素所在的Variable Importance比例分別是:CET:0.436、XB:0.298、CJ:0.153、PAPER:0.054、ZZMM:0.025、FAMILY:0.022、ZHUYAN:0.012,從這些數據可以得出如下結論:

(1)在對就業單位性質JYDWXZ有影響的八大因素:英語水平CET、性別XB、學業成績績點CJ、論文發表情況PAPER、政治面貌ZZMM、家庭情況FAMILY、助研情況ZHUYAN中,其中英語水平CET是就業單位性質JYDWXZ的最主要的影響因素;其次是性別XB因素;再其次依次是成績CJ因素、發表論文情況PAPER因素、政治面貌ZZMM因素、家庭情況FAMILY因素,最后是助研統計情況ZHUYAN因素。

(2)從就業的角度考慮,那么發表論文情況PAPER因素便顯得影響很小,起不到決定的因素作用,所以各高校近年相繼做出了“取消以發表論文作為碩士研究生畢業條件”的決定,本研究從理論和數據上證明了這一決定的重要性。

(3)英語水平CET在影響就業單位性質JYDWXZ中仍然占主導作用,說明加強英語水平的訓練,對于當代研究生的教育培養仍然是一項重中之重的任務。

(4)從得出的結果可以看出,性別XB因素在就業中仍然占有比較大的分量,雖然國家頒發了很多關于在就業過程中嚴禁性別歧視的規定,可在實際的招聘過程中仍然存在性別歧視的現象。

5 結語

本文中運用關聯規則方法對學生成績庫進行挖掘作業,找到課程之間存在的潛在聯系,為今后合理設置課程安排提供有效的數據支撐;同時運用決策樹技術對學生就業、學籍、成績、科研數據信息庫進行挖掘作業,總結影響學生就業的關鍵因素,分析其原因,為培養適應社會發展需要的高學歷人才制定更加合理的培養方案提供決策支持。

主要參考文獻

[1]李門樓,郭嘉.研究生教育管理信息化的實踐與思考[J].研究生教育研究,2011(3).

[2]廖芹,赫志峰,陳志宏.數據挖掘與數學建模[M].北京:國防工業出版社,2010.

[3][加]Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2007.

[3]李婷,傅鋼善.國內外教育數據挖掘研究現狀及趨勢分析[J].現代教育技術,2010(10).

10.3969/j.issn.1673-0194.2016.11.099

C37

A

1673-0194(2016)11-0164-04

2016-04-08

猜你喜歡
英語口語數據挖掘關聯
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
探討人工智能與數據挖掘發展趨勢
奇趣搭配
初中英語口語教學的反思與創新
高中英語口語教學研究
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于Hadoop的大數據挖掘云服務及應用
如何加強及應用英語口語教學
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 丁香五月婷婷激情基地| 欧美日韩理论| 在线精品亚洲一区二区古装| 国产欧美日韩视频怡春院| 91年精品国产福利线观看久久| 欧美一级在线| 狠狠亚洲五月天| 中文字幕在线欧美| 久久午夜夜伦鲁鲁片不卡| 亚洲国产精品无码AV| 国产麻豆精品久久一二三| 久久中文字幕不卡一二区| 欧美成在线视频| 日本午夜网站| 日韩精品中文字幕一区三区| 色婷婷丁香| 久久不卡国产精品无码| 一级高清毛片免费a级高清毛片| www成人国产在线观看网站| 欧美日韩另类在线| 亚洲中文无码av永久伊人| 国产日韩精品一区在线不卡 | 精品国产成人a在线观看| 伊人国产无码高清视频| 亚洲V日韩V无码一区二区| 亚洲欧洲日韩久久狠狠爱| 91久久大香线蕉| 亚洲中文字幕国产av| 国产日本一线在线观看免费| 午夜精品区| 亚洲精品日产AⅤ| 天天综合网亚洲网站| 亚洲欧洲一区二区三区| 欧美视频在线第一页| 国产成人精品优优av| 黄色免费在线网址| 一级黄色欧美| 久久久久亚洲精品无码网站| 亚洲乱码在线播放| 精品福利视频网| 四虎影视8848永久精品| 久久综合成人| 婷婷综合亚洲| 久久久噜噜噜| 99精品免费在线| 高潮毛片免费观看| 99精品国产自在现线观看| 天天色天天操综合网| 中文字幕在线永久在线视频2020| 国产人碰人摸人爱免费视频| 日韩 欧美 国产 精品 综合| 成年人午夜免费视频| 国产日韩欧美黄色片免费观看| 尤物精品视频一区二区三区| 在线中文字幕网| 日韩精品无码不卡无码| 五月婷婷综合网| 国产成人a毛片在线| 丁香六月激情婷婷| 亚洲天堂日韩av电影| 香蕉久人久人青草青草| 午夜啪啪福利| 夜夜操国产| 亚洲bt欧美bt精品| 一级一级一片免费| 国产毛片网站| 日韩国产欧美精品在线| 亚洲不卡无码av中文字幕| 欧美日韩在线成人| 日韩无码黄色网站| 狠狠色香婷婷久久亚洲精品| 国产区精品高清在线观看| 91国语视频| 日韩在线欧美在线| www.youjizz.com久久| 在线欧美日韩| 色婷婷综合激情视频免费看| 一区二区三区在线不卡免费| 色综合成人| 亚洲香蕉在线| 国产美女主播一级成人毛片| 十八禁美女裸体网站|