999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹算法在高校學生就業分析中的應用研究

2016-11-14 03:27:51張永雄余丙軍鄧志虹
現代計算機 2016年29期
關鍵詞:分類信息

張永雄,余丙軍,鄧志虹

(1.廣州工商學院經濟貿易系,廣州 510850;2.華南理工大學計算中心,廣州 510641)

決策樹算法在高校學生就業分析中的應用研究

張永雄1,余丙軍2,鄧志虹1

(1.廣州工商學院經濟貿易系,廣州510850;2.華南理工大學計算中心,廣州510641)

隨著大數據分析技術的快速發展,對于高校就業信息的海量數據,如何有效地利用這些數據,發掘有價值的知識,是目前高校研究的熱點課題。提出一種利用決策樹算法分析就業信息的方法,并通過實例驗證其可行性,為高校決策部門改進教學管理提供有價值的參考方案。

決策樹;信息增益;準確率

2015廣東省青年創新人才類項目(No.2015WQNCX160)

0 引言

近年來,全球經濟面臨下行壓力,隨著高校招生規模的擴大,會導致畢業生就業形勢不樂觀,畢業生就業方式變得自主化和多元化。如何充分利用過去畢業生的就業信息資源,來挖掘有價值的信息,使得高校相關部門做出正確的決策,是目前高校研究的熱門課題。盡管數據挖掘技術在商業界上的應用取得了顯著的效果,但在教育界上的應用卻比較少。本文利用決策樹算法對電子商務專業畢業生的就業信息進行分析,找出影響畢業生就業的主要因素及其之間的關系,為高校決策部門提供一種數據分析的可行方案。

1 分類分析與決策樹算法

1.1分類分析的概述

分類就是要把一個事件或對象劃定到給定的類別上。例如,小額貸款公司可以根據收入水平、工作情況和教育程度等信息給客戶進行信用風險的分析,確定客戶的風險等級。分類的過程一般是包含兩個步驟:首先,分析已有的數據,建立一個分類的模型以描述數據屬性與類別之間的對應關系;其次,利用所獲得的分類模型對新數據進行類別預測。

在分類分析過程中,對于分類模型準確率的分析是必不可少的。要使得一個分類模型被認可,那么分類模型的準確率必須要符合規定的要求。

1.2決策樹算法

決策樹是一個類似流程圖的樹形結構[1],決策樹分類方法以樹的形式采用自上而下的方式給出分類規則。決策樹包含兩類節點:內部節點和葉子節點。其中,每個內部節點代表對一個屬性的測試,該屬性是分裂屬性,這是由于根據該屬性的不同取值可以把數據分成不同的部分。

使用決策樹方法一般分為兩個階段:一是決策樹構建;二是決策樹剪枝。決策樹構建是指訓練集得到一個基礎的樹形結構。但是,在決策樹構建的過程中,會有許多由噪聲或異常數據所產生的分枝。因此,決策樹減枝就是識別并消除這些分枝,提高分類的準確性。

本文采用信息增益方法的決策樹。信息論認為:一個信息所表達的信息量取決于它的概率p,并且可以用-log2(p)表示其包含的信息量[2]。

定義1 假設|T|是表示數據集T的記錄總數,f(Ci,T)表示數據集中屬于類別Ci的記錄總數,則:

定義2假設數據集T中的屬性D有k個不同的取值,那么可以把數據集T分為k個子集T1,T2,…,TK,則該屬性D的平均信息量為:

定義3根據屬性D對數據集T的劃分,信息增益為:

構建決策樹的基本過程是[3]:創建一個節點N,如果該節點中的所有樣本均為同一個類別C,那么返回N作為一個葉子節點,并標記為類別C;如果候選集為空,那么返回N作為一個葉子節點并標記為默認類別C_default。從候選屬性集中選擇最優分裂屬性D,把節點N標記為D,然后從候選集中刪除D,對于D中的每一個取值,都要建立測試分枝。遞歸以上過程,直到當前節點所有樣本均為同一類別,或者候選集為空,標記該節點為默認類別,或者某一分枝沒有符合測試條件的樣本,創建一個葉子節點并將其標記為默認類別。

2 決策樹在就業分析中的應用

2.1數據采集

高校對每一年的畢業生都有數據的統計,本文在眾多的數據屬性中,選一些用人企業較為關心的屬性作為研究內容。本文選取畢業生中性別、專業綜合成績、英語水平、計算機等級、專業技能等級、社團經驗(含學生會)和畢業生起薪作為研究的數據屬性。在電子商務專業應屆畢業生中隨機選取11名學生的信息作為研究的數據集。

2.2數據清洗和轉換

在采集的數據中,必須對數據進行清洗和轉換。例如,在專業綜合成績里,教務信息系統導出來的數據是學生各門課程的成績,那么需要取其平均成績,80分以上為良好及以上,60到80(不含)為及格。本文研究的是畢業生起薪與各項屬性的關系情況,把畢業生起薪作為類別,分為三類,分別是A1,A2和A3,其中,A1表示少于2000元,A2表示2000(含)到3500元,A3表示3500(含)元以上。所以,經過清洗和轉換后的數據如表1所示。

表1 學生樣本就業信息表

2.3構建決策樹

根據前面的定義可知,首先計算數據集T的平均信息量:

然后,計算每一個決策屬性的期望信息量。如英語水平的期望信息量為:

所以,屬性“英語水平”的信息增益為:

gain(英語水平)=info(T)-info英語水平(T)=0.845351

同理,可算出屬性性別,專業綜合成績,計算機等級,專業技能等級,社團經驗的信息增益分別為

gain(性別)=0.060879;

gain(專業綜合成績)=0.1831498;

gain(計算機等級)=0.0790364;

gain(專業技能等級)=0.1943273;

gain(社團經驗)=0.2426972;

通過比較,可知英語水平的信息增益是最大的,因此,最優分裂屬性為“英語水平”。由于當英語水平為四級時,所有的樣本都屬于同一類別,所以為該分枝創建一個葉子節點,標記為類別“A3”。

接下來,對英語水平為二級B的數據組成的節點進一步選擇分裂屬性,此時需要重新計算數據集的熵。通過遞歸以上步驟,最后生成的決策樹如圖1所示。

2.4規則知識描述

通過圖1可以提取分類規則,從根節點向下到每個葉子節點所進過的路徑都可以提取一條分類規則。提出的規則如下:

(1)IF(英語水平=四級)THEN畢業生起薪=A3(即工資大于或者等于3500元)

圖1 學生樣本的決策樹

(2)IF(英語水平=二級B)AND(社團經驗=有)THEN畢業生起薪=A2(即工資介于2000到3500元之間)

(3)IF(英語水平=二級B)AND(社團經驗=無)AND(專業技能等級=高級)THEN畢業生起薪=A2(即工資介于2000到3500元之間)

(4)IF(英語水平=二級B)AND(社團經驗=無)AND(專業技能等級=中級)THEN畢業生起薪=A2(即工資少于2000元)

從以上規則可知,對于電子商務專業的學生來說,如果英語水平是四級以上的,工資普遍都比較高,其次,企業比較重視學生的社會實踐經驗,接著才是專業技能等級。

3 結語

本文利用決策樹算法建立了一個簡單的學生就業信息分析模型。該模型能較好地反映出目前企業需要具有哪些技能的電子商務專業學生,為學校及教研室對課程的改革,教學管理的改進都有非常好的參考價值。但是,由于樣本量少,模型并非完全反映出企業的真實人才需要。該模型通過k倍交叉驗證法[4]進行準確率的評估,得到65%的準確率,這個準確度不算理想,也許是樣本量太小或者由其他因素造成。盡管如此,本文給出了一種利用決策樹分析高校學生就業信息的可行方法,為高校相關部分進行教學管理改革提供了有效的參考方案。

[1]Breiman L,Friedman J,Olshen R,et al.Classification and Regression Trees[M].1984,Nibterey,CA:Wadsworth and Brooks.

[2]Quinlan J R.C4.5 Programs for Machine Learning[M].1993:Morgan Kaufmann.

[3]MEHMED K,閃四清等譯.數據挖掘——概念、模型、方法和算法[M].北京:清華大學出版社

[4]毛國君,段立娟,王實.數據挖掘原理與算法[M].北京:清華大學,2007

Decision Tree;Information Gain;Accuracy Rate

Research on the Application of Decision Tree Algorithm in College Students' Employment Analysis

ZHANG Yong-xiong1,YU Bing-jun2,Deng Zhi-hong1
(1.Department of Economy and Trade,Guangzhou College of Technology and Business,Guangzhou 510850;2.Computing Center,South China University of Technology,Guangzhou 510641)

With the rapid development of large data analysis technology,the massive data of employment information for colleges and universities,how to effectively use these data to explore the value of knowledge,which is currently a hot topic of research in Colleges and universities. Puts forward a method of using decision tree to analyze the employment information,and verifies its feasibility through an example,which provides a valuable reference for the improvement of teaching management in Colleges and universities.

1007-1423(2016)29-0061-04

10.3969/j.issn.1007-1423.2016.29.014

張永雄(1982-),男,廣東廣州人,碩士研究生,講師,研究方向為數據分析與云計算余丙軍(1977-),男,湖北黃岡人,碩士研究生,工程師,研究方向為數據分析與云計算鄧志虹(1981-),女,碩士研究生,講師,研究方向為教育科研方法

2016-08-25

2016-10-10

猜你喜歡
分類信息
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
給塑料分分類吧
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 色老头综合网| 精品国产免费人成在线观看| 亚洲欧美国产视频| 波多野结衣久久精品| 69精品在线观看| 国产欧美中文字幕| 亚洲色图狠狠干| 在线观看精品国产入口| 国产无码在线调教| 视频二区国产精品职场同事| 亚洲系列中文字幕一区二区| 在线国产资源| 在线精品视频成人网| 午夜福利在线观看成人| 秋霞国产在线| 乱人伦中文视频在线观看免费| 欧日韩在线不卡视频| 伊人久久影视| 日本黄色a视频| 亚洲天堂在线视频| 亚洲综合片| 国产一在线观看| 国产第一页第二页| 亚洲床戏一区| 伊人91在线| 日韩黄色精品| 久久精品女人天堂aaa| 免费中文字幕一级毛片| 青青青伊人色综合久久| 亚洲精品久综合蜜| 欧美在线精品怡红院| 91麻豆国产在线| 国产综合色在线视频播放线视| 国产人前露出系列视频| 久久99国产乱子伦精品免| 最新痴汉在线无码AV| 国产精品护士| 2021国产精品自拍| 伊人久久福利中文字幕| 天堂av综合网| 91亚洲精品第一| 欧美激情视频一区| 欧美日韩精品在线播放| 亚洲美女久久| 欧美成人亚洲综合精品欧美激情| 综1合AV在线播放| 国产高清在线丝袜精品一区 | 国产网站免费观看| 19国产精品麻豆免费观看| 亚洲动漫h| 亚洲无码在线午夜电影| 久久亚洲国产最新网站| 国产亚洲精品精品精品| 青青草一区二区免费精品| 午夜a视频| 色婷婷亚洲十月十月色天| 丰满的少妇人妻无码区| 亚洲欧洲日韩久久狠狠爱| 91久久大香线蕉| 无码专区在线观看| 欧美亚洲国产精品第一页| 午夜啪啪网| 精品三级网站| 影音先锋亚洲无码| 欧美19综合中文字幕| 亚洲人精品亚洲人成在线| av午夜福利一片免费看| 色哟哟国产精品| 国产精品原创不卡在线| 国产精品久久国产精麻豆99网站| 日韩福利在线视频| 暴力调教一区二区三区| 亚洲中文字幕97久久精品少妇| 国产精品久久久久久久伊一| 色精品视频| 亚洲精品无码日韩国产不卡| 亚欧美国产综合| 欧美va亚洲va香蕉在线| 欧美日韩国产综合视频在线观看| 中文国产成人精品久久一| 红杏AV在线无码| 在线日韩日本国产亚洲|