劉 哲, 趙志剛
(沈陽師范大學(xué) 計算機與數(shù)學(xué)基礎(chǔ)教學(xué)部, 沈陽 110034)
?
數(shù)據(jù)挖掘技術(shù)在大學(xué)生就業(yè)分析中的實證研究
劉 哲, 趙志剛
(沈陽師范大學(xué) 計算機與數(shù)學(xué)基礎(chǔ)教學(xué)部, 沈陽 110034)
近年來,隨著高校招生規(guī)模的不斷擴大,我國高等教育已逐漸步入大眾化教育階段,高校畢業(yè)生所面臨的就業(yè)壓力再次引起人們的關(guān)注。針對遼寧省內(nèi)高校畢業(yè)生的定量分析及預(yù)測比較少見,提出將數(shù)據(jù)挖掘技術(shù)應(yīng)用到高校就業(yè)分析中。首先提取了省部分高校畢業(yè)生的基本信息庫、成績數(shù)據(jù)庫,等級考試數(shù)據(jù)庫及就業(yè)信息數(shù)據(jù)庫,并對數(shù)據(jù)庫進(jìn)行了抽樣及預(yù)處理;其次應(yīng)用數(shù)據(jù)挖掘技術(shù)中的ID3算法及數(shù)學(xué)統(tǒng)計方法挖掘出與就業(yè)相關(guān)的分類規(guī)則,通過分類規(guī)則找出影響畢業(yè)生就業(yè)單位性質(zhì)的主要因素;最后根據(jù)分析給出促進(jìn)高校就業(yè)的決策建議:提高大學(xué)生的基礎(chǔ)與專業(yè)素質(zhì);大學(xué)生要轉(zhuǎn)變就業(yè)觀念,理性調(diào)整期望值;有意識地積累和利用社會資本。
大學(xué)生就業(yè); 數(shù)據(jù)挖掘; 決策樹; ID3算法
近年來,高校畢業(yè)生所面臨的就業(yè)壓力再次引起人們的關(guān)注[1]。面對就業(yè)難題,就業(yè)指導(dǎo)專家通常會根據(jù)歷年就業(yè)的現(xiàn)象或數(shù)據(jù),對未來的就業(yè)趨勢進(jìn)行預(yù)測。就業(yè)預(yù)測可分為定性預(yù)測和定量預(yù)測。定性預(yù)測往往是專家在缺乏統(tǒng)計數(shù)據(jù)的情況下,做出比較正確的判斷和推測[2]。沒有數(shù)據(jù)支撐的預(yù)測通常精度不高。定量預(yù)測是根據(jù)調(diào)研的數(shù)據(jù)資料,運用數(shù)據(jù)挖掘技術(shù)或數(shù)學(xué)統(tǒng)計方法,對預(yù)測目標(biāo)做出定量測算的預(yù)測方法[3-4]。據(jù)文獻(xiàn)[5]所知,我國正在逐步建立覆蓋全國高校學(xué)生,集雙向選擇、信息咨詢、決策支持等功能為一體的國家級示范性就業(yè)信息公共服務(wù)平臺[5-6]。鑒于目前遼寧省高校畢業(yè)生的定量分析及預(yù)測還很少見[7],文中考慮應(yīng)用數(shù)據(jù)挖掘技術(shù)中的分類決策樹方法[8-9],數(shù)學(xué)統(tǒng)計方法等挖掘出促進(jìn)就業(yè)的有價值的信息,并提出促進(jìn)高校就業(yè)的政策建議,以供參考。
教育系統(tǒng)存儲的關(guān)于學(xué)生的信息基本都是準(zhǔn)確的,完整的,對時間敏感度不高[3]。因此,文中對某師范院校的畢業(yè)生招生就業(yè)指導(dǎo)中心、教務(wù)處、各學(xué)院教學(xué)管理等職能部門進(jìn)行了科學(xué)詳實的調(diào)查研究,并通過學(xué)校的信息化共享平臺獲取了畢業(yè)生的基本信息庫、成績數(shù)據(jù)庫,等級考試數(shù)據(jù)庫及就業(yè)信息數(shù)據(jù)庫。
對獲得的數(shù)據(jù)進(jìn)行了數(shù)據(jù)預(yù)處理[10]:首先應(yīng)用數(shù)據(jù)清洗技術(shù)對缺損數(shù)據(jù)、相似重復(fù)信息等進(jìn)行了處理,提高了數(shù)據(jù)質(zhì)量;其次進(jìn)行了相關(guān)性分析,去除與分析無關(guān)的屬性;最后對數(shù)據(jù)進(jìn)行了概化操作[11]使數(shù)據(jù)適合數(shù)據(jù)挖掘,為數(shù)據(jù)挖掘做好準(zhǔn)備。處理后的抽樣數(shù)據(jù)如表1所示。

表1 預(yù)處理后的學(xué)生就業(yè)抽樣數(shù)據(jù)
2.1 決策樹的相關(guān)理論基礎(chǔ)
決策樹也稱判定樹,決策樹方法是數(shù)據(jù)挖掘的核心技術(shù)之一[12]。ID3算法是其中最著名的一種[13]。分類決策樹ID3算法通常分為2個階段,即樹的生成與剪枝。其中生成樹的算法具體處理過程可以分為3個步驟[10]:計算給定樣本分類所需的總信息熵;計算每個屬性的信息熵;以及計算信息增益。
2.2 基于分類決策樹的就業(yè)分析
在基于數(shù)據(jù)庫系統(tǒng)的決策技術(shù)中,通常應(yīng)用信息論的相關(guān)技術(shù)研究條件屬性對于決策屬性的影響[14]。文中將“單位性質(zhì)”作為決策屬性,將“畢業(yè)資格”“平均學(xué)分績點”“等級考試證書”“政治面貌”“性別”及“貧困生”屬性作為條件屬性。
1) 建立分類決策樹

圖1 分類決策樹
構(gòu)建分類決策樹首先從樣本訓(xùn)練集中選擇“單位性質(zhì)”作為決策屬性,也就是分類決策樹的葉子節(jié)點,其次應(yīng)用數(shù)據(jù)挖掘技術(shù)的ID3算法計算出每個屬性的信息增益[15]從大到小依次為“畢業(yè)資格”“平均學(xué)分績點”“等級考試證書”,“政治面貌”“性別”“貧困生”屬性。根據(jù)高等師范院校女多男少的實際情況,對“性別”屬性進(jìn)行了特別的關(guān)注,計算“性別”屬性的信息增益值僅為0.000 5,比最小的“政治面貌”屬性的信息增益還小幾百倍,即“性別”屬性對決策樹的影響會很小,因此忽略“性別”屬性。同樣,也忽略“貧困生”屬性。由于“畢業(yè)資格”屬性的信息增益和“平均分績點”屬性的信息增益相似,從而得知“平均分績點”直接影響“畢業(yè)資格”,因此文中選取了“平均學(xué)分績點”屬性作為條件屬性,并將“等級考試證書”,“政治面貌”屬性作為條件屬性,即決策樹的條件屬性,如圖1所示。
2) 根據(jù)分類決策樹提取部分分類規(guī)則
規(guī)則1 If平均分績點=“≥3.0”and等級考試證書=“有” and政治面貌=“黨員”then 單位性質(zhì)=“事業(yè)單位”;
規(guī)則2 If平均分績點=“≥3.0”and等級考試證書=“有” and政治面貌=“非黨員”then 單位性質(zhì)=“國有企業(yè)”。
……
從生成的分類決策樹及分類規(guī)則中可以看出首先平均分績點≥2.0的畢業(yè)生基本都能就業(yè),并且平均分績點的高低是影響就業(yè)工作性質(zhì)的主要因素。平均分績點≥3.0的畢業(yè)生并且拿到等級考試證書,在此基礎(chǔ)上若是黨員則到事業(yè)單位就業(yè)的概率非常大;平均分績點≥3.0的畢業(yè)生并且拿到等級考試證書,基本都能到國有企業(yè)就業(yè);平均分績點<3.0并且≥2.0的畢業(yè)生并且拿到等級考試證書或者是黨員,基本都能到國有企業(yè)就業(yè);而平均分績點<3.0并且≥2.0的畢業(yè)生且沒有等級考試證書或者非黨員,只能到其他企業(yè)就業(yè)。
2.3 基于數(shù)據(jù)統(tǒng)計的就業(yè)分析
依據(jù)分類決策樹得出“平均分績點”“等級考試證書”及“政治面貌”屬性對畢業(yè)生的就業(yè)單位性質(zhì)有影響,那么對于師范院校的不同專業(yè),不同性別對就業(yè)單位性質(zhì)是否有影響呢?數(shù)據(jù)分析如下。
1) 對理科師范類畢業(yè)生的就業(yè)去向進(jìn)行了統(tǒng)計分析,如圖2所示。圖中數(shù)據(jù)表明師范專業(yè)畢業(yè)生畢業(yè)后不一定都從事教育事業(yè),去企業(yè)就業(yè)的人數(shù)占到近50%,因此可以預(yù)測未來畢業(yè)生到企業(yè)就業(yè)的機會較大。
2) 對文科非師范類畢業(yè)生的就業(yè)去向進(jìn)行了統(tǒng)計分析,如圖3所示。圖中數(shù)據(jù)表明該系畢業(yè)生畢業(yè)后去其他企業(yè)就業(yè)的人數(shù)占到56%,出國占9%,國有企業(yè)占14%,事業(yè)單位沒有,可見該文科專業(yè)到事業(yè)單位就業(yè)機會不大。

圖2 某理科師范類畢業(yè)生就業(yè)單位性質(zhì)比例

圖3 某文科非師范類畢業(yè)生就業(yè)單位性質(zhì)比例

圖4 某藝術(shù)類畢業(yè)生就業(yè)單位性質(zhì)比例
3) 對藝術(shù)類非師范類畢業(yè)生就業(yè)去向的進(jìn)行了統(tǒng)計分析,如圖4所示。圖中數(shù)據(jù)表明該系畢業(yè)生畢業(yè)后去其他企業(yè)就業(yè)的人數(shù)占到81%,明顯高于其他任何方式的就業(yè)比例。因此,可以從整體上預(yù)測明年畢業(yè)生到其他企業(yè)就業(yè)的機會相當(dāng)大,應(yīng)該多留意企業(yè)就業(yè)信息。如果說該專業(yè)只能到其他企業(yè)就業(yè),那么從就業(yè)形式來講太單一了,該專業(yè)應(yīng)該注重學(xué)生各種能力的培養(yǎng),拓寬就業(yè)渠道,以便抓住更多的就業(yè)機會。
4) 對男生、女生的就業(yè)數(shù)據(jù)進(jìn)行了統(tǒng)計分析說明性別差異對就業(yè)影響并不明顯。
社會上普遍認(rèn)為男生和女生就業(yè)不平等。女生由于自身的因素很多工作難以勝任或者難以長期任職,因此無論在就業(yè)機會、或者在工資水平上女生都是相對的弱勢群體。而我校是師范類院校,女生比例占70%以上,因此文中對我校男生、女生的就業(yè)數(shù)據(jù)進(jìn)行了統(tǒng)計。統(tǒng)計顯示,某校某屆畢業(yè)生總數(shù)5 615人,其中男生1564人,占畢業(yè)生總數(shù)的比例為27.85%;而待就業(yè)人數(shù)共213人,其中男生60人,占待就業(yè)人數(shù)比例為28.17%。從統(tǒng)計數(shù)據(jù)來看,男生的待業(yè)人數(shù)比例并不比女生待業(yè)人數(shù)比例少,相反還多一點,這說明性別差異對師范院校就業(yè)率基本沒有影響,這與文中2.2節(jié)中計算的“性別”屬性的信息增益很小,即“性別”屬性對決策樹的影響將會很小的結(jié)論相吻合。因此,在以后的統(tǒng)計分析過程中可以忽略“性別”屬性的影響。
5) “異常”結(jié)論
根據(jù)數(shù)據(jù)統(tǒng)計后得出了一個“異常”的現(xiàn)象,如表2特困生就業(yè)信息表所示。畢業(yè)資格為“未通過”并且平均學(xué)分績點為不及格的特困生就業(yè)成功率100%。一般認(rèn)為未通過是影響就業(yè)的重要因素,這顯然不太符合常規(guī)的思維。

表2 特困生就業(yè)信息表
通過對畢業(yè)生所在系、工作單位及本人進(jìn)行了走訪,得到以下結(jié)論:事實表明越來越多的用人單位更加注重學(xué)生的綜合能力和團隊合作意識,而特困生往往為了生存的需要,提前進(jìn)入社會,這恰好為特困生擴大了交際范圍、增加了社會資本。
根據(jù)數(shù)據(jù)挖掘技術(shù)的就業(yè)分析結(jié)果提出了3點促進(jìn)大學(xué)生就業(yè)建議:
1) 提高大學(xué)生的基礎(chǔ)與專業(yè)素質(zhì)。從就業(yè)指導(dǎo)決策樹看出,單位性質(zhì)為事業(yè)單位或國有企業(yè)非常看重平均學(xué)分績點高的畢業(yè)生,而平均學(xué)分績點的高低能夠真實的反映基礎(chǔ)與專業(yè)素質(zhì)的好壞。因此,學(xué)生在校學(xué)習(xí)期間應(yīng)當(dāng)具有高度的危機意識,努力提高自身的基礎(chǔ)與專業(yè)理論知識、專業(yè)技能水平。
2) 大學(xué)生要轉(zhuǎn)變就業(yè)觀念,理性調(diào)整期望值。統(tǒng)計數(shù)據(jù)顯示師范類畢業(yè)生不一定都到教育單位就業(yè),到其他企業(yè)就業(yè)的畢業(yè)生達(dá)到近50%。說明大學(xué)生要轉(zhuǎn)變就業(yè)觀念,要客觀認(rèn)識就業(yè)形勢,理性調(diào)整期望值,要用長遠(yuǎn)的眼光看待就業(yè),樹立“先就業(yè)求生存,后擇業(yè)謀發(fā)展”的思想。
3) 有意識地積累和使用社會資源。在第2.3部分中提出“異常”分析應(yīng)該引起重視,特困生成功就業(yè)的根本原因就是主觀意識上就要先就業(yè)以減輕家里的負(fù)擔(dān),因此在校期間無形中積累了社會資源。因此,大學(xué)生應(yīng)該先樹立主觀意識,再逐步的積累和使用社會資源。
[1]程煜,李鵬. 大學(xué)生就業(yè)創(chuàng)業(yè)與“互聯(lián)網(wǎng)+”[J]. 山西高等學(xué)校社會科學(xué)學(xué)報, 2015,27(7):73-76.
[2]宋志海,徐珮杰. 高校就業(yè)指導(dǎo)工作的誤區(qū)及對策[J]. 中國大學(xué)生就業(yè), 2006(4):41-42.
[3]李金華. 論數(shù)據(jù)挖掘技術(shù)在大學(xué)生就業(yè)系統(tǒng)中的應(yīng)用[J]. 電腦編程技巧與維護(hù), 2010(9):40-42.
[4]李春青. 數(shù)據(jù)挖掘技術(shù)在高校信息化管理中的應(yīng)用[J]. 軟件導(dǎo)刊, 2015,2(14):155-156.
[5]方偉. 大學(xué)生就業(yè)工作信息化信探索[J]. 理論前沿, 2013(4):3-6.
[6]國務(wù)院辦公廳. 國務(wù)院辦公廳關(guān)于做好2013年全國普通高等學(xué)校畢業(yè)生就業(yè)工作的通知[EB/OL]. (2013-05-16)[2015-06-22]. http:∥www.gov.cn/zwgk/2013-05/16/content_2404378.htm.
[7]趙巖,張悅. 遼寧省大學(xué)生自主創(chuàng)業(yè)的現(xiàn)狀、問題和對策研究[J]. 遼寧教育行政學(xué)院學(xué)報, 2015(1):47-50.
[8]楊斷利,張銳,王文顯. 基于模糊決策樹的高校就業(yè)數(shù)據(jù)挖掘研究[J]. 河北農(nóng)業(yè)大學(xué)學(xué)報, 2012,35(2):111-114.
[9]張云濤,龔玲. 數(shù)據(jù)挖掘原理與技術(shù)[M]. 北京:電子工業(yè)出版社, 2004:42-45.
[10]李文峰,黃席樾. C4.5算法在國防生素質(zhì)分析中的應(yīng)用[J]. 計算機應(yīng)用, 2007,26(7):36-39.
[11]閆禹. 數(shù)據(jù)挖掘技術(shù)在高校學(xué)生就業(yè)指導(dǎo)決策中的運用[J]. 沈陽工業(yè)大學(xué)學(xué)報, 2007,29(3):344-346.
[12]雷松澤,郝艷. 基于決策樹的就業(yè)數(shù)據(jù)挖掘[J]. 西安工業(yè)學(xué)院學(xué)報, 2005,25(5):429-432.
[13]江明華,唐婭琴. 用ID3算法對高校計算機教學(xué)中學(xué)生成績的分類研究[J]. 計算機與數(shù)字工程, 2008,36(5):51-54.
[14]楊帆,劉運. 基于信息熵和貝葉斯方法的就業(yè)指導(dǎo)輔助決策技術(shù)[J]. 陜西科技大學(xué)學(xué)報, 2009,27(2):99-103.
[15]辛立章,陳春香. 數(shù)據(jù)挖掘技術(shù)在高校畢業(yè)生就業(yè)指導(dǎo)中的應(yīng)用[J]. 電腦知識與技術(shù), 2007,3(13):1-2.
Analysis and calculation of high school graduate student based on data mining
LIUZhe,ZHAOZhigang
(Fundamental Education Division of Computer and Mathematics, Shenyang Normal University, Shenyang 110034, China)
In recent years, Higher education has become more and more popular in China with the continuous expansion of the universities and colleges. The fact that college graduates are under great pressure in finding jobs is attracting a lot of attention again. Because little quantitative analysis and forecast taking aim at Liaoning Province college graduates has been made, this paper raises that the data mining technology is applied to the analysis of the job obtaining of college graduates. Firstly, some databases about partial college graduates are referred to in this paper, for example, database of graduates’ basic information, scores database, database of level examination and database of employment information. The sampling and pretreatment of the database is carried out. Secondly, the ID3 algorithm is applied to build a decision tree and find out the main factors influencing graduates’ employment property by classification. Finally, the proposals are given according to the analysis to promote the graduates employment, which include basic and professional skills of graduates, change of expectation and conception of selecting their jobs, cultivation of the consciousness of accumulating and utilizing social resources actively.
graduate employment;data mining; decision tree; ID3 algorithm
2015-10-12。
遼寧省經(jīng)濟社會發(fā)展立項課題(2015lslktjyx-08); 遼寧省教育廳教學(xué)改革項目(UPRPI2014096)。
劉 哲(1977-),女,遼寧沈陽人,沈陽師范大學(xué)副教授,碩士。
1673-5862(2016)01-0105-04
TP311
A
10.3969/ j.issn.1673-5862.2016.01.024