999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

爬蟲算法在淮北職業技術學院就業指導系統中的應用研究

2017-09-18 03:14:50
淮北職業技術學院學報 2017年5期
關鍵詞:就業指導信息學生

宋 夏

(淮北職業技術學院 建筑工程系,安徽 淮北 235000)

爬蟲算法在淮北職業技術學院就業指導系統中的應用研究

宋 夏

(淮北職業技術學院 建筑工程系,安徽 淮北 235000)

目前,由于高校擴招,高校畢業生逐年增加,就業難的問題逐漸凸顯。淮北職業技術學院每年面臨20%的學生難就業的問題。另外,該校的就業指導系統不完善,無法滿足就業處進行就業預測,制定科學就業指導方案的需要。運用決策樹算法構建就業分析模型,并進行進一步的驗證,可以改進就業指導系統,提高就業指導工作效率。

爬蟲技術;就業指導系統;決策樹算法

0 引言

海量信息的涌現和科學技術的不斷進步,越來越多的行業開始運用爬蟲技術進行數據挖掘。網絡爬蟲也叫網絡蜘蛛,是一個從互聯網中自動抓取網頁的程序。[1]2016年高效畢業生人數達到765萬,大學生就業壓力大、找工作難成為一大困境。[2]對于高校來說,畢業學生信息數據龐大,利用簡單的搜索、查詢難以滿足大量信息的處理需要。爬蟲技術能夠按照一定的順序爬取相關的信息,并且能夠對所搜集的信息進行數據處理。因此,很多高校也在逐漸引進數字挖掘技術并運用到學校的日常管理工作中,利用數字挖掘技術有針對性地分析學生和用人單位的信息,為高效人才培養計劃的制定提供數據支持。目前,數據挖掘技術的不斷發展,爬蟲策略的廣泛應用,相關研究人員開發了一系列的算法。其中,決策樹算法能夠實現對于數據的自動歸類,以樹形的形態進行呈現。該算法具備其他算法所不具有的直觀性、易學性以及快速性等優點。利用決策樹算法進行數據預測,可以幫助高職畢業生規避就業風險,正確認識自身價值,同時能夠為高校專業設置、培養方案制定以及就業指導提供科學的依據。[3]

淮北職業技術學院是1999年7月經國家教育部批準的公辦全日制普通高等學校。學院高度重視畢業生就業工作,以社會就業形勢為風向標,以人才的高質量輸出為己任,對于學生的實習、技能培訓以及就業指導等提供全方位的支持和幫助,為學生高質量就業創造良好的條件。盡管淮北職業技術學院的就業工作取得了很大的進展,但是由于各種主客觀原因的影響,每年仍有20%以上同學處于待就業或者“慢就業”狀態。

1 淮北職業技術學院學生就業情況和存在的問題

1.1 淮北職業技術學院就業情況

1.1.1 畢業生概況

淮北職業技術學院2016屆畢業生共有3067人,其中高職(統招)畢業生人數2892人,中專部(“3+2”及五年一貫制)畢業生人數175人,分屬41專業。2016屆畢業生男女比例約為1:1.47,女生人數偏多,主要集中在適合女生性別優勢的專業,如護理、空乘、財會、服裝等,這些專業所在系部的招生規模也比較大。該院畢業生以漢族生源居多且多為省內生源,省內省外比例約為59:1,省內生源以淮北市生源最多,占省內生源的36.77%,淮北與省內其他城市生源比例約為1:1.72,省內其他城市的生源也多為淮北周邊城市,如宿州、亳州、阜陽等。由此可見,淮北職業技術學院生源多來自以院校所在地——淮北為核心的皖北地區。2016屆畢業生具體情況如表1所示。

表1 2016屆畢業生概況

1.1.2 畢業生就業情況

截至2016年12月底,淮北職業技術學院2016屆已就業畢業生為2685人,就業率為87.54%。2016屆畢業生流向主要集中在衛生和社會工作、制造業、居民服務、修理和其他服務業、建筑業、信息傳輸、軟件和信息技術服務業等行業,充分體現出學院以機械制造、金融商貿、電子信息等作為主干專業的特點。畢業生所從事的職業多為各類技術人員、業務人員、服務人員和操作人員;所從業的單位也多為城鎮社區、中小微企業等,與畢業生專業和學歷相吻合,充分體現國家對職業院校畢業生面向基層就業的號召。但由于各種主客觀原因,有20%以上同學處于待就業或者“慢就業”狀態。其中非困難生的就業率要低于困難生的就業率,占87.27%。

1.2 淮北職業技術學院學生就業存在的問題

第一,對于就業指導老師而言,信息采集工作困難,就業指導系統落后,缺乏先進的數據挖掘技術來提高就業指導工作的效率。

第二,對于學生本身而言,很多學生好高騖遠、眼高手低,對工作標準要求過高,難以溝通疏導。

面對學生的信息采集工作費時費力的現狀,就業指導老師很難通過人工采集的方式來全面搜集學生的信息,也無法精確地為學生匹配相應的崗位信息。因此,需要借助于有針對性、高效的計算機技術建立高效的就業信息服務平臺來解決“慢就業”和“難就業”問題。

2 決策樹算法在淮北職業技術學院就業指導工作中的應用

2.1 數據挖掘的決策樹技術

決策樹方法是數據挖掘的核心技術之一。[4]作為一種預測模型,該算法能夠呈現對象屬性和對象值之間的對應聯系。在決策樹模型當中,節點代表對象,分叉代表對應的對象值,葉節點所關聯的是從根節點到葉節點對應的對象值。決策樹是數據挖掘技術中的一種典型的技術,不僅能夠對數據進行分析,還可以通過數據分析進行預測。

2.2 C5.0算法

C5.0決策樹算法是從跟節點不斷地分枝生長,該根節點包含了所有訓練集數據,并最終將所有訓練集數據歸到某一葉節點。該算法中,最為關鍵的問題是選取最佳的分類變量與切分點。

在經典的ID3決策樹算法中,最佳分類變量是根據信息增益來選取的。信息增益即是信息熵,用來衡量系統的不確定性大小,信息增益越大,即信息熵越小,表明系統不確定性越低,反之,信息增益越小,則信息熵越大,表明系統不確定性越高。所以,在構建決策樹的時候如果選取某一分類變量時使得相應的信息增益率增大,則表明分類與預測效果越好。在本章節的研究中,采用C5.0算法來構建決策樹的時候便是依據信息增益率來確定最優的分類變量。信息增益率的數學公式如下:

其中,InfoGainRation(A)即是決策樹的信息增益率,而InfoGain(A)即是決策樹的信息增益。一般來說,信息增益難以評估決策樹分類變量選取的優劣,主要是因為容易受到分組變量劃分數目的影響與干擾,如當類目數增加時會導致信息增益增加,影響分組變量選取的正確性。因此,本文中選取信息增益率來代替信息增益,保證分組變量的選取更加準確。

同分組變量的選取一樣,劃分點的選取也依據信息增益率。由于C5.0算法生成的是二叉樹,所以優化劃分點的選取時將數據一分為二。在構建決策樹的過程中,計算不同的分類變量與切分點組合下的信息增益率,并將信息增益率取最大值的分類變量與切分點視作最優。

2.3 就業分析模型構建與結果分析

用C5.0算法進行分析要經過三個環節,首先是數據的選取階段,然后就業分析模型構建,最后對模型加以驗證,對結果進行評估。

2.3.1 數據選取

數據準備階段比較重要,因為數據的質量會最終影響模型的構建及結果的輸出。在大學生就業分析模型中,選取淮北職業技術學院3年來共計12450名畢業生的相關數據信息作為研究樣本。

但是,在學校教學管理系統的就業管理模塊中存儲的原始數據的維度屬性太多。考慮到不相關屬性約簡與冗余屬性約簡,最后選取了畢業生的個人基本情況、在校表現以及就業意向三個方面的16個屬性,包括性別、政治情況、專業分數、期望月薪、就業單位性質等。其中,以就業單位類型為標識屬性,剩下的則是決策屬性。屬性名和對應類型如表2所示:

表2 屬性名以及類型

屬性名類型類別離散值所學專業名離散值所學專業分數連續值家庭經濟狀況離散值身高連續值特長離散值學校職務離散值獎勵離散值技能證書離散值就業意向離散值期望月薪連續值就業地區離散值就業單位類型離散值

其中,部分樣本數據如表3所示:

表3 部分樣本數據集

由于樣本數據無法直接用來建模,還需要進行相應的預處理,即數據離散化與分層處理,主要采用分箱、直方圖分析以及直觀劃分等。對專業分數、身高、期望月薪三個屬性進行離散化處理后,結果如表4至表6示:

表4 專業分數離散化處理

表5 身高離散化處理

表6 期望月薪離散化處理

而對于其他屬性則按期不同類別來賦予相應的標簽化數值,如表7至表9所示:

表7 就業單位性質離散化處理

表8 個人特長離散化處理

表9 政治面貌離散化處理

采取上述方法對數據進行處理化之后,即轉化為計算機語言可以識別的知識,其中部分樣本數據經過數據處理之后如表10所示:

表10 離散化處理后的部分樣本數據集

2.3.2 就業分析模型

本實驗旨在通過升級后的決策樹算法對于就業單位類型進行預測,接著對該預測模型加以測試,查看其是否準確。實驗主要有三個步驟:第一,構建就業單位類型預測模型;第二,對比預測結果與實際的樣本數據;第三,對預測結果進行分析。其中,將12450名畢業生的相關數據分為兩份,8300份為訓練數據集,用來學習與構建決策樹,而4150份為測試數據集,用來評估模型的準確率。

由于樣本數據維度比較大,所構建的決策樹分支較多,不能一一羅列,所以這里將以專業成績為結點的分支為例,對其挖掘的結果進行分析。其中,該決策樹分支如圖1所示:

圖1 決策樹部分分支結構

現將上述決策樹得到的推理結果轉換為IF…THEN的形式,其中部分結果如下所示:

IF“專業分數=優” and “所學專業名=生物工程”and“獎勵=國家獎學金”THEN“讀書深造”。

IF“專業分數=優” and “所學專業名=生物工程”and “獎勵=無” and “個人特長=文藝” THEN “事業單位”。

IF“專業分數=優” and “所學專業名=生物工程”and “獎勵=無” and “個人特長=無” and “技能證書=無” THEN“私營企業”。

IF“專業分數=中” and “所學專業名=計算機” and “期望月薪=6000以上” THEN “私營企業”。

IF“專業分數=中” and “所學專業名=計算機” and “期望月薪=6000以上”and “就業意向=區內”THEN “私營企業”。

IF“專業分數=中” and “所學專業名=計算機” and “期望月薪=3500-4000” and “就業意向=區內” THEN “國有企業”。

IF“專業分數=中” and “所學專業名=汽車服務” and “學校職務=無” and “就業意向=區內” THEN “國有企業”。

IF“專業分數=中” and “所學專業名=汽車服務” and “學校職務=無” and “就業意向=區內” THEN “合資企業”。

通過對決策樹所提供的規則進行深入分析,能對學生的就業規律有清晰的認識,如專業成績優,在校期間獲得過國家獎學金,則多為選擇升學深造;若成績為良或者中,專業偏理科,就業意向為區內,則大部分選擇公務員或者事業單位;若專業成績中等,專業為工科,在校期間擔任過學生干部,則多數選擇了國有企業;若專業為計算機,意向月薪為6000以上,就業意向為區內,則多數選了私營企業等等。

同時從相關規則的分析中可以發現,影響學生就業單位選擇的關鍵外因在于學生的專業分數、所學專業名、獎勵、學校職務、就業意向、意向月薪等。所以,對于學生的就業率和就業質量的提高,高校應著重培養學生的專業技能,并對學生的就業觀念加以引導。

2.3.3 結果評估

在上述決策樹模型與相應的推理規則之后,為了驗證其有效性與準確性,我們采用之前劃分出來的測試集樣本對上述模型進行測試。在這里用預測準確率來衡量算法的優劣,其中預測準確率=對比結果一致的樣本數/測試集總樣本數。首先,將得到的部分預測分類結果和實際就業結果進行對比,具體情況如表11所示:

表11 部分預測結果與實際結果對比表

從上面部分測試結果來看,十位學生就業單位預測中有8位是正確的,2位為預測錯誤。此外,統計所有測試數據集的預測結果與實際結果,其中4150個樣本數據中預測準確的共計3527,預測錯誤的是598,即模型的準確率為84.9%(表12):

表12 就業預測模型準確率

根據上面的驗證結果,發現所構建的學生就業分析模型準確度較高,具有非常大的參考價值,能夠為指導大學生進行職業規劃提高決策支持。

3 結語

隨著爬蟲的研究不斷深入,爬行策略與算法也在不斷完善,爬蟲技術對于收集信息方面的應用也日趨廣泛。[5-6]利用決策樹算法能夠提高爬蟲程序的爬取準確率。[7]本文結合了淮北職業技術學院的就業現狀,運用決策樹算法創建大學生就業分析模型,并以大學生成績與就業信息為數據來源進行實證研究,驗證了模型的有效性。通過該算法能夠分析出專業分數、獎勵、就業意向等因素對于學生的就業選擇的影響最大,因此能夠為高校招生就業處工作人員提供就業指導依據,提高就業指導決策的效率,促進學生就業率的提升。

[1] 田俊. 淺談主題網絡爬蟲關鍵技術[J]. 天津職業院校聯合學報,2017(3):78-85.

[2] 韓冰. 基于數據挖掘的就業困難學生認定研究[J]. 中國大學生就業,2017(1):44-50.

[3] 王彥新,王紅. 用大數據助推高職畢業生就業難題化解的研究[J]. 辦公自動化,2016(7):26-28.

[4] 劉哲,趙志剛. 數據挖掘技術在大學生就業分析中的實證研究[J]. 沈陽師范大學學報(自然科學版),2016(1):105-108.

[5] 于娟,劉強. 主題網絡爬蟲研究綜述[J]. 計算機工程與科學,2015(2):231-237.

[6] Houqing Lu,Donghui Zhan,Lei Zhou,etc.An Improved Focused Crawler:Using Web Page Classification and Link Priority Evaluation[J].Mathematical Problems in Engineering,2016(3).

[7] Ali Seyfi,Ahmed Patel,Joaquim Celestino Júnior. Empirical evaluation of the link and content-based focused Treasure-Crawler[J]. Computer Standards & Interfaces,2016(44).

責任編輯:何玉付

2017-07-01

宋夏(1987—),女,安徽淮北人,助教,研究方向:計算機應用技術。

TP315;G718.5

:A

:1671-8275(2017)05-0136-05

猜你喜歡
就業指導信息學生
略談開展大學生就業指導的重要性
活力(2019年17期)2019-11-26 00:43:18
趕不走的學生
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
學生寫話
學生寫的話
大學生就業指導課教學模式的實踐與探索
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
以人為本,深化高職院校就業指導工作
聰明的學生等
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 99久久国产自偷自偷免费一区| 性欧美久久| 一区二区三区四区在线| 亚洲第一页在线观看| 亚洲高清无码精品| 久久毛片网| 国产杨幂丝袜av在线播放| 无码视频国产精品一区二区| 日韩一区二区三免费高清 | 成人国产小视频| 欧美h在线观看| 亚洲欧美在线综合图区| 日韩无码白| 国产男女XX00免费观看| 免费又爽又刺激高潮网址 | 日韩国产亚洲一区二区在线观看| 日韩成人在线视频| 亚洲成人精品在线| 制服丝袜国产精品| 亚洲中文在线视频| 亚洲人成网址| 久久久久久久97| 亚洲av日韩综合一区尤物| 香蕉久久国产超碰青草| 国产爽妇精品| 成人精品视频一区二区在线| 一本大道无码高清| 国产经典免费播放视频| 一个色综合久久| 黄色在线网| 国产亚洲欧美日本一二三本道| 国产本道久久一区二区三区| 亚洲青涩在线| 国产永久免费视频m3u8| 人妻少妇久久久久久97人妻| 真实国产精品vr专区| 91无码国产视频| 国产精品黄色片| 国产h视频免费观看| 日本免费精品| 四虎成人在线视频| 国内嫩模私拍精品视频| 久久熟女AV| 亚洲AV无码一二区三区在线播放| 国产一区二区三区视频| 网友自拍视频精品区| 国产熟睡乱子伦视频网站| 欧美一区二区三区国产精品| 91麻豆精品视频| 中文国产成人精品久久| 国产精品网曝门免费视频| 日日拍夜夜操| 91成人在线免费视频| 1769国产精品免费视频| 久久这里只有精品国产99| 尤物精品国产福利网站| 国产91透明丝袜美腿在线| 精品免费在线视频| 欧美日韩综合网| 九月婷婷亚洲综合在线| lhav亚洲精品| 综合色在线| 激情六月丁香婷婷| 亚洲国语自产一区第二页| 免费jjzz在在线播放国产| 亚洲二区视频| 国产精品男人的天堂| 精品福利国产| 国产成人免费观看在线视频| 国产女同自拍视频| 国产网友愉拍精品| 免费一级毛片不卡在线播放| 国产免费怡红院视频| 无码日韩人妻精品久久蜜桃| 欧美国产在线一区| 精品国产免费人成在线观看| 久久精品日日躁夜夜躁欧美| 国产精品尤物在线| 国产91丝袜在线播放动漫| 国产高潮流白浆视频| 亚洲欧美精品在线| 欧美精品色视频|