999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

依托阿里云數(shù)加的網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)

2020-06-08 01:24:14黃小冬
現(xiàn)代信息科技 2020年19期

摘? 要:網(wǎng)絡(luò)招聘已成為市場招聘的主流方式,網(wǎng)絡(luò)招聘的崗位數(shù)據(jù)可以反映市場對人才的真實(shí)需求。為培養(yǎng)社會需要的人才,高校普遍對網(wǎng)絡(luò)招聘的大數(shù)據(jù)分析需求強(qiáng)烈,但往往受到技術(shù)條件與成本的困擾。云計(jì)算的普惠發(fā)展,為高校的崗位招聘需求大數(shù)據(jù)分析提供了便利。文章通過對網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)進(jìn)行需求分析,依托阿里云數(shù)加,設(shè)計(jì)并實(shí)現(xiàn)了網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng),助力高校人才培養(yǎng)內(nèi)容優(yōu)化。

關(guān)鍵詞:阿里云數(shù)加;網(wǎng)絡(luò)招聘;大數(shù)據(jù)分析

Abstract:Online recruitment has become the mainstream way of market recruitment,and the job data of online recruitment can reflect the real demand for talents in the market. In order to cultivate talents needed by society,colleges and universities generally have a strong demand for big data analysis of online recruitment,but they are often troubled by technical conditions and costs. The inclusive development of cloud computing has facilitated big data analysis of job recruitment needs in universities. Based on the demand analysis of the online recruitment big data analysis system,and relying on Alibaba cloud data plus,the article designs and implements the online recruitment big data analysis system to help optimize the content of talent training in universities.

Keywords:Alibaba cloud data plus;online recruitment;big data analysis

0? 引? 言

大數(shù)據(jù)在化解大學(xué)生就業(yè)困難具有重要作用[1]。高校應(yīng)對照崗位職業(yè)素質(zhì)要求,構(gòu)建學(xué)生綜合素質(zhì)培養(yǎng)體系,才能提升學(xué)生的職業(yè)綜合素質(zhì)[2]。對高校教學(xué)工作者而言,其對網(wǎng)絡(luò)招聘文本數(shù)據(jù)的分析需求是強(qiáng)烈的。但是網(wǎng)絡(luò)招聘數(shù)據(jù)體量巨大,且處于不斷更新中。數(shù)據(jù)的獲取需要實(shí)現(xiàn)自動(dòng)化、周期性執(zhí)行,需要流式的大數(shù)據(jù)分析技術(shù)支持。云計(jì)算發(fā)展帶來的普惠性,較好地彌補(bǔ)了高職院校的大數(shù)據(jù)分析底層技術(shù)支持不足,依托云計(jì)算數(shù)據(jù)分析產(chǎn)品進(jìn)行網(wǎng)絡(luò)招聘數(shù)據(jù)的分析成為可能。本文基于作者主持的“依托阿里云DataWorks的大數(shù)據(jù)分析技術(shù)在高職實(shí)訓(xùn)教學(xué)質(zhì)量監(jiān)控中的應(yīng)用研究及實(shí)踐”(重慶市教育教學(xué)改革項(xiàng)目)項(xiàng)目研究,設(shè)計(jì)并實(shí)現(xiàn)了依托阿里云數(shù)加的網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)。

阿里云大數(shù)據(jù)平臺簡稱數(shù)加,是阿里云計(jì)算的普惠大數(shù)據(jù)產(chǎn)品,旗下包含一系列的大數(shù)據(jù)產(chǎn)品及服務(wù),極大地方便了教學(xué)研究人員,在大數(shù)據(jù)時(shí)代快速擁有企業(yè)級大數(shù)據(jù)分析條件[3]。阿里云數(shù)加平臺數(shù)據(jù)開發(fā)套件包括:

(1)大數(shù)據(jù)開發(fā):集成可視化開發(fā)環(huán)境,可實(shí)現(xiàn)數(shù)據(jù)開發(fā)、調(diào)度、部署、運(yùn)維,及數(shù)據(jù)倉庫設(shè)計(jì)、數(shù)據(jù)質(zhì)量管理等功能;

(2)報(bào)表工具:海量數(shù)據(jù)的實(shí)時(shí)在線分析、豐富的可視化效果,所見即所得;

(3)機(jī)器學(xué)習(xí)工具:集數(shù)據(jù)處理、特征工程、建模、離線預(yù)測為一體的機(jī)器學(xué)習(xí)平臺,提供算法匯集,可視化編輯。

1? 網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)需求分析

網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)的功能需求主要包括網(wǎng)絡(luò)招聘大數(shù)據(jù)自動(dòng)化獲取需求、網(wǎng)絡(luò)招聘大數(shù)據(jù)的分析需求、網(wǎng)絡(luò)招聘大數(shù)據(jù)分析結(jié)果的展示需求。

1.1? 網(wǎng)絡(luò)招聘大數(shù)據(jù)自動(dòng)化獲取需求

網(wǎng)絡(luò)招聘大數(shù)據(jù)從主流互聯(lián)網(wǎng)招聘網(wǎng)站獲得。為了使數(shù)據(jù)反映市場真實(shí)情況,數(shù)據(jù)應(yīng)盡可能全面詳盡,但互聯(lián)網(wǎng)招聘網(wǎng)站的信息往往存在過期機(jī)制,即一段時(shí)間后該招聘信息可能不再存在。這也就意味著一次性的獲取歷史招聘數(shù)據(jù)是不可行的,網(wǎng)絡(luò)招聘數(shù)據(jù)獲取需要持續(xù)進(jìn)行,必須依靠爬取程序自動(dòng)化周期性進(jìn)行。

因此,需要一個(gè)統(tǒng)一的招聘數(shù)據(jù)結(jié)構(gòu)模式,統(tǒng)一不同數(shù)據(jù)來源的招聘數(shù)據(jù)。同時(shí),需要實(shí)現(xiàn)一個(gè)容錯(cuò)機(jī)制好、可持續(xù)運(yùn)行的爬蟲。此外,在保證低頻次爬取數(shù)據(jù)的同時(shí),也需要準(zhǔn)備一個(gè)代理IP池,保證數(shù)據(jù)爬取效率。原始數(shù)據(jù)獲取后,進(jìn)行簡單加工即可提供給大數(shù)據(jù)分析平臺進(jìn)行分析。

1.2? 網(wǎng)絡(luò)招聘大數(shù)據(jù)的分析需求

網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)需從兩方面對數(shù)據(jù)進(jìn)行分析:

(1)通過統(tǒng)計(jì)月度崗位招聘的發(fā)布數(shù)與薪酬范圍,反應(yīng)崗位招聘需求趨勢;

(2)通過對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求進(jìn)行文本分析,提取崗位技能關(guān)鍵詞,反映市場中崗位重要技能點(diǎn)。由于數(shù)據(jù)量較大,大數(shù)據(jù)分析平臺需要能夠支持此類大規(guī)模文本數(shù)據(jù)的分析,并提供文本分析中常用的分詞、關(guān)鍵詞提取、相似度計(jì)算等模塊。

1.3? 網(wǎng)絡(luò)招聘大數(shù)據(jù)分析結(jié)果的展示需求

為了更加直觀的展示網(wǎng)絡(luò)招聘大數(shù)據(jù)分析結(jié)果以方便教學(xué)工作者的理解與使用,網(wǎng)絡(luò)招聘數(shù)據(jù)分析結(jié)果需要采用圖表方式進(jìn)行展示,且提供各崗位的查詢。對崗位招聘的招聘數(shù)量需求與薪酬趨勢,宜采用折線圖方式呈現(xiàn);對崗位技能關(guān)鍵詞,采用詞云圖方式展示。

2? 網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)

2.1? 總體設(shè)計(jì)

網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)主要包含數(shù)據(jù)采集、數(shù)據(jù)加工與分析、數(shù)據(jù)展現(xiàn)三大部分。數(shù)據(jù)采集部分使用容器服務(wù)編排構(gòu)建Python爬蟲與MongoDB服務(wù);數(shù)據(jù)加工與分析部分采用DataWorks中的數(shù)據(jù)集成服務(wù)同步數(shù)據(jù),使用其配套的MaxCompute與機(jī)器學(xué)習(xí)PAI服務(wù)進(jìn)行數(shù)據(jù)分析;數(shù)據(jù)展現(xiàn)使用QuickBI的可視化圖表模板實(shí)現(xiàn)。總體設(shè)計(jì)如圖1所示。

2.2? 數(shù)據(jù)采集設(shè)計(jì)

為了方便異常日志查詢與服務(wù)的快速重建,本文基于容器服務(wù)采用容器方式運(yùn)行Python爬蟲、IP代理池服務(wù)、MongoDB數(shù)據(jù)庫。MongoDB是一個(gè)基于分布式文件存儲的數(shù)據(jù)庫,內(nèi)核由C++語言編寫,可提供可擴(kuò)展的高性能數(shù)據(jù)存儲解決方案[4]。采集到網(wǎng)絡(luò)招聘原始數(shù)據(jù)采用MongoDB存儲,核心字段如表1所示。

2.3? 數(shù)據(jù)加工與分析設(shè)計(jì)

爬蟲采集后的原始數(shù)據(jù),由數(shù)據(jù)集成服務(wù),定時(shí)同步到MaxCompute數(shù)據(jù)表中。依托MaxCompute與機(jī)器學(xué)習(xí)PAI服務(wù),構(gòu)建統(tǒng)計(jì)月度崗位招聘的發(fā)布數(shù)與薪酬范圍以及對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求進(jìn)行文本分析任務(wù),合理規(guī)劃調(diào)度執(zhí)行。

統(tǒng)計(jì)月度崗位招聘的發(fā)布數(shù)與薪酬范圍的工作流任務(wù)中,需要將薪酬范圍數(shù)據(jù)字段、學(xué)歷要求、發(fā)布日期等進(jìn)行加工,通過SQL完成拆分、合并等。然后按崗位、月份在MaxCompute中聚合數(shù)據(jù),形成崗位的月度招聘發(fā)布數(shù)以及薪酬范圍統(tǒng)計(jì)。

對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求進(jìn)行文本分析任務(wù),需要對崗位需求的描述文本進(jìn)行文本分析,主要采用機(jī)器學(xué)習(xí)PAI完成。在分析之前,要通過文本合并、摘要提取、子句劃分、文本過濾等方式進(jìn)行數(shù)據(jù)加工。

2.4? 數(shù)據(jù)展現(xiàn)設(shè)計(jì)

數(shù)據(jù)展現(xiàn)采用的是阿里云QuickBI,其是一個(gè)基于云計(jì)算的靈活的輕量級的自助BI工具服務(wù)平臺。針對本文中數(shù)據(jù)分析目標(biāo),QuickBI主要提供崗位查詢、崗位月度招聘趨勢數(shù),崗位月度薪酬范圍趨勢圖以及崗位需求的關(guān)鍵技能點(diǎn)云圖。

3? 網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

3.1? 數(shù)據(jù)集成

將數(shù)據(jù)采集后存儲到的MongoDB數(shù)據(jù)庫設(shè)置為數(shù)據(jù)源,再創(chuàng)建數(shù)據(jù)同步任務(wù)。MongoDB數(shù)據(jù)庫的數(shù)據(jù)同步不支持向?qū)J剑仨毑捎媚_本方式設(shè)置。最后,設(shè)置數(shù)據(jù)同步的調(diào)度方式。本文將其設(shè)置為每日凌晨1:00進(jìn)行數(shù)據(jù)全量同步。

3.2? 對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求進(jìn)行文本分析

通過對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求進(jìn)行文本分析,提取崗位技能關(guān)鍵詞,可反映市場中崗位重要技能點(diǎn)。需要指出的是,按照分詞、關(guān)鍵詞詞頻等方式進(jìn)行的關(guān)鍵詞提取,由于詞匯過于短小,提取會丟失原有崗位需求描述的大量信息。因此,本文在實(shí)現(xiàn)對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求分析時(shí),采用句子拆分方式進(jìn)行,意在找出“關(guān)鍵子句”,流程如圖2所示。

3.2.1? 提取崗位需求子句

按照崗位對崗位需求描述文本Detail字段使用分號進(jìn)行了拼接,合并后的det字段進(jìn)行文本摘要,參數(shù)保持默認(rèn)。以“

”標(biāo)簽以及中英文狀態(tài)的逗號、句號、分號、冒號作為間隔字符,進(jìn)行句子拆分。對子句進(jìn)行過濾,剔除如“崗位要求:”“崗位職責(zé):”這類明顯無關(guān)內(nèi)容。并將崗位需求描述中常見的數(shù)字序號開頭,子句結(jié)束位置的符號采用正則表達(dá)式剔除。語句如下所示:

由于數(shù)據(jù)處理過程中遺棄了jobid,需重新加入,以便后續(xù)使用。最終結(jié)果寫入數(shù)據(jù)表job_format_requirement_sentence中。

3.2.2? 找出“關(guān)鍵子句”

為了提取出每個(gè)崗位的關(guān)鍵技能點(diǎn)要求,需要從句子拆分?jǐn)?shù)據(jù)中找出“關(guān)鍵子句”,主要使用數(shù)加中的機(jī)器學(xué)習(xí)PAI“字符串相似度TopN”組件進(jìn)行實(shí)現(xiàn)。流程如圖3所示。

每次調(diào)用分析只取出一個(gè)崗位的數(shù)據(jù)。本文通過一個(gè)tmp_job_analysis_list表來記錄全部的崗位分析狀態(tài),數(shù)據(jù)表的字段結(jié)構(gòu)如表2所示。每次取出一個(gè)尚未進(jìn)行的崗位進(jìn)行分析。從job_format_requirement_sentence表取出該崗位已準(zhǔn)備好的崗位需求子句。采用機(jī)器學(xué)習(xí)PAI中的“字符串相似度TopN”組件,對子句進(jìn)行字符串相似度分析。將每個(gè)子句的相似度值output求和并倒序取出前20條,作為該崗位的“關(guān)鍵子句”并寫入數(shù)據(jù)表存儲。

3.3? 數(shù)據(jù)展現(xiàn)實(shí)現(xiàn)

數(shù)據(jù)集是QuickBI圖表的數(shù)據(jù)來源。創(chuàng)建數(shù)據(jù)集之前需要把MaxCompute設(shè)置為數(shù)據(jù)源后才可以將數(shù)據(jù)分析的結(jié)果數(shù)據(jù)設(shè)置為數(shù)據(jù)集提供給圖表使用。添加成功后可以查看我的數(shù)據(jù)源,在左側(cè)列表中可以看到剛創(chuàng)建的MaxCompute數(shù)據(jù)源。點(diǎn)擊后可在右側(cè)列表瀏覽該數(shù)據(jù)源中的全部數(shù)據(jù)表。將數(shù)據(jù)源中g(shù)z_jobs_analysis_res數(shù)據(jù)表、job_requirement_result數(shù)據(jù)表設(shè)置為數(shù)據(jù)集。如圖4所示,圖表可以直觀地查看具體崗位的月度崗位招聘低值與高值的平均薪酬變化趨勢。

崗位的關(guān)鍵技能點(diǎn)提取效果亦達(dá)到預(yù)期。以Java崗位為例,實(shí)現(xiàn)效果如表3所示。

4? 結(jié)? 論

本文通過對網(wǎng)絡(luò)招聘大數(shù)據(jù)系統(tǒng)的自動(dòng)化獲取、分析、展示的需求進(jìn)行分析,依托阿里云數(shù)加進(jìn)行了總體設(shè)計(jì),數(shù)據(jù)加工與分析設(shè)計(jì)以及數(shù)據(jù)展現(xiàn)設(shè)計(jì),實(shí)現(xiàn)了月度崗位招聘的發(fā)布數(shù)與薪酬范圍趨勢的直觀展示以及崗位關(guān)鍵需求的獲取,在此基礎(chǔ)上通過添加更多的關(guān)鍵詞過濾后可直接為高校技術(shù)技能人才的培養(yǎng)內(nèi)容提供參考。

參考文獻(xiàn):

[1] 陳鈞.大數(shù)據(jù)時(shí)代條件下大學(xué)生就業(yè)促進(jìn)論析 [J].繼續(xù)教育研究,2017(5):98-100.

[2] 趙建,程丹.高職人才培養(yǎng)與企業(yè)需求匹配度研究——基于珠江三角區(qū)域的實(shí)證分析 [J].教育評論,2015(12):103-106.

[3] 阿里云.飛天大數(shù)據(jù)平臺 [EB/OL].(2020-05-07)https://www.aliyun.com/product/bigdata/apsarabigdata.

[4] 陳敬靜,馬明棟,王得玉.MongoDB負(fù)載均衡算法優(yōu)化研究 [J].計(jì)算機(jī)技術(shù)與發(fā)展,2020,30(3):88-92.

作者簡介:黃小冬(1986—),男,漢族,江西贛州人,講師,碩士研究生,研究方向:教育學(xué)、教育信息化。

主站蜘蛛池模板: 久久人人97超碰人人澡爱香蕉| 亚洲国产中文综合专区在| 国产视频一二三区| 日韩A∨精品日韩精品无码| 国内熟女少妇一线天| 中国国产A一级毛片| 国产AV毛片| Jizz国产色系免费| 欧亚日韩Av| 亚洲91在线精品| 亚洲国产成人久久精品软件| 人妖无码第一页| 91精品情国产情侣高潮对白蜜| 999精品色在线观看| 国产成人乱无码视频| 十八禁美女裸体网站| 久久国产黑丝袜视频| 午夜无码一区二区三区在线app| 综合亚洲色图| 精品视频在线一区| aa级毛片毛片免费观看久| 国产爽爽视频| 色偷偷av男人的天堂不卡| 国产在线拍偷自揄拍精品| 伊人久久大香线蕉aⅴ色| 欧美一级一级做性视频| 国产69精品久久| 9久久伊人精品综合| 久久99国产精品成人欧美| 91久久国产综合精品| 国产麻豆精品在线观看| 精品一区二区三区无码视频无码| 毛片网站免费在线观看| 成人免费午夜视频| 97国内精品久久久久不卡| 国产无码性爱一区二区三区| 无码高潮喷水专区久久| 性欧美久久| 国内精品一区二区在线观看| 国产成人久久777777| 久久久久亚洲精品成人网| 黄色网站在线观看无码| 成人伊人色一区二区三区| 国产成人高清精品免费软件| 日本午夜精品一本在线观看| 亚洲精品日产精品乱码不卡| 日本高清在线看免费观看| 欧美成人免费一区在线播放| 综合五月天网| 国产精品亚洲欧美日韩久久| 精品欧美日韩国产日漫一区不卡| 全午夜免费一级毛片| 亚洲免费毛片| 色AV色 综合网站| 免费无遮挡AV| 日本三级精品| 亚洲人成在线精品| 国产欧美网站| 99热国产这里只有精品无卡顿"| 国产激情影院| 1024国产在线| 国产99免费视频| 中国一级特黄视频| 国产网站一区二区三区| 中文纯内无码H| 无码精油按摩潮喷在线播放| 国内精品九九久久久精品| 国产精品污视频| 久久精品人人做人人综合试看| 无码中文字幕精品推荐| 中文字幕伦视频| 极品国产在线| 91综合色区亚洲熟妇p| 欧美不卡二区| 91在线国内在线播放老师| 午夜电影在线观看国产1区| 欧美在线国产| 日韩A∨精品日韩精品无码| 综合久久久久久久综合网| 亚洲天堂日韩在线| 国产成人综合亚洲网址| 中文字幕不卡免费高清视频|