999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘技術的數據類崗位招聘信息分析與研究

2024-04-14 02:12:21王姣姣姚華平
現代信息科技 2024年2期

王姣姣 姚華平

DOI:10.19850/j.cnki.2096-4706.2024.02.004

收稿日期:2023-06-14

摘? 要:通過對招聘網站信息的挖掘分析了解崗位的需求分布和發展趨勢,能夠為求職者提供重要的指導。首先采用爬蟲技術獲取“拉勾網”和“前程無憂”招聘網站的數據類崗位相關信息,經過數據預處理,采用jieba分詞進行數據特征分析,以可視化形式展示數據類崗位數據分布特點,并得到福利待遇和公司類型的詞云圖;然后采用TF-IDF算法對五類數據類崗位的崗位要求提取關鍵詞,使得求職者能夠根據職位畫像選擇最佳崗位;最后基于LDA主題模型確定最優主題數,進而挖掘得到崗位要求。

關鍵詞:崗位需求分析;爬蟲技術;數據挖掘;可視化技術;LDA主題模型

中圖分類號:TP391? ? 文獻標識碼:A? ? 文章編號:2096-4706(2024)02-0013-05

Analysis and Research on Recruitment Information for Data Related Positions

Based on Data Mining Technology

WANG Jiaojiao, YAO Huaping

(Luoyang Institute of Science and Technology, Luoyang? 471023, China)

Abstract: By mining and analyzing information from recruitment websites, we can understand the distribution of job demands and development trends, which can provide important guidance for job seekers. Firstly, crawler technology is used to obtain relevant information on data related positions on the recruitment websites of “Lagou Net” and “51job”. After data preprocessing, Jieba segmentation is used for data feature analysis to visually display the distribution characteristics of data in data related positions, and a word cloud map of welfare benefits and company types is obtained; then, the TF-IDF algorithm is used to extract keywords from the job requirements of five types of data related positions, enabling job seekers to select the best position based on the job profile; finally, based on the LDA topic model, the optimal number of topics is determined, and then job requirements are mined.

Keywords: analysis of position requirement; crawler technology; data mining; visualization technology; LDA topic model

0? 引? 言

如今數字經濟席卷全球,網絡招聘信息平臺現已成為企業發布招聘信息和求職者找工作的主要渠道,相比于傳統的招聘方式,網絡招聘沒有空間和時間的限制,且招聘信息全、工作機會多,也避免了地域性限制,求職者可以通過在網上投簡歷從而找到心儀工作[1]。在此背景下,也可以發現目前Web招聘網站發布的招聘信息最能反映市場對技能的需求,其中就包含了公司對各類求職者在學歷上、技能上、工作經驗等一些具體要求,但這些招聘信息都是存儲在網站上,只是對求職者的無組織的文本信息,需要求職者花費大量的精力去篩選與自身能力匹配的崗位信息,而通過對這些信息進行有效的詳細分析和文本挖掘,可以準確獲取企業用人需求分布以及發展趨勢,給求職者提供有效幫助。本文從招聘網站對數據類崗位的社會需求入手,從拉勾網和前程無憂招聘網站兩大主流招聘網站爬取信息,利用大數據技術和文本挖掘方法,對崗位信息進行分析,挖掘得到企業對數據類人才技能的特征,掌握數據類崗位用人特點,對于廣大求職者來說,這些信息具有重要參考價值。

1? 技術介紹

1.1? Python語言

Python是一種動態解釋型的編程語言,具有面向對象的特性,提供了內置的數據結構[2],包括元組、列表、字典、集合等,擁有大量的現成庫,廣泛用于數據分析、網絡爬蟲以及Web開發等。近年來隨著人工智能、數據科學的興起,Python使用量呈線性增長,成為目前世界上最受歡迎的編程語言之一[3]。

1.2? Echarts工具

Echarts的全稱為Enterprise Charts,是一個使用JavaScript實現的開源可視化庫[4],提供了豐富的圖表庫,包括樹圖、餅圖、熱力圖、關系圖等多種圖表類型。使用Echarts能夠實現圖形的動態展示,增強了界面的美觀性。并且Echarts能夠實現與數據庫的交互,常被用來制作可視化大屏[5,6]。

1.3? TF-IDF算法

詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)用于詞條的加權,本質上是作為一種統計方法計算一個字詞在一篇文章中的重要程度[7]。在一篇文章中,一個詞語的重要程度往往與它的出現頻率成正比,但是又會隨著它在語料庫中的出現頻率成反比。因此,當一個詞語在一篇文章中出現的頻率越大,同時又在語料庫中出現的頻率越少,說明這個詞語比較能夠表達文章的主題。

詞頻(Term Frequency, TF)為詞條出現在文本中的頻率[8],通常情況下會對其進行歸一化,防止它偏向長的文件。TF用公式表示為:

(1)

其中,ni, j為詞條ti在文檔dj中出現的次數,TFi,j為詞條ti在文檔dj中出現的頻率。

逆文件頻率(Inverse Document Frequency, IDF)為詞條的普遍程度。IDF用公式表示為:

(2)

其中,| D |為所有文檔的數量,| j:t_i ∈ d_ j |為包含詞條t_i的文檔數量,為了防止包含詞條t_i的數量為0而導致運算出錯,對| j:t_i ∈ d_ j |進行加1。

TF-IDF就是詞頻與逆文件頻率的乘積,其公式為:

(3)

TF-IDF的范圍可以從0到無窮大,當一個詞語在文本中沒有出現時,TF值為0,TF-IDF值也為0,當一個詞語在文本中出現的頻率越高,TF值越大,TF-IDF值也越大。當一個詞語在整個文本集合中的重要程度越高,則TF-IDF值越大[9]。

2? 數據獲取與預處理

2.1? 數據采集

網絡爬蟲(又被稱為網頁蜘蛛、網絡機器人)主要是一種程序,通過程序模擬瀏覽器向服務器發送網絡請求,在服務器接收請求響應后,按照一定的規則,自動地抓取信息,進行批量的數據下載[10]。爬蟲的具體流程如圖1所示。

2.2? 數據保存

通過對“拉勾網”和“前程無憂”兩個網站全國的數據類崗位進行爬取,共采集了23 000多條數據。此次采集的數據含有:崗位名稱、工作地點、工作經驗、學歷要求、薪資水平、融資階段、公司規模、行業領域、職位標簽、福利待遇等。將獲取的數據存儲至csv文件中。部分采集結果如圖2所示。

2.3? 數據預處理

2.3.1? 結構化數據預處理

對于結構化數據的預處理是先使用Excel自帶的刪除重復項功能對全局進行重復項刪除,像工作經驗和公司類型數據,通過指定分隔符進行分割,像爬取的崗位薪資列是一個范圍,所以使用split函數指定分割符將其劃分為最高工資和最低工資,并將其轉化為整型后計算平均薪資,便于后期進行數據分析。

2.3.2? 非結構化數據預處理

在采集的數據中,存在部分的文本數據,如:福利待遇、公司行業領域、崗位職責和崗位要求等。對于這些非結構化的文本數據通過Python的jieba分詞庫對其進行中文分詞。jieba分詞支持以下三種分詞模型[11]:

1)精準模式:精確的切分文本,沒有冗余。

2)全模式:將文本中有可能是詞語的都進行掃描,速度較快,存在冗余。

3)搜索引擎模式:在精準模式的基礎上,對長詞再次切分。

本文采取全模式對文本數據進行分割,但是由于中文語言的不確定性,并且數據類崗位有一定的特性,在崗位要求描述上存在許多技能性的詞語,在一定程度上會影響分詞結果。所以對特殊的關鍵性詞語構建技能詞典,部分技能特征詞如表1所示。

通過jieba.load_userdict函數加載自定義的詞典,對文本數據進行分詞[12],分詞后的詞匯中有很多詞匯如:“或”“的”“等”。這類詞語對于我們后期提取數據類崗位特征詞是沒有意義的,因此將以上這些語氣詞、介詞、標點符號等統一作為停用詞對上述分詞結果進行過濾,本文采用百度停用詞表并做部分修改,如表2所示。

通過加載停用詞后,對jieba分詞的結果進行遍歷,過濾掉停用詞。將停用詞過濾結果進行保存,經過上述分詞后的數據便于后期進行可靠的文本挖掘分析[13]。

3? 實驗結果分析

3.1? 數據類崗位特征可視化分析

使用可視化技術對數據類崗位進行分析,從學歷來看,學歷占比排序為本科>大專>學歷不限>碩士>博士,本科占比為86.49%,說明招聘以本科學歷為主,如圖3所示;從薪資來看,可以看出整體上來看學歷與薪資呈正比例關系,學歷越高則薪資水平越高,但差別不大,高出范圍并不明顯,如圖4所示。

3.2? 基于文本的詞云圖分析

對福利待遇和公司類型數據進行jieba分詞后統計詞頻制作詞云。先將分詞結果放入txt文件中,引入第三方庫WordCloud根據詞頻生成詞云圖[13],結果如圖5和圖6所示。

由圖5和圖6展示的詞云圖結果可知:福利待遇在五險一金、六險一金、雙休、氛圍、帶薪年假等出現的詞頻較高。而發布的數據類崗位招聘需求的公司,其中做服務咨詢、數據服務、軟件服務、技術服務、電商和短視頻的占比較大。

3.3? 基于TF-IDF的數據類職位網絡架構

對進行分詞處理后的數據分析工程師、數據挖掘工程師、數據開發工程師、數據運維工程師、數據庫工程師這5類數據類崗位的崗位要求分析結果進行TF-IDF權重計算,結果如表3至表7所示。

通過上述TF-IDF對數據分析、數據開發、數據挖掘、數據運維、數據庫5類崗位的關鍵詞權重計算結果,選取權重最大的10個關鍵詞,通過Echarts繪制網絡圖,如圖7所示。

從網絡圖的展示結果可知每個崗位對應的各個關鍵詞,說明這些是從事數據類崗位必須掌握的技能;不同類型的數據類崗位之間含有相同的關鍵詞,如數據庫、Linux、Python等,說明行業之間有著技術交

叉,需要求職者具備這些基礎技能;各個數據類崗位分別有著各自唯一關鍵詞,說明這是該崗位區別于其他崗位需要的必備技能,對于求職目標明確的求職者來說可以有重點地增加該技能??傊?,根據這些職位畫像,求職者可以結合自身實力來選擇適合自己的崗位。

4? 結? 論

本文首先采用爬蟲技術獲取招聘網站數據類崗位信息,通過去重、去異常值、設停用詞以及分詞等預處理,對信息中的地區、學歷、薪資等關系進行分析并以可視化形式進行展示,最后使用數據挖掘算法得到崗位要求關鍵詞,為求職者提供準確有效的參考。通過對網絡招聘信息的分析與挖掘,可以掌握當前社會數據類行業的需求特點與發展趨勢。根據分析挖掘結果,可以讓相關求職者有針對性地補充專業知識,增強對口技能,也能方便計算機相關專業學生了解自己應該掌握的技能側重點以及學校對工作單位所需要的人才的技能進行有針對性的培養。本次研究結果具有為高校的人才培養以及大學生自身能力構建、就業選擇以及職業規劃等提供參考依據的意義。

參考文獻:

[1] 徐晗,趙鑫.互聯網時代網絡招聘面臨的機遇、問題及對策分析 [J].江蘇科技信息,2022,39(20):53-56.

[2] 宋永生,黃蓉美,王軍.基于Python的數據分析與可視化平臺研究 [J].現代信息科技,2019,3(21):7-9.

[3] 鐘機靈.基于Python網絡爬蟲技術的數據采集系統研究[J].信息通信,2020(4):96-98.

[4] 任妮,吳瓊,栗薈荃.數據可視化技術的分析與研究 [J].電子技術與軟件工程,2022(16):180-183.

[5] 謝美英.基于Anaconda的嬰兒用品數據爬取及可視化分析 [J].現代信息科技,2021,5(14):90-93.

[6] 馮洪熙,王林,魏嘉銀,等.基于回歸分析的網絡招聘信息爬取及可視化 [J].現代信息科技,2021,5(10):1-5.

[7] 劉宇韜,施莉,劉詩含.基于TF-IDF與Word2vec的用戶評論分析研究 [J].成都航空職業技術學院學報,2022,38(4):89-92.

[8] 鐘曉旭.基于Web招聘信息的文本挖掘系統研究 [D].合肥:合肥工業大學.

[9] 殷漫漫.基于電商化妝品評論主題的挖掘研究——以京東平臺化妝品為例 [J].營銷界,2022(21):161-163.

[10] 馮曉磊.基于Python的拉勾網網絡爬蟲設計與實現 [J].現代信息科技,2023,7(6):85-87+91.

[11] 陳佳楠.招聘網站中數據分析類崗位的現狀及其影響因素 [D].桂林:廣西師范大學,2020.

[12] 劉暢.基于Web文本挖掘的數據分析崗位需求研究 [J].中國管理信息化,2018,21(10):76-79.

[13] 涂曉彬.基于大數據技術的網絡招聘崗位需求分析方案 [J].信息技術與信息化,2022(12):31-34.

作者簡介:王姣姣(1994—),女,漢族,河南洛陽人,助教,碩士,研究方向:大數據技術、計算機應用;姚華平(1976—),女,漢族,河南洛陽人,講師,碩士,研究方向:軟件工程、計算機應用。

主站蜘蛛池模板: 精品伊人久久久香线蕉| 一区二区午夜| 午夜一级做a爰片久久毛片| 亚洲国产精品不卡在线| 狠狠操夜夜爽| 精品欧美一区二区三区久久久| 538国产视频| av无码久久精品| 亚洲无码高清一区| 在线中文字幕日韩| 国产亚洲视频中文字幕视频| 热99精品视频| 国内精品一区二区在线观看| 亚洲无限乱码一二三四区| 欧美亚洲日韩中文| 精品在线免费播放| 手机在线免费毛片| 国产天天色| 亚洲国产AV无码综合原创| 无码免费试看| 91精品国产自产在线老师啪l| 午夜少妇精品视频小电影| 高潮毛片免费观看| 一本综合久久| 欧美精品1区| 久久婷婷国产综合尤物精品| 国产91在线|中文| 久久综合五月| 毛片久久网站小视频| 久久一色本道亚洲| 毛片免费视频| 波多野结衣一区二区三区AV| 国产黄网永久免费| 日本欧美中文字幕精品亚洲| 亚洲AⅤ无码国产精品| 亚洲精品免费网站| 香蕉久久国产超碰青草| 亚洲二区视频| 国产精品19p| 日韩视频精品在线| 在线人成精品免费视频| 扒开粉嫩的小缝隙喷白浆视频| 久久精品国产精品青草app| 亚洲侵犯无码网址在线观看| 亚洲日韩国产精品综合在线观看| 国产福利小视频高清在线观看| 国产亚洲欧美日本一二三本道| 久久99精品国产麻豆宅宅| 色呦呦手机在线精品| 91国语视频| 日韩精品高清自在线| 久久国产精品波多野结衣| 国产一级在线播放| 亚洲无码一区在线观看| 欧美中文字幕一区| 无码精品福利一区二区三区| 人人妻人人澡人人爽欧美一区 | 欧美精品xx| 中文字幕日韩视频欧美一区| 久久精品丝袜高跟鞋| 91国内在线观看| 东京热高清无码精品| www.91在线播放| 亚洲欧美自拍一区| 亚洲色图另类| 久久影院一区二区h| 久久女人网| 欧美午夜精品| 国产日韩丝袜一二三区| 色婷婷亚洲综合五月| 97国产在线观看| 综合久久五月天| 四虎成人免费毛片| 经典三级久久| 色播五月婷婷| 久久精品女人天堂aaa| 国产日产欧美精品| 日韩色图在线观看| 日韩麻豆小视频| 久久无码免费束人妻| 国产美女叼嘿视频免费看| 亚洲欧美综合在线观看|