999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的園林專業人才需求分析

2022-05-12 09:25:34鄭康樂韋婷婷張建桃
現代計算機 2022年5期
關鍵詞:文本

鄭康樂,曾 莉,韋婷婷,張建桃

(華南農業大學數學與信息學院,廣州 510642)

0 引言

近年來,伴隨新型城鎮化、美麗中國建設的不斷推進以及旅游產業的持續繁榮,園林行業呈現出良好的發展勢頭,對人才的需求不斷增加。雖然目前畢業生人數逐年增多,但依然存在企業人才需求與學生就業需求同時得不到滿足的情況。且當前高校園林專業畢業生還存在專業能力較低、社會能力缺乏,以及對職業生涯規劃不完善等問題。

針對園林人才培養與就業市場需求不相適應這一現狀,許多研究者從定性分析的角度,面向就業市場、區域產業需求,對園林專業的人才培養提出了改革建議。如胡金龍針對地方高校風景園林人才培養中存在的問題,從人才培養目標、專業課程體系、實踐教學體系、人才培養保障等方面提出了改革策略。洪艷鈮指出要形成以校企合作為重點、以政府監管為支撐的“校企協同,工學結合”人才培養模式,為切實提高風景園林專業人才培養質量夯實基礎。邵長芬和李得發研究園林技術專業實踐教學的特點及存在問題,構建出適合園林技術專業人才市場需求的實踐教學模式和教學體系。溫娜等根據風景園林課程和專業特點,從“雙線條”“雙導師”及“雙評價”3個層面優化了教學方式,為培養復合型和專業型人才、提高學生的專業技能和市場競爭力提供參考。

但鮮有利用招聘信息的文本數據對園林專業人才需求進行定量分析的研究,鑒于此,本文結合網絡招聘數據,以市場需求為導向,利用文本挖掘技術分析招聘單位對園林專業人才的需求,幫助求職者快速找到市場需求定位,有效指導高校園林人才培養。

1 研究方法

利用自然語言處理及文本挖掘技術對園林專業相關的招聘信息進行文本分析,挖掘園林專業崗位的核心需求。技術路線如圖1所示,總體上對園林專業崗位的人才需求分析可以概括為以下三個階段:數據采集、數據預處理以及數據可視化。

圖1 技術路線

1.1 數據采集

2021年3月10 日,以“園林”為關鍵詞,利用Python 爬取前程無憂網上全國范圍內有關園林專業的招聘信息,共獲取24313 條招聘數據。數據的字段分別為:崗位名稱、薪資、地點、相關信息、公司名稱、公司類型以及崗位要求。

1.2 數據預處理

招聘網站上信息抓取有時會爬取到重復的崗位,且由于部分字段是非必填項,比如公司福利等,這就會難免會出現缺失值,因此必須先進行去重、去缺失值處理。同時,考慮到后續需要對崗位要求文本進行分析,本文將崗位要求文本字符串長度小于30且特殊字符(如?)占全字符串長度40%以上的文本都認為是無效文本,剔除該數據。

薪資單位不統一:經統計后發現,薪資字段共有9 種表示方法。為方便后續可視化分析,統一規范為“千/月”的形式。其中,天以每月30 天進行換算,日以每天8 小時進行換算,若薪資存在上下限區間則對其進行求和平均。

地點表達不規范:通過分析地點字段,發現第一個詞都對應著中國的某個地級市,反之則顯示異地招聘。因此,本文搜集31個省級行政區(除香港、澳門和臺灣)下所屬的各個地級市,以及東北、華北、華南等7大地區分布,遍歷提取每一行地點中的地級市,與各省及地區所屬地級市進行匹配,若匹配成功,則返回對應省份和地區,反之,則將地點標注為“其它”。

通過分析相關信息字段,發現大部分格式都遵從著“市區,工作經驗,學歷,招聘人數”這種寫法,比如“成都-高新區,5-7年經驗,大專,招若干人”。因此,本文從相關信息字段中提取“經驗、學歷、招聘人數”這三個特征字段,若提取不到對應字段,則對此數據進行剔除。至此,經過上述數據預處理后,本文保留了15569條有效的招聘數據,字段分別為:崗位名稱、薪水(千/月)、招聘人數、經驗、學歷、地區、省份、公司類型及崗位要求。

在進行中文分詞時,為了提高分詞的準確率,防止一些專有名詞被機器隨機切分開,比如“風景園林、綠化工作、工程造價”等,往往需要自定義詞典來降低切分錯誤率。本文以“園林、招聘、崗位、社會工作”等為關鍵字搜索并下載搜狗細胞詞庫中相關詞典,并通過觀察崗位要求這一列字段手動添加園林專業崗位的相關詞匯。然后,使用Python 中的jieba 加載自定義詞典。而對于崗位要求文本中的語氣詞、人稱、標點符號等特殊字符,本文則采用哈工大停用詞,并根據文本實際情況,手動添加了“備注、任職要求、崗位要求、有限公司”等相關詞匯,便于提高文本分詞的準確度。圖2是經過分詞和去除停用詞后的文本。

圖2 分詞及去除停用詞部分結果

由于進行jieba 分詞后文本間可能會出現重復值,且分詞后每行文本的字符串長度都會遞減,有些甚至會減少到0。因此,有必要對文本進行進一步的清洗。本文對崗位要求中所有分詞字符串總長度小于30 的數據進行剔除,再進行去重操作。經文本預處理后,崗位要求全部文本平均長度約為203個,最小值為31個,最大值為3828個。

1.3 LDA提取主題詞

潛在狄利克雷分配(Latent Dirichlet Alloca?tion,LDA)模型是由Blei DM 等人于2003年提出的,它采用無監督的學習方法找出文本中所隱含的主題,其中的主題是一篇文檔中所包含的中心思想,在模型中主題被看作由一些服從特定概率分布的詞語構成,可用此模型得到文檔的主題分布,通過分析文檔的主題分布和主題對應的詞分布,可以進行主題詞的提取。

主題數的選取是LDA 建模最為關鍵的一步。一般地,主題數若選取過多,會導致主題提取過細,各部分重合度過高;主題數過少又會導致不同概念可能會歸納到同一個主題里,降低文本主題的可讀性。

本文采取LDA模型的困惑度指標(perplex?ity)以及基于經驗和主觀判斷對實際模型不斷調參,繪制崗位要求字段困惑度的學習曲線,來選取最佳的主題數。LDA 模型的困惑度計算公式如下所示。

其中,表示語料庫中的測試集,本文采用隨機選擇語料庫中20%的文檔作為測試集,剩下80%的文檔作為訓練集。是文檔的篇數,N表示文檔中詞,(W)表示文檔中W一詞產生的概率。一般來說,困惑度越低,提取主題的效果越好。

2 數據可視化展示及分析

2.1 公司類型描述

由圖3可知,共有11 種不同類型的公司。其中,發布園林類崗位招聘信息最多的是民營公司,共計12548 家,占比約為80.6%;其次是國企,共計1052 家,占比約為6.76%;發布量排名第三的則是上市公司,共計980家,占比約為6.29%;合資和外資公司也對園林類崗位人才有所需求,在樣本中有470 家(3.02%)合資公司和332 家(2.13%)外資公司發布了招聘信息;而創業公司、非營利組織、事業單位、政府機關以及政企代表處對園林類崗位發布招聘信息較少。

圖3 發布招聘信息公司類型及其數量分布

2.2 工作經驗分析

從圖4可以看出,在工作經驗要求上,有28.96%的公司要求園林人才有4年工作經驗,要求6年工作經驗的公司占比達到了20.84%,而要求2年、1年以及無工作經驗的公司占比差別不大(分別為16.71%、14.66%和11.78%),要求有8年和10年工作經驗的公司累計占比約為7.04%。由此可見,公司比較看重有豐富工作經驗的園林人才。因而,園林專業的學生需通過實踐不斷充實工作經歷,在提升能力的同時積累自身經驗。

圖4 工作經驗分析

2.3 學歷與薪資分析

本文將薪資大于40 千/月的數據作為異常值進行剔除,繪制圖5的學歷與薪資箱線圖。可以看出,大專、中專以及高中的箱線圖較為類似,薪資的中位數也較為接近,基本上穩定在6~8千/月,但大專薪資內限以外的異常值較多,部分人最高薪資甚至可以達到40 千/月;本科與碩士的薪資中位數在10~13 千/月,從數據分布上來看,本科的薪資相比碩士來說更為分散,但兩者就業薪資趨勢大體上基本一致;初中及以下薪資中位數最低,為3~5 千/月,而博士薪資中位數最高,為19~22 千/月,其下四分位數也基本等同于本科薪資的中位數。由此可見,園林人才學歷越高,就業競爭中優勢越明顯,薪資水平也會更高。

圖5 學歷與薪資箱線圖

2.4 學歷和地區需求分析

從圖6可以看到,大專的招聘人數需求最為旺盛,共計18687人,占比59.86%;其次是本科,共計9309人,占比29.82%;中專所招人數1856人(5.95%); 高 中 所 招人 數 為964人(3.09%);初中及以下所招人數183人(0.59%);碩士所招人數199人(0.64%);而博士在累計招聘人數為31217人中只招19人。由此可見,園林專業崗位的招聘人數所需學歷主要以大專和本科為主,占市場需求89.68%。

圖6 學歷招聘人數折線圖

從圖7、圖8可以直觀地看出,園林專業崗位人才在地理位置上的需求差異。

圖7 招聘人數地區條形圖

圖8 招聘人數省份分布

華東地區招聘人數最多,為9199人,占全國園林崗位招聘需求的29.47%,其中華東地區以江蘇、浙江、上海等發達省市為主,分別提供了3112、2708、1714個招聘名額;華南地區招聘人數為6691人,占全國園林崗位招聘需求的21.43%,其中以廣東省為主力軍,為整個華

南地區提供了6395個招聘名額,需求量在全國省市中最為旺盛;地區分布中標注為“其它”表示異地招聘,并不直接說明工作地點,但其招聘人數也達到了5695人,占比18.24%;西南地區招聘4143人,占比13.27%,其中四川、重慶、云南分別為西南地區提供了2183、1123、765個招聘名額;華中地區招聘3111人,占比9.97%,其中湖北、湖南、河南分別提供2231、538、342個招聘名額;西北地區招聘1024人,占比3.28%,其中陜西、甘肅分別提供962、36個招聘名額;華北地區招聘815人,占比2.61%,其中北京、天津、河北分別提供607、120、71個招聘名額;東北地區招聘人數最少,為539人,占比1.73%,其中遼寧、黑龍江、吉林分別提供423、60、56個招聘名額。綜上所述,園林專業的招聘單位主要集中在華東和華南地區,其中以廣東、江蘇、浙江、湖北、四川、上海、重慶等發達省市為主。

2.5 “崗位要求”字段的LDA可視化

本文在不同主題數下計算崗位要求字段的LDA困惑度如圖9所示。可以看出,當主題數取值在1~3 時,困惑度斜率變化最大,而當主題數大于3時,斜率變化較為平緩,此時的困惑度也相對較小,說明主題數為3可以較好提取崗位要求文本中的主題。因此,本文將3作為崗位要求字段LDA主題模型訓練的主題數。

圖9 崗位要求字段的LDA困惑度

運用LDA 模型可得到崗位要求字段中3個主題分布下的特征詞,而對于那些與主題無關且實際意義不大的詞語,進行人工剔除后選取每個主題下前30個權重值最大的特征詞,接著利用Python 中封裝好的WordCloud 包對3個主題的特征詞進行可視化繪制,效果如圖10—圖12所示。下列各主題的前30個特征詞占120 萬個分詞的權重值依次為29.42%、 32.86%和12.37%。

圖10 主題1工程能力詞云圖

圖11 主題2設計能力詞云圖

圖12 主題3業務和管理能力詞云圖

圖10—圖12可以看出,輸出的詞云圖分別代表企業招聘信息中蘊含著對園林專業崗位的三方面要求。從主題1和主題2 輸出的特征詞可以發現,兩個主題所反映的能力均與園林專業所學知識密切相關,可以將兩者概括為專業上的“硬技能”,且兩者在所有分詞中的綜合權重為62.28%,說明招聘單位極為看重這方面的能力。從高校園林人才培養的角度出發,結合園林專業綜合性和實踐性較強的特點,可以將主題1 的前30個特征詞概括為工程能力,主要體現在園林工程學和園林建設項目管理等課程上,強調園林人才需要以項目為驅動來夯實專業基礎知識,培養工程師思維,以及在項目運營中充分鍛煉計劃、組織、控制以及現場施工能力;主題2 的前30個特征詞則可以概括為設計能力,主要體現在中國園林設計和園林建筑學等課程上,強調園林人才需要提高自主設計與創新能力,熟練掌握CAD、PS和SU等軟件的使用方法,在實際項目中能獨立進行方案和景觀設計,且需在團隊中具備溝通、合作以及高度的責任感。主題3的特征詞則更多的從市場的角度出發,注重園林人才“軟實力”方面上的要求,因而可以將前30個特征詞概括為業務和管理能力,強調園林人才需要投身于社會實踐中不斷提高自身的產品和服務意識,培養科學、全面及文檔化的管理思維,在市場中磨練銷售、營銷和業務能力,從而敏銳判斷行業的發展趨勢,并做出準確的評估。

3 建議和結論

3.1 建議

結合上文對數據可視化的結果,對高校園林專業人才培養提出以下建議。

從工作經驗分析中可知,88.22%的招聘單位對工作經驗有一定的要求,說明企業十分看重求職者的實踐經驗。因此學校可以通過強化教育服務體系建設,將職業指導與日常的專業學習密切結合等方式,為學生爭取更多的企業實踐機會,可將目光重點聚焦在廣東、江蘇、浙江、湖北等園林專業崗位需求旺盛的發達省市中,為學生爭取到寶貴的實習機會,讓他們將所學知識充分運用到實踐中。

由LDA 提取崗位要求字段的“硬技能”可知,工程能力和設計能力相關詞語在所有分詞文本中占綜合權重為62.28%,說明大多數招聘單位都重視園林專業學生的工程思維、自主創新能力和綜合實踐水平,強調學生對基礎知識的理解和運用。因此,在課程設置上,各大高校可在充分調研用人單位和往屆畢業生的基礎上,合理修訂原有人才培養方案,適當增加實踐課的比重,如生態園林設計和園林工程學的課程實訓等。綜合類院校則需要增加更貼合招聘單位需求的實踐應用課程,讓學生能在交流中進行思維共享和理論碰撞,充分將所學知識運用到園林規劃設計項目的各個環節中,夯實專業基礎知識,真正培養學生的工程能力和設計能力,提高專業核心素養。

綜合LDA 所提取的“硬技能”和“軟實力”來看,3個主題的前30個特征詞在所有分詞文本中累計權重為74.65%,說明招聘單位十分注重園林人才將專業知識與實際項目融會貫通,以及在工作中交流、表達的能力,著重從多方面考察學生在專業上的綜合素質。因此,各大高校可以通過完善校企協同育人相關制度建設、出臺保障措施等方式,圍繞應用型、復合型、高素質園林人才的培養目標,引導民營公司等企業積極參與到人才培養方案制定和具體課程設置改革中來,豐富課堂教學形式,培養學生橫向和縱向思維能力,擴寬個人眼界,全面提高學生的實踐創新能力和綜合素質。

3.2 結論

隨著新型城鎮化、美麗中國建設的不斷推進以及旅游產業的持續繁榮,新常態下園林行業及相關產業對園林人才的需求變得越來越旺盛。通過對園林專業網絡招聘信息進行文本分析,可以幫助致力于往園林方向發展的求職者,并有效指導高校園林人才培養。在生態文明建設日益加強的背景下,高等院校作為園林專業人才的主要供給主體,應當從提升學生的“硬技能”和“軟實力”兩方面入手,以面向就業市場需求為導向,既要改革自身的教育教學體系,又要強化校企協同育人,全方面提升學生的實踐創新能力,培養具有核心就業競爭力的園林人才。

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 亚洲经典在线中文字幕| 国产丝袜啪啪| 亚洲永久免费网站| 一区二区三区成人| 99精品视频九九精品| 国产99视频在线| 亚洲精品第五页| 国产最爽的乱婬视频国语对白| 欧美天天干| 一区二区三区国产精品视频| 国产精品蜜臀| 国产精品午夜电影| 久久永久精品免费视频| 国语少妇高潮| 欧美在线天堂| 亚洲区第一页| 成人精品免费视频| 久久国产免费观看| 久久这里只有精品8| 呦女精品网站| 国产精品99一区不卡| 91福利免费| 偷拍久久网| 国产成人一区二区| 中文字幕不卡免费高清视频| 国产成人精品优优av| 欧美精品v欧洲精品| 国产新AV天堂| 欧美性天天| 亚洲中文在线看视频一区| 亚洲日韩久久综合中文字幕| 午夜性爽视频男人的天堂| 国产麻豆精品久久一二三| 97视频免费看| 免费在线不卡视频| 国产h视频在线观看视频| 国产乱论视频| 2022国产91精品久久久久久| 最新国语自产精品视频在| 亚洲成网站| 谁有在线观看日韩亚洲最新视频| 亚洲中文字幕在线观看| 在线观看国产精品第一区免费| 日韩麻豆小视频| 欧美性色综合网| 亚洲丝袜中文字幕| 伊在人亚洲香蕉精品播放| 午夜毛片免费观看视频 | 日韩精品久久久久久久电影蜜臀| 一级全免费视频播放| 日本午夜影院| 国产高清在线精品一区二区三区 | h网站在线播放| 国产高颜值露脸在线观看| 青青草a国产免费观看| 亚洲欧美在线看片AI| 国产性精品| 国产一区自拍视频| 91啪在线| 亚洲综合婷婷激情| 日韩天堂网| 91免费国产高清观看| 视频在线观看一区二区| 啦啦啦网站在线观看a毛片| 国产成人精品高清不卡在线| 国产农村1级毛片| 亚洲欧美在线综合一区二区三区| 深夜福利视频一区二区| 色偷偷av男人的天堂不卡| 亚洲中文字幕无码爆乳| 国产精品无码一二三视频| 日韩麻豆小视频| 国产在线91在线电影| 久久特级毛片| 男人天堂亚洲天堂| 精品国产免费第一区二区三区日韩| 国产成人成人一区二区| 波多野结衣一二三| 国产精品视频公开费视频| 亚洲美女一区二区三区| 国产高潮流白浆视频| 伊人久久大香线蕉成人综合网|