999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于協(xié)同過濾算法的智能崗位分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2023-10-08 13:15:16
軟件工程 2023年10期
關(guān)鍵詞:可視化用戶系統(tǒng)

陳 亮

(大連東軟信息學(xué)院, 遼寧 大連 116023)

0 引言(Introduction)

據(jù)教育部公布的最新數(shù)據(jù)顯示,2022年高校應(yīng)屆畢業(yè)生人數(shù)再創(chuàng)新高,突破1 000萬人,整體社會(huì)的就業(yè)壓力依然巨大[1]。對(duì)于求職者來說,招聘網(wǎng)站是其獲取求職信息的主要方式,目前市面上已有許多類型的招聘網(wǎng)站,這些網(wǎng)站會(huì)定期發(fā)布一些企業(yè)的招聘需求,但是這些招聘信息的數(shù)據(jù)量龐大,求職者想要在海量的招聘信息中找到適合自身需求的崗位十分困難,這些網(wǎng)站存在的一個(gè)普遍問題是只為企業(yè)發(fā)布招聘信息和求職者搜索招聘信息提供了一個(gè)平臺(tái),但是并不能給求職者提供高效、系統(tǒng)性的專業(yè)建議和指導(dǎo),求職者在這些平臺(tái)上也無法快速、準(zhǔn)確的地獲取自己需要的企業(yè)招聘信息。基于此,本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于協(xié)同過濾算法的智能崗位分析系統(tǒng),旨在利用大數(shù)據(jù)和人工智能技術(shù)對(duì)海量的招聘信息數(shù)據(jù)進(jìn)行智能分析和處理,不僅可以讓求職者更加直觀地了解目前的就業(yè)行情與需求,也可以讓求職者更快速和便捷地獲取適合自己的崗位需求信息。

1 系統(tǒng)數(shù)據(jù)架構(gòu)(System data architecture)

智能崗位分析系統(tǒng)整體數(shù)據(jù)架構(gòu)包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和數(shù)據(jù)可視化展示等部分。數(shù)據(jù)源主要來自主流招聘網(wǎng)站上公開的招聘信息,采集技術(shù)采用Python爬蟲框架Scrapy,原始數(shù)據(jù)存儲(chǔ)在Hadoop平臺(tái)分布式文件系統(tǒng)HDFS上,通過Hive進(jìn)行數(shù)據(jù)查詢和處理,得到的數(shù)據(jù)結(jié)果通過Sqoop導(dǎo)入MySQL數(shù)據(jù)庫,通過機(jī)器學(xué)習(xí)領(lǐng)域的協(xié)同過濾算法進(jìn)行智能化分析,最后通過可視化技術(shù)對(duì)結(jié)果數(shù)據(jù)進(jìn)行展示。系統(tǒng)數(shù)據(jù)架構(gòu)圖如圖1所示。

圖1 系統(tǒng)數(shù)據(jù)架構(gòu)圖Fig.1 System data architecture diagram

2 系統(tǒng)設(shè)計(jì)(System design)

2.1 系統(tǒng)用例設(shè)計(jì)

本系統(tǒng)主要包括兩個(gè)角色,分別為管理員和普通用戶。滿足用戶基本業(yè)務(wù)需求的用例是高層用例,這些用例包括用戶基本操作和管理員基本操作。高層用例圖如圖2所示。

圖2 高層用例圖Fig.2 High-level use case diagram

2.2 數(shù)據(jù)采集與清洗

數(shù)據(jù)采集部分采用Python爬蟲框架技術(shù)Scrapy,獲取主流招聘網(wǎng)站的招聘信息,作為整個(gè)系統(tǒng)的原始數(shù)據(jù)源。Scrapy是開源快速的網(wǎng)絡(luò)爬蟲框架,可以從網(wǎng)站獲取網(wǎng)頁數(shù)據(jù)信息,并從頁面中得到用戶想要的數(shù)據(jù),它的核心是Scrapy engine爬蟲引擎,通過Scheduler調(diào)度模塊模擬發(fā)送HTTP請(qǐng)求、Downloader下載器模塊接收并生成頁面響應(yīng),Spider爬蟲程序模塊迭代提取網(wǎng)頁中的數(shù)據(jù)內(nèi)容,Item Pipeline數(shù)據(jù)管道模塊對(duì)獲得的數(shù)據(jù)進(jìn)行持久化的存儲(chǔ)[2]。Scrapy爬蟲框架如圖3所示。

圖3 Scrapy爬蟲框架Fig.3 Scrapy crawler frame

2.3 數(shù)據(jù)平臺(tái)搭建

平臺(tái)環(huán)境搭建采用虛擬化技術(shù)虛擬出三臺(tái)Linux服務(wù)器構(gòu)成集群,主機(jī)名分別設(shè)為shixun01、shixun02、shixun03。集群配置shixun01 CPU核心數(shù)為4,磁盤空間為50 GB,內(nèi)存大小為8 GB;shixun02 CPU核心數(shù)為2,磁盤空間為50 GB,內(nèi)存大小為4 GB;shixun03 CPU核心數(shù)為2,磁盤空間為50 GB,內(nèi)存大小為4 GB[3]。在搭建好的數(shù)據(jù)平臺(tái)上安裝Hadoop、MySQL、Hive、Sqoop等軟件工具。數(shù)據(jù)平臺(tái)如圖4所示。

圖4 數(shù)據(jù)平臺(tái)Fig.4 Data platform

2.4 數(shù)據(jù)倉庫建設(shè)與開發(fā)

數(shù)據(jù)倉庫使用Hive技術(shù)進(jìn)行建設(shè)。整體數(shù)據(jù)倉庫架構(gòu)分為原始數(shù)據(jù)層、基礎(chǔ)數(shù)據(jù)層、明細(xì)數(shù)據(jù)層、聚合數(shù)據(jù)層和應(yīng)用數(shù)據(jù)層。原始數(shù)據(jù)層接收采集的原始數(shù)據(jù),基礎(chǔ)數(shù)據(jù)層存儲(chǔ)經(jīng)過清洗后的原始數(shù)據(jù),明細(xì)數(shù)據(jù)層根據(jù)業(yè)務(wù)場(chǎng)景將基礎(chǔ)數(shù)據(jù)進(jìn)行細(xì)化分類,聚合數(shù)據(jù)層根據(jù)業(yè)務(wù)主題和需求提前聚合相關(guān)統(tǒng)計(jì)數(shù)據(jù),應(yīng)用數(shù)據(jù)層根據(jù)需求存儲(chǔ)用于產(chǎn)出可視化圖表的應(yīng)用結(jié)果數(shù)據(jù)。數(shù)據(jù)倉庫架構(gòu)圖如圖5所示。

圖5 數(shù)據(jù)倉庫架構(gòu)Fig.5 Data warehouse architecture

2.5 算法分析

預(yù)測(cè)問題一直是機(jī)器學(xué)習(xí)領(lǐng)域中最重要的問題。很多算法包括回歸算法、決策樹算法等都是用來解決預(yù)測(cè)的常用算法。本系統(tǒng)預(yù)測(cè)算法采用經(jīng)典的協(xié)同過濾算法,首先依據(jù)用戶屬性特征,找到具體相似興趣的用戶,其次根據(jù)用戶評(píng)價(jià)矩陣以及對(duì)產(chǎn)品的評(píng)價(jià)結(jié)果構(gòu)建協(xié)同過濾算法,進(jìn)而預(yù)測(cè)其他未評(píng)分的項(xiàng)目或者用戶,最后根據(jù)預(yù)測(cè)出的結(jié)果對(duì)用戶進(jìn)行推薦。

該算法的基本操作步驟如下:①利用已經(jīng)擁有的用戶行為歷史數(shù)據(jù),構(gòu)造用戶項(xiàng)目評(píng)分矩陣;②通過相似度計(jì)算公式計(jì)算用戶之間的相似度,將相似度較高的用戶當(dāng)作目標(biāo)用戶的近鄰集;③在進(jìn)行評(píng)分預(yù)測(cè)后,按照TOP-N原則為用戶進(jìn)行推薦[4]。

2.5.1 構(gòu)建用戶項(xiàng)目評(píng)分矩陣

構(gòu)建用戶項(xiàng)目評(píng)分矩陣Rmn,矩陣行中有m個(gè)用戶,用U表示,U={U1,U2,…,Um},矩陣列中有n個(gè)項(xiàng)目,用I表示,I={i1,i2,…,in},Rij表示用戶i對(duì)項(xiàng)目j的實(shí)際評(píng)分,若用戶i對(duì)項(xiàng)目j未評(píng)分,則Rij為0,用戶項(xiàng)目評(píng)分矩陣公式如下:

(1)

2.5.2 用戶評(píng)分相似度計(jì)算

用戶評(píng)分的相似度計(jì)算以用戶項(xiàng)目評(píng)分矩陣為基礎(chǔ),用評(píng)分矩陣中的每一行的評(píng)分向量表示用戶的實(shí)際興趣。所以,計(jì)算用戶評(píng)分的相似度實(shí)質(zhì)上就是計(jì)算用戶評(píng)分向量之間的距離[5]。傳統(tǒng)的協(xié)同過濾算法中最常用的計(jì)算相似度的方法是皮爾遜相似度計(jì)算方法,其計(jì)算公式如下:

(2)

在獲取用戶a和其他全部用戶的相似度后,將相似度排名最高的前h個(gè)用戶作為該用戶的近鄰集,應(yīng)用評(píng)分預(yù)測(cè)公式得出最終的預(yù)測(cè)評(píng)分。評(píng)分預(yù)測(cè)公式如下[6]:

(3)

本系統(tǒng)可以實(shí)現(xiàn)智能化求職者薪資預(yù)測(cè)功能,根據(jù)用戶輸入的條件和用戶的瀏覽記錄信息等數(shù)據(jù),運(yùn)用傳統(tǒng)的協(xié)同過濾算法和皮爾遜相似度計(jì)算方法,計(jì)算出用戶評(píng)分向量之間的距離,應(yīng)用評(píng)分預(yù)測(cè)公式得出最終的預(yù)測(cè)評(píng)分,測(cè)算出匹配求職者條件和能力的薪資范圍,并響應(yīng)到前端模塊。推薦流程圖如圖6所示。

圖6 推薦流程圖Fig.6 Flow chart of recommendation

2.6 數(shù)據(jù)的可視化展示

可視化展示部分前端采用Axure RP工具,它是一種用來進(jìn)行原型設(shè)計(jì)的專業(yè)工具,可以快速地創(chuàng)建網(wǎng)站原型和應(yīng)用軟件原型,同時(shí)可以定義需求和規(guī)格,生成網(wǎng)站和應(yīng)用軟件規(guī)格說明文檔[7]。網(wǎng)站內(nèi)的分析圖采用第三方可視化工具Sugar BI,Sugar BI基于百度Echarts,能提供豐富的圖表組件,開箱即用、零代碼操作、不需要SQL,降低開發(fā)成本的同時(shí),還能提高業(yè)務(wù)對(duì)數(shù)據(jù)的使用效率[8]。Sugar BI支持多種方式對(duì)接數(shù)據(jù)源,如直連數(shù)據(jù)庫、上傳Excel/CSV文件、API接口、靜態(tài)JSON錄入等[9]。

3 系統(tǒng)實(shí)現(xiàn)(System implementation)

3.1 首頁展示

用戶進(jìn)入系統(tǒng)首頁,可以進(jìn)行注冊(cè)和登錄,首頁顯示可視化展示系統(tǒng)、智能招聘系統(tǒng)和需求分析系統(tǒng)等功能入口。系統(tǒng)首頁如圖7所示。

圖7 系統(tǒng)首頁Fig.7 System homepage

3.2 數(shù)據(jù)概況界面

點(diǎn)擊進(jìn)入數(shù)據(jù)概況界面,界面顯示的信息包含公司全稱、公司簡(jiǎn)稱、公司規(guī)模、融資階段、區(qū)域、職位名稱、工作經(jīng)驗(yàn)、學(xué)歷要求、薪資、職位福利、經(jīng)營(yíng)范圍、職位類型。界面上方包含查詢功能和搜索功能,用戶能更清晰、直觀地找到適合的職位。數(shù)據(jù)概況界面如圖8所示。

圖8 數(shù)據(jù)概況界面Fig.8 Data overview interface

3.3 可視化模塊

為了能讓用戶更好地分析自己的能力和找到合適的崗位需求信息,系統(tǒng)通過文字云圖、柱狀圖、餅狀圖、漏斗圖、矩形數(shù)形圖等形式分別對(duì)企業(yè)發(fā)布的薪資情況、企業(yè)情況、公司規(guī)模分布、學(xué)歷和工作經(jīng)驗(yàn)分布等進(jìn)行了詳細(xì)的可視化展示。企業(yè)發(fā)布的薪資概況界面如圖9所示。

圖9 薪資概況界面Fig.9 Salary overview interface

企業(yè)概況界面如圖10所示。

圖10 企業(yè)概況界面Fig.10 Enterprise overview interface

3.4 智能化模塊

目前,系統(tǒng)的智能化模塊已完成用戶薪資預(yù)測(cè)功能,用戶輸入相關(guān)信息后,系統(tǒng)就能根據(jù)算法模型預(yù)測(cè)其最低薪資標(biāo)準(zhǔn),并在前端進(jìn)行展示。薪資預(yù)測(cè)功能如圖11所示。

圖11 薪資預(yù)測(cè)功能Fig.11 Salary forecasting function

3.5 關(guān)鍵技術(shù)難點(diǎn)

用戶評(píng)分矩陣對(duì)于協(xié)同過濾算法來說,是十分重要的概念,主要作用是計(jì)算項(xiàng)目間或用戶間的相似度,用戶評(píng)分矩陣的稀疏程度對(duì)預(yù)測(cè)結(jié)果有明顯的影響。如果用戶評(píng)分矩陣特別稀疏,整體的預(yù)測(cè)和推薦的質(zhì)量會(huì)大幅下降,所以如何解決用戶評(píng)分矩陣的稀疏性,是提高協(xié)同過濾算法預(yù)測(cè)和推薦質(zhì)量的核心。

皮爾遜相似度的計(jì)算方法在計(jì)算的過程中不會(huì)使用缺失數(shù)據(jù),所以本文使用皮爾遜相似度計(jì)算時(shí)不用考慮數(shù)據(jù)稀缺的問題,而是需要著重考慮共同評(píng)分項(xiàng)數(shù)目不同的問題,可以使用預(yù)測(cè)數(shù)據(jù)填充的方法解決未知評(píng)分的問題,具體方法如圖12所示[10]。

圖12 改進(jìn)的算法過程Fig.12 Improved algorithm process

4 結(jié)論(Conclusion)

本系統(tǒng)圍繞招聘系統(tǒng)無法聚焦和智能分析的問題,設(shè)計(jì)了一個(gè)集招聘信息可視化展示和智能分析于一體的系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)采集、數(shù)據(jù)清洗、平臺(tái)搭建、數(shù)據(jù)倉庫建設(shè)、智能分析以及可視化展示等部分;系統(tǒng)通過Python爬蟲技術(shù)獲取主流招聘網(wǎng)站的數(shù)據(jù)作為原始數(shù)據(jù)源,通過虛擬化技術(shù)和Linux操作系統(tǒng)搭建Hadoop大數(shù)據(jù)平臺(tái),通過Hive技術(shù)進(jìn)行數(shù)據(jù)倉庫建設(shè)和數(shù)據(jù)處理,將得到的結(jié)果數(shù)據(jù)通過Sqoop導(dǎo)入MySQL數(shù)據(jù)庫,通過協(xié)同過濾算法進(jìn)行智能分析,通過Axure RP和Sugar BI對(duì)結(jié)果數(shù)據(jù)進(jìn)行可視化展示,可視化展示可以幫助用戶清晰直觀地看到供需關(guān)系,用戶點(diǎn)擊智能招聘系統(tǒng),可以按照其所在城市、掌握的技術(shù)、工作年限等條件,快速找到符合自己需求的招聘信息,為廣大求職者提供了一個(gè)方便、準(zhǔn)確、快捷的智能崗位分析平臺(tái)。

目前,系統(tǒng)智能化部分采用的協(xié)同過濾算法是經(jīng)典傳統(tǒng)的算法,雖然在解決未知評(píng)分的問題上做了相應(yīng)優(yōu)化,但是預(yù)測(cè)評(píng)分和精度方面還有待提升,后續(xù)會(huì)嘗試采用更多的協(xié)同過濾改進(jìn)算法進(jìn)行持續(xù)迭代,提高算法的精度。同時(shí),會(huì)開發(fā)更多的智能化功能,不斷滿足求職者對(duì)招聘信息數(shù)據(jù)分析方面的需求。

猜你喜歡
可視化用戶系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
基于CGAL和OpenGL的海底地形三維可視化
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 一本久道久久综合多人| 99re精彩视频| 精品国产欧美精品v| 国产一区二区三区在线精品专区| 丁香婷婷久久| 野花国产精品入口| 欧美精品导航| 国产精品永久久久久| 中文字幕无码电影| av一区二区三区高清久久| 国产欧美网站| 国产区网址| 亚洲成在人线av品善网好看| 最新日韩AV网址在线观看| 国产欧美日韩va另类在线播放| 在线亚洲精品福利网址导航| 国产三级成人| 亚洲综合在线最大成人| 日本精品影院| 国产丝袜无码精品| 久久99国产乱子伦精品免| 狠狠综合久久| 国产中文一区a级毛片视频| 国精品91人妻无码一区二区三区| 黄色网址免费在线| 第一页亚洲| 久久国产高潮流白浆免费观看| 久久久精品国产亚洲AV日韩| 欧美成人在线免费| 日韩免费视频播播| 老司机午夜精品网站在线观看 | 98精品全国免费观看视频| 四虎综合网| 韩日无码在线不卡| 国产69精品久久久久孕妇大杂乱| 多人乱p欧美在线观看| 国产丝袜丝视频在线观看| 漂亮人妻被中出中文字幕久久 | 日韩最新中文字幕| www.国产福利| 亚洲欧洲日产国产无码AV| 日韩A∨精品日韩精品无码| 国产区91| 国产永久在线视频| 波多野结衣一区二区三区四区视频 | 日韩精品高清自在线| 91视频青青草| 免费国产高清视频| 国产美女在线观看| 中文字幕永久在线看| 国产日韩欧美在线视频免费观看| 欧美精品黑人粗大| 91美女视频在线| 国产幂在线无码精品| 91精品专区| 国产最新无码专区在线| 日本成人在线不卡视频| 国产精品久久久久久久久久98| 青青操视频免费观看| 久久综合九色综合97婷婷| 中文字幕在线观| 97久久精品人人做人人爽| 久久久久久久97| 麻豆精选在线| 久久精品中文无码资源站| 国产手机在线小视频免费观看| 久久久久无码国产精品不卡| 国产高清在线精品一区二区三区| AV无码一区二区三区四区| 91精品aⅴ无码中文字字幕蜜桃 | a级毛片一区二区免费视频| 天堂va亚洲va欧美va国产| 国内精品自在自线视频香蕉| 一区二区影院| 欧美色图久久| 亚洲第一极品精品无码| 综合亚洲网| 亚洲精品男人天堂| 欧美成人怡春院在线激情| 欧美人与动牲交a欧美精品| 视频一区亚洲| 国产亚洲欧美在线中文bt天堂|