999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多源異構(gòu)就業(yè)大數(shù)據(jù)的雇主用戶畫像關(guān)鍵技術(shù)研究

2021-12-02 22:53:21李利杰何頌頌
電子元器件與信息技術(shù) 2021年11期
關(guān)鍵詞:用戶信息模型

李利杰,何頌頌

(1.寧波城市職業(yè)技術(shù)學(xué)院,浙江 寧波 315100;2.寧波職業(yè)技術(shù)學(xué)院,浙江 寧波 315100)

0 引言

校園招聘作為社會企業(yè)招聘人才的重要途徑,連接企業(yè)與高職院校的主要橋梁,吸引著企業(yè)雇主的積極關(guān)注和參與。但傳統(tǒng)校園招聘中伴隨的各種弊端也日漸凸顯。高職畢業(yè)生因各種原因缺乏對雇主信息的完整清晰掌握,導(dǎo)致高職院校、畢業(yè)生、企業(yè)之間的信息不對稱,制約畢業(yè)生就業(yè)意向與雇主需求之間的不匹配;高職院校在校園招聘過程中缺乏對畢業(yè)生的精準(zhǔn)推薦,也無法給企業(yè)雇主實現(xiàn)個性化推薦服務(wù)。大數(shù)據(jù)時代各種海量的就業(yè)和招聘數(shù)據(jù)到處可見,將大數(shù)據(jù)技術(shù)與用戶畫像技術(shù)應(yīng)用到高職院校畢業(yè)生就業(yè)領(lǐng)域,利用大數(shù)據(jù)和畫像技術(shù)精準(zhǔn)構(gòu)建面向高職畢業(yè)生的雇主畫像,提升畢業(yè)生和企業(yè)之間的匹配度和滿意度。

1 研究現(xiàn)狀

互聯(lián)網(wǎng)的發(fā)展導(dǎo)致用戶信息和行為數(shù)據(jù)的急劇膨脹,給互聯(lián)網(wǎng)時代的數(shù)據(jù)處理帶來了深刻的變革,用戶畫像技術(shù)隨之產(chǎn)生。用戶畫像技術(shù)是指通過對用戶信息和行為數(shù)據(jù)采用數(shù)據(jù)分析挖掘等技術(shù)手段,對用戶性質(zhì)和特征做出抽象和概括,勾畫用戶的信息全貌,其核心是對用戶潛在的意圖和興趣進(jìn)行表示和存儲,利用機(jī)器學(xué)習(xí)等算法構(gòu)建出可讀取、可計算的用戶模型,為后續(xù)的推薦算法提供精確的語義信息。Rachsuda等學(xué)者通過對樸素貝葉斯方法、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等技術(shù)構(gòu)建的用戶畫像模型精度進(jìn)行對比分析,提出不同用戶畫像模型建模的適應(yīng)場景[1]。張宇等學(xué)者綜合運用協(xié)同過濾、形式概念建模等技術(shù)手段,提出了基于多維特征標(biāo)簽體系的面向情景感知推薦領(lǐng)域的用戶畫像模型和普適推薦系統(tǒng)設(shè)計方法[2]。岳怡然等學(xué)者從數(shù)據(jù)挖掘和標(biāo)簽體系映射開展了面向知識服務(wù)的針對農(nóng)業(yè)用戶特定群體用戶畫像研究并開展了實踐[3]。Wen研究團(tuán)隊開展了多源異構(gòu)大數(shù)據(jù)的學(xué)者畫像的關(guān)鍵技術(shù)研究,提出了基于雙向長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場信息抽取模型,構(gòu)建了融合學(xué)術(shù)網(wǎng)絡(luò)和文本語意的標(biāo)簽多分類模型,并設(shè)計了學(xué)者未來影響力預(yù)測模型,實驗結(jié)果表明所提出的針對多源異構(gòu)大數(shù)據(jù)的針對學(xué)者的用戶畫像技術(shù)有效提升信息抽取精度、標(biāo)簽發(fā)現(xiàn)能力和預(yù)測能力[4]。

雖然國內(nèi)外學(xué)者已對用戶畫像技術(shù)開展了系列研究,但將用戶畫像技術(shù)應(yīng)用到畢業(yè)生就業(yè)招聘領(lǐng)域的相關(guān)研究較少。截止到目前,知網(wǎng)只有兩篇相關(guān)文獻(xiàn)。張建東訊等學(xué)者探討了將用戶畫像應(yīng)用到校園招聘領(lǐng)域的可行性,開展了雇主畫像維度和標(biāo)簽體系的設(shè)計,提出了雇主畫像構(gòu)建和設(shè)計流程,最后根據(jù)仿真結(jié)果優(yōu)化標(biāo)簽提取模型。郭歡歡等學(xué)者將大數(shù)據(jù)方法融入精準(zhǔn)招聘,利用文本挖掘等技術(shù)手段實現(xiàn)了雇主畫像、雇主字典和技能詞典的構(gòu)建,一定程度上實現(xiàn)了求職者技能和雇主招聘需求之間的匹配。

綜上所述,大數(shù)據(jù)時代豐富的數(shù)據(jù)來源為構(gòu)建高度精準(zhǔn)的雇主畫像提供了可能,與此同時也提出了挑戰(zhàn)。首先是雇主信息的異構(gòu)性及不確定性,即便經(jīng)過數(shù)據(jù)清洗依舊無可避免數(shù)據(jù)錯誤和缺失。其次如何處理爆炸式增長規(guī)模的數(shù)據(jù)也是亟須解決的問題。用戶畫像具有較高的時效性,這對如何設(shè)計、構(gòu)建海量的用戶畫像數(shù)據(jù)處理和分析體系和核心算法提出了挑戰(zhàn)。

2 雇主畫像指標(biāo)和標(biāo)簽體系構(gòu)建

雇主畫像數(shù)據(jù)來源于高職院校招生就業(yè)部門提供的2016-2020的畢業(yè)生就業(yè)數(shù)據(jù),采用爬蟲技術(shù)獲取畢業(yè)生就職雇主的社會信息,從不同的雇主屬性維度描述雇主,據(jù)此生成對應(yīng)的標(biāo)簽描繪雇主不同維度的特征,主要的雇主標(biāo)簽包括基礎(chǔ)屬性標(biāo)簽、招聘屬性標(biāo)簽、社交屬性標(biāo)簽、運營屬性標(biāo)簽和價值屬性標(biāo)簽等五個屬性標(biāo)簽。

基礎(chǔ)屬性標(biāo)簽描述雇主的基本信息,包括名稱、地址、注冊類型、批準(zhǔn)設(shè)立機(jī)關(guān)、組織機(jī)構(gòu)代碼、證照號碼、開業(yè)時間、郵政編碼、電話、經(jīng)營范圍、所處行業(yè)、法定代表人、股東名稱、稅務(wù)登記證號、核算方式、從業(yè)人數(shù)等。招聘屬性標(biāo)簽描述雇主招聘偏好,包括年齡區(qū)間、專業(yè)傾向、學(xué)歷要求、畢業(yè)生離職率等。社交屬性標(biāo)簽描述雇主在就業(yè)媒體平臺的行為信息,包括發(fā)布招聘次數(shù)、發(fā)布招聘信息頻率、發(fā)布招聘信息間隔、社交平臺參與討論帖數(shù)量等。運營屬性標(biāo)簽描述企業(yè)的運營狀況,包括市盈率、市凈率、資產(chǎn)規(guī)模、經(jīng)營風(fēng)險、司法風(fēng)險等。價值屬性標(biāo)簽涵蓋季度招聘人數(shù)、年度招聘人數(shù)、價值評定級別等。

3 雇主畫像信息抽取與多源融合

多元完整的雇主數(shù)據(jù)是構(gòu)建雇主畫像的基礎(chǔ),本文的雇主數(shù)據(jù)來源于本校招生就業(yè)中心提供的近五年的畢業(yè)生就業(yè)統(tǒng)計結(jié)構(gòu)化數(shù)據(jù)(2017-2021)和網(wǎng)絡(luò)爬蟲獲取的非結(jié)構(gòu)化雇主數(shù)據(jù)。招生就業(yè)中心提供的近五年的畢業(yè)生就業(yè)統(tǒng)計數(shù)據(jù)涵蓋雇主名稱、地址、注冊類型、批準(zhǔn)設(shè)立機(jī)關(guān)、組織機(jī)構(gòu)代碼等。其他雇主數(shù)據(jù)采用Scrapy-Redis分布式網(wǎng)絡(luò)爬蟲從天眼查、財報網(wǎng)、就業(yè)網(wǎng)等抓取和解析,采用Scrapy-Redis分布式采集系統(tǒng)增量爬取和采集雇主信息。采集流程主要如下:

(1)根據(jù)招生就業(yè)中心提供的近五年的畢業(yè)生雇主名稱、組織機(jī)構(gòu)代碼建立關(guān)鍵詞庫。

(2)配置爬取域并載入Redis隊列,并初始化請求隊列;

(3)Scrapy主程序從配置的天眼查、財報網(wǎng)、就業(yè)網(wǎng)等域中爬取雇主的非結(jié)構(gòu)數(shù)據(jù),使用Duplicate Filter組件實現(xiàn)去重。Duplicate Filter組件利用Redis中的集合不重復(fù)特性判定請求是否重復(fù),并把不重復(fù)的請求加入到Redis請求隊列。

(4)返回的Reponses數(shù)據(jù)采用BeautifulSoap組件解析數(shù)據(jù),并采用Flume組件將采集解析后的數(shù)據(jù)直接存儲到Hadoop文件系統(tǒng)。

采集到的雇主大數(shù)據(jù)多源異構(gòu),不可避免地存在雇主信息存在差異、沖突和冗余。采集后的多源異構(gòu)就業(yè)大數(shù)據(jù)通過數(shù)據(jù)清洗、集成、規(guī)約以及融合等系列處理將多個雇主信源提供的局部信息加以融合,消除多信源異構(gòu)數(shù)據(jù)所產(chǎn)生的沖突,獲得一致性描述。

4 基于機(jī)器學(xué)習(xí)的雇主畫像價值評級標(biāo)簽提取

機(jī)器學(xué)習(xí)根據(jù)學(xué)習(xí)模式的不同分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)首先將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,在樣本數(shù)據(jù)集開展模型訓(xùn)練和構(gòu)建,進(jìn)而在測試數(shù)據(jù)集上驗證模型有效性。無監(jiān)督學(xué)習(xí)求解樣本數(shù)據(jù)組間組內(nèi)距離最大最小化問題從而進(jìn)行樣本聚類。基于機(jī)器學(xué)習(xí)的標(biāo)簽提取是根據(jù)采集清洗后的多維雇主信息,在數(shù)據(jù)集上使用機(jī)器學(xué)習(xí)算法訓(xùn)練構(gòu)造模型,進(jìn)一步采用訓(xùn)練而成的模型進(jìn)行預(yù)測分析,從而確定雇主的相關(guān)標(biāo)簽值。

雇主畫像價值評級定義源自企業(yè)的信用評級,是雇主畫像的核心標(biāo)簽,集中體現(xiàn)雇主在畢業(yè)生求職中的招聘能力,雇主受畢業(yè)生喜好的歡迎程度,雇主的招聘信用等方面信息。機(jī)器學(xué)習(xí)因其魯棒性在用戶畫像領(lǐng)域得到較為廣泛的應(yīng)用實踐,展現(xiàn)出其優(yōu)勢:能夠直接從內(nèi)容中提取特征,表征能力強(qiáng);便于應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)對動態(tài)或者序列數(shù)據(jù)進(jìn)行建模等。為精準(zhǔn)刻畫雇主畫像,提出基于機(jī)器學(xué)習(xí)的多源異構(gòu)雇主畫像價值評級標(biāo)簽提取模型。

本文采用句向量的分布詞袋(PV-DBOW: Distributed Bag of Words version of Paragraph Vector)來表示價值評級數(shù)據(jù)的特征標(biāo)識。句向量的分布詞帶通過句向量和詞向量的首尾相援來預(yù)測下一個詞,在每一個隨機(jī)梯度下降的循環(huán)中,抽取一個文本窗口,然后從這個文本窗口中抽取一個詞,然后通過一個分類任務(wù)得到句向量。依托句向量的分布詞袋模型構(gòu)建多源數(shù)據(jù)的特征向量表述,以串聯(lián)的方式生成雇主畫像的融合特征。在此基礎(chǔ)上采用支持向量機(jī)實現(xiàn)用戶畫像價值標(biāo)簽分類預(yù)測。支持向量機(jī)是一種二類分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器,即支持向量機(jī)的學(xué)習(xí)策略便是間隔最大化,最終可轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。SVM算法最初是為二值分類問題設(shè)計的,處理多類問題時,就需要構(gòu)造合適的多類分類器[5]。

多分類問題和二分類問題之間存在一定的對應(yīng)關(guān)系:如果一個分類問題N類可分,則這N類中的任何兩類間一定可分;反之,在一個N分類問題中,如果已知其任意兩兩可分,則通過一定的組合法則,可由兩兩可分來最終實現(xiàn)N類可分。本文構(gòu)建決策樹支持向量機(jī)多分類器實現(xiàn)用戶畫像價值評級預(yù)測,基本算法及流程如下:

(1)計算特征樣本集中的每兩類的類間區(qū)分度dij,搜索最小區(qū)分度對應(yīng)的類別編碼;

(2)在樣本子集Si與Sj上進(jìn)行支持向量機(jī)訓(xùn)練,得到實現(xiàn)類i,j的支持向量機(jī)分類器,將其生成為決策樹中的一個節(jié)點;

(3)將樣本子集Si與Sj合并為一個新的子集,并跟前序的k-2個樣本子集構(gòu)成新的含有k-1樣本子集;

(4)若分類數(shù)量達(dá)到2,則直接對樣本數(shù)據(jù)集執(zhí)行支持向量機(jī)訓(xùn)練,得到分類器決策樹的根節(jié)點。

5 結(jié)語

本文系浙江省高等教育學(xué)會2021年度高等教育研究課題研究成果(基于高職院校學(xué)生就業(yè)大數(shù)據(jù)的雇主畫像關(guān)鍵技術(shù)研究),開展了Scrapy-Redis在雇主信息采集中的應(yīng)用研究、探索了句向量的分布詞帶異構(gòu)數(shù)據(jù)融合模型,開展了決策樹支持向量機(jī)在雇主畫像價值評級標(biāo)簽提取中的應(yīng)用研究,為多源異構(gòu)就業(yè)大數(shù)據(jù)的雇主用戶畫像關(guān)鍵技術(shù)研究提供了參考價值。后續(xù)將對基于機(jī)器學(xué)習(xí)的標(biāo)簽提取算法在其他標(biāo)簽上的應(yīng)用實踐開展討論和研究。

猜你喜歡
用戶信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 99精品国产自在现线观看| 久久免费视频6| 久久精品亚洲中文字幕乱码| 成人91在线| AV在线天堂进入| 亚洲成年人片| 丁香五月婷婷激情基地| 亚洲一区二区在线无码| 在线国产综合一区二区三区| 国禁国产you女视频网站| 97se亚洲综合在线| 中文字幕亚洲无线码一区女同| 就去吻亚洲精品国产欧美| 成人伊人色一区二区三区| 亚洲精品第一页不卡| 特级做a爰片毛片免费69| 日日摸夜夜爽无码| 凹凸精品免费精品视频| 亚洲日韩第九十九页| 99re在线视频观看| 国产乱子伦视频在线播放| 国产一级一级毛片永久| 日本三区视频| 欧美成人一级| 精品久久综合1区2区3区激情| 在线精品视频成人网| 国产偷倩视频| 手机精品福利在线观看| 国产免费自拍视频| 在线看片国产| 亚洲精品男人天堂| 日a本亚洲中文在线观看| 99re66精品视频在线观看| 亚洲天堂区| jizz在线免费播放| 好吊色妇女免费视频免费| 国产内射一区亚洲| 夜夜操天天摸| 在线毛片网站| 国产无码性爱一区二区三区| 亚洲色图在线观看| 亚洲精品无码日韩国产不卡| 亚洲精品在线观看91| 99精品视频九九精品| 日韩一级二级三级| 伊人大杳蕉中文无码| 日韩专区欧美| 视频二区国产精品职场同事| 十八禁美女裸体网站| 欧美a级完整在线观看| 国产日韩欧美中文| 中文字幕在线日本| 99re热精品视频国产免费| 国产色伊人| 亚洲资源站av无码网址| 精品国产Av电影无码久久久| 在线va视频| 日韩在线1| 日韩在线播放中文字幕| 亚洲无码高清一区二区| 亚洲成人网在线观看| 亚洲综合片| 在线观看亚洲成人| 日韩大乳视频中文字幕| 国产高清在线精品一区二区三区| 国产精品无码AV中文| 欧美亚洲另类在线观看| 黄色污网站在线观看| 亚洲69视频| 尤物在线观看乱码| 日韩精品高清自在线| 18黑白丝水手服自慰喷水网站| 国产精品亚洲欧美日韩久久| www精品久久| 久久这里只有精品66| 亚洲第一成年网| 欧美激情视频一区| 国产在线麻豆波多野结衣| 久久久久国色AV免费观看性色| 在线看国产精品| 国内精自线i品一区202| www.91在线播放|