999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本相似度的簡(jiǎn)歷匹配推薦算法研究

2022-05-14 11:45:34施元鵬單劍峰
計(jì)算機(jī)仿真 2022年4期
關(guān)鍵詞:文本方法模型

施元鵬,單劍峰

(南京郵電大學(xué)電子與光學(xué)工程學(xué)院與微電子學(xué)院,江蘇 南京 210046)

1 引言

隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的蓬勃發(fā)展,傳統(tǒng)的線下招聘方式正在慢慢淡出人們的視線,取而代之的是信息量巨大的互聯(lián)網(wǎng)招聘。互聯(lián)網(wǎng)招聘模式有著覆蓋率廣、處理效率較高、成本低的優(yōu)勢(shì),因此受到許多招聘企業(yè)雇主的青睞。依據(jù)艾瑞咨詢2020年發(fā)布的中國(guó)網(wǎng)絡(luò)招聘市場(chǎng)發(fā)展研究報(bào)告可知,2019年網(wǎng)絡(luò)招聘的企業(yè)雇主數(shù)量已經(jīng)達(dá)到了486.6萬(wàn)家[1],招聘用戶的規(guī)模更是達(dá)到2億。因此,求職者需要瀏覽大量的招聘信息才能做出優(yōu)質(zhì)的選擇。實(shí)現(xiàn)一個(gè)簡(jiǎn)歷和崗位信息之間的相互匹配,能夠更好的幫助求職者篩選出合適崗位信息。

目前,在招聘領(lǐng)域比較常見的推薦算法為:基于內(nèi)容的推薦算法、基于協(xié)同過濾的推薦算法和混合模型的推薦算法等[2]。文獻(xiàn)[3]是一種基于內(nèi)容的推薦算法,該算法通過閔可夫斯基距離進(jìn)行研究,實(shí)現(xiàn)人員與崗位之間的匹配。文獻(xiàn)[4]為基于內(nèi)容的個(gè)性化推薦,作者通過一種新的無(wú)監(jiān)督貝葉斯多視圖模型來(lái)實(shí)現(xiàn)人員技能和工作需求之間的匹配。文獻(xiàn)[5]提出了一種個(gè)性化偏好的協(xié)同過濾推薦算法,根據(jù)畢業(yè)生的成績(jī)與畢業(yè)生的個(gè)人偏好相結(jié)合,來(lái)進(jìn)行職位推薦。文獻(xiàn)[6]利用了招聘職位與簡(jiǎn)歷之間的基礎(chǔ)信息進(jìn)行相似度計(jì)算然后推薦。以上文獻(xiàn)的研究主要通過求職者的技能、成績(jī)、學(xué)歷、專業(yè)等數(shù)據(jù)來(lái)實(shí)現(xiàn)推薦,對(duì)于求職者的工作經(jīng)驗(yàn)、項(xiàng)目經(jīng)驗(yàn)等文本信息缺少提取,而這些信息往往又是企業(yè)招聘時(shí)所看重的,因此在實(shí)際應(yīng)用中并不太適用。文獻(xiàn)[7]提出了一種可解釋的混合型就業(yè)推薦算法,利用TF-IDF的方法進(jìn)行文本的信息提取,建立職位關(guān)系來(lái)實(shí)現(xiàn)就業(yè)推薦。由于TF-IDF的方法主要是通過詞頻的方式進(jìn)行特征提取,缺少語(yǔ)義信息,因此導(dǎo)致簡(jiǎn)歷和崗位之間相似度計(jì)算的準(zhǔn)確率并不高。隨著人工智能自然語(yǔ)言處理(NLP)領(lǐng)域的發(fā)展,研究者Tomas Mikolov在2013年提出了word2vec的方法很好的解決了詞與詞之間的語(yǔ)義特性[8]。文獻(xiàn)[9]就是基于word2vec的方法處理簡(jiǎn)歷與崗位的長(zhǎng)文本信息,并對(duì)IT行業(yè)的簡(jiǎn)歷進(jìn)行個(gè)性化推薦。

本文是基于機(jī)器學(xué)習(xí)模型doc2vec來(lái)進(jìn)行研究。將數(shù)據(jù)文本劃分為:結(jié)構(gòu)化和非結(jié)構(gòu)化文本。在結(jié)構(gòu)化文本中,提出了偏好權(quán)重因子α來(lái)平衡求職者和企業(yè)之間由于不同因素帶來(lái)的相似度計(jì)算偏差。在非結(jié)構(gòu)文本中,利用機(jī)器學(xué)習(xí)doc2vec算法來(lái)解決簡(jiǎn)歷與崗位信息之間的長(zhǎng)文本信息匹配,并利用參數(shù)χ對(duì)其相似度結(jié)果進(jìn)行優(yōu)化,解決doc2vec缺乏考慮文本長(zhǎng)度的問題。相比于word2vec,doc2vec的方法能更好的處理句子及段落之間的語(yǔ)義相似性。

2 相似度算法相關(guān)介紹

2.1 余弦相似度

余弦相似度可以反應(yīng)兩個(gè)數(shù)據(jù)之間的相似性。在文本數(shù)據(jù)領(lǐng)域中,可以通過文本之間對(duì)應(yīng)的詞向量特征值集合來(lái)計(jì)算相似度[10-11]。若計(jì)算值越高,則表示兩個(gè)文本越相似,余弦相似度的計(jì)算式(1)如下

(1)

其中wv1i、wv2i分別表示文本D1、D2的特征向量分量。

2.2 Doc2vec介紹

Doc2vec(Paragraph Vector、Sentence Embeddings)是一種無(wú)監(jiān)督式的神經(jīng)網(wǎng)絡(luò)算法,由Mikolov和Le基于word2vec模型的思想上提出[12]。Word2vec在預(yù)測(cè)詞向量時(shí),預(yù)測(cè)出來(lái)的詞通常是具有詞義的。例如,詞向量‘工作’會(huì)相對(duì)于‘桌子’離‘上班’距離更近,即詞向量‘工作’與‘上班’更相似。因此,這種方法克服了傳統(tǒng)詞袋模型缺乏語(yǔ)義的問題。

Doc2vec訓(xùn)練段落向量的方法和word2vec訓(xùn)練詞向量的方法大體相同。不同之處在于,doc2vec在輸入層會(huì)多添加一個(gè)可以被看作是段落主旨的段落向量(Paragraph vector),并且它會(huì)作為輸入的一部分來(lái)進(jìn)行訓(xùn)練。該模型有兩種不同的訓(xùn)練方式,一種是PV-DM(Distributed Memory Model of paragraph vectors),即預(yù)測(cè)一個(gè)單詞是通過上下文的單詞來(lái)實(shí)現(xiàn),另一種是PV-DBOW(Distributed Bag of Words of paragraph vector),即通過一個(gè)單詞來(lái)預(yù)測(cè)上下文的單詞。本文主要通過PV-DM的方法來(lái)實(shí)現(xiàn)文本相似度計(jì)算,下面是關(guān)于PV-DM原理的講述。

如圖1所示,在doc2vec中,每個(gè)單詞被映射到唯一的向量上,表示為矩陣W中的某一列。段落也同樣被映射到一個(gè)唯一的向量上,由矩陣D的某一列來(lái)表示。每次從一句話中提取若干個(gè)詞,將其中的一個(gè)詞作為預(yù)測(cè)詞,其它詞作為輸入詞。然后將輸入詞的詞向量和本段話的段落向量作為輸入層的輸入,通過向量的加權(quán)計(jì)算得到預(yù)測(cè)詞的詞向量。經(jīng)過這樣多次滑動(dòng)采樣,詞向量的表達(dá)會(huì)越來(lái)越準(zhǔn)確。

圖1 PV-DM原理

通過多次對(duì)同一段落不同句子的訓(xùn)練,段落向量也會(huì)趨向穩(wěn)定,即段落表達(dá)的主旨也會(huì)越來(lái)越明確。需要注意的是,訓(xùn)練出來(lái)的段落向量?jī)H在本段落中有效,而詞向量是在所有的文本中都有效的。所以在預(yù)測(cè)新的段落時(shí),模型中的詞向量以及映射層到輸出層的softmax 權(quán)重參數(shù)是不變的,只需將段落向量進(jìn)行隨機(jī)初始化再放入模型中,并在不斷迭代的過程中更新paragraph vector參數(shù)就能計(jì)算出一個(gè)穩(wěn)定的段落向量。

總結(jié)以上整個(gè)doc2vec模型的過程,主要為兩部分:

1)訓(xùn)練模型,在數(shù)據(jù)集上進(jìn)行訓(xùn)練并得到詞向量、softmax權(quán)重參數(shù)。

2)預(yù)測(cè)段落向量,首先根據(jù)新段落中的詞得到相應(yīng)的詞向量,通過其詞向量、softmax權(quán)重參數(shù)以及隨機(jī)初始化的段落向量,在模型中不斷迭代更新段落向量,最終得到新段落的向量。

3 簡(jiǎn)歷相似度匹配方法

在電子簡(jiǎn)歷中通常會(huì)包含許多的文本信息,例如個(gè)人基本信息、學(xué)歷、期望薪資、工作經(jīng)歷等不同類型的文本數(shù)據(jù),需要分別對(duì)其做不同的特征處理。文本數(shù)據(jù)的處理及匹配條件見表1。

表1 簡(jiǎn)歷文本數(shù)據(jù)的分類及處理

簡(jiǎn)歷和崗位信息中的數(shù)據(jù)主要分為結(jié)構(gòu)化文本數(shù)據(jù)、非結(jié)構(gòu)化文本數(shù)據(jù)。在結(jié)構(gòu)化文本數(shù)據(jù)中,定類數(shù)據(jù)通過判斷是否相等或包含來(lái)判斷,對(duì)于定序數(shù)據(jù),首先進(jìn)行特征處理,再來(lái)判斷其是否滿足條件,對(duì)于定距/定比數(shù)據(jù)直接通過其大小來(lái)判斷。簡(jiǎn)歷文本相似度匹配推薦算法模型見圖2。

圖2 簡(jiǎn)歷文本相似度匹配推薦算法模型

3.1 結(jié)構(gòu)化文本的相似度計(jì)算

根據(jù)上面所述的數(shù)據(jù)類型,主要考慮的因素為7類:城市、職位、薪資、工作性質(zhì)、學(xué)歷、工作年限、專業(yè)之間的匹配,即符合匹配條件的為1,反之為0。匹配條件如(2)式

(2)

其中,i∈{1,2,3,4,5,6,7},分別對(duì)應(yīng)城市、職位、薪資、工作性質(zhì)、學(xué)歷、工作年限、專業(yè)。

將城市、職位、薪資、工作性質(zhì)劃入為用戶偏好型因素,將專業(yè)、工作年限、學(xué)歷劃入為企業(yè)偏好型因素。用λi來(lái)表示各類因素之間的權(quán)重,用戶偏好型和企業(yè)偏好型的相似度計(jì)算公式分別為式(3)和式(4)

(3)

(4)

由于權(quán)重λi的不同,導(dǎo)致計(jì)算出來(lái)的相似度過于偏向用戶或者企業(yè)問題。通過偏好權(quán)重因子α來(lái)平衡之間的關(guān)系。改進(jìn)后的結(jié)構(gòu)化文本相似度計(jì)算公式為

Simstructured(R,J)=αSimuser+(1-α)Simcompany

(5)

3.2 非結(jié)構(gòu)化文本相似度計(jì)算

非結(jié)構(gòu)化文本主要指簡(jiǎn)歷中的項(xiàng)目經(jīng)歷、工作經(jīng)驗(yàn)等長(zhǎng)文本數(shù)據(jù)與崗位信息中的崗位要求/職責(zé)的長(zhǎng)文本數(shù)據(jù)。通過jieba和哈工大的停用詞表對(duì)其進(jìn)行分詞和去停詞,再利用2.2章節(jié)中介紹的doc2vec訓(xùn)練得到段落向量,最后計(jì)算兩者的相似性,相似度計(jì)算公式如式(6)所示

(6)

其中,pv1、pv2分別表示不同的段落向量,pv1i、pv2i表示向量pv1、pv2的分量。

由于段落向量長(zhǎng)度是相同的,它取決于訓(xùn)練doc2vec模型中的vector_size參數(shù),因此,在利用doc2vec計(jì)算相似性的情況下,缺少考慮段落長(zhǎng)度的差異性對(duì)相似度計(jì)算的影響。文獻(xiàn)[13]在計(jì)算句子相似度時(shí)同樣考慮了句長(zhǎng)的特性,并取得較好的結(jié)果。本文利用參數(shù)χ進(jìn)行修正:

(7)

abs()為絕對(duì)值函數(shù),用于計(jì)算段落1(p1)和段落2(p2)之間詞個(gè)數(shù)的差異。當(dāng)段落長(zhǎng)度差異越大,χ就越小,段落長(zhǎng)度十分接近時(shí),χ接近于1。改進(jìn)后,兩個(gè)段落的相似度計(jì)算公式如下

(8)

綜合以上結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的相似度方法,得出整個(gè)模型的相似度表達(dá)式

Sim(R,J)=Simstructured(R,J)+Simunstructured(R,J)

(9)

4 實(shí)驗(yàn)及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)

本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于智聯(lián)招聘聯(lián)合某大廠舉辦的數(shù)據(jù)挖掘比賽中的脫敏數(shù)據(jù)集。一共篩選出1825個(gè)用戶與42690個(gè)崗位產(chǎn)生的60059條行為數(shù)據(jù),并且每條行為數(shù)據(jù)都有用人單位對(duì)其簡(jiǎn)歷的滿意/不滿意的反饋信息,將其看做簡(jiǎn)歷與崗位符合匹配的標(biāo)簽。按照7:3的比列將其分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,并進(jìn)行5折交叉驗(yàn)證。

在實(shí)驗(yàn)的評(píng)測(cè)方面,根據(jù)TOP-n推薦的匹配結(jié)果,分別計(jì)算準(zhǔn)確率、召回率、F1值。它們的計(jì)算公式分別如下

(10)

(11)

(12)

其中,TP表示TOP-n推薦中符合匹配的數(shù)目,F(xiàn)P表示TOP-n推薦不符合匹配的數(shù)目,F(xiàn)N表示沒有被TOP-n推薦的符合匹配的數(shù)目。

4.2 實(shí)驗(yàn)步驟

Step1:對(duì)數(shù)據(jù)集的文本進(jìn)行分類,并對(duì)各類數(shù)據(jù)進(jìn)行特征處理,對(duì)非結(jié)構(gòu)化文本進(jìn)行分詞、去停詞。

Step2:劃分?jǐn)?shù)據(jù)集,對(duì)所有長(zhǎng)文本中的詞進(jìn)行詞向量訓(xùn)練。

Step3:選取合適的權(quán)重系數(shù)λi,并通過(5)式計(jì)算結(jié)構(gòu)化文本的相似度。

Step4:利用doc2vec模型預(yù)測(cè)文本之間的段落向量,并通過(8)式計(jì)算之間相似度。

Step5:通過式(9)計(jì)算整體相似度,并根據(jù)其大小進(jìn)行TOP排序推薦。

Step6:分別計(jì)算TOP-n的準(zhǔn)確率、召回率、F1值及覆蓋率。

Step7:改變訓(xùn)練集與測(cè)試集,重復(fù)5次step3-step6的過程。

Step8:統(tǒng)計(jì)5次實(shí)驗(yàn)的平均準(zhǔn)確率、召回率及F1值。

4.3 實(shí)驗(yàn)結(jié)果及分析

本次實(shí)驗(yàn)的λi系數(shù)權(quán)重分別為[0.12,0.16,0.19,0.07,0.17,0.15,0.14],權(quán)重因子α與結(jié)構(gòu)化文本相似度計(jì)算的平均準(zhǔn)確率的關(guān)系如圖3。

圖3 α與平均準(zhǔn)確率的關(guān)系

從圖3可知,權(quán)重因子α=0.46時(shí)最佳。

為了驗(yàn)證doc2vec的有效性,本文與TF-IDF和word2vec的方法進(jìn)行對(duì)比。抽取top-3、top-6、top-9來(lái)對(duì)比最終實(shí)驗(yàn)結(jié)果。

從表2可以看出無(wú)論是TOP-3、TOP-6、TOP-9進(jìn)行推薦,doc2vec的各項(xiàng)指標(biāo)都明顯優(yōu)于TF-IDF和word2vec的方法。

本文進(jìn)行還通過參數(shù)修正后的doc2vec與word2vec(WMD)方法和原doc2vec之間的對(duì)比。其中,word2vec(WMD)是利用單詞移動(dòng)距離的方式來(lái)計(jì)算文本之間的相似度[14]。實(shí)驗(yàn)對(duì)比見表3。

從表3中可以看出,改進(jìn)后的算法各項(xiàng)指標(biāo)都優(yōu)于word2vec(WMD)和doc2vec的方法。相比于dov2vec,各項(xiàng)指標(biāo)也有一定的提升,并隨著Top增加,提升更明顯。特別是當(dāng)Top增加到9時(shí),F(xiàn)1值明顯提高了2%左右。

表2 不同相似度算法的實(shí)驗(yàn)結(jié)果

表3 改進(jìn)后doc2vec算法的實(shí)驗(yàn)結(jié)果對(duì)比

5 結(jié)束語(yǔ)

本文通過文本相似度計(jì)算的方法來(lái)實(shí)現(xiàn)簡(jiǎn)歷與崗位之間的匹配,通過TOP-n的推薦來(lái)驗(yàn)證匹配的可行性,并與其它文本相似度計(jì)算方法進(jìn)行比較。通過實(shí)驗(yàn)證明經(jīng)過參數(shù)χ修正后的相似度計(jì)算方法比其它方法有更高的準(zhǔn)確率、召回率和F1值。并且本文還通過α權(quán)重因子平衡求職者與企業(yè)之間的偏好關(guān)系,使得相似度的計(jì)算更優(yōu)。同樣,本文的方法有一定的局限性,詞向量的訓(xùn)練是需要大量的樣本,由于數(shù)據(jù)集中的樣本數(shù)量有限,存在一些低頻詞的詞向量精度不足的問題,對(duì)最后的匹配結(jié)果及指標(biāo)也有一定影響。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产9191精品免费观看| 国产麻豆永久视频| 欧美 国产 人人视频| 免费国产小视频在线观看| 97av视频在线观看| 91精品国产麻豆国产自产在线| 欧美在线天堂| 99re66精品视频在线观看| www.亚洲国产| 2021国产精品自产拍在线| 国产精品久久自在自2021| 91精品专区国产盗摄| 无码中文字幕精品推荐| 极品av一区二区| 久久中文字幕av不卡一区二区| 伊人成人在线视频| 中国国产A一级毛片| 精品第一国产综合精品Aⅴ| 久久精品这里只有精99品| 好紧好深好大乳无码中文字幕| 日韩高清一区 | 911亚洲精品| 九色综合伊人久久富二代| 日本黄色不卡视频| 台湾AV国片精品女同性| 91在线播放免费不卡无毒| 97国产一区二区精品久久呦| 天天色天天操综合网| 91精品视频播放| 狠狠亚洲婷婷综合色香| 浮力影院国产第一页| 美女视频黄又黄又免费高清| 色AV色 综合网站| 四虎免费视频网站| 国产乱子伦精品视频| 成年午夜精品久久精品| 伊人久久久大香线蕉综合直播| 免费福利视频网站| 国产激情影院| 手机成人午夜在线视频| 亚洲国产中文精品va在线播放| 97久久精品人人做人人爽| 制服丝袜国产精品| 性色生活片在线观看| 99精品欧美一区| 国产成人高清精品免费| 无码在线激情片| 久久国产香蕉| 全部无卡免费的毛片在线看| 亚洲欧美综合另类图片小说区| 亚洲三级电影在线播放| 伊人激情综合网| 国产国语一级毛片| 日韩毛片免费视频| 亚洲色图在线观看| 国产真实乱了在线播放| 亚洲国产理论片在线播放| 国产黄色视频综合| 国产精品免费福利久久播放 | 亚洲第一成网站| 午夜福利网址| 亚洲国产成人麻豆精品| 亚洲福利视频一区二区| 88av在线| 素人激情视频福利| 成人精品在线观看| 久久性视频| 麻豆a级片| 欧美日韩北条麻妃一区二区| 色婷婷电影网| 日本黄色a视频| 色综合久久综合网| 都市激情亚洲综合久久| 国产欧美网站| 99尹人香蕉国产免费天天拍| 国产精品va免费视频| 日韩123欧美字幕| 国产最新无码专区在线| 日韩A级毛片一区二区三区| 国产成人精品亚洲77美色| 日本精品视频一区二区| 国产永久在线观看|