999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合深度神經(jīng)網(wǎng)絡的就業(yè)推薦方法

2022-04-21 07:23:24彭海英
計算機工程與設計 2022年4期
關鍵詞:特征模型學生

張 婳,彭海英

(1.重慶郵電大學 通信與信息工程學院,重慶 400065;2.重慶郵電大學 重慶高校市級光通信與網(wǎng)絡重點實驗室,重慶 400065;3.重慶郵電大學 泛在感知與互聯(lián)重慶市重點實驗室,重慶 400065)

0 引 言

為減輕畢業(yè)生就業(yè)壓力,提升就業(yè)率,用推薦算法來實現(xiàn)精準就業(yè)在當前尤其重要。與傳統(tǒng)推薦場景不同的是,對應屆大學生的就業(yè)推薦,用戶(大學畢業(yè)生)和項目(職業(yè))只在畢業(yè)生成功就業(yè)時產(chǎn)生一次交互,即每次推薦都伴隨著冷啟動問題,評分矩陣極其稀疏。目前,就業(yè)推薦常用的算法有協(xié)同過濾、基于內(nèi)容推薦和混合推薦等[1]。文獻[2]基于協(xié)同過濾的推薦算法,根據(jù)畢業(yè)生歷史就業(yè)數(shù)據(jù)的偏好計算企業(yè)敏感度、企業(yè)信任度,為畢業(yè)生推薦合適的企業(yè)列表。文獻[3]基于內(nèi)容的推薦算法,分別使用隨機森林和支持向量機的方法對學生特征進行提取,進而計算學生、職業(yè)匹配得分。為了平衡單一推薦算法的缺陷,混合推薦算法將多個推薦算法進行組合。文獻[4]進行了特征層面的組合,它對職業(yè)關聯(lián)性進行了深度挖掘,使用基于關系統(tǒng)計學習的貝葉斯網(wǎng)絡模型推斷職業(yè)相關性。文獻[5]進行了模型層面的組合,模型前半部分提取應聘者與職業(yè)特征,后半部分使用層級注意力機制將各部分特征進行融合。文獻[6]使用學生在校數(shù)據(jù)提取學生特征,同時定義城市的綜合指數(shù),最后使用協(xié)同過濾推薦算法向畢業(yè)生推薦職業(yè)。以上算法分別從特征、模型角度出發(fā)提高推薦性能,其有效但不能較好地解決就業(yè)推薦中評分矩陣稀疏的問題。針對以上問題,同時結合大學生就業(yè)推薦的特點,提出一種基于混合深度神經(jīng)網(wǎng)絡的就業(yè)推薦算法。

1 問題描述

設學生集合為S={s1,s2,…,sI},I表示學生總數(shù)。職業(yè)集合為C={c1,c2,…,cN},其包含不同的就業(yè)去向,N表示職業(yè)種類總數(shù)。為了有效地表示學生和職業(yè)特征,將學生屬性劃分為學生基本屬性和學生行為序列屬性,職業(yè)屬性劃分為職業(yè)基本屬性和職業(yè)描述屬性。學生si的基本屬性為

Gi=[(gi,1)T,…,(gi,LG)T,(gi,dense)T]

(1)

其中,向量gi,·表示學生基本屬性中的某一離散特征,LG為學生基本屬性中離散特征的數(shù)量。gi,dense是稠密向量,由學生基本屬性中的連續(xù)特征組成。職業(yè)cn的基本屬性為

Qn=[(qn,1)T,…,(qn,LQ)T,(qn,dense)T]

(2)

包括職業(yè)結構化數(shù)據(jù)字段,其中向量qn,·表示離散特征,向量qn,dense由連續(xù)特征組成。

定義1 學生si行為序列屬性Ai

Ai=(ei,1,ei,2,…,ei,LA)

(3)

其使用學生的在校數(shù)據(jù),按照時間線提取其在校行為組成。由于學生在校行為具有隨機性,因此稱其為行為事件。其中,ei,·∈E是行為事件的向量表示。E表示學生行為事件集合。其指所有學生在校期間存在于數(shù)據(jù)集中的所有行為事件集合。行為事件集合的產(chǎn)生與處理在實驗數(shù)據(jù)集描述部分進行詳細闡述,LA表示學生最大行為序列長度。學生行為序列屬性旨在提取學生行為模式特征,以實現(xiàn)個性化推薦。

定義2 職業(yè)cn描述屬性為

Jn=(jn,1,jn,2…,jn,LJ)

(4)

為預處理后的職業(yè)cn的描述性文本,由詞語和標識符的獨熱向量jn,·組成,其中LJ表示最大文本長度。使用職業(yè)描述屬性的原因是文本數(shù)據(jù)經(jīng)過預訓練的詞向量表示,可以具備一定的語義相似度信息,譬如,對于企業(yè)單位發(fā)展領域的描述文本,可以通過詞向量之間的相似性獲得企業(yè)單位發(fā)展領域之間的相似性。因此,職業(yè)描述屬性有助于完善職業(yè)特征提取,從而提高整體推薦性能。

定義3 學生-職業(yè)評分矩陣定義為

R=[rin]I×N

(5)

其中,rin=1為學生si選擇職業(yè)cn,rin=0為學生si未選擇職業(yè)cn。畢業(yè)生就業(yè)推薦問題可定義為預測學生-職業(yè)評分矩陣。

2 模型方法

由于學生、職業(yè)僅有一次交互,學生職業(yè)評分矩陣極為稀疏,因此為準確挖掘?qū)W生和職業(yè)特征,提出一種基于混合深度神經(jīng)網(wǎng)絡的個性化推薦算法(personalized recommendation based on hybrid deep neural network,PRHN),其通過使用深度混合網(wǎng)絡來緩解稀疏性帶來的推薦質(zhì)量下降,同時使用行為序列屬性實現(xiàn)個性化推薦。所提模型架構如圖1所示,該混合深度神經(jīng)網(wǎng)絡主要包括嵌入表示層、序列語義層、深度預測層和輸出層。其中嵌入表示層包含學生和職業(yè)的基本屬性嵌入、序列屬性嵌入、詞嵌入4個獨立的嵌入模塊,每個模塊學習對應屬性的低維向量表征;序列語義層包含兩個獨立的多頭自注意力機制模塊,其輸入分別為學生行為序列屬性與職業(yè)描述屬性的低維向量表示序列,多頭自注意力機制模塊提取序列特征,輸出學生行為屬性與職業(yè)描述屬性序列特征的向量表征;深度預測層輸入為4個向量表示拼接而成,分別是學生、職業(yè)基本屬性向量嵌入表示以及學生行為屬性與職業(yè)描述屬性序列特征向量表示,輸入向量分別經(jīng)過特征交叉模塊與前饋模塊;輸出層將兩個模塊的輸出向量拼接后經(jīng)過sigmoid函數(shù)處理得到學生職業(yè)匹配度。以下將分別介紹嵌入表示層、序列語義層、深度預測層和輸出層。

圖1 PRHN總體架構

2.1 嵌入表示層

在就業(yè)推薦場景下,學生、職業(yè)屬性具有大量如“所在學院”、“生源地”的離散特征。這些特征一般被編碼為獨熱向量。但這常常會導致向量維度過大產(chǎn)生較多無用神經(jīng)元。為了縮小向量維度,使用嵌入模塊將高維稀疏向量轉化為低維稠密向量。在學生基本屬性模塊中,將離散特征的嵌入向量與連續(xù)特征堆疊起來得到學生基本屬性嵌入

(6)

(7)

2.2 序列語義層

由于學生行為序列屬性具有時間特性,職業(yè)描述屬性為文本序列,因此使用序列語義層進行序列特征提取。在對序列建模的以往研究中,被廣泛使用的模型有長短時記憶網(wǎng)絡(long short-term memory,LSTM),其缺點是某兩項在序列中距離越遠,模型越難學習其中的依賴關系。卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)也被用于序列建模[8],其并行結構具有更快的訓練速度,但它長于識別局部特征,對全局特征不敏感。以上模型對于較長序列都具有一定的局限性。在本文場景下,對行為序列屬性側重于提取模式特征,對職業(yè)描述屬性側重于提取關鍵詞特征,因此多頭自注意力機制[9]被用于本文模型。

自注意力機制與傳統(tǒng)的注意力機制不同,其更關注序列內(nèi)部每一項的關聯(lián)性,不受距離遠近的影響。而多頭自注意力機制進一步增加序列語義的方面級表達,從而提取出具有規(guī)律性的模式特征。其結構如圖2所示。首先,輸入矩陣與位置編碼相加,使模型可以識別位置特征。然后,經(jīng)過K層輸出,其中每一層包含兩個子層,分別是多頭自注意力層與前饋層,每一子層輸出都進行層歸一化。最后,經(jīng)過一個前饋層得到輸出。以下將分別介紹每一部分。

圖2 序列語義層結構

位置編碼作用是使多頭自注意力機制可以捕獲序列中的順序信息,由于職業(yè)描述屬性為文本數(shù)據(jù),因此使用三角函數(shù)產(chǎn)生位置編碼PEJ,其可以描述為

(8)

多頭自注意力層主要實現(xiàn)序列內(nèi)部信息的交互。在學生行為序列屬性特征提取的場景下,多頭自注意力層將在每一行為事件向量與其它行為事件向量上產(chǎn)生多個交互結果,可以表示為

(9)

(10)

(11)

(12)

其中,函數(shù)LayerNorm表示層歸一化。

前饋層作用是提高這一模塊的非線性擬合能力,前饋層輸出表示為

(13)

2.3 深度預測層

將學生、職業(yè)基本屬性的嵌入與通過多頭自注意力機制的輸出拼接起來,然后經(jīng)過深度預測層來進一步產(chǎn)生特征間的交互。深度預測層分為深度特征交叉網(wǎng)絡和深層前饋網(wǎng)絡兩部分。特征交叉網(wǎng)絡[11]作用是實現(xiàn)特征之間的交互,對特征集合較大的推薦系統(tǒng),特征交叉可以減輕模型擬合壓力,較少過擬合風險。

特征交叉網(wǎng)絡能自動且高效地實現(xiàn)特征交互,其總共包含V個子層,v+1層輸入表示為

(14)

(15)

深層前饋網(wǎng)絡作用是增加深度預測層的非線性擬合能力,包含Z個子層,z+1層的輸入表示為

(16)

為了預測學生是否選擇職業(yè),可將其建模為二分類問題,因此使用sigmoid函數(shù)作為輸出函數(shù)。匹配度預測結果表示為

(17)

(18)

(19)

其中,I、N分別是學生和職業(yè)的數(shù)量,rin表示學生si的就業(yè)選擇是否是職業(yè)cn。

3 實驗設置與結果分析

3.1 數(shù)據(jù)集

以中國西部某高校2014屆、2015屆5791名學生的數(shù)據(jù)為實驗對象,數(shù)據(jù)集包含學生基本信息(性別、年級、生源地等)、學生成績信息、學生干部信息(職位、任職時間等)、學生就業(yè)去向、學生獎助信息、學生比賽信息。

在大學4年期間,5791名學生產(chǎn)生了428 929條學生課程成績記錄,將每一門課的原始成績進行標準化處理,并使用這門課程總體成績方差和績點占比共同組成這門課程的計算權重,將權重按大小排序,選取其中前20門課程作為學生基本屬性輸入。同時,學生成績數(shù)據(jù)按照其考試時間順序排序,對每一條原始成績數(shù)據(jù)劃為4個層次(高、中、低、掛科),其課程劃分為4個類別(專業(yè)課程、專業(yè)基礎課程、通識課程、其它),由此產(chǎn)生16個成績類行為事件類別,作為學生行為屬性輸入。除了成績類行為事件類別的學生行為屬性輸入,學生干部信息、學生獎助信息、學生比賽信息都以相似的方式預處理,共產(chǎn)生42類學生行為事件。對其進行樹形編碼,即為行為事件集合E。將學生的所有行為事件按照其時間順序排序,并對其長度小于最大長度的行為序列進行填充,作為學生行為序列屬性輸入。

原始就業(yè)去向數(shù)據(jù)包含企業(yè)名稱、就業(yè)類別、企業(yè)類別、位置信息等,其中企業(yè)名稱作為職業(yè)描述屬性的一部分輸入,其余字段進行獨熱編碼后作為職業(yè)基本屬性輸入。利用爬蟲技術,從愛企查、天眼查等企業(yè)查詢網(wǎng)站得到企業(yè)的結構化數(shù)據(jù)(成立時間、注冊資金等)和企業(yè)描述文本,預處理后分別作為職業(yè)基本屬性和描述屬性輸入。將原始數(shù)據(jù)集分為兩個,以測試模型的魯棒性。其中第一個數(shù)據(jù)集為1035名計算機學院的學生數(shù)據(jù),包含215種畢業(yè)去向,其數(shù)據(jù)稀疏度為99.53%,數(shù)據(jù)較為稀疏。第二個數(shù)據(jù)集為5791名學生數(shù)據(jù),包含1420種不同的就業(yè)去向,其數(shù)據(jù)稀疏度為99.93%,為極度稀疏數(shù)據(jù)。由于這種極度不平衡的數(shù)據(jù)集會使模型學習過程產(chǎn)生偏差,所以隨機抽取負樣本以及重采樣正樣本以平衡數(shù)據(jù)集。

3.2 模型設置

將模型與以下具有代表性的推薦方法進行比較:

(1)RF[3](random forest):首先提取學生、職業(yè)特征,進而計算學生和職業(yè)是否匹配;

(2)NFM[12](neural factorization machines):擴展了矩陣分解(factorization machines,F(xiàn)M)模型,與神經(jīng)網(wǎng)絡結構結合,可以學習特征之間的高階交互;

(3)P2CF[6](personalized preference collaborative filtering):個性化偏好協(xié)同算法,該算法通過海量校園記錄為畢業(yè)生推薦工作,可以識別出學生對工作的個人偏好;

(4)APJFNN[5](ability-aware person-job fit neural network):采用遞歸神經(jīng)網(wǎng)絡和層級注意力機制對文本數(shù)據(jù)進行處理,對職業(yè)簡歷匹配問題進行預測。

3.3 結果分析

在真實數(shù)據(jù)集下進行實驗來驗證模型的有效性。PRHN與對比方法在性能指標HR下的實驗結果如圖3、圖4所示,在性能指標MRR下的實驗結果如圖5、圖6所示。隨著推薦集大小M的增長,模型的HR和MRR數(shù)值都隨之增加。可以看出,所有方法的HR都比較低,這是由于學生就業(yè)數(shù)據(jù)集非常稀疏,這與多數(shù)主流就業(yè)推薦算法的實驗結果是一致的。在兩個數(shù)據(jù)集上PRHN都取得了較好的性能,這是因為PRHN的結構可以對學生、職業(yè)特征進行有效提取,能有效緩解數(shù)據(jù)稀疏問題。相比于經(jīng)典方法RF,NFM在就業(yè)推薦任務上取得一定的效果增幅。原因是NFM在處理稀疏數(shù)據(jù)時有優(yōu)勢,其能自動提取隱式特征。P2CF在HR@50與MRR@50性能指標下較NFM略高,原因是P2CF模型面對大學生進行推薦,針對性地處理就業(yè)問題中的地域特性。在所有對比算法中,APJFNN達到了最優(yōu)性能,原因在于其層次化的注意力模型結構可以較好提取職業(yè)描述文本中的重要信息。相比于數(shù)據(jù)集1,數(shù)據(jù)集2上實驗的算法性能都有了大幅下降,其原因主要是數(shù)據(jù)集2的數(shù)據(jù)更為稀疏,并且由于數(shù)據(jù)集2包含不同專業(yè)的學生,其就業(yè)類型會具有不同的偏向,這對模型的挑戰(zhàn)性更大。PRHN在數(shù)據(jù)集1和數(shù)據(jù)集2上的HR@50相比于最佳對比算法分別提高了4.41%和3.54%,MRR@50相比于最佳對比算法分別提高了2.11%和2.05%。這一結果驗證了所設計的模型結構的有效性。

圖3 在數(shù)據(jù)集1上各模型HR與近鄰個數(shù)關系

圖4 在數(shù)據(jù)集2上各模型HR與近鄰個數(shù)關系

圖5 在數(shù)據(jù)集1上各模型MRR與近鄰個數(shù)關系

圖6 在數(shù)據(jù)集2上各模型MRR與近鄰個數(shù)關系

為了驗證模型中的每一組件是否有效,設計以下模型進行對比實驗,并觀察它們是如何影響最終性能的。考慮以下3個變形模型進行比較。①模型PRHN-T不包含職業(yè)描述屬性部分的組件。具體來說,其不包含職業(yè)描述文本的嵌入和其序列特征提取。②模型PRHN-B不包含學生行為序列屬性部分的組件。③模型PRHN-D不包含特征交叉網(wǎng)絡,其深度預測層只使用深層前饋網(wǎng)絡實現(xiàn)。實驗結果如圖7、圖8所示。可以看出,分別剝離這3個相關組件時,在兩個數(shù)據(jù)集上模型性能都有所下降,這驗證了它們在就業(yè)推薦任務上的有效性。其性能排序為PRHN-B

圖7 不同模型組件影響下HR@50對比

圖8 不同模型組件影響下MRR@50對比

4 結束語

本文設計了一種面向就業(yè)推薦的混合結構的深度神經(jīng)網(wǎng)絡架構。其能很好地提取學生、職業(yè)特征,解決數(shù)據(jù)過于稀疏化的問題。本文定義了學生行為序列屬性輸入,并且使用多頭自注意力機制提取序列的語義信息。同時,為了使模型學習更多職業(yè)特征,加入了職業(yè)描述屬性。最后,使用特征交叉網(wǎng)絡實現(xiàn)了各個特征模塊的交互。在真實數(shù)據(jù)上的實驗結果驗證了PRHN模型的有效性。

本文沒有對職業(yè)間的關聯(lián)性進行分析,使得模型無法推薦不在數(shù)據(jù)集中出現(xiàn)的職業(yè),這會造成在實際應用時推薦的多樣性較差。在未來的研究中,將考慮職業(yè)間的關聯(lián)性,建立學生、企業(yè)圖譜,將其加入模型當中,進一步提高模型的泛化能力。

猜你喜歡
特征模型學生
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
趕不走的學生
抓住特征巧觀察
學生寫話
3D打印中的模型分割與打包
學生寫的話
主站蜘蛛池模板: 黄色网站在线观看无码| 国产又色又爽又黄| 夜夜操狠狠操| 伊人大杳蕉中文无码| 片在线无码观看| 亚洲国产成人在线| 亚洲视频无码| 国产午夜福利亚洲第一| 亚洲看片网| 欧美天堂在线| AV在线天堂进入| 国产日韩欧美视频| 国产麻豆aⅴ精品无码| 国产激爽爽爽大片在线观看| 在线无码九区| 三级欧美在线| 五月婷婷综合在线视频| 制服丝袜亚洲| 国产午夜一级淫片| 蜜桃臀无码内射一区二区三区| 精品99在线观看| 国产欧美视频在线| 亚洲国产精品无码久久一线| 国产成人a在线观看视频| 最新精品国偷自产在线| 亚洲国产成人麻豆精品| 亚洲AV免费一区二区三区| 97国产精品视频自在拍| 久久久精品国产亚洲AV日韩| 亚洲香蕉在线| 亚洲精品国产成人7777| 欧美第九页| 国产精品分类视频分类一区| 日本一区二区三区精品视频| 久久综合丝袜日本网| 青青草一区| 香蕉久人久人青草青草| 91亚瑟视频| 亚洲AⅤ无码国产精品| 中文字幕无线码一区| 四虎成人精品在永久免费| 这里只有精品在线| 国产91麻豆视频| 日本一区高清| 首页亚洲国产丝袜长腿综合| 久久无码高潮喷水| 久久中文字幕av不卡一区二区| 亚洲色偷偷偷鲁综合| 国产91在线免费视频| 噜噜噜综合亚洲| 国产精品久久久久久久伊一| 精品国产一区二区三区在线观看| 亚洲第一中文字幕| 成人国产免费| 在线不卡免费视频| 成人在线综合| 成人av手机在线观看| yy6080理论大片一级久久| 在线观看免费人成视频色快速| 色窝窝免费一区二区三区 | 在线免费a视频| 国产在线第二页| 国产99视频精品免费视频7| 欧美v在线| 干中文字幕| 久久亚洲中文字幕精品一区| 国产欧美视频综合二区| 免费高清a毛片| 久久午夜夜伦鲁鲁片无码免费| 久久久久亚洲精品成人网| 日本尹人综合香蕉在线观看| 97精品久久久大香线焦| 亚洲区欧美区| 日韩无码真实干出血视频| 成人综合久久综合| 亚洲av无码专区久久蜜芽| 精品無碼一區在線觀看 | 91丝袜在线观看| 精品久久蜜桃| 香蕉国产精品视频| 欧美a√在线| 中文字幕资源站|