



摘 要: 為解決傳統(tǒng)人崗?fù)扑]系統(tǒng)存在的三個常見問題,即數(shù)據(jù)稀疏性、數(shù)據(jù)冷啟動和數(shù)據(jù)利用率低,提出了基于知識圖譜的人崗?fù)扑]系統(tǒng)構(gòu)建方法。該方法通過改進傳統(tǒng)推薦模型,將知識圖譜作為輔助邊信息融合到推薦系統(tǒng)中進行人崗?fù)扑],有效解決了數(shù)據(jù)稀疏性和數(shù)據(jù)冷啟動問題;引入知識圖譜補全算法提高了數(shù)據(jù)利用率。提出的方法在人崗?fù)扑]上準確率可達92%,比現(xiàn)有人崗?fù)扑]方法準確率提高約1%。實驗結(jié)果表明該方法是可行的,知識圖譜的加入可以提升人崗?fù)扑]系統(tǒng)的推薦效果。
關(guān)鍵詞: 知識圖譜; 推薦系統(tǒng); 人崗?fù)扑]; 知識圖譜補全
中圖分類號: TP18"" 文獻標志碼: A
文章編號: 1001-3695(2022)01-034-0194-05
doi:10.19734/j.issn.1001-3695.2021.06.0228
Construction of person-post matching recommended system based on knowledge graph
Xu Mengqi1, Xiong Xi1,2, Li Binyong1, Li Zhongzhi1
(1.School of Cybersecurity, Chengdu University of Information Technology, Chengdu 610225, China; 2.School of Aeronautics amp; Astronautics, Sichuan University, Chengdu 610065, China)
Abstract: To solve the three common problems in the traditional person-post matching recommended system: data sparsiness, data cold start and low data utilization rate, this paper proposed knowledge graph-based person-post matching recommended system construction methods. By improving traditional recommendations, it integrated knowledge graph as auxiliary side information to the recommended system to carry out person-post matching recommended system, effectively solved data sparsiness and data cold start issues, and introduced knowledge graph completion algorithm to improve data utilization, the proposed method could reach 92% in the recommended accuracy rate, and the accuracy rate was increased by about 1% more than the existing person-post matching recommended methods. The experimental results show that the method is feasible, and the addition of the knowledge graph can improve the recommendation effect of the person-post matching recommended system.
Key words: knowledge graph; recommended system; person-post matching recommended; knowledge graph completion
0 引言
大數(shù)據(jù)時代,信息過載使人們面臨大量商品時需要花更多時間進行挑選,推薦系統(tǒng)[1] (recommender system)可以幫助用戶從互聯(lián)網(wǎng)數(shù)據(jù)中更全面和更精準地篩選內(nèi)容,比如在購物推薦、書籍推薦、游戲推薦、音樂推薦[2]和電影推薦[3]等場景均有廣泛應(yīng)用。人崗?fù)扑]系統(tǒng)作為推薦系統(tǒng)的主要應(yīng)用方向之一,能夠幫助求職人員快速高效地匹配到求職崗位,同時也能降低招聘企業(yè)的篩選工作量,提高招聘效率,因而日漸受到用人單位與社會的廣泛關(guān)注。主流的推薦系統(tǒng)是基于協(xié)同過濾(collaborative filtering-based recommendation,CF)的推薦系統(tǒng)[4],基于CF的推薦主要是以用戶或交互數(shù)據(jù)項的相似度來建模用戶偏好,目前基于CF的推薦系統(tǒng)仍然被廣泛應(yīng)用,因為它可以有效地捕獲用戶偏好,并且容易在多個場景中實現(xiàn),而不需要在基于內(nèi)容的推薦系統(tǒng)[5]中提取特征。雖然基于CF的推薦系統(tǒng)多年來廣受青睞,但其存在的數(shù)據(jù)稀疏性和冷啟動問題[6]不容忽視,為了減少其固有問題的影響,不少研究人員提出將側(cè)邊信息整合到CF中,如用戶/項目屬性[7]、項目評論[8]、社交網(wǎng)絡(luò)[9]、混合推薦系統(tǒng)[4]等,有了這些額外整合的側(cè)邊信息,可以有效減少數(shù)據(jù)的稀疏性和數(shù)據(jù)冷啟動問題。受此啟發(fā),本文嘗試通過融合知識圖譜的方式來進一步提高人崗?fù)扑]系統(tǒng)的準確率。
知識圖譜以結(jié)構(gòu)化的方式對所有知識作出表示,這種表示方式越來越受學(xué)術(shù)和工業(yè)應(yīng)用的青睞,簡單明了的三元組形式的結(jié)構(gòu)就能組成知識圖譜網(wǎng)絡(luò),雖然其結(jié)構(gòu)簡單,僅由實體—關(guān)系—語義描述這三部分組成,但仍能完整地表示出現(xiàn)實世界中的各種知識。其中實體可以是現(xiàn)實世界中的對象和抽象概念,關(guān)系表示兩個實體之間的關(guān)聯(lián),實體及其關(guān)系的語義描述包含了具有明確含義的類型和屬性。為了解決傳統(tǒng)推薦系統(tǒng)存在的數(shù)據(jù)稀疏和冷啟動問題,將知識圖譜引入推薦系統(tǒng)作為輔助信息已經(jīng)引起了研究者的關(guān)注,并且將知識圖譜引入到人崗?fù)扑]系統(tǒng)中,可以有效解決簡歷數(shù)據(jù)的稀疏性和冷啟動問題,使得人崗?fù)扑]系統(tǒng)的推薦效果更加精準。
本文在人崗數(shù)據(jù)庫的基礎(chǔ)上構(gòu)建知識圖譜,提高了人崗?fù)扑]和崗位匹配效果,同時利用知識圖譜補齊算法,有效解決了數(shù)據(jù)稀疏性問題。本文通過融合知識圖譜的推薦算法,基于知識圖譜進行人崗?fù)扑],大大提高了人崗數(shù)據(jù)的利用率,同時也有效緩解了人崗?fù)扑]無歷史參考數(shù)據(jù)的問題。對RippleNet模型進行改進,增加了知識圖譜補全功能,提高人崗數(shù)據(jù)的利用率,實驗證明知識圖譜補全后人崗?fù)扑]效果有明顯提升。
1 相關(guān)工作
人崗?fù)扑]系統(tǒng)又稱職位推薦系統(tǒng),隨著推薦系統(tǒng)研究的快速發(fā)展,人崗?fù)扑]是推薦系統(tǒng)很重要的應(yīng)用方向之一。對現(xiàn)有文獻進行歸納發(fā)現(xiàn),截止到目前,并沒有相關(guān)人員將知識圖譜算法應(yīng)用到人崗?fù)扑]系統(tǒng),自知識圖譜被提出以來,基于知識圖譜的推薦方法多被應(yīng)用到電影、音樂和書籍推薦系統(tǒng)等方面,對比傳統(tǒng)的基于協(xié)同過濾等的推薦方法,基于知識圖譜的推薦算法確實可以取到意想不到的效果,但是在人崗?fù)扑]領(lǐng)域,尚無研究人員將知識圖譜結(jié)合推薦算法成功應(yīng)用到人崗?fù)扑]上來,并且當前對人崗?fù)扑]系統(tǒng)的研究成果并不多見,主要的研究內(nèi)容如下:2006年何峰[10]提出將求職要求的文本信息向量化,建立向量空間模型,利用文本分類進行人才推薦系統(tǒng),該推薦系統(tǒng)能智能分類求職文本信息,并與招聘單位發(fā)布的職位智能匹配,進而實現(xiàn)個性化推薦功能;2007 年,黃海江等人[9]設(shè)計研發(fā)了一款職位推薦系統(tǒng),在功能上基本實現(xiàn)了職位信息與求職者信息的匹配,但是該推薦系統(tǒng)并沒有考慮到求職者的求職意向和招聘單位的招聘意向;郭軍軍[11]于2009年提出個性化的職位推薦系統(tǒng),采用輪盤模型表征用戶的求職意向,使用反饋用戶空間向量模型對用戶和職位建模,最后應(yīng)用基于內(nèi)容和協(xié)同過濾算法的混合模型進行推薦;2014年路小瑞[12]提出利用Hadoop平臺設(shè)計的職位推薦系統(tǒng),該系統(tǒng)通過用戶的點擊獲取用戶偏好并且結(jié)合用戶的個人信息等判斷職位的匹配程度,從而給出推薦;2016年文獻[13]提出了基于社交網(wǎng)絡(luò)的職位推薦系統(tǒng),給用戶推薦其好友工作過的或是正在工作的公司職位,來解決職位相關(guān)度不足和過載的問題。通過對之前的相關(guān)文獻進行歸納總結(jié)后發(fā)現(xiàn),雖然人崗?fù)扑]系統(tǒng)的研究已經(jīng)初具規(guī)模,并且這些研究成果在解決數(shù)據(jù)稀疏性或數(shù)據(jù)冷啟動問題上都有些許改善,但是其推薦效果還是不能令人滿意,所以為了提高推薦系統(tǒng)的推薦效果,嘗試將知識圖譜作為額外的輔助邊信息融入到推薦系統(tǒng)上進行實驗。
2012年,Google提出知識圖譜用于改善搜索體驗[14],提高搜索質(zhì)量,引起了社會各界紛紛關(guān)注。比如清華大學(xué)建成了第一個大規(guī)模中英文跨語言知識圖譜Xlore、上海交通大學(xué)構(gòu)建并發(fā)布了中文知識圖譜研究平臺Zhishi.me、復(fù)旦大學(xué)GDM實驗室推出了中文知識圖譜項目等[15]。受到知識圖譜在多種領(lǐng)域上成功應(yīng)用的啟發(fā),研究人員開始嘗試利用知識圖譜來提高推薦系統(tǒng)的推薦效果,且取得了良好的效果。
現(xiàn)有的基于知識圖譜的推薦方法可以分為基于嵌入的方法(embedding-based methods)和基于路徑的方法(path-based methods)兩類[16]。基于嵌入的應(yīng)用知識圖譜在推薦系統(tǒng)的方法主要是通過圖嵌入的方法對實體和關(guān)系進行表征,進而擴充原有物品和用戶表征的語義信息,其中包括基于Trans系列的圖譜嵌入方法和基于異質(zhì)信息網(wǎng)絡(luò)的圖嵌入方法。Trans系列的嵌入方法是比較典型的一類對知識圖譜中的實體、關(guān)系進行表征的方法,主要包括TransE[0]、TransH[18]、TransR[19]和TransD[20]。知識圖譜因其節(jié)點和邊具有不同的類別,又可以被稱做一種異質(zhì)信息網(wǎng)絡(luò)圖,因此可以使用一些異質(zhì)信息網(wǎng)絡(luò)圖嵌入的方法對圖上的實體和關(guān)系進行表征。Wang等人[21]從異質(zhì)信息網(wǎng)絡(luò)圖中抽取和用戶節(jié)點相連的N-hop實體節(jié)點,設(shè)計了基于RippleNet的方法,該方法利用這些實體節(jié)點的嵌入表征更新用戶的表征,從而利用用戶和物品表征的點積去預(yù)測推薦結(jié)果。本文也是基于此對RippleNet方法進行改進,應(yīng)用于人崗?fù)扑]系統(tǒng)上。知識圖譜在推薦系統(tǒng)上的應(yīng)用往往能起到很好的輔助推薦效果,所以本文首次嘗試在人崗?fù)扑]系統(tǒng)上結(jié)合知識圖譜進行推薦,并取得了不錯的效果。
2 人崗?fù)扑]系統(tǒng)構(gòu)建
本文在傳統(tǒng)人崗?fù)扑]系統(tǒng)上融合知識圖譜進行構(gòu)建,從而提高人崗?fù)扑]系統(tǒng)的推薦效果。本文知識圖譜總體構(gòu)建流程如圖1所示,原始數(shù)據(jù)的格式可能是多樣的,這些原始數(shù)據(jù)經(jīng)過處理后,再用知識抽取的方法表示為三元組形式,然后進行知識圖譜補全操作進一步完善所得三元組數(shù)據(jù),最后構(gòu)建知識圖譜。其中重要的是對獲取的數(shù)據(jù)進行知識抽取和知識圖譜補全操作。
2.1 圖譜構(gòu)建方案
2.1.1 知識圖譜邏輯結(jié)構(gòu)
知識圖譜在邏輯上可分為模式層與數(shù)據(jù)層兩個層次,數(shù)據(jù)層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。如果用(實體1,關(guān)系,實體2)(實體,屬性,屬性值)這樣的三元組來表達事實,可選擇圖數(shù)據(jù)庫作為存儲介質(zhì),本文選用開源的Neo4j圖數(shù)據(jù)庫進行數(shù)據(jù)的存儲,對于知識圖譜的構(gòu)建效果,圖數(shù)據(jù)庫能更加直觀地展示圖譜的結(jié)構(gòu)。模式層是構(gòu)建在數(shù)據(jù)層之上的,主要是通過本體庫來規(guī)范數(shù)據(jù)層的一系列事實表達,通過本體庫而形成的知識庫不僅層次結(jié)構(gòu)較強,并且冗余程度較小。
2.1.2 知識圖譜架構(gòu)體系
知識圖譜構(gòu)建主要分為自頂向下(top-down)與自底向上(bottom-up)兩種構(gòu)建方式。自頂向下的構(gòu)建方式適用于知識內(nèi)容比較明確,關(guān)系比較清晰的領(lǐng)域構(gòu)建知識圖譜。自底向上構(gòu)建方式則是從開放的Open Linked Data中抽取置信度高的知識,或從非結(jié)構(gòu)化文本中抽取知識,完成知識圖譜的構(gòu)建,該方式更適用于常識性的知識,比如人名、機構(gòu)名等通用知識圖譜的構(gòu)建。然而在實際構(gòu)建過程中,兩種方法并不是孤立進行的,本文在構(gòu)建人崗?fù)扑]系統(tǒng)知識圖譜時采用兩種方法的結(jié)合,首先采用自頂向下的方式構(gòu)建本體庫,然后采用自底向上的方式提取人員的簡歷信息擴展知識圖譜。
2.1.3 數(shù)據(jù)獲取與預(yù)處理
知識圖譜構(gòu)建的首要任務(wù)就是對數(shù)據(jù)的處理,本文基于公司人崗數(shù)據(jù)進行推薦,數(shù)據(jù)來源于公司招聘收集的個人用戶人崗信息,常見的人崗信息提交格式有PDF文件、JPG圖片、Word文檔等,對不同的數(shù)據(jù)進行OCR識別與文本信息提取等操作后,將得到的文本數(shù)據(jù)進一步進行自然語言處理(natural language processing,NLP)操作,獲得標準化人崗數(shù)據(jù),從而構(gòu)建標準化人崗數(shù)據(jù)庫,知識圖譜的數(shù)據(jù)處理流程如圖2所示。
對于非結(jié)構(gòu)化數(shù)據(jù),比如純文本數(shù)據(jù)等,需要進行信息抽?。╥nformation extraction) [22]技術(shù)來完成三元組的構(gòu)建。首先通過對個人簡歷信息的實體抽取,獲取到求職人員的一些基本信息,比如姓名、畢業(yè)院校、年齡、期望薪資、就職公司等信息;然后采用半監(jiān)督算法Bootstrapping算法[23]進行關(guān)系抽取,得出求職人員和不同實體之間的關(guān)聯(lián)信息,比如張三—朋友—李四,李四—任職過—公司A,王五—居住于—上海等;同時也進行屬性的抽取,比如抽取到張三—年齡—25,李四—學(xué)歷—碩士,王五—工作經(jīng)驗—3年等信息。
在人崗?fù)扑]系統(tǒng)中,將公司獲取到的人崗信息經(jīng)過信息抽取后,得到構(gòu)建人崗知識圖譜的人崗三元組數(shù)據(jù),其格式類似于:(張三,年齡,25)(張三,學(xué)歷,本科)(張三,精通,Python)。但是得到的數(shù)據(jù)并不全都是完善準確的,有時會出現(xiàn)信息抽取錯誤的情況,導(dǎo)致抽取到的三元組信息缺失或者錯誤,這時就需要進行知識圖譜補全任務(wù)來完善圖譜。
2.2 知識圖譜補全
由于知識圖譜存在不完整的問題,多數(shù)現(xiàn)有知識圖庫都是稀疏的。由此引出了知識圖譜補全(knowledge graph completion,KGC)來向知識圖譜添加新的三元組。在初步獲取到所需要的人崗三元組數(shù)據(jù)后,對于缺失的三元組數(shù)據(jù),為了達到更好的數(shù)據(jù)處理效果,需要進行知識圖譜補全操作,主要分為頭實體缺失補全、關(guān)系缺失補全和尾實體缺失補全三部分操作,如圖3所示。在補全過程中,需要對圖譜中的頭尾實體和關(guān)系進行知識表示,將這些信息進行嵌入表示后,就可以進行缺失信息的預(yù)測。如圖4所示,可以將這種預(yù)測過程抽象成一個有向圖的結(jié)構(gòu),其中實體表示節(jié)點、關(guān)系表示邊,要實現(xiàn)的知識圖譜補全操作其實就是給知識圖譜中的不同節(jié)點尋找有向邊的過程。
在圖4中,一共包含a、b、c、d、e、f六個節(jié)點,補全的目標就是找到a和f中的對應(yīng)關(guān)系,而且這個關(guān)系是a與{b,c,d,e}對應(yīng)關(guān)系中的一個。本文采用最經(jīng)典的TransE[17]模型進行知識表示,該模型的核心假設(shè)如下:
對于正確的三元組(h,r,t)而言,需要滿足的是h+r=t,也就是尾實體是頭實體通過關(guān)系r的平移而得到的。通過TransE模型,可以將知識圖譜中的關(guān)系和實體轉(zhuǎn)換成編碼的方式,通過式(1)得到缺失的關(guān)系編碼表示,最終通過相似度比較的方式來確定實際的關(guān)系。對于關(guān)系預(yù)測問題,目前的方法" 多是采用打分的機制,對于一個三元組,給出這個三元組可信的評分。在關(guān)系預(yù)測問題中,就是給定頭節(jié)點和尾節(jié)點,在所有待選的關(guān)系集合中,選出評分最高的作為關(guān)系預(yù)測的結(jié)果。
t=h+r(1)
通過知識圖譜補全技術(shù),可以更好地完善數(shù)據(jù)內(nèi)容,使得數(shù)據(jù)更加健壯,訓(xùn)練效果更好,最終使得推薦的效果得以提高。
2.3 人崗?fù)扑]算法
人崗?fù)扑]算法與常見的傳統(tǒng)推薦算法不同的地方在于結(jié)合了知識圖譜,本文的主要推薦算法基于RippleNet模型,通過改進算法模型將其應(yīng)用到人崗?fù)扑]系統(tǒng)中,最后在人崗?fù)扑]上取得了不錯的效果。如圖5所示,為本文改進后的RippleNet算法框架主要構(gòu)建架構(gòu)。其輸入為一個招聘需求信息u和一個候選的人員簡歷信息v,輸出為招聘需求對應(yīng)人員簡歷的可能性。其中Rh表示關(guān)系R和頭節(jié)點h的嵌入表示,t代表尾節(jié)點嵌入表示。對輸入的招聘需求u來說,與求職人員交互的歷史信息作為種子存儲到圖譜網(wǎng)絡(luò)中,即先將所有和招聘需求有過關(guān)聯(lián)的求職人員作為歷史記錄形成種子集合構(gòu)建到圖譜網(wǎng)絡(luò)中,方便提取參照這些歷史交互信息,而傳播到一跳或者兩跳,甚至多跳種子人員集合,就是根據(jù)不同的關(guān)聯(lián)信息來劃分的歷史交互種子集合,類似于直接將招聘需求相關(guān)聯(lián)的人員當做一跳人員集合,然后間接和招聘需求相關(guān)聯(lián)的人員作為兩跳關(guān)聯(lián)人員集合。這些種子集合信息和人員簡歷信息的嵌入表示進行迭代交互,獲取招聘需求信息與人員信息的反饋信息,將這些信息聯(lián)合形成最終的招聘需求表示,最終通過招聘需求的嵌入表示和人員簡歷信息的嵌入表示共同預(yù)測出招聘需求對此簡歷信息的招聘可能性。
uv=σ(uTv)(2)
可能性計算公式如式(2)所示,其中σ(x)=1/[1+exp(-x)]是sigmoid激活函數(shù)。
在進行公司需求和招聘人員簡歷信息的嵌入表示前,首先將存入知識圖譜的不完整信息進行知識圖譜補全,把抽取到的三元組信息通過圖譜補全技術(shù)來完善數(shù)據(jù)內(nèi)容,使得推薦算法取得更好的推薦效果。在下面的實驗中對比了圖譜補全前后的簡歷推薦準確率,實驗證明這種改進方式可以提高簡歷推薦效果。
2.4 人崗?fù)扑]系統(tǒng)圖譜構(gòu)建效果
基于知識圖譜的人崗?fù)扑]系統(tǒng)圖譜數(shù)據(jù)構(gòu)建效果如下:
a)簡歷人員信息的圖譜構(gòu)建。將人員的簡歷信息抽取解析后,抽取三元組信息存放到neo4j圖數(shù)據(jù)庫中,如圖6所示(出于隱私保護,圖中未顯示真實公司名和項目名)。
根據(jù)不同需求,建立人員主要的個人信息三元組信息,比如擅長的技術(shù)技能、任職過的公司、參與的項目經(jīng)歷、期望薪資水平等,將這些信息構(gòu)建到圖譜中,以便與應(yīng)聘崗位需求進行關(guān)聯(lián)。
b)公司招聘需求信息圖譜構(gòu)建。將公司招聘信息、崗位需求抽取解析,以三元組的形式存放到圖數(shù)據(jù)庫中,如圖7所示。
崗位需求信息主要就是招聘公司對于不同崗位的招聘要求,包括招聘崗位的技術(shù)要求、年齡要求、學(xué)歷要求、技能熟練度要求等。
c)崗位推薦結(jié)果的圖譜構(gòu)建。通過圖譜推薦算法計算出招聘公司在某一崗位推薦的人員,并將推薦結(jié)果存放到圖數(shù)據(jù)庫中,如圖8所示。
崗位推薦結(jié)果展示了與公司需求的崗位對應(yīng)較匹配的人員,過濾了大量和崗位要求不一致的求職人員,從而提高了招聘效率。在進行人崗?fù)扑]系統(tǒng)構(gòu)建的過程中,對比傳統(tǒng)人崗?fù)扑],本文方法的關(guān)鍵技術(shù)在于知識圖譜的構(gòu)建和知識圖譜補全技術(shù)的應(yīng)用。在人崗?fù)扑]算法上,本文通過改進基于知識圖譜的推薦算法,結(jié)合知識圖譜補全技術(shù),使得在人崗?fù)扑]上構(gòu)建的知識圖譜數(shù)據(jù)利用率更高、更完善,通過知識圖譜的構(gòu)建和知識圖譜補全算法這兩個關(guān)鍵技術(shù)的應(yīng)用,成功提升了傳統(tǒng)人崗?fù)扑]系統(tǒng)的推薦效果,下面的實驗部分展示了實驗的具體細節(jié)。
3 崗位推薦結(jié)果展示了公司需求的崗位對應(yīng)較實驗
本章通過在真實的公司求職數(shù)據(jù)場景中評估基于知識圖譜的人崗?fù)扑]系統(tǒng)的實現(xiàn)效果。首先簡單介紹了實驗數(shù)據(jù)集的選取,然后解釋了實驗評估指標的符號及含義,最后呈現(xiàn)了實驗結(jié)果。
3.1 實驗數(shù)據(jù)集
本文采取的是真實的公司求職簡歷數(shù)據(jù),由于影響推薦準確率的因素主要包括數(shù)據(jù)因素和算法因素,為了突出本文提出的融合知識圖譜及知識圖譜補全算法在人崗?fù)扑]系統(tǒng)中的有效性,在進行對比不同算法時,選取同一數(shù)據(jù)集,將基于圖譜的人崗?fù)扑]算法、圖譜補全后的人崗?fù)扑]算法分別與傳統(tǒng)人崗?fù)扑]算法進行對比,并且訓(xùn)練、評估和測試集的比例均為6∶2∶2,每個實驗重復(fù)三次,取平均值進行對比。
3.2 實驗評估指標
本次實驗結(jié)果的評價標準是AUC(area under curve)和ACC(accuracy)。其中ROC(receiver operating characteristic)曲線所覆蓋的面積稱為AUC,AUC越大則性能越好。準確率ACC如式(3)所示。
accuracy=TP+TNTP+FP+TN+FN(3)
其中:TP(true positive)表示樣本的真實類別為正,最后預(yù)測結(jié)果也為正;FP(1 positive)表示樣本的真實類別為負,最后預(yù)測得到的結(jié)果卻為正;FN(1 negative)表示樣本的真實類別為正,最后預(yù)測得到的結(jié)果卻為負;TN(true negative)表示樣本的真實類別為負,最后預(yù)測得到的結(jié)果也為負。
3.3 實驗結(jié)果
本次實驗數(shù)據(jù)來自招聘公司提供的相關(guān)簡歷研究數(shù)據(jù),將這些數(shù)據(jù)進行數(shù)據(jù)清洗后,抽取出需要的簡歷三元組信息,存放到neo4j圖數(shù)據(jù)庫中,然后構(gòu)建知識圖譜,經(jīng)過基于知識圖譜的推薦算法得出相應(yīng)崗位推薦的人員,在三種不同的算法下,主要對比了有無知識圖譜構(gòu)建算法的推薦準確率,除了模型訓(xùn)練算法不同,其余對數(shù)據(jù)的處理方式和準確率評估方式均保持一致,將這些個人簡歷信息對應(yīng)招聘信息進行評分表示,比如根據(jù)招聘要求,將技能要求評為(精通,4分)(掌握,3分)(熟練,2分)(了解,1分)(其他,0分)。然后根據(jù)個人簡歷介紹,對應(yīng)進行個人標簽的評分,使得每個簡歷人員都有相應(yīng)的技能分值。根據(jù)簡歷要求,比如大于等于3分的進行推薦,這樣就可以過濾掉此項要求不符合的求職人員。同理在其他招聘要求項上均可進行此操作,需要根據(jù)具體的招聘需求,進行不同的評分表示,比如招聘要求年齡在35歲以下,此項分值就為0或1。最后滿足每個招聘要求的求職人員,將被保留下來,并且保留下來的人員中,也根據(jù)評分有相應(yīng)的排名,招聘公司可以根據(jù)分值排名取前多少名作為候選人。
如圖9所示,展示了傳統(tǒng)人崗匹配算法的訓(xùn)練結(jié)果AUC和ACC曲線結(jié)果。圖10是基于知識圖譜的人崗?fù)扑]系統(tǒng)AUC和ACC結(jié)果,實驗表明經(jīng)過傳統(tǒng)的人崗匹配系統(tǒng)融合知識圖譜后,其推薦效果提高了0.5%~0.7%。圖11是經(jīng)過知識圖譜補全算法后的AUC和ACC結(jié)果,實驗表明經(jīng)過知識圖譜補全后,相比傳統(tǒng)人崗匹配方式,其推薦效果提高了約1%。
表1、2列出了基于傳統(tǒng)方式進行人崗?fù)扑]和基于圖譜方式及圖譜補全方式進行人崗?fù)扑]的實驗AUC和ACC結(jié)果。實驗共進行20輪訓(xùn)練,雖然受訓(xùn)練集規(guī)模有限的影響,導(dǎo)致訓(xùn)練提升效果有限,但仍可證明在人崗?fù)扑]系統(tǒng)上結(jié)合基于知識圖譜的推薦算法進行構(gòu)建是可行的,且有不錯的提升效果。
通過表1、2的實驗數(shù)據(jù)可以看出,在未進行基于知識圖譜構(gòu)建的情況下,傳統(tǒng)推薦算法在人崗?fù)扑]上的訓(xùn)練AUC值和ACC值均低于圖譜補全后的人崗?fù)扑]算法?;趫D譜構(gòu)建效果的提升,得益于知識圖譜作為輔助信息,大大降低了人崗?fù)扑]模型訓(xùn)練過程中的數(shù)據(jù)稀疏和數(shù)據(jù)冷啟動問題,知識圖譜的應(yīng)用使得人崗?fù)扑]系統(tǒng)中的個人簡歷數(shù)據(jù)與招聘需求信息聯(lián)系緊密,所以推薦算法能夠更加準確地進行兩者之間的關(guān)聯(lián)推薦。同時知識圖譜補全算法的加入更是充分利用了簡歷數(shù)據(jù),將原本殘缺需要拋棄的數(shù)據(jù)內(nèi)容補全后加入到圖譜網(wǎng)絡(luò)中,無疑增加了數(shù)據(jù)的健壯性,使得推薦算法能夠獲取更多的數(shù)據(jù)信息,從而更準確地進行模型的訓(xùn)練預(yù)測。
實驗最終結(jié)果是在同一數(shù)據(jù)集下,每種構(gòu)建方式進行三次實驗后的平均結(jié)果。通過實驗對比,傳統(tǒng)的推薦方式構(gòu)建人崗匹配系統(tǒng)平均準確率約為91%,本文提出的基于圖譜的構(gòu)建方式在經(jīng)過圖譜補全后平均準確率約為92%,提升了約1%,說明人崗?fù)扑]系統(tǒng)是可以融合知識圖譜來進一步提高人崗?fù)扑]效果的。
4 結(jié)束語
本文主要介紹了推薦系統(tǒng)、知識圖譜和人崗?fù)扑]的相關(guān)背景知識,提出將知識圖譜融合推薦系統(tǒng)進行人崗?fù)扑]的方法,并取得了不錯的效果。目前在人崗?fù)扑]系統(tǒng)上的研究,傳統(tǒng)的方法仍然存在很多問題,比如簡歷數(shù)據(jù)的稀疏性和簡歷人員歷史數(shù)據(jù)缺失導(dǎo)致的冷啟動問題等,同時由于數(shù)據(jù)的缺失,導(dǎo)致很多數(shù)據(jù)不能正常使用。而隨著對知識圖譜的研究發(fā)現(xiàn),將知識圖譜融合人崗?fù)扑]系統(tǒng)能夠很好地解決傳統(tǒng)人崗?fù)扑]方法的弊端,故本文嘗試構(gòu)建基于知識圖譜的人崗?fù)扑]系統(tǒng),并加入了圖譜補全算法,用于提高數(shù)據(jù)利用率,通過實驗得出此方法構(gòu)建效果良好。
傳統(tǒng)人崗?fù)扑]系統(tǒng)只是基于推薦方法來改進推薦效果,本文提供了融合知識圖譜的思路來改進推薦效果。實驗表明基于知識圖譜的人崗?fù)扑]系統(tǒng)方案是可行的,將知識圖譜應(yīng)用到人崗?fù)扑]系統(tǒng)中確實可以取得較好的效果,接下來可以進一步研究如何提高人崗?fù)扑]系統(tǒng)的準確率,比如可以通過數(shù)據(jù)增強、知識圖譜補全糾錯等方式來優(yōu)化系統(tǒng)推薦效果,同時表明基于知識圖譜的人崗?fù)扑]系統(tǒng)的研究是值得探索的有前景的方向。
參考文獻:
[1]Zhang Fuzheng, Yuan N J, Lian Defu, et al. Collaborative know-ledge base embedding for recommender systems[C]//Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2016:353-362.
[2]Zhao Huan, Yao Quanming, Li Jianda, et al. Meta-graph based re-commendation fusion over heterogeneous information networks[C]//Proc of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2017:635-644.
[3]Padhi A K, Mohanty A, Sahoo S. FindMoviez:a movie recommendation system[M]//Intelligent Systems.Berlin:Springer,2021:49-57.
[4]Sun Zhu, Guo Qing, Yang Jie, et al. Research commentary on recom-mendations with side information: a survey and research directions[J].Electronic Commerce Research and Applications,2019,37:100879.
[5]Javed U, Shaukat K, Hameed I A, et al. A review of content-based and context-based recommendation systems[J].International Journal of Emerging Technologies in Learning,2021,16(3):274-306.
[6]Natarajan S, Vairavasundaram S, Natarajan S, et al. Resolving data sparsity and cold start problem in collaborative filtering recommender system using linked open data[J].Expert Systems with Applications,2020,149:113248.
[7]Paparrizos I, Cambazoglu B B, Gionis A. Machine learned job recom-mendation[C]//Proc of the 5th ACM Conference on Recommender Systems.New York:ACM Press,2011:325-328.
[8]Singh A, Rose C, Visweswariah K, et al. PROSPECT: a system for screening candidates for recruitment[C]//Proc of the 19th ACM International Conference on Information and Knowledge Management.New York:ACM Press,2010:659-668.
[9]黃海江,楊貫中.基于本體的學(xué)習(xí)內(nèi)容個性化推薦[J].科學(xué)技術(shù)與工程,2007,7(14):3394-3398.(Huang Haijiang, Yang Guanzhong. Ontology-based personalized recommendation in E-learning[J].Science Technology and Engineering,2007,7(14):3394-3398.)
[10]何峰.基于文本分類的人才自動推薦系統(tǒng)[D].蘇州:蘇州大學(xué),2006.(He Feng. An automatic recommended system talents based on text classification[D].Suzhou:Soochow University,2006.)
[11]郭軍軍.個性化職位推薦系統(tǒng)研究與實現(xiàn)[D].西安:西安電子科技大學(xué),2009.(Guo Junjun. Research and realization on personalized post recommender system[D].Xi’an:Xidian University,2009.)
[12]路小瑞.基于Hadoop平臺的職位推薦系統(tǒng)的設(shè)計與實現(xiàn)[D].上海:上海交通大學(xué),2014.(Lu Xiaorui. The design and implementation of job recommendation system based on Hadoop[D].Shanghai:Shanghai Jiao Tong University,2014.)
[13]何俊.基于社交網(wǎng)絡(luò)的個性化推薦系統(tǒng)的設(shè)計與實現(xiàn)[D].貴陽:貴州大學(xué),2015.(He Jun. Design and implementation of persona-lized recommendation system based on social network[D].Guiyang:Guizhou University,2015.)
[14]Singhal A. Introducing the knowledge graph: things, not strings[M].[S.l.]:Official Google Blog,2012.
[15]Cheng Xueqi, Jin Xiaolong, Wang Yuanzhuo, et al. Survey on big data system and analytic technology[J].Journal of Software,2014,25(9):1889-1908.
[16]Wang Hongwei, Zhang Fuzheng, Wang Jialin, et al. Exploring high-order user preference on the knowledge graph for recommender systems[J].ACM Trans on Information Systems,2019,37(3):1-26.
[17]Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[C]//Proc of the 26th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2013:2787-2795.
[18]Wang Zhen, Zhang Jianwen, Feng Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2014:1112-1119.
[19]Lin Yankai, Liu Zhiyuan, Sun Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proc of the 29th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2015:2181-2187.
[20]Ji Guoliang, He Shizhu, Xu Liheng, et al. Knowledge graph embedding via dynamic mapping matrix[C]//Proc of the 53rd Annual Mee-ting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg,PA:Association for Computational Linguistics,2015:687-696.
[21]Wang Hongwei, Zhang Fuzheng, Wang Jialin , et al. RippleNet: propagating user preferences on the knowledge graph for recommender systems[C]//Proc of the 27th ACM International Conference on Information and Knowledge Management.2018:417-426.
[22]Zong C, Xia R, Zhang J. Information extraction[M]//Text Data Mining.Berlin:Springer,2021:227-283.
[23]Zhang Chunyun. The study of entity relation extraction algorithm[D].Beijing:Beijing University of Posts and Telecommunications,2015.