999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合神經(jīng)網(wǎng)絡(luò)的開(kāi)源社區(qū)軟件開(kāi)發(fā)者人力資源價(jià)值預(yù)測(cè)

2021-08-12 08:32:56湯佳杰曹永忠朱俊武
關(guān)鍵詞:價(jià)值

湯佳杰 曹永忠 朱俊武 顧 浩

(揚(yáng)州大學(xué)信息工程學(xué)院 江蘇 揚(yáng)州 225127)

0 引 言

隨著社會(huì)經(jīng)濟(jì)取得前所未有的發(fā)展,人力資源在推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展中的作用不斷提高。特別是21世紀(jì)以來(lái),作為國(guó)家競(jìng)爭(zhēng)力來(lái)源的人力資源已上升至國(guó)家戰(zhàn)略層面的高度。但是,在如此激烈的競(jìng)爭(zhēng)環(huán)境下,人力資源價(jià)值評(píng)估理論和實(shí)踐卻相對(duì)滯后,導(dǎo)致企業(yè)在招聘時(shí)需要通過(guò)多重環(huán)節(jié)對(duì)應(yīng)聘者進(jìn)行考核來(lái)確定其各項(xiàng)技能水平,整個(gè)招聘過(guò)程包括筆試、面試等預(yù)估環(huán)節(jié)將長(zhǎng)達(dá)數(shù)月;同時(shí),對(duì)企業(yè)內(nèi)部已招聘的員工的人力資源價(jià)值沒(méi)有進(jìn)行量化分析,以至于許多經(jīng)過(guò)企業(yè)培養(yǎng),具有豐富管理經(jīng)驗(yàn)及高新技術(shù)技能的員工因自身價(jià)值得不到體現(xiàn)而另謀出路。此現(xiàn)象在人力資源密集型、知識(shí)密集型的IT行業(yè)中十分常見(jiàn),因此對(duì)IT行業(yè)中軟件開(kāi)發(fā)者的人力資源價(jià)值進(jìn)行正確評(píng)估就顯得尤為重要。

近幾年以來(lái),以大數(shù)據(jù)、云計(jì)算、人工智能、物聯(lián)網(wǎng)、區(qū)塊鏈等時(shí)代前沿技術(shù)為基礎(chǔ)的數(shù)字科技正在不斷加速各行各業(yè)的產(chǎn)業(yè)融合與轉(zhuǎn)型,不斷改變著人們的生活方式。因此,作為前沿技術(shù)開(kāi)發(fā)者的高技術(shù)軟件開(kāi)發(fā)者被各企業(yè)所爭(zhēng)搶。開(kāi)源社區(qū)作為各層次水平的軟件開(kāi)發(fā)者的聚集地,其中積累了大量的軟件開(kāi)發(fā)者人力資源數(shù)據(jù)、軟件開(kāi)發(fā)數(shù)據(jù)及軟件開(kāi)發(fā)者日?;顒?dòng)數(shù)據(jù)。為了充分利用這些數(shù)據(jù),GitHub根據(jù)注冊(cè)用戶在社區(qū)中的日常行為數(shù)據(jù)開(kāi)發(fā)了“Discover repositories”向使用者推薦相關(guān)存儲(chǔ)庫(kù)。除此以外,我們?nèi)钥梢詮倪@些數(shù)據(jù)中挖掘高水平或高潛力的軟件開(kāi)發(fā)者信息,并用于公司招聘。

然而,GitHub并沒(méi)有專門為招聘人員提供相關(guān)信息來(lái)推斷軟件開(kāi)發(fā)者的技能水平。因此,為了評(píng)估開(kāi)發(fā)人員的質(zhì)量,招聘人員必須手工檢索相應(yīng)軟件開(kāi)發(fā)者的個(gè)人信息及存儲(chǔ)倉(cāng)庫(kù)。Marlow等[1]認(rèn)為,招聘人員必須投入大量精力和時(shí)間來(lái)收集和評(píng)估GitHub上軟件開(kāi)發(fā)者展示的某些相關(guān)技能方面信息。因此,本文將重點(diǎn)利用GitHub用戶信息及其存儲(chǔ)庫(kù)相關(guān)指標(biāo)來(lái)解決招聘者在招聘軟件開(kāi)發(fā)者時(shí)無(wú)法評(píng)價(jià)其價(jià)值的問(wèn)題,為企業(yè)的高效招聘提供一種新的解決方案。

1 相關(guān)理論與方法

人們對(duì)人力資源研究的熱情始于美國(guó)經(jīng)濟(jì)學(xué)家舒爾茨和貝克爾,他們提出的人力資本理論在經(jīng)濟(jì)學(xué)中具有舉足輕重的地位。人力資源價(jià)值評(píng)估主要是根據(jù)被評(píng)估者自身現(xiàn)有條件,并參考在未來(lái)可能創(chuàng)造的價(jià)值,反映人力資源在當(dāng)前時(shí)間點(diǎn)的勞動(dòng)能力。從人力資源個(gè)體價(jià)值的角度出發(fā),國(guó)內(nèi)外一些學(xué)者先后提出了一系列計(jì)量模型。其中作為所有模型基礎(chǔ)的理論是馬克思的勞動(dòng)價(jià)值論[2],其認(rèn)為人力資源成長(zhǎng)過(guò)程中積累的知識(shí)、技能和經(jīng)驗(yàn)等因素可作為人力資源價(jià)值的組成部分,并在工作時(shí)將其中的價(jià)值轉(zhuǎn)移到商品中。

目前,國(guó)內(nèi)外人力資源個(gè)體價(jià)值評(píng)估方法分為兩種:第一種為傳統(tǒng)管理學(xué)評(píng)估模型,這些模型通過(guò)統(tǒng)計(jì)人力資源價(jià)值形成過(guò)程中的投入,并把工資作為評(píng)價(jià)個(gè)體人力資源價(jià)值的方式,如未來(lái)工資報(bào)酬折現(xiàn)法[3-4]、人力資本加工成本法[4]、隨機(jī)報(bào)酬價(jià)值法[5]和完全價(jià)值測(cè)定法[6]等;第二種為機(jī)器學(xué)習(xí)的方法,如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等。文獻(xiàn)[7]在問(wèn)卷調(diào)查選擇人力資源價(jià)值影響因素的基礎(chǔ)上,對(duì)藍(lán)領(lǐng)階層價(jià)值影響因素進(jìn)行聚類,通過(guò)聚類把人員劃分為5個(gè)重要程度并針對(duì)情況對(duì)相應(yīng)人員提出激勵(lì)措施。文獻(xiàn)[8]通過(guò)BP神經(jīng)網(wǎng)絡(luò)對(duì)電力企業(yè)員工績(jī)效做出評(píng)估,首先由評(píng)估人員對(duì)設(shè)定的17個(gè)指標(biāo)打分,把分?jǐn)?shù)作為神經(jīng)網(wǎng)絡(luò)輸入向量,并把當(dāng)期考核結(jié)果作為輸出向量對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,驗(yàn)證了神經(jīng)網(wǎng)絡(luò)評(píng)估的有效性與高效性。文獻(xiàn)[9]通過(guò)Elman神經(jīng)網(wǎng)絡(luò)對(duì)歷年員工創(chuàng)造價(jià)值、員工人數(shù)、員工離職率的學(xué)習(xí),預(yù)測(cè)當(dāng)年可創(chuàng)造價(jià)值與員工離職概率,為企業(yè)人力資源配置的研究和實(shí)踐提供了一種新的方法,具有一定現(xiàn)實(shí)意義。文獻(xiàn)[10]設(shè)計(jì)了19項(xiàng)可能會(huì)為高校人力資源帶來(lái)風(fēng)險(xiǎn)的因素,建立了高校人力資源風(fēng)險(xiǎn)評(píng)估模型,并通過(guò)RBF神經(jīng)網(wǎng)絡(luò)對(duì)風(fēng)險(xiǎn)做出分類評(píng)估,實(shí)證研究識(shí)別錯(cuò)誤率為6%,能夠較好地識(shí)別高風(fēng)險(xiǎn)樣本。

近年來(lái),隨著計(jì)算機(jī)硬件的發(fā)展,深度學(xué)習(xí)也再次受到人們的關(guān)注,卷積神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)作為其中的代表,被廣泛應(yīng)用于各種領(lǐng)域,如計(jì)算機(jī)視覺(jué)[11]、自然語(yǔ)言處理[12]、語(yǔ)音識(shí)別[13]、機(jī)器翻譯[14]、醫(yī)療[15]和金融[16]等領(lǐng)域。為了完成以上各項(xiàng)任務(wù),構(gòu)建的神經(jīng)網(wǎng)絡(luò)規(guī)模不斷增大,并且為了獲得更好的性能,多種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)堆疊使用。文獻(xiàn)[17]構(gòu)造了CNN-LSTM結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),通過(guò)CNN提取樣本特征,輸入LSTM中預(yù)測(cè)設(shè)備故障,通過(guò)一周內(nèi)采集的60萬(wàn)組數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,預(yù)測(cè)值的準(zhǔn)確率達(dá)83.27%。文獻(xiàn)[18]提出了一種基于CNN-LSTM框架的繪畫作品作者分類方法,對(duì)中國(guó)畫的作者進(jìn)行預(yù)測(cè)分類,給出其可能作者及其概率,較深度卷積神經(jīng)網(wǎng)絡(luò)精確率、召回率、F1-score分別提高8.45%、8.08%、8.27%。

綜上,只要確定了合理的價(jià)值評(píng)估體系并將之科學(xué)地轉(zhuǎn)換為量化的變量值,在樣本足夠的情況下,神經(jīng)網(wǎng)絡(luò)可以較準(zhǔn)確地完成軟件開(kāi)發(fā)者人力資源價(jià)值評(píng)估。但僅僅知道軟件開(kāi)發(fā)者當(dāng)前價(jià)值是不夠的,招聘者無(wú)法預(yù)知其未來(lái)價(jià)值,所以需要使用LSTM神經(jīng)網(wǎng)絡(luò)對(duì)其未來(lái)價(jià)值進(jìn)行預(yù)測(cè)。因此,本文提出一種基于CNN-LSTM混合神經(jīng)網(wǎng)絡(luò)的軟件開(kāi)發(fā)者人力資源價(jià)值評(píng)估及預(yù)測(cè)方法。

2 開(kāi)源社區(qū)軟件開(kāi)發(fā)者價(jià)值評(píng)估要素

2.1 軟件開(kāi)發(fā)者價(jià)值評(píng)估指標(biāo)體系構(gòu)建

文獻(xiàn)[19]研究了GitHub中流行的項(xiàng)目及受歡迎的軟件開(kāi)發(fā)者,使用PageRank算法評(píng)估用戶的影響力,并根據(jù)影響力向招聘人員推薦GitHub軟件開(kāi)發(fā)者。文獻(xiàn)[20]研究了存儲(chǔ)倉(cāng)庫(kù)的流行度與其使用的編程語(yǔ)言、特征之間的關(guān)系,并使用存儲(chǔ)倉(cāng)庫(kù)的Fork與Watch數(shù)來(lái)確定其流行程度。研究發(fā)現(xiàn)大多數(shù)對(duì)GitHub的研究單一地集中于用戶或項(xiàng)目,而少數(shù)聯(lián)合研究的多為項(xiàng)目推薦系統(tǒng),如文獻(xiàn)[21]基于用戶行為及其關(guān)注項(xiàng)目特性構(gòu)造用戶行為矩陣,通過(guò)TF-IDF統(tǒng)計(jì)源代碼文件和項(xiàng)目文檔中每個(gè)單詞,獲取項(xiàng)目關(guān)鍵詞并構(gòu)造相似性矩陣,通過(guò)矩陣相似性向用戶推薦相似項(xiàng)目。

鑒于未有GitHub軟件開(kāi)發(fā)者人力資源價(jià)值的相關(guān)研究,本文從軟件開(kāi)發(fā)者現(xiàn)有價(jià)值和未來(lái)價(jià)值分析了GitHub軟件開(kāi)發(fā)者價(jià)值的影響因素,將影響因素分為編程能力、項(xiàng)目管理能力、學(xué)習(xí)能力、團(tuán)隊(duì)合作能力和技術(shù)影響力,并提出敬業(yè)度概念,建立如圖1所示的軟件開(kāi)發(fā)者價(jià)值評(píng)估指標(biāo)體系。

圖1 開(kāi)源社區(qū)軟件開(kāi)發(fā)者人力資源價(jià)值評(píng)估體系

定義1編程能力PA:表示為一個(gè)三元組PA=(PR,W,S)。其中:PR表示軟件開(kāi)發(fā)者自身創(chuàng)建的存儲(chǔ)倉(cāng)庫(kù)的集合,在一定程度上創(chuàng)建的存儲(chǔ)倉(cāng)庫(kù)越多編程能力越強(qiáng);W表示存儲(chǔ)倉(cāng)庫(kù)被標(biāo)記數(shù)的集合,被標(biāo)記數(shù)量表示有多少軟件開(kāi)發(fā)者對(duì)此倉(cāng)庫(kù)感興趣,可以反映該存儲(chǔ)倉(cāng)庫(kù)的質(zhì)量與創(chuàng)新度;S表示存儲(chǔ)倉(cāng)庫(kù)被其他軟件開(kāi)發(fā)者贊同數(shù)的集合,其反映內(nèi)容與W相同。如果PR=?,則W、S均為?。

定義2項(xiàng)目管理能力MA:表示為一個(gè)六元組MA=(R,Prs,CM,RE,B,CT)。其中:R表示軟件開(kāi)發(fā)者所有存儲(chǔ)倉(cāng)庫(kù)的集合;Prs表示項(xiàng)目拉取請(qǐng)求數(shù)量的集合,其表示倉(cāng)庫(kù)創(chuàng)建者對(duì)其他軟件開(kāi)發(fā)者提交修改的審核情況,數(shù)量越多,管理能力越強(qiáng);CM表示存儲(chǔ)倉(cāng)庫(kù)提交修改次數(shù)的集合;RE存儲(chǔ)倉(cāng)庫(kù)擁有版本數(shù)的集合;B表示存儲(chǔ)倉(cāng)庫(kù)擁有分支數(shù)的集合;CT表示為存儲(chǔ)倉(cāng)庫(kù)作出貢獻(xiàn)的人員數(shù)的集合,為項(xiàng)目作出貢獻(xiàn)的人越多,管理者要審核的代碼就越多,其管理能力也就越強(qiáng)。

定義3學(xué)習(xí)能力LA:表示為一個(gè)二元組LA=(LN,FR)。其中:LN表示軟件開(kāi)發(fā)者所掌握的編程語(yǔ)言集合,所掌握的編程語(yǔ)言反映軟件開(kāi)發(fā)者所能完成的工作領(lǐng)域,越多表示學(xué)習(xí)能力越強(qiáng);FR表示拷貝的存儲(chǔ)倉(cāng)庫(kù)的集合,拷貝的倉(cāng)庫(kù)需要時(shí)間熟悉其代碼構(gòu)成,軟件開(kāi)發(fā)者作出貢獻(xiàn)的拷貝倉(cāng)庫(kù)越多,其學(xué)習(xí)能力越強(qiáng)。

定義4團(tuán)隊(duì)合作能力TA:表示為一個(gè)二元組TA=(FK,CT)。其中:FK表示存儲(chǔ)倉(cāng)庫(kù)被拷貝數(shù)的集合,數(shù)量越多,倉(cāng)庫(kù)擁有者與其他軟件開(kāi)發(fā)者合作的概率越大;CT表示為存儲(chǔ)倉(cāng)庫(kù)作出貢獻(xiàn)的人員數(shù)的集合,其數(shù)量越多,表明為該倉(cāng)庫(kù)作出貢獻(xiàn)的團(tuán)隊(duì)成員越多,倉(cāng)庫(kù)擁有者與其他軟件開(kāi)發(fā)者的合作就越多。

定義5技術(shù)影響力I:表示為一個(gè)三元組I=(FE,FI,SS)。其中:FE為關(guān)注該軟件開(kāi)發(fā)者的用戶集合,關(guān)注該軟件開(kāi)發(fā)者的人數(shù)越多,表示越多的軟件開(kāi)發(fā)者認(rèn)為其技術(shù)水平高超;FI為該軟件開(kāi)發(fā)者關(guān)注的用戶集合,表示該軟件開(kāi)發(fā)者認(rèn)為其技術(shù)值得學(xué)習(xí);SS為該軟件開(kāi)發(fā)者被其他軟件開(kāi)發(fā)者贊同的信息集合,表示其對(duì)這些存儲(chǔ)倉(cāng)庫(kù)的認(rèn)可。

定義6敬業(yè)度LY,分為每日貢獻(xiàn)度CD、工作態(tài)度WA。敬業(yè)度為二元組LY=(CD,WA),其中:WA表示軟件開(kāi)發(fā)者活躍天數(shù)占全年天數(shù)的比例,活躍天數(shù)越多表示其對(duì)工作越滿意,其工作態(tài)度越端正;CD表示軟件開(kāi)發(fā)者每日貢獻(xiàn)占全年活躍日平均貢獻(xiàn)次數(shù)的比例。CD=(EC,AD),WA=(AD),其中:AD表示軟件開(kāi)發(fā)者在一年內(nèi)的活躍天數(shù);EC表示軟件開(kāi)發(fā)者每日貢獻(xiàn)次數(shù)的集合。

(1)

(2)

LY=CD×WA

(3)

定義7軟件開(kāi)發(fā)者人力資源價(jià)值為七元組V=(P,PA,MA,LA,TA,I,LY)。其中:P表示待評(píng)估價(jià)值的軟件開(kāi)發(fā)者;PA表示軟件開(kāi)發(fā)者的編程能力,即項(xiàng)目經(jīng)歷的集合;MA表示軟件開(kāi)發(fā)者項(xiàng)目管理能力;I表示軟件開(kāi)發(fā)者的技術(shù)影響力;LA表示軟件開(kāi)發(fā)者的學(xué)習(xí)能力;TA表示軟件開(kāi)發(fā)者的團(tuán)隊(duì)合作能力;LY表示軟件開(kāi)發(fā)者的敬業(yè)度。V表示軟件開(kāi)發(fā)者的價(jià)值分類的集合。

2.2 數(shù)據(jù)獲取及預(yù)處理

本文數(shù)據(jù)集為GitHub中真實(shí)用戶信息,首先根據(jù)GitHub的advanced search搜索找出各個(gè)用戶、用戶項(xiàng)目之間的URL鏈接關(guān)系,再找出網(wǎng)頁(yè)中存放所需數(shù)據(jù)的HTML標(biāo)簽,之后使用Python編寫爬蟲程序,獲取整個(gè)網(wǎng)頁(yè)結(jié)構(gòu)。使用Beautiful Soup解析網(wǎng)頁(yè)HTML標(biāo)簽,獲得標(biāo)簽中數(shù)據(jù),同時(shí)記錄數(shù)據(jù)采集時(shí)間,本文中采集的數(shù)據(jù)集記錄了部分軟件開(kāi)發(fā)者連續(xù)2年每日各項(xiàng)屬性值的變化情況。

研究發(fā)現(xiàn)GitHub中軟件開(kāi)發(fā)者人數(shù)與其價(jià)值呈現(xiàn)冪律分布,即大多數(shù)軟件開(kāi)發(fā)者在GitHub中沒(méi)有貢獻(xiàn),少數(shù)軟件開(kāi)發(fā)者貢獻(xiàn)占據(jù)總貢獻(xiàn)的80%,所以爬取的數(shù)據(jù)樣本分布不均衡,為了解決這一問(wèn)題,本文使用SMOTE算法[22]對(duì)訓(xùn)練樣本進(jìn)行擴(kuò)充。

由于采集的17種參數(shù)大小范圍都不同,為了防止大數(shù)吞小數(shù)的情況發(fā)生,同時(shí)為了加快模型的收斂速度與評(píng)估準(zhǔn)確度,所以需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。本文把樣本值與樣本特征最大值的比值作為輸入,計(jì)算公式如(4)所示,計(jì)算后,樣本特征各數(shù)值將會(huì)在[0,1]范圍之間。

(4)

式中:Xi表示某組樣本的輸入值;X和Xmax分別表示特征真實(shí)值和特征的最大值。

本文采用最小-最大規(guī)范化方法歸一化后的17種輸入特征來(lái)評(píng)估軟件開(kāi)發(fā)者當(dāng)前的價(jià)值,并根據(jù)招聘人員對(duì)軟件開(kāi)發(fā)者的招聘欲望作為軟件開(kāi)發(fā)者價(jià)值,把軟件開(kāi)發(fā)者價(jià)值分為5類,如表1所示。

表1 軟件開(kāi)發(fā)者價(jià)值類別說(shuō)明

3 價(jià)值評(píng)估模型

3.1 模型搭建

本文構(gòu)建了包含一個(gè)卷積層、一個(gè)池化層、一個(gè)全連接層、一個(gè)輸出層的卷積神經(jīng)網(wǎng)絡(luò),因?yàn)檩斎霐?shù)據(jù)維度較低,所以不需要過(guò)于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。首先卷積層經(jīng)過(guò)卷積核提取出不同的特征,再經(jīng)過(guò)池化層的最大池化使得后續(xù)計(jì)算復(fù)雜度降低并提取樣本主要特征。因?yàn)樵u(píng)估樣本數(shù)據(jù)量有限,為降低過(guò)擬合風(fēng)險(xiǎn),引入池化層Dropout[23],以此增加可訓(xùn)練模型數(shù)量。最后通過(guò)全連接層及Softmax分類器輸出層得到軟件開(kāi)發(fā)者所屬價(jià)值類別的概率,并反歸一化為對(duì)應(yīng)類別。類別數(shù)據(jù)同時(shí)與對(duì)應(yīng)的日期信息作為特征輸入構(gòu)建的LSTM神經(jīng)網(wǎng)絡(luò)中預(yù)測(cè)軟件開(kāi)發(fā)者未來(lái)價(jià)值。本文采用的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示,其中:Ti表示輸入的第i種元素;T表示為此組數(shù)據(jù)采集時(shí)間。

圖2 混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

3.1.1卷積神經(jīng)網(wǎng)絡(luò)

輸入樣本Xi∈V包含17個(gè)元素,設(shè)卷積核尺寸為F,步長(zhǎng)為S,補(bǔ)零層數(shù)為P,卷積核個(gè)數(shù)為N,則經(jīng)過(guò)卷積后的特征圖大小為:

(5)

對(duì)于每一個(gè)卷積層的神經(jīng)元i:

neti=Xi×Fi+bi

(6)

outi=f(neti)=max(0,neti)

(7)

式中:neti表示卷積核輸出的第i個(gè)元素;Fi表示卷積核的第i個(gè)元素;bi表示卷積核的偏置;f表示卷積層的ReLU激活函數(shù)。

池化層使用最大池化,設(shè)池化尺寸為Q×1,步長(zhǎng)為S,那么卷積后每個(gè)特征圖對(duì)應(yīng)的池化輸出大小為:

(8)

經(jīng)過(guò)池化層的降維,然后再經(jīng)過(guò)全連接層的計(jì)算,最后通過(guò)輸出層的Softmax分類器,得到軟件開(kāi)發(fā)者對(duì)應(yīng)每一類價(jià)值的概率,五類概率總和為1,其中概率最大的為軟件開(kāi)發(fā)者對(duì)應(yīng)的價(jià)值類別。

模型使用反向傳播算法進(jìn)行訓(xùn)練,通過(guò)不斷的迭代使誤差函數(shù)收斂到最小,本文使用的誤差函數(shù)為交叉熵?fù)p失函數(shù),公式如下:

(9)

式中:ai表示實(shí)際輸出;yi表示期望的輸出;C表示誤差。

模型通過(guò)Adam優(yōu)化器[24]進(jìn)行優(yōu)化,該算法基于梯度的一階矩估計(jì)與二階矩估計(jì)計(jì)算更新步長(zhǎng),結(jié)合AdaGrad和RMSProp優(yōu)化算法的優(yōu)點(diǎn),使得參數(shù)更新不受梯度變化影響,且能夠自動(dòng)調(diào)整學(xué)習(xí)率。首先計(jì)算時(shí)間t時(shí)刻的梯度:

gt=▽?duì)菾(θt-1)

(10)

其次計(jì)算梯度的指數(shù)移動(dòng)平均數(shù),更新有偏第一矩估計(jì)和有偏二階原始矩估計(jì),指數(shù)衰減率β1=0.9,β2=0.999。

mt=β1mt-1+(1-β1)gt

(11)

(12)

然后計(jì)算偏差修正的一階矩估計(jì)和偏差修正的二階矩估計(jì):

(13)

(14)

最后用以上計(jì)算出來(lái)的值更新模型的目標(biāo)函數(shù)θ,初始學(xué)習(xí)率設(shè)置η=0.001,ε=10-8。

(15)

算法流程如算法1所示。

算法1軟件開(kāi)發(fā)者價(jià)值評(píng)估算法

輸入:數(shù)據(jù)樣本訓(xùn)練集U={X1,X2,…,X992},測(cè)試集T={X993,X994,…,X1 416},其中Xi=(PR,W,S,R,CM,RE,B,Prs,CT,LN,FR,FK,FE,FI,SS,EC,AD,V),V∈{1,2,3,4,5},ε,學(xué)習(xí)率η,迭代次數(shù)E,卷積核FC,卷積核個(gè)數(shù)N,卷積步長(zhǎng)SC,池化窗口FS,池化步長(zhǎng)SS,指數(shù)衰減率β1、β2。

輸出:軟件開(kāi)發(fā)者價(jià)值類別概率V′。

1.T←SMOTE(U);

//均衡擴(kuò)充樣本

2.form←1 to length(T) do

//最大最小化歸一

4.Yi,i=m←one-hot(V);

//樣本標(biāo)簽轉(zhuǎn)化為獨(dú)熱編碼

5.end for

6.fore←1 toEdo

//多次迭代訓(xùn)練網(wǎng)絡(luò)

7.form←1 to length(U) do

//訓(xùn)練集訓(xùn)練

8.forn←1 toNdo

//不同卷積核的訓(xùn)練

//一維卷積

//激活函數(shù)

//最大池化

12.end for

//池化展平

//全連接層

//SoftMax分類器

16.Lm←Cross_Entropy_Loss(Yi,Ym);

//交叉熵?fù)p失函數(shù)

17.Adam(β1,β2,η,ε);

//Adam優(yōu)化器更新參數(shù)

18.end for

19.end for

20.forn←1 to length(T) do

//測(cè)試集評(píng)估

21.Yn←trained_CNN(Tn);

//訓(xùn)練后CNN測(cè)試集樣本評(píng)估價(jià)值

22.V′←decode(Yn);

//獨(dú)熱編碼解碼為對(duì)應(yīng)價(jià)值類別

23.acc,recall,fscore←compare(V′,Tn.V);

//樣本真實(shí)值與評(píng)估值計(jì)算評(píng)價(jià)指標(biāo)

24.end for

3.1.2LSTM神經(jīng)網(wǎng)絡(luò)

使用訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)對(duì)軟件開(kāi)發(fā)者歷史價(jià)值做出評(píng)估,結(jié)果隨對(duì)應(yīng)時(shí)間輸入LSTM神經(jīng)網(wǎng)絡(luò)中。LSTM通過(guò)神經(jīng)元中的輸入門、遺忘門、輸出門來(lái)控制神經(jīng)元對(duì)歷史信息的記憶與遺忘,使得神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)序列中的長(zhǎng)期依賴關(guān)系。

輸入門:

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(16)

遺忘門:

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

(17)

當(dāng)前時(shí)刻的單元狀態(tài):

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

(18)

輸出門:

ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

(19)

ht=ottanh(ct)

(20)

式中:Wxi、Wxf、Wxcv和Wxo分別表示輸入門、遺忘門、當(dāng)前單元狀態(tài)和輸出門第i層權(quán)重矩陣;xt、ht-1和ct-1分別表示當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入值、上一時(shí)刻的輸出值和上一時(shí)刻的單元狀態(tài);bi、bf、bc和bo分別表示對(duì)應(yīng)門的偏置;σ為Sigmoid非線性函數(shù)。通過(guò)式(16)-式(20)得出模型輸出,并根據(jù)式(21)計(jì)算其反向傳播誤差。

(21)

算法流程如算法2所示。

算法2軟件開(kāi)發(fā)者價(jià)值預(yù)測(cè)算法

輸入:注冊(cè)時(shí)間大于三年的軟件開(kāi)發(fā)者三年內(nèi)每日所有指標(biāo)經(jīng)過(guò)CNN評(píng)估后產(chǎn)生的數(shù)據(jù)集D={D1,D2,…,D1 095},訓(xùn)練集T1={D1,D2,…,D730},測(cè)試集T2={D731,D732,…,D1 095},其中Dm=(d,V′),d為數(shù)據(jù)采集日期,V′∈{1,2,3,4,5};lookback=2。

1.U←create_dataset(T1,lookback);

//根據(jù)條件劃分訓(xùn)練集

2.form←1 to length(D) do

//LSTM訓(xùn)練

3.Lm←LSTM(Um);

4.Dm←Dense(Lm);

//全連接層得到預(yù)測(cè)值

5.Loss←MSE(Dm,Um);

//計(jì)算誤差

6.Adam(β1,β2,η,ε);

//更新參數(shù)

7.end for

8.MPAE,RMSE←LSTM(T2);

//計(jì)算網(wǎng)絡(luò)評(píng)價(jià)指標(biāo)

//預(yù)測(cè)未來(lái)價(jià)值類別

3.2 模型訓(xùn)練

采用GitHub中采集并由專家做出評(píng)估的共992組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),在采用SMOTE算法平衡數(shù)據(jù)集后,對(duì)不同參數(shù)設(shè)置下的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到其準(zhǔn)確率,卷積神經(jīng)網(wǎng)絡(luò)各參數(shù)對(duì)模型準(zhǔn)確率的影響如表2所示。

表2 卷積神經(jīng)網(wǎng)絡(luò)各參數(shù)對(duì)模型準(zhǔn)確率的影響

續(xù)表2

可以看出隨著卷積核尺寸的增加,模型準(zhǔn)確率先提升再下降,訓(xùn)練時(shí)間則不斷增加,因?yàn)檩^小的卷積核能夠提取樣本中更為細(xì)化的特征,但是過(guò)于細(xì)化會(huì)導(dǎo)致過(guò)擬合,影響模型的分類能力。同時(shí)較大的卷積核會(huì)使卷積產(chǎn)生的特征輸出增加,計(jì)算量暴增,這就導(dǎo)致了訓(xùn)練時(shí)間的增加,因此根據(jù)訓(xùn)練集準(zhǔn)確率及訓(xùn)練時(shí)間確定3×1的卷積核尺寸。

確定卷積核尺寸之后,對(duì)卷積核的個(gè)數(shù)進(jìn)行實(shí)驗(yàn)。從表2中可以看出增加卷積核個(gè)數(shù),訓(xùn)練集的準(zhǔn)確率開(kāi)始時(shí)有所提升,但是再繼續(xù)增加卷積核個(gè)數(shù)時(shí),模型的準(zhǔn)確率反而降低,訓(xùn)練時(shí)間卻大大增加,因此根據(jù)訓(xùn)練集準(zhǔn)確率及訓(xùn)練時(shí)間,本文選取的卷積核個(gè)數(shù)為128。

最后確定池化窗口大小,從表2中可以看出隨著池化尺寸的增加,模型的準(zhǔn)確率、訓(xùn)練時(shí)間則不斷降低。這是因?yàn)樽钚〉?×1池化尺寸輸入輸出相同,學(xué)習(xí)到的特征精細(xì),但是訓(xùn)練時(shí)間將大幅增加且可能導(dǎo)致過(guò)擬合,較大的池化尺寸則可能忽略了樣本特征,因此綜合考慮訓(xùn)練集準(zhǔn)確率及訓(xùn)練時(shí)間,本文選取了2×1的池化尺寸。

在選定各參數(shù)后,計(jì)算準(zhǔn)確率最高情況下卷積神經(jīng)網(wǎng)絡(luò)在測(cè)試集上各項(xiàng)評(píng)價(jià)指標(biāo),如表3所示,其訓(xùn)練誤差、準(zhǔn)確率和迭代次數(shù)關(guān)系如圖3、圖4所示。

表3 測(cè)試集分類評(píng)價(jià)指標(biāo)

圖3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差

圖4 卷積神經(jīng)網(wǎng)絡(luò)評(píng)估準(zhǔn)確率

使用訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)對(duì)注冊(cè)時(shí)間大于三年的軟件開(kāi)發(fā)者歷史數(shù)據(jù)進(jìn)行評(píng)估,使用前兩年歷史數(shù)據(jù)作為訓(xùn)練集,并以2019年數(shù)據(jù)作為驗(yàn)證集,對(duì)LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練誤差如圖5所示;為了說(shuō)明本文LSTM神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)性能,選擇MSE(均方誤差)、RMSE(均方根誤差)、MAE(平均絕對(duì)誤差)、MAPE(平均絕對(duì)百分比誤差)和SMAPE(對(duì)稱平均絕對(duì)百分比誤差)對(duì)建立的模型預(yù)測(cè)效果進(jìn)行評(píng)估,結(jié)果如表4所示。

圖5 LSTM訓(xùn)練誤差

表4 預(yù)測(cè)模型評(píng)價(jià)指標(biāo)

4 實(shí)例分析

利用已建立的評(píng)估模型對(duì)測(cè)試集軟件開(kāi)發(fā)者進(jìn)行價(jià)值評(píng)估及預(yù)測(cè),部分評(píng)估結(jié)果見(jiàn)表5。

表5 部分軟件開(kāi)發(fā)者價(jià)值評(píng)估結(jié)果

取序號(hào)為4的軟件開(kāi)發(fā)者歷史記錄,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)評(píng)估人力資源價(jià)值后輸入LSTM進(jìn)行擬合,通過(guò)訓(xùn)練集樣本的人力資源價(jià)值變化數(shù)據(jù)對(duì)LSTM進(jìn)行擬合訓(xùn)練,預(yù)測(cè)開(kāi)發(fā)者在測(cè)試集上的人力資源價(jià)值類別變化情況。

通過(guò)驗(yàn)證集數(shù)據(jù)分析可得:

(1) 424組驗(yàn)證數(shù)據(jù)得出的軟件開(kāi)發(fā)者價(jià)值評(píng)估結(jié)果與實(shí)際價(jià)值相符,評(píng)估正確率為98.59%。

(2) 通過(guò)表5中序號(hào)為1和2的軟件開(kāi)發(fā)者數(shù)據(jù)可以看出,在軟件開(kāi)發(fā)者無(wú)存儲(chǔ)倉(cāng)庫(kù)或者有存儲(chǔ)倉(cāng)庫(kù)無(wú)活躍的情況下,軟件開(kāi)發(fā)者是無(wú)價(jià)值的,符合管理學(xué)中人力資源價(jià)值評(píng)估的預(yù)測(cè)性特點(diǎn)。即當(dāng)前的評(píng)估值能夠在一定程度上反映未來(lái)其能夠創(chuàng)造的價(jià)值,且未來(lái)不能創(chuàng)造價(jià)值的人力資源,是無(wú)法評(píng)估其當(dāng)前價(jià)值的。

(3) 通過(guò)價(jià)值評(píng)估得到的軟件開(kāi)發(fā)者價(jià)值類別,可以幫助招聘人員快速發(fā)現(xiàn)GitHub中高價(jià)值技術(shù)人才,為企業(yè)人才戰(zhàn)略提供基礎(chǔ)保障。并且根據(jù)預(yù)測(cè)結(jié)果,能夠大致判斷該用戶的職業(yè),如圖6和圖7所示,用戶在兩年內(nèi)價(jià)值為1的時(shí)間階段較長(zhǎng)且集中于寒暑假,可判斷大致職業(yè)為教師或者學(xué)生,此類軟件開(kāi)發(fā)者招聘概率較高;而在職用戶價(jià)值為1的時(shí)間較短且頻繁,此種情況下招聘概率較低,若其前期價(jià)值變化符合規(guī)律而近期出現(xiàn)大幅變化,則招聘成功率將會(huì)增加。

圖6 LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練集擬合

圖7 LSTM神經(jīng)網(wǎng)絡(luò)測(cè)試集擬合

5 結(jié) 語(yǔ)

本文提出一種使用混合神經(jīng)網(wǎng)絡(luò)對(duì)GitHub軟件開(kāi)發(fā)者進(jìn)行人力資源價(jià)值評(píng)估的方法,并對(duì)軟件開(kāi)發(fā)人才未來(lái)價(jià)值進(jìn)行預(yù)測(cè)。首先分析了影響軟件開(kāi)發(fā)者的價(jià)值的因素,選取17種參數(shù)作為特征參數(shù)構(gòu)建模型并訓(xùn)練;然后對(duì)GitHub軟件開(kāi)發(fā)者進(jìn)行實(shí)例驗(yàn)證,通過(guò)對(duì)歷史數(shù)據(jù)的學(xué)習(xí),其預(yù)測(cè)結(jié)果符合當(dāng)前人力資源,能夠有效為企業(yè)招聘高技術(shù)人力資源及為企業(yè)內(nèi)部人力資源考核提供參考,具有廣泛的現(xiàn)實(shí)意義。

因?yàn)镚itHub中無(wú)軟件開(kāi)發(fā)者的貨幣性特征,本文只選取了其中對(duì)評(píng)估影響較大的非貨幣性且可數(shù)值化的參數(shù),后續(xù)應(yīng)考慮把一些文本參數(shù)量化后作為特征,如軟件開(kāi)發(fā)者使用編程語(yǔ)言、項(xiàng)目使用編程語(yǔ)言等,并且根據(jù)這些數(shù)據(jù)評(píng)估軟件開(kāi)發(fā)者在不同編程領(lǐng)域的價(jià)值,以此作為推薦系統(tǒng)中Top-N排序的一項(xiàng)指標(biāo)實(shí)現(xiàn)人力資源個(gè)性化推薦。

猜你喜歡
價(jià)值
踐行初心使命的價(jià)值取向
價(jià)值3.6億元的隱私
一分鐘能創(chuàng)造多少價(jià)值?
一粒米的價(jià)值
人與自然的和諧之美——《七月》價(jià)值新解讀
“給”的價(jià)值
俆衛(wèi):用夢(mèng)創(chuàng)造價(jià)值
價(jià)值
從平凡中體現(xiàn)價(jià)值
聲屏世界(2014年1期)2014-02-28 15:17:32
“活著就要體現(xiàn)自身價(jià)值”
主站蜘蛛池模板: 五月婷婷中文字幕| 思思热在线视频精品| 色网站在线视频| 成人韩免费网站| 中文字幕亚洲综久久2021| 亚洲成a人片在线观看88| 55夜色66夜色国产精品视频| 久久亚洲精少妇毛片午夜无码| 亚洲成人高清在线观看| 国产三级精品三级在线观看| 18禁色诱爆乳网站| 人妻一区二区三区无码精品一区| 老司机久久99久久精品播放| 一本大道视频精品人妻 | 国产在线精品美女观看| 成人毛片免费在线观看| 精品国产中文一级毛片在线看| 亚洲综合色在线| 国产网友愉拍精品视频| 亚洲乱码精品久久久久..| 国产91丝袜在线播放动漫 | 国产福利拍拍拍| 国产日韩丝袜一二三区| 一级爆乳无码av| 亚洲国产精品日韩av专区| 91香蕉国产亚洲一二三区| 国产一级毛片yw| 亚洲人精品亚洲人成在线| 国产精品久久自在自线观看| 国产一级裸网站| 久久精品午夜视频| 国产手机在线小视频免费观看| 91人人妻人人做人人爽男同| 99热线精品大全在线观看| 国产成年无码AⅤ片在线 | 欧美日韩激情在线| 国产呦视频免费视频在线观看 | 综合色亚洲| 日韩a级毛片| 蜜臀av性久久久久蜜臀aⅴ麻豆| 日韩高清一区 | 四虎AV麻豆| 欧美日韩北条麻妃一区二区| 亚洲成肉网| 91麻豆精品国产91久久久久| 免费毛片全部不收费的| 91在线播放国产| 东京热av无码电影一区二区| 精品国产美女福到在线直播| 国产99视频在线| 99在线观看免费视频| 91丨九色丨首页在线播放| 欧美一级高清片欧美国产欧美| 青青操国产视频| 激情乱人伦| 亚洲91精品视频| 国产99视频精品免费视频7| 色偷偷av男人的天堂不卡| 成人福利免费在线观看| 中国国产高清免费AV片| 亚洲日韩AV无码精品| 亚洲有无码中文网| 亚洲最大福利网站| 国产午夜福利片在线观看| 欧美国产日韩另类| 久久无码免费束人妻| 精品一区二区三区无码视频无码| 国产激情无码一区二区APP| 国产精品久久久久久久久| 免费人成视网站在线不卡| 亚洲成人在线网| 丰满少妇αⅴ无码区| 亚洲精品动漫| 热久久这里是精品6免费观看| 伊人婷婷色香五月综合缴缴情| 国产黄色视频综合| 欧美特黄一级大黄录像| 茄子视频毛片免费观看| 国国产a国产片免费麻豆| 怡红院美国分院一区二区| 亚洲日本www| 国产成人精品视频一区二区电影 |