

【摘" 要】 高層次人才是促進(jìn)國(guó)家與地方發(fā)展的利器,可實(shí)現(xiàn)對(duì)高層次人才的精準(zhǔn)歸類,有利于人才資源的合理分配。文章從如何有效利用機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)高層次人才自動(dòng)歸類的問題出發(fā),根據(jù)現(xiàn)行的人才分類評(píng)價(jià)標(biāo)準(zhǔn)與人才引進(jìn)情況,研究了機(jī)器學(xué)習(xí)應(yīng)用于人才分類的可行性以及相關(guān)機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用。最終的研究結(jié)果表明,基于機(jī)器學(xué)習(xí)算法的XGBoost模型,對(duì)測(cè)試集樣本的分類準(zhǔn)確率達(dá)到近99%,對(duì)4種不同類型的高層次圖情檔領(lǐng)域人才的分類也達(dá)到了預(yù)期效果,是適用于該實(shí)驗(yàn)的最佳模型。
【關(guān)鍵詞】 高層次人才;信息資源;圖情檔;分類評(píng)價(jià);XGBoost模型
隨著圖書情報(bào)與檔案管理專業(yè)的學(xué)科更名,圖情檔領(lǐng)域的人才評(píng)價(jià)標(biāo)準(zhǔn)及人才引進(jìn)要求也在一定程度上趨于統(tǒng)一化。傳統(tǒng)的人才評(píng)價(jià)模式,例如“唯學(xué)歷”“唯論文”“唯帽子”等現(xiàn)象,不利于人才的選拔。近年來,分類評(píng)價(jià)成為人才評(píng)價(jià)工作的主流。我國(guó)連續(xù)出臺(tái)了指導(dǎo)文件,規(guī)范了人才分類的評(píng)價(jià)工作,例如2016年3月,出臺(tái)了《關(guān)于深化人才發(fā)展體制機(jī)制改革的意見》;2018年2月,出臺(tái)了《關(guān)于分類推進(jìn)人才評(píng)價(jià)機(jī)制改革的指導(dǎo)意見》。
大數(shù)據(jù)時(shí)代,傳統(tǒng)的人才評(píng)價(jià)方式(例如職稱評(píng)審由專家審議等)需要消耗大量的人力與資源,評(píng)價(jià)工作的環(huán)節(jié)復(fù)雜、煩瑣,難以保證公正性。機(jī)器學(xué)習(xí)是科技發(fā)展的產(chǎn)物,通過訓(xùn)練可以讓機(jī)器擁有“學(xué)習(xí)”的能力,使其從大量的人才信息中學(xué)習(xí)特征,自動(dòng)構(gòu)建分類模型,最終實(shí)現(xiàn)對(duì)人才信息的自動(dòng)分類。基于文本信息的自動(dòng)分類研究,近年來逐漸成熟,并在新聞?lì)愋头诸?、用戶情感分類和垃圾消息識(shí)別分類等領(lǐng)域發(fā)揮了突出的作用[1-3]。
一、人才自動(dòng)分類理論及技術(shù)基礎(chǔ)
(一)人才自動(dòng)分類理論
1. 高層次人才的界定
在高層次人才界定的研究方面,由于國(guó)外與國(guó)內(nèi)的需求有一定的偏差,因此本研究重點(diǎn)參考了國(guó)內(nèi)相關(guān)學(xué)者的研究。學(xué)者普遍認(rèn)為,高層次人才是指在某一學(xué)科領(lǐng)域內(nèi)具有突出的專業(yè)能力或較高的影響力,在工作中能夠承擔(dān)重要項(xiàng)目,且研究?jī)?nèi)容具有一定的創(chuàng)新性,創(chuàng)新成果可以為國(guó)家的經(jīng)濟(jì)、文化、科技和能源等領(lǐng)域提供發(fā)展動(dòng)力的人員。
2. 人才數(shù)據(jù)的特性
分類是指以事物的本質(zhì)屬性或其他顯著特征為依據(jù),把各種事物集合成類的一種過程。在網(wǎng)絡(luò)中,人才信息多以文本形式呈現(xiàn),且高層次的科研人才信息多為開放型信息,其中文關(guān)鍵詞的特征明顯,包括職稱、教育背景、工作單位、學(xué)者研究領(lǐng)域、外部兼任職位情況、歷史榮譽(yù)情況和創(chuàng)新型科研成果等,具有一定的區(qū)分度,便于分類。
線上人才的數(shù)據(jù)類型,多表現(xiàn)為中文字符型與數(shù)值型并存,中文字符型的數(shù)據(jù)包括人才的姓名、籍貫、基本介紹和研究領(lǐng)域等;數(shù)值型的數(shù)據(jù)包括該人才的h指數(shù)、專利數(shù)、指導(dǎo)學(xué)生數(shù)和國(guó)家社科項(xiàng)目數(shù)等。
(二)技術(shù)基礎(chǔ)(機(jī)器學(xué)習(xí)的相關(guān)算法)
1. 預(yù)處理
在文本類數(shù)據(jù)的預(yù)處理方面,因?yàn)楸狙芯酷槍?duì)的主要是國(guó)內(nèi)學(xué)者的數(shù)據(jù),所以數(shù)據(jù)內(nèi)容包括大量中文文本的數(shù)據(jù),同時(shí)由于機(jī)器無法直接識(shí)別和分類中文文本的數(shù)據(jù),因此需要相關(guān)人員對(duì)中文文本的數(shù)據(jù)進(jìn)行相應(yīng)的操作,以達(dá)到可以被機(jī)器識(shí)別、處理的目的。
在選取適用于本研究的中文文本預(yù)處理方法時(shí),考慮到在層次相近或領(lǐng)域相同的科研人才中,可能存在大量重復(fù)的文本,例如職稱、所獲榮譽(yù)等,加之學(xué)科的類型較多,因此需要對(duì)所有出現(xiàn)的學(xué)科進(jìn)行編碼。本研究的中文文本預(yù)處理方法主要包括3種,分別是中文文本分詞、離散特征連續(xù)化處理和向量空間模型的構(gòu)建。在數(shù)值型數(shù)據(jù)的預(yù)處理方面,考慮到在科研人才的信息中,數(shù)值型數(shù)據(jù)以正整數(shù)為主,且出現(xiàn)的數(shù)值型數(shù)據(jù)的總體范圍波動(dòng)不大,但由于不同科研領(lǐng)域和層次的人才在一些數(shù)值型數(shù)據(jù)上的量綱、量級(jí)存在差異,數(shù)值的絕對(duì)值之間不具備直接的可比性,因此需要采用歸一化方法消除這些差異。
2. 特征提取
特征選擇的本質(zhì)是降維,通過降維手段可以增強(qiáng)分類模型的泛化能力,減少過擬合的情況。在人才數(shù)據(jù)的分類中,人才信息的維度較多,對(duì)此應(yīng)選取有效的特征選擇方法,便于理解特征和標(biāo)簽之間的關(guān)系、提高分類效率和準(zhǔn)確率。GBDT在二分類中的表現(xiàn)突出,在本研究的多分類問題中,GBDT仍可以適用。
3. 分類模型選擇
分類器直接影響著分類結(jié)果的好壞,因此在選擇分類器時(shí),應(yīng)考慮具體的數(shù)據(jù)特征以及期望達(dá)到的分類效果。人才信息涵蓋的信息量較大、分類容錯(cuò)率低,因此本研究選用的分類器,應(yīng)在特征選取科學(xué)、全面的基礎(chǔ)上,擁有較高的精度。目前,適用于中文文本的自動(dòng)分類研究的分類器,有樸素貝葉斯、K-最近鄰、決策樹、隨機(jī)森林、梯度提升樹和XGBoost。
二、分類類型的界定與特征指標(biāo)的選擇
(一)分類類型的界定
1. 人才類型的界定
在本研究中,人才類型具體指的是人才研究領(lǐng)域類型以及人才層次類型。基礎(chǔ)學(xué)科一般以學(xué)科知識(shí)本身為研究對(duì)象,應(yīng)用學(xué)科以解決工程、社會(huì)的實(shí)際問題為研究對(duì)象;具有實(shí)踐性。圖情檔案學(xué)科由于涉及領(lǐng)域較廣,無法明顯區(qū)分學(xué)科的概念,因此在類別分類時(shí),通過商業(yè)數(shù)據(jù)庫(kù)中學(xué)者具體的研究成果類型劃分學(xué)者的學(xué)科領(lǐng)域。本研究主要針對(duì)基礎(chǔ)性和應(yīng)用型研究的高層次人才進(jìn)行分類,該過程就是人才的歸類。
在普遍情況中,大多數(shù)地市級(jí)將高層次的科研人才劃分為5級(jí),本研究以解決實(shí)際問題為出發(fā)點(diǎn),以地方引才類型標(biāo)準(zhǔn)為基準(zhǔn),擬對(duì)高層次科研人才的頂尖人才和領(lǐng)軍人才區(qū)分層次,此過程就是人才的分層。
2. 人才類型維度的劃分
本研究以學(xué)者的實(shí)際研究成果為依據(jù),考慮到實(shí)際的社會(huì)需求和人才發(fā)展的特點(diǎn),從選取科研誠(chéng)信、基礎(chǔ)研究和應(yīng)用研究3個(gè)維度進(jìn)行劃分,并將本研究的科研人才分為基礎(chǔ)型研究人才和應(yīng)用型研究人才兩種??蒲姓\(chéng)信是業(yè)界共同的標(biāo)準(zhǔn),如果學(xué)者的科研誠(chéng)信維度無得分,就不能將其劃分到人才隊(duì)伍中。
人才層次的分類也可以表達(dá)為分層,高層次科研人才隊(duì)伍本身是一個(gè)較高層級(jí)的人才群體,綜合各方面的考量,本文擬從科研成果、社會(huì)貢獻(xiàn)和團(tuán)隊(duì)合作三個(gè)維度,指導(dǎo)高層次科研人才的人才層次分類。
(二)特征指標(biāo)的選取
在基礎(chǔ)型和應(yīng)用型研究分類指標(biāo)的選擇中,通過分析互聯(lián)網(wǎng)及商業(yè)信息數(shù)據(jù)庫(kù)人才的數(shù)據(jù)可知,人才數(shù)據(jù)往往以幾個(gè)關(guān)鍵特征詞進(jìn)行羅列,例如學(xué)者的研究方向、主要成果等。在不同的場(chǎng)景下,這些指標(biāo)被頻繁地使用,其表層特征也具有一定的關(guān)聯(lián)性,例如某學(xué)者的主要研究方向與研究成果類型往往為同一領(lǐng)域,學(xué)者的研究成果數(shù)量也與獲得的榮譽(yù)情況存在某種線性關(guān)聯(lián)。為此,結(jié)合各個(gè)特征維度,本研究擬選取科技成果類型、學(xué)者主要研究的方向、博士期間攻讀學(xué)科的類型(基礎(chǔ)或應(yīng)用)、有無專利申請(qǐng)及專家榮譽(yù)類型(基礎(chǔ)型包括優(yōu)秀人文社科研究者、方法論研究事業(yè)開拓者和人文社科優(yōu)秀工作者等;應(yīng)用型包括科技進(jìn)步獎(jiǎng)、科學(xué)技術(shù)獎(jiǎng)和先進(jìn)科技工作者等)幾個(gè)指標(biāo)。
人才層級(jí)包括科研成果、社會(huì)貢獻(xiàn)及團(tuán)隊(duì)合作3個(gè)維度,在科研成果維度下的分級(jí)指標(biāo),包括科技成果數(shù)、h指數(shù)、總被引數(shù)、基礎(chǔ)研究總數(shù)和總研究成果數(shù);社會(huì)貢獻(xiàn)維度選取的指標(biāo),包括職稱、所獲榮譽(yù)、外部兼職情況和工作單位;團(tuán)隊(duì)合作維度選取的指標(biāo),包括所帶碩博士的人數(shù)、重大基金項(xiàng)目數(shù)等。
三、人才數(shù)據(jù)處理及分類實(shí)驗(yàn)
(一)數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)共提取了1000條人才數(shù)據(jù),將每位人才的數(shù)據(jù)按照擬建的人才分類特征表整理每個(gè)特征的數(shù)據(jù),然后錄入到Excel中,并進(jìn)行人工檢查,最終選出446條完整、規(guī)范的人才數(shù)據(jù),作為本實(shí)驗(yàn)的數(shù)據(jù)集。其中每條數(shù)據(jù)包括學(xué)者編號(hào)、學(xué)者姓名、職稱/職務(wù)、科研誠(chéng)信、工作單位、研究方向、外部兼職、專家榮譽(yù)、科技成果類型、科技成果數(shù)量、國(guó)家基金項(xiàng)目數(shù)、專利總數(shù)、基礎(chǔ)研究總數(shù)、總成果數(shù)、總被引量、h指數(shù)、所帶碩博士生數(shù)和類型標(biāo)簽,共18個(gè)字段。字段的具體內(nèi)容如表1所示。
(二)分類實(shí)驗(yàn)
1. 分類模型構(gòu)建與應(yīng)用
在完成特征提取后,進(jìn)行分類模型的建立和訓(xùn)練。首先對(duì)人才類型進(jìn)行二值化,然后按照7:3的比例,拆分訓(xùn)練集和測(cè)試集,建立分類模型,訓(xùn)練導(dǎo)入的Random Forest Classifier、Extra Trees Classifier、Gradient Boosting Classifier、KNeighbors Classifier、Tree以及l(fā)gb.LGBMClassifier模型。
綜合5種模型的分類結(jié)果及分類效果評(píng)估情況,繪制總體的建模效果,如表2所示。
2. 人才分類結(jié)果
從整體上看,5種分類模型的分類效果較好,模型的準(zhǔn)確率、召回率和f1_score值均在78%以上,其中梯度提升樹和XGBoost的模型分類效果明顯優(yōu)于其他分類模型,XGBoost甚至達(dá)到了99%以上,這兩個(gè)分類模型都具有較高的精度。XGBoost的性能是對(duì)GBDT的提升,并支持列抽樣,相關(guān)人員在進(jìn)行訓(xùn)練之前,能夠預(yù)先排列數(shù)據(jù),其各項(xiàng)指標(biāo)都比較突出,因此,在本實(shí)驗(yàn)中具有較強(qiáng)的分類性能。
從各項(xiàng)指標(biāo)來看,隨機(jī)森林與KNN模型的準(zhǔn)確度和召回率偏低,分別為87%和78%。另外,這兩個(gè)模型的F1值也較低,分別為0.89與0.81。XGBoost模型的各項(xiàng)指標(biāo)得分最高,梯度提升樹次之,可知樹模型的各項(xiàng)指標(biāo)都相對(duì)較高。
將AUC值作為最終模型的評(píng)價(jià)指標(biāo),可知,XGBoost最適合用于處理本實(shí)驗(yàn)的數(shù)據(jù),AUC值達(dá)到0.99以上,結(jié)果較理想。KNN計(jì)算的特征距離較精準(zhǔn),在處理人才數(shù)據(jù)時(shí),也有不錯(cuò)的發(fā)揮,AUC值為0.98。決策樹與梯度提升樹同為樹模型,但算法較單一,無法達(dá)到XGBoost模型的精準(zhǔn)度,也無法直接計(jì)算出各個(gè)數(shù)據(jù)的空間距離,因此發(fā)揮較差,AUC值都約為0.97。隨機(jī)森林的AUC值最低,為0.94。
四、結(jié)語
本研究基于機(jī)器學(xué)習(xí)的分類算法,完成對(duì)高層次圖情檔人才自動(dòng)歸類分層的研究,由于信息的敏感性,文章對(duì)學(xué)者的信息全程進(jìn)行了保密處理。在研究方法上,研究根據(jù)算法的特點(diǎn),篩選出對(duì)處理數(shù)值型與文本型數(shù)據(jù)較高效的XGBoost算法,并同時(shí)將KNN算法、隨機(jī)森林算法、決策樹和梯度提升樹等經(jīng)典分類算法模型應(yīng)用在人才數(shù)據(jù)的自動(dòng)分類中,然后與XGBoost模型進(jìn)行對(duì)比實(shí)驗(yàn)。最后通過算法評(píng)價(jià)指標(biāo)評(píng)定各個(gè)模型的分類效果與適用程度,對(duì)比分析了各個(gè)模型的分類效能,可知XGBoost模型的準(zhǔn)確率最高,符合預(yù)期。
人才的分類評(píng)價(jià)是個(gè)較復(fù)雜的過程。目前,以機(jī)器評(píng)人的時(shí)代尚未拉開序幕。關(guān)于人才的自動(dòng)分類研究較少,本研究也是選取了一個(gè)較小的切入點(diǎn)探索人才的自動(dòng)分類方法,僅對(duì)圖情檔的高層次人才進(jìn)行了歸類分層,分類模型也與專業(yè)的分類模型存在差距。要想實(shí)現(xiàn)各個(gè)學(xué)科領(lǐng)域、不同層次人才的自動(dòng)分類,并將其應(yīng)用于實(shí)際的人才分類評(píng)價(jià)工作中,仍需要較大的研究投入。
參考文獻(xiàn):
[1] 李春梅. 基于TF-IDF的網(wǎng)頁(yè)新聞分類的研究與應(yīng)用[J]. 貴州師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,33(06):106-109.
[2] 朱琳琳,徐健. 網(wǎng)絡(luò)評(píng)論情感分析關(guān)鍵技術(shù)及應(yīng)用研究[J]. 情報(bào)理論與實(shí)踐 ,2017,40(01):121-126+131.
[3] 蔡學(xué)軍,丁向陽,韓繼園. 我國(guó)高層次人才隊(duì)伍建設(shè)現(xiàn)狀、問題與對(duì)策[J]. 中國(guó)人才,2003(10):4-8.