韋冬妮,車彬,張澤龍,唐夢媛,齊彩娟
(國網(wǎng)寧夏電力有限公司經(jīng)濟(jì)技術(shù)研究院,寧夏 銀川 750002)
智庫是企業(yè)戰(zhàn)略研究以及擁有強(qiáng)大競爭力的關(guān)鍵,企業(yè)智庫信息的管理覆蓋面廣、涉及數(shù)據(jù)量大,需要應(yīng)用的技術(shù)手段眾多[1-3]。目前,企業(yè)智庫通常缺乏系統(tǒng)、高效的數(shù)據(jù)管理模式,且在利用智庫數(shù)據(jù)進(jìn)行培養(yǎng)結(jié)果評價和人員崗位匹配等方面不夠深入,海量的數(shù)據(jù)管理難以產(chǎn)生邊際效益[4-7]。企業(yè)智庫蘊(yùn)含著大量關(guān)于人才培養(yǎng)過程的數(shù)據(jù)信息,如何結(jié)合先進(jìn)的信息處理技術(shù),深入挖掘出它的價值,推動企業(yè)人才隊(duì)伍建設(shè),是值得重點(diǎn)研究的問題。
針對此問題,該文將伴隨式數(shù)據(jù)采集和決策樹技術(shù)應(yīng)用于智庫信息處理,實(shí)現(xiàn)了人才評價分類與精準(zhǔn)崗位匹配,優(yōu)化了企業(yè)人才資源的配置。
數(shù)據(jù)采集是實(shí)現(xiàn)智庫信息流動、人才評價的基本前提。智庫人才評價的實(shí)現(xiàn)是以動態(tài)學(xué)習(xí)、數(shù)據(jù)分析為基礎(chǔ),通過存儲、訪問、處理相關(guān)學(xué)習(xí)數(shù)據(jù),在智庫人才信息管理的同時實(shí)現(xiàn)伴隨式評價[8]。
該文構(gòu)建的基于伴隨式智庫信息系統(tǒng)架構(gòu),如圖1 所示。其包括系統(tǒng)層、服務(wù)層、數(shù)據(jù)層和應(yīng)用層[9],從課程面授、實(shí)踐操作、案例示范、崗位指導(dǎo)這四類不同的培養(yǎng)場景出發(fā),實(shí)時獲取人才素質(zhì)數(shù)據(jù)信息,并動態(tài)分析人才素質(zhì)特征,從而實(shí)現(xiàn)人才素質(zhì)特征的準(zhǔn)確智能分類[10]。

圖1 基于伴隨式數(shù)據(jù)采集的智庫信息系統(tǒng)架構(gòu)
數(shù)據(jù)存儲技術(shù)主要用于實(shí)現(xiàn)學(xué)員個人信息、曾參與的項(xiàng)目成果、工作學(xué)習(xí)經(jīng)歷等人才素質(zhì)數(shù)據(jù)的大規(guī)模存儲。該文采用了Hadoop 分布式文件系統(tǒng)(HDFS),該系統(tǒng)是當(dāng)前的主流大數(shù)據(jù)存儲框架方案之一。HDFS 適用于海量數(shù)據(jù)結(jié)構(gòu)場景,融合元數(shù)據(jù)與數(shù)據(jù)塊技術(shù)實(shí)現(xiàn)數(shù)據(jù)信息的集中管控和分布式儲存,不但具有高度容錯的性能,而且適用于智庫海量數(shù)據(jù)的存儲,同時,也可以兼顧數(shù)據(jù)使用過程中的準(zhǔn)確抽取。
數(shù)據(jù)訪問技術(shù)能夠支持學(xué)員根據(jù)自身情況隨時獲取智庫信息系統(tǒng)的教學(xué)內(nèi)容等課程數(shù)據(jù),采用的核心技術(shù)主要有Pig、Hive、Sqoop 等。Pig 是一種適用于HDFS 系統(tǒng)的高級編程語言,能夠?qū)崿F(xiàn)將數(shù)據(jù)查詢請求分解為快速優(yōu)化的MapReduce 運(yùn)算,且支持并行處理;Hive 是一種數(shù)據(jù)庫管理工具,能夠?qū)崿F(xiàn)HDFS 系統(tǒng)中海量數(shù)據(jù)的快速檢索與獲取;Sqoop 是一種開放性的數(shù)據(jù)處理工具,能夠?qū)崿F(xiàn)HDFS 系統(tǒng)與常規(guī)數(shù)據(jù)庫的數(shù)據(jù)信息傳輸。
數(shù)據(jù)處理技術(shù)用于實(shí)現(xiàn)培訓(xùn)指導(dǎo)過程中教學(xué)互動數(shù)據(jù)的處理分析,具體的技術(shù)解決方案為HBase和Flume。HBase 是一種針對列存儲應(yīng)用的非關(guān)系型數(shù)據(jù)庫,其綜合性能優(yōu)異,可以實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集的實(shí)時讀寫;Flume 是由Cloudera 開發(fā)的日志收集系統(tǒng),提供分布式數(shù)據(jù)流收集服務(wù)。
數(shù)據(jù)分析技術(shù)利用智庫信息系統(tǒng)中學(xué)員參與課程的數(shù)據(jù),為學(xué)員提供崗位匹配、課程評價、課程改進(jìn)等相關(guān)數(shù)據(jù)服務(wù)。其中,通常使用的數(shù)據(jù)分析技術(shù)有Mahout 和Hama 技術(shù)。Mahout 是開放性的代碼庫,支持分散式人工智能學(xué)習(xí),能夠?qū)崿F(xiàn)應(yīng)用服務(wù)程序的快捷創(chuàng)建;Hama 可以支持海量數(shù)據(jù)并行計算,在矩陣分析、圖譜計算等方面應(yīng)用廣泛。
人才崗位匹配是利用智庫信息系統(tǒng)中的相關(guān)數(shù)據(jù),通過決策樹算法實(shí)現(xiàn)素質(zhì)分析和崗位匹配的過程。在智庫信息系統(tǒng)中,學(xué)員的相關(guān)數(shù)據(jù)信息是海量、無序的。為了從大規(guī)模數(shù)據(jù)中提取學(xué)員素質(zhì)特征,通常利用信息處理技術(shù)來實(shí)現(xiàn)[11]。目前在信息處理技術(shù)方面,經(jīng)常使用的有聚類算法和決策樹算法[12]。決策樹算法是一種利用樹狀結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)分類的人工智能算法,其關(guān)鍵技術(shù)在于構(gòu)建決策樹。在決策樹生成的過程中已實(shí)現(xiàn)數(shù)據(jù)樣本的分類,對于后續(xù)待分類的樣本,僅需依據(jù)已生成的決策樹由上至下搜索,即可實(shí)現(xiàn)快速、精準(zhǔn)地分類[13]。
2.1.1 信息熵
信息熵表征的是一個隨機(jī)變量的不確定性,在現(xiàn)實(shí)世界中,隨機(jī)變量的特征只能通過有限次數(shù)的樣本進(jìn)行模擬。對于有限的樣本集合,信息熵表征該樣本集合的混亂程度,其值越高說明樣本集合的不確定度越強(qiáng)。對于樣本集合D,其信息熵定義為:

式中,Ent(D)為樣本集合D的信息熵;pk為樣本集合D中第k個樣本所占的比例。
以屬性A對樣本集合進(jìn)行劃分,屬性A可能取值的集合為{a1,a2,…,aV},其中V為屬性A可能取值的種類數(shù)量,記DV為屬性A上取值為av的樣本集合,即有:

則根據(jù)屬性A進(jìn)行分類,降低樣本集合D的不確定度收益,其信息增益為:

式中,Gain(D,A)為根據(jù)屬性A進(jìn)行分類時,樣本集合D的信息增益。
2.1.2 決策樹的生成與計算流程
決策樹算法的關(guān)鍵在于生成決策樹,決策樹生成的過程主要為:以數(shù)據(jù)樣本的信息增益最大為分類依據(jù),從初始節(jié)點(diǎn)開始直至末端節(jié)點(diǎn),不斷重復(fù)地尋找最優(yōu)的劃分?jǐn)?shù)據(jù)樣本的屬性特征[14-16]。具體實(shí)現(xiàn)過程描述如下:
1)構(gòu)建訓(xùn)練集合。訓(xùn)練集合由描述性屬性元素和目標(biāo)屬性元素構(gòu)成,構(gòu)建訓(xùn)練集的過程,其本質(zhì)是將學(xué)員的素質(zhì)特征數(shù)據(jù)從智庫信息系統(tǒng)的海量數(shù)據(jù)中抽取出來,為構(gòu)建決策樹提供數(shù)據(jù)分析基礎(chǔ)。
2)根據(jù)目標(biāo)屬性元素計算訓(xùn)練集原本的信息熵,計算方法如式(1)所示。
3)搜索初始節(jié)點(diǎn)。首先,對于每一個描述性的屬性進(jìn)行分類;然后,根據(jù)式(3)計算訓(xùn)練集合的信息增益;最后,選取信息增益最大的描述性屬性作為初始節(jié)點(diǎn)。
4)對于每個節(jié)點(diǎn),根據(jù)所有其他描述性屬性進(jìn)行分類,計算訓(xùn)練集合的信息熵增益,選取信息增益最大的描述性屬性作為分支節(jié)點(diǎn)。
5)重復(fù)步驟4),直至滿足以下條件之一,結(jié)束循環(huán):①所有末端節(jié)點(diǎn)的元素均屬于目標(biāo)屬性;②所有描述性屬性均已劃分完畢;③描述性屬性的某個取值未有樣本。
決策樹算法流程如圖2 所示。

圖2 決策樹算法流程
該文將伴隨式數(shù)據(jù)采集和決策樹算法應(yīng)用于智庫信息處理,提出了基于決策樹算法的人才分類方法,如圖3 所示。首先,基于在伴隨式數(shù)據(jù)收集過程中獲取的學(xué)員信息數(shù)據(jù)構(gòu)建訓(xùn)練集。通過決策樹算法生成決策樹,對于待分類的學(xué)員將其數(shù)據(jù)信息輸入已生成的決策樹,再輸出人才分類結(jié)果。

圖3 基于伴隨式數(shù)據(jù)采集和決策樹算法的智庫信息處理方法
1)分類屬性
如表1 所示,智庫人才分類即決策樹算法中的目標(biāo)屬性為可能匹配的崗位,元素值包括:一般研究員、骨干研究員和項(xiàng)目管理員。智庫人才的特征信息即決策樹算法中的描述性屬性為學(xué)歷、工作年限和素質(zhì)特征,其中學(xué)歷屬性元素值包括本科和碩士,工作年限包括小于3 和大于或等于3,素質(zhì)特征包括顯性、綜合和隱性。

表1 基于智庫的人才屬性元素
2)構(gòu)造訓(xùn)練集
從智庫中隨機(jī)抽取學(xué)員信息構(gòu)成訓(xùn)練集,訓(xùn)練集由目標(biāo)屬性元素和描述性屬性元素構(gòu)成。
為了驗(yàn)證該文所提基于伴隨式數(shù)據(jù)采集和決策樹算法的智庫信息處理方法的正確性和有效性,以寧夏電力智庫為例,隨機(jī)抽取10 名學(xué)員構(gòu)成訓(xùn)練集。訓(xùn)練集中的學(xué)員信息數(shù)據(jù)如表2 所示。

表2 寧夏電力智庫構(gòu)建的訓(xùn)練集
目標(biāo)屬性為匹配崗位,首先計算訓(xùn)練集的信息熵:

1)以學(xué)歷為初始節(jié)點(diǎn)的信息增益:

2)以工作年限為初始節(jié)點(diǎn)的信息增益:

3)以素質(zhì)特征為初始節(jié)點(diǎn)的信息增益為:

根據(jù)上述計算結(jié)果,選擇信息增益最大的描述性屬性素質(zhì)特征作為決策樹的初始節(jié)點(diǎn)。
后續(xù)對于素質(zhì)特征的每個分支,計算以其他描述性屬性為分支節(jié)點(diǎn)的信息增益,選擇信息增益值最大的節(jié)點(diǎn)作為分支節(jié)點(diǎn)。重復(fù)上述步驟直至生成決策樹,如圖4 所示。

圖4 生成的決策分析樹
從智庫中隨機(jī)抽取5 名學(xué)員的信息,根據(jù)上節(jié)中生成的決策樹,將學(xué)歷、工作年限和素質(zhì)特征的信息數(shù)據(jù)作為輸入,輸出匹配崗位結(jié)果。
分析匹配崗位過程為:首先從決策樹的初始節(jié)點(diǎn)出發(fā),根據(jù)素質(zhì)特征的取值搜索至該分支;然后依據(jù)其他描述性屬性,從上至下依次搜索,直至末端節(jié)點(diǎn)即可得到該學(xué)員的匹配崗位結(jié)果。
利用200 名學(xué)員對已生成的決策樹進(jìn)行測試,并驗(yàn)證其準(zhǔn)確性,部分學(xué)員的崗位匹配結(jié)果,如表3所示。

表3 崗位匹配結(jié)果
在測試結(jié)果數(shù)據(jù)中,最終有198 名學(xué)員匹配崗位與實(shí)際相同,匹配準(zhǔn)確率為99%,表明所提算法能夠?qū)崿F(xiàn)人才的智能分類。
該文開展了伴隨式數(shù)據(jù)采集和決策樹算法在智庫信息處理中的應(yīng)用研究,構(gòu)建基于伴隨式數(shù)據(jù)采集的智庫信息系統(tǒng)架構(gòu)。利用智庫信息數(shù)據(jù),通過決策樹算法實(shí)現(xiàn)人才素質(zhì)特征與崗位的準(zhǔn)確匹配。經(jīng)算例分析表明,文中所提方法能夠簡單、高效地實(shí)現(xiàn)人才的評價與崗位配置,匹配準(zhǔn)確率達(dá)99%,對提升人才的崗位匹配度和工作效率具有現(xiàn)實(shí)意義。但人才崗位匹配只是智庫信息數(shù)據(jù)應(yīng)用的一個方面,因此有必要進(jìn)一步挖掘其在人才業(yè)績考核、崗位晉升等方面的應(yīng)用,這將在下一步研究中展開。