基于伴隨式數(shù)據(jù)采集和決策樹算法的智庫人才信息處理技術(shù)

2022-12-01 06:00:34韋冬妮車彬張澤龍唐夢媛齊彩娟

電子設(shè)計工程 2022年23期

關(guān)鍵詞：信息

韋冬妮，車彬，張澤龍，唐夢媛，齊彩娟

（國網(wǎng)寧夏電力有限公司經(jīng)濟(jì)技術(shù)研究院，寧夏銀川 750002）

智庫是企業(yè)戰(zhàn)略研究以及擁有強(qiáng)大競爭力的關(guān)鍵，企業(yè)智庫信息的管理覆蓋面廣、涉及數(shù)據(jù)量大，需要應(yīng)用的技術(shù)手段眾多[1-3]。目前，企業(yè)智庫通常缺乏系統(tǒng)、高效的數(shù)據(jù)管理模式，且在利用智庫數(shù)據(jù)進(jìn)行培養(yǎng)結(jié)果評價和人員崗位匹配等方面不夠深入，海量的數(shù)據(jù)管理難以產(chǎn)生邊際效益[4-7]。企業(yè)智庫蘊(yùn)含著大量關(guān)于人才培養(yǎng)過程的數(shù)據(jù)信息，如何結(jié)合先進(jìn)的信息處理技術(shù)，深入挖掘出它的價值，推動企業(yè)人才隊(duì)伍建設(shè)，是值得重點(diǎn)研究的問題。

針對此問題，該文將伴隨式數(shù)據(jù)采集和決策樹技術(shù)應(yīng)用于智庫信息處理，實(shí)現(xiàn)了人才評價分類與精準(zhǔn)崗位匹配，優(yōu)化了企業(yè)人才資源的配置。

1 伴隨式數(shù)據(jù)采集技術(shù)

數(shù)據(jù)采集是實(shí)現(xiàn)智庫信息流動、人才評價的基本前提。智庫人才評價的實(shí)現(xiàn)是以動態(tài)學(xué)習(xí)、數(shù)據(jù)分析為基礎(chǔ)，通過存儲、訪問、處理相關(guān)學(xué)習(xí)數(shù)據(jù)，在智庫人才信息管理的同時實(shí)現(xiàn)伴隨式評價[8]。

該文構(gòu)建的基于伴隨式智庫信息系統(tǒng)架構(gòu)，如圖1 所示。其包括系統(tǒng)層、服務(wù)層、數(shù)據(jù)層和應(yīng)用層[9]，從課程面授、實(shí)踐操作、案例示范、崗位指導(dǎo)這四類不同的培養(yǎng)場景出發(fā)，實(shí)時獲取人才素質(zhì)數(shù)據(jù)信息，并動態(tài)分析人才素質(zhì)特征，從而實(shí)現(xiàn)人才素質(zhì)特征的準(zhǔn)確智能分類[10]。

圖1 基于伴隨式數(shù)據(jù)采集的智庫信息系統(tǒng)架構(gòu)

1.1 數(shù)據(jù)存儲

數(shù)據(jù)存儲技術(shù)主要用于實(shí)現(xiàn)學(xué)員個人信息、曾參與的項(xiàng)目成果、工作學(xué)習(xí)經(jīng)歷等人才素質(zhì)數(shù)據(jù)的大規(guī)模存儲。該文采用了Hadoop 分布式文件系統(tǒng)（HDFS），該系統(tǒng)是當(dāng)前的主流大數(shù)據(jù)存儲框架方案之一。HDFS 適用于海量數(shù)據(jù)結(jié)構(gòu)場景，融合元數(shù)據(jù)與數(shù)據(jù)塊技術(shù)實(shí)現(xiàn)數(shù)據(jù)信息的集中管控和分布式儲存，不但具有高度容錯的性能，而且適用于智庫海量數(shù)據(jù)的存儲，同時，也可以兼顧數(shù)據(jù)使用過程中的準(zhǔn)確抽取。

1.2 數(shù)據(jù)訪問

數(shù)據(jù)訪問技術(shù)能夠支持學(xué)員根據(jù)自身情況隨時獲取智庫信息系統(tǒng)的教學(xué)內(nèi)容等課程數(shù)據(jù)，采用的核心技術(shù)主要有Pig、Hive、Sqoop 等。Pig 是一種適用于HDFS 系統(tǒng)的高級編程語言，能夠?qū)崿F(xiàn)將數(shù)據(jù)查詢請求分解為快速優(yōu)化的MapReduce 運(yùn)算，且支持并行處理；Hive 是一種數(shù)據(jù)庫管理工具，能夠?qū)崿F(xiàn)HDFS 系統(tǒng)中海量數(shù)據(jù)的快速檢索與獲取；Sqoop 是一種開放性的數(shù)據(jù)處理工具，能夠?qū)崿F(xiàn)HDFS 系統(tǒng)與常規(guī)數(shù)據(jù)庫的數(shù)據(jù)信息傳輸。

1.3 數(shù)據(jù)處理

數(shù)據(jù)處理技術(shù)用于實(shí)現(xiàn)培訓(xùn)指導(dǎo)過程中教學(xué)互動數(shù)據(jù)的處理分析，具體的技術(shù)解決方案為HBase和Flume。HBase 是一種針對列存儲應(yīng)用的非關(guān)系型數(shù)據(jù)庫，其綜合性能優(yōu)異，可以實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集的實(shí)時讀寫；Flume 是由Cloudera 開發(fā)的日志收集系統(tǒng)，提供分布式數(shù)據(jù)流收集服務(wù)。

1.4 數(shù)據(jù)分析

數(shù)據(jù)分析技術(shù)利用智庫信息系統(tǒng)中學(xué)員參與課程的數(shù)據(jù)，為學(xué)員提供崗位匹配、課程評價、課程改進(jìn)等相關(guān)數(shù)據(jù)服務(wù)。其中，通常使用的數(shù)據(jù)分析技術(shù)有Mahout 和Hama 技術(shù)。Mahout 是開放性的代碼庫，支持分散式人工智能學(xué)習(xí)，能夠?qū)崿F(xiàn)應(yīng)用服務(wù)程序的快捷創(chuàng)建；Hama 可以支持海量數(shù)據(jù)并行計算，在矩陣分析、圖譜計算等方面應(yīng)用廣泛。

2 基于決策樹的人才崗位匹配算法

人才崗位匹配是利用智庫信息系統(tǒng)中的相關(guān)數(shù)據(jù)，通過決策樹算法實(shí)現(xiàn)素質(zhì)分析和崗位匹配的過程。在智庫信息系統(tǒng)中，學(xué)員的相關(guān)數(shù)據(jù)信息是海量、無序的。為了從大規(guī)模數(shù)據(jù)中提取學(xué)員素質(zhì)特征，通常利用信息處理技術(shù)來實(shí)現(xiàn)[11]。目前在信息處理技術(shù)方面，經(jīng)常使用的有聚類算法和決策樹算法[12]。決策樹算法是一種利用樹狀結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)分類的人工智能算法，其關(guān)鍵技術(shù)在于構(gòu)建決策樹。在決策樹生成的過程中已實(shí)現(xiàn)數(shù)據(jù)樣本的分類，對于后續(xù)待分類的樣本，僅需依據(jù)已生成的決策樹由上至下搜索，即可實(shí)現(xiàn)快速、精準(zhǔn)地分類[13]。

2.1 決策樹算法

2.1.1 信息熵

信息熵表征的是一個隨機(jī)變量的不確定性，在現(xiàn)實(shí)世界中，隨機(jī)變量的特征只能通過有限次數(shù)的樣本進(jìn)行模擬。對于有限的樣本集合，信息熵表征該樣本集合的混亂程度，其值越高說明樣本集合的不確定度越強(qiáng)。對于樣本集合D，其信息熵定義為：

式中，Ent(D)為樣本集合D的信息熵；pk為樣本集合D中第k個樣本所占的比例。

以屬性A對樣本集合進(jìn)行劃分，屬性A可能取值的集合為{a1,a2,…,aV}，其中V為屬性A可能取值的種類數(shù)量，記DV為屬性A上取值為av的樣本集合，即有：

則根據(jù)屬性A進(jìn)行分類，降低樣本集合D的不確定度收益，其信息增益為：

式中，Gain(D,A)為根據(jù)屬性A進(jìn)行分類時，樣本集合D的信息增益。

2.1.2 決策樹的生成與計算流程

決策樹算法的關(guān)鍵在于生成決策樹，決策樹生成的過程主要為：以數(shù)據(jù)樣本的信息增益最大為分類依據(jù)，從初始節(jié)點(diǎn)開始直至末端節(jié)點(diǎn)，不斷重復(fù)地尋找最優(yōu)的劃分?jǐn)?shù)據(jù)樣本的屬性特征[14-16]。具體實(shí)現(xiàn)過程描述如下：

1）構(gòu)建訓(xùn)練集合。訓(xùn)練集合由描述性屬性元素和目標(biāo)屬性元素構(gòu)成，構(gòu)建訓(xùn)練集的過程，其本質(zhì)是將學(xué)員的素質(zhì)特征數(shù)據(jù)從智庫信息系統(tǒng)的海量數(shù)據(jù)中抽取出來，為構(gòu)建決策樹提供數(shù)據(jù)分析基礎(chǔ)。

2）根據(jù)目標(biāo)屬性元素計算訓(xùn)練集原本的信息熵，計算方法如式（1）所示。

3）搜索初始節(jié)點(diǎn)。首先，對于每一個描述性的屬性進(jìn)行分類；然后，根據(jù)式（3）計算訓(xùn)練集合的信息增益；最后，選取信息增益最大的描述性屬性作為初始節(jié)點(diǎn)。

4）對于每個節(jié)點(diǎn)，根據(jù)所有其他描述性屬性進(jìn)行分類，計算訓(xùn)練集合的信息熵增益，選取信息增益最大的描述性屬性作為分支節(jié)點(diǎn)。

5）重復(fù)步驟4），直至滿足以下條件之一，結(jié)束循環(huán)：①所有末端節(jié)點(diǎn)的元素均屬于目標(biāo)屬性；②所有描述性屬性均已劃分完畢；③描述性屬性的某個取值未有樣本。

決策樹算法流程如圖2 所示。

圖2 決策樹算法流程

2.2 基于決策樹算法的智庫信息處理

該文將伴隨式數(shù)據(jù)采集和決策樹算法應(yīng)用于智庫信息處理，提出了基于決策樹算法的人才分類方法，如圖3 所示。首先，基于在伴隨式數(shù)據(jù)收集過程中獲取的學(xué)員信息數(shù)據(jù)構(gòu)建訓(xùn)練集。通過決策樹算法生成決策樹，對于待分類的學(xué)員將其數(shù)據(jù)信息輸入已生成的決策樹，再輸出人才分類結(jié)果。

圖3 基于伴隨式數(shù)據(jù)采集和決策樹算法的智庫信息處理方法

1）分類屬性

如表1 所示，智庫人才分類即決策樹算法中的目標(biāo)屬性為可能匹配的崗位，元素值包括：一般研究員、骨干研究員和項(xiàng)目管理員。智庫人才的特征信息即決策樹算法中的描述性屬性為學(xué)歷、工作年限和素質(zhì)特征，其中學(xué)歷屬性元素值包括本科和碩士，工作年限包括小于3 和大于或等于3，素質(zhì)特征包括顯性、綜合和隱性。

表1 基于智庫的人才屬性元素

2）構(gòu)造訓(xùn)練集

從智庫中隨機(jī)抽取學(xué)員信息構(gòu)成訓(xùn)練集，訓(xùn)練集由目標(biāo)屬性元素和描述性屬性元素構(gòu)成。

3 算例分析

為了驗(yàn)證該文所提基于伴隨式數(shù)據(jù)采集和決策樹算法的智庫信息處理方法的正確性和有效性，以寧夏電力智庫為例，隨機(jī)抽取10 名學(xué)員構(gòu)成訓(xùn)練集。訓(xùn)練集中的學(xué)員信息數(shù)據(jù)如表2 所示。

表2 寧夏電力智庫構(gòu)建的訓(xùn)練集

3.1 決策樹的生成

目標(biāo)屬性為匹配崗位，首先計算訓(xùn)練集的信息熵：

1）以學(xué)歷為初始節(jié)點(diǎn)的信息增益：

2）以工作年限為初始節(jié)點(diǎn)的信息增益：

3）以素質(zhì)特征為初始節(jié)點(diǎn)的信息增益為：

根據(jù)上述計算結(jié)果，選擇信息增益最大的描述性屬性素質(zhì)特征作為決策樹的初始節(jié)點(diǎn)。

后續(xù)對于素質(zhì)特征的每個分支，計算以其他描述性屬性為分支節(jié)點(diǎn)的信息增益，選擇信息增益值最大的節(jié)點(diǎn)作為分支節(jié)點(diǎn)。重復(fù)上述步驟直至生成決策樹，如圖4 所示。

圖4 生成的決策分析樹

3.2 決策樹的應(yīng)用

從智庫中隨機(jī)抽取5 名學(xué)員的信息，根據(jù)上節(jié)中生成的決策樹，將學(xué)歷、工作年限和素質(zhì)特征的信息數(shù)據(jù)作為輸入，輸出匹配崗位結(jié)果。

分析匹配崗位過程為：首先從決策樹的初始節(jié)點(diǎn)出發(fā)，根據(jù)素質(zhì)特征的取值搜索至該分支；然后依據(jù)其他描述性屬性，從上至下依次搜索，直至末端節(jié)點(diǎn)即可得到該學(xué)員的匹配崗位結(jié)果。

利用200 名學(xué)員對已生成的決策樹進(jìn)行測試，并驗(yàn)證其準(zhǔn)確性，部分學(xué)員的崗位匹配結(jié)果，如表3所示。

表3 崗位匹配結(jié)果

在測試結(jié)果數(shù)據(jù)中，最終有198 名學(xué)員匹配崗位與實(shí)際相同，匹配準(zhǔn)確率為99%，表明所提算法能夠?qū)崿F(xiàn)人才的智能分類。

4 結(jié)束語

該文開展了伴隨式數(shù)據(jù)采集和決策樹算法在智庫信息處理中的應(yīng)用研究，構(gòu)建基于伴隨式數(shù)據(jù)采集的智庫信息系統(tǒng)架構(gòu)。利用智庫信息數(shù)據(jù)，通過決策樹算法實(shí)現(xiàn)人才素質(zhì)特征與崗位的準(zhǔn)確匹配。經(jīng)算例分析表明，文中所提方法能夠簡單、高效地實(shí)現(xiàn)人才的評價與崗位配置，匹配準(zhǔn)確率達(dá)99%，對提升人才的崗位匹配度和工作效率具有現(xiàn)實(shí)意義。但人才崗位匹配只是智庫信息數(shù)據(jù)應(yīng)用的一個方面，因此有必要進(jìn)一步挖掘其在人才業(yè)績考核、崗位晉升等方面的應(yīng)用，這將在下一步研究中展開。