何澤君 云雄 鮑斌
中國民航信息網絡股份有限公司重慶分公司 重慶 401122
大數據時代,數據已成為企業發展和生存的重要資源。企業正面臨VUCA這一新常態,為應對眾多的跨界挑戰者、不斷變化的市場和持續演進的技術,需快速適應和敏捷轉型,這給企業人才管理工作帶來了前所未有的挑戰[1]。互聯網時代以來,企業普遍實現了人才管理信息化,主要以人力資源部門為主體,采用互聯網技術建設獨立的人才信息系統,實現人才信息的統計、分析。新形勢下,功能單一、相互獨立的人才信息系統已不能滿足企業人才管理需求。全面引入智能技術,構建大數據技術為基礎的人才管理平臺,成為破解人才管理難題的新思路[2]。
互聯網時代,我國企業人力資源信息化建設開始蓬勃發展,企業基于不同部門職責,建設了功能相對獨立的信息系統,企業人才管理轉變為對人才數據的管理利用。當前人才管理的現狀和問題主要有以下幾個方面。
大數據時代,人才管理者對基于數據的管理方式缺乏理論認識和應用經驗。傳統的管理主要以人事管理為主,注重流程管控,所能應用和參考的數據有限,導致管理模式和決策具有較強的片面性和主觀性。此外,獨立的人力資源部門難以與市場、研發等部門配合。當前,大部分企業管理者并未意識到大數據技術在人才管理中的價值,也沒有合適的方法和工具,無法利用大數據優化管理。這些問題都成為提高企業管理能力的掣肘之處[3]。
大數據時代,爆炸式增長的信息和互聯網下分布的海量數據未被充分利用。企業人力資源信息化建設盲目激進,系統功能單一、信息集成水平低、安全問題嚴峻[4];員工產生的大量高價值的非結構化數據無法被利用;企業內外部數據無法融通。這些問題造成了人才數據失真、數據獲取成本高昂、數據利用效率低下,降低了人才管理工作的效率。
大數據時代,人才管理不僅要對員工基礎數據、績效、外部人才市場數據等進行分析,更重要的是對員工產生的非結構化數據進行挖掘。當前人才管理的方式通常是預先設計好,數據分析多是事后總結,難以挖掘企業與員工間潛在關聯信息,不能為企業提供有價值的戰略方針,更無法為管理者提供預測指導,是一種滯后的管理[5]。
Hadoop是一種分布式系統基礎架構,它包括多個生態組件:HDFS、MapReduce、HBase、Hive等。HDFS為海量數據提供存儲,容錯性高,部署硬件要求低;MapReduce是一種用于處理大規模數據集的并行計算框架;HBase是一個高可靠、高性能、面向列、可伸縮、實時讀寫的分布式數據庫,主要用來存儲非結構化和半結構化的松散數據;Hive是一個開源的SQL解析引擎,用于將SQL語句轉換成MapReduce任務以處理大規模的數據集。
Flink是一個用Java和Scala編寫的分布式流數據處理引擎,用于在無界和有界數據流上進行有狀態計算。其流水線運行時系統可以同時執行批處理和流處理程序,并支持任意數量的流變換。Flink還提供了現成的源和接收連接器,例如Kafka、HDFS等。
樸素貝葉斯算法適用于大多數情況,但精度不夠高,要求數據量大,計算效率低。樸素貝葉斯算法的核心思想是將每個特征看作是一個條件概率分布,然后將每個樣本看作是一個條件概率分布的投影,投影到每個類別上得到一個新的條件概率分布。最后,根據樣本的條件概率分布來計算其分類結果。
支持向量機對數據需求量小、計算精度高,但對缺失的數據處理效果差。支持向量機通過訓練一個分類器來尋找最佳的超平面,并將數據映射到高維空間中,同時將分類器的結果與真實標簽進行比較,再根據比較結果更新超平面的位置,以使得正例和負例之間的距離最小。
深度學習是一種基于神經網絡的一類人工智能技術,在自然語言處理中的文本分類、實體識別、關系識別、語義識別有廣泛的應用。它通過多層非線性變換來實現對數據的高效表示和分類,主要算法有人工神經網絡、卷積神經網絡、循環神經網絡、自編碼器等。
大數據人才管理平臺旨在促進人才管理智能化發展,應具有數據資源和服務集約化,數據分析智能化,運維管理成本低、高可用、易擴展、具備產業生態系統支持的特點[6]。通過問題現狀分析和技術調研,確定平臺建設采取以Hadoop為核心的融合化技術方案[7]。大數據人才管理平臺架構,采用層次結構,從底層向上層依次是數據接入層、數據存儲層、數據處理層、數據應用層,以及貫穿始終的數據安全規范和數據管理規范要求。
平臺的數據來源于企業信息系統、物聯網智能終端感知數據、內外部網絡數據、人員行為數據等,按數據類型可分為結構化數據、非結構化數據,數據源具有來源分散,類型多樣的特點。針對企業OA平臺上的各類系統采用Sqoop工具,對各種關系型數據庫通過任務管理實現批量采集。針對人員行為日志、外部系統消息、網絡爬蟲動態捕獲的互聯網數據,采用flume+kafka完成多源異構數據的實時采集。
平臺采集的數據結構復雜、質量標準不統一,需按照數據治理管理要求進行數據預處理和存儲。數據應進行ETL預處理,可以結合統計學方法、SQL清洗、粒度聚合等方法處理。數據存儲應具有高效性、可擴展性和容錯能力,存儲采用基于Hadoop與MySQL整合的數據倉庫。其中,Hadoop用于存儲多源異構的原始數據進行分布式運算;MySQL用于存儲面向應用的結果數據,實現大數據存儲、高效能運算、實時查詢的需求[8]。根據數據運算需求平臺采用Hive、Presto、Spark、Flink作為數據倉庫的引擎,實現大數據的批處理和流式處理。利用Hive完成長時間運行的離線批處理,實現數據倉庫統計分析工作。利用Presto的高并發性、高吞吐量和高可用性等特點,通過聯合hive使用、加速Hive的查詢,實現更高效、更準確的大數據處理。采用Spark聯合Flink的設計,Spark擅長處理結構化數據,而Flink則適合處理非結構化數據。當需要處理機器學習任務時,可以將數據分為結構化和非結構化部分,分別交給Spark和Flink處理,最后將它們合并為一個數據集。對于流處理任務,可以將Spark作為主要的流處理器,將Flink作為從庫或工作隊列來處理數據,實現數據處理的分布式實時性能。
平臺數據處理應滿足人才管理領域的統計分析需求,更重要的是能實現人才管理智能化。人才數據具有特征稀疏、深度關聯性強的特點,分析需要依賴平臺的批處理、流處理實現運算能力。數據分析的方法主要采用統計學和人工智能技術。針對人才管理業務需求,數據處理需要完成人才盤點數據處理、人才特征數據挖掘和人才畫像智能分析。對于人才盤點的數據處理,主要采用人才管理領域的規則和統計學方法,實現人才年齡、學歷、崗級等各類維度的統計分析。對人才特征挖掘主要采用統計學方法和人工智能技術中的分類、聚類、關聯分析、深度學習等方法,實現人才能力、潛力、心理動向等特征挖掘,以及自然語言文本信息挖掘。對于人才畫像智能分析主要采用人工智能技術中的預測分析、回歸分析等方法,實現崗位匹配度、人才相似度、高風險人才等的分析工作。
平臺需滿足多種應用需求,采用專業的數據可視化技術如ECharts、BI工具等,能提供豐富的圖表,例如:折線圖、餅圖、散點圖、氣泡圖、樹形圖或箱型圖等,以及具有交互功能的數據分析界面[9]。平臺面向企業管理層能提供的企業人才大屏,面向人力資源部門提供的人才盤點九宮格分析,面向企業個人提供的成長歷程等應用功能。采用RESTful、微服務技術,提供接口服務,快速實現其他系統與平臺組態化構建,提高其他系統智能屬性,例如:提供給招聘管理系統的智能簡歷文本分析接口。采用網絡協議數據傳輸技術,提供批量數據文件傳輸,例如:財務系統所需的專業報表數據文件。
大數據背景下,人才管理的理念、方法、模式都發生了重大變革,單一的人力資源學科領域,無法支撐目前的需求。谷歌、騰訊等企業都已組建由統計學、組織行為學、人力資源管理的專業人才擔任分析師的人力資源團隊,為企業提供前瞻性戰略指導、降低管理成本、提升人力資源的服務質量[10]。以大數據人才管理平臺為載體,能實現多學科交融互補,利用計算機技術、信息管理技術構建平臺;利用統計學、人工智能算法實現數據挖掘、智能決策;利用人力資源、心理學原理的知識、經驗,構建豐富的應用模塊。多學科優勢在平臺上得以交融互補,提高企業人才管理水平。
大數據人才管理平臺匯聚了全面的數據信息,并進行了科學的數據治理,具有高效的數據運算能力,能夠支撐人才管理工作中的各類數據統計分析場景,從而大大提升了人才管理工作效率。例如,企業可以通過平臺快速搜集準確數據,為人才規劃工作提供科學客觀的數據參考;平臺具有完善的數據,融合了各類統計分析技術,能夠實時完成人才盤點工作,提高了工作效率。
大數據人才管理平臺對數據進行深入挖掘,利用先進的機器學習算法實現人才特征分析、畫像分析;利用平臺智能分析優勢,可以預測潛在離職人員,實時向管理者預警,動態優化管理策略。通過平臺關聯分析方法找到與穩定性相關的典型特征,建立特定人員的畫像模型,便于人力資源部門實施定向服務。借助平臺智能化技術,顯著提高人才管理工作效益。
大數據時代,機遇與挑戰并存,企業管理者要把握機遇,利用大數據技術,創新人才管理模式。在大數據人才管理平臺建設中,要充分利用人才相關數據,注重數據分析能力的建設,融合多學科優勢,優化人才管理的解決方案。對于數據的使用應注重安全和隱私保護,建立數據安全規范體系。