文/江勇
人才大數據綜合架構及應用研究
文/江勇

本文作者江勇
2015年,全球產生約8.6ZB的數據,該數據量正在以每年約50%的速度增長。以領英(LinkedIn)為例,該機構全球會員數已超過4億人,《財富》世界500強中每個公司均有高管加入該平臺。構建聚集效應下的人才機制,合理化配置人才資源,已成為國家創新、產業聯動和組織協同發展的必備要素。
人才大數據的內涵。人才大數據,一般是指人才成長過程中產生大量有價值的信息,這些信息構成特定的成長軌跡。運用現代信息技術,將人們在成長和受教育階段中產生的各種有效信息以結構化或非結構化數據的形態進行采集和存儲。
人才大數據的外延。人才大數據一方面通過科學模型和人工智能來幫助組織機構進行職位匹配,另一方面構建動態機制下的人才服務系統,從關鍵詞篩選到精準匹配,同時引導用戶通過手機移動端,參與在線考評和個人信息更新。
人才大數據來源。人才大數據來自各種渠道,其數據的格式和起源各不相同,擁有結構化、半結構化或非結構化的各類數據,數據到達的速度和傳送速率都會因數據源不同而不同,收集數據的位置或直接或間接,分別以實時或以批量模式進行收集。以下列舉人才大數據的主要來源:組織遺留系統屬于組織內部應用程序,執行業務需要的分析并獲取需要的洞察,其中包括客戶關系管理系統(CRM)、用戶結算操作和企業資源規劃(ERP)系統等,這些系統中包含各種類型的人才數據。人才數據管理系統(HDMS)存儲邏輯數據、流程、策略和各種其他類型的文檔,具體包含各種文檔和電子表格,這些文檔可以轉換為可用于分析的結構化數據,在某種程度上也可以公開為領域實體。人才數據存儲包含數據倉庫、操作數據庫和事務數據庫,此數據通常是結構化數據,可直接使用或輕松地轉換來滿足需求。
人才大數據分布式存儲。包含改動和存儲兩個動作,主要是從各種數據源獲取數據,并在必要時,將它轉換為適合數據分析方式的格式。
人才大數據分析和使用。分析層的主要作用是讀取數據改動和存儲層整理(digest)的數據。設計分析層需要認真地進行事先籌劃和規劃,進而制定系列決策保證如何從海量的人才大數據中獲得洞察、并且找到所需的實體,進而有效理解并執行分析需要哪些算法和工具。
基于廣泛適用性的人才數據的應用平臺,能夠從社交網站、學術平臺以及研究機構進行分門別類的數據采集,實施有效的數據管理。包含數據合并、數據提取和智能分析。智能分析環節,人才數據平臺可以進行用戶、年齡、社會關系識別,并依照研究能力、創新能力、創業能力對各級人才進行打分,以準確、實時、有效的人才機制為組織機構和社會提供深度服務。
針對專家學者的人才大數據管理及應用服務,能夠實現學術內容搜索、學術空間架構和學術推薦等系列服務。隨著科技不斷成熟,人才大數據會成為常態,以跨界合作、模式創新為切入點,分享國內外聯合研發的智慧和經驗。
未來研究中,能夠通過個體信息的規模化收集、結構化分析、數據化整合和深度挖掘,構建真實有效的人才畫像,為各類組織機構提供基于個性化信息的搜索、挖掘與人才應用,實現用戶洞察、市場分析和個性化客服等諸多服務。
(作者單位:清華大學深圳研究生院)