基于文本的職位畫像系統研究與設計

2020-07-09 21:26:25李蘇龍王大慶董曉瑋

現代信息科技 2020年23期

李蘇龍王大慶董曉瑋

摘 ?要：職位畫像系統的主要目的就是利用現代編程技術，將定量數據與定性分析相結合，構建出職位畫像系統，并將結果可視化，為企業、求職者和第三方學校、培訓機構之間提供參考幫助。文章基于文本分析，將定量數據與定性分析的方法相結合，運用基于分布式爬蟲技術，進行文本挖掘、數據挖掘，幫助企業找到合適的人才，求職者明確市場需求找準自身定位，也為學校、培訓機構的領導層提供數據決策支持和行業洞察功能。

關鍵詞：職位畫像系統;分布式爬蟲技術;數據挖掘;文本挖掘

中圖分類號：TP311.52 ? ? ?文獻標識碼：A 文章編號：2096-4706（2020）23-0067-05

Research and Design of Position Portrait System Based on Text

LI Sulong，WANG Daqing，DONG Xiaowei

（Xuzhou University of Technology，Xuzhou ?221018，China）

Abstract：The main purpose of position portrait system is to use modern programming technology，combining quantitative data and qualitative analysis，build a position portrait system，and the results visualization，so as to provide reference and help for enterprises，job seekers，third-party schools and training institutions. Based on text analysis，this paper combines quantitative data with qualitative analysis，and uses distributed crawler technology to carry out text mining and data mining，so as to help enterprises find suitable talents，job seekers clarify market demand，find their own positioning，and provide data decision support and industry insight function for the leadership of schools and training institutions.

Keywords：position portrait system;distributed crawler technology;data mining;text mining

0 ?引 ?言

長期以來，企業、求職者和第三方學校、培訓機構之間都面臨著棘手的問題：一方面企業無職位定義、找不到合適的員工、處于長期動蕩的局面;另一方面，求職者求職難、不知道企業要什么、不清楚自己會什么;同時，作為第三方的學校、培訓結構以及獵頭公司“望眼欲穿”很想抓住市場的痛點，但苦于招生困難、就業率低、學習的理與企業需求不匹配。

通過對以上問題的分析和對職位畫像系統的研究，結合徐州工程學院實際情況，本項目提出了基于文本的職位畫像系統（以下均簡稱為職位畫像系統）的研究與設計。一方面幫助企業找到合適的人才，另一方面求職者明確市場需求找準自身定位，同時也為第三方學校、培訓機構的領導層提供數據決策支持和行業洞察的功能。解決人才與崗位之間不匹配的矛盾，方便人才快速便捷的找到適合自己的工作崗位，企業也可以根據人才畫像找到對應崗位技能需求的人才。

1 ?研究意義

職位畫像作為用戶畫像的一種，不僅可以完美的抽象出一個用戶的全貌信息，還可以對用戶的職位信息做出精準的判斷，進而了解到職位的薪資水平和地理分布，挖掘出潛在的數據價值。

基于文本的職位畫像系統的研究與設計既能夠幫助企業找到合適的人才，提高企業的核心競爭力;幫助求職者明確市場需求找準自身定位，最大限度地體現自身價值;同時也為第三方的學校、培訓機構中的領導層提供數據決策支持，保證授課內容緊跟市場潮流，實時更新市場需求信息，協助教學產品的研發。

2 ?研究目標及主要內容

2.1 ?研究目標

職位畫像是對職位的一種可視化描述形式。通過對職位建立畫像，能過形象直觀地標識職位的具體特征，把數量龐大且雜亂無章的職位數據用簡單易懂的形式表示出來。

本系統采用以Python為主，輔以JavaScript編程語言結合Tableau桌面應用軟件、MySQL和Linux的形式進行系統開發，采用文本分析的方法，將定量數據與定性分析相結合，運用基于網絡爬蟲技術，有效的抓取全行業“準實時”數據，進行文本挖掘、數據挖掘，分析各種職位的需求，對職位進行準確描述，設計形成了特定職位的畫像。

2.2 ?項目的需求分析和總體設計

2.2.1 ?系統可視化界面

從多個角度分析職位數據特征，形成可視化報表，對職位畫像系統進行系統的分析：

（1）職位數據統計。不同的時間對于不同專業方向，例如大數據、數據分析、HTML5等崗位的需求數是有所變化的，職位數據統計如圖1所示。

（2）Java系統架構師職位畫像。Java系統架構師的職位技能要求中，架構設計最為明顯，這是由于所有職位描述中，架構設計一詞出現的頻率最高，也就是出現的次數最多，理解為Java系統架構師職位畫像中架構設計為主要要求技能，具體地說計算機體系結構指的是計算機系統設計的觀念與架構，描述計算機在的設計原則。該架構確定一個計算機設計的部件功能，部件間接口并且計算機體系結構著重于負責了計算機架構的中心功能：計算的中央處理器內部的運行動作與存儲器的訪問。此外，還有其他技能，例如：數據分析、用戶體驗、Axure等[1]。

2.2.2 ?系統非功能性需求

結合目前計算機和網絡資源的優勢，利用國內外現有成果，最大限度發揮系統投資效益，本系統以運用、管理、維護、保障投資持續性為原則。除上述總體設計原則外，本系統的設計應充分考慮以下非功能性需求[2]：

（1）開放性。該系統可獨立作為一個完整的系統平臺使用，并可方便地集成到現有的系統中。

（2）實用性。進行系統設計的首要目標是提高系統的實用性，系統需要滿足信息管理的基本要求。

（3）靈活性。作為一個計算機應用系統，隨著需求的變化，系統應具有良好的適應性，可以靈活滿足不同用戶的訪問需求

（4）穩定性。系統采用多層架構，基于協同開發方法，具有較高的可靠性和穩定性。

2.2.3 ?系統功能性需求

結合系統功能，本系統功能性需求包括：

（1）系統功能。本系統主要功能模塊分為信息采集模塊和數據挖掘模塊。其中，信息采集模塊包括網絡通信、資源管理、數據分析和存儲管理。數據挖掘模塊包括對數據進行預處理、回歸分析、決策樹分析等。此外，還應考慮一些常用功能，以考慮用戶的不同需求。可以將上述功能再進行細分，如用戶界面等。

（2）系統用例。職位畫像系統的主要實施目標是進行架設網絡平臺，最后，數據挖掘技術使系統能夠對大量數據進行分析和處理，形成具體的工作畫像，并為相關人員提供決策支持，從而提高系統的智能化水平。

圖2左側：一般用戶是普通求職者或企業招聘經理。通過查詢、查看、下載結果等功能，可以查看在線招聘崗位信息的數據挖掘結果。

圖2右側：管理員、一般用戶和分析人員可以對系統的各個功能模塊進行操作，最終實現數據挖掘和知識發現功能。

（3）系統體系架構。由圖3所示系統架構可知，整個系統分為：數據源層、數據采集層、數據存儲層、數據預處理層、分詞數據分析層（用戶畫像層）、職位畫像應用層[3]。

（4）系統數據架構。將來自各個爬蟲系統的數據根據多維應用主題對數據進行匯總后，進一步分類，建立統一的數據視圖，構筑存儲中心，形成統一的數據分析模型，以此共同組成完整的職位畫像系統的數據架構[4]。

2.3 ?職位畫像系統的詳細設計

2.3.1 ?系統模塊設計

職位畫像系統總體包括三大部分：職位數據采集模塊、數據預處理模塊、職位畫像模塊。

職位數據采集模塊：基于Python腳本語言，使用Web Spider技術，從指定的招聘網站獲取招聘數據。

數據預處理模塊：負責分析下載到本地數據庫的在線招聘崗位信息，對爬取后的職位招聘信息作簡單數據預處理工作。

職位畫像模塊：職位畫像系統的核心處理模塊，通過抽取經過預處理后的職位招聘數據，建立不同角度的數據結構模型，構建多層次職位畫像。

對于上述三大部分，詳細介紹：

（1）職位數據采集模塊設計。常見大數據采集方法有系統日志采集、網絡數據采集及其他數據采集方法。對職位信息的采集屬于網絡數據采集。網絡數據采集是指通過網絡爬蟲公開API等方式從網站獲取數據信息，抽取網頁中的非結構化數據，通過頁面解析成結構化數據，并保存到本地文件中。通用網絡爬蟲框架如圖4所示。

（2）數據預處理模塊設計。網站收集的大量原始招聘數據中存在大量的異常數據，嚴重影響了數據挖掘建模的有效性，可能導致搜索結果偏差。因此，對數據進行清洗接著或者同時進行預處理，對于提高數據集的質量和最小化異常數據是非常重要的。以此來提高數據集的質量，盡可能減少異常數據對結果的影響。數據預處理一般包括步驟：初始數據的獲取、數據清洗、數據繼承和融合、數據變換、數據規約、數據挖掘知識評價等。如圖5所示。

（3）職位畫像模塊設計。專業技術領域中，職位信息一般都含有對要求技能的描述。而在眾多職位中被頻繁提到的技能，正是目前大多企業正廣泛使用的技術。基于此，假定詞條出現的次數越多就表明職位對該詞條的需求越大，即詞條對應的詞頻越大，詞條需求度就越高。通過專業技能詞條的出現頻率來度量職位技能的需求度，具體包括如下：

1）詞條：根據爬取數據的各個職位描述，對職位描述進行分詞得到詞條。

2）詞頻：分詞后，針對詞語出現的頻率進行統計得到詞頻。

3）詞條長度：定義每個詞條的字符個數為詞條長度。

4）職位需求度量：詞條出現的詞頻越大，表明職位對該詞條的需求越大。

職位畫像模塊是職位畫像系統的核心處理模塊，通過抽取經過預處理后的職位招聘數據，建立不同角度的數據結構模型，構建多層次職位畫像。

2.3.2 ?數據庫設計

一個好的數據庫產品不等于就有一個好的應用系統，如果不能設計一個合理的數據庫模型，不僅會增加客戶端和服務器端程序的編寫和維護的難度，而且將會影響系統實際運行的性能。本系統的數據庫優化設計主要包含以下幾個方面：

（1）數據庫優化設計。數據庫模型不僅會影響編寫和維護客戶端和服務器端程序的難易度，還會影響系統運行的實際性能。本系統的數據庫優化設計主要包含以下幾個方面[5]：

1）索引。創建索引，可以在查詢的過程中使用優化隱藏器，提高系統的性能。

2）存儲過程。存儲過程過多，無論是對版本控制、開發、部署還是對遷移數據庫都會帶來很大的影響。所以在設計過程中，盡可能少的使用存儲過程，對于功能需求可以參考使用相關技術替代，如“對象/關系映射”等。

3）弱關聯。在關系型數據庫中，通過表中的字段來設計聯系，表和表之間的外鍵約束盡可能少，能夠方便對表字段和表結構的調整和重構。

4）并發控制。如果對并發操作不加以控制，就可能會造成讀取和存儲錯誤，破壞數據庫的一致性。

（2）數據庫邏輯結構設計。對職位畫像系統的詳細設計，根據系統要求的分析和設計，分別實現和分析了三個主要功能模塊，給出了系統實現和數據挖掘過程的細節。關于開發工具的選擇，本文試圖選擇更新的版本。關于職位信息收集模塊，系統正在使用基于Python語言的Web Spider模塊。使用者可以自訂收集網址，以收集網站下方的子鏈接資料。對于數據預處理模塊，將采集來的經過清洗、變換、規約、集成處理后的有用信息存儲到本地數據庫當中;職位畫像模塊采用回歸分析、決策樹等分析方法，對于不同的分詞進行處理，形成特定的職位畫像。

（3）數據庫實現。部分代碼為：

# -*- coding：utf-8 -*-

"""

Created on Mon Jan 25 11：26：29 2016

@author：ifuturedata@icloud.com

mongodb數據庫連接類

"""

import sys

reload（sys）

import ?pymongo

sys.setdefaultencoding（'utf-8'）

class dbMongo：

def __init__（self）：

self.OpenDB（）

self.def_collection（）

def OpenDB（self）：

user=''

passwd=''

host=''

port=''

auth_db=''

uri = "mongodb：//"+user+"："+passwd+"@"+host+"："+port+"/"+auth_db+"？authMechanism=SCRAM-SHA-1"

self.con = pymongo.MongoClient（uri，connect= False）

def def_collection（self）：

self.db = self.con['qq']

self.c1_ods_qq_msg = self.db['ods_qq_msg']

self.c2_qq_group_member = self.db['qq_group_member']

def closeDB（self）：

self.con.close（）

def PrintResult（self，rows）：

for row in rows：

for key in row.keys（）：

print row[key]

print '＼n'

class dbMongoTest：

def __init__（self）：

self.OpenDB（）

self.def_collection（）

def OpenDB（self）：

user = 'root'

passwd = 'ibfroot'

host = 'db.ibf.cn'

port = '27019'

auth_db = 'admin'

uri = "mongodb：//" + user + "：" + passwd + "@" + host + "：" + port + "/" + auth_db + "？authMechanism= SCRAM-SHA-1"

self.con = pymongo.MongoClient（uri，connect=False）

def def_collection（self）：

self.db = self.con['resume']

self.c1_echarts = self.db['echarts']

def closeDB（self）：

self.con.close（）

def PrintResult（self，rows）：

for row in rows：

for key in row.keys（）：

print row[key]

print '＼n'

# class dbMongoInit：

# init_dict={'con'：{'user'：''，

# ? 'passwd'：''，

# ? 'host'：''，

# ? 'port'：''，

# ? 'auth_db'：''

# ? }，

# 'db_use'：{'db'：''，

# ? 'col'：[]}

# }

# def __init__（self，init_dict）：

# self.init_dict=init_dict

# self.OpenDB（）

# self.def_collection（）

# def OpenDB（self）：

# uri = "mongodb：//"+self.init_dict['con']['user']+"："+self.init_dict['con']['passwd']+"@"+ ＼

# ?self.init_dict['con']['host']+"："+self.init_dict['con']['port']+＼

# ?"/"+self.init_dict['con']['auth_db']+"？authMechanism=SCRAM-SHA-1"

# self.con = pymongo.MongoClient（uri，connect=False）

# def def_collection（self）：

# self.db = self.con[self.init_dict['db_use']['db']]

# c_id=0

# for colection in self.init_dict['db_use']['col']：

# c_id+=1

# exec（"self.c{0[0]}_{0[1]}=self.db['{0[2]}']".format（[c_id，colection，colection]））

# def closeDB（self）：

# self.con.close（）

# def PrintResult（self，rows）：

# for row in rows：

# for key in row.keys（）：

# print row[key]

# print '＼n'

# @classmethod

# def db_mongo_use（cls）：

# cls.init_dict={'con'：{'user'：'root'，

# 'passwd'：'ibfroot'，

# 'host'：'db.ibf.cn'，

# 'port'：'27019'，

# 'auth_db'：'admin'

# }，

# 'db_use'：{'db'：'resume'，

# 'col'：['echarts']}

# }

# return dbMongoInit（cls.init_dict）

………

3 ?結 ?論

數據挖掘一方面對歷史數據進行統計分析，總結過去，另一方面為今后的發展提供寶貴的信息。由于筆者在這一領域的時間和理解有限，對該系統的研究還存在一些不足，在設計開發的系統中還有許多地方需要加強和改進，例如需要加強對采集系統邏輯處理策略的研究等。作者對本論文的研究和開發過程進行總結和歸納后，認為下一階段的研究應側重于以下方面：

（1）網頁數據預處理。Web數據結構越來越復雜，Web數據分析中需要考慮許多問題，例如有效填充默認屬性、轉換數據類型、減小文本大小和檢查屬性一致性。為了解決這些問題，還需要進行更多的系統研究。

（2）效率問題。隨著網上招聘數據量的成倍增加，我們應該考慮采用更有效、更先進的技術來實現網絡爬蟲功能，并利用有效的網頁分析算法對網頁進行快速準確的分析，提高網頁收集效率。

（3）與現有企業信息系統無縫集成。如何將網絡信息收集平臺透明地納入現有系統，是今后研究的重點之一。

參考文獻：

[1] 劉海，盧慧，阮金花，等.基于“用戶畫像”挖掘的精準營銷細分模型研究 [J].絲綢，2015，52（12）：37-42.

[2] 郝勝宇，陳靜仁.大數據時代用戶畫像助力企業實現精準化營銷 [J].中國集體經濟，2016，2（4）：61-62.

[3] 王珊，王會舉，覃雄派，等.架構大數據：挑戰，現狀與展望 [J].計算機學報，2011，34（10）：1741-1752.

[4] 朱志遠.基于數據挖掘的網絡招聘系統的設計與實現 [D].成都：電子科技大學，2012：10-13.

[5] 韓家煒.數據挖掘：概念與技術 [M].北京：機械工業出版社，2000.

作者簡介：李蘇龍（1999—），男，漢族，江蘇徐州人，本科在讀，研究方向：信息與計算科學;王大慶（2000-）男，漢族，江蘇連云港人，本科在讀，研究方向：信息與計算科學;通訊作者：董曉瑋（1980—），女，漢族，山東新泰人，實驗師，碩士研究生，研究方向：軟件工程及大數據處理。