999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop 平臺的招聘數據分析

2019-08-12 03:43:14武曉軍陳怡丹趙青杉
現(xiàn)代計算機 2019年19期
關鍵詞:文本分析

武曉軍,陳怡丹,趙青杉

(1.忻州師范學院計算機系,忻州034000;2.河南廣播電視大學信息工程學院,鄭州450008)

0 引言

隨著互聯(lián)網的快速發(fā)展,大量的人才招聘信息發(fā)布到互聯(lián)網上,形成了大量的具有異構性的非結構化數據。對這些數據做有效的分析對行業(yè)的發(fā)展具有一定的引導作用。非結構化數據在數據處理階段具有一定的困難,大量數據在分析階段具有分析能力的不足,性能不足等缺點。文獻[1]就3 個招聘平臺數據近8 萬條計算機行業(yè)招聘數據進行聚類分析,并統(tǒng)計每一種崗位的市場需求,并計算出與崗位相關的其他維度信息的相關系數。文獻[2]就4 個招聘網站數據進行分析,對招聘信息采用二維隱馬爾科夫模型進行分割,得到招聘信息中崗位、企業(yè)名稱、企業(yè)類型等關鍵詞。文獻[3]對爬取的50 萬條數據進行分析,通過數據預處理、特征詞選取、詞袋構造,利用奇異值分解法(SVD)對文本矩陣降維,利用聚類算法挖掘行業(yè)信息。文獻[4]利用Hadoop 平臺進行網絡輿情數據分析。文獻[5]利用Hadoop 平臺對葡萄酒數據信息進行分析,文獻[6]基于Hadoop 平臺對商業(yè)銀行數據進行分析。Hadoop技術逐步成為比較完整的分析技術,針對傳統(tǒng)數據分析的計算能力弱,并行性低等問題,提出了基于Hadoop平臺的招聘數據分析與研究,對近2000 萬條計算機行業(yè)招聘數據進行分析。

1 相關技術

1.1 HDFS分布式文件系統(tǒng)

HDFS 文件系統(tǒng)采用了主從架構,由一個主節(jié)點和部分數據節(jié)點組成。主節(jié)點主要負責文件系統(tǒng)中數據元的存儲管理工作,具體包括存儲地址的選擇、命名空間及各節(jié)點的訪問權限和各數據塊間的關系等。數據節(jié)點負責具體數據塊的存儲于管理工作。具體包括數據塊的創(chuàng)建,數據的讀寫以及向主節(jié)點反饋信息。當需要存儲的數據文件較大時,HDFS 會將文件數據分割為獨立的數據塊,由主節(jié)點主導,將數據塊發(fā)送到數據節(jié)點中并存儲,各數據節(jié)點種數據塊的儲信息存儲則保存在主節(jié)點中。主節(jié)點負責調用執(zhí)行數據節(jié)點,數據節(jié)點不定期將更新的數據反饋給主節(jié)點。

1.2 MapReduce編程模型

MapReduce 執(zhí)行過程包含兩個階段,Map 階段與Reduce 階段[7],Map 為映射階段,Reduce 為歸約階段。首先由主節(jié)點輸入文件,執(zhí)行Split 操作,再執(zhí)行Map操作將文件解析為<key,value>格式,并將中間數據存入節(jié)點的緩存空間,定期存寫入本地磁盤且被劃分為R 個區(qū),每個區(qū)對應于一個Reduce 作業(yè),執(zhí)行Reduce操作前可對分區(qū)數據進行排序以及合并。所有數據均來自底層文件系統(tǒng),執(zhí)行過程產生的臨時數據存儲于當前節(jié)點的文件系統(tǒng)中,執(zhí)行結果最終存儲于底層分布式文件系統(tǒng)中。

2 分析系統(tǒng)的設計與實現(xiàn)

2.1 分析平臺系統(tǒng)架構

將大數據技術與數據挖掘技術應用到招聘數據的分析中,實現(xiàn)了基于Hadoop 平臺的招聘數據分析平臺,如圖1 所示,分析平臺包括數據采集、文本處理、分析與展示四大模塊。

圖1 平臺架構圖

信息采集模塊主要是利用網絡爬蟲從各大在線招聘平臺等Web 頁面采集相關招聘信息,需要保證數據的全面性與準確性。數據采集成功以后需要對數據進行基本去噪與基本格式化處理,并使用統(tǒng)一接口將格式化數據存儲于數據庫中。

爬取的數據多數為文本格式數據,部分數據存在關鍵字段數據為空以及重復行的問題,采集的數據組存在部分噪聲特征,對詞頻統(tǒng)計、文本聚類與相關性分析有一定的影響。對部分缺失的文本數據進行補充,對不同網站相同數據進行去重,保證數據的完整性與唯一性。在數據處理模塊主要進行特征模塊的提取、特征詞集合的生成、文本向量化、文本向量集的生成、最后生成文本數據庫。

經過數據特征提取與文本向量化處理之后得到數據的文本數據庫,將數據發(fā)送至其他節(jié)點進行存儲,數據分析模塊主要利用數據挖掘技術進行分析,分別從數據統(tǒng)計角度與不同維度相關性規(guī)則挖掘進行分析。

2.2 數據處理

(1)分詞

采集到的招聘數據中部分屬性需要進行數值化,例如工作經驗字符類型:1 年、3 年、不需要,可根據正則表達式進行轉化,轉化為1、3、0;薪水字符類型:5K、8K、10K 等,可轉化為數值型5、8、10。

對文本中包含中文與英文進行分詞操作。英文數據采用正則表達式進行分詞,中文數據采用jieba 分詞模塊進行分詞,基于前綴詞典實現(xiàn)高效的詞圖掃描,并生成可能生詞情況所構成的有向無環(huán)圖(DAG),再采用動態(tài)規(guī)劃算法查找最大概率的路徑,得到詞頻較最大的分詞組合。對于未被錄入詞典的詞,采用基于漢字成語能力的HMM 模型,中文分詞結果如圖2 所示。

圖2 中文分詞

(2)分詞過濾

理想條件下,中文分詞之后即可對分詞進行特征提取,但是由于中文的多音、多義等特點,對特征的提取有一定的困難,主要表現(xiàn)在未被錄入詞典的詞以及部分沒有實意的介詞,連詞,符號等字符。對于詞頻過高或者過低的停用詞來說,沒有實際的意義,對文本主題沒有影響或者影響較小的詞予以過濾,減小信息的存儲量,提高信息處理效率,例如“你”、“我”“我們”、“如果”、“因此”等。一般的高頻詞語噪聲詞具有一定的相關性,只有在少數情境下,高頻詞才會被重視。假設TFi表示分詞i 的詞頻,nij表示分詞i 在文本j 中出現(xiàn)的次數,則有

2.3 文本向量化

(1)特征提取

通過文本的特征提取可以使文本向量化,其中特征值的權重與聚類的結果有很大的關系,深度影響著分析結果。逆向文檔頻率(Inverse Documentation Frequency,IDF)根據分詞在文本中的重要程度與文本集中出現(xiàn)的頻率有效提取特征的方法。文本分詞出現(xiàn)的頻率較低,則其區(qū)分能力強,分詞的權重值越大,其信息熵越大,權重為TF?IDF(ti,dj)=TFi,j×IDFi,其中ti為文本d 中的某一特征項,wi為該特征項的權值。。逆向文檔頻率如式(1)所示,N 表示文本總數,ni表示分詞在文本中出現(xiàn)的次數。每一個文本用向量表示,每一個特征項可表示向量的一個維度,特征項在文本中的權重值用向量取值表示例如文本的空間向量為V(d)=(wi)n×1。

(2)語義空間降維

將文本分詞抽取特征詞之后可形成多個特征項,可構建一個特征詞詞典。招聘文本根據特征詞典對應的坐標可轉化為一個同維度文本向量,可構建詞匯-文本矩陣。文本矩陣元素個數較大,計算量大,所得特征也無法準確詮釋自然語言的表達。為了解決文本特征向量的高維問題,需要對高維向量進行降維處理。對任意矩陣均可采用奇異值分解[8],假設文本矩陣為Am×n, 按 照 奇 異 值 分 解 定 理 可 得Am×n=Um×m∑m×n,其中U 為m×m 的酉矩陣,每一個非零元素表示詞的重要程度,∑為m×n 的對角矩陣,表示特征詞與文本的相關性,VT為n×n 的酉矩陣,可視為文本矩陣。在對角矩陣中通過刪除奇異值小的元素,保留奇異值大的元素,得到A 文本矩陣的近似矩陣 Ak×k矩 陣,從 而 達 到 對 矩 陣 的 降 維,其中

3 實驗與結果分析

實驗平臺采用4 臺普通PC 集成搭建,Master 節(jié)點為4 核8 線程,8G 內存,IP 為172.16.0.15,安裝zookeeper 與yarn 軟件,主機名為Hadoop1;3 臺Slave 節(jié)點均為2 核4 線城,4G 內存,IP 分別為172.16.0.18-172.16.0.20,主機名分別為Hadoop2-Hadoop4,安裝zookeeper 與yarn 軟件。配置所有節(jié)點免密通信,且保持所有節(jié)點時鐘同步。

3.1 關聯(lián)規(guī)則挖掘

關聯(lián)規(guī)則挖掘時,需要對招聘信息中城市級別進行劃分,分為一線城市、二線城市、三線城市;需求將公司規(guī)模分為50 人以下、50 人-100 人、100-300 人、300人-500 人、500 人以上;將工資待遇轉化為月薪分為5K 以下、5K-8K、8K-12K、12K-20K、20K 以上;學歷分為博士研究生、碩士研究生及以上、本科及以上、專科;將工作年限分為1 年、2 年、3 年-4 年、5 年-7 年及10年以上。關聯(lián)規(guī)則挖掘采用FP-Growth[9]算法直接從頻繁模式樹中獲取頻繁項集,將最小可信度值作為閾值,得出各維度之間的關聯(lián)規(guī)則,整個過程不需要產生候選集,避免了頻繁的I/O 操作。

關聯(lián)規(guī)則挖掘部分結果如表1 所示,可知在一線城市,如果擁有兩年工作經驗,近92%的企業(yè)開出的薪資在8K-12K 之間。如碩士畢業(yè)生且有工作經驗,在一線城市,有88.75%的企業(yè)愿意開出12K-20K 之間的薪資。大數據專業(yè)的碩士畢業(yè)生主要需求地為一線城市。在二線城市,公司規(guī)模大部分維持在50-100 人的中小型企業(yè),如果為本科學歷,82.72%可能會拿到5K-8K 之間的薪資。

表1 部分關聯(lián)規(guī)則分析結果

3.2 統(tǒng)計分析

平臺部分統(tǒng)計數據如圖3-圖5 所示。有圖3 可知,目前近一半的Java 類崗位的學歷要求為本科及以上,34.4%的Java 類崗位的學歷要求為專科,碩士學歷從事Java 類編程崗位的相對較少。由圖4 可知,Java類崗位需要10 年以上工作經驗的比例較小僅為0.5%,大部分崗位需求的工作經驗保持在1 年-4 年之內,占比為69.6%,針對于應屆畢業(yè)生的崗位不需要工作經驗。圖5 展示了不同語言編程崗位的中人數與工資數量的統(tǒng)計,由圖5 可知,市場需求較大的為Java 語言開發(fā)崗位,且Java 與前端的高薪資崗位較多。圖6展示了不同崗位需求與薪資的關系,由圖可知,目前Java 與前端的崗位需求較大。

圖3 Java類崗位學歷要求統(tǒng)計

圖4 Java類崗位入職經驗統(tǒng)計

圖5 薪資與市場需求統(tǒng)計圖

4 結語

本文將離線招聘數據的分析搬遷到Hadoop 平臺上,設計與實現(xiàn)了數據分析平臺,平臺包括數據采集模塊、處理模塊、分析模塊、展示模塊。利用FP-Growth關聯(lián)規(guī)則算法對崗位、所需技能、薪資、工作經驗等特征維度進行關聯(lián)規(guī)則挖掘,同時利用統(tǒng)計分析法對就業(yè)分布、薪資、市場比例等進行分析,形成可視化統(tǒng)計數據。

猜你喜歡
文本分析
隱蔽失效適航要求符合性驗證分析
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統(tǒng)及其自動化發(fā)展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
中西醫(yī)結合治療抑郁癥100例分析
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲高清中文字幕| 无码精品福利一区二区三区| 久久久久人妻一区精品色奶水 | 伊人久久影视| 国产一区二区福利| 99在线视频免费| 亚洲色图另类| 一级香蕉人体视频| 欧美精品啪啪| 欧美区国产区| 久久一级电影| 国产永久在线观看| 国产毛片片精品天天看视频| 免费中文字幕一级毛片| 久草视频一区| 国产swag在线观看| 亚洲精品777| 免费又黄又爽又猛大片午夜| 国产成人亚洲毛片| 中文字幕乱码中文乱码51精品| 亚洲天堂视频在线免费观看| 欧美影院久久| 老司机午夜精品网站在线观看| 免费久久一级欧美特大黄| 亚洲国产精品无码AV| 9啪在线视频| 成人字幕网视频在线观看| 欧美成人亚洲综合精品欧美激情| 免费国产高清精品一区在线| 久久免费视频6| 免费观看亚洲人成网站| 精品久久久久久久久久久| 免费看美女毛片| 香蕉久久永久视频| 日韩一级毛一欧美一国产| 91视频99| 精品国产99久久| 一级毛片免费播放视频| 久久www视频| 爽爽影院十八禁在线观看| 22sihu国产精品视频影视资讯| 福利在线免费视频| 婷婷六月综合| 在线观看精品国产入口| 色九九视频| 狠狠色综合久久狠狠色综合| 真人免费一级毛片一区二区| 国产精品无码制服丝袜| 丁香综合在线| 亚洲美女视频一区| 三上悠亚在线精品二区| 69综合网| 精品国产成人a在线观看| 秋霞一区二区三区| 91精品啪在线观看国产91九色| 99九九成人免费视频精品| 国产尤物在线播放| 91小视频在线播放| 伊人久久综在合线亚洲2019| 香港一级毛片免费看| 久久久久亚洲精品成人网| 国产xx在线观看| 99热这里只有精品免费| 欧美在线视频a| 成人小视频网| 亚洲精品福利视频| 国产真实乱人视频| 亚洲精品天堂自在久久77| 精品一區二區久久久久久久網站 | 九九九精品视频| 亚洲永久精品ww47国产| 日韩国产亚洲一区二区在线观看| 久久久久无码精品| 中文字幕人成乱码熟女免费| 多人乱p欧美在线观看| 亚洲天堂网2014| 国产美女叼嘿视频免费看| 国产成人免费手机在线观看视频| 国产精品制服| 天堂网国产| 欧美精品啪啪一区二区三区| 老司机午夜精品视频你懂的|