Apriopri算法在網上招聘系統中的應用

2012-01-24 12:25:18陳君

電子設計工程 2012年24期

陳君

（渭南師范學院數學與信息科學學院，陜西渭南 714000）

目前網上招聘已進入高速發展階段，網上招聘系統也日趨完善，網上招聘系統為用人單位提供優質人才，為應聘者提供合適職位，已成為當今社會招聘的主要形式之一。因此對網上招聘系統的研究與分析就顯得尤為重要。

以往，對網上招聘系統的研究與分析，更多地借助于傳統的分析方法，文中通過引入數據挖掘中的Apriori算法來挖掘其中的關聯規則。網上招聘系統的數據分析是通過對計算機中所存儲的應聘者發布的個人簡歷中的信息，利用關聯規則算法，進行分析、對比，從中發現求職者的被錄用規律。例如：國有企業更多的選擇了學習那些專業的求職者，而獨資企業與三資企業又選擇了學習那些專業的求職者；那些公司或者職位會優先考慮有那些固定特長的求職者；有工作經驗的求職者更容易被優先錄取；學習那些專業的求職者更容易找工作等。

1 數據挖掘技術

1.1 數據挖掘概述

數據挖掘[1-2]（Data Mining）是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中，提取隱含在其中的、人們事先不知道的、卻又潛在有用的信息和知識的過程。數據挖掘涉到的領域廣、學科多。引起不同領域的關注，例如數據庫技術、可視化技術、人工智能技術、數理統計、并行計算等方面。數據挖掘流程圖如圖1所示。

圖1 數據挖掘流程圖Fig.1 Flow chart of data mining

1.2 數據挖掘方法

數據挖掘是將數據庫技術、統計學、機器學習、模式識別等領域有效結合起來，發覺數據中的內在模式。數據挖掘的方法主要有以下幾種：統計分析方法（Analytic Method）、關聯規則（Association rules）[3]、聯機分析處理（OLAP-On Line Analysis人工神經網絡（Neural Network）、決策樹（Decision Tree）遺傳算法（Genetic Algorithms）[4]、近鄰算法（K-nearest）、Processing）、數據可視化（Data Visualization）[5]、粗糙集（RSTRough Set Theory）[6]。

2 Apriori算法

Aprior算法[7]是Agrawal等人于1994年提出的一種挖掘顧客交易數據庫中項集間的關聯規則的方法，核心是基于兩階段頻繁項目集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。所有支持度大于最小支持度的項集稱為頻繁項目集，簡稱頻集。

2.1 算法的基本思想

Apriori算法主要分2步：1）找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣；2）由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。

2.2 Apriori核心算法分析

為了生成所有頻集，使用遞推方法如下所示：1）L1={large 1-itemsets}；

2）for（k=2；Lk-1¹；F；k++）do begin

3）Ck=apriori-gen（Lk-1）；//新的候選集

4）for all transactions tÎ；D do begin

5）Ct=subset（Ck，t）；//事務 t中包含的候選集

6）for all candidates cÎ；Ct do

7）c.count++；

8）end

9）Lk={cÎ；Ck|c.count³；minsup}

10）end

11）Answer=Ck∪Lk；

首先產生頻繁1-項集L1，接著產生頻繁2-項集L2，直到產生一個頻繁r-項集Lr使得Lr為空，算法停止。在第k次循環中，先產生候選k-項集的集合Ck，Ck中的每一個項集是對2個只有一個項不同且屬于Lk-1的頻集做（k-2）-連接所產生的。Ck中的項集用來產生頻集的候選集，最后一個頻集Lk必須是Ck的子集。Ck中的每一個元素都必須在交易數據庫中進行驗證從而決定其是否加入Lk[8-9]。

3 網上招聘系統原型

3.1 網上招聘系統模塊

3.1.1 企業信息模塊

主要包括企業名稱、企業性質、企業人數、企業類型、企業地址等。

3.1.2 招聘信息模塊

主要包括招聘企業對求職者學歷、性別、職位類型、工作經驗、外語等級及語種等要求。

3.1.3 求職者信息模塊

主要包括姓名、學歷、專業、年齡、工作經驗、薪金要求等。

3.1.4 應聘信息模塊

記錄求職者對招聘企業發布的求職信息或招聘企業對求職者發出的招聘信息。

3.1.5 數據挖掘模塊

對招聘企業的招聘過程進行挖掘，得出相關挖掘結論。

3.2 系統設計

文中的系統采用三層架構B/S模式，第一層為表示層，招聘企業進行注冊同時發布招聘信息和瀏覽求職者信息，求職者進行注冊可瀏覽招聘企業發布的信息，同時發布求職信息。第二層為業務邏輯層，實現的業務處理包括企業信息模塊，招聘信息模塊，求職者信息模塊，應聘信息模塊，數據挖掘模塊。第三層為數據層包括數倉庫和存儲過程，數據庫系統存儲業務邏輯層處理的各種數據并對業務邏輯層進行通訊、傳遞信息和數據。

3.3 挖掘模塊具體實現

3.3.1 數據凈化

對企業的招聘信息數據進行處理，企業的招聘信息主要包括企業性質、企業人數、企業類型、性別要求、工作經驗、學歷、外語語種，外語等級、專兼職、職位類型、職位種類等。表1給出了其中一條用戶的記錄。

表1 字段名含義Tab.1 Meaning of fields name

3.3.2 數據清理

數據清理主要包括對臟的、不完整的、不一致的和無用的記錄進行剔除，并將處理后的數據保存在數據表中。

用戶識別和數據集成

表2為關系數據庫屬性值與事務數據集中的項目對應關系，表3為將其進行數據轉換后的事務數據。

表2 關系數據庫屬性值與事務數據集中的項目對應關系Tab.2 The relationship betweent the relational database attribute value and transaction data centralized project

表3 轉換后的事務數據Tab.3 The converted transaction data

3.3.3 利用Apriori算法進行數據挖掘

利用Apriori算法對網上招聘系統中的數據進行挖掘，數據的輸入為“事務數據”數據表及最小支持度；輸出為頻繁項集，即“頻繁項集”數據表。

3.3.4 模式分析

利用Apriori挖掘算法找出招聘公司和求職者感興趣的模式和規則。關聯規則挖掘的任務為給定一個事物數據庫D求出所有滿足最小支持度和最小置信度的關聯規則。設定最小支持度為δ=5%，最小置信度為γ=20%。挖掘結果如表4所示。

表4 數據挖掘結果Tab.4 Results of data m ining

從表4的規則A中可得出：國有企業所錄用的求職者中，具有大學本科學歷的較多；從規則B與C中可得出：獨資企業和三資企業所錄用的求職者中，大專學歷的應聘者被錄用的人數較多；從規則D可得出：有2~5年工作經驗的求職者被錄取的幾率更大；從規則E可得出：具有英語特長的求職者更加受到招聘企業的青睞；從規則F可得出：招聘市場銷售人員的企業較多；從規則G與F可得出：應聘者中本科學歷的求職者比專科學歷的求職者更容易被錄用。

4 結束語

數據挖掘技術是一門具有廣闊前景的數據處理與分析技術，它可以應用于各種行業之中，也將會在網上招聘系統中發揮不可估量的作用。文中利用Apriori算法對網上招聘系統中的數據進行挖掘分析，從中發現用人單位的錄用規律為求職者及有關部門提供有價值的信息。

[1]HAN Jia-wei，Kamber M.數據挖掘概念與技術 [M].范明，孟小峰，譯.北京:機械工業出版社，2001.

[2]范波.數據挖掘技術在電力數據集成應用的研究[J].陜西電力，2010（9）：47-49.FAN Bo.Application of data mining technology in data integration of power system[J].Shaanxi Electric Power，2010（9）：47-49.

[3]趙衛績，趙文正，劉井蓮.基于SQL的Apriori改進算法[J].科學技術與工程，2006，96（17）:2759-2761.ZHAO Wei-ji，ZHAO Wen-zheng，LIU Jing-lian.An improved apriori algorithm based on SQL[J].Science Technology and Engineering，2006，96（17）:2759-2761.

[4]吉根林，楊明，宋余慶，等.最大頻繁項目集的快速更新[J].計算機學報，2005，1（1）:128-135.JI Gen-lin，YANG Ming，SONG Yu-qing，et al.Fast updating maximum frequent itemsets[J].Chinese Journal of Computers，2005，1（1）:128-135.

[5]劉大有，劉亞波，尹治東.關聯規則最大頻繁項目集的快速發現算法[J].吉林大學學報，2004（4）:212-215.LIU Da-you，LIU Ya-bo，YIN Zhi-dong.Fast algorithm for discovering maximum frequent itemsets of association rules[J].Acta Scientiarium Naturalium Universitatis Jilinensis，2004（4）:212-215.

[6]林杰斌，劉明德，陳湘.數據挖掘與OLAP理論與實務[M].北京:清華大學出版社，2003.

[7]桂海霞，孟祥瑞.一種基于Apriori的高效關聯規則挖掘算法的研究 [J].安徽理工大學學報：自然科學版，2009（4）:55-58.GUI Hai-xia，MENG Xiang-rui.Research on efficient algorithm of association rules mining based on apriori algorithm [J].Journal of Anhui University of Science and Technology：Natural Science Edition，2009（4）：55-58.

[8]庹文利，姚勇.基于FP_tree的最大頻繁項目集增量式更新算法[J].計算機工程與應用，2009，45（19）:117-119.TUO Wen-li，YAO Yong.Incremental updating algorithm of maximum frequent itemsets based on FP_tree[J].Computer Engineering and Applications，2009，45（19）:117-119.

[9]何志勇，趙瑞國，袁軍社.傳感器數據庫管理系統設計[J].火箭推進，2010（6）：62-67.HE Zhi-yong，ZHAO Rui-guo，YUAN Jun-she.Design of database management system for transducer[J].Journal of Rocket Propulsion，2010（6）：62-67.