

摘 要:近年來,隨著大數據技術的應用普及,大數據正在改變各行業的發展。在教育領域,大數據技術在解決畢業生就業“難”和教育數據“閑置”問題方面產生了巨大的作用。本文在大數據時代背景下,使用Visual FoxPro開發了關聯規則興趣度挖掘工具,并使用該工具對影響學生就業的各項事務進行挖掘分析,找出影響就業的原因,為及時調整就業指導提供依據。
關鍵詞:大數據;關聯規則;興趣度;就業策略
中圖分類號:TP311.1 文獻標識碼:A
文章編號:2096-1472(2018)-11-25-03
1 引言(Introduction)
隨著計算機技術和信息技術的發展,大數據逐漸被應用于各行各業發展中,使用大數據技術采集和分析用戶活動信息數據,掌握用戶行為動態和愛好,為用戶提供便捷的服務。利用大數據技術對畢業生就業相關事務數據進行詳細的統計分析,找出影響畢業生就業的因素,及時調整就業策略,為畢業生順利就業創造條件,切實提高就業率和就業質量。
2008年9月,《Nature》首次發布“大數據”專欄,引發了學術界對大數據的關注。當前“大數據”已成網絡熱點,受到了各界高度關注,作為信息社會發展的新事物,大數據正在逐步被認識和應用,大數據及時、高效、多樣、量大及應用廣泛的特點得到了各領域一致認可。麥肯錫全球研究所指出:“大數據是超出傳統數據庫軟件獲取、存儲等能力的數據集,并不是大于一定數量的數據。因為隨著科學技術的發展,大數據標準也會增加,不同行業標準也會發生變化”。
隨著高等學校的發展和入學人數的增加,畢業生人數從2000年的107萬增加到2018年的820萬,畢業生就業“難”的問題已成為學校必須面對的嚴峻挑戰。同時,學校使用的各種信息管理軟件在日常教學、管理和就業工作中積累了大量的管理數據,這些數據沒有被利用,處在“閑置”狀態。為了解決畢業生就業“難”和教育數據“閑置”的問題,學??墒褂么髷祿夹g對學生的個人、學習、就業等數據進行分析研究,找出影響就業的因素,及時調整就業指導和教育策略,引導學生順利就業。
如今,大數據應用工具普遍存在,許多大數據工具都是在數據挖掘技術的基礎上開發的。目前對數據挖掘技術的討論尚未過時,研究數據挖掘技術是為了更好地利用大數據奠定基礎。關聯規則興趣度挖掘正好能將“閑置”教育數據用起來,為學校各項教育決策服務。
2 關聯規則挖掘及興趣度(Association rule mining and interestingness)
2.1 關聯規則挖掘
R.A Grawal等人在1993年的SIGMOD會議上提出了關聯規則挖掘,并將其定義為:設I={i1,i2,…,in}是項集,D是事務集,T是I上子集,TI,TID是單個事務,則關聯規則表示為XY,其中XI,YI且XY=,X叫做規則的條件,Y叫做規則的結果[1]。
為了提高關聯規則挖掘的準確性,引入了計算式為(1)和(2)的兩個參數,它們分別叫做支持度(S)和置信度(C)。
其中,D表示事務數據庫,N表示事務數的總和,而Count(X)表示事務X的發生次數,Count(X∪Y)表示事務X和Y同時發生的次數。支持度S是事務X發生的頻度,置信度C是事務X出現時事務Y發生的頻度。
2.2 興趣度
在關聯規則挖掘中,僅使用支持S和置信度C的兩個參數來測量規則的價值,會導致部分強關聯規則無使用價值。當最小支持閾值和最小置信度閾值太小時,會生成沖突規則;當太大時,會遺漏有意義的規則[2]。因此,提出了一種新的度量關聯度規則挖掘參數——興趣度,用來彌補支持度與置信度的缺陷,提高數據挖掘結果的價值。
目前,現成的關聯規則挖掘興趣度模型很多,有概率興趣度模型、Symth函數興趣度模型、Gini指標興趣度模型、Piantesky-Shapiro興趣度模型、基于差異思想的興趣度模型等[3]。本文將使用一種由文獻[4]提出的興趣度模型,具體描述如下:
設I={i1,i2,…,in}是項目集,D是事務數據庫,關聯規則XY的興趣度由(3)式計算,興趣度值越大關聯規則挖掘結果越有趣越具有參考價值[5]。
3 關聯規則興趣度挖掘(Interestingness mining of association rules implementation)
3.1 數據準備
挖掘對象主要使用入學數據、學業成績數據和就業數據,通過篩選、合并等將這些數據組合成二維表,并進行預處理。預處理后的就業事務數據表結構見表1所示。
3.2 算法實現
就業事務挖掘工具使用FoxPro作為后臺數據庫管理工具,以Visual FoxPro 6.0作為系統開發平臺。
3.2.1 數據庫實現
就業事務表包括學號、性別、專業、高考成績、學業成績、就業地區類型、單位性質等七個屬性,其結構見表2所示。
3.2.2 關聯規則挖掘的實現
就業事務挖掘工具的操作對象是就業事務數據,以文本的形式產生關聯規則,格式為:屬性A……→屬性B…興趣度:I。
關聯規則挖掘算法由編程工具Visual FoxPro實現,其算法流程圖見圖1所示。
4 關聯規則興趣度挖掘結果分析(Analysis of association rules interestingness mining results)
4.1 挖掘結果顯示
根據預先設定的興趣度閾值,顯示滿足條件的規則,其挖掘界面如圖2所示。詳細規則顯示如下:
規則1 性別=男→單位性質=黨政機關 興趣度:2
規則2 性別=男→單位性質=地方基層項目 興趣度:2
規則3 性別=男→單位性質=高等教育單位 興趣度:2
規則4 性別=男→單位性質=國有企業 興趣度:2
規則5 性別=男→單位性質=應征入伍 興趣度:7
規則6 性別=男→單位性質=自主創業 興趣度:3
規則7 性別=男→就業地區類型=非生源地就業 興趣度:2
規則8 性別=女→就業地區類型=生源地就業 興趣度:1
規則9 專業=初等教育→單位性質=國家基層項目 興趣度:36
規則10 專業=會計→單位性質=事業單位 興趣度:31
規則11 專業=計算機多媒體技術→單位性質=自主創業 興趣度:56
規則12 專業=計算機應用技術→單位性質=醫療衛生單位 興趣度:30
規則13 專業=歷史教育→單位性質=應征入伍 興趣度:368
規則14 專業=美術教育→單位性質=升學 興趣度:33
規則15 專業=社區管理與服務→單位性質=事業單位 興趣度:37
規則16 專業=生物教育→單位性質=升學 興趣度:81
規則17 專業=體育教育→單位性質=地方基層項目 興趣度:32
規則18 專業=體育教育→單位性質=自主創業 興趣度:64
規則19 專業=物理教育→單位性質=國家基層項目 興趣度:30
規則20 專業=音樂教育→單位性質=升學 興趣度:39
規則21 專業=會計電算化→就業地區類型=生源地就業 興趣度:23
規則22 專業=歷史教育→就業地區類型=生源地就業 興趣度:35
規則23 專業=學前教育→就業地區類型=生源地就業 興趣度:20
規則24 高考成績=一般→單位性質=黨政機關 興趣度:1
規則25 高考成績=一般→單位性質=地方基層項目 興趣度:1
規則26 高考成績=一般→單位性質=國家基層項目 興趣度:4
規則27 高考成績=一般→單位性質=應征入伍 興趣度:1
規則28 高考成績=優良→單位性質=高等教育單位 興趣度:1
規則29 高考成績=優良→單位性質=國有企業 興趣度:1
規則30 高考成績=優良→單位性質=私有企業 興趣度:1
規則31 高考成績=一般→就業地區類型=生源地就業 興趣度:2
規則32 高考成績=優良→就業地區類型=非生源地就業 興趣度:2
規則33 學業成績=一般→單位性質=黨政機關 興趣度:2
規則34 學業成績=一般→單位性質=地方基層項目 興趣度:2
規則35 學業成績=一般→單位性質=自主創業 興趣度:3
規則36 學業成績=優良→單位性質=升學 興趣度:2
規則37 學業成績=一般→就業地區類型=生源地就業 興趣度:1
規則38 學業成績=優良→就業地區類型=非生源地就業 興趣度:1
4.2 挖掘結果分析
關聯規則興趣度挖掘主要任務是找出就業事務中各數據項間的關系,更好地服務于學校就業指導工作。對38條挖掘結果作進一步分析得出如下結論:
第一,規則1—6只顯示了男生的就業領域,而沒有顯示女生的,說明男生就業范圍比女生大。因此,學校相關就業管理部門要加大對女生的就業范圍宣傳和就業考試輔導,擴大女生就業面。
第二,從規則7—8可看出,男生主要在非生源地就業,而女生則主要在生源地就業。說明男生就業區域更廣,而女生則正好相反,主要在生源地區(家鄉)就業。因此,學校要針對性的對女生進行就業思想觀念教育,鼓勵其到非生源地就業,擴大就業區域范圍。
第三,從規則9—20可看出,各專業畢業生就業主要分布在升學、國家或地方項目、事業單位、自主創業等方面。因此,學校要加強就業宣傳,引進私有企業等單位到校招聘畢業生。
第四,從規則21—23可看出,顯示了三個專業的就業地區類型都為“生源地就業”。由此可推斷出,各專業畢業生主要就業地區為生源地。所以,學校要通過教育改變學生的就業觀念,鼓勵到非生源地就業,擴大就業區域范圍。
第五,從規則24—30可看出,高考成績“一般”和“優秀”的學生在各種企業單位基本都有就業。所以,高考分數高低對于學生就業的單位沒有太大影響。
第六,從規則31、32可看出,高考成績“一般”的學生主要回生源地就業,而高考成績“優秀”的學生主要在非生源地就業。因此,學校要引導高考成績“一般”的學生去非生源地就業,引導高考成績“優良”的學生回生源地就業,擴大畢業生就業區域范圍。
第七,從規則33—36可看出,在校期間學習成績“一般”的學生就業領域為黨政機關、地方基層項目、自主創業等,在校期間學習成績“優良”的學生主要出路為升學。由此可知,在校期間學習成績“一般”的學生就業領域更廣,而學習成績“優良”的學生更適合考試升學進修。因此,學校要對學習成績一般的學生加強考試輔導,引導其參加升學考試;對學習成績較好的學生除了繼續進行升學考試輔導外,還要引導其向其他領域就業,促進各領域均衡就業。
第八,從規則37、38可看出,在校期間學習成績“一般”的學生主要回生源地就業,而在校期間學習成績“優良”的學生主要去非生源地就業。由此可知,在校期間學習成績好的學生更有“闖勁”,敢于挑戰陌生環境。由此,學校要對學習成績一般的學生開展就業觀念教育,引導他們去非生源地就業。
5 結論(Conclusion)
本文在大數據時代背景下對關聯規則興趣度挖掘在畢業生就業分析中的應用進行了研究,把興趣度引入了數據分析中,提高了數據挖掘結果的使用價值。使用Visual FoxPro開發的數據挖掘工具對學生就業各項事務數據進行關聯規則興趣度挖掘分析,找到各事務間存在的聯系,對學校開展就業管理工作具有重要意義。同時為學校利用大數據技術分析就業數據增添了新的思路,為學校就業管理工作者開展工作提供新的依據。
參考文獻(References)
[1] Jiawei Han,Micheline Kamber[加].范明,孟小峰,譯.數據挖掘概念及技術[M].北京:機械工業出版,2008:147-154.
[2] 董輝.基于興趣度的高職課程關聯規則挖掘[J].吉首大學學報:自然科學版,2012,33(3):41-46.
[3] 吳杰.基于興趣度的關聯規則挖掘[D].哈爾濱工業大學,2009:41-42.
[4] 李永立,吳沖,王崑聲.一種新的關聯規則興趣度度量方法[J].情報科學,2011,30(5):503-507.
[5] 李佐軍.基于關聯規則興趣度的課程設置研究[J].大理學院學報,2014,6:20-23.
作者簡介:
李佐軍(1980-),男,碩士,副教授.研究領域:數據挖掘,大數據應用技術.