




收稿日期:2023-07-17
DOI:10.19850/j.cnki.2096-4706.2024.03.023
摘" 要:基于校園行為數(shù)據(jù)的教育數(shù)據(jù)挖掘可以很好地解釋學生的就業(yè)選擇,為解決大學生就業(yè)問題提供參考。以某大學6 000余名本科生為研究對象,首先采集并分析學生的基本信息與在校行為數(shù)據(jù),構建了學生標簽體系;其次,通過Aprior關聯(lián)規(guī)則挖掘不同畢業(yè)去向與學生標簽之間的內在關系,生成升學類、國有企業(yè)類、出國出境類和三資企業(yè)類學生的就業(yè)畫像。研究結果表明,不同就業(yè)去向的學生存在學業(yè)成績、基本信息、行為規(guī)律性等方面的顯著差異,為高校的就業(yè)指導和管理工作提供了參考。
關鍵詞:就業(yè)畫像;數(shù)據(jù)挖掘;關聯(lián)規(guī)則
中圖分類號:TP39;G647 文獻標識碼:A 文章編號:2096-4706(2024)03-0107-04
Research on Student Employment Portrait Based on Aprior Algorithm
LAN Jie, DONG Tingkai, ZHU Menglin, YIN Quanhe, YUAN Suhui
(North China University of Water Resources and Electric Power, Zhengzhou" 450046, China)
Abstract: Education data mining based on campus behavior data can effectively explain students' employment choices and provide reference for solving the employment problem of college students. Taking more than 6 000 undergraduate students of a college as the research object, firstly, it collects and analyzes students' basic information and four-year behavioral data in college, and constructs students' label system. Secondly, it mines the intrinsic relationship between different graduation directions and students' labels through Aprior association rules to generate employment portraits of students in the categories of further education, state-owned enterprises, going abroad and three-funded enterprises. The results of the study show that there are obvious differences in academic performance, basic information, and behavioral regularity among students with different employment destinations, which provides reference for employment guidance and management in colleges.
Keywords: employment portrait; data mining; association rule
0" 引" 言
隨著教育信息化2.0行動計劃的深入實施和迅速發(fā)展,各類高等院校開始利用信息化技術對在校大學生的校園數(shù)據(jù)進行收集、保存與管理[1,2]。豐富的校園數(shù)據(jù)為利用數(shù)據(jù)挖掘技術研究在校大學生的校園行為模式與規(guī)律提供了客觀科學的數(shù)據(jù)支撐,也為優(yōu)化高校的就業(yè)指導工作提供了寶貴資源[3]。
20世紀90年代,Alan [4]提出了用戶畫像的概念。根據(jù)他的定義,用戶畫像是由現(xiàn)實社會中的實際數(shù)據(jù)構筑而成的一種抽象有標簽的模型,其中包括社會屬性、消費行為等,用于描繪某個人或某群人的特征或行為。
近年來,國內外研究學者在教育領域廣泛應用用戶畫像技術。例如,于卓言[5]以大學生群體畫像為工具,從群體情感傾向和極端化行為角度展開追蹤和預測,尋找適合大學生思政教育的方法。于祥成等人[6]指出為提升高校思政教育的實效性和針對性,需要在“定位、供給、聯(lián)動、評價”等系列實踐路徑上實現(xiàn)畫像的精準化。孫彥武等人[7]運用大數(shù)據(jù)技術對學生的英語能力進行標簽化和量化,提高了學生英語能力畫像的準確度。李琦等人[8]則運用訪談、文獻分析和可視化分析等研究方法,將用戶畫像技術與高中英語教學相結合,推動教師多元化教學的發(fā)展。楊孟輝等人[9]通過FP-Growth關聯(lián)規(guī)則挖掘學生就業(yè)與校園行為之間的關聯(lián),為高校的就業(yè)指導和管理提供參考。黃志楊[10]則提出采用個體層面和群體層面的表達方式,將就業(yè)畫像可視化和表格化,以更加直觀地描述就業(yè)畫像特征。
目前,對于學生畫像的應用研究主要集中在思政教育和課程教學之中,較少關注學生就業(yè)畫像。因此,本文提出基于Aprior關聯(lián)規(guī)則對學生在校行為數(shù)據(jù)進行分析,以揭示學生在校行為與其就業(yè)去向之間的潛在關聯(lián)。
1" Aprior關聯(lián)規(guī)則概述
1.1" 算法原理
Aprior是一種用于挖掘大規(guī)模數(shù)據(jù)集中頻繁項集的經典關聯(lián)規(guī)則算法。它基于頻繁項集的子集也必然是頻繁項集的特點,從頻繁1項集開始,依次遞增生成更大的頻繁項集。該算法在關聯(lián)規(guī)則挖掘中得到了廣泛的應用。
1.2" 算法流程
Aprior算法主要流程如圖1所示,算法詳細流程如下:
1)掃描數(shù)據(jù)集,統(tǒng)計數(shù)據(jù)集中每個項集的支持度,生成候選項集C1。
2)篩選支持度超過閾值的項集,得到頻繁1項集L1。
3)當前的頻繁項集集合L非空時,循環(huán)以下步驟:生成候選集Ck+1,k表示L中項集的大小;計算候選集中項集的支持度;篩選支持度超過閾值的項集,得到頻繁k+1項集Lk+1。
4)根據(jù)頻繁項集生成關聯(lián)規(guī)則,計算每個規(guī)則的支持度和置信度。
5)選擇支持度與置信度都高于閾值的關聯(lián)規(guī)則作為強關聯(lián)規(guī)則。
圖1" Aprior算法流程圖
2" 數(shù)據(jù)獲取與特征工程
2.1" 數(shù)據(jù)獲取
研究所使用的數(shù)據(jù)來源于某高校2022年全校6 843名畢業(yè)生的在校行為數(shù)據(jù)。研究對象為升學類、國有企業(yè)類、出國出境類和三資企業(yè)類四類畢業(yè)生,因此在數(shù)據(jù)處理過程中剔除無關學生的數(shù)據(jù),最終得到3 783名學生的數(shù)據(jù),其中升學類2 030人,國有企業(yè)類1 608人,出國出境類73人,三資企業(yè)類72人。研究數(shù)據(jù)包含的字段如表1所示。
表1" 原始研究數(shù)據(jù)
數(shù)據(jù)類型 主要內容
基本信息 院系、專業(yè)、性別、民族、政治面貌、困難生類別、城鄉(xiāng)生源
成績信息 課程名稱、修讀學期、學分、開設院系、考核方式、考試成績、獲取方式
圖書借閱記錄 正題名、文獻類型、借出時間、限還時間、實還時間
圖書館訪問記錄 院系、專業(yè)、閘機號、進入時間
就業(yè)信息 畢業(yè)去向、單位名稱、所在地區(qū)、單位性質、就業(yè)類別、單位行業(yè)
2.2" 數(shù)據(jù)預處理
數(shù)據(jù)預處理可以改善數(shù)據(jù)質量,提高算法效率和提升分析效果,是數(shù)據(jù)挖掘中不可或缺的步驟。本研究對數(shù)據(jù)進行了四個步驟的預處理,包括數(shù)據(jù)清洗、轉換、集成、歸納,處理流程如圖2所示。
圖2" 數(shù)據(jù)預處理
2.3" 特征工程
在統(tǒng)計圖書館的訪問情況時,由于入館門禁系統(tǒng)反應遲鈍,存在一次入館系統(tǒng)中產生多條入館記錄的情況。為了增強數(shù)據(jù)的可靠性,需要在統(tǒng)計時手動添加限制條件——五分鐘之內重復的入館記錄被認定為一次訪問。同時,使用Kmeans++算法手動設置聚類的k值為3,得到學生成績和圖書館訪問頻繁度的類別特征。
提取的特征主要分為三大類:一類是學生的靜態(tài)屬性,包括學生的家庭情況、政治面貌、性別等;一類是學生的成績信息,包括學生8個學期的平均成績、英語平均成績、實習類課程平均成績等;還有一類是學生的圖書館訪問與借閱圖書情況,包括訪問頻繁度、特定時間段訪問頻繁度、借閱頻繁度等。
3" 關聯(lián)規(guī)則挖掘
3.1" 標簽體系
構建的學生標簽體系由三大部分組成:基本信息、學業(yè)成績、圖書館行為,具體包括20個標簽,如圖3所示。學生標簽體系中各符號及其含義如表2所示。
3.2" 關聯(lián)規(guī)則挖掘
當使用Aprior關聯(lián)規(guī)則挖掘不同就業(yè)去向的學生特征時,由于升學、國有企業(yè)研究數(shù)據(jù)與出國出境、三資企業(yè)研究數(shù)據(jù)基數(shù)差距很大,因此進行了兩次關聯(lián)規(guī)則挖掘。第一次將最小支持度設置為0.1,最小置信度設置為0.3;第二次將最小支持度設置為0.1,最小置信度設置為0.7。挖掘到的強關聯(lián)規(guī)則如表3所示。
圖3" 學生標簽體系
表2" 標簽符號及含義表
標簽及其含義 標簽及其含義
A1 群眾 F5-3 大三上學期GPA一般
A2 共青團員 F6-1 大三下學期GPA優(yōu)秀
A3 中共黨員 F6-2 大三下學期GPA良好
A4 中共預備黨員 F6-3 大三下學期GPA一般
B1 非困難生 F7-1 大四上學期GPA優(yōu)秀
B2 就業(yè)困難 F7-2 大四上學期GPA良好
B3 家庭困難 F7-3 大四上學期GPA一般
B4 就業(yè)和家庭困難 F8-1 大四下學期GPA優(yōu)秀
C1 農村生源 F8-2 大四下學期GPA良好
C2 城鎮(zhèn)生源 F8-3 大四下學期GPA一般
D1 性別男 F9-1 四年GPA優(yōu)秀
D2 性別女 F9-2 四年GPA良好
E1 升學 F9-3 四年GPA一般
E2 國有企業(yè) G1 英語能力優(yōu)秀
E3 出國、出境 G2 英語能力良好
E4 三資企業(yè) G2 英語能力一般
F1-1 大一上學期GPA優(yōu)秀 H1 實習經歷優(yōu)秀
F1-2 大一上學期GPA良好 H2 實習經歷良好
F1-3 大一上學期GPA一般 H3 實習經歷一般
F2-1 大一下學期GPA優(yōu)秀 I1 創(chuàng)新創(chuàng)業(yè)能力優(yōu)秀
F2-2 大一下學期GPA良好 I2 創(chuàng)新創(chuàng)業(yè)能力良好
F2-3 大一下學期GPA一般 I3 創(chuàng)新創(chuàng)業(yè)能力一般
F3-1 大二上學期GPA優(yōu)秀 J1 圖書館訪問頻繁
F3-2 大二上學期GPA良好 J2 圖書館訪問較頻繁
F3-3 大二上學期GPA一般 J3 圖書館訪問較少
F4-1 大二下學期GPA優(yōu)秀 K1 早八午二訪問頻繁
F4-2 大二下學期GPA良好 K2 早八午二訪問較頻繁
F4-3 大二下學期GPA一般 K3 早八午二訪問較少
F5-1 大三上學期GPA優(yōu)秀 L1 具有借書習慣
F5-2 大三上學期GPA良好
表3" 強關聯(lián)規(guī)則表
畢業(yè)去向 關聯(lián)規(guī)則 支持度 置信度 提升度
升學 {'K2', 'F9-1', 'D2'} --gt; {'E1'} 0.13 0.88 1.57
{'F9-1', 'H1', 'F5-1'}--gt; {'E1'} 0.15 0.87 1.56
{'F4-1', 'F5-1', 'F9-1', 'F8-1', 'F6-1'} --gt; {'E1'} 0.14 0.89 1.59
國有企業(yè) {'J3', 'D1', 'F6-3', 'A2', 'K3', 'F9-3'} --gt; {'E2'} 0.13 0.81 1.84
{'J3', 'D1', 'F5-3', 'A2', 'K3'} --gt; {'E2'} 0.14 0.81 1.82
{'F6-3', 'J3', 'K3', 'D1'}) --gt; {'E2'} 0.12 0.80 1.81
出國出境 {'D2', 'J3', 'B1', 'C2'} --gt; {'E4'} 0.17 0.86 1.68
{'G1', 'K3', 'B1', 'J3', 'C2'} --gt; {'E4'} 0.16 0.88 1.74
{'F7-2', 'K3', 'B1', 'J3', 'C2'} --gt; {'E4'} 0.19 0.82 1.61
三資企業(yè) {'G1', 'K3', 'B1', 'J3', 'C2'} --gt; {'E4'} 0.16 0.88 1.74
{'D1', 'K3', 'A2', 'J3', 'C1'} --gt; {'E5'} 0.17 0.92 1.87
{'K3', 'B1', 'A2', 'J3', 'C1'} --gt; {'E4'} 0.18 0.88 1.74
4" 結果分析
4.1" 升學類學生畫像分析
三種強關聯(lián)規(guī)則:{'K2', 'F9-1', 'D2'} --gt; {'E1'}表示早上七點到八點半之間與下午兩點到兩點四十五之間訪問圖書館的次數(shù)較頻繁,大學四年平均成績優(yōu)秀,性別為女;{'F9-1', 'H1', 'F5-1'} --gt; {'E1'}表示大學四年平均績優(yōu)秀,實習成績優(yōu)秀,大三上學期成績優(yōu)秀;{'F4-1', 'F5-1', 'F9-1', 'F8-1', 'F6-1'} --gt; {'E1'}表示大二下學期成績優(yōu)秀,大三上學期成績優(yōu)秀,大三下學期成績優(yōu)秀,大四下學期成績優(yōu)秀,大學四年平均成績優(yōu)秀。
分析可得升學類學生的就業(yè)畫像:大學四年成績整體穩(wěn)定且偏好,家庭條件中等偏上,具有良好的自律能力,性別為女。
4.2" 國有企業(yè)類學生畫像分析
三種強關聯(lián)規(guī)則:{'J3', 'D1', 'F6-3', 'A2', 'K3', 'F9-3'} --gt; {'E2'}表示圖書館訪問次數(shù)較少,性別男,大三下學期學習成績一般,政治面貌為共青團員,大學四年平均成績一般;{'J3', 'D1', 'F5-3', 'A2', 'K3'} --gt; {'E2'}表示圖書館訪問次數(shù)較少,性別男,大三上學期畢業(yè)設計成績一般,政治面貌為共青團員;{'F6-3', 'J3', 'K3', 'D1'}) --gt; {'E2'}表示大三下學期成績一般,圖書館訪問次數(shù)較少,性別為男。
分析可得國有企業(yè)類學生的就業(yè)畫像:男性,課程成績一般,圖書館訪問次數(shù)較少,政治面貌為共青團員。
4.3" 出國出境類學生畫像分析
三種強關聯(lián)規(guī)則:{'C2', 'K3', 'B1'} --gt; {'E4'}表示屬于城鎮(zhèn)生源,訪問圖書館次數(shù)較少,家庭條件較好;{'D2', 'J3', 'B1', 'C2'} --gt; {'E4'}表示女性,圖書館訪問次數(shù)較少,屬于城鎮(zhèn)生源,家庭條件較好;{'G1', 'K3', 'B1', 'J3', 'C2'} --gt; {'E4'}表示學生英語水平高,屬于城鎮(zhèn)生源,家庭條件較好,圖書館訪問次數(shù)較少;{'F7-2', 'K3', 'B1', 'J3', 'C2'} --gt; {'E4'}表示大四上學期成績中等,屬于城鎮(zhèn)生源,家庭條件較好,圖書館訪問次數(shù)較少。
分析可得出國、出境類學生的就業(yè)畫像:屬于城鎮(zhèn)生源,家庭條件較好,英語水平高,女性,圖書館訪問次數(shù)較少。
4.4" 三資企業(yè)類學生畫像分析
三種強關聯(lián)規(guī)則:{'G1', 'K3', 'B1', 'J3', 'C2'} --gt; {'E4'}表示英語水平高,圖書館訪問次數(shù)較少,屬于城鎮(zhèn)生源,家庭條件較好;{'D1', 'K3', 'A2', 'J3', 'C1'} --gt; {'E5'}表示男性,圖書館訪問次數(shù)較少,政治面貌為共青團員,屬于農村生源;{'K3', 'B1', 'A2', 'J3', 'C1'} --gt; {'E5'}表示圖書館訪問次數(shù)較少,屬于農村生源,家庭條件中等,政治面貌為共青團員。
分析可得三資企業(yè)類學生的就業(yè)畫像:家庭條件中等以上,英語水平高,男性。
5" 結" 論
通過對五類就業(yè)去向學生的特征進行分析,得出以下結論:
1)升學類學生。對于升學去向的學生來說,最重要的特征是大學四年的成績優(yōu)秀并保持穩(wěn)定,同時具有良好的自律能力。此外,他們訪問圖書館的頻率較高、大四下學期畢業(yè)設計成績優(yōu)秀、政治面貌為共青團員也與升學有較強的關聯(lián)。
2)國有企業(yè)類學生。男生更傾向于選擇進入國有企業(yè)發(fā)展。其他特征包括圖書館訪問次數(shù)較少,學業(yè)成績一般,政治面貌為共青團員等。
3)出國出境類學生。出國出境去向的學生中,女生更傾向于這一就業(yè)去向。家庭條件較好,英語水平高,訪問圖書館次數(shù)較少是這類學生的特征。
4)三資企業(yè)類學生。選擇進入三資企業(yè)的學生中,男生較多。他們通常具備中等以上的家庭條件,較好的英語水平。
綜上所述,不同就業(yè)去向的學生在特征上存在一定的差異。這些結論可以為高校就業(yè)指導和管理工作提供重要的參考,幫助高校相關部門更加有針對性地開展就業(yè)指導工作,提高畢業(yè)生的就業(yè)質量,促進他們在職業(yè)發(fā)展中取得更好的成果。
參考文獻:
[1] 嚴承希,王軍.高校學生網絡行為時序特征的可視化分析 [J].情報學報,2018,37(9):890-904.
[2] 唐義,應鳴蕾,陳飛達.按照“圖書情報與檔案管理”一級學科培養(yǎng)本科生的需求現(xiàn)狀——來自本科生的調查分析 [J].圖書館論壇,2018,38(10):78-84.
[3] ASHLEY G,BERG H. Exploration of Educational Data Mining in Improving Teaching Quality [J].Journal of Educational Research and Policies,2022,4(6):42-48.
[4] ALAN C.交互設計之路 [M].北京:電子工業(yè)出版社,2006.
[5] 于卓言.群體畫像視域下“00后”大學生思政教育精準供給研究 [J].吉林省教育學院學報,2021,37(12):67-70.
[6] 于祥成,陳夢妮.大數(shù)據(jù)時代高校精準思政的特征、現(xiàn)狀及路徑 [J].大連理工大學學報:社會科學版,2022,43(5):8-16.
[7] 孫彥武,陶丹玉,高萬全.基于大數(shù)據(jù)用戶畫像的高校學生英語能力測評研究 [J].嘉興學院院報,2021,33(5):128-134.
[8] 李琦,鄧廣超.用戶畫像技術在高中英語教學中的應用 [J].吉林省教育學院學報,2022,38(4):153-156
[9] 楊孟輝,任超,謝寶玲,等.基于校園行為特征的學生就業(yè)畫像 [J/OL].圖書館論壇,1-11[2023-06-03].http://kns.cnki.net/kcms/detail/44.1306.g2.20221220.1045.001.html.
[10] 黃志楊.基于K-means++的大學生就業(yè)畫像構建 [J].現(xiàn)代信息科技,2023,7(10):109-112.
作者簡介:蘭潔(1999—),男,漢族,河南三門峽人,碩士研究生在讀,研究方向:大數(shù)據(jù)分析及應用;董挺鍇(1999—),男,漢族,河南鄭州人,碩士研究生在讀,研究方向:大數(shù)據(jù)分析及應用;朱夢琳(1998—),男,漢族,河南洛陽人,碩士研究生在讀,研究方向:圖像分類與識別;尹泉賀(2000—),男,漢族,河南周口人,碩士研究生在讀,研究方向:圖像分類與識別;原素慧(2001—),男,漢族,河南安陽人,碩士研究生在讀,研究方向:圖像分類與識別。