谷月
(西安航空職業(yè)技術(shù)學(xué)院, 通用航空學(xué)院, 陜西, 西安 710089)
我國就業(yè)壓力隨高校畢業(yè)生數(shù)量逐年提升而有所提升,充分分析市場就業(yè)形勢(shì),預(yù)測高校學(xué)生就業(yè)去向?qū)τ诰徑馕覈蜆I(yè)壓力具有重要的現(xiàn)實(shí)意義[1]。高校學(xué)生就業(yè)情況具有較高的復(fù)雜性以及動(dòng)態(tài)性,通過簡單的數(shù)據(jù)分析方法無法獲取高校學(xué)生就業(yè)的實(shí)際情況以及本質(zhì),動(dòng)態(tài)、深入研究高校學(xué)生就業(yè)去向,充分考慮高校學(xué)生現(xiàn)實(shí)情況利用高效的預(yù)測方法實(shí)現(xiàn)就業(yè)去向分析具有較高實(shí)用性[2]。機(jī)器學(xué)習(xí)算法可實(shí)現(xiàn)高校學(xué)生就業(yè)去向精準(zhǔn)預(yù)測,為高校教育領(lǐng)域以及優(yōu)化我國就業(yè)形式提供有效參考[3-4]。
近年來針對(duì)高校學(xué)生就業(yè)去向預(yù)測的研究眾多,呂同雙等[5]研究基于立體數(shù)據(jù)的高校學(xué)生就業(yè)去向預(yù)測方法;韋師等[6]研究基于灰色預(yù)測模型的我國就業(yè)發(fā)展趨勢(shì)分析,分別利用立體數(shù)據(jù)以及灰色預(yù)測模型分析高校學(xué)生就業(yè)去向以及我國就業(yè)發(fā)展趨勢(shì),可實(shí)現(xiàn)高校學(xué)生就業(yè)去向以及我國就業(yè)發(fā)展趨勢(shì)預(yù)測,但面對(duì)就業(yè)去向這一非線性問題預(yù)測精度較低,對(duì)我國高校學(xué)生就業(yè)去向分析參考意義較小。
機(jī)器學(xué)習(xí)算法主要包括無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)3類,貝葉斯分類算法、聚類算法、決策樹算法以及支持向量機(jī)算法均為機(jī)器學(xué)習(xí)算法中應(yīng)用較為廣泛的高效算法。為了獲取更精準(zhǔn)的高校學(xué)生就業(yè)去向預(yù)測結(jié)果,提出了基于機(jī)器學(xué)習(xí)算法的高校學(xué)生就業(yè)去向預(yù)測方法,并通過仿真平臺(tái)驗(yàn)證該方法預(yù)測有效性,預(yù)測結(jié)果可為我國高校學(xué)生就業(yè)情況分析提供參考依據(jù)。
通過研究大量資料發(fā)現(xiàn),高校學(xué)生的就業(yè)去向預(yù)測與學(xué)生的個(gè)體人力特征具有很大關(guān)聯(lián),因此分析高校學(xué)生就業(yè)相關(guān)的數(shù)據(jù),可以從個(gè)體學(xué)業(yè)水平、經(jīng)濟(jì)條件、家庭背景進(jìn)行深入研究?;跈C(jī)器學(xué)習(xí)算法進(jìn)行高校學(xué)生就業(yè)去向預(yù)測,主要分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、生成特征子集和分類預(yù)測4個(gè)步驟,其流程圖如圖1所示。

圖1 高校學(xué)生就業(yè)去向預(yù)測流程圖
機(jī)器學(xué)習(xí)算法的高校學(xué)生就業(yè)去向預(yù)測首先需要采集高校學(xué)生就業(yè)的相關(guān)信息,如受教育年限、個(gè)體人力資本特征、個(gè)人偏好、預(yù)算約束等,將所采集數(shù)據(jù)實(shí)施數(shù)據(jù)清洗以及數(shù)據(jù)規(guī)約,將完成清洗與規(guī)約的數(shù)據(jù)處理缺失值、異常值實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,利用特征選則算法處理完成預(yù)處理數(shù)據(jù)獲取最優(yōu)特征子集[7],利用最優(yōu)特征子集建立高校學(xué)生就業(yè)去向預(yù)測數(shù)據(jù)集,通過機(jī)器學(xué)習(xí)算法的支持向量機(jī)算法建立高校學(xué)生就業(yè)去向預(yù)測分類器,將預(yù)測數(shù)據(jù)集發(fā)送至支持向量機(jī)分類器中,實(shí)現(xiàn)高校學(xué)生就業(yè)去向預(yù)測。
利用特征選擇算法獲取最優(yōu)特征子集,利用最優(yōu)特征子集建立數(shù)據(jù)集實(shí)現(xiàn)高校學(xué)生就業(yè)去向預(yù)測,特征子集的優(yōu)劣決定了高校學(xué)生就業(yè)去向預(yù)測精度[8]。從數(shù)據(jù)集內(nèi)提取全部特征并用N表示,依據(jù)固定規(guī)則從特征中獲取便于高校學(xué)生就業(yè)去向預(yù)測特征,利用所獲取特征建立最優(yōu)特征子集。用n表示最優(yōu)特征子集大小,且需滿足n≤N。在總特征數(shù)量N內(nèi)選取大小為n的最優(yōu)特征子集,可能選取的特征子集數(shù)量如式(1),
(1)
特征集合內(nèi)的特征與特征間可能存在關(guān)聯(lián)性[9],特征選擇算法有效性極為重要。用T={O,F,G}表示原始數(shù)據(jù)集,其中F={f1,f2,…,fm}與G={g1,g2,…,gm}分別表示特征以及類別,O={o1,o2,…,om}表示原始數(shù)據(jù)樣本集。設(shè)置結(jié)果評(píng)估函數(shù)如式(2),
H:2F→[0,1]
(2)
所獲取的H(X)值越高時(shí),表明所獲取特征子集X越優(yōu),可保留有效特征[10],且所保留有效特征信息完整度較高。隨機(jī)選取特征建立特征子集用X表示,設(shè)置固定閾值H0,當(dāng)閾值H大于閾值H0且X最小時(shí)完成特征選擇。通過以上方法所獲取特征子集包含特征數(shù)量最少且所包含信息完整度較高。
支持向量機(jī)的基本思想是將輸入樣本從低維空間利用核函數(shù)映射至高維特征空間R內(nèi),利用高維空間獲取最優(yōu)分類面,所獲取最優(yōu)分類面可體現(xiàn)輸入樣本與輸出變量間所存在的非線性關(guān)系[11]。支持向量機(jī)屬于凸二次優(yōu)化問題,可快速獲取全局最優(yōu)解,支持向量機(jī)適用于高維模式識(shí)別以及非線性問題中,具有較高的推廣性能,可應(yīng)用于函數(shù)擬合等問題中。支持向量機(jī)分類問題主要包括非線性分類和線性分類兩部分。用{(x1,y1),…,(xl,yl)}表示訓(xùn)練樣本集,且需滿足xi∈Rn,yi∈{-1,1},i=1,2,…,l。設(shè)存在可將兩類樣本精準(zhǔn)區(qū)分的最佳分類面,該最佳分類面可令不同分類中間存在較大孔隙[12],則存在判別函數(shù)公式如式(3):
f(x)=wTx+b
(3)
式中,w表示可確定超平面方向法向量,b表示位移量。
該判別函數(shù)相對(duì)于全部樣本xi均存在f(xi)≥1,可得最佳分類面與樣本間最小距離公式如式(4):
(4)
最佳分類面需正確分類全部樣本[13-14],設(shè)置可令全部樣本正確分類的約束條件如式(5):
yi[wTx+b]≥1
(5)

(6)
式中,ai表示拉格朗日系數(shù),且滿足ai≥0。
利用拉格朗日函數(shù)L獲取w與b的最小值,可得公式如式(7)、式(8):
(7)
(8)
綜合以上公式獲取優(yōu)化問題的凸二次對(duì)偶形式的最大化公式如下,
(9)
設(shè)置式(9)的約束條件如式(10):

(10)
式中,C表示懲罰參數(shù)。
通過以上公式所獲取ai中非0樣本即支持向量。所獲取支持向量分類問題判別式如式(11):
f(x)=sgn(wTx+b)
(11)
高校學(xué)生就業(yè)去向預(yù)測問題屬于非線性問題,需利用非線性映射函數(shù)將所采集樣本從原有低維空間映射至高維空間內(nèi),通過線性可分方法在高維空間內(nèi)建立最佳分類面[15],引入松弛變量ξi提升最佳分類面對(duì)樣本精準(zhǔn)分類,將最佳分類面約束轉(zhuǎn)化為式(12),
yi[wTx+b]≥1-ξi
(12)
非線性分類時(shí)的凸二次對(duì)偶形式如式(13),
(13)
式中,K(xi,xj)為核函數(shù)。
高校學(xué)生就業(yè)去向預(yù)測問題判別函數(shù)為式(14),
(14)
式中,n表示高校學(xué)生就業(yè)去向預(yù)測問題的支持向量數(shù)量。
為驗(yàn)證所研究機(jī)器學(xué)習(xí)算法的高校學(xué)生就業(yè)去向預(yù)測有效性,采用MATLAB R2019b軟件作為仿真平臺(tái),選取某高校2019屆畢業(yè)生作為實(shí)驗(yàn)對(duì)象,采集該校2019屆畢業(yè)生的身份信息、專業(yè)成績、課外實(shí)踐分?jǐn)?shù)、獲取證書等相關(guān)數(shù)據(jù),所采集數(shù)據(jù)共18 569條,經(jīng)過數(shù)據(jù)清洗等數(shù)據(jù)預(yù)處理后獲取有效數(shù)據(jù)17 524條,將其中的10 000條數(shù)據(jù)作為支持向量機(jī)分類器訓(xùn)練樣本,剩余7524條數(shù)據(jù)作為支持向量機(jī)分類器測試樣本。
為確定所采用支持向量機(jī)分類器最佳參數(shù),統(tǒng)計(jì)不同核函數(shù)以及懲罰參數(shù)情況下支持向量機(jī)分類器分類準(zhǔn)確率,統(tǒng)計(jì)結(jié)果如圖2所示。圖2實(shí)驗(yàn)結(jié)果可以看出,支持向量機(jī)分類器的核函數(shù)為徑向基函數(shù),懲罰參數(shù)值為10時(shí),支持向量機(jī)分類器所獲取分類精度最高。設(shè)置高校學(xué)生就業(yè)去向預(yù)測的核函數(shù)為徑向基函數(shù),懲罰參數(shù)為10。

圖2 不同參數(shù)下分類準(zhǔn)確率
采用本研究所設(shè)計(jì)方法預(yù)測該校2019屆畢業(yè)生不同就業(yè)單位性質(zhì)所占比例,并將預(yù)測結(jié)果與該校2019屆畢業(yè)生實(shí)際就業(yè)單位對(duì)比,對(duì)比結(jié)果如圖3所示。
采用本研究所設(shè)計(jì)方法預(yù)測該校2019屆畢業(yè)生的就業(yè)地理區(qū)域分布,并將預(yù)測結(jié)果與該校2019屆畢業(yè)生實(shí)際就業(yè)地理區(qū)域分布對(duì)比,對(duì)比結(jié)果如圖4所示。
從圖3、圖4實(shí)驗(yàn)結(jié)果可以看出,采用本研究所設(shè)計(jì)方法預(yù)測該高校2019屆畢業(yè)生就業(yè)單位性質(zhì)以及地理區(qū)域分布與實(shí)際畢業(yè)生就業(yè)單位性質(zhì)以及地理區(qū)域分布結(jié)果極為相近,驗(yàn)證采用本研究所設(shè)計(jì)方法預(yù)測高校學(xué)生就業(yè)去向具有較高有效性。

圖3 就業(yè)單位性質(zhì)預(yù)測結(jié)果

圖4 地理區(qū)域分布預(yù)測結(jié)果
高校學(xué)生就業(yè)去向預(yù)測是典型的分類任務(wù),利用評(píng)估預(yù)測性能中常用的預(yù)測準(zhǔn)確率、預(yù)測召回率、F1值以及時(shí)間開銷作為衡量預(yù)測性能的評(píng)估指標(biāo)。將數(shù)據(jù)集樣本以及預(yù)測結(jié)果分為真正例TP、假正例FP、真負(fù)例FN和假負(fù)例TN 4類。預(yù)測準(zhǔn)確率可體現(xiàn)預(yù)測正確的樣本在實(shí)際正例中所占比例,其計(jì)算式如式(15),
(15)
預(yù)測召回率可體現(xiàn)預(yù)測為正確的正例在應(yīng)被分類為正例樣本中所占比例,其式如式(16):
(16)
F1值為預(yù)測準(zhǔn)確率與預(yù)測召回率之間的調(diào)和平均值,其計(jì)算式如式(17):
(17)
F1值取值區(qū)間為[0,1],F1值越高表明預(yù)測方法的預(yù)測性能越高。
預(yù)測時(shí)間開銷是評(píng)價(jià)預(yù)測性能的重要評(píng)價(jià)指標(biāo),時(shí)間開銷可體現(xiàn)不同方法的計(jì)算速度,選取Python的time.clock統(tǒng)計(jì)高校學(xué)生畢業(yè)去向預(yù)測計(jì)算時(shí)間。
為直觀展示本研究所設(shè)計(jì)方法預(yù)測性能,選取文獻(xiàn)[5]立體數(shù)據(jù)方法以及文獻(xiàn)[6]灰色預(yù)測方法作為對(duì)比方法,采用3種方法預(yù)測高校學(xué)生就業(yè)去向的預(yù)測準(zhǔn)確率、預(yù)測召回率、F1值以及時(shí)間開銷如圖5—圖8所示。圖5—圖8各評(píng)價(jià)指標(biāo)對(duì)比可以看出,不同特征值情況下采用本研究所設(shè)計(jì)方法預(yù)測高校學(xué)生就業(yè)去向預(yù)測準(zhǔn)確率與預(yù)測召回率均高于98%,不同特征值情況下采用本研究所設(shè)計(jì)方法預(yù)測高校學(xué)生就業(yè)去向的F1值均高于0.9,不同特征值情況下采用本研究所設(shè)計(jì)方法預(yù)測高校學(xué)生就業(yè)去向時(shí)間開銷均低于200 ms。對(duì)比結(jié)果有效驗(yàn)證采用本研究所設(shè)計(jì)方法預(yù)測高校學(xué)生就業(yè)去向預(yù)測結(jié)果相比于另2種方法與實(shí)際值更接近,本研究所設(shè)計(jì)方法的預(yù)測效率即時(shí)間開銷,同樣優(yōu)于另2種方法,說明本研究所設(shè)計(jì)方法具有優(yōu)越的預(yù)測性能。

圖5 預(yù)測準(zhǔn)確率對(duì)比結(jié)果

圖6 預(yù)測召回率對(duì)比結(jié)果

圖7 F1值對(duì)比結(jié)果

圖8 時(shí)間開銷對(duì)比結(jié)果
采用機(jī)器學(xué)習(xí)算法預(yù)測高校學(xué)生就業(yè)去向,有助于客觀、全面分析高校學(xué)生畢業(yè)后就業(yè)去向,為緩解社會(huì)就業(yè)壓力以及高校分析學(xué)生畢業(yè)動(dòng)向提供良好依據(jù)。機(jī)器學(xué)習(xí)算法具有較高的靈活性,將機(jī)器學(xué)習(xí)算法應(yīng)用于高校就業(yè)去向預(yù)測,通過增加變量可提升機(jī)器學(xué)習(xí)算法準(zhǔn)確性以及高效性,可以為提升高校教育水平以及社會(huì)就業(yè)服務(wù)提供理論依據(jù)。但本文研究所設(shè)計(jì)方法僅選擇了一所學(xué)校的一屆畢業(yè)生的數(shù)據(jù)進(jìn)行驗(yàn)證,所得出的結(jié)論未必能夠適用于國內(nèi)其他的高校,且數(shù)據(jù)的來源是行政部門提供的學(xué)生數(shù)據(jù),對(duì)于學(xué)生的心理偏好、家庭背景等未進(jìn)行深入調(diào)研,在未來的研究中,可以考慮選取國內(nèi)多地區(qū)的高校學(xué)生數(shù)據(jù),以及對(duì)個(gè)體進(jìn)行深入調(diào)查,以進(jìn)一步提升設(shè)計(jì)方法的預(yù)測精準(zhǔn)度。