李翔 黨曉楠 王清雯
摘要:本文以鎮江市高等專科學校醫藥與化材學院畢業生的就業質量為預測目標,采用單雙隱層神經網絡作為預測模型,通過比較模型訓練時的預測精度,模型仿真時的預測時間及精度,比較單雙隱層的預測能力。實驗結果表明,對于較小輸入層神經元數的BP神經網絡模型而言,采用單隱層是較為合理的,預測精度也較高。采用雙隱層模型將會導致模型運算復雜化,預測精度反而降低。
關鍵詞:就業質量;神經網絡;貢獻率;預測
中圖分類號:G642.0;TP393 文獻標志碼:A 文章編號:1674-9324(2018)29-0037-03
一、引言
高職院校學生的就業質量一直是社會普遍關注的焦點,如何有效地對大學生的就業質量進行預判,是當前社會研究的熱點。目前,有大量的研究采用反向傳播(Back Propagation)神經網絡對大學生的就業率、就業能力、就業情況進行分析,取得了令人滿意的研究成果。但目前關于采用BP神經網絡對高職院校大學生就業質量的分析研究仍然較少。同時,影響高職院校大學生就業質量的因素眾多,如知識因素、個人因素等,如果將眾多的因素量化并建立數據庫時,數據庫便顯得龐大繁雜。模型結構及參數的設定可能就會對模型的訓練速度及精度有所影響,最終對就業質量的預測精度造成影響。因此,需要對模型的結構及參數的設定進行探討,尋找到預測高職院校大學生就業質量的最佳模型。
因此,本文嘗試采用兩種不同結構的BP神經網絡模型對大學生的就業質量進行分析,對不同隱層數的模型的預測精度進行比較分析。
二、BP神經網絡
BP網絡(Back Propagation)是一種按誤差逆傳播算法訓練的多層前饋網絡,是目前應用最為廣泛的神經網絡模型之一。BP網絡能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程。該網絡主要包括了一個輸入層和一個輸出層,中間包含了一個或者多個隱含層。每層都具有一定數量的神經元,輸入層的神經元數目對應著影響目標值的各因素數目。層與層之間的神經元存在著權值和閾值,具體的計算公式可參考文獻。
三、研究方法
1.模型數據庫的建立。對醫藥與化材學院的近三年畢業生采取問卷調查形式,問卷調查內容涵蓋了影響大學生就業質量的知識因素及個人因素,例如知識因素中的專業知識因素主要包含了外語過級情況、畢業生在校期間的班級排名等,個人因素包含了“自我自覺性評價”“自我實踐能力評價”“自我表達能力評價”“自我抗壓能力評價”“自我創新性評價”等。建立模型時需將各個因素進行量化,如“自我實踐能力評價”分為“很強”“較強”“一般”“弱”四個選項,在建立數據庫時分別設定值為“0.99”“0.75”“0.5”“0.25”,將“目前工作的滿意度及未來發展前景”作為大學生就業質量的最終評價標準,其選項中“非常滿意”“滿意”“一般”“不滿意”分別設定值為“0.99”“0.75”“0.5”“0.25”。將各個因素有規律的量化是建立數據庫的基本要求,部分訓練樣本的數據如表1所示。10個樣本的就業質量目標值量化后分別對應0.75、0.5、0.5、0.75、0.75、0.5、0.5、0.75、0.5、0.75。整個調查問卷過程回收有效問卷85份,任意選擇75份樣本數據建立數據庫以供模型訓練,剩余10樣本數據作為“驗證組”,將與模型的“預測組”進行比較,判斷模型的預測精度。
2.模型主要參數的確定。
(1)傳遞函數及訓練函數的確定。BP神經網絡建模過程可直接采用MATLAB工具箱實現,MATLAB提供了神經網絡工具箱,網絡設計者可根據自己的需求直接調用工具箱中有關神經網絡的設計及訓練程序。神經網絡工具箱提供了建立神經網絡的專用函數newff ( ),該函數的調用格式為:net=newff(PR,[S1 S2 … SN],{TF1 TF2 … TFN},BTF,BLF,PF),其中PR為數據的取值范圍,通常原始數據都要經過歸一化處理,處理后其值范圍在[-1,1]之間。Si為第i層的神經元數,總共N層,TFi為第i層的傳遞函數,本文單、雙隱層的傳遞函數都設定為“tansig”,輸出層的傳遞函數設為“purelin”。同時,訓練函數選擇“traingdm”函數,該函數采用了有動量的梯度下降法,具有較高的訓練精度。
(2)單隱層BP神經網絡隱含層神經元數的確定。本文隱含層神經元數的確定參考高大啟提供的一個經驗公式:
S=0.51+■(1)
式中,m為輸入層神經元數,n為輸出層神經元數,S為隱含層神經元數,本文輸入層神經元數為9,輸出層神經元數為1,通過計算可得隱含層神經元數為6,因此,本文嘗試大的隱含層神經元數分別為4、5、6、7。
(3)雙隱層BP神經網絡隱含層神經元數的確定。參考單隱層BP神經網絡的隱含層神經元數,雙隱層第一層神經元數分別為5、6、7,第二層神經元數分別為5、6、7,因此共有九個不同結構的雙隱層神經網絡。
(4)學習率及其他訓練參數的確定。本文的學習率設定為0.1,精度設定為0.02,訓練步數設定為200000,訓練步長設定為1000。
(5)Matlab的主要程序。
單隱層BP模型引用程序為:
net=newff(minmax(P),[X,1],{'tansig','purelin'},'traingdm');
雙隱層BP模型引用程序為:
net=newff(minmax(P),[X,Y,1],{'tansig','tansig','purelin'},'traingdm');
其中,P為用于訓練的樣本各因素量化后的數據庫,X與Y分別為第一層與第二層隱含層的神經元數目,T為用于訓練的樣本目標量化后的數據,Pn為用于模型驗證的原始數據。
四、BP神經網絡模型的仿真
本文采用了75個樣本建立數據庫用于BP神經網絡模型的訓練,10個樣本數據用于模型性能的預測,實驗結果如表2與表3所示。本文的預測目標是大學生的就業質量,采用的是“目前工作的滿意度以及未來發展前景”作為就業質量的評價標準。因為本文采用了統計學模型進行數據分析,因此模型仿真后的值為具體數值,需要進一步對應其滿意度,轉化后的預測滿意度與實際滿意度如表3所示。例如當單隱含層的神經元數為6時,樣本4的預測值為0.6216,相比較0.75,0.6216更加接近0.5,因此對應的滿意度為“一般”,與實際值相同。
從表3可以看出,當隱含層數為一層,隱含層神經元數為5時,模型預測的精確度達到了90%,其他結構模型的預測精度都低于該模型。特別是對于雙隱層BP神經網絡而言,當隱含層節點數為6/6時,模型的預測精度為80%,可以看出,單隱層神經網絡模型的預測精度要高于雙隱層神經網絡模型。這就從側面說明單隱層BP神經網絡是具備了高精度的預測性能。
對于單隱層的BP神經網絡模型而言,隨著隱含層神經元數的增加,模型的預測精度呈現了一個先增加后降低的趨勢,說明當采用BP神經網絡模型進行預測時,隱含層神經元數的選擇對預測精度有重大影響。合理選擇隱含層神經元可提高模型的預測精度。
五、結論
本文采用了單、雙隱含層的BP神經網絡對大學生的就業質量進行了預測,當隱含層神經元數為6時,模型的預測精度達到了90%,說明該模型具有非常高的預測精度,模型具備了很強的適用性。當對小樣本數據進行訓練時,可以采用單隱層的BP神經網絡。
參考文獻:
[1]馬丹丹,于占龍,劉越.BP神經網絡在大學畢業生就業率預測中的研究與應用[J].佳木斯大學學報(自然科學版),2014,32(5):751-753.
[2]楊光軍.灰色理論和BP神經網絡在大學生就業信心指數預測中的應用[J].數學的實踐與認識,2013,15(6):62-67.
[3]吳振磊,劉孝趙.一種基于BP神經網絡的就業分析預測模型[J].輕工科技,2016,(9):70-71.
[4]陳立俊,王克強.基于人工神經網絡方法的大學生就業問題探析[J].教育發展研究,2013,13-14.
[5]佘其平,鄧娟,李慶.基于BP神經網絡的大學生就業情況分析[J].現代商貿工業,2015,36(25),139-141.
[6]童輝杰,楊雅婕,呂航.應用神經網絡模型對大學畢業生就業質量的預測[J].人類工效學,2012,(3):20-23.
[7]周勇.大學生就業對我國經濟的現實影響及建議[J].唐山學院學報,2016,28(1):100-104.
[8]葉斌,雷燕.關于BP網中隱含層數及節點數選取方法淺析[J].商丘職業技術學院學報,2004,3(15):52-53.