王程
(商洛學院 經濟管理學院, 商洛 726000)
大學生就業問題越來越受到社會的關注,大學教育也已經常說的精英教育逐步變成了大眾教育[1],隨著就業形勢的越來越嚴峻,大學生就業情況成為一所高校教育優良程度的評判標準[2],就業率較高的高校成為大家的首選。對于高校來說,就業問題需要進行指導和管理,對于這種管理的流程需要分析不同的角度,從學生角度來分析,大學生就業首先要有一個合理的評估方法,對于學校的角度,學校對于畢業生的就業要增加管理的力度。針對高校的就業情況,除了必要的統計之外,更加需要建立以模型為基礎的評估制度,該模型需要考慮學生的考試成績等等,并且通過學生的綜合能力,比如科研能力、社交能力等等形成一種特征參數,該參數是通過篩選甄別海量的數據所歸納出來,基于大數據的分析總結出評估模型,并且運用該模型支撐未來畢業生的就業選擇問題,提供必要的理論依據。
在目前的業界尚未對大數據由清晰明確的定義,它的第一次出現是在麥肯錫公司的報告中出現的,在維基百科上的較為模糊的定義是很難運用軟件的手段獲取大量的內容信息,對其處理后整理得出的數據集合。其他計算機學科的學者給出的定義是數據的尺度極為巨大[3],常規的數據處理軟件無法對數據識別、存儲和應用的海量數據信息[4]。雖然無法確切地給出精確的定義結論,然而在大數據領域的學者和教授們都是認可大數據所具有的幾個明顯特征,第一種是規模性[5],數據的規模已經無法用當前的計量模式去計算,獲取數據的行為也需要發生變化。第二種是高速性,海量數據往往是以人類無法想象的速度來產生的,在很短的時間內就可以積累出海量的數據。第三種是多樣性[6],數據的多樣性,既是指數據的表現形式是多樣的,文字、音頻、視頻、圖片等等,另一方面又具有內容的多樣性,許多不同觀點的內容。互相交織在一起,十分復雜,難以有效管理。
大數據的管理是一項極為艱巨又困難的項目,其主要的措施包含三個方法,分別是對數據的集成、數據分析和數據解釋[7]。首先對于收集到的數據先進行必要的集成和存儲,然后再對數據進行分析,對于大學生就業問題,應考慮就業問題的繁瑣性,對就業情況的分析要全面具體,更要注重某一因素的變化帶來的就業情況的變化。針對分析后的數據歸納時,要有合理的解釋過程[8],對數據的解釋和結果歸納在將來都要作為理論基礎來指導就業實踐問題,其分析的數據信息收集圖如圖1所示。

圖1 基于大數據管理的信息收集監測系統細節圖
大數據的分析與管理,尤其涉及大學生自身能力與綜合實力考量的數據分析,有助于提升學生學習的興趣,增加學生的創業意識和學習能力,針對該模型時的信息統計,進而得出就業率評估模型,如圖2所示。

圖2 基于大數據管理的信息統計分析圖
在創建大學生就業率評估模型的過程中,通過獲取畢業生的歷史畢業結果與就業數據,將這些數據集成在一起[9],然后進行分類總結,提取出大學生們的就業數據中的特征參數,轉換為建立模型所必要的特征向量,具體的原理分如下面的描述,首先假設R表示樣本數據集,O代表就業估計的期望信息量,K代表歷史學生就業數據,Y代表學生就業的數據樣本,則利用式(1)畢業生的就業估計的樣本數據進行分類所示。p代表學生就業的分類函數,T表示學生就業數據的不同方式的類型,如式(1)。
(1)
對于大學生來說,F表示的是高校畢業的學生就業狀態向量,w代表高校畢業生中待預測的畢業生利用式式子(2)組建學生就業率估計模型如下式(2)。
(2)
傳統的就業分析模型不適于互聯網時代數據量越來越復雜的情形,所以傳統的方法對數據的分析既不高效,又容易出現偏差,分析和預測的結果往往不會讓人滿意,所以基于大數據的分析更加精確一些。
在創建就業評估模型時,考慮每一個學生的特性,不同特性信息首先分類,根據決策樹,保證分類到的數據信息可以獲得最大數據增益率,組建的方程如下所示,由S代表給出的學生就業數據集,n代表其就業學生的數據樣本數量,{C1,C2…,Ck}代表數據類別的集合,針對Si代表學生的不同就業信息類別Ci中的樣本數量,并且需要滿足于如下的式(3)的條件,如式(3)。
(3)
并且在綜合考慮后,則可以利用式(4)的表述對于給定的待估計學生信息數據進行分類的期望信息。
(4)
其中,對于數據樣本A的劃分熵由Z來表示,Sij則代表條件概率,從而得到當前的樣本數據集合A的信息增益如式(5)。
(5)
為了計算出高校畢業生的就業率的最大信息增益率,需要利用畢業生不同屬性的學生信息熵[10],該熵值用split(A)來表示,用以針對數據A的分析,特此加以區分。總之分析出的學生畢業后的就業信息增益率如式(6)。
(6)
綜上所述,可以根據式子分析出對于評估模型某些定性的分析方式,在創建了基于決策樹的高校畢業生的就業分類方程后,主要是為了求得畢業生的特征向量,使其滿足于最大的信息增益率,獲得最為優化的結果。
通過上面的高校畢業生就業率的增益率數據分析的理論基礎,對于這些數據采用灰色系統理論進行分析、總結歸納,來估計未來畢業生的就業情況。灰色系統理論是控制論中的重要理論,對小樣本的不確定性問題有著良好的指示,對于評估學生就業率的問題魯棒性很強,同時應用該理論到模型建立問題中去,依據上述的最大信息增益率基礎,設定模型建立的步驟,式(7)作為宏觀預測任意年度的某一學科門類畢業生就業數量的模型,則該模型的殘差為式(7)。
(7)
其中,分子上的兩個表達式相減,被減數和減數分別是灰色微分方程的時間相應序列。下一步驟的展開則用來得到該數據樣本的白化方程,σ代表對于評估的模型的關聯度檢測,X是指畢業生數據信息的緊鄰均值序列,Y代表當前全體畢業生的就業率狀態,B則是指明歷史上的就業率信息,運用灰色理論的式(8)的白化方程為式(8)。
(8)
由U來代表對學生就業估計所需的關系數據,ε代表畢業生的就業信息特征最大化的類內的相似性關系,M是指模型的小誤差概率,則利用式子可以創建待評估的整體的學生就業估計模型W,具體如下式(9)所示,其中γ是數據信息的維度。
(9)
為了更好地實現基于大數據分析模型進行大學生就業成功率評估的可行性,將實驗重點關注評估的一致性作為評價指標,同時針對大數據分析模型進行大學生創業成功率評估的精度也作為考量的對象。在實現中為了彰顯實驗的全面性和公正性,將文獻中所提基于統計模型作為對比模型進行共同的分析和對比,從評估的全面性和評估的誤差率這兩方面來對大學生就業成功率評估的質量進行考量。利用Matlab2017的軟件,在Windows平臺下進行安裝,基于Intel Core i7的處理器,在Matlab中輸入上述分析的模型語言轉換成Matlab的函數和輸入的數據信息。
利用matlab搭建大學生就業率評估模型,如表1所示。

表1 模型就業率評估的誤差
對其進行仿真,評測該模型的有效性,實驗數據選取某省高校的畢業生數量,通過與統計數字的比較就可以分析出,Q1和Q2的數量上基本一致,表現出其誤差很小,數據擬合出的曲線非常一致,Q1是模型預估出的就業畢業生的數量,Q2是真實的畢業生數量。
同時為了體現該評估模型的優越性,需要與其他評估模型作出比較,針對聚類分析相關的預估模型,作出合適的比較過程。針對誤差比較,對比兩種模型的誤差分析,可以確切地看出本文采用灰色系統理論建立的模型的誤差小于聚類分析的構建模型,如下圖3所示。

圖3 采用不同模型的評估誤差對比圖
接下來再比較分析兩個模型的穩定性,可以清晰地分辨出其穩定性的差異,該差異體現出本文的模型評估的穩定性較好,幾乎都處于85%以上,其高可靠的穩定評估的畢業生就業率較為平穩,不會出現較大的變化差錯,其具體的描述為圖4所示。

圖4 采用不同模型的穩定性對比圖
以上的仿真結果可以表明,該評估模型對于就業率的分析較為高效,為后續分析就業的措施和政策的實施,提供了一定的理論基礎,具有良好的指導性指示。
本文為滿足對于大學畢業生就業率的探索,基于大數據的分析,找出適當而合理的分析模型,該模型分析出畢業生的就業情況,作為一定的就業率分析依據,首先,介紹大數據的定義與特征,以及本文基于大數據的特征構建模型,最后將模型與傳統的預測模型比較,在穩定性的方面顯示出較為優越的特性,同時其誤差也表現的較為微小。在后續的研究中,將繼續提高試驗的精度,引入神經網絡,對模型的確立更加精準。