高秀艷+郝艷榮
摘 要 在互聯網與云計算高速發展的今天,大數據技術正以其在數據收集與處理上的優越性引領著新一輪的信息變革。在高校畢業生就業情況調查中,采用就業質量系數作為評價標準,使用大數據的數據挖掘等技術,從海量調查樣本中獲取有效數據,建立模型并對數據進行分析處理,從而得到合理的就業效果反饋。
關鍵詞 大數據;高校畢業生;就業質量系數
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2017)184-0065-02
1 大數據技術
1.1 大數據的概念與特點
“大數據”(big data)的概念始于20世紀80年代,如今已被人熟知并成為一項熱門技術而深得學術界、IT行業以及政府的重視。目前對于“大數據”,普遍認可的是維基百科給出的如下概念:大數據指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策目的的資訊[1-2]。
通常,大數據具有“4V”特征,即:規模大(volume)、種類多(variety)、流動速度快(velocity)、價值密度低(value)。基于大數據的以上特點,其核心的操作在于如何從海量數據中提取有價值的部分,通過特定的數據處理算法,建立符合實際要求的數據模型,進而通過模型對數據樣本進行分析處理得到有實際使用價值的結論。
1.2 大數據的相關處理技術
在信息爆炸的自媒體時代,數據來源廣,數量多,這就導致了大數據的絕對數據與有用信息量不成比例增長,因此在實際使用互聯網大數據時,對數據的處理才是關鍵。當今大數據的主要處理技術主要有以下幾種[ 3 ]。
1.2.1 數據挖掘
數據挖掘技術旨在對數據進行有效處理,目的是從海量數據中通過去噪、轉換、凈化、挖掘提取等過程篩選出有價值的部分。在處理過程中經常借助多處理階段模型、機器學習、支持向量機等算法。
1.2.2 遺傳算法
遺傳算法是借鑒了達爾文生物進化論的一種獲得最優解的算法。其基本思想是從給定的候選解中,使用根據適應條件計算出的適應度對其進行遞歸淘汰,直至得到最優解。遺傳算法是對大量數據進行篩選提取有用信息的重要手段。
1.2.3 神經網絡
神經網絡是源自于生物神經結構及運作方式的數據處理模型。在神經網絡的工具中,較為常用的是NeuroSolutions,其良好的網絡設計界面,先進的學習程序以及優化的遺傳算法,在快捷、有效地實現信息獲取方面發揮了重要作用。
2 大數據技術在就業質量評價體系中的應用
2.1 就業質量評價標準建立
目前,各教育相關機構及高校在就業質量評價方面都已做出了大量研究,并建立了自己的就業質量評價體系,這些評價體系所依據的數據往往是調查所得到的絕對數據,因此所得到的評價體系其應用的可拓展性受到限制。就業質量系數的計算解決了不同區域、不同等級、不同專業、不同年份調查結果的差異帶來的評價體系不準確的問題。通過分析畢業生就業崗位與專業的關聯程度、就業區域、就業薪資、以及薪資與當地平均工資的關系,并根據以上數據計算出的就業質量系數可以更全面的反應畢業生就業情況,從而使就業評價更準確。畢業生的就業質量系數的計算基于以下元素。
2.1.1 崗位專業相關度(Z)
對于畢業生調查反饋中的專業相關度,根據非常相關、一般相關、不相關確定Z的值。
2.1.2 就業區域系數(D)
根據畢業生工作所在地為一線城市、二線城市、三線城市、四線城市或其他,確定其就業區域系數D的取值。
2.1.3 薪資系數(S)
由于畢業生所在地域經濟條件差距較大,且不同年份的經濟水平也不一致,因此單純的比較其畢業薪資并不具備良好的說服力。參考畢業生所在城市的區域系數D,用畢業生薪資St與該等級區域當年的平均工資Sa的比值作為薪資系數S,即S=St/Sa。
2.1.4 就業質量系數(J)
根據評價目的和學校及專業實際情況,確定以上各元素在就業質量系數中所占的比重權值,計算最終的就業質量系數如下:
J=Z*Wz+S*Ws
2.2 使用大數據技術對就業反饋數據進行有效處理
在得到的畢業生就業反饋信息中,首要的是篩選出有效數據,盡可能減少冗余數據的干擾,從而使分析結果更準確。采用數據挖掘中的多處理階段模型可以實現信息的初步處理[ 4 ]。處理過程如圖1所示。
在對數據的處理過程中,正確的模型選取對結果有著重要的作用,因此,在對模型的訓練過程中應確保訓練數據的科學性及有效性。同時,對于不同的系數,可以選取不同的訓練樣本及不同的訓練模型。
3 大數據處理過程中的挑戰與困難
大數據及相關技術為當前的各項工作帶來了方便,也提高了信息的傳播與利用效率,但在使用過程中仍然面臨著各種挑戰與困難,具體表現在以下方面。
1)對硬件設備的挑戰:由于大數據的信息量大,其對硬件設備尤其是存儲設備提出了更高的要求,其存儲容量及讀取速度都對大數據的應用效果有著至關重要的影響。
2)對軟件的挑戰:鑒于龐大的信息量,在信息處理過程中,數據算法的選取、模型的構建以及數據處理軟件的速度都是影響計算結果的關鍵因素。
3)數據安全的挑戰:由于大數據廣泛存在于云存儲設備上,信息傳播快,另一方面,數據價值密度低導致大量數據被隨意丟棄,這都對數據安全造成了潛在的危險。因此,如何在充分利用大數據的同時保證數據的安全也是對大數據應用的挑戰。
4 結論
在高校教育工作中,有效的就業調查反饋及對反饋數據的合理、準確分析,并使用大數據及相關算法,采取適合評價目標的算法模型,基于此獲得有參考價值的就業質量評價系數,不僅能對高校的就業工作起到有效的指導作用,還可對高校的專業設置、課程開設、教學質量及就業服務等方面做出合理正確的反饋,從而促使高校針對問題采取策略,不斷提高辦學水平。
參考文獻
[1]甘曉,李國杰.大數據成為信息科技新關注點[N].中國科學報,2012-06-27.
[2]李國杰.大數據研究的科學價值[J].中國計算機學會通信,2012,8(9):8-15.
[3]尚光龍,張澤鋒.大數據技術在信息管理中的應用[J].河北北方學院學報,2016,5(5):30-34.
[4]張敏.云計算環境下的并行數據挖掘策略研究[D].南京:南京郵電大學,2011.