王凱 王娜 郭利霞



摘? 要:隨著近年來高校招生規模的不斷擴大,高校畢業生人數逐年攀升,就業問題成為高校工作中的重點和難點,也是社會各界關注的熱點。在計算機相關技術飛速發展的今天,數據挖掘技術在各領域的應用日趨廣泛。文章將探討數據挖掘技術在高校畢業生就業工作中的應用,利用C4.5決策樹算法對高校畢業生數據進行分類和相關性分析,為高校畢業生提供精準的就業指導。
關鍵詞:數據挖掘;高校就業;決策樹算法;C4.5算法
Abstract:With the continuous expansion of college enrollment in recent years,the number of college graduates is increasing year by year. The employment problem has become the focus and difficulty in the work of colleges,and it is also the focus of the community. With the rapid development of computer technology,data mining technology is widely used in various fields. This paper will discuss the application of data mining technology in the employment of college graduates,and use C4.5 algorithm to classify and analyze the data of college graduates,so as to provide accurate employment guidance for college graduates.
Keywords:data mining;college employment;decision tree algorithm;C4.5 algorithm
0? 引? 言
我國國內知識發現和數據挖掘的研究處于不斷的發展和提高過程中,從目前來看,現階段國內對數據挖掘的研究主要集中在方法、應用和Web挖掘三個方面。發展至今,數據挖掘技術在國內商業、企業、辦公等應用范圍已經得到了廣泛的應用,與此同時在教育、科研等領域的應用也日漸廣泛。國內各個高校在推動高校畢業生就業工作方面做出了大量的探索和實踐,特別是在高校信息化管理能力不斷提升的今天,各級各類高校學生管理信息系統和高校畢業生就業信息管理系統被普遍應用。相關系統中存儲了大量有關高校畢業生的各方面各類別的信息。但是,目前大多數高校使用數據挖掘技術對相關信息進行知識發現的意識還有待提高,有關高校畢業生的大量隱藏信息尚未得到充分發掘。因此,在具體工作實踐中使用數據挖掘技術不僅是為了更好地促進高校畢業生就業相關工作的開展,也是將數據挖掘技術中的一些方法應用到高校畢業生就業工作中,有著十分積極的意義,還能為在校大學生選擇目標行業或企業時提供有參考價值的信息。大學生就業問題不僅僅是教育難題,更是重要的社會問題。選擇高校畢業生就業信息,并基于數據挖掘技術進行分類研究,目的是構建一套基于高校畢業生的就業預測模型,挖掘并提取就業數據的內在聯系。本文基于數據挖掘技術,針對新鄉職業技術學院2019屆畢業生就業情況進行應用研究,旨在探索一種有助于對大學生就業情況進行預測的模式,推動本校就業指導工作,對現階段促進高校大學生就業有重要的現實意義。
1? 數據挖掘技術
1.1? 數據挖掘與知識發現
數據挖掘,是在大型數據存儲庫中自動地發現有用信息的過程。這種技術主要用來探查大型數據庫,用來發現先前未知的有用模式[1]。數據挖掘技術主要運用各種算法、統計或分析方法,對在數據庫或數據倉庫中累積的海量數據進行數據分析、數據歸納與數據整合等處理,提取出類似于趨勢、模式或相關性等有用的信息,最后將其中有價值的信息提供給決策者,用于參考和決策。通俗地講,數據挖掘就是從海量的數據中發掘出信息或知識的過程。
數據挖掘是非常復雜并且會反復出現人機交互的一個完整過程,可以劃分為幾個相互聯系的階段,其基本工作過程如圖1所示。
第一階段是數據準備階段,為了保證結果的準確性和有效性,需要對初始數據中存在的大量冗余、有噪聲的數據進行清理,為下一階段提供較高質量的數據。主要包含數據集成、數據選擇和數據預處理三個階段;第二階段是數據挖掘階段,這是整個過程中的核心部分,其主要任務是根據明確的目標和任務,采用運行恰當的算法開展工作并得到預期的結果;第三階段是結果表達與解釋,主要針對結果進行反復的分析和驗證,最終將可信度高的結果以簡單、直觀的形式呈現給用戶。
1.2? 決策樹分類算法
分類技術(或分類方法)是一種根據輸入數據集建立分類模型的系統方法,是數據挖掘過程中的一種常見技術。分類技術主要是針對已經建立的類別,對觀察值進行統一劃分。決策樹分類方法是數據挖掘技術中進行分類分析的一種典型方法,通過對信息增益原理的利用構造一個決策樹模型,并試圖用于揭示數據之間的分類規則。由于具有生成模型簡單易懂、分類精度高、處理速度快等優點,決策樹算法得到了廣泛的應用和推廣。
在實際應用中,決策樹更多被表示成一種類似流程圖的樹結構,根據層次的不同分為根結點、分支結點和葉子結點。根結點位于決策樹的最上方,是整個決策的起點;分支結點由其上一層結點的屬性分割,代表數據子集;葉子結點代表分類結果。決策樹的每一條從根結點到一個葉子結點的路徑都是一條預測路徑,直觀地將屬性和結果的關系表示出來。