傅振南
(福建教育學院,福建 福州 350025)
大數據時代,數據挖掘被廣泛應用于新零售、金融商業、科學研究、數據云服務、高校管理等領域。隨著教育改革的進一步深化,成人高等教育面臨著諸多挑戰,在普通高等教育擴招的沖擊下,生源萎縮相當嚴重,競爭日趨白熱化,在招生高校數量不變而生源急劇減少的情況下,拿出更管用更精準的招生宣傳方法是制勝的關鍵點。文章以F院校成人招生錄取數據為例,通過聚類分析數據挖掘技術對相關數據進行挖掘分析,為招生宣傳工作提供有力決策支持。
常用的數據挖掘技術包括:神經網絡、決策樹、聚類分析、統計分析、關聯規則、粗糙集方法、支持向量機、遺傳算法等。數據挖掘實際上是挖掘算法的選擇、執行階段。文章首先根據挖掘任務,從常用的技術中選擇適合數據分析提取的聚類分析技術算法。聚類分析被廣泛應用于模式識別、市場研究、數據分析等眾多應用領域,是數據挖掘研究領域一個重要分支。它適合探討樣本數據的內部關系,因為每個樣本數據的類別都是未知的,它是用一定的關聯標準將所提供的樣本數據劃分成不同的族,同一族內的樣本數據相似度較高,相似度用距離作為度量方式,根據對象的屬性值來進行分析評估。K-Means是典型的基于劃分的一種聚類算法。其中K表示類別數,Means表示均值,因此K-Means不難理解是一種通過均值對數據單元進行聚類的算法。下面利用K-means 聚類算法的特性,去分析招生宣傳對象所在單位類型存在不同的特征,并加以分析應用。
做任何工作首先都要確定它的目的任務,數據挖掘也不例外,確定任務后再細分選擇數據,清洗一些屬性缺失、錯誤數據值、違反完整約束規則的數據,并搜集遺漏數據,然后進行數據整合,整合完有重復記錄須清洗去除。接著做數據預處理分析,進一步考證數據質量,為進一步分析做好準備,根據事先確定的分析任務,從準備好的數據中提取與任務相關的數據,并選擇挖掘操作類型。最后將數據轉換成針對挖掘算法建立的分析模型,這也是數據挖掘成功與否的關鍵。
從成人高校招生系統導出F院校2017年19張錄取數據表,主要包括考生投檔單表、專業代碼表、職業類別表、性別代碼表等。
(1)數據提取。根據原先確定的分析目標提取出樣本數據字段,主要從主表——考生的投檔單表(T_TDD.DBF)中提取分析目標相關的樣本數據字段,主要是考生的畢業學校、所在單位、從業類別、性別等。由于數據庫設計的原因,T_TDD.DBF表中有些字段是用代碼表示,無法直接讀取它的真正表達意思,如性別用“0”和“1”代碼表示,民族、政治面貌、招生類別、招生層次、招生專業等字段也均用數字代碼標記,因此需要先做好這些代碼的轉換工作,將其整理成一目了然的標識,表達出它的實際意思。轉換好相關樣本數據表的格式,將其用SQL Server 2000或ACCESS 2003以及更高版本的數據庫操作軟件進行表間的數據關聯操作,然后通過菜單操作或SQL語句進行連接。
(2)數據清洗。連接整合處理后的考生投檔單表(T_TDD.DBF)由68個字段組成,要進行有效的邏輯轉換前需要根據分析目標所需的相關樣本數據字段,可使用可視化分析技術工具如分布圖、條形圖、直方圖去除對目標分析不存在任何意義的字段。比如招生類別字段,99.6%的字段值都為“統一考試”,對目標分析結果無任何意義,如圖1,另如果一個表內的字段值超過97%都為“NULL”,該字段對目標分析結果也毫無意義,將這些字段及跟分析結果不相關的考生號、準考證號、政治面貌等字段去除,經前后對照考慮,選取考生投檔單表(T_TDD.DBF)中的與任務挖掘高度關聯的教學站點、畢業學校、錄取專業、職業類別、性別、成績等6個字段。

圖1 招生類別字段分布圖
(3)數據邏輯轉換。通過這個步驟,將考生投檔單表(T_TDD.DBF)的考生數據按歸屬教學站點進行聚合,根據以往錄取直觀經驗考慮,不同教學站點分布的專業不同,增加專業錄取人數、錄取平均分等字段信息,整合轉換后的探索性數據集字段如下:教學站點、錄取人數、錄取平均分、人力資源管理人數、行政管理人數、學前教育人數、會計人數、工商企業管理人數、小學教育人數、電子商務人數、市場營銷人數、工程造價人數、機電一體化技術人數、建筑工程技術人數、計算機應用技術人數、電氣自動化技術人數、電子信息工程技術人數、數控技術人數、各畢業學校人數、各職業類別人數。
(4)數據規范化。不同教學站點樣本數據屬性的度量單位不致相同,特別是職業類別、投檔成績和專業人數,采用Max-MAX規范化方式對此類樣本數據集進行線性變換標準化操作,可防止初始值域的屬性權重兩極化。。
3.結果可視化
K-means聚類算法產生教學站點探索性數據集時,重點要將學生所在教學站點分成幾個簇,因為它代表K-means算法中k的確定。本方案采用探索性方法,分別創建了包含4,5,6,7,8,9,10個簇的聚類模型,對結果進行分析比較,綜合可用性、可解釋性原則,發現6個簇聚類模型信息提供最多,也相對容易將結果進行展示。
為便于對聚類挖掘結果進行解釋和分析,采用可視化技術工具條形圖,找出各簇所表示的獨特性質,比較各簇在不同字段上的分布情況,以便提取有用的信息,共生成10幅條形圖,因為篇幅限制,文章只選取圖2展示聚類1在學前教育和會計相對于其他聚類的顯著特性,表1顯示了各個聚類簇的特征。

圖2 聚類1在學前教育和會計相對于其他聚類的顯著特性展示

表1 各簇的特征匯總
通過聚類結果分析得出1-6簇的特征匯總,結合筆者日常招生宣傳的經驗總結、實際情況,可在以下幾方面進行精準招生宣傳工作:1.族1可以看出職業中專學校對這兩個專業提升學歷有需求,此類專業重點宣傳對象為職業中專學校學生。2.族2可以看出技工類學校對理工類專業提升學歷有需求,此類專業重點宣傳對象為技工類學校或工科類學校學生。3.族3可以看出這些教學站點生源主要是在城鄉結合部或農村的男性打工或務農人員,文化水平不高,可重點在這些區域的地方媒介進行宣傳,為這類人群進行考前輔導,避免想學沒考上的問題出現。4.族4可以看出負責電子商務、工程造價的教學站點對這兩個專業招生宣傳不夠,沒針對性在行業里進行招生宣傳,須加強。5.族5可以看出這個教學站點報考專業很集中,考生的職業類別大部分為“辦事人員”,對專業要求不高,招生宣傳時統一引導到一個專業,以便更好教學管理,節省人力物力。
綜上,通過對成人招生錄取數據的挖掘分析,為招生宣傳決策提供了一定的參考。但未對分析結果適用高校的范圍進行挖掘,通用性值得進一步研究。