馬 婷
(陜西學前師范學院招生辦公室,710100)
數據挖掘(英語:Data mining),又譯為資料探勘、數據采礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟,數據挖掘一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性的信息的過程,數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘在人工智能領域,習慣上又稱為數據庫中的知識發現,也有人把數據挖掘視為數據庫中知識發現過程的一個基本步驟,知識發現過程由以下三個階段組成:(1)數據準備;(2)數據挖掘;(3)結果表達和解釋。
數據挖掘可以與用戶或知識庫交互,數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟,數據準備是從相關的數據源中選取所需的數據并整合成用于數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是盡可能以用戶可理解的方式(如可視化)將找出的規律表示出來。
高校每年一次的迎新工作是高校展開各項管理工作的一個非常重要的環節,它是對每一級學生展開的活動,而且對高校今后的教學、學生管理、后勤服務等方面都起著非常重要的影響作用,這也是每年高校都十分重視的一項環節,因此,幾乎每個高校都一樣,在新生正式注冊之前,高校的領導都要召集各學院、系、招生辦、學生管理、后勤管理等部門來參加這次終于會議,對即將展開的招生工作進行詳細的部署和安排,以便各部門之間能夠相互合作,共同完成這項工作。而且幾乎所有的高校報到方式都一樣:有關部門在學校設置相關的報到點,然后就是新生按照流程圖一步步辦理各項手續。
數據挖掘技術已經在很多行業得到廣泛應用,比如商業、金融業、保險業、通信業等等,并且在這些行業中已經取得了非常驕人的成績。高校管理者要不斷學習先進管理知識,不斷創新人才培養模式,對學校的可持續發展做出科學、合理的決策,而數據挖掘技術在這方面將扮演著非常重要的作用,對高校招生管理信息系統的設計起著舉足輕重的作用,這是因為在高校招生管理信息系統中應用數據挖掘技術一方面能夠在很大程度上促進部門之間的協調工作,這樣將會使信息能夠及時的進行傳遞和處理;另一方面,通過對歷年招生錄取數據進行詳細分析并挖掘有效信息,將會給學生提供更加真實、詳細的信息,以便學生能夠合理的填報志愿。
數據挖掘招生管理系統研究的內容主要包括以下四個方面:一是,對高校招生管理工作的業務邏輯方面進行研究,以便設計出來的招生工作業務模型能夠適應時代的潮流;二是,在Microsoft.NET 平臺之上研究出一個具有能夠對新生資格審查、信息采集、轉專業審批、宿舍分配、班級分配、書籍發放等功能的高校新生注冊管理信息系統,另外,還非常有利于幫助高校的招生部門對當年該校各院系、專業的錄取分數線、錄取人數、錄取考生志愿分布、錄取考生基本情況等方面的信息進行科學有效的統一;三是,大量的應用邏輯通過多層c/s 體系結構實現在業務邏輯層中得到運行,這樣不僅能夠解決系統“胖”客戶端問題,還能夠解決數據庫安全問題,可以說是一舉兩得的好事;四是,對數據挖掘的相關技術進行研究,對于生源數據中潛在的有用信息通過數據挖掘算法來發現,這樣就能夠使系統的功能更加強大,最后實現對高校招生工作的部署和決策具有一定的指導作用。
3.2.1 多層c/s 架構的設計
雖然.NET 技術路線在設計時具有多層結構的設計,但是用戶界面只是對其中基本的界面進行相應的操作,然后將這些操作過程通過調用的方式發給業務處理層,最后再經過一定的分析和處理,而里面的數據操作層在調用時要根據具體需要看是不是進行數據處理,如果需要進行數據處理,這時候數據操作層將收到的任務組織成不同的數據操作,最后再跟原先的數據進行相互交換,最后再把最終的結果輸送給業務處理層,而當業務處理層將收到結果時,要將結果進行一定的技術處理,最后再把處理的結果輸送到用戶界面層,這樣用戶界面層,就可以把最終的結果反饋給用戶進行查看。
3.2.2 SOL Server 數據挖掘技術
數據挖掘得到了很多技術支持,其中為其提供非常豐富支持的一項技術就是Microsoft SQL Server 2005 Analysis Services(SSAS,SQL Server 分析服務),該技術的功能是比較全面的,其中包含多維數據分析、處理引擎、多種數據挖掘算法、各種服務器等,Visual Studio 2005 一方面具備了SQL Server 2005 的最佳開發環境,另一方面還在其內部設置了Analysis Services 項目模板,而在對用戶管理Analysis Services 數據庫方面也設計了各種可視化向導工具來來幫助用戶進行管理,這樣在進行挖掘各項任務時就顯得非常方便、快捷,將會在很大程度上提高用戶的工作效率。
3.3.1 熵值離散法
熵有好幾種表示含義,因此,在不同狀態、環境下所表示的含義是不相同的,其中在信息論中表示對不確定性的一種度量,也就是說信息量越小,不確定性就越大,熵也就越大;相反信息量越大,不確定性就越小,熵也就越小,因此,在高校招生管理信息系統設計時,可以根據熵的這種特征,來判斷某一事件發生概率的大小,也可以利用熵來了解指標的離散程度,即離散程度越小的指標,對其綜合評價的影響就越小,相反離散程度越大的指標,對其綜合評價的影響就越大。
3.3.2 關聯規則
在描述記錄中的指標取離散值的情況時,關聯規則挖掘是非常適合的,比如,在最開始的數據庫中的一些指標值是不間斷的數據,這是要在關聯規則挖掘之前對這些數據進行相應的數據離散化,數據離散化在數據挖掘之前起著非常重要的作用,并且離散化的結果對關聯規則挖掘的結果起著決定性的作用。而現在利用熵值離散法與關聯規則相互合作,共同來進行數據挖掘,把開始的所有數據混合,在提取時要用布爾關聯挖掘算法提取。
一般情況下,幾乎全部的系統數據都是經過初步處理后保存在數據庫里面,因此,我們在查找我們所需要的各種信息時,可以從數據庫里面進行查找。比如:(1)學生籍貫。在數據庫里面,我們可以非常清楚的知道,什么地方的考生最多,該地方的招生比例是多少等等;(2)考生報考專業。管理、國際經濟與貿易、土木工程等專業報考的學生人數相對來說比較多,說明這幾個專業是比較熱門的專業;(3)學生性別。男生人數明顯多于女生,說明該高校要在以后的招生過程中加大對女生的招生比例,減小對男生的招生比例,從而實現男女平衡等等,通過對這些數據進行相應的挖掘,就可以大致判斷出今后的招生情況。
隨著我國社會經濟的快速發展,高校招生數量也在不斷增加,同時招生工作也變得越來越艱難,數據挖掘能夠將考生信息進行深入的挖掘和分析,這對高校招生工作來說是非常重要的,將會使其工作變得非常順利。