摘 要:隨著招生方式的多元化、自主化以及報(bào)考研究生人數(shù)的年年增長(zhǎng),導(dǎo)師如何在眾多的考生中招錄合適本專業(yè)發(fā)展的考生,以便能夠?yàn)閲?guó)家培養(yǎng)出優(yōu)秀的人才,除了他的入學(xué)成績(jī)、必要的復(fù)試環(huán)節(jié)、導(dǎo)師多年來(lái)的工作經(jīng)驗(yàn)等這些重要因素外,還需要對(duì)考生各方面的情況進(jìn)行綜合測(cè)評(píng),包括考生畢業(yè)院校、生源地、年齡。本文的目的是開(kāi)發(fā)出一套合理的模型,全面推進(jìn)研究生招生工作的信息化進(jìn)程。本文以某學(xué)校研究生招生辦公室2004年至2010年的招生、入學(xué)、選課、選課成績(jī)數(shù)據(jù)為例,從應(yīng)用的角度,以數(shù)據(jù)倉(cāng)庫(kù)技術(shù)為基礎(chǔ),利用數(shù)據(jù)挖掘進(jìn)行知識(shí)發(fā)現(xiàn)。
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù); 數(shù)據(jù)挖掘; 招生決策
中圖分類(lèi)號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-3315(2011)6-172-002
隨著社會(huì)的發(fā)展,競(jìng)爭(zhēng)的激烈。人們?cè)絹?lái)越感覺(jué)到信息及知識(shí)的重要性。目前已經(jīng)成為知識(shí)爆炸的時(shí)代,傳統(tǒng)的數(shù)據(jù)庫(kù)可以實(shí)現(xiàn)數(shù)據(jù)的增、刪、改、查的功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在聯(lián)系和存在的規(guī)則,因此無(wú)法通過(guò)目前的數(shù)據(jù)推測(cè)出未來(lái)的發(fā)展方向。人們希望從這些數(shù)據(jù)中得到更多的啟示,發(fā)現(xiàn)隱藏在其中的知識(shí)。面對(duì)“數(shù)據(jù)豐富,知識(shí)貧乏”的挑戰(zhàn),數(shù)據(jù)倉(cāng)庫(kù)技術(shù)應(yīng)運(yùn)而生。目前,大部分的高校都建立有自己的管理信息系統(tǒng),隨著時(shí)間的推移,也積累了大量的數(shù)據(jù),這些數(shù)據(jù)真實(shí)地反映了高校的實(shí)際狀況。如何充分利用這些數(shù)據(jù)并從中挖掘出有用的、卻常被人們忽視的重要信息,發(fā)現(xiàn)一些隨各種因素動(dòng)態(tài)變化而產(chǎn)生的管理規(guī)則,這對(duì)于各高校各個(gè)層次的決策管理者而言無(wú)疑是個(gè)值得關(guān)注的問(wèn)題。
一、有關(guān)研究生招生管理的相關(guān)研究
目前在教育領(lǐng)域諸如高校招生生源決策、學(xué)生成績(jī)分析、教學(xué)質(zhì)量評(píng)測(cè)等方面對(duì)數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘的應(yīng)用都有相應(yīng)研究,其它省份招生管理部門(mén)也進(jìn)行了建立招生考試數(shù)據(jù)倉(cāng)庫(kù)的探索。
而研究生招生與普通高校招生還不完全一樣,不僅要分析考生的入學(xué)成績(jī),而且還要分析面試成績(jī),不僅要考慮考生的生源地,還要考慮考生的本科畢業(yè)院校,所以不能在簡(jiǎn)單基礎(chǔ)上重新進(jìn)行需求分析和系統(tǒng)設(shè)計(jì),利用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘開(kāi)發(fā)研究生招生考試決策支持系統(tǒng)是很有必要的。
本文的研究?jī)?nèi)容從技術(shù)方面分析,建立招生決策數(shù)據(jù)倉(cāng)庫(kù),確定了挖掘系統(tǒng)的主題,進(jìn)行維度的設(shè)計(jì)劃分,把各種不同的源數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換與加載后導(dǎo)入數(shù)據(jù)庫(kù),形成了數(shù)據(jù)倉(cāng)庫(kù)。
使用聚類(lèi)分析和決策樹(shù)方法設(shè)計(jì)開(kāi)發(fā)了數(shù)據(jù)挖掘的系統(tǒng)模型,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行了知識(shí)挖掘,找到有價(jià)值的信息,然后使用這些信息進(jìn)行預(yù)測(cè),希望能夠預(yù)測(cè)出考生的研究方向。
從業(yè)務(wù)流程方面分析,目前研究生招生環(huán)節(jié)主要分為初試和面試,只有初試分?jǐn)?shù)達(dá)到分?jǐn)?shù)線標(biāo)準(zhǔn)的才具有面試資格,目前大部分學(xué)校的復(fù)試比例 1:1.2,復(fù)試一般采用面試加考試的方式。同時(shí)考生的成績(jī)一般和入學(xué)后的選課成績(jī)有一定的聯(lián)系,本文研究?jī)?nèi)容之一便是根據(jù)考生的入學(xué)成績(jī)預(yù)測(cè)出其入學(xué)后的選課成績(jī),從而預(yù)測(cè)該學(xué)生在本專業(yè)以后的發(fā)展前景。
本文在深入研究了數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,對(duì)歷年研究生招生和管理的成績(jī)進(jìn)行建模分析,找出一定的規(guī)律,并主要使用了決策樹(shù)和聚類(lèi)分析算法進(jìn)行分析。
本文的研究意義在于研究生招生是選拔高層次專門(mén)人才和拔尖創(chuàng)新人才的重要途徑,按照黨的十七大提出的建設(shè)人力資源強(qiáng)國(guó)和創(chuàng)新型國(guó)家的要求,深入貫徹落實(shí)科學(xué)發(fā)展觀,全面提高研究生選拔質(zhì)量。
結(jié)合各專業(yè)特點(diǎn),研究提出科學(xué)、合理的招生工作內(nèi)容體系和標(biāo)準(zhǔn),體現(xiàn)研究生導(dǎo)師在研究生招生工作中的權(quán)利和責(zé)任;進(jìn)一步完善工作方法,規(guī)范工作程序。
提高生源質(zhì)量已經(jīng)成為招生管理部門(mén)以及導(dǎo)師面臨的重要問(wèn)題。需要開(kāi)發(fā)出一套合理的模型,為招生管理部門(mén)提供依據(jù),為導(dǎo)師提供參考,同時(shí)也為考生在復(fù)試進(jìn)行專業(yè)選擇時(shí)作為指導(dǎo)。
二、基于數(shù)據(jù)倉(cāng)庫(kù)的研究生招生管理的研究方法
本文實(shí)現(xiàn)的招生管理挖掘系統(tǒng)綜合了以前諸多部門(mén)的各種不同的系統(tǒng),是一個(gè)系統(tǒng)的融合,這樣做不僅使得管理操作統(tǒng)一、界面相同,更重要的是使得各項(xiàng)不同的數(shù)據(jù)能夠保存在一個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,共用相同的數(shù)據(jù)結(jié)構(gòu),以便更加方便地利用數(shù)據(jù)挖掘算法進(jìn)行分析。
同時(shí)本文采用的決策樹(shù)和聚類(lèi)分析挖掘算法是最常使用的挖掘算法,它們高效、簡(jiǎn)單,能夠快速地得出知識(shí)信息,并且能夠以清楚簡(jiǎn)單易于理解的方式顯示給用戶。
最后,系統(tǒng)以一個(gè)簡(jiǎn)單的界面提供給使用者,使用者可以采用兩種方法進(jìn)行驗(yàn)證和查詢。如果是大量的考生信息,可以采用把考生信息保存在文件中,然后系統(tǒng)將對(duì)文件中的每個(gè)人的信息進(jìn)行計(jì)算和分析,并把分析結(jié)果保存在特定的地方。如果是少量的考生信息,系統(tǒng)提供了輸入界面,對(duì)學(xué)生進(jìn)行分析。如圖1所示。
從中可以看出,該系統(tǒng)的數(shù)據(jù)源來(lái)自不同的數(shù)據(jù)庫(kù),根據(jù)多種數(shù)據(jù)源進(jìn)行數(shù)據(jù)整合、分析、處理,構(gòu)造出8個(gè)不同的立方體,然后進(jìn)行ETL處理開(kāi)發(fā),形成數(shù)據(jù)倉(cāng)庫(kù)。
核心業(yè)務(wù)層包括入學(xué)成績(jī)管理模塊、招生挖掘模塊、考試成績(jī)管理模塊、招生挖掘預(yù)測(cè)模塊。核心業(yè)務(wù)層是該系統(tǒng)的主要完成的功能。入學(xué)成績(jī)管理模塊負(fù)責(zé)一般的事務(wù)性處理工作,主要負(fù)責(zé)考生的入學(xué)成績(jī)及相關(guān)的考生信息等;考試成績(jī)管理負(fù)責(zé)學(xué)生入學(xué)后的選課和考試成績(jī);招生挖掘模塊是重要的模塊,它能根據(jù)入學(xué)信息和考試信息挖掘出有價(jià)值的信息;招生挖掘預(yù)測(cè)模塊能夠根據(jù)考生的入學(xué)成績(jī)預(yù)測(cè)出該生入學(xué)后是否能有較大的發(fā)展,以便輔助招生決策。
最后,系統(tǒng)通過(guò)門(mén)戶集成發(fā)布到內(nèi)網(wǎng)上,以方便多人能夠同時(shí)進(jìn)行工作,提高工作效率,并且可隨時(shí)隨地進(jìn)行查詢。
數(shù)據(jù)倉(cāng)庫(kù)主要是滿足決策分析的需要,將來(lái)自各種數(shù)據(jù)源的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)圍繞決策主題來(lái)組織的,并且對(duì)數(shù)據(jù)查詢的要求比較高,數(shù)據(jù)存儲(chǔ)量非常大。數(shù)據(jù)倉(cāng)庫(kù)建模采用自上而下的三級(jí)建模方式,即概念建模、邏輯建模、物理建模。現(xiàn)在比較流行的建模方式是以信息打包方法為主的概念建模方式,以星型建模方法和雪花建模方法為主的邏輯建模方式,以3NF和星型建模方式為主的物理建模。
由于當(dāng)前正在運(yùn)行的管理系統(tǒng)都是獨(dú)立開(kāi)發(fā)的,所使用的數(shù)據(jù)庫(kù)多種多樣,簡(jiǎn)單的有Excel、Access,復(fù)雜的如DB2,Oracle,SqlServer等,這些都是異構(gòu)數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建需要充分考慮到這些原始數(shù)據(jù)的不同。
首先是得到各種不同的數(shù)據(jù)源。例如,招生信息、院校信息等是從招生辦得到,學(xué)生考試信息、學(xué)生入學(xué)信息等是從培養(yǎng)處得到,兩種分別是excel和sqlServer格式的。
創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)最重要的一個(gè)步驟是將數(shù)據(jù)從各種操作型數(shù)據(jù)系統(tǒng)中抽取出來(lái)(Extracting),排除數(shù)據(jù)中的數(shù)據(jù)缺陷,完成一系列轉(zhuǎn)換(Transforming)、匯總,最后將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)(Loading)。如圖2所示。
三、數(shù)據(jù)挖掘及實(shí)證分析
本文分別使用聚類(lèi)分析和決策樹(shù)方法設(shè)計(jì)開(kāi)發(fā)了數(shù)據(jù)挖掘的系統(tǒng)模型,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行了知識(shí)挖掘,找到有價(jià)值的信息,然后使用這些信息進(jìn)行預(yù)測(cè),希望能夠預(yù)測(cè)出考生的成績(jī)。
首先使用SqlServer Management Studio整理好數(shù)據(jù),然后利用SqlServer Business Intelligence Development Studio 中的相關(guān)算法和規(guī)則進(jìn)行部署,接著作出評(píng)估解釋,并且取一部分?jǐn)?shù)據(jù)進(jìn)行驗(yàn)證,最后用于我們的招生中,為招生提供依據(jù)。
Business Intelligence Studio 不僅能夠?qū)?shù)據(jù)進(jìn)行挖掘,還能夠?qū)ν诰虻慕Y(jié)果進(jìn)行評(píng)價(jià)。
根據(jù)評(píng)價(jià)結(jié)果得知,決策樹(shù)的得分為4.08,而聚類(lèi)分析的得分為1.12,均為理想預(yù)測(cè)。
四、小結(jié)
對(duì)招生管理系統(tǒng)的需求進(jìn)行了調(diào)研,根據(jù)不同區(qū)域、不同專業(yè)進(jìn)行認(rèn)真分析,詳細(xì)完成調(diào)研報(bào)告,對(duì)原始招生管理系統(tǒng)中的數(shù)據(jù)特點(diǎn)進(jìn)行了詳細(xì)的分析、歸納、整理,設(shè)計(jì)并制定了招生決策數(shù)據(jù)倉(cāng)庫(kù)的方案。
研究了數(shù)據(jù)挖掘的幾種常見(jiàn)算法如聚類(lèi)分析和決策樹(shù)算法,根據(jù)這些算法設(shè)計(jì)出了數(shù)據(jù)挖掘的模型,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行了挖掘,并對(duì)系統(tǒng)進(jìn)行測(cè)試,獲得了招生決策所需要的關(guān)鍵知識(shí),并把這些知識(shí)用于實(shí)際的招生管理工作中,以驗(yàn)證其是否能夠起到積極的作用。
但是目前的考量因素存在比較大的局限性,還需要考慮學(xué)生的上學(xué)經(jīng)歷,家庭背景,性格特征等方方面面的原因,更多因素考慮在隨后二期項(xiàng)目研究中完成。隨著數(shù)據(jù)的進(jìn)一步獲取,后續(xù)將對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,拓展業(yè)務(wù)模型功能。
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘在研究生教育管理領(lǐng)域的應(yīng)用是一個(gè)綜合復(fù)雜的系統(tǒng)工程,招生決策只是其中的一個(gè)方面。構(gòu)建開(kāi)發(fā)一套完整的基于數(shù)據(jù)倉(cāng)庫(kù)的研究生招生決策支持管理系統(tǒng),將有效地推動(dòng)招生的深化改革,使高校招生逐步走向信息化、科學(xué)化,為國(guó)家發(fā)現(xiàn)并培養(yǎng)人才。
參考文獻(xiàn):
[1]William H.Inmon,王志海.數(shù)據(jù)倉(cāng)庫(kù).機(jī)械工業(yè)出版社,2006:25~40
[2]王永紅.數(shù)據(jù)倉(cāng)庫(kù)生命周期工具箱:設(shè)計(jì)、開(kāi)發(fā)和部署數(shù)據(jù)倉(cāng)庫(kù)的專家方法.電子工業(yè)出版社,2004:34~55
[3]安淑芝.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘.清華大學(xué)出版社,2005:21~34
[4]王彥龍.企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)原理設(shè)計(jì)與實(shí)踐.電子工業(yè)出版社,2004:42~45
[5]于宗民,劉義寧,祁國(guó)輝.數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目管理實(shí)踐.人民郵電出版社,2006:42~50
[6]麥瑞卡斯,敖富江.數(shù)據(jù)倉(cāng)庫(kù)、挖掘和可視化核心概念.清華大學(xué)出版社,2004:51~55
[7]何玉潔,張俊超.數(shù)據(jù)倉(cāng)庫(kù)與OLAP實(shí)踐教程.清華大學(xué)出版社,2008:33~36
[8]姚家奕.多維數(shù)據(jù)分析原理與應(yīng)用.清華大學(xué)出版社,2004:35~62
[9]W.H.Inmon,黃厚寬.數(shù)據(jù)倉(cāng)庫(kù).機(jī)械工業(yè)出版社,2003:21~28
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文