摘要:現行高等院校教務管理系統中收集了大量的教學信息,但大多數管理信息系統對這些教學數據中所隱含的有價值的數據并沒有進行充分的提取或深層次的分析。因此如何能將這些數據更高效的應用于教學管理當中已經成為人們廣泛關注的焦點。特別是獨立學院,對于教務管理系統中收集的教學信息有必要進行進一步的分析,并結合獨立學院自身和學生的特點來培養學生,給學生以正確的定位。通過介紹數據挖掘的基本概念和基本功能,以及分析高校管理信息系統的現狀和不足,提出了數據挖掘技術在獨立學院教務管理信息系統中的應用方向。
關鍵詞:數據挖掘;獨立學院;教務管理;關聯分析;決策
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)36-10493-03
The Application of Data Mining to the Teaching Management of Independent Colleges
YU Ling-ling
(Urban Construction College, Jilin Architectural and Civil Engineering Institute, Changchun 130111, China)
Abstract: Teaching management system in higher educational institutions collect a large number of teaching information, yet most of the college teaching management information system do not make an adequate and deep analysis of the potential valuable data. Therefore, how to apply the data to the teaching management effectively becomes the focus of attention. It is especially necessary for independent colleges to make further analysis of the teaching information collected in teaching management system in order to cultivate students and give them correct horizon combined with the features of independent colleges and students respectively. By introducing the concept and functions of data mining, and analyzing the current background and shortcomings of the college teaching management information system, the thesis puts forward the application of data mining to teaching management system of independent colleges.
Key words: data mining; independent colleges; teaching management; relevance analysis; strategies
隨著高校招生規模逐年擴大以及教育方式更加靈活多樣,幾乎每所高校都面臨著學生人數的急劇增加與教學資源日趨緊張的矛盾,同時高校的一些機構也在不斷地改革變化,這些都給高校的管理帶來了前所未有的發展和挑戰。在這樣的形勢下,高校應如何以最小的代價獲得最大的發展成為一個急待解決的新課題。具體來說,現在要求高校領導層從整體的、宏觀的角度認清形勢,解決問題,優化教育資源配置,提高教育資源利用率。為此,將數據挖掘技術應用于現在的教務管理系統則顯得十分必要。該系統的各項功能除了滿足日常簡單的查詢、統計和維護、全局統籌規劃管理高校各種信息、協調各部門工作順利開展,還能夠為高校決策者提供有關教育形勢的瞬時變化、發展趨勢以及通過高科技手段來開發歷史數據,提取隱含在其中的事先未知的、潛在的、深層次的、有價值的信息,以利于管理和決策的開展和進行。
1 數據挖掘技術及其應用
1.1 數據挖掘的概念
數據挖掘(Data Mining),也叫數據開采、數據采掘。就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它是一種決策支持過程,挖掘所得出的知識可以被用于信息管理、查詢優化、決策支持、過程控制等,還可以用于數據自身的維護。數據挖掘是從大量的數據中提取或“挖掘”知識。數據挖掘應該更正確地命名為“從數據中挖掘知識”。也可以說,數據挖掘是一類深層次的數據分析。
數據挖掘是一門廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員的研究成果。
1.2 數據挖掘的功能
數據挖掘不僅能對過去的數據進行查詢,并且能夠對將來的趨勢和行為進行預測,并自動探測以前未發現的模式。概括起來,數據挖掘主要有五大功能,即自動預測趨勢和行為、關聯分析、聚類、概念描述和偏差檢測。
1)自動預測趨勢和行為
數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。一個典型的例子是市場預測問題,數據挖掘使用過去有關促銷的數據來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產以及認定對指定事件最可能作出反應的群體。
2)關聯分析
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
3)聚類
數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。80年代初,Mchalski提出了概念聚類技術牞其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。
4)概念描述
概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。
5)偏差檢測
數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
1.3 數據挖掘的任務
數據挖掘的任務主要有關聯分析、聚類分析、分類、預測、時序模式、偏差分析等。
1) 關聯分析(Association Analysis)
兩個或兩個以上數據項的取值之間存在某種規律性,就稱為關聯,可建立起這些數據項的關聯規則。數據關聯是數據庫中存在的一類重要可被發現的知識,它反映一個事件和其他事件之間依賴或關聯。如果或多項屬性之間存在關聯,那么其中一項的屬性值就可以依據其他屬進行預測。
2) 聚類分析(Clustering)
聚類是把數據按照它們的相似性歸納成若干類別,同一類別中的數據距離較小、彼此相似,不同類別中的數據距離偏大、彼此相異。聚類分析建立宏觀的概念,發現數據的分布模式,以及可能的數據屬性之間的關系。
3) 分類(Classification)
分類是數據挖掘中應用得最多的任務。分類就是找出一個類別的概念,并用這種描述來構造模型(一般用規則或決策樹模式表示)。類別概念描述代表著這類數據的整體信息,也就是該類的內涵描述。
分類的內涵描述分為:特征描述和辨別性描述。特征描述是對類中對象同特征的描述。辨別性描述是對兩個或多個類之間的區別的描述。
分類的過程是:分析輸入數據,通過在訓練集中的數據所表現出來的,經過有關算法,為每一個類找到一種準確的描述或者模型,并使用分類的描述對未來的測試數據進行分類。
4) 預測(Predication)
預測是利用歷史數據找出變化規律,建立模型,并由此模型對未來數種類及特征進行預測。典型的預測方法是回歸分析,即利用大量的歷史數據,以時間為變量線性或非線性回歸方程。預測時,只要輸入任意的時間值,通過回歸就可求出該時間的狀態。
5) 時序模式(Time-Series Pattern)
時序模式是指通過時間序列搜索出的重復發生概率較高的模式。與回歸一樣,它也是用己知的數據預測未來的值,但這些數據的區別是變量所處時間的不同。在時序模式中,需要找出在某個最小時間內出現比率一直高于某一最小百分比(最小支持度閾值)的規則。這些規則會隨著形勢的變化作適當的調整。
6) 偏差分析(Deviation)
數據庫中的數據存在很多異常情況,發現數據庫中數據存在的異常情況是非常重要的。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
1.4 數據挖掘的過程
數據挖掘的過程一般包括:確定挖掘對象、準備數據、建立模型、數據挖掘和結果分析與知識應用這幾個階段。如圖1所示。
1.5 數據挖掘技術在獨立學院教務管理中的應用
1)分析與學習成績有關的因素
通過管理信息系統找到相關數據:包括學生家庭出身情況、學生的晚自習出勤情況,學生平均每月平均借閱情況、學生平均每月在宿舍住宿天數、學生每月平均消費、學生每月參加實踐活動的平均次數、學生的平均成績。學生家庭出身情況可以從檔案管理系統中得到;學生平均每月借閱情況可以從圖書館管理系統中得到;學生平均每月在宿舍住宿天數、學生每月平均消費可以從校園卡管理系統中得到;學生晚自習出勤情況和每月參加實踐活動的次數可以從校園辦公自動化系統中的電子文件中得到;學生的平均成績可以從教務管理系統中得到。通過關聯分析算法對每一個學生的這些數據進行分析,可以得出哪些是影響學生成績的重要因素,哪些是次要因素,哪些是無關因素。
2)指導計算機教學工作
全國計算機等級考試是由國家教育部考試中心主辦的全國性計算機認證考試,用于測試計算機應用知識的掌握程度和上機實際操作能力。近幾年來,等級考試的規模逐年擴大,但通過率有逐年下降趨勢。為了科學、客觀地分析等級考試通過率和預測通過人數,更好地指導考試工作,近年來新興的數據挖掘技術,采用分類分析中的決策樹方法,對考點的等級考試成績數據實施了數據挖掘,從中發現了潛在的模式,總結知識并結合考點的實際,為考試工作提出了建設性意見,進一步明確了計算機教學方向。
3)優化課程設置
學生的課程學習應該是循序漸進的,課程之間也存在一定的關聯與依承關系。哪些課程應該在前,哪些應該在后,哪些適宜同時進行,其中原因的揭示,就可以通過數據挖掘技術來實現。對教學系統數據庫存放的歷屆學生各門課程的考試成績數據,通過數據挖掘的關聯分析與時間序列分析,便可以歸納出影響學生成績的普遍性原因,進而得出此課程與彼課程之間的關聯關系與依承程度。再將這些信息用于指導課程設置和課程教學安排,必然有助于提高教與學的效率,并不斷使得學生的知識結構更加合理。
4)指導高校就業工作
畢業生的就業相關數據和數據庫的規模急劇增長,傳統的數據庫管理系統的查詢檢索機制和統計分析方法已不能滿足現實的需要,迫切要求能夠自動地、智能地和快速地從數據庫中挖掘出有用的信息和知識。因此,可運用數據挖掘理論中的決策樹方法,對高校就業管理系統中的數據進行分析,運用決策樹算法構造決策樹,提取規則知識,發現決策屬性對就業類別的影響,從而為學校領導提供決策支持:提高就業率、提高就業層次、改進現行培養機制。
2 結束語
本文通過介紹數據挖掘的基本概念、基本功能、主要任務和數據挖掘的一般過程,結合現有獨立學院教務管理中的相關信息,對數據挖掘技術在教務管理系統中的應用進行討論。包括利用數據挖掘中的關聯分析技術分析與學習成績有關的因素;采用分類分析中的決策樹方法,對考點的等級考試成績數據實施了數據挖掘,明確了計算機教學方向;根據歷屆學生各門課程的考試成績數據進行關聯分析,用于指導課程設置和課程教學安排;運用分類分析中的決策樹方法,對高校管理系統中的就業數據進行分析,發現決策屬性對就業類別的影響。以上討論數據挖掘在獨立學院教務管理中應用的幾個方面,而其在教學的其它方面也有其應用的意義。數據挖掘技術在獨立學院教務管理中的應用前景必然會非常廣闊。
參考文獻:
[1] 賈志強,李濤.高校管理中數據挖掘技術的應用[J].福建電腦,2008(1):170-171.
[2] 嚴忠貞.高校教學質量評價信息系統中數據挖掘技術的研究與應用[J].科教論叢,241.
[3] 潘鋒.淺談數據挖掘技術在高校教學管理中的應用[J].重慶科技學院學報,2008(4):100-101.
[4] 何文秀.數據挖掘技術在高校就業工作中的應用研究[J].現代計算機,2008(279):90-92.
[5] 牛慧卿.數據挖掘在高校管理信息系統中的應用研究[J].機械管理開發,2007,23(1):131-133.
[6] 張震,胡學鋼,張亞萍.數據挖掘在高校課堂教學質量評價體系中的應用[J].電腦開發與應用,2007,20(2):41-42.
[7] 劉艷霞.數據挖掘中聚類分析技術的研究與應用[J].科技情報開發與經濟,2008,18(6):156-157.
[8] 邱月.數據挖掘方法在學生成績評價中的應用科技信息[J],2008(9):76-77.