劉 靜
(南京航空航天大學國際教育學院,江蘇南京,210016)
近幾年來,隨著我國高等教育的迅速發展,各高校的辦學規模逐漸擴大,導致教務處承擔的工作量也是越來越大,傳統的管理手段適應不了新的要求,亟待提升教學教務管理手段,目前許多高校也開發了教務管理系統方面的軟件,并且這些管理軟件已應用于教務管理的各個流程,從而實現了成績管理、教學測評等方面的計算機自動化,這些都對教務管理信息化發展起到了積極的推動作用。由于目前的教務管理系統應用軟件在多年的使用過程中,逐漸積累了大量的有用的教學數據,如何將這些珍貴的并且又分散的數據變化為可分析的數據,并進行分析與發掘統計,為教學管理決策提供參考依據,對提高教學管理水平和能力,具有十分重要的意義,基于以上問題,本次研究提出了數據倉庫分析模型和數據挖掘的應用問題。
數據挖掘技術的功能主要是:通過開可靠的數據挖掘方法,故而期望從大量的數據中發現潛藏其中的規律和模式,一般來說,該種方法都面向特定領域,需要前提和約束條件。在國外,數據挖掘技術的研究得到了迅猛發展并且應用廣泛,近年來,隨著數據倉庫和新數據源的出現,使得人們所面臨的問題越來越容易,對于浩瀚的數據海洋,數據挖掘技術優勢更加明顯,顯示出更加強大的生命力。
在我國,隨著高等教育的快速發展,多年來積累了大量的數據,但是由于各個職能部門沒有統一規范,對數據的收集和整理并不合理,這樣,往往導致多年來積累的這些大量數據出現雜亂、無章等情況,并且共享率低,間接影響了高校管理部門的工作效率。目前,經過多年來的教學改革,許多高校已經開發了處理海量數據的軟件,對學校的各個方面的工作成效進行了分析,但是數據的利用率還比較偏低,所研究內容還比較單一。如北大、清華、中科院等單位都開展了數據挖掘算法的研究,但是與國外相比,教務管理中的數據挖掘理論和應用還是比較落后,綜合集成能力不高,數據挖掘技術和數據倉庫在教務管理中的關注度相對不夠,迫切需要進行深入研究。
數據倉庫在計算機領域,它一種新型的數據管理技術,該系統往往以關系數據庫管理為基礎,既有數據在數據庫進入目標數據倉庫之前,其過程為清洗-集成-選擇-變換,將數據倉庫中的數據變換為集成、歷史化的功能數據,具備綜合性數據分析功能。
到目前為止,數據倉庫的定義有很多,但并未達到共識,最為接受的,比較公認的是1992 年W.H.Inmon 提出的概念:即數據倉庫是面向主題、集成在一起的、不易失去的、隨時間不斷變化的數據集合,作用是用于支持決策。
由于數據倉庫與傳統的數據庫存在很多不同,其具有與一般數據庫不一樣的特點,具體來說有以下四個:
(1)面向主題
該特點是指用戶在使用數據倉庫進行各種決策分析時,所關心的重點方面,是將系統中的數據進行綜合歸類,數據倉庫中的數據依據一定的主題進行組織,是一個按主題進行決策的過程。
(2)集成
數據倉庫中的數據不是粗糙的數據,而是對原有分散的數據進行分析處理過的,經過系統的再加工,進行匯總和整理,保證數據倉庫內的信息統一和集成。
(3)非易失的
數據倉庫的數據在進入該系統之后,就不再變化,可以被看作一個虛擬的只讀數據庫系統,用戶使用時只能讀取而不能修改,保證了數據的安全和有效。
(4)隨時間變化的
數據倉庫中的數據是隨著時間而變化的,具有時序性和歷史性,通過這些信息進行分析和判斷,可以對數據未來的變化趨勢進行預測,在動態上更能反映實際。
從功能上來看,教務數據倉庫主要來自于操作型數據源,其直接為學院領導、教務管理人員等服務,從而為使用者提供重要的數據信息,系統包括數據處理的各個階段,主要有從數據源獲取數據,以及輸出結果提供給決策者進行參考的數據處理階段,由于涉及到多個處理層次,其過程如下:數據的獲取-數據的轉換-數據的加載-數據的存儲-數據的綜合等。
從目標上來看,建立教務管理系統的數據倉庫,主要目的是通過采集外部有用的信息,來通過某種方法分析教務情況的歷史數據,從中發現規律,故而實現教務工作預測,為制定教務管理工作服務。本次提出的數據倉庫模型如下:

圖1 數據倉庫的體系結構
可以看出,數據倉庫與數據庫的概念和作用是不同的,數據倉庫是在數據庫的基礎上發展而來,一般來說,數據倉庫包括三個部分,即:數據倉庫、聯機分析處理及數據挖掘。數據倉庫的主要工作是將數據庫中的數據進行歸納分析,聚集成一個可供更高層次使用的數據集合,從而方面數據查詢、分析和數據挖掘。
數據挖掘是一種常用的數據分析技術,是一個獲取準確、具有潛在應用價值和最終可理解模式的非平凡的過程。數據挖掘的體系由三部分組成:數據源、挖掘層、用戶界面層。挖掘過程可分為四個階段:問題定義、數據準備、執行數據挖掘、解釋和評價。
數據挖掘常用算法主要是決策樹分析和關聯規則算法。決策樹算法一般來說,是通過輸入數據來建立分類模型的系統方法,首先,建立一個訓練集,往往由類標號已知的記錄組成,其次,使用訓練集建立分類模型,該模型隨后將運用于檢驗集合。關聯規則算法主要用于發現隱藏在大型數據集中的相互聯系,其所發現的結果可以用關聯規則或頻繁項集的形式表示出來。
到目前為止,在教務管理上還沒有一個成熟的、完整、合理的挖掘系統,通過對目前教務管理存在的問題分析,需要解決數據量龐大、數據不完整及挖掘方法不不合理等缺點。本數據挖掘系統包括三大模塊:教務數據采集、教務數據倉庫及教務多維數據集的創建及管理、數據挖掘和分析。
由于數據挖掘要求較高,在系統設計過程中需考慮以下幾個問題:
(1)挖掘系統需具有多功能處理能力,比如關系數據庫處理、復雜的數據對象處理、具體事務數據等。數據挖掘系統應該能夠處理這些復雜數據類型。
(2)數據挖掘算法應具有有效性和可伸縮性,也就是說,在內存和磁盤空間等系統可資源規定的情況下,算法的運行時間應隨著數據庫大小線性而增加。
(3) 數據挖掘的最終結果應具有可用性和確定性,其挖掘出來的知識應該能準確地反映數據庫的內容,而不是有所歧義,并且對于用戶來說是有用的和可靠的。
(1)連接數據倉庫,從而建立數據源,主要完成分析數據的轉換操作;
(2)對教務數據內容進行數據挖掘操作,其中的關聯分析模塊用于對課程安排先后順序流程進行分析,貝葉斯分類算法在實踐中,也同樣應用于課程安排方面,聚類分析方法主要應用于就業分析。
(3)通過存儲并展示挖掘分析結果,為決策者研究提供可靠依據。
本模型的數據挖掘模塊,實現的過程中,通過連接SQL Server Analysis Services 服務器,達到對導入數據挖掘的目的;該服務分析器數據挖掘主要用于商業智能化管理,要在教務管理方面實現這一目標,需要執行兩個主要必須步驟:構建數據挖掘模型與構建應用程序。
具體步驟和方法是:首先將教務管理系統中的各業務數據導入服務器,經過一系列的加工處理,構成星型結構教務數據倉庫,為下一步進行數據挖掘準備;然后直接啟動分析系統,借助其中提供的挖掘模型向導,構建挖掘數據模型;最后利用有關的挖掘算法,對教務數據源進行挖掘,從而發現規律,獲取所需數據,支持教務的決策管理工作。
本文將數據倉庫和數據挖掘技術應用于教務管理過程中,并建立了相應的分析模型,從而實現管理工作的智能化,為決策提供支持。由于數據倉庫的挖掘研究是一個嶄新的領域,將極大促進教務管理人員的積極性,提高工作效率。在未來的工作中,需要進一步深入研究,完善系統功能。
[1] 李素朵.數據挖掘技術在高職院校教務管理系統中的應用研究[D] .石家莊:河北科技大學碩士學位論文,2013.
[2] 姚志鴻.數據挖掘技術在教學管理中的應用與實現[J].電子測試,2014,(6):108-109.
[3] 吳天真,李文靜.數據挖掘技術在高校教務管理中的應用綜述[J].科協論壇,2013,(7):75-76.
[4] 魏韞怡.數據挖掘技術在電大教務管理中的應用[J].科技視界,2012.8(22):98-100.