摘要:本文在討論數據挖掘技術的基本概念、決策樹方法的基礎上,提出了決策樹算法在數字化校園中的應用,以高校學生等級的劃分為例介紹了該算法的實施過程,并對結果進行了分析,得出供高校管理者決策的結論。
關鍵詞:數據挖掘;決策樹算法;數字化校園;學生等級
中圖分類號:G64文獻標識碼:B
文章編號:1672-5913(2007)06-0040-04
1 引言
數字化校園是以數字化信息為依托,利用計算機技術、網絡技術、通訊技術支持學校教學和管理信息流,實現教育、教學、科研、管理、技術服務等信息收集、處理、整合、存儲、傳輸、應用,使教學資源得到充分優化利用的一種虛擬教育環境[1]。數字化校園建設已經成為現代高校建設的重要組成部分,如何更好地利用數字化校園信息,提高高校教學效率,從而為社會培養出更多高素質人才,是一個值得研究的問題。數字化校園是面向教師和學生的,并為教師和學生服務。利用數據挖掘技術,在了解學生的各個方面信息的基礎上,通過決策樹算法得到學生學習成績的總體發展趨勢,為高校教學提供決策支持作用。
2 數據挖掘技術
2.1 數據挖掘的基本概念
數據挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數據中,提取隱含在其中的、人們不知道的,但又是潛在有用的信息和知識的過程[2]。目的是發現未知的關系和以數據擁有者可以理解并對其有價值的新穎方式來總結數據,進而預測未來可能發生的行為,從而為決策行為提供有利的支持。
2.2 決策樹方法
決策樹方法是數據挖掘的核心技術算法之一,通過大量數據有目的地分類,從中找出一些潛在的、對決策有價值的信息,常用于預測模型中。目前,國際上最有影響力的決策樹方法是ID3決策樹生成算法,C4.5算法是ID3算法的改進,該算法主要采用信息增益比來確定被測試的屬性[3]。
決策樹(Decision Tree)是一個類似于流程圖的樹結構,其中每個內部節點表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉節點代表類或類分布。樹的最頂層節點是根節點。通常情況下,采用自頂向下遞歸的各個擊破的方式構造決策樹,在此過程中,選擇合適的屬性作為測試屬性;采用剪枝方法控制生成的決策樹的大小;是兩個關鍵的問題。
決策樹的基本算法是貪心算法,它以自頂向下遞歸的各個擊破方式構造決策樹,算法Generate_ decision_tree生成一棵決策樹的基本步驟。
輸入:訓練樣本samples,由決策屬性表示,候選屬性的集合attribute_list。
輸出:一棵決策樹。
(1)創建節點N;
(2)if samples 都在同一個類C then;
(3)返回N作為葉節點,以類C標記;
(4)if attribute_list為空,以類C標記;
(5)返回N作為葉節點,標記為samples中最普通的類,//多數表決;
(6)選擇attribute_list中具有最高信息增益的屬性test_attribute;
(7) 標記節點N為test_attribute;
(8)for each test_attribute中的已知值ai //劃分samples;
(9)由節點N長出一個條件為test_attribute= ai的分支;
(10)設si是samples中test_attribute= ai的樣本的集合,//一個劃分;
(11)if si為空then;
(12)加上一個樹葉,標記為samples中最普通的類;
(13)else加上一個由Generate_decision_tree返回的節點。
以上遞歸步驟當下列條件成立時停止:
(1)給定節點的所有樣本屬于同一類;
(2)沒有剩余屬性可以用來進一步劃分樣本,在此情況下,使用多數表決;
(3)分支test_attribute= ai沒有樣本,在這種情況下,以samples中的多數類創建一個樹葉。
3 數字化校園整體框架
基于當前高等院校校園網的基本設施和已有的各種應用服務,一個基于通用的統一身份認證和統一信息展示的數字化校園解決方案的總體框架。這個框架能夠集成各種校園網中的應用。各個子系統在數字化校園中的位置如圖1所示。
在這個數字化校園框架中,利用PKI體系結構作為統一身份認證系統的基礎,以LDAP目錄作為校園網內各種身份和信息數據的存儲媒體,從而實現Portal信息展示平臺,為校園網內各種應用服務的集成與展現提供了途徑。
4 數據挖掘技術在數字化校園中應用
數據挖掘過程主要經歷以下階段:確定數據挖掘對象、數據準備等。下面將結合數字化校園介紹數據挖掘關鍵過程的應用。

圖1數字化校園的整體框架
4.1 確定數據挖掘對象
定義清晰的挖掘對象,認清數據挖掘的目標是數據挖掘的第一步。在數字化校園信息庫中,主要的信息就是教師和學生,如何更好地協調教師和學生的關系,更好地促進教育事業的發展,本文先從本科生著手,來研究本科生在校的基本情況,從而確定以學生為主體。
4.2 數據準備
收集和描述數據是整個數據挖掘工作中相當重要的一部分。數據準備一般包括兩個步驟:數據的選擇和數據的預處理。這里主要是在校本科生的家庭出身、學習、每月消費、每月借書、社會工作等情況。例如從校園一卡通系統中可以找到某個學生這個月的消費情況。下面的挖掘方法并未對學生信息的各個子庫中所有數據進行直接挖掘,而是以學生的數字化校園中的基本信息作為基礎信息,通過對學校的各個子庫的個人信息進行加工處理,運用簡單的統計方法對每個子庫信息進行聚合,從而得到進行數據挖掘的基本信息。
把從各個子庫中得到想要的數據必須經過處理才能應用到數據挖掘技術中去。例如我們把學生通過文字所表現的不同屬性進行量化,以便于算法分析。我們把學生分為:A、B、C、D、E五個等級,即各個方面都表現優秀的學生為A、中等靠上但次于優秀的為B、中等生為C、中等靠下為D、各個方面都很差的為E。
依據以上量化標準,我們把統計得到用于數據樣本的一個6維向量進行初步量化。
(1)學生每月消費:超過500元的為高、300~500元的為中、低于300的低。
(2)圖書館平均每月借書(每月按圖書館開放25天計算):每月光顧圖書館4次以上為優,2~4次為良,少于2次的為中。
(3)專業課平均成績:高于85分的為優,75~85之間的為良,60~75之間的為中。
(4)參加社會活動情況:1表示經常參加社會活動,0.5表示參加社會活動適度,0表示基本上不參加社會活動。
(5)家庭出身:“農”表示出身農民,“工”表示出身工人,“干”表示出身干部。
(6)學生等級:各個方面都表現優秀的學生為A,中等靠上但次于優秀的為B,中等生為C,中等靠下為D,各個方面都很差的為E。
下面介紹一個訓練樣本,該數據樣本選自2003級計算機專業某個班學號的前15名,如表1所示。
4.3 構造決策樹
根據選取訓練樣本數據集,取屬性“學生等級”作為類別標識屬性,屬性“家庭出身”、“每月平均消費水平”、“專業課平均成績”、“圖書館借書”、“參加社會活動”作為屬性集。訓練樣本集類A、B、C、D、E所對應的樣本個數記為s1、s2、s3、s4、s5。其中s1=2,s2=4,s3=4,s4=3,s5=2。
首先,對給定的樣本分類所需的期望信息:


類似地,我們可以計算Gain(每月平均消費水平)=0.4076,Gain(專業課平均成績)=1.2668, Gain(圖書館借書)=0.6963, Gain(參加社會活動)=0.266,由于專業課平均成績在屬性中具有最高信息增益,它被選作測試屬性。創建一個節點,用專業課平均成績標記,并對于每個屬性值,引出一個分支。樣本據此劃分,重復上述步驟,最后返回的最終判定樹如圖2所示。

4.4 結果分析
比較以上5個屬性的信息增益,得到學生等級決策樹,從而得到以下結論:
(1) 可以看出專業課水平的高低是決定學生等級的關鍵因素。
(2) 圖書館借書次數較多,可以看出學生比較重視學習。
(3) 參加社會活動積極的學生,也是相對較好的學生。
(4) 每月消費較高的部分同學比較側重于學習之外的別的方面,所以這些學生是較差的。
(5) 并不是來自家庭貧困的學生都是好學生,也不是來自家庭富裕的學生都是差學生,雖說大學生關鍵是靠個人的努力,學校的管理和督促對那一部分消費比較高的學生來說還是能起到一定的作用的。

5 結論
本文根據數字化校園系統中所存儲的學生信息,利用數據挖掘技術的決策樹方法分析了影響學生等級的重要因素,這只是數據挖掘技術在數字化校園系統中一個簡單的應用。如何充分地利用高校資源,把數據挖掘技術和數字化校園更好地結合起來是當前高校面臨的一個很重要的現實問題,從而達到提高教學質量和大學生素質的目的。
參考文獻:
[1] 陸炯.數字化校園的總體框架與若干關鍵技術的研究[D].南京大學:南京大學出版社,2004.
[2] Jiawei Han, Micheline Kamber.數據挖掘:概念與技術[M].北京:機械工業出版社,2001.
[3] 陳文偉,黃金才.數據倉庫與數據挖掘[M].北京:人民郵電出版社,2004.
收稿日期:2006-10-08
作者簡介:張治斌(1953-),男,河南洛陽人,高級工程師,主要研究方向為計算機應用。