吳梨梨
(1.福州大學數學與計算機科學學院 福建 350000;2.福州英華職業學院計算機系 福建 350018)
從20世紀80年代高職教育起步開始,高職教育在將近三十年的時間中慢慢的普及開來,成為了高等教育結構體系中不可缺少的一部分,對增進高等教育的普及起到了不可忽略的作用,也對社會培養高素質的技能型人才發揮了重要作用。但是在高職學生畢業后跟蹤調查中,會發現有很大一部分的學生在畢業之后并沒有從事跟本專業相關的職業。這里面的原因是多方面的,但是有一個原因需要我們的關注,那就是學生對所就讀的專業不滿意。部分高職學生由于對專業陌生而削弱了對專業的認識與學習;更多學生在選擇專業的時候完全是隨機或隨大流;還有一部分學生是缺乏學習某個專業所必須的某種技能,導致專業學習能力差,這些因素直接影響了對專業的學習,影響了后續就業的職業發展。在這種情況下,合理地引導學生認識專業、喜愛專業,是大學里教書育人的重要前提。同時我們也可以采用一些技術手段,對學生的專業傾向性進行分析,找出影響專業學習的因素,這樣就可以最大程度地避免在專業選擇上走彎路。
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程[1]。
數據挖掘最根本的任務就是從海量的原始數據之中對數據進行采集選擇,經過預處理后對目標數據作出數據挖掘,并解釋評價所得出的知識、模式。圖1展示了數據挖掘的一般過程。

圖1 數據挖掘的一般過程
數據挖掘方法是由人工智能、機器學習的方法發展而來,結合傳統的統計分析方法、模糊數學方法及可視化技術,以數據庫為研究對象,形成了數據挖掘的方法和技術[2]。包括:關聯規則方法、決策樹方法、神經網絡方法、粗糙集理論方法、遺傳算法、可視化技術等。
在本文中進行數據挖掘主要采用的是決策樹方法。決策樹具有分類直觀的優點,它分類速度快、分類精度高,具有可靠性,容易讀懂的特點,很適合對大型數據集進行分類。決策樹的分析結果既可以顯示為樹形結構的圖表形式,也可以被解讀為“IF→THEN”形式的規則,即使沒有算法基礎的使用者也可以很快理解它。
決策樹是由測試節點和終端節點組合成的集合。從圖形上看,決策樹首先是一個向下分支的樹形結構,在樹發起的頂端是整個用以分類的數據集,每一個分支出去的葉節點都對應著某一類,或者是某一個劃分,它們是父節點按某種條件分類、劃分后形成的子集,也就是說每一個節點都對應著某一個子集。決策樹的分枝是自上而下進行的,它尤其適合解決問題的分類或者對應某些條件導出的規則等。每一個分支節點都能體現出在它之上進行的屬性測試,按測試結果繼續分枝,直到達到葉節點位置。
決策樹分類的過程是一個不斷重復并向下移動的過程,它包含分裂與剪枝兩個階段。
首先,決策樹根據訓練數據集判定頂端根節點集合的存在,根據決策樹算法將節點中的數據元組經由屬性測試劃分為該節點上個體類的最好方法與策略。在這其中,每一個內部節點都有一個被標記的屬性,每一個葉節點都被表示為某一個類,同時每一個分支的弧都記錄一個相對于父節點的屬性值。分支過程是一個在N節點上不斷重復、不斷遞歸的過程。直到被分析數據集中的每個子集的記錄數據都屬于某一個類別或某一個類起壓倒性多數優勢,決策樹的分類算法才算停止?;蛘?,當事先設定好決策樹的分類準則,當生成的決策樹能滿足中國分類準則時,決策樹的算法也會停止。最終,形成宛如樹形結構的決策樹規則模型。
當決策樹生成后,可能因分類條件太多,而形成龐大的樹形結構,使用者一眼望去,觸目都是樹枝樹葉,難以分清主次、重要性。所以,當決策樹的分類完成后,要進行剪枝處理,把不明顯的、不能回答使用者問題的、由于噪聲而形成的分枝等枝葉剪出,得到清晰簡潔的樹形結構。決策樹剪枝時,應選擇分裂條件和修剪規則,以及控制參數——比如最小節點的大小,或最大輸的深度等——來限制決策樹。這里應注意的是,剪枝應該適度,某些“噪聲點”反而有可能是被忽略的規則,剪枝應慎重。
本文采用SPSS Clementine工具對某高職院校07-09級會計電算化專業的相關數據進行分析,得到影響學生的專業傾向性的因素。
SPSS Clementine工具軟件中的C5.0組件是基于ID3算法為內核的。
ID3算法是由 Quinlan首先提出的一種經典的決策樹分類算法對決策樹的其他算法有啟發意義與深遠的影響,有很多后來發展的決策樹算法就是在ID3算法的基礎上做的改進。
ID3算法以信息論為基礎,在決策樹中引入了一個很重要的概念——熵。在決策樹的分枝時,劃分后的子集的熵越小越好。
決策樹的基本功能是能夠從數據中歸類出分類模型,是一種自頂向下的,基于貪心算法進行搜索訓練的解法。另一個ID3算法的衡量標準是信息的增益度。決策樹在分枝時,在任意一個節點都評估各個屬性的信息增益。信息增益用以衡量熵的期望減少值。信息增益越大,熵的減少量也越大。以最大信息增益的那個屬性作為分枝屬性,以此來構造決策樹。
一個ID3算法的定義如下:

(2):假如同時有n個互相獨立的可能結果存在,它們存在的概率相同,其概率分布為則有:

記為由該分布傳遞的信息量稱為P的熵。
同時,該事物所具有的不確定量H(X) 為:

該公式記為香農信息量公式。一個等概率的二選一事件具有1比特的不確定性。任何一個事件能夠被分解為n個可能的二選一事件,因此它的信息量就是n比特。
(3)一顆決策樹能對一個例子做出正確類別判斷所需要的信息量記為:

(4)一個以屬性 A為根的決策樹中,A具有 v個值{v1,v2,…,vv},它將A分為v個子集{e1,e2,… ,ev},假設ei中含有pi個正例和ni各反例,那么子集di所需的信息期望是I(pi,ni),即以屬性A為根的信息增益公式為:

這一階段利用Clementine 用C5.0組件以專業傾向為目標進行建模。圖2展示對07-09級會計電算化專業學生的高考信息、分課程專業課成績等數據使用C5.0決策樹建模的結果。其中成績字段使用的是百分等級成績。

圖2 使用C5.0決策樹對07-09級會計電算化專業學生的信息建模的結果
總共生成4個有效的規則:

圖3 C5.0專業傾向規則集
生成的決策樹極其龐大,經由75%剪枝后,得到決策樹如下:

圖4 c5.0經由75%剪枝生成的決策樹
使用評估工具分析其正確性,得到的結果如圖5所示:

圖5 C5.0的正確性評估
模型的正確性在91.74%,結果較正確。
從C5.0的建模結果看到,有三門專業課對專業傾向性有極大影響,分別是財務管理、財務會計和會計電算化課程。相形之下高考分數、籍貫、科類、性別等入學信息并不占主導地位。
數據挖掘得到的知識并不是絕對,一般情況下是針對特定的領域的。本文通過某高職院校07-09級會計電算化專業的學生相關數據進行數據挖掘,得到了影響專業傾向性的相關因素。但是這個影響因素還不具備有廣泛的意義,想要得到對所有高職院校都有影響意義的結論,則加大參與數據挖掘的數據,并且參與數據挖掘的方法也要多選用幾種。
[1]李云松,羅斌.基于數據挖掘的高職高專生源分析系統設計與實現[J].滁州職業技術學院學報,2011,(01),12-14.
[2]陳文偉.數據挖掘技術[M].第 1版.北京:北京工業大學出版社,2002.