摘 要:由于實際問題處理過程中,大多數數據具有動態模糊性,本文結合動態模糊格的基本理論及決策樹構建算法,建立了基于動態模糊格的決策樹算法,最后根據這一算法構建了學生學習能力評價模型,用以驗證該算法的有效性。
關鍵詞:動態模糊格;決策樹;算法
中圖分類號:O142 文獻標識碼:A 文章編號:1674-7712 (2014) 02-0000-02
一、動態模糊格的基本概念
德國的Wille教授于1982年首次提出了形式概念的數學理論,在他的著作中首次給出了概念格定理的相關證明,從而奠定了構造概念格的理論基礎。從那時起,關于概念格的形成方法、可視化研究及其應用就進入了眾多研究者的視線。隨著研究的深入,很多學者發現,需要處理的許多信息都是帶有不確定性的模糊的信息,如今天天氣不錯,你身體看起來很好,這個學生在校表現很好等。
基于這些問題,很多學者經過深入研究,現已構造了基于動態模糊的格概念,并建立了關于動態模糊格的一系列性質,如交換律、冪等律、結合律、吸收律,同時,還將動態模糊格根據不同情況分為:完備格、完全分配格、有補格、布爾格等多種類型。
二、決策樹生成算法
決策樹在數據挖掘中是一種經常用到的技術,既可以用于分析數據,也可以用于預測。它采用概率論的相關原理,使用樹形圖作為分析工具。決策樹反映了對象屬性及其屬性值之間的映射關系,樹中每個根結點表示一個屬性,每個葉子結點對應該屬性的屬性值。
決策樹生成的算法有很多,其典型算法有ID3,C4.5,CART等。本文將利用常見的決策樹生成的經典ID3算法,結合動態模糊格理論,構造動態模糊決策樹,以彌補傳統清晰決策樹不足的一些方面。
經典ID3算法的決策樹構建算法如下:
1.分別計算所有屬性的信息熵,將信息熵最小的屬性作為根結點;
2.同一結點中如果所有實例類型相同,那么表示他們是同一類,對應的這個結點就變為葉子結點;
3.如果一個結點上還存在未使用過的屬性,則(1)確定擴展屬性――那些沒有用過且信息增益最高的屬性;(2)產生葉子結點――那些信息增益小于給定值的屬性;(3)產生子結點――對當前結點按擴展屬性值精確劃分,得到其子結點;(4)遞歸上述(1)、(2)、(3)過程。如果該結點上所有屬性都使用過了,那么這個結點變為葉子結點;
4.由以上步驟就可以構造一棵決策樹。
三、動態模糊格值關系學習算法
根據動態模糊格的基礎理論,許多學者構建了動態模糊格值關系學習算法。
在上述決策樹學習問題中,其核心是用屬性-值對實例進行描述,在具體到動態模糊問題中,可以用動態模糊變量(Dynamic Fuzzy Variable)、動態模糊數(DynamicFuzzy Number)等對屬性和值進行描述和表達,這樣基于傳統清晰問題的決策樹描述可以擴展為動態模糊決策樹。
動態模糊格值關系學習算法的主要過程描述如下:
1.用動態模糊格表示研究對象及其相關信息;
2.對研究對象中每個條件屬性,根據其屬性值的不同,將其劃分成多個分支;
3.對每個條件屬性,計算將實例劃分為某類值的確定度,計算決策屬性的值為該類值的實例個數占總實例個數的比例;
4.根據計算所得到的條件屬性的分類確定度和決策屬性的比例,計算決策樹分類中條件屬性對應的值,該值的值域為0~1;將其中計算結果最小的屬性作為分支屬性,并對屬性進行相應劃分;
5.對上述劃分后的實例進行判斷,如各實例為同一類別,則將其確定為葉子結點;否則,轉到2.再次進行劃分、計算、判斷;對于已用于分支的屬性不再進行操作;
6.直到把所有實例分類完成,則整個決策樹構建完成。
四、學生學習能力評價模型
上述動態模糊格值關系學習算法是否能夠達到對經典ID3算法的優化呢?下面我們通過一個具體的實例來驗證一下。以學生學習效果調查的相關數據進行處理,構建學生學習能力評價模型,為學校、家長、用人單位了解學生提供參考依據。