[摘要] 粗糙集不依賴于數據集之外的附加信息,是處理含有噪聲、不精確、不完整數據的有力工具,是一種新的數據挖掘技術。首先,本文介紹了粗糙集理論和決策表約簡算法,然后采用粗糙集數據挖掘技術對多指標教學質量進行評價,挖掘出數據背后隱含的規則。
[關鍵詞] 粗糙集; 屬性約簡; 值約簡; 教學質量評價
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 22. 049
[中圖分類號]G642 [文獻標識碼]A [文章編號]1673 - 0194(2011)22- 0086- 02
0引言
粗糙集理論是1982年由波蘭科學家Pawlak提出的一種新型的處理模糊和不確定知識的數學工具[1]。經典粗糙集的理論基礎是不可分辨關系,將分類理解為在特定空間上的等價關系。粗糙集的精髓是屬性約簡,在保持知識庫分類能力完全不變的條件下,刪除其中不相關或不重要的屬性。
1粗糙集理論的基本概念
1.1信息系統的定義
用四元組S = (U,A,V,f)表示一個信息系統,其中,U表示一組對象的非空有限集合,稱為論域。A表示屬性的非空有限集合,A = CIDIDII,其中C為條件屬性,D為決策屬性。V表示屬性a的值域。信息函數f:U × AIV為對象的屬性到其值的映射。這種知識表達系統也稱作決策表。如果有相同條件屬性的對象其決策屬性也相同,則稱為相容決策表,否則稱為不相容決策表。
1.2等價類的定義
若R是非空集合A上的等價關系,則A上互相等價的元素構成A的若干個子集,就是等價類。如A = { 1, 2, … , 8 }上模 3 等價關系的等價類:[1] = [4] = [7] = {1,4,7},[2] = [5] = [8] = {2,5,8},[3] = [6] = {3,6}。
1.3近似集的定義,X的下近似
R*(X) = {x:(x∈U)∧([x]R?哿X )},X的上近似:R*(X)={x:(x∈U)∧([x]R∩X≠?準)}。下近似包含了所有使用知識R可確切分類到X的元素,上近似則包含了所有那些可能是屬于X的元素。表1為感冒及其影響因素的決策表。
R = {頭疼,體溫}
U/R= {{X1},{X2},{X3},{X4},{X5,X7},{X6,X8},X1 = {u | 感冒 = yes} = {X2,X3,X6,X7},圖1表示X1的上近似與下近似。
2一致決策表的約簡
在對決策表進行約簡前,要將不一致的決策表轉化成一致的。基于粗糙集理論的知識發現,主要是保證約簡后的決策表與約簡前的決策表具有相同的功能,包括屬性約簡和值約簡。
2.1屬性約簡
粗糙集理論研究的主要內容之一就是屬性約簡,在數據庫中,條件屬性對于決策屬性的重要性是不相同的,甚至有些屬性是多余的,大量不相關屬性的存在增大了數據挖掘的難度,使分類的準確率降低。常見的屬性約簡算法有以下兩種。
2.1.1直接求核集算法
輸入:相容決策表DT = <U,A,V,f>,A=C∪D是屬性集合;
輸出:約簡的屬性集。
步驟
Step 1對每一條屬性ai∈C,計算POS{c-{ai}}(D)。
Step 2如果POS{c-{ai}}(D)= POSc(D),則稱屬性ai在C中是關于D可省的,可以從決策表中刪除。
Step 3否則稱屬性ai在中C中是關于D不可省的,應該保留。
Step 4重復前三步,直到屬性集合不在發生變化,終止算法。
該算法有很大的局限性,起搜索空間和時間的代價都很大,不利于有過多個屬性的決策表的約簡。
2.1.2基于差別矩陣的求核約簡算法
令S=(U, A, V, f)為一信息系統,A = C∪D,論域U中元素的個數 | U | = n,| C | = m,S的分辨矩陣M定義為一個n階對稱矩陣,其i行j列處元素定義為:
mij{ak | ak∈C∧ak(xi) ≠ ak(xj)}, d(xi) ≠ d(xj)0,d(xi) ≠ d(xj)?準,ak(xi) = ak(xj),d(xi) ≠ d(xj)
即mij是能夠區別對象xi和xj的所有屬性的集合。當兩個樣本的決策屬性取同時,對象值為0;當兩個樣本的決策屬性不同且可以通過某些條件屬性的取值加以區分時,對象值為這兩個樣本屬性值不同的條件屬性集合。
可辨識矩陣屬性約簡算法:
輸入:相容決策表DT = <U,A,V,f >,A = C∪D是屬性集合;
輸出:約簡的屬性集。
步驟:
Step 1計算決策表的可辨識矩陣MD;
Step 2對于可辨識矩陣中所有取值為非空集合的對象Mij,建立相應的析取邏輯表達式Tij。
Step 3將所有的析取邏輯表達式Tij進行合取運算,得到一個合取范式T。
Step 4將合取范式T轉換為析取范式的形式。
Step 5輸出屬性約簡結果。
基于可辨識矩陣和邏輯運算的屬性約簡算法可以得到決策表的所有可能的屬性約簡結果,它實際上是將對屬性組合情況的搜索演變成為邏輯公式的簡化。
2.2值約簡
在判斷某個對象屬于某類時,其屬性的取值不同,對分類產生的影響也不同。例如,判斷一個人的飯量(大、中、小)時,每頓飯的食量是主要屬性。但若食量屬性值為3時(即每頓飯吃3個饅頭),此人的飯量要結合其年齡、性別等屬性才能確定。如果食量屬性值為8時,幾乎可以確定此人飯量很大,這時年齡、性別屬性已不重要。對于決策表而言,屬性值的約簡就是決策規則的約簡。
3基于粗糙集的教學質量評價
3.1教學質量評價管理的內容要求
教學工作是有目標的系統工程,只有建立科學合理的評價體系,準確地對教師的教學水平進行評價,才能有針對性地加強對個別教師的督促。本文主要討論對教師教學質量的評價,有以下4個指標。
(1) 平均成績:假設每位數學老師教兩個班級,每個班級50名學生,則計算這100名學生的平均成績,進行老師間橫向比較。
(2) 優秀人數:對照優秀標準,按班級優秀人數測算優秀率。若優秀率在30%以上,則認為優秀人數多;否則認為優秀人數少。
(3) 及格人數:測定樣本的及格率,若及格率在70%以上,則認為及格人數多;否則認為及格人數少。
(4) 抽測成績:在100名學生中隨機抽取10名學生,若5個以上的學生在85分以上,則認為抽取成績高;否則認為抽取成績低。
3.2粗糙集的應用
表2為一個數據記錄表,通過測定平均成績,及格人數,優秀人數和抽取成績來判斷6位老師的教學水平。
其中,條件屬性集為{a,b,c,d},決策屬性集為{e}。屬性及屬性值的含義為:
平均成績a,50~60——0,60~70——1,70~80——2;及格人數b,70%以上——1,70%以下——0;優秀人數c, 30%以上——1,30%以下——0;抽取成績d,50%在85分以上——1,其補集——0;教學水平e,好——1,不好——0。
首先,用分辨矩陣直接求核集。教學評價決策表所示是一個知識系統,U = {U1,U1,…,Un}是論域,C = {a,b,c,d}是條件屬性集,D = {e}是決策屬性集,P = C + D。則其相應的分辨矩陣為:
D = cdacdabcdabdabcda ababcab ababcb caac
其次,從分辨矩陣中可以得出,由于D = {e}是決策集,不需要約簡,約簡的是條件集合C,根據差別矩陣的求核約簡算法求出該知識系統的核集為{a,b,c}。該約簡求核集的方法可以在計算機上實現。本實例比較簡單,也可以用直接求核集算法。經約簡后的決策表(見表3)。
再次,約簡值,對于決策規則1,[1]a={1,2}, [1]b ={1,2,3}, [1]c={1,5}, [1]e={1,2},其中:[1]a∩[1]b={1,2 }∩ {1,2,3}={1,2}[1]e,則c0(表示c屬性值為0)可約;[1]a∩[1]c={1,2}∩{1,5}={1}[1]e,則b0可約;[1]b∩[1]c = {1,2,3 }∩{1,5}={1}[1]e,則a0可約;對于決策規則2,[2]a = {1,2}, [2]b = {1,2,3},[2]c = {2,3,4,6},[2]e = {1,2}。其中:[2]a∩[2]b = {1,2}∩{1,2,3} = {1,2} [2]e,則c1是可約的;[2]a∩[2]c = {1,2}∩{2,3,4,6} = {2}[2]e,則b0是可約的;[2]b∩[2]c = {1,2,3}∩{2,3,4,6} = {2,3}[2]e,則a0不可約;其邏輯語義表示為:a0b0Va0c1e0。同理,決策規則3推出:a1不可約,b0可約,c1不可約,其邏輯語義為: a1c1Va1b0c1e1. 決策規則4推出:a1,b1,c1均可約;決策規則5推出:a2,b1,c0均可約;決策規則6推出:a1,b1,c1均可約。經過上述約簡得到了最小決策算法,它的邏輯語義為:a0b0Va0c1-e0和a1c1Va1b0c1-e1。用自然語言表示為:若平均成績50~60且及格人數在70%以下或者平均成績50~60且優秀人數在30%以下的老師被認為教學質量不好;若平均成績在60~70且優秀人數在30%以上或者平均成績60~70且及格人數在70%以下且優秀人數在30%以上的老師被認為教學質量好。
4結束語
粗糙集的生命力在于有較強的實用性,不需要附加信息和先驗知識,使評價結果更加客觀公正。本文主要論述了粗糙集的理論知識和基于粗糙集的決策表約簡算法,分析了評價教師教學水平的指標,在此基礎上提出了4個成績指標,并就基于粗糙集的數據挖掘技術在教學質量評價中的應用進行了簡單的探討。
主要參考文獻
[1] Pawlak Z. Rough Sets:Theoretical Aspects of Reasoning About Data[M]. Boston,MA:Kluwer Academic Publishers,1991.
[2] [加]Jiawei Han. 數據挖掘概念與技術[M]. 范明,譯. 北京:機械工業出版社,2005.
[3] 劉翔. 數據倉庫與數據挖掘技術[M]. 上海:上海交通大學出版社,2005.
[2] 黃麗萍. 基于粗糙集的屬性約簡與規則提取[D]. 廈門:廈門大學,2007.
[3] 張靜. 基于粗集理論的數據挖掘方法及應用研究[D]. 大連:大連理工大學,2007.
[4] 唐建國, 譚明術. 粗糙集理論中的求核與約簡[J]. 控制與決策,2003,18(4):449-452.
[5] 陳曉紅,陳嵐. 基于粗糙集理論的知識約簡及應用實例[J]. 大學數學,2003,19(4):68-73.