徐飛,徐丹,張亞卓



摘 要:文章討論了基于信息熵的區間值模糊粗糙集的屬性約簡方法;采用基于信息熵的屬性約簡方法,以屬性重要性作為屬性約簡的重要啟發式信息,剔除重要性不足的指標,得到約簡后的研究生素質教育質量評價指標體系。
關鍵詞:研究生教育;評估指標體系;信息熵;區間值模糊粗糙集;屬性約簡
中圖分類號:G643 文獻標志碼:A 文章編號:2096-000X(2017)22-0071-03
Abstract: The paper formulated the reductive system of evaluation indicators of graduate training which is based on the attribute reduction of interval-valued fuzzy rough set. By eliminating the redundant indicators, the author obtained an evaluative index system of graduate training quality based on attribute significance of interval-valued fuzzy rough set. The indicator weights were generated and the comprehensive evaluation method of graduate training quality was proposed.
Keywords: graduate education; evaluative index system; weigh; interval-valued fuzzy rough set; attribute reduction
一、概述
近年來,研究生素質教育已經受到各培養單位的普遍關注,但推進研究生素質教育仍然不可避免要遇到各種觀念障礙和實際困難。同時,研究生素質教育的實際效果也不是一目了然,需要通過廣泛宣傳、教育評估等手段加以克服和呈現。開展教育評估是推進研究生素質教育的重要手段。開展教育評估有利于促進研究生素質教育目標的實現,提高教育成效,有助于促進教育主體主動開展研究生素質教育方面的改革和創新。
在決策評價等過程中由于人們對評價參數的不確定性難以度量,于是對所需要的決策屬性采取區間值而非單個數值來表示,進而減少決策信息的波動性、不確定性,保證決策的科學、合理,降低決策失誤的概率。
粗糙集理論是由波蘭數學家Z.Pawlak教授提出的一種解決信息不完備、不精確系統的有效數學工具,廣泛應用于數據挖掘、知識獲取等領域[4-5]。但是經典的Pawlak粗糙集模型中,信息系統的背景知識為一般的二元等價關系,所近似的概念為普通集合,這與實際應用中所處理的問題有一定的差距。Gorazlczany和Turksen在Zadeh模糊集的基礎上首次提出了區間模糊集的概念。
二、基于區間值模糊信息熵的屬性約簡
下面介紹區間值模糊數的相關知識。
設R是實數域,稱區間[a,a]為區間數,其中a,a?綴R,a?蕎a,當a=a時,區間數[a,a]退化成一確定的數值。
定義1 區間值模糊決策系統為四元組S=(U,C∪D,V,f)其中U={x1,x2,…,xn}是非空有限論域;C={c1,c2,…,cm}是條件屬性集,D=g0gggggg是決策屬性集;V=Vc∪VD,Vc是條件屬性集C的值域,VD為決策屬性集D的值域;f:U×C→VC為區間值映射,它指定論域U中每一個對象u?綴U在屬性 c?綴C上的區間值大小。
定義2 設S=(U,C∪D,V,f)為區間值模糊決策系統,其中U={x1,x2…,xn}是非空有限論域;P,Q是U上的區間值模糊等價關系(也即知識),U/P={[x1]p,[x2]p…,[xn]p},U/Q={[y1]Q,[y2]Q…,[yn]Q},?坌[xi]p?綴U/P,[yj]Q?綴U/Q則定義知識 的區間值模糊熵為
H(P)=-■■log2■,
知識Q相對于知識P的區間值模糊條件熵H(Q/P)定義為
H(Q|P)=-■■■■log2■,
其中|[xi]p|=■Rp(xi,xk),|[yj]Q|=■RQ(yj,yk)
定義3 設S=(U,C∪D,V,f)為區間值模糊決策系統, a?綴A?哿C,如果
H(D|A)=H(D|A-{a}),
則稱a在A中相對于D是不必要的;否則,即H(D|A)≠H(D|A-{a}),則稱a在A中相對于D是必要的。如果A中的每個屬性相對于D都是必要的,則稱A是獨立的。又稱C中所有的相對于D的必要屬性的集合為區間值模糊決策系統S的核,記作CORED(S) 。
定義4 設S=(U,C∪D,V,f)為區間值模糊決策系統, A?哿C,稱A是C的相對于D的一個區間值模糊熵約簡,如果A滿足
(1)H(D|A)=H(D|C),
(2)?坌a?綴A,H(D|A)≠H(D|A-{a})。
定義5 設S=(U,C∪D,V,f)為區間值模糊決策系統, ,a?綴A?哿C則屬性a在A中相對于D的基于區間值模糊信息熵的重要度定義為
Sig(a,A,D)=H(D|A-{a})-H(D|A)
易見,CORED(S)={a?綴C:Sig(a,A,D)≠0}。
對于基于區間值模糊信息熵的核屬性CORED(C),我們采用文獻[6]中的算法。
(1)令CORED(C)=?覫,
(2)計算每個屬性a?綴C在C中的重要性Sig(a,A,D)。若Sig(a,A,D)不為0,則CORED(C)=CORED(C)∪{a},最后得到的CORED(C)即為屬性集C的核集。
屬性約簡的步驟:
(1)記B=C;
(2)?坌a?綴B,計算Sig(a,B,D),然后選取使得
B-{a0};
(3)如果S是區間值模糊決策系統,則計算H(D|B),并判斷H(D|B)=H(D|C)是否成立,如果成立,轉到第二步;否則轉到第四步;
(4)B即為C的一個約簡。
三、指標體系的設計
(一)指標體系的建立
教育評估是對教育活動、教育過程及教育效果進行價值判斷的過程。因此,根據研究生素質教育的目標,構建研究生素質教育評估指標體系,對研究生培養單位各項素質教育活動的實際效果實施評估,即可對研究生素質教育的目標達成度進行判斷。素質教育作為一項教育活動,我們認為可以從教育條件、教育過程、教育效果三個方面來衡量或評估。(如圖1)。
(二)基于區間值模糊粗糙集的研究生教育質量綜合評價步驟
選取研究生素質教育質量綜合評價指標之后,結合上述區間值模糊粗糙集的基本理論,本文歸納出基于區間值模糊粗糙集的研究生素質教育質量評價步驟如下:
1. 根據建立的評價指標,對樣本(對象)的指標賦值,并將樣本及樣本的指標值(屬性值)組成一個信息矩陣;
2. 對規格化后的信息矩陣建立模糊相似關系R;
3. 采用bottom-up或者up-bottom的算法,利用模糊正域(或信息熵)求屬性集的一個約簡;
4. 計算約簡后的各屬性的權重,然后采用約簡后的各屬性作為指標評價系統;
(三)基于區間值模糊粗糙集的研究生教育質量綜合評價實現
本文通過問卷調查以及專家打分的方式,對哈爾濱工業大學(U1)、哈爾濱工程大學(U2)、東北農業大學(U3)、黑龍江大學(U4)、東北林業大學(U5)、哈爾濱理工大學(U6)六所高校的研究生素質教育質量的現狀進行了抽樣統計分析。
根據定義5,計算10個屬性的重要度如下:
Sig(c1,C,D)=0.0002,Sig(c2,C,D)=0.0249,Sig(c3,C,D)=0.0098,
Sig(c4,C,D)=0,Sig(c5,C,D)=0.0056,Sig(c6,C,D)=0.0046,
Sig(c7,C,D)=0,Sig(c8,C,D)=0,Sig(c9,C,D)=0,Sig(c10,C,D)=0.0944。
令B={c1,c2,c3,c5,c6,c10},可得H(D|B)=H(D|C)且?坌a?綴B,H(D|B)>I(D|B-{a}),從而B為C的一個約簡。
四、結束語
研究生素質教育評估指標體系的構建是一個復雜、系統的工程,到目前為止,在這方面的評估實踐還未有先例。本文在借鑒他人研究成果的基礎上建立了碩士生素質教育質量評價的指標體系,由于該評價具有多層指標體系,且各指標對評價結果的影響的重要性各不相同,故在指標的確定上首先基于區間值模糊粗糙集屬性約簡理論,對現有屬性進行約簡,去除不重要或無關的因素,然后以新的指標體系為研究對象,根據屬性的重要度,重新確立了各指標的權重。本文給研究生培養質量的評價提供了一套參考模式。
參考文獻:
[1]湛從昌,董艷清,顧志明,等.學位與研究生教育質量社會評估指標體系及方法的研究[J].武漢冶金科技大學學報(社會科學版),1999(3):57-59.
[2]金海燕,林偉連.研究生素質教育評估指標體系構建探析[J].中國高教研究報,2004,4:45-47.
[3]潘武玲,曹向飄.改進我國研究生教育質量評價指標體系之思考[J].高等教育研究學報,2005,28(4):52-55.
[4]Z.Pawlak.Rough sets[J].Int. J Inform Comput. Sci,1982(11):341-356.
[5]Z.Pawlak. Rough sets and intelligent data analysis[J].Information Sciences,2002(147):1-12.
[6]孫斌,王立杰.基于粗糙集理論的權重確定方法研究[J].計算機工程與應用,2006(29):216-217.
[7]李遠遠,云俊.基于粗糙集屬性重要性的指標約簡方法及改進[J].武漢理工大學學報(信息與管理工程版),2009(31):777-780.