劉 丹 徐立新 李敬偉
(河南工學院計算機科學與技術學院 河南 新鄉 453003)
粗糙集理論[1]是由波蘭學者Pawlak提出的一種不確定性數據的分析工具,目前已廣泛地運用于分類學習、模式識別以及數據挖掘等領域[2-4]。同時粗糙集理論經過幾十年的研究,已在不同的領域和不同背景下進行了相關的改進與拓展,諸如概率粗糙集[5-6]、變精度粗糙集[7]、鄰域粗糙集[8-9]和模糊粗糙集[10]等。在這些拓展的粗糙集模型中,概率粗糙集是一種常用的粗糙集模型,它通過一對閾值來對經典粗糙集模型進行改進[5-6],因而使其具有容忍噪聲數據的特性,目前已引起學者們的廣泛研究[11-12]。Yao等[13]通過代價的角度來對概率粗糙集模型中的一對閾值進行學習,提出了決策理論粗糙集模型,并且基于該模型誘導出了一種特殊的決策方式,被稱之為三支決策[14]。三支決策相當于對傳統的二支決策進行擴展,它通過最小化代價的視角進行決策,其決策的結果分為三種情形,分別為接受、延遲和拒絕,這種形式開辟了一種嶄新的決策方法,在其他領域獲得了大量的應用[15-17]。目前決策理論粗糙集和三支決策已成為粗糙集理論研究的熱點。
根據粒計算[18]的視角,經典粗糙集模型以及各類的擴展模型都可以稱之為單粒度下的粗糙集模型。然而在現實的應用環境下,需要通過多層級和多視角對研究對象進行全方位的數據挖掘,因此Qian等[19]提出了多粒度粗糙集模型,為粗糙集理論的研究提供了全新的思路。為了在多粒度粗糙集模型中融入代價學習,Qian等[20]又提出了基于多粒度的決策理論粗糙集模型,該模型在多粒度數據挖掘和三支決策方面都是一種有效的工具。然而現實的應用環境是復雜多樣的,例如數值型數據和含缺失值數據的存在,使得傳統的多粒度決策理論粗糙集模型面臨著一定的挑戰。近年來,Li等[21]提出基于鄰域關系的決策理論粗糙集模型,為決策理論粗糙集模型處理數值型數據提供了一種有效的解決方案。而對于不完備數據,基于容差關系的粗糙集理論是一種常用的處理方法[8,22]。本文針對不完備的數值型數據,提出一種鄰域多粒度的決策理論粗糙集模型。首先在不完備數值型數據中建立鄰域容差關系,然后在其基礎上提出鄰域多粒度決策理論粗糙集模型,包括樂觀鄰域多粒度決策理論粗糙集和悲觀鄰域多粒度決策理論粗糙集。由于這兩種模型在粗糙逼近刻畫方面存在過于寬松和過于苛刻的局限性[23],因此又提出了一種平均鄰域多粒度決策理論粗糙集,克服了兩種模型的缺點,并分析了三種模型之間的相互關系。
三支決策建立在決策理論粗糙集模型的基礎上,其中模型中的閾值直接由給定的代價函數來確定[14],通常代價函數都是具體的數值。然而在不完備信息系統中,由于缺失值的存在,信息系統的不確定性將會進一步增大[24],但是在傳統的三支決策模型中,代價函數是一個具體的取值[25]。因此本文在不完備鄰域多粒度決策理論粗糙集模型的基礎上,通過區間值的形式來表示代價函數,然后通過一個參數來確定具體的代價函數值,從而誘導出對應的三支決策結果,本文稱之為可變三支決策,理論分析表明了該方法的正確性。最后本文通過一個具體的不完備數值型信息表的實例來分析所提出模型的有效性與優越性,同時對模型中的有關參數進行了分析與討論。
通常,粗糙集理論[1]研究的數據對象被稱為信息系統,一個信息系統表示為IS=(U,At,V),這里的U稱為論域,是一個非空有限對象集,At為全體屬性集,V為所有屬性的值域。當At=C∪D,且C∩D=?,其中C為條件屬性集,D為決策屬性集,那么此信息系統又稱為決策信息系統。當信息系統的條件屬性值均為連續型時,這類信息系統又稱為鄰域信息系統[9]。
經典粗糙集模型是處理不確定數據的一種有效工具,它通過等價關系對論域空間進行知識劃分,從而對不確定性的目標對象進行粗糙逼近[1],目前在機器學習和數據挖掘等領域發揮著重要的作用[4,8-10,15-16]。在粒計算視角下,經典粗糙集理論相當于以一種單粒度的視角對目標概念進行分析和描述,為了從多個視角來處理和分析問題,Qian等[19]提出了多粒度粗糙集模型。為了使多粒度粗糙集模型能夠處理鄰域信息系統,Lin等[26]又提出了鄰域多粒度粗糙集模型。
定義1[9]考慮一個鄰域信息系統IS=(U,At,V),B?At在論域U上誘導的鄰域關系定義為:
NδB={(x,y)∈U×UdB(x,y)≤δ}
(1)

在不引起混淆的情形下,下文適當略去鄰域半徑δ的標記。
定義2[26]考慮一個鄰域信息系統IS=(U,At,V),B1,B2,…,Bm?At是一個包含m個屬性子集的屬性子集族,它們誘導出的鄰域關系分別為NB1,NB2,…,NBm。對于目標近似對象集X?U,基于這m個鄰域關系的樂觀鄰域多粒度粗糙集的下近似和上近似分別定義為:

X∨…∨nBm(x)?X}
(2)
(3)

(4)
(5)
(6)
定義3[26]考慮鄰域信息系統IS=(U,At,V),B1,B2,…,Bm?At是一個包含m個屬性子集的屬性子集族,它們誘導出的鄰域關系分別為NB1,NB2,…,NBm。對于目標近似對象集X?U,基于這m個鄰域關系的悲觀鄰域多粒度粗糙集的下近似和上近似分別定義為:

X∧…∧nBm(x)?X}
(7)
(8)

(9)
(10)
(11)
目前鄰域多粒度粗糙集模型已成為多粒度粗糙集領域的一種重要的模型。
Yao等[5,13-14]以代價的理論為基礎,通過貝葉斯決策過程來確定概率粗糙集中的兩個閾值參數,推導出具有最小代價化的決策規則,即三支決策。
對于貝葉斯決策方法,定義一個非空有限狀態集為Ω={ω1,ω2,…,ωs},一個非空有限行為集為Γ={a1,a2,…,at},對于?x∈U,設對象x處于狀態ωj(1≤j≤s)的條件概率為P(ωjx),令λ(aiωj)表示x處于狀態ωj采取行為ai(1≤i≤t)時的代價函數(損失函數)。對于對象x,可以得到它采取行為ai的預期代價,表示為:
(12)
在決策理論粗糙集模型中,所研究的數據對象為信息系統,那么對象的狀態集可表示為Ω={X,~X},行為集可表示為Γ={aP,aB,aN},其中aP表示對象被分類到X的正區域,aB表示對象被分類到X的邊界域,aN表示對象被分類到X的負區域。由于決策理論粗糙集模型中只包含兩種狀態和三種行為,因此可以通過表格的形式去展示出每種狀態采取每種行為的代價函數,具體如表1所示。

表1 所有形式的代價函數
在表1中,λPP、λBP和λNP分別表示對象x隸屬于X時分別采取aP、aB和aN時的代價,λPN、λBN和λNN分別表示對象x不隸屬于X時分別采取aP、aB和aN時的代價,通過條件概率P(X[x])表示對象x隸屬于X的程度,這里的[x]表示對象x的等價類。因此可以得到對象x采取三種行為的預期代價,分別表示為:
R(aP[x])=λPP·P(X[x])+λPN·P(~X[x])
(13)
R(aB[x])=λBP·P(X[x])+λBN·P(~X[x])
(14)
R(aN[x])=λNP·P(X[x])+λNN·P(~X[x])
(15)
根據貝葉斯決策方法,可以得到如下三個最小化代價的決策規則:
(P) 如果R(aP[x]) R(aP[x]) (B) 如果R(aB[x]) R(aB[x]) (N) 如果R(aN[x]) R(aN[x]) 由于P(X[x])+P(~X[x])=1,這里Yao等[14]假設0≤λPP≤λBP≤λNP和0≤λNN≤λBN≤λPN,那么決策規則(P)、(B)和(N)可以進一步表示為: (P) 如果P(X[x])≥α且P(X[x])≥γ,那么x∈POS(X); (B) 如果P(X[x])<α且P(X[x])<β,那么x∈BUN(X); (C) 如果P(X[x])<γ且P(X[x])≤β,那么x∈NEG(X)。 其中: (16) (17) (18) 由于0≤β<γ<α≤1,因此: (P) 如果P(X[x])≥α,那么x∈POS(X); (B) 如果β (N) 如果P(X[x])≤β,那么x∈NEG(X)。 根據以上推導,Yao等給出了決策理論粗糙集模型上下近似的定義。 定義4[14]對于信息系統IS=(U,At,V),設代價函數如表1所示,令B?At,那么?X?U關于B的決策理論粗糙集模型的下近似與上近似分別定義為: (19) (20) 同時,X關于B的決策理論正區域、邊界域和負區域分別定義為: (21) (22) (23) Lin等[26]提出的鄰域多粒度粗糙集模型只能適用于完備型的鄰域信息系統。現實中包含缺失屬性值的鄰域信息系統大量存在[8],為了解決Lin的鄰域多粒度粗糙集模型的局限性,可以考慮將該模型在不完備鄰域信息系統進行拓展。近年來,Li等[21]提出了基于鄰域關系的決策理論粗糙集模型,因此在此基礎上,本文進一步提出不完備鄰域多粒度決策理論粗糙集模型。 (24) (25) 這里的α,β誘導方式同1.2節。類似地,X關于B的鄰域決策理論粗糙集正區域、邊界域和負區域分別定義為: (26) (27) (28) Qian等[20]提出了在完備型信息系統中提出了多粒度決策理論粗糙集模型,在Qian的基礎上結合定義5,提出一種不完備鄰域多粒度決策理論粗糙集模型。 在提出不完備鄰域多粒度決策理論粗糙集模型前,需要首先確定不完備鄰域信息系統中鄰域的定義,本文這里采用Zhao等[27]提出的鄰域容差關系。 定義6[27]稱IIS=(U,At,V)為不完備鄰域信息系統,利用“*”表示缺失的屬性值,即*∈V。設鄰域半徑為δ,定義B?At在論域U上的鄰域容差關系為: NTδB={(x,y)∈U×Ua(x)=*∨ a(y)=*∨d{a}(x,y)≤δ,?a∈B} (29) 根據Qian等[20]學者提出的樂觀多粒度決策理論粗糙集模型,在本節中,提出不完備信息系統下的樂觀鄰域多粒度決策理論粗糙集模型。 定義7對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,它們誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于目標近似對象集X?U,X關于m個鄰域容差關系的樂觀鄰域多粒度決策理論粗糙集的下近似和上近似分別定義為: P(XntB2(x))≥α∨…∨ P(XntBm(x))≥α} (30) β∧P(XntB2(x))≤β∧…∧ P(XntBm(x))≤β} (31) 同時,X關于m個鄰域容差關系的樂觀鄰域多粒度決策理論粗糙集的正區域、邊界域和負區域分別定義為: (32) (33) (34) 根據定義7中關于樂觀鄰域多粒度決策理論粗糙集模型的定義以及文獻[19-20],可以得到如下性質。 性質1對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于?X?U,滿足: (35) (36) 性質2對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于?X?U,滿足: (37) (38) 性質3對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于X1?X2?U,滿足: (39) (40) 根據Qian等[20]學者提出的悲觀多粒度決策理論粗糙集模型,這里同樣提出不完備信息系統下的悲觀鄰域多粒度決策理論粗糙集模型。 定義8對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于目標近似對象集X?U,X關于m個鄰域容差關系的悲觀鄰域多粒度決策理論粗糙集的下近似和上近似分別定義為: α∧P(XntB2(x))≥ α∧…∧P(XntBm(x))≥α} (41) β∨P(XntB2(x))≤ β∨…∨P(XntBm(x))≤β} (42) (43) (44) (45) 同樣地,悲觀鄰域多粒度決策理論粗糙集也滿足如下性質。 性質4對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于?X?U,滿足: (46) (47) 性質5對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于?X?U,滿足: (48) (49) 性質6對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于X1?X2?U,滿足: (50) (51) 根據定義7,在樂觀鄰域多粒度決策理論粗糙集中,下近似集中的元素只需任意滿足條件概率大于閾值α,而對于定義8中的悲觀鄰域多粒度決策理論粗糙集,其下近似集的元素必須滿足所有的條件概率大于閾值α,因此,這兩種下近似的定義存在著過于寬松和過于嚴格的缺陷。近年來,學者們也提出了一些改進的方法[20,23]。本節在文獻[20]的基礎上,提出一種平均鄰域多粒度決策理論粗糙集。 定義9對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于目標近似對象集X?U,X關于m個鄰域容差關系的平均鄰域多粒度決策理論粗糙集的下近似和上近似分別定義為: P(XntB2(x))+…+ P(XntBm(x)))/m≥α} (52) P(XntB2(x))+…+ P(XntBm(x)))/m≤β} (53) (54) (55) (56) 平均鄰域多粒度決策理論粗糙集滿足如下性質。 性質7對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于X1?X2?U,滿足: (57) (58) 性質8對于不完備鄰域信息系統IIS=(U,At,V),B1,B2,…,Bm?At是一個屬性子集族,誘導出的鄰域容差關系分別為NTB1,NTB2,…,NTBm。對于?X?U,滿足: (59) (60) (61) (62) P(XntB1(x))≥α∧…∧P(XntBm(x))≥α, 那么: (P(XntB1(x))+…+P(XntBm(x)))/m≥α, 所以式(60)成立。 P(XntB1(x))≤β∧…∧P(XntBm(x))≤β, 那么: (P(XntB1(x))+…+P(XntBm(x)))/m≤β, (P(XntB1(x))+…+P(XntBm(x)))/m≤β, 性質4揭示了這三種鄰域多粒度決策理論粗糙集之間的關系。從中可以看出,樂觀情形的下近似刻畫得較為寬松,使得下近似集較大,而平均情形的下近似適當限制了樂觀情形的定義,平均情形的下近似集小于樂觀的下近似集;悲觀情形下的下近似刻畫得較為嚴格,使得下近似集較小,而平均情形的下近似集放寬了悲觀下近似集的定義,使得平均情形的下近似集大于悲觀的下近似集。因此,針對樂觀和悲觀兩種模型的局限性,平均情形下的模型有著很大的改進。 決策偏好是一種重要的多屬性決策問題。在第2節中提出了三種鄰域多粒度決策理論粗糙集,這三種模型均通過閾值α和β來限制目標概念的粗糙近似,因此這里只需要對閾值的大小進行調整便可以達到決策的偏好程度。對于目標概念X,如果決策者是X厭惡型,那么可以提高閾值α,從而提高目標概念的逼近程度,反之則降低閾值α。同理對于目標概念~X,可以通過調整閾值β達到同樣的效果。而在所提出的模型中,閾值α和β直接由代價函數得到,因此對于決策偏好問題,本質上可以通過選擇適當的代價函數來實現,即決策厭惡型可以選擇高的誤分類代價,反之選擇低的誤分類代價。 第2節中給出了三種不完備鄰域多粒度決策理論粗糙集模型,每種模型都將論域劃分為三個互不相交的區域,即正區域、邊界域和負區域,基于這三個區域便可以導出鄰域多粒度決策理論粗糙集模型下的三支決策。 對于X?U,設POS(X)、BUN(X)和NEG(X)分別代表了各種不完備鄰域多粒度決策理論粗糙集模型下的三個區域。那么可以導出三種決策規則: 根據Yao提出的三支決策理論,代價函數是三支決策誘導的關鍵,通過代價函數,可以計算出一對閾值α和β,從而依據決策理論粗糙集模型對論域劃分成三個區域。目前的決策理論粗糙集模型基于完備信息系統構建,代價函數是一個事先給定的數值,但是在不完備信息系統中,由于缺失值的存在,信息系統的不確定性會進一步增大[24],這種不確定性的增大固然會產生代價函數也出現一定的不確定性[25],而傳統的代價函數是以固定值的形式給出,因而并不適用于不完備信息系統。為此,本文不再將代價函數設定為單一的數值,而是以一種區間值的形式來表現代價函數的這種不確定性,通過區間值的形式可以調控代價函數的大小,進而可以建立不同程度的三支決策。本文將這種決策誘導方式命名為可變三支決策。 表2 區間值代價函數 根據表2,可以得到如下關系: 類似于傳統的決策理論粗糙集模型,這里定義?x∈U采取三種行為的預期代價為: (63) (64) (65) 由于代價函數是以區間值的形式表示,因此得到預期代價結果也是一個區間值,即預期的代價結果在一個范圍內并不是確定的值。但是在實際應用中,需要得到一個具體的預期代價結果,因此就需要對預期代價區間值中取一個具體的值,為此,這里定義一種區間值的取值函數。 定義10設區間值ω=[a,b],定義函數ξk(ω)=a+k·(b-a),這里的0≤k≤1。 在定義10中,函數ξk(ω)通過k在區間值[a,b]中進行取值,當k=0時,ξk(ω)=a,當k=1時,ξk(ω)=b,當0 根據定義10,可以進一步得到: 類似于經典決策理論粗糙集模型,有: 所以: 同理: 這里令: (66) (67) (68) 那么有: 本節將通過一個具體的實例來分析本文所提出的模型。實例所選取的是一個大學生三好學生評估表,眾所周知,大學生的三好學生的評估將從思想品德、課程成績以及社會實踐等不同方面對學生進行綜合評估,因此這符合了多粒度粗糙集模型實際應用的基本視角,同時加入三支決策的思想,可以使得問題的處理更加科學合理。 表3為一個某專業12名同學的思想品德、課程成績以及社會實踐三方面測評信息表IIS=(U,At,V),其中的成績值均為歸一化至[0,1]區間的結果。該表中包含6個屬性,即{a1,a2,b1,b2,c1,c2},并被分為三大類,其中A={a1,a2}表示兩位老師對每位同學的思想品德測評結果,由于有的老師對個別同學不熟悉,因此很難給出具體的評分,所以成績出現了空缺,表中用“*”表示。B={b1,b2}表示每位同學期中和期末考試的綜合成績,由于個別同學未參加,因此也出現了部分空缺。C={c1,c2}表示兩位老師對每位同學的社會實踐評分,同樣存在個別的空缺。對于表3中的決策屬性class,其中決策值為1的學生表示最有可能獲得三好學生的同學。 表3 三好學生測評信息表 將決策值為1的集合設為X={u2,u4,u6,u8,u10,u12},本實例分析的狀態集為Ω={X,~X},行為集為Γ={aP,aB,aN}。該高校的教務部門給出的三好學生測評代價函數如表4所示,由于有缺失值的存在,因此所示的代價函數是一個區間形式,便于各專業選取和調整。 表4 三好學生測評代價函數 采用本文所提出的不完備鄰域多粒度決策理論粗糙集對其進行建模,取屬性集A、B和C作為該模型的三個粒度層次,它們誘導出的鄰域容差關系分為NTA、NTB和NTC,然后根據NTA+NTB+NTC三個粒度針對X進行多粒度決策理論粗糙逼近,得到X的三個區域,即正區域、邊界域和負區域。由于本文提出了多粒度決策理論粗糙集的三種具體模型,分別為樂觀模型、悲觀模型和平均模型,因此對于樂觀模型,三個區域記為POSO(X)、BUNO(X)和NEGO(X);對于悲觀模型,三個區域記為POSP(X)、BUNP(X)和NEGP(X);對于平均模型,三個區域記為POSM(X)、BUNM(X)和NEGM(X)。由于該模型運用的代價函數是區間形式,針對定義10中的ξk函數,本實例分析將其中的k值在[0,1]區間以步長0.2依次取值,然后根據對應的代價函數分別進行實驗,依次觀察k對最終結果的影響。另外,對于該模型的鄰域容差關系,本實驗設定鄰域半徑為0.1。表5、表6和表7分別為對象集X關于NTA+NTB+NTC的樂觀、悲觀和平均模型取不同k值的三個區域結果。 表5 樂觀鄰域多粒度決策理論粗糙集三個區域 表6 悲觀鄰域多粒度決策理論粗糙集三個區域 表7 平均鄰域多粒度決策理論粗糙集三個區域 表5為X在樂觀鄰域多粒度決策理論粗糙集的三個區域,根據三支決策模型,即POSO(X)中的學生直接評定為三好學生,BUNO(X)中的學生有待進一步進行考察,而NEGO(X)中的學生直接不評定為三好學生。觀察表5可以發現,無論k取何值時,三個區域始終都保持不變,即在此評測表中,最終的評測結果不隨著代價的變化而變化。同時有POSO(X)=X,表明原先可能評為三好學生的同學都評定為三好學生,BUNO(X)={u1,u3,u5,u9,u11}表明這些同學處于待定狀態,而只有NEGO(X)={u7}是直接不評定為三好學生。這樣的評定結果剛好符合樂觀鄰域多粒度決策理論粗糙集的“樂觀”態度,在表3中,{u2,u4,u6,u8,u10,u12}中的同學都至少有一個成績滿足>0.7,該模型直接判定為三好學生,其余的大部分都進入待定狀態,而只有一個是直接拒絕。這主要是由于樂觀模型中,只要有一個粒度下對象的鄰域容差類的包含度滿足大于對應閾值,那么該對象便屬于正區域中,而所有粒度下對象的鄰域容差類的包含度滿足小于對應閾值,該對象才隸屬于負區域,這樣使得正區域的定義比較松弛,而負區域的定義比較苛刻,因而出現了表5中的評定結果,并且受代價函數的變化影響較小。所以對于不嚴格的三好學生評定,那么該模型是一個較好的選擇。 表6為X在悲觀鄰域多粒度決策理論粗糙集的三個區域,觀察發現,隨著k取值的變化,三個區域始終都保持不變,即在此評測表中,最終的評測結果不隨著代價的變化而變化。對于評測結果,POSP(X)為空集,即沒有任何一個同學直接評定為三好學生。BUNP(X)=X,即原先有較大可能評定為三好學生的同學都進入了待定狀態,其余的同學直接拒絕評定為三好學生,這與表5中的結果相反,體現出了悲觀鄰域多粒度決策理論粗糙集的“悲觀”態度,{u2,u4,u6,u8,u10,u12}中的同學雖然都有一個成績滿足>0.7,但是也都存在成績<0.7,從而進入待定狀態。這主要是由于悲觀模型與樂觀模型的定義相反,正區域的定義比較苛刻,負區域的定義比較松弛,因而出現了表6中的評定結果,同樣受代價函數的變化影響較小。所以對于嚴格的三好學生評定,應選擇該模型進行評定。 綜合分析表5、表6和表7的結果,可以得出,所提出的樂觀鄰域多粒度決策理論粗糙集和悲觀鄰域多粒度決策理論粗糙集在三個區域劃分的嚴格程度方面,都存在一定的缺陷。而所提出的平均鄰域多粒度決策理論粗糙集對如上兩個模型的缺陷都進行了一定的改善,同時針對不完備數據提出的區間代價函數,并通過取不同k值的方式得到了不同程度的三支決策規則,為本文所提出的模型又增添了一份靈活性。 在本文所提出的不完備鄰域多粒度決策理論粗糙集模型中,其中鄰域容差關系是處理數值型不完備數據的關鍵,其中包含一個鄰域半徑δ的參數,它的取值不同將會對模型的處理結果產生一定的影響,因此接下來將探究鄰域半徑δ對實例結果的影響以及如何選取最佳的取值問題。 表3中的評測成績值已歸一化入0~1之間,因此將鄰域半徑在[0.05,0.55]之間以0.05為步長進行取值,k值在[0,1]區間以0.1為步長進行取值,然后將每一組鄰域半徑和k值的參數分別賦入模型中,計算對象集X的三個區域。其結果如圖1、圖2和圖3所示,圖1表示的是樂觀模型下不同鄰域半徑和k值的三個區域結果,圖2表示的是悲觀模型下不同鄰域半徑和k值的三個區域結果,圖3表示的是平均模型下不同鄰域半徑和k值的三個區域結果。 (a)POSO(X) (b)BUNO(X) (c)NEGO(X)圖1 樂觀鄰域多粒度決策理論粗糙集模型三個區域大小變化 (a)POSP(X) (b)BUNP(X) (c)NEGP(X)圖2 悲觀鄰域多粒度決策理論粗糙集模型三個區域大小變化 (a)POSM(X) (b)BUNM(X) (c)NEGM(X)圖3 平均鄰域多粒度決策理論粗糙集模型三個區域大小變化 在圖1所示的樂觀鄰域多粒度決策理論粗糙集模型三個區域大小變化中,對于同一個k值,隨著鄰域半徑的逐漸增大,正區域POSO(X)是逐漸減小的,當δ=0.55時,POSO(X)幾乎為空集;負區域NEGO(X)也是逐漸減小的,并且當δ≥0.15時,NEGO(X)都為空集;而邊界域BUNO(X)滿足逐漸增大的趨勢,并且最終BUNO(X)=U,這表明過大的鄰域半徑會使得所有的同學都處于進一步考察狀態,因此這不符合預期的評測目的。在圖2所示的悲觀鄰域多粒度決策理論粗糙集模型三個區域大小變化中,隨著鄰域半徑的逐漸增大,正區域POSP(X)都為空集,NEGP(X)也是逐漸減小的,邊界域BUNP(X)滿足逐漸增大并且最終滿足BUNP(X)=U,與樂觀模型中出現了同樣的結果。圖3所示的平均模型也是滿足同樣的規律。因此綜合三類模型的實驗結果可以發現,選取過大的鄰域半徑將會對最終的判定結果產生很大的誤差,觀察各圖結果可以看出最佳的鄰域半徑可選取為0.1~0.2。由于本實例中信息表的屬性值都歸一化至[0, 1]區間,因此實驗中得到的最佳鄰域半徑具有一定的一般性,并且文獻[8-9,27]通過大量實驗也得出的最佳鄰域半徑選取為0.1~0.2,因此本文所提出模型中鄰域半徑應選取為0.1~0.2。 針對數值型數據和包含缺失值數據等復雜的數據環境,本文將多粒度決策理論粗糙集模型在不完備數值型數據下進行推廣,提出了樂觀鄰域多粒度決策理論粗糙集、悲觀鄰域多粒度決策理論粗糙集以及平均鄰域多粒度決策理論粗糙集,并分析了三種模型的相關性質以及相互關系。同時針對不完備信息系統下決策理論粗糙集模型中代價函數面臨的局限性,本文提出了一種可變三支決策,它主要通過區間形式來表示代價函數,然后通過選取不同參數誘導出不同的三支決策結果,使得這種三支決策誘導方法具備了更好的靈活性,最后的實例分析表明了所提出模型與方法的實用性與合理性。本文所提出的模型適用于較為復雜數據環境下的多粒度分析與決策分析,是針對靜態的數據建立的,因此接下來將對動態數據環境下作進一步研究。2 不完備鄰域多粒度決策理論粗糙集


2.1 不完備樂觀鄰域多粒度決策理論粗糙集模型







2.2 不完備悲觀鄰域多粒度決策理論粗糙集模型







2.3 不完備平均鄰域多粒度決策理論粗糙集模型












3 可變三支決策

























4 實例分析















5 結 語