駱公志,梅 燾
南京郵電大學 管理學院,南京 210003
粗糙集理論作為一種有效處理不精確和不確定性信息的有效工具[1],當前已廣泛應用于數據挖掘、聚類分析、預警系統和圖像處理等領域[2-5]。經典Pawlak 粗糙集將論域分為正域和邊界域的集合,而未恰當解釋決策類的負域,導致經典粗糙集中負域恒為空。
鑒于經典Pawlak 粗糙集存在無法描述決策類負域的問題,Yao 在長期研究概率粗糙集過程中,用概率粗糙集將論域分為三個區域[6],即正域、負域和邊界域,提出符合人類實際認知能力的三支決策模式,并依據貝葉斯最小風險決策規則,定義概率粗糙集中兩個參數在現實里的語義解釋,建立決策粗糙集模型[7-8]。之后有學者針對Yao 的三支決策模型并未考慮決策時所遇到的多樣性以及適應性的現實問題,將其引入到鄰域[9]、動態粒度[10-11]、群決策[12]等方面。
技術上的進步促進了信息科技的飛速發展,隨之導致了信息處理量的劇增,梁吉業等學者針對單一粒度空間下粗糙集的缺點,考慮粒計算[13]下多粒度的特點,提出了多粒度粗糙集[14],同時定義了悲觀多粒度粗糙集和樂觀多粒度粗糙集[15-16]。由于多粒度粗糙集模型不但可以處理分布式數據[17-18],且在處理時間上呈現出更加高效的特性,因此在應用上有更加寬廣的前景。Dai 等針對多粒度粗糙集的屬性約簡問題,將粒子群算法引入其中,提出一種新的多知識快速約簡方法[19]。Jing 將知識粒度與視圖相結合,提出新的增量式屬性約簡方法[20]。
錢宇華等學者進一步將多粒度數據分析的理念引入決策粗糙集中,建立了多粒度決策粗糙集模型[21-23]。史進玲從決策信息表視角出發,著眼于粒度劃分數量和?;瘺Q策權重,提出了基于風險最小化的多粒度三支決策模型[24]。Wu針對多粒度標記信息系統考慮了不同標記尺度,提出了多粒度劃分粗糙集分析方法[25]。顧沈明在多粒度標記信息系統的前提下,尋求單個粒度的最優點,提出了多粒度決策系統下的局部最優粒度選擇[26]。Li 從集合近似的角度出發,將多粒度與三支決策相結合,給定了一種新的學習認知概念[27]。
傳統多粒度決策粗糙集使用單一閾值,大大限制了對論域?;约敖档托畔⒉淮_定性的能力。本文借助監督學習中對象現有或預測的標記信息[28],引入類內閾值和類間閾值的概念,結合多粒度數據分析的優勢,構建新的多粒度決策粗糙模型,提出了基于監督機制的多粒度決策粗糙集,驗證了模型的相關性質,并討論了模型之間的關系。該模型是傳統多粒度決策粗糙集的推廣形式,通過理論分析和實例證明,該模型可以通過變更類內閾值和類間閾值來提升多粒度決策粗糙集刻畫不確定性知識的能力,幫助優化決策,具有更好的實用性。
設信息系統S=<U,A=C?D,V,f >,A=C?D,其中U={x1,x2,…,xn}為有限對象集,稱為論域;A表示全體屬性集,C為條件屬性集,D為決策屬性集,Va為屬性a∈A的值域,f(x,a)表示對象x在屬性a上的取值。
定義1[1]設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中屬性子集Ai?A,可構成二元不可分辨關系:

IND(A)稱為自反的、對稱的和傳遞的。
定義2[6]設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中屬性子集Ai?A,對于任意X?U,決策粗糙集的下近似、上近似和邊界區為:

其中:0 ≤β < α≤ 1 。
定義3[15]設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集,對于任意X?U,樂觀多粒度粗糙集的下近似、上近似和邊界區分別為:

定義4[16]設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集,對于任意X?U,悲觀多粒度粗糙集的下近似、上近似和邊界區分別為:

為區分類內關系和類外關系,本文在已有研究基礎的前提下,給出參數λ的定義:即X與Y的交集超過一半及以上可判定為類內,否則判定為類外。
本文規定當P(Dk|[x]Ai)>λ時,采用類內閾值α0、β0,否則采用類間閾值α1、β1。
定義5設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0<α0≤ 1 ,0 ≤β1≤β0≤α1≤1 。Dk的關于屬性子集A1,A2,…,Am的樂觀多粒度監督決策粗糙集的下近似、上近似以及邊界區為:

當α0=1,α1=β1=β0=0 時,基于監督機制的樂觀多粒度決策粗糙集退化為傳統的樂觀多粒度粗糙集。為降低信息的不確定性,采用如下方法:使類內閾值α0等于傳統下近似閾值α,減小類間閾值α1,即0 ≤α1<α0≤1。
定理1設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 ??芍?/p>

證明


同理可證(2)。
由定理1可知,基于監督機制的樂觀多粒度決策粗糙集的下、上近似是各粒度分類規則下的下、上近似集合的并。
定義6設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0<α0≤ 1 ,0 ≤β1≤β0≤α1≤1。Dk的關于屬性子集A1,A2,…,Am的悲觀多粒度監督決策粗糙集的下近似、上近似以及邊界區作如下定義:

當α0=1,α1=β1=β0=0 時,基于監督機制的悲觀多粒度決策粗糙集退化為傳統的悲觀多粒度粗糙集。為降低信息的不確定性,采用如下方法使類內閾值α0等于傳統下近似閾值α,減小類間閾值α1,即0 ≤α1<α0≤1。
定理2設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。可知:

證明

同理可證(2)。
定理3設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。可知:

證明

同理可證(2)。
由定理3可知,基于監督機制的悲觀多粒度決策粗糙集的下、上近似是各粒度分類規則下的下、上近似集合的交。
定理4設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。則基于監督機制的多粒度決策粗糙集有如下性質:

證明由定義5和定義6可得。
定義7設S=<U,A=C?D,V,f >是一個完備的決策信息系統,其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。且類內閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。則集合X在樂觀與悲觀條件下的分類精度作如下定義:

分類質量分別定義為:

為說明該算法的可行性和有用性,本章將基于監督機制的多粒度決策粗糙集應用于工地項目建設后的評價問題??紤]15個已經完成的工地項目,表1從三個一級指標:項目建設質量評價、技術評價、環境保護評價,以及相對應的8個二級指標(以分號劃分):樁基工程質量、基礎工程質量、主體工程質量;工藝流程、工藝路線、工藝創新;“三廢”排放情況、環保設施運行狀況進行判別,從而得到的關于工地項目建設后的評估數據表。
將整個評估表看做一個完備決策信息系統,論域U={x1,x2,…,x15}表示15個已經完成的工地項目,條件屬性集合C={a1,a2,a3,a4,a5,a6,a7,a8} ,決策屬性集合D={D1,D2}分別表示驗收通過和不通過,并分別用1和2表示,決策信息系統的條件屬性子集族為R={R1,R2,R3}={{a1,a2,a3},{a4,a5,a6},{a7,a8}}。其中評價指標被分成4類e={1,2,3,4},分別表示e={優,良,中,差}。

表1 工地項目建設評價
基于專家經驗,在這里以β0=0.45,β1=0.4,λ=0.5為例,調整類內閾值α0和類間閾值α1,獲取不同情況下基于監督機制的多粒度決策粗糙集的下、上近似集。
步驟1根據決策屬性D劃分決策類如下:

步驟2在條件屬性集子集族下,根據表1劃分等價類如下:

根據定義5~7,計算基于監督機制的多粒度決策粗糙集的下近似和上近似分別如下。
(1)當α0=0.8,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時 ,基于監督機制的樂觀多粒度決策粗糙集的下、上近似求得為:


基于監督機制的悲觀多粒度決策粗糙集的下、上近似求得為:

(2)當α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5時,基于監督機制的樂觀多粒度決策粗糙集的下、上近似求得為:

基于監督機制的悲觀多粒度決策粗糙集的下、上近似求得為:

(3)當α0=0.55,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時,基于監督機制的樂觀多粒度決策粗糙集的下、上近似求得為:


基于監督機制的悲觀多粒度決策粗糙集的下、上近似求得為:

(4)當α0=0.7,α1=0.4,λ=0.5 時,此時α1< β0=0.45,因此只考慮下近似,基于監督機制的樂觀多粒度決策粗糙集的下近似求得為:

基于監督機制的悲觀多粒度決策粗糙集的下近似求得為:

(5)當α0=0.7,α1=0.25,λ=0.5 時,此時α1< β0=0.45,因此只考慮下近似,基于監督機制的樂觀多粒度決策粗糙集的下近似求得為:

基于監督機制的悲觀多粒度決策粗糙集的下近似求得為:

步驟3以基于監督機制的樂觀和悲觀多粒度決策粗糙集為例,求得三種情況下決策類的分類質量。
(1)當α0=0.8,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時:

(2)當α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時:

(3)當α0=0.55,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時:

以β0=0.45,β1=0.4,λ=0.5 為例,求得三種不同類內閾值情況下,基于監督機制的樂觀多粒度決策粗糙集的分類質量均為100%,基于監督機制的悲觀多粒度決策粗糙集的分類質量分別為40%、60%、80%。對比發現固定β0、β1,隨著給定類內閾值α0的不斷減少,決策信息系統中的對象越能被正確分類,這表明調整閾值α0,在一定程度上可降低噪聲的影響。通過實例也能看出,隨著類間閾值α1的減少也會使得樂觀與悲觀多粒度決策粗糙集的下近似集變多,即正域變大。因此根據監督信息合理控制和調整類內、類間閾值,能夠提高決策屬性D關于條件屬性C的分類精度,使模型具有一定的容錯能力和很強的分類能力。而且觀察表1可以發現,第五個工地屬性均為良及以上,卻被認為驗收不通過,基于監督機制的樂觀多粒度決策粗糙集在三種情況下均能將該工地正確分類,可見由于人工處理的時候,會出現一定的誤差,而基于監督機制的多粒度決策粗糙集能夠及時發現,幫助人們進行正確決策。
為進一步驗證模型在決策信息系統能夠有效分類,與經典樂觀、悲觀多粒度決策粗糙集進行對比,并以本文表1 案例的數據為例。當α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5,α=0.7,β=0.4 時,基于監督機制的樂觀多粒度決策粗糙集分類質量為100%,基于監督機制的悲觀多粒度決策粗糙集分類質量為60%,經典樂觀多粒度決策粗糙集分類質量為100%,經典悲觀多粒度決策粗糙集分類質量為53%。結果表明基于監督機制的多粒度決策粗糙集對決策信息系統分類后,相比經典多粒度決策粗糙集,在分類質量上有所提高。這是由于本文構建的新模型不僅借鑒了多粒度決策粗糙集能夠從多層次、多角度綜合考慮不同屬性子集的優點,更能通過調整類內和類間閾值,使模型具有一定的容錯能力,同時兼顧考慮屬性子集的特征,使得對象分類更為準確。
為降低信息不確定性,本文引入類內閾值和類間閾值,使決策系統中類對象內的數量增加而減少類間對象的數量,將其應用在多粒度決策粗糙集,提出一種基于監督機制的多粒度決策粗糙集,給出了樂觀多粒度決策粗糙集和悲觀多粒度決策粗糙集兩種模型的完整定義,并著重討論了基本性質和度量參數。通過類內和類間閾值的不同取值可以得到不同程度的對象分類,使得本文提出的模型具有一定的穩定性和靈活性,并有效提升多粒度決策粗糙集刻畫不確定性知識的能力。接下來,將進一步研究類內和類間上近似閾值間的關系、決策規則獲取和屬性約簡等問題。