999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

帶權決策表的屬性約簡

2020-06-18 05:45:32榮梓景
計算機工程與應用 2020年12期
關鍵詞:分類

李 旭,榮梓景,任 艷

1.新疆財經大學 信息管理學院,烏魯木齊830012

2.北京語言大學 信息科學學院,北京100083

1 引言

粗糙集理論是由波蘭學者Pawlak[1]提出的,是一種處理不確定、不一致和模糊問題的數據分析工具。近年來,粗糙集理論的研究成果豐碩,在機器學習、數據挖掘、決策支持與分析、醫療衛生服務、物聯網等諸多領域中,取得了成功應用。屬性約簡是粗糙集研究的重要內容之一,其主要思想就是根據特定規則要求,刪除冗余屬性,得到知識分類最小屬性子集。

目前,屬性約簡已取得了大量的理論研究成果。將決策表和不同應用背景相結合,研究人員提出了正域約簡[2-3]、變精度約簡[4-5]、分配約簡[2,6]、覆蓋約簡[7-8]、分布約簡[9]、局部約簡[10-12]等多種類型的約簡。已有的研究已通過容差關系[13]、量化容差關系[14]、限制容差關系[15]等拓展了正域約簡的應用范圍。Liu[16]在一致決策表和不一致決策表上提出了一般關系,從而推廣了二元關系。文獻[11]在一般關系下,提出了上下近似的概念,并給出了嚴格證明。在決策表中,正域約簡[3]研究已取得重要進展。現階段一般通過啟發式約簡算法[17-19]和基于辨識矩陣[20-21]的算法等兩種方法進行屬性約簡。雖然啟發式約簡算法能夠快速計算約簡,但不能得到所有約簡。基于辨識矩陣的算法數學論證嚴格,目前仍是得到所有約簡的最好方法,本文中涉及的約簡均是通過辨識矩陣的方法得到的。近似分類精度[2]也稱分類精度,其表達了當使用條件屬性集對對象進行分類時,可能的決策中正確決策的百分比。文獻[22]研究了區分能力和分類能力之間的關系,更細致地描述了近似分類概念。文獻[23]提出了求解近似質量屬性約簡的迭代約簡算法。文獻[24]以屬性重要度來刻畫近似精度差,通過啟發式約簡算法得到近似精度約簡,然而該方法不能得到所有約簡。目前,基于辨識矩陣討論分類精度約簡的研究討論較少。

帶權決策表是一種特殊形式的決策表。由論域、條件屬性集、決策屬性集等要素構成決策表的基礎上,通過增加一列元素(權)來形成帶權決策表。在不同領域背景下,通常情況下決策表結構不能夠很好地表示實際情況。例如,在大型機械設備故障診斷中,機械設備中的各子系統指標構成條件屬性集,不同的故障結果構成決策屬性集。當發生某種機械故障時,把各子系統中指標參數出現的相同頻次作為權值,來描述某種機械故障的樣本數量。當發生某種機械故障時,通過構建帶權決策表可以為專家分析研究問題提供理論依據。因此,關于帶權決策表的屬性約簡在故障診斷、醫療診斷等領域具有比較重要的現實意義。

基于上述分析,關于帶權決策表的屬性約簡研究討論相對較少。因此,本文提出了在帶權決策表中,通過計算對象權值比的方法得到正域,從而進行正域約簡,該算法的時間復雜度優于文獻[3]給出的正域約簡算法的時間復雜度。同時,本文提出了近似分類精度約簡的算法,并進行了嚴格的理論證明。

2 基本概念

為便于進一步對決策表的屬性約簡進行研究,本章將介紹關于決策表的相關概念、正域約簡及其對應的辨識矩陣。

在粗糙集模型中,當研究對象是一個二元信息表,稱其為信息系統。設(U,C)是信息系統[1],若B?C,等價關系,其中,a(x)表示對象x在a上的屬性值,稱RB是U上的等價關系[1]。若關系R是U上的等價關系時,R在U上具有自反性,對稱性和傳遞性。記[x]B是RB在U上的等價類。若y∈[x]B時,恒有( x,y)∈RB。若信息系統中屬性集是由條件屬性集C和決策屬性集D構成的,稱其為決策表,記為(U,C?D)。定義1[1-2]設(U,C)是信息系統,其中U是論域,RC是由屬性集C決定在U上的等價關系,若?≠X?U時,關于X的上近似,下近似分別為:

文獻[11]給出了基于辨識矩陣計算上近似、下近似約簡的算法,并將其推廣至關系決策表中的上近似、下近似約簡。

引理1[1]設(U,C)是信息系統,若RC是U上的等價關系,對于X?U,有,其中,~X是X的補集。

定義2設(U ,C)是信息系統,對于任意X?U,若B?C時,X關于B的正域、邊界域[11]分別為:

定義3設(U,C)是信息系統,對于?≠X?U,若B?C時,X關于屬性集B的近似分類精度[2]為:,其中,||?表示集合的基。

定義4設(U,C?D)為決策表,U是論域,C是條件屬性集,D是決策屬性集,RC、RD分別是條件屬性集,決策屬性集確定的U上的等價關系,決策屬性確定的商集為U/D={D1,D2,…,Dl},正域為POSC(D)=,對于B?C時,若B滿足下列兩條件:

稱B是C關于D的正域約簡[1-2]。

正域約簡相應的辨識矩陣[3]為M=( mij)s×n:

在辨識矩陣M中,s= |POSC(D )|是正域的基,n= ||U是論域中對象數。

3 帶權決策表的正域約簡

帶權決策表是一種決策表的形式變形。把決策表中的每行均作為一條決策規則時,將出現相同決策規則的次數稱為權,因而可知本文定義的權值均為正整數。考慮用權來表示決策規則在決策表中重復出現的次數,每條決策規則僅出現1次時,稱決策表為帶權決策表,記為(U ,C?D,W)。其中,U是論域,C是條件屬性集,D是決策屬性集,W為對象的權,RC、RD分別是條件屬性,決策屬性確定的U上的等價關系。現通過表1和表2來說明決策表到帶權決策表的構建過程。決策表(U,C?D)(表1),論域U={ui|i=1,2,…,6},條件屬性集C={a1,a2,a3},決策屬性集D=g0gggggg。

表1 決策表

表2 經過轉化的帶權決策表

由帶權決策表可知,若等價類[x]C中的決策規則一致時,即,則等價類[x]C必包含于正域。若等價類[x]C中的決策規則不一致,即時,則等價類[]xC任意對象必不屬于正域。

對于帶權決策表(U,C?D,W),其正域約簡對應的辨識矩陣為M′=(m′ij)s×n:

定理1設(U,C?D),W為帶權決策表,若?≠B?C時,則下列兩個條件等價:

證明 (7)?(8),若m′ij≠?,有且( xi,xj)?RD。利用反證法,m′ij?B=?。對于?a∈B,( xi,xj)∈RB。由條件(7)知:

因而與( xi,xj)?RD矛盾,得證。

(8)?(7),因B?C,有POSB(D)?POSC(D)。現證POSC(D)?POSB(D )。由引理知m′ij≠?,當時,需證。對于任意xj,(xi,xj)?RD,即xj?[]xiD。由條件(8)知m′ij?B≠?,則存在Rl∈m′ij?B使得(xi,xj)?RB,即

推論1設(U,C?D,W)為帶權決策表,當B?C時,B是C關于D的正域約簡當且僅當B為C中滿足m′ij?B≠?的最小子集。

算法1帶權決策表中正域約簡算法

輸入:帶權決策表(U ,C?D,W)。

輸出:全部約簡。

步驟1計算條件等價類[x]C和決策等價類[x]D。

步驟2計算正域。

步驟3構造辨識矩陣M′。

算法結束。

在通常的決策表中,基于辨識矩陣的正域約簡算法需要消耗大量時間。但本章將決策表轉化為帶權決策表后,利用對象權值比方法,一定程度上優化了時間復雜度,能夠有效提高約簡的效率。本文將決策表轉化為帶權決策表的過程時間復雜度為帶權決策表中條件類的時間復雜度為O(| C|× |U′|)。算法1在計算正域時,其時間復雜度為O(| U′|× |U′/C |),而文獻[3]中計算正域的時間復雜度為O(| U|2),因,因此,算法1的時間復雜度優于原有算法的時間復雜度。

4 帶權決策表的近似分類精度約簡

在帶權決策表中,近似分類精度概念描述了條件屬性集對帶權的對象分類時,可能的決策中正確決策的百分比,刻畫為下近似基與上近似基的比值。在帶權決策表(U ,C?D,W)中,決策屬性確定的商集為U/D=,存在πD?U/D=,需要說明的是πD至少包含一個Di(i=1,2,…,l)。

證明 利用反證法,若E>G或F<H時,由條件知F≤H,E≥G,則不成立。因而E=G且F=H成立。

引理4設(U,C?D,W)為帶權決策表,當B?C時,對于πD?U/D,的充要條件是

定義5設(U ,C?D,W)為帶權決策表,對于πD?U/D,對于近似分類精度αC,若B?C時,若滿足下列兩條件:

稱B是關于πD的近似分類精度約簡。

定理2設(U,C?D,W)為帶權決策表,當B?C,πD?U/D時,則的充要條件是且

現定義辨識矩陣S=(sij)n×n如下:

其中,n是論域的基。

定理3設(U,C?D,W)為帶權決策表,當B?C時,πD?U/D,則下列兩條件等價:

推論2設(U,C?D,W)為帶權決策表,當B?C時,πD?U/D,B是關于πD的近似分類精度約簡當且僅當B為C中滿足sij?B≠?的最小子集。

算法2帶權決策表的近似分類精度約簡算法

輸入:帶權決策表(U ,C?D,W)。

輸出:全部約簡。

步驟2構造辨識矩陣S。

算法結束。

由該辨識矩陣得辨識函數為f=(a2)( a1+a3),得析取范式為f=( a1a2)+( a2a3),得約簡為{a1a2}和{a2a3}。

表3 帶權決策表

5 實驗分析

帶權決策表中,針對正域約簡和近似分類精度約簡,本章通過實驗對提出的算法進行了驗證。現從UCI數據集中選取Iris,Wine,Statlog(Heart)等3個數據集(表4),來說明算法的有效性和可行性。程序運行環境:Intel?CoreTMi5-2440 CPU 3.10 GHz,Windows10 64 bit,算法為Python代碼實現。

表4 數據集的有關信息

表5中,算法1和文獻[3]中提出的算法(記為GPAR算法)對比說明,兩者所得約簡相同,同時相較于后者,算法1的運行效率相對較高。屬性個數是約簡的基,約簡集數是相同的基下的約簡個數。對于Wine數據集(表5),共有78個約簡,其中,當約簡的基等于2時有47個約簡,例如{a1,a2},{a3,a9}。當約簡的基等于3時有31個約簡,例如{a4,a5,a12},{a5,a6,a12}。

表5 算法約簡結果對比

在選取3個數據集上,根據算法2得到帶權決策表的近似分類精度約簡結果如表6所示,其中,πD是決策屬性集在論域上確定的商集U/D的子集。在Iris數據集中,D1為屬性值為“Setosa”確定的等價類,D2為屬性值為“Versicolour”確定的等價類;在Wine數據集中,D1為屬性值為“1”確定的等價類,D2為屬性值為“2”確定的等價類;在Statlog(Heart)數據集中,D1為屬性值為“1”確定的等價類,D2為屬性值為“2”確定的等價類。

表6 近似分類精度約簡結果

表6中,對于Iris數據集,取πD=D1時,有3個約簡,其中當約簡的基為3時,有1個約簡{a1,a2,a3},當約簡的基為2時,有2個約簡。取πD=D1?D2時,有5個約簡,且5個約簡的基均為2。通過實驗進一步說明了本文提出的算法1和算法2具有可行性。

6 結束語

關于決策表中的約簡研究取得了廣泛的研究成果。在通常的決策表中,可通過GPAR算法得到正域的全部約簡。本文將決策表轉化為帶權決策表后,通過算法1進行正域約簡時發現,算法1的運行時間優于GPAR算法。同時,本文提出了一種關于近似分類精度約簡算法,并給出了證明。最后通過實驗說明本文提出算法的可行性和有效性。之后的工作中,通過帶權決策表模型,來解決更多類型的約簡問題,例如將等價關系推廣至一般關系(即不要求關系滿足自反性、對稱性、傳遞性)。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 欧美性天天| 99热最新在线| 日本免费精品| 久久人人妻人人爽人人卡片av| 高潮毛片免费观看| 国产特级毛片| 亚洲国产午夜精华无码福利| 欧美97色| 综合色婷婷| 成人综合网址| 免费毛片a| 欧美一区二区自偷自拍视频| 波多野结衣亚洲一区| 无码中文字幕乱码免费2| 久久婷婷五月综合97色| 久久精品人妻中文系列| 天堂久久久久久中文字幕| 国产在线91在线电影| 99无码熟妇丰满人妻啪啪| 欧美一级片在线| 中文国产成人久久精品小说| 色综合手机在线| 午夜在线不卡| 中文字幕精品一区二区三区视频| 国产后式a一视频| 国产乱子伦视频三区| 手机在线看片不卡中文字幕| 四虎永久免费在线| 亚洲精品不卡午夜精品| 青草视频在线观看国产| 操国产美女| 911亚洲精品| 久夜色精品国产噜噜| 91精品人妻一区二区| 欧美不卡视频在线观看| 亚洲欧美精品在线| 国产成人在线无码免费视频| 国产精品免费电影| 国模视频一区二区| 国内黄色精品| 亚洲精品动漫在线观看| 国产黄网站在线观看| 激情午夜婷婷| 国内精品自在自线视频香蕉| yjizz视频最新网站在线| 亚洲欧美在线综合一区二区三区| 制服丝袜一区二区三区在线| 91福利片| 丁香六月激情婷婷| 久久精品人人做人人综合试看| 女人18毛片久久| 激情爆乳一区二区| 无码国产伊人| av性天堂网| 国产一级在线观看www色| 亚洲精品久综合蜜| 国产va免费精品观看| 国产精品久久久久久久久kt| 99这里只有精品免费视频| 一本色道久久88综合日韩精品| 精品99在线观看| 一级毛片免费播放视频| 久久精品人人做人人爽电影蜜月 | 最新国产午夜精品视频成人| 伊人无码视屏| 亚洲熟女中文字幕男人总站| 亚洲成人播放| 爱做久久久久久| 91精品网站| 成人毛片免费在线观看| 亚洲免费毛片| 久久综合伊人77777| 在线精品自拍| 一级毛片无毒不卡直接观看| 全部免费毛片免费播放| a色毛片免费视频| 国产精品一区在线观看你懂的| 国产91丝袜在线播放动漫 | 成人第一页| 亚洲品质国产精品无码| 国产精鲁鲁网在线视频| 一本大道无码日韩精品影视|