李萍
(運城學院計算機科學與技術系,運城044000)
基于增量式的屬性約簡在汽車性能中的應用
李萍
(運城學院計算機科學與技術系,運城044000)
研究粗糙集理論的重要內容屬性約簡,在此基礎上描述基于增量式的屬性約簡算法。針對影響消費人群對汽車接受因素的多個屬性進行約簡,根據條件屬性對決策屬性影響的重要性,對條件屬性進行約簡,最終保留核心屬性。
粗糙集;增量式;屬性約簡;約策樹
數據挖掘是從海量的數據中提取潛在的信息和知識,由于操作的對象是巨量的數據庫,在空間和時間的復雜問題是一個非常重要的環節,最后將直接影響挖掘結果和質量。因此波蘭數學家Z.Pawlak在1982年提出了粗糙集理論,旨在處理不確定和不精確數據,其主要思想是在保持知識庫分類能力不變的前提下,通過約簡不相關的屬性,從而導出問題的決策或分類規則。
一個挖掘系統可以由四元組S=(U,A,V,f)表示,其中U表示對象的非空有限集合,稱為論域;A表示屬性的非空有限集合;V是屬性的值域集;f是一個信息函數,f:U*A→V它為每個對象的每個屬性賦予一個信息值。
屬性A由條件屬性C和決策屬性D組成,屬性子集C'?C關于D的重要性定義為σCD(C')=γC(D)-γC-C'(D),如果當C'={a}時,屬性a∈C關于D的重要性為σCD(a)=σC(D)-γC-{a}'(D)。在決策表中,不同的屬性可能具有不同的重要性。如果去掉某屬性會相應的改變分類,則說明屬性重要,改變的程度越大,重要性越高。
為了找出某些屬性(或屬性集)的重要性,增量式屬性約簡是從表中去掉一些屬性,再根據約簡后的屬性對分類是否有影響。若去掉該屬性相應分類變化較大,則說明該屬性重要性高,否則,說明該屬性的重要性低。這時,我們得到的就是信息系統的一個約簡。
算法描述:
輸入:信息系統S=(U,A,V,f),其中U為論域,A為屬性集,A=C∪D,C∩D=?,C=(c1,c2,…,cn-1)為條件屬性集合,D=(d1,d2,…,dk)為決策屬性集合。
輸出:約簡red
(1)初始化:red=C;
(2)令temp=red;
(3)如果temp≠?,進行循環:
取a∈C,判斷:如果POSred-{a}(D)=POSc(D)則:red=red-{a}并temp=red;否則temp=temp-{a};
(4)輸出red。
S=(U,A,V,f)汽車性能分析系統中論域U={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,x13,x14,x15,x16,x17},將屬性集A可進一步劃分為兩個集合:條件屬性集C={買入價格,維修價格,車門數量,荷載人數,車廂容量,安全性能,接受程序}和決策屬性集D={不接受和不接受},并滿足A=C胰D,C∩D=?,在應用中,我們根據汽車的買入價格,維修價格,車門數量,荷載人數,車廂容量,安全性能,接受程序來判斷汽車是否被接受。V1是屬性買入價格a1的值域={v-high,high,med,low},V2是屬性車門數量a3的值域={2,3,4},V3是屬性買入價格a5的值域={small,med,big},V1是接受屬性a7的值域={acc,unacc}。汽車性能指標表如下所示。
令Q={e}決策屬性集,P={a1,a2,a3,a4,a5,a6}為條件屬性全集,則U/ind(P)={{1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14},{15},{16},{17},}
U/Q={{4,12,13,14,6},{1,10,11,15,16,17,2,3,5,7,8,9}}

因此,論域U是P上相對于Q一致的,這說明該決策表是完全確定的決策表,決策表不含有不一致信息。



表1 汽車性能指標表
所以屬性a1,a5,a6屬性是不省略,屬性a2與a3不能同時刪除,所以最后的核集為{a1,a2,a5,a6}或{a1,a3,a5,a6}。
基于粗糙集的增量式屬性約簡針對決策表的每個決策規則,去掉冗余屬性,提高信息系統的信息質量,并且對汽車接受影響因素的數據進行了驗證,減少了不必要的規則,提高了數據的質量。
[1]張文東,李明壯,石小艷.基于粗糙集理論的屬性約簡算法[J].計算機工程與設計,2008(29)11:5795-5797.
[2]龍浩,徐超.基于改進差別矩陣的屬性約簡增量式更新算法[J].計算機科學,2015(42)6:251-254.
[3]陳昊,楊俊安,莊鎮泉.變精度粗糙集的屬性核和最小屬性約簡算法[J].計算機學報,2012,35(5):1011-1014.
[4]王國胤.Rough集理論與知識獲?。跠].西安:西安交通大學出版社,2001.
[5]葛浩,李龍澍,楊傳?。跊_突域的高效屬性約簡算法[J].計算機學報,2012,35(2):342-344.
[6]張利,盧秀穎,吳華玉,郝勝智.基于粗糙集的啟發式值約簡的改進算法[J].器儀表學報,2009,30(1):82-84.
Application of Incremental-Based Attribute Reduction in Automobile Performance
LI Ping
(Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000)
Studies the important content of rough set theory,such as of attribute reduction,which describes the algorithm of incremental-based attribute reduction in details.Reduces the accepted factor of multiple properties on the car,according to the affected importance of condition attributes,reduces some attributes in order to retain the core attributes.
Rough Set;Relative Dependence;Property Reduced
1007-1423(2016)23-0024-03DOI:10.3969/j.issn.1007-1423.2016.23.006
李萍(1975-),女,講師,研究生,研究方向為數據挖掘
2016-05-10
2016-08-05