

關鍵詞: 鄰域區間集粗糙集 三支域 單調性 代數觀點
粗糙集理論模型是處理不確定性決策問題的有效數學工具[1-2],廣泛應用于數據挖掘、人工智能、醫療診斷等領域[3]?;诘葍r關系的經典粗糙集理論模型,適用于數據對象完備的離散型信息系統。而現實生活中存在著大量的不完備的、連續的信息系統,尤其是在醫療、金融、科研等應用領域[4-9]。為此,國內外學者圍繞經典粗糙集進行了拓展研究,引入了概率粗糙集模型[10]、模糊粗糙集模型[11]、鄰域粗糙集模型[12]、區間集粗糙集[13]等。
其中,區間集粗糙集將粗糙集理論和區間集進行結合,充分利用粗糙集借助上下近似刻畫知識系統的客觀性和區間集采用數值描述特征的精確性等優勢,能夠較好地描述和研究屬性值為兩個精確集的信息系統的不確定性,具有研究意義。當前,針對于區間集的研究還較少。馬建敏等人[14]提出區間集概率粗糙集并討論其單調性;馬建敏、胡玲玲[15]利用區間集概念定義辨別區間集屬性矩陣,以此獲得區間集協調集以及區間集屬性約簡,利用相似關系在區間集決策表下建立粗糙集模型,研究區間集決策信息表的不確定性度量,能夠用數值來度量區間集決策表的不確定性,其結果更加直觀?,F實生活中,海量的數據包含連續型數據對象,而區間集粗糙集中基于等價關系的劃分方式如果應用于連續型數據對象勢必會造成信息的丟失和遺漏,從而影響整個知識系統的信息挖掘程度。因此,區間集粗糙集在處理連續型數據對象時存在著不足,亟待解決。本文針對目前區間集粗糙集只能處理離散型數據對象的局限性,引入鄰域關系,通過Hausdorff 距離函數定義區間集鄰域粒子,由此誘導出鄰域區間集信息系統和鄰域區間集上、下近似;并從代數觀點提出鄰域區間集三支域、鄰域區間集依賴度等概念和相關性質;最后通過實例對該文得到的性質進行驗證,證明該文所提鄰域區間集粗糙集的研究數據對象能夠拓展到連續型數據對象。
1 基本概念
該節根據張倚萌等人[16]的研究回顧區間集的相關概念和性質
定義1 區間集信息系統[16]。四元組IDS ={UA=C èDVf},其中U={x1 x2 xn}是非空有限論域;A為屬性集,其中C 和D 分別表示非空有限條件屬性集和非空有限決策屬性集,C ?D= ?,U 基于D 的劃分為πD ={D1 D2 Dm};V= ∪a ?A Va,Va 為屬性a 在論域U 中的值域(每個值都是一個區間集);f:U′C?2V 表示U 中對象在某個屬性下的屬性值的對應關系,\"a ?C,f (xa) = [x_a x+a ]是一個區間集,且x_ax+a,x_a Va,x+a Va。
張倚萌等人[16]研究了一個決策屬性集為單值型的區間集信息系統,如表1 所示。
定義2 區間集相似關系[16]。在區間集信息系統中,BC,x ?U,y ?U,δ ?[01]誘導區間集相似關系:
2 鄰域區間集粗糙集
定義4 度量空間。對N 維實數空間Ω和距離函數Δ,R 代表實數,Δ:RN ′ RN ? RN,\"xi xj xk ? RN如果Δ滿足以下條件:(1)Δ(xi xj )≥0Δ(xi xi )= 0;(2)Δ(xi xj ) =Δ(xj xi );(3)Δ(xi xk )≤Δ(xi xj ) + Δ(xj xk )。
此時,稱lt;Ω,Δgt;為度量空間。
由此,可在IDS 中引入Δ距離函數構成度量空間,記為lt; IDSΔgt;。通過Δ可以度量lt; IDSΔgt; 中數據對象的距離或差異。Hausdorff 距離函數是集合空間距離度量的常用函數,設XYílt; IDSΔgt;,距離計算公式如下:
NεB(x)是x 關于B 的區間集鄰域粒子,表示x 在B下具有鄰域關系的數據對象集合。基于鄰域的區間集信息系統,可稱為鄰域區間集信息系統,可以表示為五元組。
3 基于代數觀點的鄰域區間集粗糙集
關于粗糙集理論的不確定性度量研究主要可以從代數觀點和信息觀點兩個方面展開,兩種觀點都有大量學者進行研究。信息觀點出發的研究主要通過熵的形式定義新的度量函數從而建立度量標準,而代數觀點出發的研究表示更適合用來表示具有復雜覆蓋結構的鄰域系統。文章從代數觀點將鄰域引入區間集粗糙集,構建新的鄰域區間集粗糙集模型,并研究其性質。
代數觀點下鄰域區間集粗糙集通過鄰域區間集上下近似將論域劃分為鄰域區間集正域、鄰域區間集負域和鄰域區間集邊界域3 個分支。
鄰域區間集三支域是對經典三支域的拓展,在以往的研究中,我們知道基于三支域的依賴度也是衡量屬性子集的近似描述和判斷能力的重要度量。
定義8 鄰域區間集依賴度。對NIDS,設BC,U中Dj ? πD關于B 的鄰域區間集依賴度可定義為:
由性質3,在U 中對同一條件屬性子集,ε 越大,區間集鄰域粒子越大,鄰域區間集正域、鄰域區間集依賴度都越小。
4 舉例分析
此節通過一個實例進行驗證鄰域區間集粗糙集性質的有效性,給定一個決策屬性集為單值型的區間集信息系統,如表2 所示,NIDS,U={x1 x6},πD ={D1 D2},D1 ={x1 x3 x5},D2 ={x2 x4 x6}。
5 結語
區間集粗糙集是對經典粗糙集的一種拓展,它將屬性值拓展到由上下邊界集來描述,能夠較好地應用到離散型數據對象來刻畫其不確定性。基于區間集粗糙集不能較好地處理連續型數據對象的不足,文章將鄰域引入區間集粗糙集,構造了鄰域區間集粗糙集模型,并討論了新建模型的條件屬性子集-單調性和ε-單調性等性質。新模型可以適用于連續型數據,拓寬了區間集粗糙集處理對象的范圍,為后續基于該模型的屬性約簡、離群點檢測等研究做好了準備。文章所提出的模型還值得結構深化研究,進行層次研究和深入應用。