王成宇 林名馳
(1.海軍工程大學管理工程與裝備經濟系 武漢 430033)(2.92690部隊施工管理室 三亞 572000)
粗糙集理論(Rough Sets)是波蘭數學家Pawlak教授[1]于1982年提出的一種處理不精確、不完全與不相容知識的數學理論,其屬性約簡和屬性重要度的概念在預測模型的篩選和組合[2]具有較強的應用價值,對于艦船維修費預測意義重大。粗糙集理論只能用于處理離散型數據,對于連續型數據難以有效應用,然而實際的艦船維修費用數據卻是連續型數據,所以,對于連續型數據的離散化處理便成為了對該類問題進行數據預處理的重要環節,且連續屬性的最優離散化問題是一個NP-hard問題[3],其對于其他功能的實現具有重要意義。
針對連續屬性離散化問題,按照離散化過程是否考慮決策表中條件屬性與決策屬性之間的關系可以分為無監督離散化和有監督離散化,其中無監督離散化的常用方法有等距法、等頻法等,該類方法易于理解、計算簡便,但是離散化過程可能改變原決策表的不可分辨關系,導致決策表不相容的問題。有監督離散化算法在過程中對條件屬性與決策屬性的關系予以考慮,避免了決策表不相容問題的出現,衣曉等[4]提出一種改進的基于斷點重要性的離散化方法,通過對每個條件屬性逐一判斷其斷點的重要性以達到離散化的目的,通過實例分析證明了該方法的有效性;劉靜等[5]提出基于斷點辨別力的離散化算法,以斷點辨別力表征斷點的重要性,以加入斷點后各等價類中實例是否相同作為算法終止條件,能夠保證決策表的分辨關系且不改變其相容度。……