余良武,郭文勇,黃家寧,伍哲,曹辰昊
(海軍工程大學,武漢 430033)
綜合評價問題本質上是多個指標構成的信息系統的決策問題,正確選擇評價指標是決策準確的基礎和前提。在綜合評價問題中,指標體系初構更多的是強調指標的全面性,要求所選擇指標能夠從多個角度全方位刻畫系統,“求全而不求精”,因此存在一定程度的信息冗余。信息冗余一方面會增加指標監測和數據運算的工作量和成本,另外一方面還會因重復計算而給綜合評價結果的準確性帶來負面影響,因此指標的“全”和“精”是一對矛盾體,為了在二者之間尋求最優平衡,需要采用合適的方法對評價指標集進行約簡。指標約簡是指標體系從“全”到“精”的過程,也是綜合評價不可或缺的環節。本文系統地研究了目前常用的幾種指標約簡算法的原理并對其應用場合及優缺點進行了綜述。
“屬性約簡”概念提法多見于粗糙集理論,是粗糙集理論的核心內容之一,指在保持知識庫分類能力不變的條件下刪除冗余和不重要屬性,達到提取數據特征、簡化知識運算的目的[1]。應用于綜合評價領域時,很多學者稱其為指標篩選或指標約簡[2-3]。延伸到粗糙集理論范疇之外,早期也有學者應用統計學方法實現相似的功能,因此廣義的指標約簡算法包括統計學方法和粗糙集理論兩大方面,如圖1所示。

圖1 典型指標約簡算法
當系統各指標存在一定規模的較完備統計數據時,可應用統計學方法進行指標約簡,這也是粗糙集理論廣泛應用前使用最多的指標約簡和特征提取方法。主要思想是,通過分析統計數據,判斷條件指標之間或條件指標與決策指標之間的相關程度,進而通過一定的標準和方法刪除冗余指標或構造新的少數幾個不相關指標。具體包括主成分分析法、因子分析法、極小方差廣義法、極大不相關法、灰色關聯分析法等。
主成分分析法(Principal Components Analysis, PCA)根據指標間相關關系,通過線性組合,構建線性無關的綜合指標即主成分:
式中:Yi(i=1,2,…,p)為主成分;Xi(i=1,2,…,p)為原始指標,寫成矩陣的形式為
通過提取累積貢獻率達到一定水平,能夠反映原始指標大部分信息的少數幾個主成分達到指標約簡的目的;因子分析是主成分分析的推廣,可理解為主成分分析的逆問題[4],將各原始指標分解為公共因子和特殊因子兩部分:
式中:Fj(j=1,2,…,m)為公共因子;εi為特殊因子。
寫成矩陣的形式為
同樣,通過抽取累積貢獻率達到一定水平的少數幾個公共因子達到指標約簡的目的。因子分析中由于因子載荷具有不唯一性,相比于主成分分析法,能夠提高解釋能力。盡管如此,由于主成分分析法和因子分析法構造了新的變量,這些新變量并沒有直接的物理意義,要對這些變量做出直觀解釋也是十分困難的。另外,主成分分析法和因子分析法所研究的指標約簡大多存在于特征提取層面,能夠簡化后續數據處理和運算,但是必須以原始指標測量值為基礎,因此并未減少實際的指標測量工作量。
廣義方差D(X)定義為X的協方差矩陣Cov(X)的行列式或者其他相應函數,能夠從整體上衡量指標的分散性[5]。極小廣義方差指標約簡算法的基本思想是:如果刪除某個指標后條件廣義方差變化很小,則表明該指標所包含的信息量在總體中占有很大份額,即具有很強代表性,因此,可根據條件廣義方差最小原則依次提取最具代表性的R個指標作為約簡集。R值的設定沒有固定的理論依據,一般根據評價者的主觀經驗和需要設置,因此極小廣義方差法具有較強的主觀性。
極大不相關法以指標間的相關程度為依據,認為和其他指標相關程度較高的指標所攜帶的信息可很大程度上由其他指標描述,因此在約簡過程中可以刪除。具體過程為依次計算各指標與剩余指標的復相關系數,剔除復相關系數最大的指標,重復操作,直到剩余預期數量的指標。極大不相關法和極小廣義方差法類似,同樣也存在主觀性強的缺點。
灰色關聯分析法,定義了條件指標的重要性測度和條件指標之間的影響力測度,通過去重疊化計算條件指標的絕對重要度,和約簡閾值比較,決定條件指標是否進入約簡集[6]。該方法中約簡閾值的設置具有一定的主觀性,另外條件指標重要度的概念是和決策指標比較的結果,因此一般只適用于決策系統,無法應用于缺少決策指標的信息系統。也有部分學者選擇最為重要的特定指標來代替決策指標,在粗糙集指標約簡方法研究中也有類似的做法,但是實際上這種做法的合理性有待商榷,決策指標是所有條件指標綜合作用的結果,是任何單一指標無法替代的。
統計學指標約簡算法常常結合聚類分析法和判別分析法使用,在進行指標約簡前對所有指標進行分門別類,一方面可減少約簡工作的計算量,另外一方面也保證了信息的全面性,這種做法和指標體系層次構造過程中所使用的思想是一致的。統計學指標約簡算法通過挖掘數據本身蘊藏的信息,發現冗余并加以剔除,其優點在于需要的先驗知識少,可以直接處理連續型數據,無需離散化處理。但是,相對于基于粗糙集理論的指標約簡算法,統計學指標約簡算法的突出缺點是并不以保持知識庫分類能力不變為前提,缺少約簡目標導向,最終獲得約簡集的規模具有很大的主觀隨意性,常常出現約簡后分類能力改變的現象。
粗糙集理論(Rough Set Theory, RST)由波蘭的Pawlak教授于1982年提出,是一種研究不確定、不精確、不完備、不一致知識和數據的數學工具[7]。其應用研究主要包括指標約簡、規則獲取、基于粗糙集的智能算法等方面,目前已廣泛應用于交通運輸、工業控制、社會科學、醫療衛生和軍事等領域[8]。基于粗糙集理論的指標約簡是一個N-P Hard問題[9-10],許多學者對其進行了研究,力求提高約簡效率,提出許多各具特色的算法。根據有無信息啟發,可分為盲目刪除法和啟發式算法,盲目刪除法無任何信息指導,依次刪除一個指標,檢驗知識庫分類能力是否改變,簡單易懂,但是存在組合爆炸問題,時間和空間復雜度都很高。啟發式算法以某種信息為啟發,以指標核為起點,選擇符合條件的指標加入約簡集,能夠很大程度上減少搜索空間,降低時間和空間代價,是目前常用的方法[11]。
基于差別矩陣的指標約簡算法由Skowron教授于1991年提出,差別矩陣在不同的文獻中也被稱為Skowron可分辨矩陣、可辨識矩陣、區分矩陣等。設知識表達系統S=(U,A,V,f),A=C∪D,其中C為條件指標集,D為決策指標集,且D≠Φ,差別矩陣MS為矩陣,元素mij定義為:
可以看出,mij為可以區分對象ui和uj所有條件指標的集合。列出MS后可通過一定的運算規則求得相對約簡。對于基于差別矩陣的指標約簡算法,為提高約簡效率,一直以來研究較多的是向核中添加指標所依賴的啟發信息,其中包括指標重要性[12-13]、指標序[14]、指標頻率等[15]。二進制差別矩陣可視為差別矩陣的延伸,基本原理大致相同,不同的是差別矩陣的構建規則,二進制差別矩陣每一列對應一個條件指標ci,每一行對應一個決策指標不相同的對象對(up,uq),元素m((p,q),i)定義為:
由于使用了0、1編碼的二進制矩陣,相對于差別矩陣,空間復雜度至少降低一半,運算也更加簡便。基于差別矩陣的指標約簡算法一般多用于決策系統的指標約簡,在信息系統中的應用較少。
基于信息熵的指標約簡算法引用信息論中的信息熵概念,定義了指標集合的信息熵、條件信息熵和互信息等概念,將條件信息熵或互信息作為啟發信息,以減少約簡過程中的搜索空間。其中比較有代表性的包括MIBARK算法、CEBARKNC算法和CEBARKNCC算法。MIBARK算法以核指標集為起點,以條件指標和決策指標的互信息為啟發,當互信息相等時終止運算。CEBARKNCC算法和CEBARKNC算法均以決策指標相對于條件指標集的條件熵為啟發,不同的是CEBARKNCC算法以核指標集為起點,選擇使條件熵最小的非核條件指標加入,而CEBARKNC算法以初始條件指標集為起點,依次刪除條件熵最大的條件指標。當核值比靠近0時CEBARKNC算法具有較低的時間復雜度,當核值比靠近1時MIBARK算法和CEBARKNCC算法具有較低的時間復雜度。
粒度化的思想首先由美國加州大學的L.A.Zaedh教授于1979年提出,主張知識是顆粒化的,通過把復雜問題化為“信息粒”,實現復雜問題簡單化,進而可利用粒計算理論中分而治之、多視角和多層次的思想方法處理信息和數據[16]。在后期的研究中L.A.Zaedh教授又指出人類的認知基礎包括粒化、組織和因果關系3個基本概念,其中粒化是將整體分解為顆粒,組織是顆粒有機構成整體,因果關系則涉及原因和結果的內部聯系。從哲學角度看,粒計算是一種結構化思想方法[17]。在粗糙集理論體系中,知識對應的不可分辨關系表現出顯著的顆粒特征,因此粗糙集理論被視為除模糊集合理論和商空間理論外的另一粒計算所依賴的基礎理論[18]。基于粒計算的指標約簡算法將知識粒度本身或其衍生出的重要性測度作為約簡過程中的啟發信息,能夠提高約簡效率,而且適用于完備或不完備信息系統的指標約簡。
統計學指標約簡算法的原理是挖掘數據本身蘊藏的信息,發現冗余并加以剔除,其優點在于需要的先驗知識少,突出缺點是可能會出現約簡后分類能力改變的現象。基于粗糙集理論的指標約簡算法優點是以保持知識庫分類能力不變為前提,具有鮮明目標導向,缺點是大多適用于決策指標集非空的決策系統,同時計算量較大。具體到詳細的算法:主成分分析法和因子分析法構造了無直接物理意義的新變量,難以做出直觀解釋,另外,這兩種方法所研究的指標約簡大多存在于特征提取層面,能夠簡化后續數據處理和運算,但是必須以原始指標測量值為基礎,因此并未減少實際的指標測量工作量。極小廣義方差指標約簡算法R值的設定沒有固定的理論依據,因此極小廣義方差法具有較強的主觀性,極大不相關法同樣也存在主觀性強的缺點。灰色關聯分析法約簡閾值的設置具有一定的主觀性,另外條件指標重要度的概念是和決策指標比較的結果,因此一般只適用于決策系統,無法應用于缺少決策指標的信息系統。基于差別矩陣的指標約簡算法要求決策指標集非空,一般多用于決策系統的指標約簡,在信息系統中的應用較少。基于粒計算的指標約簡算法將知識粒度本身或其衍生出的重要性測度作為約簡過程中的啟發信息,能夠提高約簡效率,而且適用于完備或不完備信息系統的指標約簡。