特征變量的灰色模糊動態(tài)聚類選擇方法?

2016-01-15 09:03:08

雷達科學(xué)與技術(shù) 2016年3期

(中國人民解放軍92785部隊,河北秦皇島066200)

0 引言

數(shù)學(xué)模型通常以某個單元為因變量,選取一些影響該單元的因素為自變量,用數(shù)學(xué)建模方法逼近自變量與因變量之間的關(guān)系。其中一個重要問題就是自變量的選擇,一方面為獲取全面信息,希望模型中包含的自變量盡可能多;另一方面獲取很多自變量會導(dǎo)致增加觀測費和實際操作難度。因此希望模型中包含的影響因素是最重要的且盡可能地少,即要在眾多的影響因素中找出對因變量具有重要影響的自變量,并排除各自變量之間的多重相關(guān)性[1]的干擾,簡化數(shù)學(xué)模型。

對于裝備費用模型的研究而言,其首要任務(wù)就是要確定費用與裝備的哪些影響因素有關(guān)。灰色關(guān)聯(lián)分析[2]的基本任務(wù)是分析和確定各因素間的影響程度或各因素對主行為的貢獻測度。因此,可以利用灰色系統(tǒng)理論中的關(guān)聯(lián)度分析技術(shù),以確定費用模型中各影響因素對裝備費用的影響度。

由于灰色關(guān)聯(lián)分析法的分辨系數(shù)[3]、關(guān)聯(lián)度界值都是人為確定的,當(dāng)部分自變量與因變量之間的關(guān)聯(lián)度相差較小時,對于它們之間能否相互替代,無法作出定性的判斷。因此,考慮應(yīng)用模糊聚類算法對經(jīng)過灰色關(guān)聯(lián)分析篩選出的影響因素進行聚類分析,進而再結(jié)合灰色關(guān)聯(lián)度[4]判斷出變量間的相互替代關(guān)系,排除多重相關(guān)性的干擾。考慮到各型裝備的研制時期不同,為強調(diào)近期研制裝備的重要性,在聚類分析中加入了偏好的思想,即對不同型號的裝備參數(shù),賦予不同的加權(quán)值。

1 灰色關(guān)聯(lián)分析模型

灰色關(guān)聯(lián)分析是灰色系統(tǒng)理論的重要分支,自鄧聚龍教授提出以來,得到了迅速發(fā)展和廣泛的應(yīng)用。灰色關(guān)聯(lián)度理論是根據(jù)因素之間發(fā)展態(tài)勢的相似或相異程度,即“灰色關(guān)聯(lián)度”來衡量因素間關(guān)聯(lián)程度的一種分析方法。如果兩者在發(fā)展過程中相對變化基本一致,則認為兩者關(guān)聯(lián)度大;反之,兩者關(guān)聯(lián)度就小。關(guān)聯(lián)度分析根據(jù)曲線之間的相似程度判定曲線所代表的參數(shù)之間的相關(guān)關(guān)系,關(guān)聯(lián)度大的參數(shù),表示曲線相似程度高,故相互之間可以代表;關(guān)聯(lián)度小的參數(shù)之間獨立程度高。

費用建模時,可以通過關(guān)聯(lián)度得出各影響因素同費用之間的關(guān)聯(lián)度,關(guān)聯(lián)度大則表明該因素對費用有較強的影響,關(guān)聯(lián)度小則表明該因素對費用影響程度較小,即應(yīng)該刪去。灰色關(guān)聯(lián)方法具有原理簡單、易于掌握、計算簡單、排序明確、對數(shù)據(jù)分布類型及變量之間的相關(guān)類型無特殊要求等特點,故具有較高的實際應(yīng)用價值。

設(shè)X0=x01,x02,…,x0n為系統(tǒng)行為特征參考序列,且X1=x11,x12,…,x1n,X2=x21,x22,…,x2n,Xm=xm1,xm2,…,xmn為系統(tǒng)行為特征比較序列。

首先對各數(shù)列進行無量綱化處理,令xij為第i個樣本的第j個指標數(shù)值,標準化數(shù)據(jù)變換的方法為

式中,x′ij為標準化變換后的數(shù)據(jù),xij為原始數(shù)據(jù),經(jīng)過這樣的變換后,使得每個變量的均值為0,而方差為1,且消除了量綱的影響。

應(yīng)用式(2)將數(shù)據(jù)轉(zhuǎn)化到[0.1,0.9],可以獲得新的數(shù)據(jù)表。

應(yīng)用無量綱化的數(shù)據(jù)進行分析,則定義Xi與X0的關(guān)聯(lián)度為

式中,

灰色關(guān)聯(lián)度γ(X0,Xi)∈(0,1]表示了序列Xi與X0中的數(shù)據(jù)變化之間的相似性。Xi與X0的關(guān)聯(lián)度越大,則X0中數(shù)據(jù)的變化情況和Xi中數(shù)據(jù)的變化情況越相似,當(dāng)關(guān)聯(lián)度為1時,X0中數(shù)據(jù)的變化情況就能代表Xi中數(shù)據(jù)的變化情況。

2 基于特征加權(quán)的模糊動態(tài)聚類分析模型

聚類是一種常見的數(shù)據(jù)分析工具,簡單地說,就是將物理或抽象對象的集合分組成為由類似的對象組成的多個類或簇的過程。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,具有同一個簇中的對象彼此相似,不同的簇中的對象相異的特點[5]。

傳統(tǒng)的聚類分析是一種硬化分,它把每個待處理的數(shù)據(jù)對象嚴格地劃分到某個類中,具有“非此即彼”的性質(zhì),因此這種分類的類別界限是分明的。而實際上大多數(shù)的對象并沒有嚴格的屬性,它們在類屬方面存在著中介性,這種硬化分并不能真正反映對象和類的實際關(guān)系,而模糊集理論為此提供了有力的分析工具。模糊數(shù)學(xué)是采用嚴格的精確的數(shù)學(xué)手段來處理“模糊”現(xiàn)象以達到消除“模糊”的一門數(shù)學(xué)。實際上它是人類認識能力的深化和精確的反應(yīng)。大量的事實表明許多事物過分追求精確反而使結(jié)果更模糊;相反,適當(dāng)?shù)哪：幚矸炊_到更精確的目的。其關(guān)鍵在于如何尋求適當(dāng)?shù)臄?shù)學(xué)語言來描述事物的模糊性。在聚類時引入模糊邏輯的概念,應(yīng)用模糊數(shù)學(xué)方法進行聚類分析,就是模糊聚類分析[6-8]。模糊聚類擴展了傳統(tǒng)聚類的思想,根據(jù)客觀事物間的不同特征、親疏程度和相似性等關(guān)系,通過建立模糊相似關(guān)系對客觀事物進行分類。通過模糊聚類分析,各特征量被分為若干類,每個特征量屬于且僅屬于其中的一類。

模糊聚類分析方法大致可分為以下四類:譜系聚類方法、基于等價關(guān)系的聚類方法、圖論聚類法和基于目標函數(shù)的聚類方法。各種方法都有其優(yōu)缺點和適用范圍,聚類結(jié)果取決于所使用的方法和所依賴的聚類準則。

常用的模糊聚類算法是基于等價關(guān)系的模糊聚類分析。

2.1 基于等價關(guān)系的模糊聚類分析法

設(shè)有n個樣本集:X=[x1,x2,…,xn],每個樣本xi有m個特征指標,即樣本xi可以表示為xi=[xi1,xi2,…,xim]T,i=1,2,…,n。

基于模糊等價關(guān)系聚類分析的具體步驟如下:

1)數(shù)據(jù)標準化處理

數(shù)據(jù)標準化處理是將各基準單元的統(tǒng)計量數(shù)據(jù)進行無量綱化預(yù)處理,以便消除量綱。經(jīng)過相關(guān)處理之后,樣本的各特性指標值均落在區(qū)間[0,1]中。

2)構(gòu)造模糊相似關(guān)系矩陣

應(yīng)用主觀評定法、夾角余弦法、相關(guān)系數(shù)法、距離貼近度法、最大最小法等方法,這里選用最大最小法:

可以獲得模糊相似矩陣

顯然,R具有自反性,即rii=1,又具有對稱性,即rij=rji,但不具備傳遞性(R·R?R),從而不是模糊等價關(guān)系,不能用來進行模糊聚類分析,還需對相似矩陣進行傳遞閉包運算。

3)構(gòu)造模糊等價矩陣

令R?為包含R的最小傳遞閉包,對一個相似矩陣R求其傳遞閉包的方法是平方法,即R2=R?R,R4=R2?R2,…。

用上述方法在有限步后便可求得R?=R2k=Rk,即得到模糊等價矩陣。平方自合成法構(gòu)造傳遞閉包,至多只需要log2m+1步即可實現(xiàn),其中m為模糊相似矩陣維數(shù)。

4)模糊聚類

對模糊等價矩陣R?,給定不同的置信水平λ,當(dāng)λ=1時,各特征量自成一類,而后對λ每取一個水平對矩陣R?中的元素按下式進行一次代換,應(yīng)用λ截集的特征函數(shù):

它表示,論域U中的元素,凡對模糊集～r的隸屬度大于或等于λ的就屬于rλ?,否則就不屬于rλ?。

經(jīng)過上述模糊處理變換之后,可以得到一個普通的等價關(guān)系,應(yīng)用系統(tǒng)聚類分析法可以進行聚類分析。

2.2 裝備費用影響因素模型的建立

為了強調(diào)近期裝備對費用預(yù)測的重要性,在進行模糊聚類分析時,首先針對每型裝備分別建立模糊相似關(guān)系矩陣:

式中,Rk(k=1,2,…,n)為第k型裝備的模糊相似矩陣。

其次,為每型裝備賦予不同的權(quán)值[9-11]:

式中,wk(1≤k≤m)為應(yīng)用第k型裝備的權(quán)值,0≤wk≤1,

通過式(8)和式(9)可構(gòu)造裝備的模糊相似矩陣R:

最后,利用模糊相似矩陣R進行進一步的運算獲得模糊等價矩陣。

實際應(yīng)用中根據(jù)具體問題的特點,選擇不同的λ水平,即可得到相應(yīng)的分類。隨著λ由1變?yōu)?的過程中,其對應(yīng)的λ截陣確定的分類由細變粗,逐步回歸,得到動態(tài)的聚類圖。

2.3 裝備費用的組合篩選模型

就裝備費用模型而言,有些影響因素雖然存在較嚴重的多重相關(guān)性,卻都是費用模型中不可缺少的變量,一旦被篩選掉就會給模型意義的解釋帶來困難,甚至無法解釋;同時,許多變量之間的關(guān)聯(lián)度相差很小,舍去一部分就等于損失了這部分的信息。雖然由于影響因素的減少可以簡化費用模型,但也會影響模型的精度。基于特征加權(quán)的模糊動態(tài)聚類和灰色關(guān)聯(lián)相結(jié)合的特征變量篩選模型就是在確保模型精度的情況下進行簡化。

在使用基于特征權(quán)值的模糊動態(tài)聚類法對各影響因素進行聚類分析時,還要同時參考各影響因素同魚雷壽命周期費用的灰色關(guān)聯(lián)度。針對不同的情況選取不同的λ值,并遵循以下原則:

1)在同一聚類組中去除影響因素時,排除與費用相關(guān)度較小的影響因素,保留與費用相關(guān)度較大的影響因素;

2)若同一聚類組中各影響因素同費用的相關(guān)度無明顯差別時,與費用相關(guān)度較小的影響因素,可以選取較大的λ值;與費用強相關(guān)的影響因素,越需要我們謹慎判斷,應(yīng)選取較小的λ值。

3 實例仿真

為論證上述方法的實用性,采用某型裝備的費用模型進行驗證。x0為某同類型裝備的累積平均費用(萬元),收集到與該型裝備累積平均費用有關(guān)的參數(shù)有:x1為裝藥量(kg),x2為裝備長細比,x3為裝備質(zhì)量(kg),x4為航速(kn),x5為航程(km),x6為裝備體積(10-3m3),原始數(shù)據(jù)如表1所示。

表1 原始累積平均費用萬元(初始財年)

3.1 數(shù)據(jù)的預(yù)處理

首先應(yīng)用式(1)和式(2)對各組數(shù)據(jù)進行無量綱化處理,將各組數(shù)據(jù)均轉(zhuǎn)換到[0.1,0.9]范圍內(nèi)。則可獲得標準化累積平均費用,如表2所示。

表2 標準化累積平均費用萬元(初始財年)

3.2 灰色關(guān)聯(lián)度分析

應(yīng)用灰色關(guān)聯(lián)度分析法,分別計算出表2中各變量同某型裝備的累積平均費用變量之間的灰色關(guān)聯(lián)度,并進行排序,排除關(guān)聯(lián)度相對較小的變量,獲得影響裝備費用的重要變量。

1)求取各參數(shù)與累積平均成本無量綱化之差

2)可求得兩極差

3)各參數(shù)的關(guān)聯(lián)度系數(shù)

取分辨系數(shù)ρ=0.50,則各參數(shù)與累積平均成本的灰色關(guān)聯(lián)度為:r1=0.782 5,r2=0.551 9,r3=0.819 0,r4=0.783 3,r5=0.661 3,r6=0.551 7,則r3＞r4＞r1＞r5＞r2＞r6。

由結(jié)果可以看出,在裝備裝藥量、裝備長細比、裝備質(zhì)量、航速、航程、裝備體積這6個影響因素中,相關(guān)因素同裝備費用的敏感度依次是裝備質(zhì)量、航速、裝備裝藥量、航程、裝備長細比、裝備體積。

各因素同裝備費用的關(guān)聯(lián)度均大于0.5,且部分影響因素的關(guān)聯(lián)度相差很小。為了確定各影響因素之間是否存在多重相關(guān)性,我們使用模糊聚類的相關(guān)理論對各影響因素進行分析。

3.3 裝備費用影響因素的特征加權(quán)模糊動態(tài)聚類

考慮應(yīng)用模糊聚類理論對裝備裝藥量、裝備質(zhì)量、航速、航程、裝備體積和裝備長細比六個特征向量進行聚類分析。

(1)使用表2中處理過的數(shù)據(jù),應(yīng)用式(5)所述的最大最小法分別求出7型裝備的模糊相似矩陣Rk(k=1,2,…,7)。

應(yīng)用偏好的思想,賦予近期研制的裝備費用較大的權(quán)值。已知1～7型裝備是按照研制時間順序排列的,令w=(0.1,0.1,0.1,0.1,0.2,0.2,0.2)。利用式(10)可以得到7型裝備針對6型影響因素的模糊相似矩陣:

(2)通過模糊傳遞閉包法,可得

則R8=R4,即獲得模糊等價矩陣的R?:

從模糊聚類動態(tài)分析圖[12](圖1)中可以看出,裝備裝藥量、裝備質(zhì)量這2個變量之間的多重相關(guān)性最強,航速與它們的多重相關(guān)性次之,而其他變量基本相互獨立。這從前面所討論的灰色關(guān)聯(lián)分析法獲得的結(jié)果可知,裝備質(zhì)量、航速、裝備裝藥量這3個變量是影響該型裝備費用的最重要的變量,為了提高預(yù)測模型的精度,結(jié)合兩種分析方法,這里只排除裝備裝藥量這一影響因素。

應(yīng)用裝備長細比、裝備質(zhì)量、航速、航程、裝備體積這5個影響因素可建立較精確的裝備費用預(yù)測模型。

圖1 模糊聚類動態(tài)分析圖

4 結(jié)束語

在進行建模時,模型參數(shù)的選擇對模型的建立至關(guān)重要。通過建立基于特征權(quán)值的模糊動態(tài)聚類模型,突出了近期研制裝備的重要性,對影響因素進行聚類分析,排除影響因素間多重相關(guān)性的干擾。根據(jù)灰色關(guān)聯(lián)度的大小分析對眾多影響因素進行排序,找出主要影響因素,排除關(guān)聯(lián)度相對較小并同其他因素關(guān)聯(lián)度差異明顯的影響因素,減少次要影響因素對估算結(jié)果造成的干擾。保證了在參數(shù)費用模型中只剩下幾個對主變量裝備費用影響較大、相互獨立的影響因素,從而在保證計算精度的前提下使裝備費用模型簡化。在其他的模型特征變量選擇中,該方法具有普遍應(yīng)用價值。

[1]ROBERTO V,GEORG G,MANFRED S.Functional Principal Component Analysis of FMAI Data[J].Human Brain Mapping,2004,24(2):109-129.

[2]劉思峰,楊英杰,吳利豐,等.灰色系統(tǒng)理論及其應(yīng)用[M].7版.北京:科學(xué)出版社,2014.

[3]管維樂,劉健,申卯興.高超聲速目標類型的灰色關(guān)聯(lián)識別模型[J].空軍工程大學(xué)學(xué)報(自然科學(xué)版),2014,15(5):38-41.

[4]關(guān)欣,孫祥威,曹昕瑩.改進的K-Means算法在特征關(guān)聯(lián)中的應(yīng)用[J].雷達科學(xué)與技術(shù),2014,12(1):81-85.

GUAN Xin,SUN Xiangwei,CAO Xinying.A Novel Algorithm for Feature Association Based on Gray Correlation Clutter[J].Radar Science and Technology,2014,12(1):81-85.(in Chinese).

[5]周世波,徐維祥,柴田.基于數(shù)據(jù)加權(quán)策略的模糊C均值聚類算法[J].系統(tǒng)工程與電子技術(shù),2014,36(11):2314-2319.

[6]汪培莊.模糊數(shù)學(xué)與優(yōu)化[M].北京:北京師范大學(xué)出版社,2013.

[7]蔣德瓏,李盛,王克文,等.模糊聚類分析系統(tǒng)的研究與實現(xiàn)[J].計算機工程與科學(xué),2011,33(12):121-125.

JIANG Delong,LI Sheng,WANG Kewen,et al.Research and Implementation of a Fuzzy Clustering Analysis System[J].Computer Engineering and Science,2011,33(12):121-125.(in Chinese)

[8]RUSPINI E H.A New Approach to Clustering[J].Information and Control,1969,15(1):22-32.

[9]郭東,胡亮,郭冰心,等.基于應(yīng)用偏好模糊聚類的網(wǎng)格資源選擇[J].儀器儀表學(xué)報,2008,29(7):1403-1407.

GUO Dong,HU Liang,GUO Bingxin,et al.Grid Resource Selection Based on Preference-Based Fuzzy Clustering[J].Chinese Journal of Scientific Instrument,2008,29(7):1403-1407.(in Chinese)

[10]孔鵬,楊軍,胡國旗.最優(yōu)指數(shù)加權(quán)積累相關(guān)包絡(luò)對齊方法研究[J].雷達科學(xué)與技術(shù),2010,8(6):532-537.

KONG Peng,YANG Jun,HU Guoqi.Research on Accumulation Correlation Envelope Alignment with Optimum Exponential Weighting[J].Radar Science and Technology,2010,8(6):532-537.(in Chinese)

[11]劉赫,劉大有,裴志利,等.一種基于特征重要度的文本分類特征加權(quán)方法[J].計算機研究與發(fā)展,2009,46(10):1693-1703.

[12]盧紋岱,朱紅兵.SPSS統(tǒng)計分析[M].5版.北京:電子工業(yè)出版社,2015.