趙玉煒 蘇 舉
1(中國(guó)科學(xué)院國(guó)家空間科學(xué)中心 北京 100190)
2(中國(guó)科學(xué)院大學(xué) 北京 100049)
隨著硬件設(shè)施的發(fā)展和工程制造水平的提升,航天器儀器部件日益靈敏精細(xì)。同時(shí),為滿(mǎn)足更高目標(biāo)任務(wù)的實(shí)施要求,航天器組成結(jié)構(gòu)日益復(fù)雜。人造衛(wèi)星是精密航天器的一種,在生態(tài)、經(jīng)濟(jì)、國(guó)防和國(guó)民生活等方面都發(fā)揮著重要作用。然而,外太空環(huán)境復(fù)雜,衛(wèi)星長(zhǎng)期在極端溫度、空間大氣、太陽(yáng)風(fēng)暴、強(qiáng)電磁輻射的惡劣環(huán)境中運(yùn)行。此外,衛(wèi)星由成千上萬(wàn)個(gè)元器件組成,元器件性能會(huì)隨時(shí)間推移而逐漸退化,衛(wèi)星在軌期間難免會(huì)發(fā)生狀態(tài)異常。若能在衛(wèi)星狀態(tài)有異常傾向,但尚未發(fā)生嚴(yán)重故障時(shí)就檢測(cè)出來(lái),并采取有效干預(yù)措施進(jìn)行修正,及時(shí)止損,將有利于保障衛(wèi)星穩(wěn)定、安全、可靠運(yùn)行,從而延長(zhǎng)衛(wèi)星壽命,最大化任務(wù)收益。
異常檢測(cè)是衛(wèi)星故障診斷排查和實(shí)時(shí)健康監(jiān)控的重要途徑,常見(jiàn)的衛(wèi)星狀態(tài)異常檢測(cè)方法有基于閾值、基于模型、基于規(guī)則和基于數(shù)據(jù)挖掘四大類(lèi)。其中,基于閾值的異常檢測(cè),需要人力判別,工作量大,可擴(kuò)展性差;基于模型的異常檢測(cè),建模過(guò)程復(fù)雜,對(duì)模型依賴(lài)度高;基于規(guī)則的異常檢測(cè),不能處理知識(shí)庫(kù)中未涵蓋的征兆;而基于數(shù)據(jù)挖掘的異常檢測(cè),不依靠先驗(yàn)知識(shí),自動(dòng)探尋隱藏在數(shù)據(jù)中的客觀規(guī)律,通過(guò)歸納出的數(shù)據(jù)特征來(lái)檢測(cè)異常,自動(dòng)檢測(cè)能力及可拓展性較強(qiáng)。
基于數(shù)據(jù)挖掘檢測(cè)衛(wèi)星狀態(tài),是近年來(lái)航天領(lǐng)域廣為關(guān)注的研究熱點(diǎn)。Pan等[1]結(jié)合核主成分分析和關(guān)聯(lián)規(guī)則挖掘提出了一種傳感器數(shù)據(jù)異常檢測(cè)方法;Zheng等[2]基于衛(wèi)星數(shù)據(jù)的波動(dòng)特征,提出了一種基于序列概率比檢驗(yàn)的方法,用于識(shí)別衛(wèi)星狀態(tài);Zhao等[3]提出了基于Petri網(wǎng)的診斷方法,并應(yīng)用于衛(wèi)星導(dǎo)航接收系統(tǒng)的故障動(dòng)態(tài)診斷;Zhang等[4]提出了一種基于深度學(xué)習(xí)的代表性特征自編碼器,用于衛(wèi)星電源系統(tǒng)的無(wú)監(jiān)督異常檢測(cè);Li等[5]提出了一種基于LightGBM的衛(wèi)星運(yùn)行模式監(jiān)測(cè)算法,用于衛(wèi)星在軌運(yùn)行模式的實(shí)時(shí)監(jiān)控;Li等[6]提出了一種基于信息增益參數(shù)特征選擇和集成學(xué)習(xí)的方法,能有效地用于載荷單機(jī)狀態(tài)快速識(shí)別。
聚類(lèi)分析是數(shù)據(jù)挖掘的方法之一,其廣泛應(yīng)用于車(chē)輛駕駛行為[7]、電力大數(shù)據(jù)[8]、核電站[9]、航空器飛行軌跡[10]等的異常狀態(tài)檢測(cè),并取得了不錯(cuò)的效果。然而應(yīng)用聚類(lèi)算法的主要不足是超參數(shù)選擇不便,聚類(lèi)超參數(shù)的微小差異可能導(dǎo)致全然不同的結(jié)果,不同數(shù)據(jù)集也對(duì)應(yīng)不同的最佳超參數(shù)。目前常通過(guò)網(wǎng)格搜索的方式,選擇聚類(lèi)效果最優(yōu)的超參數(shù)組合,但這個(gè)過(guò)程耗時(shí)耗力,如何能高效自適應(yīng)地選擇聚類(lèi)超參數(shù)是亟待解決的問(wèn)題。
本文將聚類(lèi)分析應(yīng)用于衛(wèi)星狀態(tài)異常檢測(cè),同時(shí)針對(duì)網(wǎng)格搜索中精細(xì)度與效率之間的矛盾,將聚類(lèi)超參數(shù)選擇轉(zhuǎn)化為單目標(biāo)優(yōu)化問(wèn)題,并基于智能優(yōu)化算法的啟發(fā)式搜索能力,提出了超參數(shù)自適應(yīng)優(yōu)化的聚類(lèi)算法UMOEAsII_BIRCH,經(jīng)實(shí)驗(yàn)驗(yàn)證效果優(yōu)于網(wǎng)格搜索。
衛(wèi)星遙測(cè)數(shù)據(jù)的產(chǎn)生過(guò)程為:首先,星上安裝的各傳感器按照一定采樣頻率采集,并轉(zhuǎn)換為電信號(hào);電信號(hào)再利用調(diào)制編碼技術(shù),經(jīng)無(wú)線(xiàn)電通信信道傳輸至地面接收站;最后通過(guò)信號(hào)解調(diào),還原為原始被測(cè)參量[11]。通常情況下,在測(cè)控區(qū)內(nèi),遙測(cè)數(shù)據(jù)實(shí)時(shí)下行傳回;而在測(cè)控區(qū)外,遙測(cè)數(shù)據(jù)則是先存儲(chǔ)在星上,等到衛(wèi)星過(guò)境、可以與地面建立通信時(shí)再下傳。基于遙測(cè)數(shù)據(jù)監(jiān)視衛(wèi)星各分系統(tǒng)工作模式、運(yùn)行狀態(tài),是判斷衛(wèi)星是否正常運(yùn)轉(zhuǎn)的重要途徑。
根據(jù)數(shù)據(jù)采集方式,遙測(cè)數(shù)據(jù)分為模擬量和狀態(tài)量?jī)深?lèi)。模擬量是連續(xù)值,在一定范圍內(nèi)波動(dòng),反映被測(cè)部件的性能狀態(tài);狀態(tài)量是離散值,常在幾個(gè)固定值間變化,反映被測(cè)部件的功能模式。
衛(wèi)星遙測(cè)數(shù)據(jù)為多維時(shí)序數(shù)據(jù),具有以下主要特征[12]。
(1)有噪聲和異常值:由于衛(wèi)星長(zhǎng)期處在太空中,傳感器受惡劣環(huán)境條件的影響和干擾,采集過(guò)程可能有誤;此外,信號(hào)在遠(yuǎn)距離傳輸過(guò)程中,受無(wú)線(xiàn)條件影響,也可能出錯(cuò)、丟失,使得遙測(cè)數(shù)據(jù)信噪比低,含有較多噪聲和異常值。
(2)維度高、數(shù)據(jù)量大:衛(wèi)星物理結(jié)構(gòu)復(fù)雜,傳感器數(shù)目眾多,被測(cè)參數(shù)可能有上千個(gè),使得遙測(cè)數(shù)據(jù)維度很高;同時(shí),傳感器具有較大的采樣頻率,短時(shí)間內(nèi)就會(huì)采集大量數(shù)據(jù)。
(3)各參數(shù)變化規(guī)律不盡相同:有些參數(shù)隨衛(wèi)星的周期性運(yùn)動(dòng)也呈周期性變化趨勢(shì),有些參數(shù)變化不顯著,在一段時(shí)間范圍內(nèi)波動(dòng)輕微,還有部分參數(shù)相互關(guān)聯(lián)、共同變化。
根據(jù)異常表現(xiàn)形式,衛(wèi)星在軌狀態(tài)異常分為點(diǎn)異常和序列異常。點(diǎn)異常是指在單一時(shí)間序列中,遙測(cè)參數(shù)在某個(gè)時(shí)刻發(fā)生突變,或一系列連續(xù)數(shù)據(jù)點(diǎn)呈現(xiàn)出與其他多數(shù)數(shù)據(jù)點(diǎn)不同的特征。點(diǎn)異常可以進(jìn)一步分為單點(diǎn)異常和集體異常,單點(diǎn)異常是指將遙測(cè)數(shù)據(jù)視為整體,某個(gè)時(shí)刻的遙測(cè)參數(shù)與其他時(shí)刻相比存在明顯差異,如圖1所示。

圖1 單點(diǎn)異常示例Fig.1 Example of point anomaly
集體異常往往針對(duì)模擬量而言,是指在一段連續(xù)時(shí)間內(nèi),遙測(cè)參數(shù)趨勢(shì)不正常變動(dòng),超出門(mén)限范圍波動(dòng),或發(fā)生突變、緩變,規(guī)律與大部分?jǐn)?shù)據(jù)不符,如圖2所示。

圖2 集體異常示例Fig.2 Example of collective anomalies
序列異常是指某段時(shí)間序列呈現(xiàn)出與其他應(yīng)有相似變化趨勢(shì)的時(shí)間序列不同的波動(dòng)規(guī)律,在波形上有顯著差異。序列異常不針對(duì)單一時(shí)間序列,其數(shù)據(jù)對(duì)象是時(shí)間序列集合。單獨(dú)分析異常的那一個(gè)時(shí)間序列,其本身可能不具有點(diǎn)異常,如圖3所示。

圖3 序列異常示例(綠色曲線(xiàn)為異常序列,黃色和藍(lán)色曲線(xiàn)表示正常序列)Fig.3 Example of sequential anomalies (Green represents the abnormal sequence, yellow and blue represent normal sequence)
BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)算法是基于層次的平衡迭代規(guī)約和聚類(lèi)算法,最早由Zhang等[13]于1996年提出。BIRCH算法首先將數(shù)據(jù)集以壓縮形式存儲(chǔ),再根據(jù)壓縮后的數(shù)據(jù)進(jìn)行聚類(lèi),通過(guò)一次掃描即能得到較好的結(jié)果,然后可以通過(guò)多次迭代改進(jìn)聚類(lèi)效果。該算法降低了I/O成本,能在內(nèi)存資源有限的情況下完成聚類(lèi),適用于大數(shù)據(jù)集。
BIRCH算法以聚類(lèi)特征 (Cluster Feature) 和聚類(lèi)特征樹(shù) (Cluster Feature Tree,CF樹(shù),定義符號(hào)C) 為核心。聚類(lèi)特征是描述分簇的元組,記錄了分簇中數(shù)據(jù)點(diǎn)的信息。假定分簇包含m個(gè)數(shù)據(jù)對(duì)象{x1,x2,x3,...,xm},每個(gè)數(shù)據(jù)對(duì)象具有P個(gè)屬性特征(即P維),定義L為數(shù)據(jù)點(diǎn)的線(xiàn)性和,S為數(shù)據(jù)點(diǎn)的平方和,則
聚類(lèi)特征是一個(gè)三元組,假設(shè)分簇中有N個(gè)數(shù)據(jù)點(diǎn),則聚類(lèi)特征定義為C= (N,L,S) 。其中,數(shù)據(jù)點(diǎn)的線(xiàn)性和反映了分簇的質(zhì)心位置,數(shù)據(jù)點(diǎn)的平方和反映了分簇的半徑大小。
在聚類(lèi)特征的基礎(chǔ)上定義了CF樹(shù),CF樹(shù)的基本元素即為聚類(lèi)特征。CF樹(shù)是一種平衡搜索樹(shù),每個(gè)節(jié)點(diǎn)包含了一個(gè)或多個(gè)聚類(lèi)特征和指向其孩子節(jié)點(diǎn)的指針。CF樹(shù)包含兩個(gè)重要參數(shù),分支因子(Branching Factor) 和閾值 (Threshold)。分支因子規(guī)定了非葉節(jié)點(diǎn)與葉節(jié)點(diǎn)的最大分支樹(shù),閾值規(guī)定了分簇的最大半徑或直徑(通常以歐式距離為測(cè)度)。
BIRCH算法的流程[14]可分為如下4個(gè)步驟。
步驟1掃描數(shù)據(jù)集,依次將樣本點(diǎn)插入,建立一個(gè)初始的CF樹(shù)。在這個(gè)過(guò)程中,將比較聚集的稠密點(diǎn)劃分至子簇中,同時(shí)將比較離散的稀疏點(diǎn)標(biāo)為噪聲去除,以減少孤立點(diǎn)對(duì)聚類(lèi)結(jié)果的影響。
步驟2根據(jù)需要調(diào)整CF樹(shù),以滿(mǎn)足后續(xù)算法輸入范圍的需要。若內(nèi)存占用較大,則可以增大閾值,建立一棵更小的樹(shù),使之達(dá)到速度和質(zhì)量的要求。
步驟3使用全局或半全局算法對(duì)葉節(jié)點(diǎn)進(jìn)行重聚類(lèi),以消除分裂導(dǎo)致的局部錯(cuò)位,使其更符合數(shù)據(jù)真實(shí)分布。
步驟4把步驟3產(chǎn)生的結(jié)果作為輸入,重新將數(shù)據(jù)劃分到最近的質(zhì)心,保證重復(fù)數(shù)據(jù)分至同一個(gè)簇。
步驟4與步驟2均為非必需的,但步驟4得到的聚類(lèi)結(jié)果往往比步驟3更精確。BIRCH算法只需掃描一次數(shù)據(jù)集,時(shí)間復(fù)雜度相比于其他傳統(tǒng)聚類(lèi)算法更低,效率更高,利用CF樹(shù)壓縮數(shù)據(jù)也降低了空間復(fù)雜度,適用于處理大規(guī)模數(shù)據(jù)。
UMOEAs-II (United Multi-operator Evolutionary Algorithms-II)算法是改進(jìn)的聯(lián)合多算子進(jìn)化算法,是Elsayed等[15]針對(duì)單目標(biāo)優(yōu)化問(wèn)題于2016年提出的。該算法的設(shè)計(jì)基于產(chǎn)生的解決方案的質(zhì)量和種群的多樣性,將多種進(jìn)化算法結(jié)合在一個(gè)單一框架中,每種進(jìn)化算法均可以運(yùn)行多個(gè)搜索算子。
Elsayed等[16]于2014年將差分進(jìn)化 (DE)、遺傳算法 (GA) 和協(xié)方差自適應(yīng)矩陣 (CMA-ES) 結(jié)合在一起,形成了聯(lián)合多算子進(jìn)化算法UMOEAs。UMOEAs-II 算法是在此基礎(chǔ)上的進(jìn)一步改進(jìn):利用高效多算子DE和CMA-ES 的搜索能力,來(lái)進(jìn)化兩個(gè)不同的亞種群,達(dá)到預(yù)先設(shè)定的世代數(shù)后,再依據(jù)解決方案的質(zhì)量和子種群的多樣性更新每種算子在后續(xù)循環(huán)中應(yīng)用的概率。
DE是一種基于種群的隨機(jī)進(jìn)化算法,其模擬了自然界中優(yōu)勝劣汰的進(jìn)化過(guò)程,以不斷提高個(gè)體的質(zhì)量。該算法采用實(shí)數(shù)編碼,按照貪婪選擇策略,在決策空間中搜索最優(yōu)解,通常目標(biāo)是最小化適應(yīng)度值。CMA-ES是協(xié)方差矩陣自適應(yīng)調(diào)整進(jìn)化策略,利用協(xié)方差矩陣指導(dǎo)算法的進(jìn)化。在該算法中,新個(gè)體由高斯分布抽樣產(chǎn)生,考慮種群跨越世代的路徑,而非單一的突變步驟。
UMOEAs-II算法流程可分為以下5個(gè)步驟。
步驟1隨機(jī)生成一個(gè)大小為PS的初始種群,并將其分為PS1和PS2兩個(gè)大小不同的亞種群。其中,兩個(gè)種群的解分別由DE和CMA-ES演化而來(lái)。定義DE和CMA-ES的應(yīng)用概率分別為prob1和prob2,初始時(shí)均設(shè)為1,并設(shè)定種群進(jìn)化的代數(shù)CS。
步驟2在[0,1]區(qū)間生成兩個(gè)隨機(jī)數(shù),若第一個(gè)數(shù)小于prob1,則應(yīng)用DE來(lái)進(jìn)化個(gè)體;若第二個(gè)數(shù)小于prob2,則應(yīng)用CMA-ES來(lái)進(jìn)化個(gè)體。
步驟3當(dāng)進(jìn)化代數(shù)達(dá)到CS時(shí),根據(jù)解決方案質(zhì)量和子種群多樣性更新prob1和prob2;當(dāng)進(jìn)化代數(shù)每達(dá)到2×CS時(shí),進(jìn)行信息共享,并將prob1和prob2重置為1。
步驟4在后期階段,應(yīng)用內(nèi)點(diǎn)法來(lái)尋找局部最優(yōu)解,以發(fā)現(xiàn)迄今為止的最優(yōu)個(gè)體。
步驟5循環(huán)執(zhí)行步驟2~4,直至評(píng)估次數(shù)達(dá)到最大評(píng)估次數(shù)Max_FES。
在上述過(guò)程中,每一代時(shí)DE和CMA-ES均為并行的。在UMOEAs-II算法中,算子的結(jié)合、應(yīng)用概率的動(dòng)態(tài)變化、信息共享方案的采用和后期的局部搜索,使得算法在求解單目標(biāo)優(yōu)化問(wèn)題時(shí),能取得較高質(zhì)量的解。
從優(yōu)化的角度來(lái)看,聚類(lèi)是一類(lèi)特殊的NP難分組問(wèn)題。其以一定度量標(biāo)準(zhǔn)衡量聚類(lèi)效果,并尋找使得聚類(lèi)效果最好的分簇方式。然而,聚類(lèi)算法對(duì)超參數(shù)高度敏感,在缺乏先驗(yàn)知識(shí)的情況下超參數(shù)難以選擇。為解決利用網(wǎng)格搜索選擇超參數(shù)過(guò)程中精細(xì)度與效率沖突的問(wèn)題,本文將智能優(yōu)化算法引入聚類(lèi)分析中,以實(shí)現(xiàn)聚類(lèi)超參數(shù)的啟發(fā)式自適應(yīng)搜索。
進(jìn)化算法是智能優(yōu)化算法之一,能夠高效搜索近似最優(yōu)解,被證明對(duì)NP難問(wèn)題有效,已有學(xué)者嘗試?yán)眠M(jìn)化算法來(lái)優(yōu)化聚類(lèi)分析[17]。基于此,本文將聚類(lèi)超參數(shù)的選擇轉(zhuǎn)化為單目標(biāo)優(yōu)化問(wèn)題,并利用進(jìn)化算法求解。在這個(gè)問(wèn)題中,要求的解向量為待選擇的聚類(lèi)超參數(shù),決策空間為超參數(shù)的取值范圍,目標(biāo)函數(shù)值為選取的聚類(lèi)效果評(píng)價(jià)指標(biāo)。UMOEAs-II算法對(duì)于單目標(biāo)優(yōu)化問(wèn)題解決效果較好,BIRCH算法適用于處理大規(guī)模數(shù)據(jù)集,因此本文將UMOEAs-II算法與BIRCH算法相結(jié)合,提出超參數(shù)自適應(yīng)優(yōu)化的聚類(lèi)算法 UMOEAsII_BIRCH。
針對(duì)異常檢測(cè)問(wèn)題,處理思路為:選取異常檢測(cè)中常用的效果評(píng)價(jià)指標(biāo)F1-score,把1/F1-score作為進(jìn)化算法目標(biāo)函數(shù)值,該值越小、越接近1,異常檢測(cè)效果越好;首先使用UMOEAs-II算法啟發(fā)式搜索BIRCH聚類(lèi)超參數(shù)取值空間中使得目標(biāo)函數(shù)值最小的解向量,最優(yōu)解即對(duì)應(yīng)BIRCH聚類(lèi)最優(yōu)超參數(shù);然后在搜索到的最優(yōu)超參數(shù)下,對(duì)數(shù)據(jù)集樣本聚類(lèi),正常數(shù)據(jù)將大量聚在一起形成密集的大簇,而異常數(shù)據(jù)因分布規(guī)律不同,將形成散落的小簇被區(qū)分出來(lái)。
在UMOEAsII_BIRCH算法實(shí)現(xiàn)過(guò)程中,通過(guò)不斷迭代使適應(yīng)度收斂至某一最小值。經(jīng)算法多次測(cè)試,找到最終適應(yīng)度值最小的循環(huán),其求得的解向量即為問(wèn)題近似最優(yōu)解。最優(yōu)解對(duì)應(yīng)最佳聚類(lèi)超參數(shù),通過(guò)上述過(guò)程,實(shí)現(xiàn)了啟發(fā)式自適應(yīng)搜索聚類(lèi)最優(yōu)超參數(shù)的目的。其中,最優(yōu)聚類(lèi)超參數(shù)在本文研究問(wèn)題中意味著F1-score最大,異常檢測(cè)效果最好。
異常檢測(cè)可以視作一個(gè)二分類(lèi)問(wèn)題,將樣本數(shù)據(jù)分為正常和異常兩類(lèi)。在這個(gè)問(wèn)題中,通常更關(guān)心異常的情況,因此將異常樣本設(shè)為正例(值為1),將正常樣本設(shè)為負(fù)例(值為0)。機(jī)器學(xué)習(xí)中常用混淆矩陣來(lái)衡量分類(lèi)的質(zhì)量,各種情形列于表1。
精確率 (Precision,用P表示) 是指所有被預(yù)測(cè)為異常的樣本中,預(yù)測(cè)為異常、實(shí)際也為異常的樣本所占的比例。其值越高,說(shuō)明誤檢率越低、異常檢測(cè)效果越好,有
其中,NTP為正例的數(shù)量,NFP為負(fù)例的數(shù)量。
召回率 (Recall,用R表示) 是指預(yù)測(cè)為異常、實(shí)際也為異常的樣本,占實(shí)際上所有異常的比例。其值越高,說(shuō)明漏檢率越低、異常檢測(cè)效果越好,有
其中,NFN為負(fù)例的數(shù)量。
但倘若只單獨(dú)分析精確率或者召回率也是意義不大的:例如為了不誤檢,只將最可能是異常的幾個(gè)樣本點(diǎn)挑出來(lái),這樣精確率很高,但大量異常未被發(fā)現(xiàn);或是為了不漏檢,將所有疑似異常的都挑出來(lái),這樣召回率很高,但存在大量虛警。因此,要綜合考慮召回率和精確率,才能反映真實(shí)效果。為此,引入了F1-score。
F1-score(用F表示)是精確率和召回率的加權(quán)調(diào)和平均,取值范圍為[0,1],其值越接近1,說(shuō)明異常檢測(cè)質(zhì)量越高。在本文后續(xù)實(shí)驗(yàn)中,選擇F1-score作為主要評(píng)價(jià)指標(biāo),衡量算法異常檢測(cè)效果,有
3.2.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)來(lái)自于中國(guó)某空間科學(xué)衛(wèi)星,采樣周期為1 s。選取2020年12月的部分延時(shí)遙測(cè)數(shù)據(jù)中的電源主要包進(jìn)行算法驗(yàn)證,共獲得58維特征,10萬(wàn)條數(shù)據(jù)樣本。
在實(shí)際工程中,衛(wèi)星狀態(tài)異常并不常見(jiàn),一段連續(xù)時(shí)間內(nèi)發(fā)生多次異常的情況更少。此外,與其他設(shè)備不同,衛(wèi)星的高造價(jià)和長(zhǎng)期在太空環(huán)境中運(yùn)行,就使得給衛(wèi)星斷電或人為模擬故障實(shí)驗(yàn)是不現(xiàn)實(shí)的。因此,本文在原始正常數(shù)據(jù)的基礎(chǔ)上,根據(jù)各屬性含義和取值范圍等先驗(yàn)知識(shí),結(jié)合專(zhuān)家經(jīng)驗(yàn),進(jìn)行異常注入,得到模擬的含有點(diǎn)異常的衛(wèi)星遙測(cè)數(shù)據(jù)(異常數(shù)據(jù)占比0.33%)供后續(xù)實(shí)驗(yàn)。
所用遙測(cè)數(shù)據(jù)來(lái)自衛(wèi)星電源分系統(tǒng),包含電壓、電流、開(kāi)關(guān)狀態(tài)、配電狀態(tài)、溫度等屬性。針對(duì)原始數(shù)據(jù),預(yù)處理主要包括特征選擇、數(shù)據(jù)標(biāo)準(zhǔn)化、主成分分析等。
3.2.1.1 特征選擇
本文所研究的衛(wèi)星狀態(tài)異常檢測(cè),針對(duì)點(diǎn)異常中的集體異常,研究對(duì)象是模擬量,即連續(xù)值。因此,首先刪除遙測(cè)數(shù)據(jù)中的狀態(tài)量,以及不具有實(shí)際意義的保留字段。剩余屬性均屬于研究范圍,但各屬性間并非獨(dú)立,很多屬性相互關(guān)聯(lián),有的還高度相關(guān)。對(duì)于相關(guān)性高的屬性,所包含的信息往往極為相似。刪除相似屬性,可以減少特征冗余,提高效率。
皮爾森相關(guān)系數(shù)是常見(jiàn)的相關(guān)性度量指標(biāo)之一,可以衡量線(xiàn)性相關(guān)的連續(xù)變量之間的相關(guān)程度。皮爾森系數(shù)ρx,y介于[-1, 1],絕對(duì)值越接近1,說(shuō)明兩個(gè)變量越相關(guān)。其中,負(fù)數(shù)代表負(fù)相關(guān),正數(shù)代表正相關(guān)。通常認(rèn)為,|ρx,y|>0.8表示兩個(gè)變量極強(qiáng)相關(guān),0.8 >|ρx,y|>0.6表示兩個(gè)變量強(qiáng)相關(guān)。分別計(jì)算屬性?xún)蓛砷g的皮爾森相關(guān)系數(shù),并畫(huà)出屬性相關(guān)性熱力圖,如圖4所示。圖4中顏色越淺代表屬性正相關(guān)性越強(qiáng),顏色越深代表屬性負(fù)相關(guān)性越強(qiáng)。

圖4 屬性相關(guān)性熱力圖Fig.4 Attribute correlation heat map
3.2.1.2 數(shù)據(jù)標(biāo)準(zhǔn)化
使用Z-Score標(biāo)準(zhǔn)化(即標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化),將數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布。該方法對(duì)于后續(xù)主成分分析和聚類(lèi)的距離相似性度量有較好的效果。同時(shí)使用該方法在一定程度上可以避免Min-Max標(biāo)準(zhǔn)化等對(duì)異常值敏感的問(wèn)題。
3.2.1.3 主成分分析
經(jīng)特征選擇,數(shù)據(jù)屬性已大幅減少,但仍具有較高維度,影響聚類(lèi)效率。因此,通過(guò)主成分分析進(jìn)一步將數(shù)據(jù)維度降至三維,從而能可視化顯示,便于直觀觀察。在三維坐標(biāo)系中,可視化顯示出經(jīng)預(yù)處理后的數(shù)據(jù)點(diǎn),如圖5所示。可以看出,絕大多數(shù)正常點(diǎn)密集分布在一起,而異常點(diǎn)形成幾個(gè)小簇,比較分散,符合利用聚類(lèi)進(jìn)行異常檢測(cè)的認(rèn)知規(guī)律。

圖5 異常點(diǎn)分布(藍(lán)色表示正常點(diǎn),紅色表示異常點(diǎn))Fig.5 Distribution of anomalies (Blue represents normal points, and red represents abnormal points)
3.2.2 參數(shù)設(shè)置
為驗(yàn)證提出的聚類(lèi)超參數(shù)自適應(yīng)搜索的效果,以網(wǎng)格搜索為基準(zhǔn),選取基于劃分的聚類(lèi) K-Means,基于密度的聚類(lèi)MeanShift、DBSCAN和基于層次的聚類(lèi)BIRCH算法進(jìn)行對(duì)比測(cè)試。對(duì)于各聚類(lèi)算法,分別采用網(wǎng)格搜索的方式和自適應(yīng)搜索的方式,選擇異常檢測(cè)效果最好的聚類(lèi)超參數(shù)。
對(duì)于智能優(yōu)化算法的測(cè)試,為避免偶然情況的干擾,需要多次運(yùn)行,求得最優(yōu)值、最差值、均值和方差,來(lái)綜合評(píng)定算法性能。因此,自適應(yīng)搜索方式中,對(duì)于UMOEAs-II算法,本文設(shè)定的運(yùn)行次數(shù)為10次,各算法具體參數(shù)設(shè)置見(jiàn)表2。

表2 UMOEAs-II算法參數(shù)設(shè)置Table 2 Parameter settings of UMOEAs-II
自適應(yīng)搜索中,每次評(píng)價(jià)執(zhí)行一次聚類(lèi)算法,計(jì)算適應(yīng)度值。網(wǎng)格搜索中,每個(gè)網(wǎng)格點(diǎn)對(duì)應(yīng)一組超參數(shù)取值,執(zhí)行一次聚類(lèi)算法。因此,聚類(lèi)算法運(yùn)行總次數(shù)分別對(duì)應(yīng)自適應(yīng)搜索中的最大評(píng)估次數(shù)和網(wǎng)格搜索中的網(wǎng)格點(diǎn)數(shù)。為使兩種搜索方式處在可比的規(guī)模,在網(wǎng)格搜索中,設(shè)定網(wǎng)格點(diǎn)數(shù)NUM為自適應(yīng)搜索中UMOEAsII算法的最大評(píng)估次數(shù)Max_FES,保證兩種方式測(cè)試了同等數(shù)量的聚類(lèi)超參數(shù)組合。
相應(yīng)地,為避免實(shí)驗(yàn)的偶然性,在保證劃分精細(xì)度不變的前提下,隨機(jī)網(wǎng)格的具體劃分方式,并運(yùn)行10次,與自適應(yīng)搜索保持一致。每種聚類(lèi)算法測(cè)試的參數(shù)組合列于表3,統(tǒng)計(jì)F1-score的最優(yōu)值、最差值、均值和方差。同時(shí),為比較搜索效率,記錄算法執(zhí)行時(shí)間。

表3 網(wǎng)格搜索測(cè)試參數(shù)組合Table 3 Parameter combinations of grid search
3.2.3 實(shí)驗(yàn)結(jié)果
分別統(tǒng)計(jì)網(wǎng)格搜索(MeanShift,K-Means,DBSCAN,BIRCH)和自適應(yīng)搜索(UMOEAsII_Mean-Shift,UMOEAsII_K-Means,UMOEAsII_DBSCAN,UMOEAsII_BIRCH)兩種方式下,算法運(yùn)行10次的結(jié)果,得到的統(tǒng)計(jì)量列于表4。

表4 算法測(cè)試結(jié)果對(duì)比Table 4 Comparison of algorithm test results
比較傳統(tǒng)的聚類(lèi)算法K-Means,MeanShift,DBSCAN和BIRCH,可以發(fā)現(xiàn),基于層次的BIRCH聚類(lèi)效果最好,在最優(yōu)超參數(shù)下,利用BIRCH算法進(jìn)行異常檢測(cè)的 F1-score 優(yōu)于其他聚類(lèi)。同時(shí)比較各聚類(lèi)算法平均執(zhí)行一次的時(shí)間可得,BIRCH算法的執(zhí)行效率高于K-Means和DBSCAN,僅次于Mean-Shift,但BIRCH算法異常檢測(cè)的性能遠(yuǎn)優(yōu)于Mean-Shift。這也印證了BIRCH算法通過(guò)只掃描一次數(shù)據(jù)集,然后迭代改進(jìn)的方式聚類(lèi),時(shí)間復(fù)雜度更低、效率更高,適用于處理大規(guī)模數(shù)據(jù)。
分別比較各聚類(lèi)算法兩種搜索方式下10次運(yùn)行的結(jié)果,由表4可以看出,自適應(yīng)搜索方式得到的最優(yōu)值、最差值和均值都高于或與網(wǎng)格搜索方式的結(jié)果持平。同時(shí),對(duì)比算法運(yùn)行時(shí)間可得,自適應(yīng)搜索在最好、最壞和平均情況下均能以更高效率得到比網(wǎng)格搜索更優(yōu)或等優(yōu)的解。此外,自適應(yīng)搜索的方差相較于網(wǎng)格搜索更小、穩(wěn)定性更高。
為觀察算法收斂過(guò)程,依據(jù)記錄點(diǎn)給出F1-score最優(yōu)值演化過(guò)程折線(xiàn)圖(見(jiàn)圖6)。折線(xiàn)反映了利用進(jìn)化算法搜索最優(yōu)聚類(lèi)超參數(shù)過(guò)程中F1-score的演化過(guò)程。可以看出,算法在運(yùn)行結(jié)束前數(shù)十次至上百次評(píng)價(jià)時(shí)就已達(dá)到收斂,具有較好的收斂性能。這說(shuō)明自適應(yīng)搜索實(shí)際找到最優(yōu)解的時(shí)間小于執(zhí)行時(shí)間,效率高于網(wǎng)格搜索。

圖6 進(jìn)化算法演化過(guò)程曲線(xiàn)Fig.6 Evolution process curve of evolutionary algorithm
為展示網(wǎng)格搜索方式尋找最優(yōu)參數(shù)的過(guò)程,依據(jù)聚類(lèi)超參數(shù)組合和對(duì)應(yīng)的F1-score繪制曲線(xiàn)圖與曲面圖(見(jiàn)圖7)。從圖7可以看出,當(dāng)F1-score最大時(shí),異常檢測(cè)效果最好,則尋優(yōu)過(guò)程可以理解為搜索圖中最高點(diǎn),最高點(diǎn)處對(duì)應(yīng)的超參數(shù)即可近似視為最優(yōu)聚類(lèi)參數(shù)組合。

圖7 參數(shù)網(wǎng)格搜索過(guò)程Fig.7 Process of parameter grid searching
由圖7還可以看出,F(xiàn)1-score隨超參數(shù)變化劇烈,無(wú)明顯規(guī)律,趨勢(shì)難以預(yù)知。若設(shè)置的步長(zhǎng)過(guò)大,則搜索不夠精細(xì),可能錯(cuò)過(guò)更優(yōu)的取值;若設(shè)置的步長(zhǎng)過(guò)小,則需測(cè)試很多種組合,增大時(shí)間開(kāi)銷(xiāo)。而在固定網(wǎng)格劃分精度的前提下,無(wú)論選擇哪種具體劃分方式,都只能搜索到網(wǎng)格點(diǎn)上的參數(shù)組合,無(wú)法測(cè)試不在網(wǎng)格上的點(diǎn),約束性強(qiáng)。
綜上所述,本文提出的UMOEAsII_BIRCH算法通過(guò)自適應(yīng)搜索的方式,在決策空間內(nèi)搜尋,克服了網(wǎng)格搜索方式中搜索精細(xì)程度與效率之間的平衡問(wèn)題,能夠以更高效率發(fā)現(xiàn)更加優(yōu)異的解,且超參數(shù)個(gè)數(shù)越多,優(yōu)勢(shì)越顯著。同時(shí),該方法需要的人工干預(yù)較少,不受先驗(yàn)知識(shí)的限制,達(dá)到了改進(jìn)的預(yù)期效果。此外,改進(jìn)的UMOEAsII_BIRCH算法適用于大數(shù)據(jù)集,在衛(wèi)星遙測(cè)數(shù)據(jù)集上測(cè)試有效,異常檢測(cè)F1-score可達(dá)0.86。
為驗(yàn)證參數(shù)自適應(yīng)聚類(lèi)的可拓展性,選取異常檢測(cè)公開(kāi)數(shù)據(jù)集Thyroid進(jìn)行測(cè)試。該數(shù)據(jù)集包括3772條樣本,每條樣本含6維屬性,共分為正常和異常兩個(gè)類(lèi)別,其中異常樣本有93條,占比2.466%。分別選取基于劃分的聚類(lèi)K-Means、基于密度的聚類(lèi)DBSCAN和基于層次的聚類(lèi)BIRCH算法進(jìn)行測(cè)試,設(shè)定算法運(yùn)行次數(shù)為10次,自適應(yīng)搜索和網(wǎng)格搜索方式的具體參數(shù)設(shè)置列于表5和表6。

表5 UMOEAs-II算法參數(shù)設(shè)置Table 5 Parameter settings of UMOEAs-II

表6 網(wǎng)格搜索測(cè)試參數(shù)組合Table 6 Parameter combinations of grid search
分別統(tǒng)計(jì)網(wǎng)格搜索和自適應(yīng)搜索兩種方式下算法運(yùn)行10次的結(jié)果,記錄F1-score的最優(yōu)值、最差值、均值、方差以及算法的執(zhí)行時(shí)間,結(jié)果列于表7。

表7 算法測(cè)試結(jié)果Table 7 Algorithm test results
由表7可得,基于層次的BIRCH聚類(lèi)異常檢測(cè)效果較其他聚類(lèi)更好。對(duì)于各聚類(lèi)算法,自適應(yīng)搜索在最壞情況下的解優(yōu)于網(wǎng)格搜索在最好情況下的解,說(shuō)明自適應(yīng)搜索能以更高效率搜索到更優(yōu)的聚類(lèi)超參數(shù)。同時(shí),自適應(yīng)搜索得到的F1-score的方差很小,說(shuō)明該搜索方式有較強(qiáng)的穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明,本文提出的UMOEAsII_BIRCH算法在公開(kāi)數(shù)據(jù)集Thyroid上測(cè)試有效,可拓展至不同數(shù)據(jù)集。
為解決傳統(tǒng)聚類(lèi)算法對(duì)超參數(shù)高度敏感,網(wǎng)格搜索過(guò)程繁瑣、結(jié)果不精細(xì)、效率低的問(wèn)題,基于智能優(yōu)化算法的啟發(fā)式搜索能力,提出了超參數(shù)自適應(yīng)優(yōu)化的聚類(lèi)算法 UMOEAsII_BIRCH,并在衛(wèi)星遙測(cè)數(shù)據(jù)集和公開(kāi)數(shù)據(jù)集上進(jìn)行了驗(yàn)證。以網(wǎng)格搜索為基準(zhǔn),分別選取基于劃分、基于層次和基于密度的聚類(lèi)算法,對(duì)比本文提出的自適應(yīng)搜索和網(wǎng)格搜索兩種方式在等規(guī)模聚類(lèi)次數(shù)下,算法10次運(yùn)行中F1-score的最優(yōu)值、最差值、均值、方差以及算法的執(zhí)行時(shí)間。實(shí)驗(yàn)結(jié)果表明,自適應(yīng)搜索克服了網(wǎng)格搜索中精細(xì)程度與效率之間矛盾的問(wèn)題,不受網(wǎng)格點(diǎn)的限制,能在更短時(shí)間內(nèi)尋得更精細(xì)的聚類(lèi)超參數(shù)取值,無(wú)需人工干預(yù),證明了將智能優(yōu)化算法與聚類(lèi)結(jié)合以實(shí)現(xiàn)聚類(lèi)超參數(shù)自適應(yīng)搜索的有效性。此外,本文提出的算法結(jié)合了BIRCH算法和UMOEAs-II算法的優(yōu)勢(shì),實(shí)現(xiàn)了基于超參數(shù)自適應(yīng)優(yōu)化聚類(lèi)的異常檢測(cè),綜合性能較高。不過(guò),該方法目前只針對(duì)離線(xiàn)檢測(cè)進(jìn)行了實(shí)驗(yàn),即在大量歷史數(shù)據(jù)中發(fā)現(xiàn)異常樣本。未來(lái)如拓展至實(shí)時(shí)在線(xiàn)檢測(cè)將具有更重要的意義。