左航
(國網(wǎng)鄭州供電公司,河南 鄭州 450000)
第一種方法稱為基于均勻性分析的數(shù)據(jù)缺失被動(dòng)(MDP)方法。第二種方法是加權(quán)低秩近似法(WLRA)。2 種方法對(duì)人為生成的不完全數(shù)據(jù)進(jìn)行分析,并用平均同余系數(shù)對(duì)原始完整數(shù)據(jù)進(jìn)行參數(shù)恢復(fù)能力檢驗(yàn)。

B 為n ×t 矩陣,C 為m ×t 矩陣,D 為按降序排列的奇異值的t ×t 對(duì)角矩陣。設(shè)Br,Cr和Dr表示B、C 和D 對(duì)應(yīng)于r 廣義奇異值的部分。

并且

獲得上述解決方案至少有2 個(gè)不同的標(biāo)準(zhǔn):一個(gè)是

uj是權(quán)的r 元素向量,和表示任意矩陣Y。
另一個(gè)是

通過文獻(xiàn)概括(4)推導(dǎo)出MDP 方法:


其中:

簡(jiǎn)化最小化過程。上述最小化問題為

F 服從于(7)。改為



其中:

(12)寫成:

其中

(14)相對(duì)于(7),F(xiàn) 的最小化等價(jià)于

(16)通過廣義本征方程得到






MCAR 條件下的食物和癌癥數(shù)據(jù):數(shù)據(jù)集是文獻(xiàn)[10]編譯的一個(gè)小數(shù)據(jù)集。規(guī)定的比例(10、20 和30)隨機(jī)(MCAR)初始完整數(shù)據(jù)。首先將PCA 應(yīng)用于原始完整數(shù)據(jù),發(fā)現(xiàn)第一個(gè)我們的組分占總變異的70.8、14.1、6.2 和5.3。

表1 食品和癌癥數(shù)據(jù)組分負(fù)荷恢復(fù):同余系數(shù)的均值和標(biāo)準(zhǔn)差(括號(hào)內(nèi))
有2 個(gè)具有經(jīng)驗(yàn)意義的組成部分,一個(gè)是強(qiáng)的,另一個(gè)是相對(duì)弱的。決定檢查1 ~3 的組分?jǐn)?shù)量。表1 總結(jié)了主要結(jié)果。表中的第一列表示提取組分的維度。第二列表示刪失率。接下來的兩列顯示了2 種方法獲得的組分負(fù)荷一致性系數(shù)的平均值和標(biāo)準(zhǔn)差。少量組件和低刪失率的回收率極佳。隨著維數(shù)和刪失率的增加,恢復(fù)率下降。然而2 種方法的恢復(fù)惡化率并不一致。
本文考察了它們的參數(shù)恢復(fù)能力,作為缺失數(shù)據(jù)比例、解的維數(shù)和刪失中非隨機(jī)性程度的函數(shù)。在MCAR 情況下,當(dāng)數(shù)據(jù)的維數(shù)和缺失比例較小時(shí),所有方法都能很好地工作。隨著這些因素的增加,它們的性能下降,但使用 WLRA 方法時(shí),惡化速度往往更快。可以提供的一個(gè)一般性建議是,都應(yīng)保持組件數(shù)量盡可能減少。高維解往往會(huì)增加提取弱分量的機(jī)會(huì),這總是不利于參數(shù)恢復(fù)。