白偉華 北方民族大學(xué)電氣信息工程學(xué)院
淺談主成分分析
白偉華 北方民族大學(xué)電氣信息工程學(xué)院
在實(shí)際的課題或者事件中,為了全面分析問題,往往提出很多與此有關(guān)的因素。每個(gè)因素又都在不同程度反映了事件的某些信息。然而對(duì)每個(gè)因素逐個(gè)進(jìn)行分析不僅會(huì)增加分析的復(fù)雜性,而且還可能忽略了它們的某些內(nèi)在聯(lián)系。因此,在如此多的因素之中,人們希望能夠找出它們的少數(shù)“代表”來對(duì)某課題或事件進(jìn)行描述,也即主成分分析。本文主要從理論的角度闡述了主成分分析在人臉識(shí)別中的重要作用。
因素 內(nèi)在聯(lián)系 主成分分析
主成分分析,是將多個(gè)變量通過線性變換以選出較少個(gè)數(shù)重要變量的一種多元統(tǒng)計(jì)方法;旨在利用降維的思想把多指標(biāo)轉(zhuǎn)換為少數(shù)幾個(gè)綜合指標(biāo)。它是把各變量之間相互關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化分析的方法,試圖在力保數(shù)據(jù)信息丟失最少的原則下對(duì)這種多變量的截面數(shù)據(jù)進(jìn)行最佳綜合簡化,也就是說對(duì)高維變量空間進(jìn)行降維處理。很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易很多。
當(dāng)我們對(duì)事件進(jìn)行全面分析時(shí),會(huì)發(fā)現(xiàn)決定事件的變量很多,每個(gè)變量在不同程度上反映了事件的某些信息,并且這些變量彼此都有一定的相關(guān)性,那么他們所反映的信息就會(huì)有一定的重疊性。此時(shí),我們會(huì)發(fā)現(xiàn)這些眾多的變量會(huì)增加我們統(tǒng)計(jì)或分析問題的復(fù)雜性。在實(shí)際課題中,在進(jìn)行定量分析的過程中,我們總希望在較少變量的情況下,獲得更多的信息量。主成分分析正是解決這類事件的理想工具。
主成分分析是對(duì)數(shù)據(jù)降維的一種方法。它是將原來具有很多具有相關(guān)性的一系列指標(biāo)m1、m2、m3、、、mp(p個(gè)指標(biāo))重新組合成一組較少個(gè)數(shù)的互不相關(guān)的綜合指標(biāo)來代替原來的指標(biāo)。
主成分表分析的第一步是將所有的指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化的一般方法為:(xij-xjmean)/δj,這里xij是樣品i的第j個(gè)指標(biāo),xjmean和δj是第j個(gè)指標(biāo)的平均值和標(biāo)準(zhǔn)偏差,通過標(biāo)準(zhǔn)化后,每個(gè)變量的平均值變成0,標(biāo)準(zhǔn)偏差為1。標(biāo)準(zhǔn)化的好處是可以消除不同指標(biāo)間的量綱差異和數(shù)量級(jí)間的差異。
第二步計(jì)算出各標(biāo)準(zhǔn)化指標(biāo)間的相關(guān)系數(shù)矩陣,從而判定出相關(guān)性很大的一些指標(biāo)。我們可以用另外一個(gè)變量來表示這些指標(biāo)間的協(xié)方差,同時(shí)把這個(gè)變量叫作第一成分。然后把第一成分去掉,計(jì)算剩余的相關(guān)系數(shù)矩陣,通過計(jì)算剩余的相關(guān)陣,可以發(fā)現(xiàn)第二組相關(guān)性很高的變量,此時(shí)我們用第二成分來代替它們的協(xié)方差,第二成分和第一成分是正交的。同理去除第二成分對(duì)原始數(shù)據(jù)的貢獻(xiàn)后,計(jì)算第三組高度相關(guān)的變量。以此類推,直到原始數(shù)據(jù)的所有方差都被提取后結(jié)束。最后原始變量轉(zhuǎn)化成了同樣數(shù)量的新變量且這些新變量之間都是正交的。
4.1 優(yōu)點(diǎn)
①使得各評(píng)估指標(biāo)相互獨(dú)立,互相沒有影響。因?yàn)橹鞒煞址治龇ㄊ前言甲兞窟M(jìn)行一系列變換,最終形成各自相互獨(dú)立的變量,而且通過實(shí)踐可以得出變量間的相關(guān)程度越低,主成分分析效果越好。
②有利于選擇出具有決定性作用的指標(biāo),減少計(jì)算的工作量。對(duì)于其他評(píng)估方法,由于不能很好地消除相互間影響較大的一些指標(biāo),因此在進(jìn)行指標(biāo)選擇的過程中會(huì)比較費(fèi)力。而主成分分析法正好相反,它可以很好地消除指標(biāo)間的相互影響,大大減少工作量。
③主成分分析中,按照主成分的分差大小,依次對(duì)各主成分進(jìn)行排列。這樣在分析問題時(shí),我們可以保留前面方差較大的幾個(gè)主成分代表原始的變量,從而可以減少計(jì)算的復(fù)雜度。用主成分分析法作綜合評(píng)估時(shí),由于選擇的原則是累計(jì)貢獻(xiàn)率≥85%,這樣不至于因?yàn)樯釛壛艘徊糠种鞒煞止?jié)省了工作量而影響整體評(píng)估結(jié)果。
4.2 缺點(diǎn)
①在主成分分析中,我們應(yīng)首先確保所提取的主成分能夠反映原始變量的絕大部分信息而且累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高水平,其次對(duì)這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋。
②對(duì)于所提取的每個(gè)主成分的解釋其含義都有點(diǎn)模糊,不像原始變量的含義可以解釋的那么清楚、確切,這是變量降維過程中不得不付出的代價(jià)。因此,提取的主成分的數(shù)量往往明顯小于原始變量的數(shù)量,否則維數(shù)降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。
③當(dāng)主成分的因子負(fù)荷的符號(hào)有正有負(fù)時(shí),綜合評(píng)價(jià)函數(shù)意義就不明確。
舉個(gè)簡單的例子,在一個(gè)課題分析中,選中30個(gè)指標(biāo),這30個(gè)指標(biāo)對(duì)于這項(xiàng)課題都有著一定的重要性。但是30個(gè)指標(biāo)給分析問題帶來了很大的負(fù)擔(dān),而且過程比較繁瑣,這時(shí)候就可以采用主成分分析方法進(jìn)行降維,提取出能表達(dá)課題分析中最主要的特征信息。
主成分分析最著名的應(yīng)用就是人臉識(shí)別中特征提取及數(shù)據(jù)維,假若我們輸入100*100大小的人臉圖像,單單提取它的灰度值作為原始特征,則這個(gè)原始特征將達(dá)到10000維,這給后面的分類器的處理將帶來很大的難度。
著名的人臉識(shí)別Eigenface算法就是采用主成分分析算法,用一個(gè)低維子空間描述人臉圖像,同時(shí)保存了識(shí)別所需要的信息。它的原理就是將一個(gè)高維向量x通過一個(gè)特殊的特征向量矩陣U,投影到一個(gè)低維的向量空間中,表征為一個(gè)低維向量y,并且僅僅損失了一些次要信息。也就是說,通過低維表征的向量和特征向量矩陣,可以基本重構(gòu)出所對(duì)應(yīng)的原始高維向量。
[1]劉蕾.多元統(tǒng)計(jì)分析及其組合預(yù)測(cè)對(duì)質(zhì)量的評(píng)估[D].渤海大學(xué),2016
[2]王鵬,況福民,鄧育武,田亞平,易鋒.基于主成分分析的衡陽市土地生態(tài)安全評(píng)價(jià)[J].經(jīng)濟(jì)地理,2015,(01):168-172