摘 要:為解決高空間分辨率影像目標的識別問題,一種好的方式是將充分考慮高階累積量的獨立分量分析方法引入高空間分辨率影像進行特征提取,但由于基于傳統獨立成分分析方法提取的特征空間不能最優區分不同類別的樣本。為此,提出一種改進的基于獨立成分分析的目標識別方法(Multi-ICA)。該方法為每個類別的樣本構造單獨的特征空間,通過投影到特征空間,得到表征該類別樣本特征的特征向量集合。Multi-ICA方法提取的特征空間是基于某類樣本圖像的共性特征建立的,同一類別樣本間的歐式距離要小于不同類別樣本之間的歐式距離。因此,可以將待識別樣本分類到具有最小歐式距離的特征空間所對應的類別上。現以北京地區的高分辨率衛星Quickbird影像為例,進行了Multi-ICA、傳統ICA方法、主成分分析(PCA)方法,以及Multi-PCA方法的目標識別對比實驗。結果表明,提出Multi-ICA算法的識別率有明顯的提高,并且在一定程度上緩解了由于樣本數量增加導致樣本特征向量維數增加的問題。關鍵詞:Quickbird; 遙感影像;獨立成分分析; 特征提取; 空間數據挖掘
中圖分類號:TN911-34文獻標識碼:A
文章編號:1004-373X(2010)22-0100-04
Improved Recognition of High Spatial Resolution Images Based on ICA Feature Space
PENG Di1, WANG Yi2
(1. College of Information Science and Technology, Beijing Normal University, Beijing 100875, China;
2. Ocean University of China, Qingdao 266003, China)
Abstract: To solve the problems of high spatial resolution images′ recognition, independent component analysis which takes full account of higher-order cumulants is introduced to extract the feature of high spatial resolution image. However, the feature space, extracted by traditional method based on independent component analysis, cannot optimally distinguish between different types of samples. Therefore, an improved algorithm based on independent component analysis (namely Multi-ICA) is proposed. In this algorithm, its own feature space for each type of sample is constructed, and then by projecting to the feature spaces, the set of characteristic vectors representing the features of the given sample are obtained. The feature spaces extracted by the Multi-ICA algorithm are constructed according to commonness between the sample images of the certain type. The Euclidean distance between the same type of samples is smaller than that of the different type of samples. Taking the high-resolution Quickbird satellite image of Beijing district as a example, the contrast experiment of target identification shows that the recognition rate of the proposed Multi-ICA algorithm in comparison with those of traditional ICA, PCA and Multi-PCA is more obviously improved. The recognition rate keeps stable when recognition types increases. It alleviates the problem that the dimension of sample feature vector increases with the increase of samples.Keywords: Quickbird; remote sensing image; independent component analysis; feature extraction; spatial data mining
0 引 言
雖然獨立成分分析[1]在圖像處理和圖像識別中取得了不錯的效果[2-10],但是現有的獨立成分分析多把所有不同類別的圖像樣本放在一起進行特征提取,以得到能夠表征所有樣本特征的特征空間為目的。因此,對于描述不同類別的圖像樣本之間的差異而言,該特征空間不一定是最優的描述。也就是說,通過向該特征空間投影得到的特征是不充分的,從而限制了識別率的進一步提高。
為此,提出了一種改進的基于獨立成分分析的目標識別方法(Multi-ICA)。該算法為每個類別的樣本構造單獨的特征空間,并引入Fisher分類器來優化特征空間,使得用于識別的特征在分類空間上具有良好的類內凝聚性和類間差異性。用Multi-ICA方法提取的特征空間是基于某類樣本圖像的共性特征建立的,同一類別樣本間的歐式距離要小于不同類別樣本之間的歐式距離。因此,可以將待識別樣本分類到具有最小歐式距離的特征空間所對應的類別上。
1 ICA基本原理
1.1 ICA問題描述
ICA技術的實質是在假設源信號是相互統計獨立的基礎上,不知道源信號及混合矩陣任何信息的情況下,試圖將一組隨機變量表示成統計上獨立變量的線性組合。基于ICA方法使被分析信號各成分之間的統計依賴性得到最小化,突出了源信號的本質結構。
1.2 標準ICA模型
給定m個觀測信號x1,x2,…,xm,假設這m個觀測信號由n個相互獨立的未知源信號s1,s2,…,sn線性混合而成,則ICA的基本目標就是要找到一個線性變換,使變換后的各信號之間盡可能獨立統計。令x=(x1,x2,…,xm)T,S=(s1,s2,…,sn)T,則ICA的基本模型可以表示為:
x=AS(1)
式中:A∈Rn×m為線性混合矩陣。ICA的任務就是估計出分離矩陣W,即混合矩陣A的逆,使得輸出Y=Wx的各分量yi盡可能保持統計獨立,則yi為si的估計,其中,Y=(y1,y2,…,yn)T。由此可知,對源信號S的估計轉換為對分離矩陣W的估計。
在ICA模型中,一般假定:
(1)觀測信號矢量的維數不小于未知源信號矢量的維數m≥n;
(2)源信號各分量s1,s2,…,sn 至多有一個服從高斯分布;
(3)源信號各分量s1,s2,…,sn 是均值為零且相互統計獨立的;
(4)線性混合矩陣A是列滿秩的。
2 ICA特征空間以及特征空間優化
2.1 ICA特征空間
由ICA原理可知,任意一幅圖像Xi都可表示成一組統計獨立的基圖像的線性疊加。設m幅目標圖像對應觀測矩陣X=(X1,X2,…,Xm)T,則有:
Xi=∑nj=1aijSj(2)
式中:aij為目標圖像Xi 在特征維Sj 方向上的投影系數;混合矩陣A的每行Ai稱為目標圖像Xi的特征矢量,表征了圖像在邊緣和細節上的特征。其中:
Ai=(ai1,ai2,…,ain)T(3)
觀測矩陣X經過ICA分解可得到一組統計獨立的基圖像矢量,以這組基圖像矢量構造特征空間,各目標圖像Xi的特征矢量可由該特征空間里的一個點來表示。
2.2 特征空間優化
隨著訓練影像的尺寸增大或者訓練影像的個數增多,提取的特征空間分量隨之增加,進而導致相應的影像特征向量維數也增加。在這些增加的特征中,一些特征是由于影像的個數增多而帶來的無效特征,例如,在影像個數增多時,引入的噪聲也隨之增多。一些特征是由于影像的尺寸增大而帶來的冗余特征,例如,在對影像進行分割時,由于分割算法造成的過分割現象會給影像樣本帶入其他類影像樣本的信息。這些增加的特征不能反映影像樣本的全局特征、局部特征和邊緣特征,不僅增加了計算時間還會降低識別率。所以,通常在得到原始特征空間之后,需要對特征空間進行優化,優化的目的是保證識別的正確率和提高效率,使得通過優化后的特征空間能夠得到對識別最有利和數目最少的特征向量。在此,引入Fisher分類方法中類內、類間距離的比值作為特征提取優化和特征選擇準則。
設觀測圖像矩陣X由l類目標、混合矩陣A的列Aj與獨立分量sj 相對應,aij為第i個觀測圖像的第j個特征,計算出每個特征的類內距離和類間距離。
第i類樣本的第j個特征均值mj為:
mj=1Ni∑x∈iaij(4)
第i類樣本的第j個特征類內距離Sj為:
Sj=∑x∈i(aij-mj)2(5)
樣本的第j個特征類間距離Wj為:
Wj=∑li≠j(mi-mj)2(6)
定義樣本的第j個特征類內類間距離比值λj 為:
λj=∑x∈i(aij-mj)2∑li≠j(mi-mj)2=SjWj(7)
由式(7)可知,λj值越小,則第j個特征使得同類目標的特征矢量在特征空間中對應的特征點分布越密集,不同類目標的特征點相距越遠,對于分類識別越有效。選取與λj對應的獨立基矢量集合構造最優特征空間,并在此特征空間上進行目標識別。
3 基于Multi-ICA的識別算法
假設現有一個具有m個類別的圖像訓練集,則每個類別有ti(i=1,2,…,m)個樣本。
3.1 建立特征空間以及特征向量
首先將訓練樣本集中的每一幅圖像按行掃描成行向量。基于Multi-ICA建立特征空間的步驟為:
(1) 對第i(i=1,2,…,m)類的圖像樣本進行預處理。首先是進行零均值處理,然后進行白化處理。
(2) 采用FastICA算法估計分離矩陣W,進而估計出混合矩陣A和到得第i類圖像樣本的基圖像矢量Si。
(3) 對基圖像矢量Si求偽逆,即得到第i類圖像樣本的特征空間S+i。
(4) 對各類的特征空間S+i進行優化。
(5) 將第i類圖像樣本xi向其特征空間S+i投影,有:
yi=xi×S+i(8)
由式(8)可得表征第i類圖像樣本xi的特征向量yi。
3.2 識別
對于一個待識別的圖像樣本f,其識別步驟為:
(1) 向第i類圖像樣本的特征空間投影,得到其特征向量。
(2) 計算它與第i類圖像樣本的平均特征向量y-i的歐式距離di。
(3) 取距離向量d(d=(d1,d2,…,dm))中的最小分量。
建立的特征空間是以提取某類圖像樣本的共性為目的,因此在計算與同類別樣本的平均特征向量的歐式距離時,將獲得較小的值,而計算與不同類別樣本的平均特征向量的歐式距離時,將獲得較大的值。比較待識別樣本的m個歐式距離值di(i=1,2,…,m),以取得最小值時所對應的類別為其所屬類別。
4 實驗與分析
選用北京地區的Quickbird高分辨率衛星影像進行識別實驗,該影像(全色+4波段多光譜)拍攝于2005年4月26號3點36分41秒,該影像的部分截圖如圖1所示。
圖1 北京地區的Quickbird高分辨率衛星部分影像
在該圖像上分別隨機截取道路、植被和房屋三類目標圖像大小為30×30像素的樣本120個作為實驗數據,并對所有的實驗數據進行灰度化處理。圖2為部分訓練集圖像示例。
圖2 部分訓練集
4.1 實驗
4.1.1 實驗1
在每類目標圖像的實驗數據中選取30幅圖像作為訓練樣本,另選取60幅圖像作為測試樣本,分別測試Multi-ICA識別算法、傳統ICA識別算法、Multi-PCA識別算法[11]和PCA識別算法的效果。傳統ICA算法和PCA算法采用歐式距離分類器進行識別。實驗結果見表1。
表1 在小樣本情況下,各種算法的識別率比較%
類別數Multi-ICAMulti-PCA傳統ICAPCA
道路85807872
植被84797773
房屋85817972
4.1.2 實驗2
在每類目標圖像的實驗數據中選取60幅圖像作為訓練樣本,剩余60幅圖像作為測試樣本,分別測試Multi-ICA識別算法、傳統ICA識別算法、Multi-PCA識別算法和PCA識別算法的效果,實驗結果見表2。
表2 在大樣本情況下,各種算法的識別率比較%
類別數Multi-ICAMulti-PCA傳統ICA PCA
道路81787365
植被80767163
房屋79757062
4.1.3 實驗3
在實驗2的基礎上引入Fisher分類器,對特征空間進行優化,分別測試Multi-ICA識別算法、傳統ICA識別算法并進行比較,實驗結果見表3。
表3 實驗結果%
類別數Multi-ICA傳統ICA
道路8885
植被8784
房屋8883
4.2 分析
從實驗1的結果(表1)可以看出,Multi-ICA算法的識別率要高于傳統ICA算法和PCA算法,這是因為傳統ICA算法和PCA算法得到的特征空間是建立在所有類別樣本圖像的共性之上的,對于類別之間的差異描述得不夠充分,而Multi-ICA算法的特征空間則是建立在某類樣本圖像的共性之上,不同類別的樣本對應著不同的特征空間,因而,類別之間的差異得到描述,所以,Multi-ICA算法的識別率效果更好。
從實驗2的結果(表2)可以看出,隨著訓練樣本數的增加,傳統ICA算法的識別率、PCA算法和Multi-ICA算法的識別率都有所降低,但是傳統ICA算法和PCA算法的識別率下降得更快。這是因為訓練樣本數的增多,提取的特征空間分量增加,進而導致相應的圖像樣本的特征數目也增加。在這些增加的特征中,一些特征由于與已有特征重復,而對目標識別的貢獻很小,一些特征由于圖像畸變的產生,反而會降低識別率。由于傳統ICA算法和PCA算法是在整個訓練集上提取特征空間的,因而受到的影響大于Multi-ICA算法,所以其識別率下降得更快。
Multi-ICA算法和Multi-PCA算法建立的特征空間都是建立在某類樣本圖像的共性之上,不同類別的樣本對應著不同的特征空間,因而類別之間的差異得到描述,所以它們的識別率要高于傳統ICA算法和PCA算法。因為PCA 方法是一種基于二階統計量的特征提取技術,提取的特征基矢量只能去除圖像間的二階冗余信息,反映了圖像的全局特征,但是不能去除圖像間的高階冗余信息。然而用ICA 方法提取的特征基矢量不僅互不相關,而且還盡可能的統計獨立,既反映圖像的全局特征,又反映圖像的局部特征和邊緣特征,所以由ICA算法提取的特征空間比PCA算法提取的特征空間更能描述樣本數據的本質結構,因而其識別率也就更高。
從實驗3的結果(表3)可以看出,引入Fisher分類器對特征空間進行優化后,Multi-ICA算法和傳統ICA算法的識別率都有所提高。這是因為Fisher分類器過濾掉了特征空間中那些不利于分類的分量,使得用于識別的特征在分類空間上具有良好的類內凝聚性和類間差異性,從而提高了算法的識別率。因為Multi-ICA算法提取得到的特征空間比傳統ICA算法提取得到的特征空間更充分地描述不同類別樣本之間的差別,所以,其識別率比傳統ICA算法更高。
5 結 語
本文提出一種基于ICA的改進識別算法Multi-ICA。以北京地區的Quickbird高分辨率衛星圖像為例進行多類目標識別實驗。實驗結果表明,與傳統ICA方法、PCA方法和Multi-PCA方法相比,Multi-ICA方法提取的特征空間不僅考慮到同類別樣本之間的共性,還考慮到不同類別樣本之間的差異。Multi-ICA方法能夠明顯提高識別的準確率和效率,并且在一定程度上緩解了由于樣本數量增加導致樣本特征向量維數增加的問題。
參考文獻
[1]COMON P. Independent component analysis: a new concept[J]. Signal Processing, 1994, 36(3): 287-314.
[2]BARTLETT M S, MOVELLAN J R, SEJNOWSKI T J. Face recognition by independent component analysis[J]. IEEE Trans. on Neural Networks, 2002, 13(6): 1450-1464.
[3]丁佩律,梅劍鋒,張立明,等.基于獨立分量分析的人臉自動識別方法研究[J].紅外與毫米學報,2001,20(5):361-364.
[4] 甘俊英,李春芝.2DPCA-ICA 算法在人臉識別中的應用[J].電路與系統學報,2008,13(4):24-28.
[5]宦若虹,楊汝良.基于KFD + ICA 特征提取的SAR圖像目標識別[J].系統工程與電子技術,2008,30(7):1237-1240.
[6]KWAK K C, Pedrycz W. Face recognition using an enhanced independent component analysis approach[J]. IEEE Trans. on Nerual Networks, 2007, 18(2): 530-541.
[7]WANGZN, YUX C, ZHANG Li-bo.A novel remote sensing image fusion algorithm based on IWT-ICA[C]//Proceedings of Seventh International Conference on Advanced Language Processing and Web Information Techno-logy. Dalian, China: EI, 2008:187-192.
[8]張波,張桂林,王新余.一種改進的基于ICA 特征子空間的目標識別方法[J].計算機與數字工程,2005,33(12):63-67.
[9]SHIYQ, YU XC, CHENG XC, et al.A new BSS algorithm based on the data fusion and ICA [C]//Proceedings of the 2008 7th IEEE International Conference on Cybernetic Intelligent Systems. England: IEEE, 2008:335-340.
[10]WANGZhong-ni, YUXian-chuan, ZHANG Li-bao.A remote sensing image fusion algorithm based on ordinal fast independent component analysis[C]//Proceedings of First International Workshop on Knowledge Discovery and Data Mining. Australia: EI,2007:142-145.
[11]路玉峰,王增才,劉學忠.提高PCA識別率的新算法[J].光學技術,2008,34(1):10-16.