蘇本革
(山東省東平縣斑鳩店鎮中學 山東泰安 271500)
當今信息時代中,隨著計算機技術的不斷發展,新概念不斷地提出,數據呈現出了快速增長,而這些大量數據信息中許多是冗余無用的,根據特征來提取所需的知識和信息,用合理的手段來提取數據的特征成為目前所需解決的主要問題。同樣的事物具有多種的表現形式,如同一個人的指紋和紅熱圖像。同一句話的不同語言表達,對于相同對象不同的表示被稱為多特征數據[1],即同一個物體的多種特征信息。近年來,多特征數據的研究獲得越來越多的關注[2],因為相比于單特征數據,多特征數據上的研究具有更好的效果[3]。
“維數災難”[4]是多特征數據經常出現的問題,影響分類識別性能。特征提取和融合成為解決此類問題的關鍵所在。在同一種模式中,可以通過提取多種特征,來充分體現模式中不同的特點。特征融合的主要目的其一是優化和組合不同的特征實現維數約減,其二是更好地進行模式分類。特征融合主要有以下的優點:首先,不會忽略多特征的有效判別信息;其次,有助于消除特征數據的冗余信息。
串聯和整合多種類的特征是特征融合的重要方法之一。其中,特征之間的相互比較采用了特征正則化方法。這種方法在一些范圍中有助于識別性能的優化,提高識別率,但是當模式識別時的特征維數極大地增加時,則會有小樣本問題[5]出現,使得計算速度相比之前極大地降低。串行特征融合,即基于一個融合矢量的特征融合方法。并行特征融合[6]則是基于復合矢量的特征融合。盡管串行特征融合和并行特征融合都可以有效增強識別能力,卻在一定程度上忽略了兩個特征集之間的相關關系。這兩種方法對于缺乏內在關系兩個特征數據集,有效性尚待提高。經過進一步研究,提出了典型相關分析(Canonical Correlation Analysis,CCA)[7,8],對不同樣本的不同特征之間的相關關系進行進一步研究。
典型相關分析是由Hotelling于1936年提出,是一種將兩個多維變量之間的線性關系關聯起來的方法,CCA利用同一個語義對象的兩個視圖來提取語義的表示[9]。可以看作是為兩組變量尋找基向量[10]的問題,使得變量在這些基向量上的投影之間的相互關系達到最大。隨著數據收集和數據存儲技術的快速發展,它的理論已經比較完善,計算機的發展解決了典型相關分析在應用中計算方面的困難,成為普遍應用的進行兩組變量之間相關性分析技術。

CCA的準則函數為:


即:求最大特征值對應的特征向量的方程為:

在這一部分中,為了評估所提出的CCA方法,我們在Coil20數據集上進行了一些實驗。來驗證基于柯西不等式求解的CCA方法對特征融合和識別的能力。
Coil20數據集屬于多個對象數據集。其包括20個不同的對象。當物體在轉盤上旋轉時,每個物體的圖像相距5度,因此每個物體具有72個圖像。
在Coil20數據集上,每類n(n=15,20,25,30,35)個訓練樣本,表1展示了CCA方法在Coil20數據集的平均聚類性能。從表中可以看出,CCA擁有較佳的聚類性能。

表1 在Coil20數據集上的實驗結果
CCA作為經典的兩變量依賴分析,是一種用于線性相關特征學習的統計技術,它高度依賴于描述對象的坐標系統。這意味著,盡管數據在不同維度空間上具有很強的線性相關性,但它們之間的關系很難被察覺。CCA可以被看作是為兩組數據尋找公共子空間的工具,本文定義了總體典型相關變量及典型相關系數,并詳細介紹了利用柯西不等式的求解思路。通過實驗與分析我們總結得出,CCA在圖像方面的良好聚類性能,并且在模式識別方面已經有了成功的應用和案例,本文在CCA優化求解方面的研究具有重要的理論和實際意義。