陳淑一,趙全明,董大明
1. 河北工業(yè)大學(xué)電子信息工程學(xué)院,天津 300401 2. 北京農(nóng)業(yè)智能裝備技術(shù)研究中心,北京市農(nóng)林科學(xué)院, 北京 100097
近紅外光譜測量中高維數(shù)據(jù)集的無關(guān)因素干擾給光譜數(shù)據(jù)的分析帶來了許多困難,數(shù)據(jù)降維[1]和特征提取是解決這一問題的重要手段。比較常見的數(shù)據(jù)降維方式包括:線性降維方式中的主成分分析[2-3](PCA)和線性判別分析[4](LDA);非線性降維方式中的局部線性嵌入算法[5](LLE)和T分布隨機近鄰算法[6](t-SNE)等。其中,主成分分析(PCA)是使用最為廣泛的數(shù)據(jù)降維方式。然而,這些常見的數(shù)據(jù)降維方式都是針對于一個數(shù)據(jù)集,當(dāng)我們要研究的信息涉及到兩個數(shù)據(jù)集或者一個數(shù)據(jù)集存在研究者不感興趣的干擾信息時,傳統(tǒng)的數(shù)據(jù)降維方法就不再準(zhǔn)確,而對比主成分分析算法[7-8](cPCA)就有效地解決了這一問題。
對比主成分分析(cPCA)算法是Abubakar Abid等2018年提出的一種新的算法,是我們所熟知的主成分分析算法的改進(jìn),屬于無監(jiān)督學(xué)習(xí)。cPCA通過引入背景數(shù)據(jù)集(background dataset)有效的將我們研究的目標(biāo)數(shù)據(jù)集(target dataset)中不感興趣的干擾信息消除,從而更好的實現(xiàn)數(shù)據(jù)的降維和分類。cPCA算法主要應(yīng)用于基因組的數(shù)據(jù)降維,并且已經(jīng)在不同類型的正常小鼠和白化病小鼠的分類、不同白血病人細(xì)胞移植前后的分類中得到了成功的實驗。我們將cPCA算法應(yīng)用到不同類型水果表面農(nóng)藥殘留分析[9]中,對測量的近紅外光譜進(jìn)行數(shù)據(jù)降維,實現(xiàn)了該算法在近紅外光譜模型建立中的首次應(yīng)用。……