董建華, 王國胤, 雍 熙, 史曉雨, 李慶亮
(1.中國科學院重慶綠色智能技術研究院 電子信息技術研究所,重慶 400714; 2.中國科學院大學,北京 100049; 3.水利部 水利信息中心,北京 100053; 4.西昌衛星發射中心,海南 文昌 571300)
基于Spark的標準化PCA算法
董建華1, 2, 王國胤1, 雍 熙3, 史曉雨1, 李慶亮4
(1.中國科學院重慶綠色智能技術研究院 電子信息技術研究所,重慶 400714; 2.中國科學院大學,北京 100049; 3.水利部 水利信息中心,北京 100053; 4.西昌衛星發射中心,海南 文昌 571300)
主成分分析(PCA)是數據挖掘中常用的數據降維技術,它將原來多個變量轉化為少數的幾個綜合指標,介紹了主成分分析的原理、Spark的分布式架構以及Spark 的MLlib分布式矩陣PCA算法,通過改進設計提出了一種帶有標準化處理的SNPCA算法,并在多核CPU環境下進行了測試驗證,實驗結果證明了該算法的有效性.
主成分分析;Spark;分布式;標準化處理
主成分分析(principal component analysis,PCA)作為一種常用的多指標統計方法,是由Karl parson[1]1901年提出的,它將原來多個變量轉化為少數幾個綜合指標.從數學的角度看,它是一種降維處理技術,能夠最大限度地保留原始數據信息,對高維變量進行綜合和簡化,并客觀地確定各個指標的權重,從而避免了降維過程中的主觀隨意性.
隨著大數據量計算任務的需求,多核處理下的PCA并行計算逐漸成為數據挖掘中必不可少的分析方式,比較著名的方法是Hadoop的Mahout[2]和Spark的MLlib庫[3]實現的并行PCA算法.近幾年,以降低時間復雜度和通信復雜性為目的,在分布式平臺上設計可擴展的PCA算法模型,成……