馬 超,蔡 猛,李建勛
(1. 上海交通大學自動化系,上海 200240;2. 中國航空工業集團洛陽電光設備研究所,河南 洛陽 471009)
現實世界的數據集常會存在數據隨機缺失(MAR,Missing At Random)的問題,且樣本數據缺失會大大降低分析算法的有效性。現有的處理缺失數據還原的方法大致分為兩類:第一類是直接刪除含有缺失值的樣本點,這種方法簡單易操作,但是會造成原有數據集信息的丟失;另一種方法是對缺失值進行插值,這種方法分為基于統計技術的方法和基于樣本聚類技術的方法。基于統計技術的方法即常見的均值插值、眾數插值等。基于樣本聚類技術的方法是通過找到與缺失值樣本相似的樣本,再通過一定的算法進行插值。早期的方法常見的有K近鄰、決策樹等。
近年來,將深度生成模型應用于缺失數據處理逐漸成為研究的熱點。該模型是一種基于貝葉斯網絡的深度學習網絡模型,通過一種無監督的方式學習任何類型的數據分布。在該模型中,通過定義觀測數據和潛在變量的聯合分布,用極大似然估計的方式去擬合觀測數據分布。然而,推理隱變量的真實后驗分布是十分困難的,所以,采用了基于變分推斷理論的深度生成模型——變分自編碼器(VAE, Variational Auto-Encoder),該模型可以通過隱變量學習觀測數據集的分布,并在生成網絡中將缺失數據推理出來。現有的VAE推理缺失數據方法通常將隱變量的先驗分布設置為單高斯分布,并將數據的缺失位置當作掩碼變量一同作為觀測數據輸入。……