張蘭秋月



摘要:伴隨著信息技術的飛速發展,城市越來越智能化。萬物互聯,不同的傳感器隨時產生著大量的數據,這些數據廣泛地應用于后續的數據挖掘、機器學習等領域。然而在數據收集過程中無法避免數據的缺失。文中介紹了當前缺失數據恢復領域面臨的問題和挑戰,闡述了缺失數據定義及缺失數據分類機制,針對上述兩類缺失值處理方法進行傳統方法的總結,最后探究深度學習如DBN(深度置信網絡)、GAN(生成式對抗網絡)在缺失數據恢復領域的新進展。
關鍵詞:數據缺失;缺失數據分類機制;數據插補;GAN
中圖分類號:TP301? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)25-0048-03
1引言
1.1? 面臨的挑戰
在數據的收集、傳輸、存儲場景中,由于各種不可抗的因素,會造成部分數據丟失的情況,這種現象也被稱為數據缺失。數據缺失的現象是從出現數據統計就出現的,但最初并未引起學者們的重視 [1]。隨著信息技術的發展我們進入了信息時代,各行各業產生的數據呈爆發增長的態勢,這些數據存在一些新的特點,如數據的體量特別龐大,且具有強耦合性、高維的特點;大量由傳感器產生的數據不確定很強;同一個數據集中,數據類型多樣;測量過程中由于整個系統的復雜性導致的多時變性與不完整性。故傳統的數據恢復方法已經不能解決如高維數據缺失的問題。
數據缺失的情況不僅僅會在科學研究過程中出現,在常規的面向群體的調查中也會存在,我們將一些沒有辦法直接獲得和因為設備故障等客觀原因丟失的數據叫做缺失數據。數據缺失會對下游分析任務如:機器學習中的分類聚類、數據分析挖掘和潛在知識發現帶來嚴重的阻礙。究其原因,數據缺失不僅會降低數據的有效性,還會導致整個數據分析任務不精準,產生錯誤的分析結果,因此對缺失數據的處理顯得極其重要。
1.2 缺失數據分類
數據缺失按照其缺失的形式如圖1所示[2]。我們按照這種分類方法能夠直觀的認識數據集中不同數據之間的關系,明確數據集中存在的數據和缺失數據是如何構成的。
第二種分類方法關注缺失值在數據中的分布情況,具體描述如表1所示。
其中隨機缺失如公式(1)所示,數據集Y缺失值數據Ymis的概率與其本身沒有關系,但與其觀測到的值Yobs有關。
完全隨機缺失如公式(2)所示,其中缺失數據Ymis與觀測到的數據Yobs沒有任何關系。
2缺失值處理方法
2.1刪除法
2.1.1成列刪除與成對刪除
成列刪除的思想是:在任意個案中存在某個變量的缺失,便簡單地將該個案所有數據從分析中排除,也稱為個案刪除[3]。低于5%的缺失個案可以被認為是MAR,此時通過傳統方法中的成列刪除是比較安全合理的。
對應的成對刪除的思想是:不直接刪除存在數據缺失的個案,在對其他無缺失變量進行計算時納入計算,又稱成對刪除為可得個案分析。假設數據為MCAR,成對刪除在大樣本中會接近無偏差,與成列刪除相比將會產生更有效的估計值。
2.2插補法
2.2.1均值插補
從數據屬性角度講,可以分成定距型和非定距型兩類。我們可以將定距屬性的平均值進行缺失數據的補充。相似的對于非定距屬性,插補的值由平均值更換為數據中出現次數最多的值即眾數。由于均值只有一個,所以該方法又被稱為單一均值插補。填補值如公式(3)所示:
但由于該方法插補的數據也是來自分布中的數值,將帶來處理后的數據方差與數據實際的方差不同的問題。
同類均值插補與均值插補類似,差異在于同類均值插補會先使用聚類模型對數據進行聚類處理,再使用跟缺失數據為同一類型的數據均值進行缺失數據的插補[4]。顯然,同類均值插補和單一均值插補相比更為精準,但仍存在一定問題,插補的同類數據會引起自相關,在一定場景下會影響后續的分析。
2.2.2極大似然估計
在數據缺失類型為MAR的情況下,我們可以利用極大似然估計對缺失值進行填補[5]。通常情況,我們需要最大化似然度來求參數的最優值。公式(4)表示含隱變量的極大似然公式,要求得似然度需要對不可觀測的隱變量zi進行求和或積分,這使得優化公式(4)非常困難。
為了解決上述問題, EM(最大期望)算法擴展了極大似然估計,解決了極大似然估計問題很難得到解析解的問題[2]。在大樣本的情況下[6],使用EM算法比簡單的刪除和單值插補更有用,但其也有計算復雜,收斂速度比較慢的缺點。
2.2.3多重插補
多重插補又被稱為多值插補,理論基礎為貝葉斯估計[7]。它認為缺失的值是隨機的,并且來自于已觀測到的值。具體操作時,在已得到的待插補值上混合不同的噪聲數據,形成多組待插補值,隨后根據具體場景需求,選取最合適的一組進行缺失值填補。
3深度學習應用于數據修復
3.1深度置信網絡應用于傳感器數據恢復(DBN)
深度置信網絡又可以稱其為一個概率生成模型[8]。深度置信網絡結構如圖2所示,通俗來講,網絡可分為隱藏層和可見層,各層之間有連接,通過放入數據訓練,隱藏層可輸出和可見層相關的數據特征。
在大型監控系統中,部署了不同位置的傳感器來收集大量有用的時間序列數據,這有助于實時數據分析及其相關應用。但是,受硬件設備本身的影響,傳感器節點通常無法工作,導致收集的數據不完整的常見現象。Jing、Hai等人用深度置信網絡DBN提取這些時空相關數據的高級特征表示,最后通過單層神經網絡基于這些特征預測缺失的數據隨后進行數據插補[9]。
3.2循環生成式對抗網絡應用于醫療數據恢復
生成式對抗網絡(Generative Adversarial Nets,GAN)包含生成器和鑒別器兩個部分[10],具體結構如圖3所示。生成式對抗網絡的訓練過程非常有趣,生成器和鑒別器之間相互對抗。生成器的任務是生成一個與真實數據相似的假數據,鑒別器的任務則是從數據中將生成器產生的假數據識別出來。