









摘要:基于數據驅動的時間序列預測模型通常需要大量的訓練數據,當數據量不足時將導致建模的準確性下降。本文針對時間序列預測中的小樣本問題,提出了一種基于改進變分自編碼器(Variational Auto-Encoder, VAE) 的時間序列數據增強方法,旨在生成和原始數據不同但分布相似的虛擬數據。通過在編碼網絡中引入多頭自注意力機制挖掘原始數據深層特征,為解碼網絡生成數據時提供全面的特征信息;引入殘差連接避免模型出現梯度消失的問題。由于時間序列數據具有趨勢與周期性,故在解碼網絡中引入趨勢組件和季節性組件,以準確表示原始數據的時間特性,并且為數據的生成過程賦予時間上的可解釋性。為了驗證本文方法的有效性,和當前常用的時序數據增強方法進行比較,實驗結果表明,該方法在虛擬樣本的生成和時間序列回歸預測上均具有較好表現。
關鍵詞:小樣本;數據增強;時間序列數據;VAE;可解釋性
中圖分類號:TP183 文獻標志碼:A
近些年來,隨著計算機技術的發展,基于深度學習的時間序列預測方法被各行各業所關注[1]。通過對時間序列數據的分析,發現其中所存在的規律可以對未來事物的發展趨勢進行評估和管理[2]。一般來說,時間序列預測方法為基于數據驅動的方法[3],需要大量的訓練數據來挖掘研究對象中所包含的知識信息。當數據量不足時,預測模型無法充分學習研究對象中的特征依賴信息,所得模型的預測精度難以滿足要求。所以在小樣本下的時序數據增強問題具有重要的研究意義。
數據增強方法在小樣本問題中被廣泛應用,生成一批和原始數據不同但分布相似的數據,通過增加訓練數據量達到提高模型預測精度的目的。Shen 等[4] 針對工業生產中的小樣本問題,提出了一種基于高斯混合的樣本生產算法(GMM-VSG)。Ohno[5] 提出使用變分自編碼器( Variational Auto-Encoder ,VAE)[6] 作為數據生成模型,幫助解決回歸預測中的小樣本問題。Zhao 等[7]將VAE 中通過高斯分布采樣的隱空間變量無限生成振動信號,將合成的振動信號和原始信號混合達到增強訓練的目的。Yu 等[8] 為了解決信貸數據集中小樣本問題,提出一種基于極限學習機的數據增強方法(ELM-VSG),該方法將隱空間特征進行線性插值再生成虛擬樣本。上述方法在生成虛擬樣本時,僅僅考慮數據的特征維度的信息, 并未考慮時間維度上的動態信息。Wen 等[9] 在時間序列預測的研究中指出,在進行時間序列預測問題的分析時需要重點關注數據在時間上的動態信息。因此如果只是通過添加噪聲、裁剪序列數據尺寸或者簡單地通過神經網絡的映射能力生成虛擬樣本,可能得不到有助于提高時間序列預測精度的虛擬樣本。
由于生成對抗網絡(Generative Adversarial Nets,GAN)[10] 在圖像生成領域的應用越來越廣泛,研究者將該方法應用于時間序列數據上。Chen[11]使用條件生成對抗網絡(CGAN) 生成時間序列數據,實現了擴充時間序列數據量的目的。Li 等[12] 提出一種合成數據的方法(TTS-GAN),成功合成了與原始序列任意長度大小相同的時間序列數據。Yoon 等[13]提出一種合成多元時間序列數據的方法(TimeGAN),并通過實驗驗證了該方法相比于其他生成對抗方法的有效性。雖然基于GAN 網絡的合成數據方法在某些特定時間序列數據上表現出了有效性,但生成數據時判別器和生成器需要達到納什均衡[14]。在數據量少的情況下,納什均衡有時候可以達到而有時候并不能達到。所以GAN 類網絡的穩定性不確定,難以保證生成的虛擬數據都是理想的數據。