駱 陽,張 旗
(1.浙江省氣象信息網(wǎng)絡(luò)中心,浙江杭州 310000;2.浙江省氣象服務中心,浙江杭州 310000)
在海量數(shù)據(jù)中,如何獲取對決策有利的有價值數(shù)據(jù)以及通過海量歷史數(shù)據(jù)來分析未來的發(fā)展趨勢等,已經(jīng)成為數(shù)據(jù)分析領(lǐng)域的重要研究方向[1]。在這樣的需求背景下,數(shù)據(jù)挖掘技術(shù)應運而生。氣象數(shù)據(jù)[2]是一種時間序列數(shù)據(jù),氣象數(shù)據(jù)挖掘是通過對氣象數(shù)據(jù)進行分析和挖掘,來發(fā)現(xiàn)其中的規(guī)律和趨勢,從而為氣象預測、氣象災害預警等提供支持和幫助的技術(shù)。當前領(lǐng)域涌現(xiàn)出了諸多優(yōu)秀的研究成果,例如文獻[3]中提出的基于時間序列的體育產(chǎn)業(yè)數(shù)據(jù)挖掘方法,文獻[4]中提出的時間序列數(shù)據(jù)深度挖掘模型。但這兩種方法存在著樣本對于挖掘規(guī)則的置信度和支持度較低的問題,因此提出基于模糊關(guān)聯(lián)規(guī)則的海量氣象數(shù)據(jù)動態(tài)挖掘方法。
氣象數(shù)據(jù)中噪聲含量往往較高,為了有效去除噪聲,結(jié)合EMD和MIC設(shè)計時間序列數(shù)據(jù)去噪算法[5]。
1)對原始的氣象數(shù)據(jù)信號實施EMD 分解。具體步驟如下:
步驟1:假設(shè)Ht表示原始的氣象數(shù)據(jù)信號序列,根據(jù)Ht的波動特征確定全部局部極值點,將極值點均值n0(t)作為原始氣象數(shù)據(jù)[6]信號的均值包絡(luò)線。
步驟3:重復步驟1、2,在迭代l次后,新信號序列符合經(jīng)驗模態(tài)分解的定義,則可以用式(2)表示Ht的一階經(jīng)驗模態(tài)分解結(jié)果:
通過式(3)去掉其中的高頻成分:
步驟4:重復步驟1、2、3,獲取第二個經(jīng)驗模態(tài)分解分量IMF2,t。不斷分解直至殘余分量fm,t等于一個常數(shù)或變成單調(diào)函數(shù)[7]。用式(4)表示最終的EMD 分解結(jié)果:
式中,m表示總分解次數(shù)。
2)對于噪聲含量比信號含量大的IMF 分量,將其稱為噪聲主導分量,反之則稱為信號主導分量。此時通過一個階數(shù)g就可以實現(xiàn)二者的區(qū)分。通過MIC 值確定g的取值:
3)確定g值后,對噪聲主導分量實施閾值處理,去除其中的高頻噪聲,文中選擇小波軟閾值函數(shù)進行主要噪聲成分的降噪處理[8]。
通過Sqtwolog 固定閾值準則來選取閾值,具體如式(6)所示:
式中,B表示待分析信號的對應序列長度;φ表示高斯白噪聲標準差。其中,φ是通過經(jīng)驗小波系數(shù)求出的[9]。
4)假設(shè)pj表示濾波處理后的高頻分量,對信號主導分量與pj進行重構(gòu),獲取去噪后的氣象數(shù)據(jù)信號序列,如式(7)所示:
通過上述過程,能夠在保證不丟失有價值的信息前提下完成時序數(shù)據(jù)中噪聲的去除。
由于氣象數(shù)據(jù)序列跨度較長,存在不同程度的數(shù)值缺失問題,因此設(shè)計基于結(jié)合生成對抗網(wǎng)絡(luò)與時間指數(shù)的GAN-TRTI 缺失值補全函數(shù),進行氣象時間序列缺失值的填補,使氣象數(shù)據(jù)變得更加完整[10]。
設(shè)計的GAN-TRTI 缺失值補全函數(shù)主要使用WGAN-GP 模型,該模型能夠提高收斂速度,避免發(fā)生陷入局部最優(yōu)的問題,提升網(wǎng)絡(luò)訓練時的穩(wěn)定性。將其與TRLSTM-AE 相結(jié)合在缺失數(shù)據(jù)集上對原始數(shù)據(jù)的分布進行學習,從而補全缺失值。該系統(tǒng)由判別器與生成器兩部分構(gòu)成。其中,生成器由編碼器與解碼器構(gòu)成,二者均由三層LSTM 網(wǎng)絡(luò)構(gòu)成。在各隱藏層網(wǎng)絡(luò)中,LSTM 神經(jīng)元總數(shù)大于輸出層、輸入層的神經(jīng)元個數(shù)。生成器的數(shù)據(jù)生成過程可以用式(8)來表示:
式中,s()· 表示編碼器映射函數(shù);表示預填補數(shù)據(jù);q()· 表示解碼器映射函數(shù);表示生成的完整氣象數(shù)據(jù)序列[11]。
在生成時,上一時刻的輸出和當前時刻的輸入共同構(gòu)成生成器當前時刻的輸出,循環(huán)生成后,組合即得完整的氣象數(shù)據(jù)序列。
判別器由兩部分構(gòu)成:LSTM 網(wǎng)絡(luò)與全連接層,其輸入為生成的補全數(shù)據(jù),包括生成器生成的填補值與原始氣象數(shù)據(jù)中的未缺失部分,其最終輸入為各輸入值的真實概率。其損失包括對抗損失與梯度懲罰項。
通過GAN-TRTI[12]缺失值補全函數(shù)實施氣象時間序列缺失值填補的具體操作如下:
1)固定生成器參數(shù),將x~ 輸入其中。
2)獲取生成補全數(shù)據(jù)后在判別器中輸入,實施二分類訓練。訓練時在數(shù)據(jù)缺失掩碼矩陣α中實施訓練標簽的采樣。當判別器能夠分辨輸入樣本的真假時,即可停止訓練。
3)訓練生成器。訓練時利用判別器判斷生成樣本的真假。首先固定判別器參數(shù),串接判別器和生成器,構(gòu)成聯(lián)合判別函數(shù)[13]。在函數(shù)中輸入預填充時序數(shù)據(jù)進行訓練。當判別器無法分辨生成數(shù)據(jù)的真假時,即可停止訓練。填補后的數(shù)據(jù)可以用式(10)表示:
至此完成氣象時間序列缺失值的填補。
結(jié)合模糊關(guān)聯(lián)規(guī)則[14]與粒子群優(yōu)化算法[15-16]設(shè)計海量數(shù)據(jù)動態(tài)挖掘算法,實現(xiàn)海量氣象數(shù)據(jù)的動態(tài)挖掘。算法運行步驟具體如下:
2)計算種群C中各粒子的支持度Sj、置信度Cj,從而計算得出適應度Fj,則以下關(guān)系式成立:
式中,Sj(X?Y)表示第j個粒子的支持度;X表示規(guī)則的前項集;u表示事務項集的個數(shù);Y表示規(guī)則的后項集;z(·) 表示判斷函數(shù);Cj(X?Y)表示第j個粒子的置信度;Sj(X?Y)min表示最小支持度;Cj(X?Y)min表示最小置信度;Fj(X?Y)表示第j個粒子的適應度。
3)根據(jù)Fj(X?Y)更新種群與各粒子的最優(yōu)歷史位置,分別用gb、wbj來表示。
4)對滿足Fj(X?Y)<1 的粒子執(zhí)行MmO 變異操作,生成新的粒子群C′。
5)計算C′中各粒子的支持度、置信度、適應度Fj。
6)根據(jù)Fj更新C′中的gb、wbj,分別用來表示。
7)獲得新的粒子群:C"=C?C′。
9)消除C"內(nèi)的重復粒子,在規(guī)則集中消除重復規(guī)則。
10)確認是否能夠終止。當可以終止時,直接結(jié)束算法,輸出數(shù)據(jù)動態(tài)挖掘結(jié)果;當無法終止時,更新各粒子的速度和位置,拉回搜索空間外部的粒子,返回步驟2),直至達到終止條件。
利用設(shè)計的基于模糊關(guān)聯(lián)規(guī)則的海量氣象數(shù)據(jù)動態(tài)挖掘方法在實驗數(shù)據(jù)集中挖掘關(guān)聯(lián)規(guī)則數(shù)據(jù),以此測試所提方法的性能。
利用基于EMD 和MIC 的時間序列數(shù)據(jù)去噪算法實施實驗數(shù)據(jù)集的去噪處理。接著利用基于結(jié)合生成對抗網(wǎng)絡(luò)與時間指數(shù)的GAN-TRTI 缺失值補全函數(shù)實施實驗數(shù)據(jù)集的缺失值填補。填補后實驗數(shù)據(jù)集的均方誤差達到0.12,說明達到了良好的填充性能。最后利用設(shè)計的海量數(shù)據(jù)動態(tài)挖掘算法實施溫度、氣壓、降水量之間關(guān)聯(lián)規(guī)則數(shù)據(jù)的動態(tài)挖掘。挖掘中的參數(shù)設(shè)置為:
初始種群粒子數(shù)5 685 個,加速因子2 個,最終設(shè)計方法挖掘到的規(guī)則數(shù)為230 條。
觀察設(shè)計方法的數(shù)據(jù)動態(tài)挖掘性能表現(xiàn),包括測試樣本對于挖掘規(guī)則的平均置信度與平均支持度等挖掘結(jié)果。
在測試中,為取得更好的實驗效果,將時間序列數(shù)據(jù)深度挖掘模型與基于時間序列的體育產(chǎn)業(yè)數(shù)據(jù)挖掘方法作為對比方法,共同進行性能測試,并分別用方法1、方法2 來表示。
對于三種方法來說,樣本對于挖掘規(guī)則的平均置信度和平均支持度測試數(shù)據(jù)如圖1、圖2 所示。

圖2 平均支持度
根據(jù)圖1 測試結(jié)果,在設(shè)計方法的挖掘結(jié)果中,樣本對于挖掘規(guī)則的平均置信度較高,在后期平均置信度呈現(xiàn)出平穩(wěn)的態(tài)勢,穩(wěn)定在92%左右。而方法1、方法2 的平均置信度相對設(shè)計方法低,最大置信度也比設(shè)計方法低,隨著挖掘的規(guī)則數(shù)不斷增加,其平均置信度也不斷降低,以此證明這兩種方法的數(shù)據(jù)挖掘效果并不好。
圖2 測試結(jié)果表明,在設(shè)計方法的挖掘結(jié)果中,樣本對于挖掘規(guī)則的平均支持度與最大支持度均高于兩種對比方法,說明設(shè)計方法的動態(tài)挖掘性能更好。結(jié)合平均置信度的測試結(jié)果,進一步證明了設(shè)計方法有著優(yōu)越的挖掘性能。
文中利用模糊關(guān)聯(lián)規(guī)則與粒子群優(yōu)化算法,實現(xiàn)了對海量氣象數(shù)據(jù)中關(guān)聯(lián)規(guī)則的動態(tài)挖掘,并取得了一定的研究成果,同時也有助于后續(xù)數(shù)據(jù)處理與分析。然而,由于時間和精力有限,所取得的研究成果較為初步,今后將對該方法進行更深入的細節(jié)研究。