宋春雷,路曉亞,何笑笑
(商丘工學院 信息與電子工程學院,河南 商丘 476000)
隨著信息時代的進步和科技的快速發展,實際生產和生活中產生了越來越多的數據,時間序列數據是一類有序的、帶有時間戳的數據點序列[1]。由于數據的爆炸式增長,如何從數據中準確地找出有價值的規律是一個艱巨的任務。有研究表明,通過對時間序列數據進行特征提取以生成新的數據形式[2],這種新的數據可以很好地體現原始數據的變化趨勢和形態特征,利用提取的特征進行數據分析,可以提高數據挖掘的效率。此外,時間序列數據的特征表示是將原始時間序列數據轉換為另一論域中的數據,可以有效提取數據特征并且可以起到數據降維的作用。同時,特征提取可以使得在低維空間下的數據盡可能地反映原始時間序列的重要信息。
針對時間序列數據[3]的海量和高維特性,如果直接在原始序列數據上執行分類[4]、聚類[5]和預測[6]任務,不僅效率低下,而且算法的時間復雜度與空間復雜度相對較高。因此,本文通過研究時間序列的狀態和趨勢信息,發現了時間序列的穩定特性,提出了基于多尺度模糊熵的時間序列特征提取算法。該方法首先計算時間序列的差分數據,去除數據的中心點,以消除數據的異常波動;其次,在此基礎上,將數據表示為等長的區間分段,得到重構的時間序列;最后,提取模糊熵特征并進行多尺度粗粒化表示,得到時間序列數據的特征表示,在降低時間序列數據的維度和算法復雜度的同時,保留數據的穩定性和變化趨勢信息,保存了時間序列數據的全局形態特征,為深入研究時間序列數據的特征提取打下基礎。
首先,給定長度為n的時間序列,將其表示為如下形式:
X(i)={x1,x2,...,xn}
(1)
其中,i=1,2,...,n,X(i)表示時間序列數據由n個連續的數值組成。

(2)

最后,構造維數為m的向量,并將其形式化表示,如公式(3)所示。
(3)

本文采用模糊隸屬度函數使得模糊熵隨著參數的變化而平滑變化,從而減少模糊熵值對參數的依賴,最終使得統計的穩定性更好。

(4)
(5)


(6)
其中,i,j=1,2,...,k且i≠j。
模糊隸屬度函數在一定程度上提高了原始時間序列的抗干擾能力。針對每個i,求其平均值,如公式(7)所示。
(7)
其中,k=n-m+1。根據公式(8)可以得出m維度下的關系維度。
(8)
同理,由公式(8)可以求出m+1維度下的關系維度。因此,針對有限的數據集,原始時間序列的模糊熵可以定義為如公式(9)所示。
FuEn(m,r,n)=lnφm(r)-lnφm+1(r)
(9)
其中,m表示模式維度,r為相似容限參數,n為原始時間序列數據長度。為了更好地刻畫時間序列數據的復雜特性,Wang等[7]提出一種多尺度的概念。
對于長度為n的時間序列Xi,給定嵌入維度m和相似容限參數r,進行粗粒度劃分,得到新的向量,如公式(10)所示。
(10)


(11)
其中,多尺度因子τ可以確定粗粒化分割數量,對結果也會產生影響。
利用多尺度模糊熵提取時間序列數據的特征,經過訓練的分類器再使用測試數據集進行識別,最終完成時間序列數據的分類任務。多尺度的粗粒化過程如圖1所示。

圖1 多尺度粗粒化過程(尺度因子為3)
本文實驗配置是基于Python環境,仿真環境的硬件參數為CPU Intel(R)Core(TM)i5-8265U,1.80 GHz,運行內存8 GB。實驗采用5種時間序列分類數據集進行測試,分類數據集的特征描述如表1所示。

表1 分類數據集描述
本文主要采用4種經典分類算法來執行時間序列數據的分類任務,以驗證本文算法的有效性。
(1)決策樹(Decision Tree)方法。決策樹方法是一種基于實例的分類算法,從給定的無序的訓練樣本中,提煉出樹形的分類模型。
(2)K最近鄰(KNN)方法。K最近鄰方法是一種基于統計學習的分類器,將近鄰數據中出現次數最多的分類作為新的對象所屬的類別。
(3)隨機森林(Random Forest)方法。隨機森林方法是一種集成方法,包含多個決策樹的分類器,并集成了所有分類器的分類結果。
(4)多項式樸素貝葉斯(Multinomial NB)方法。多項式樸素貝葉斯方法基于原始的貝葉斯理論,將最大概率作為最終樣本所屬的類別。
對于分類器的性能,本文采用靈敏度、準確率及F1分數3個評估指標進行表征。靈敏度主要用于評估二分類問題,計算如公式(12)所示。
(12)
其中,TP表示預測的正樣本確實為真的正樣本數量,FN表示預測為負樣本實際為正樣本的數量。
準確率表示分類正確的總樣本數占樣本總數的比例,計算如公式(13)所示。
(13)
其中,FP表示預測的正樣本實際為負樣本的數量,TN表示預測為負樣本實際也為負樣本的數量。
F1分數是分類精度和靈敏度的加權調和平均,定義如公式(14)所示。
(14)
其中,precision表示分類精度,sensitivity表示靈敏度。
在保持參數不變的情況下,本文首先對5種數據集利用本文算法進行特征提取,然后分別測試4種分類算法在不同時間序列分類數據集的性能。分類精度的變化趨勢如圖2所示,在測試的數據集中,Random Forest算法在每種數據集上的分類精度相對較高且逐漸趨于穩定,而其余分類器在5種分類數據集上分類精度表現較低,且存在明顯下降現象。因此,需要考慮計算的復雜性,合理調整參數的值域變化,有效提取數據的關鍵特征至關重要。

圖2 分類算法的精度對比
本實驗最終的性能指標F1分數變化如圖3所示,從結果上可以看出,單一的分類性能指標不能決定最終分類結果的好壞,應綜合考慮分類精度和召回率的變化來評估分類器的性能。從F1分數變化趨勢的結果來看,Random Forest算法和KNN算法的分類性能比較穩定,最佳分類的F1分數分別為0.996和0.997,2種分類器的效果差異較小,屬于最優分類結果。

圖3 分類算法的F1分數對比
綜合上述分析,本文提出的方法在經典的分類算法上表現出良好性能,基于多尺度模糊熵的時間序列特征提取算法實際可行,且對時間序列數據有很好的分類結果。
本文將多尺度模糊熵應用于時間序列特征提取,并結合分類器進行分類性能測試。實驗結果表明,采用多尺度模糊熵算法進行特征提取具有更好的分類性能。在實際傳感器收集的不同信號數據中,分別對相應的時間序列數據進行多尺度模糊熵計算和時間序列分類,驗證了本文提出方法的可行性和有效性,同時為時間序列數據中的特征提取提供新思路。