孫達辰 張秀萍 孫常麗
(1.牡丹江醫學院圖書館 黑龍江省牡丹江市 157011 2.牡丹江醫學院藥學院 黑龍江省牡丹江市 157011)
時間序列是一種常見且具有時間先后順序的數據,它具有時間屬性和其他變量屬性。這類數據廣泛存在于各個領域,如醫療心電圖、氣象溫度氣候變化、客戶行為和訂單消費、金融股票等,近年來,相關學者對時間序列數據的挖 掘利用進行了大量研究,在數據挖掘領域,時間序列則是數據挖掘的一個熱門研究領域。時間序列具有數據量大,維數高和更新速度快等特點,導致一般的分段線性方法難以刻畫原始時間序列的全局趨勢特征。當前,時間序列的表示方法,主要有以下四種:基于頻域的表示方法、基于奇異值分解的方法、基于符號近似聚合的表示方法和分段線性表示方法。時間序列分段線性表示方法是從原始數據中提取重要的特征點,用這些特征點連接起來的直線表示原來的時間序列,能夠保留原時間序列的有效特征,并減少數據量。目前,時間序列分段表示中的兩個經典算法有自頂向下的TD 方法尋找關鍵點和自底向上的BU 方法尋找關鍵點的方法,但這兩種表示方法的時間復雜度較高。近年來,出現很基于重要點的分段線性算法,就是通過考察一個點的特征值中部域區間內與區間端點的比值如果超過已經設置的閾值,則認為是趨勢點,或者是根據序列的中極值點和變化幅度比較大的點來得到關鍵點的分段線性表示方法,還有基于時態邊緣算子的時間序列分段表示方法,就是根據時間序列中的特征,先計算出時間序列聽時態邊緣算子,進而得到時間序列的邊緣點?!?br>