999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

時間序列部分周期模式的更新算法

2011-06-05 09:00:24王曉曄肖迎元張德干
哈爾濱工程大學學報 2011年11期
關鍵詞:特征

王曉曄,肖迎元,張德干

(1.天津理工大學智能計算及軟件新技術重點實驗室,天津300191;2.天津理工大學計算機視覺與系統省部共建教育部重點實驗室,天津300191)

時間序列部分周期模式的挖掘是一類重要的數據挖掘任務,在許多場合都有重要的應用,如電力負荷時序數據的高峰期往往具有部分周期性,發現這種周期就可以避開高峰用電,減輕電廠的負擔.

對于時間序列數據挖掘的研究主要集中在相似性問題和時態模式挖掘的研究[1-2].其中相似性問題研究主要是面向查詢的需要[3-4],包括各種相似性搜索算法[1]的研究.時態模式挖掘則主要包括各種序列的模式挖掘,進行時態因果、周期模式、關聯規則和重要事件的預測[5]等內容.

在時態模式的挖掘方面,從時間序列中抽取模式是一個比較新穎的方向.從研究內容來分,目前研究重點主要集中在2個方面:對時序中的事件出現加以模式發現和預測,如時態因果和關聯規則;挖掘時序數據的周期模式,包括全周期模式和部分周期模式.部分周期模式的研究大多采用了Apriori-like啟發式挖掘算法的思想和理論.

由于Apriori-like不能發現不同周期之間的模式和計算復雜度過大等,文獻[6]提出了一種對單周期和多周期都適用的部分周期模式挖掘算法:最大子模式迎合樹算法(the max-subpattern hit set tree,Mht).但是該算法只能對現有時間序列數據庫進行挖掘,不能進行在線部分周期模式的挖掘.文獻[7]在此基礎上提出了一種增量式的在線挖掘算法,可以根據新增的數據對最大子模式樹進行調整,但是由于數據量會越來越大,因此總的計算量還是很大的.

文中提出了一種帶移動窗的部分周期模式挖掘算法,由于在某些應用場合數據的分布特性會隨著時間的變化而有所變化,所以從較早的數據中提取的模式已經不能反映現有數據所隱含的模式.因此只要求對近期的時間序列數據進行挖掘,每次挖掘過程都是在最近的時間窗口[8]中進行,所挖掘的模式反映了最新的數據集中的知識.本算法對最新窗口中的數據搜索次數不多于2次,因此計算量要大大降低,非常適用于大型時間序列數據庫的挖掘.

1 時間序列的部分周期模式

1.1 問題定義

假設一個含有n個時間標記的特征序列,對于每個時刻i,Di為該時刻的特征值(由原始時間序列導出),特征序列的所有特征集定義為L,因此特征時間序列可以表示為

例如對于某支股票的原始時間序列,是以天為單位記錄該股票的收盤價,則每個時間點的數據為具體的數值,因此需要將其量化為某些特征值(如高、中、低等),然后用一系列字母來表示,則量化所得特征集 L 可以表示為{a,b,c,…}.

定義1 模式是一個非空序列s=s1,s2,…,sp,長度p叫做模式的周期,對于?i,si是一個特征集(若該特征集只包含一個字母,則省略集合符號,如{a}可以寫成a,具有j維特征的模式也可以叫做j-模式,在模式中允許符號“*”出現,它表示可以與任意單個字母相匹配.

定義2 如果模式s'=s1',s2'…,sp'與s具有相同的長度,且對于?i,si'?si,則稱模式 s'為模式 s的子模式.

如對于模式 a{b,c}*{a,c}f,第 2 個位置可以是b或c,它是一個長度為5的模式,即周期為5,而模式中含有4個字母,因此又叫做4-模式.顯然模式ac*cf和a**cf是模式a{b,c}*{a,c}f的子模式,而模式ab*ac不是它的子模式.由定義可知,任意模式的特征維數要大于或等于它的子模式的特征維數.

定義3 一個特征時間序列S形式如式(1)所示,可以被分割成長度相等(長度為p)相互獨立的模式,則 S=S1,S2,…,Si,…,其中 Si=Dip+1,…,Dip+p,i=0,…,[n/p]-1,則每個模式 Si叫做一個周期段,其周期為p.

如果一個周期段Si是模式s的子模式,則稱周期段Si與模式s相匹配.

定義4 一個模式s在某個特征時間序列中的頻率值是指這個時間序列中與模式相匹配的周期段的個數,記作frequency_count(s).顯然若時間序列有m個周期段,則頻率值應小于m,在極端情況下(所有周期段都與該模式匹配)等于m.

定義5 一個模式s在某個特征時間序列中的置信度是指它在該模式中的頻率值與周期段數m的比值,記作confidence(s).則

定義6 如果一個模式在特征時間序列中的置信度不小于某個閾值(該閾值記作min_conf),則稱這個模式是頻繁部分周期模式,j維頻繁部分周期模式集簡稱為j-頻繁模式集,記作Fj.

1.2 部分周期模式挖掘

部分周期模式挖掘算法基于文獻[6]中提出的最大子模式迎合樹算法(Mht).算法中通過掃描特征時間序列構建了一個叫做最大子模式的樹T(如圖1所示),樹上的節點代表了時間序列的所有候選頻繁模式.子節點是父節點的子模式,由子模式的定義知,子節點的特征維數要小于父節點的特征維數.因此當將父節點的某個字母用*代替時,將形成子節點,由圖中可知子節點和父節點之間的連接用被取代的字母所標識.構建最大子模式樹的關鍵是產生根節點,它在所有候選頻繁模式中特征維數最大,因此叫做最大模式Cmax.Cmax由1-頻繁模式集F1的所有元素合并而產生.2個模式s和t的合并操作定義為(s∪t)i=si∪ti.如模式 a*bc*與模式bc*r*合并的結果為模式{a,b}cb{c,r}*,若F1={a**,*b* ,*c* ,**d},則 Cmax=a{b,c}d.

樹的子節點的生長是將Cmax與時間序列中的周期段進行求交集時所產生的迎合(hit)的過程.迎合是指 Cmax與周期段的交集,如果 Cmax=a{b,c}d,Si=aba,則他們的迎合為ab*,若樹中沒有此節點,則在其相應的父節點下面增加該節點,此節點與父節點之間的連接用它與父節點相匹配所錯失的字符來標識,并將此節點的迎合值置為1,若此節點已經存在,則將它的迎合值加1,圖1中迎合值標注在該節點的旁邊,是該節點所代表的模式的迎合次數值(簡稱迎合值).很顯然,某個節點的迎合值并不是它的頻率值,因為在它的所有隱含祖先節點中都包含有該節點所代表的模式(如圖1中虛線所連接的都是隱含的父子節點關系),如模式*bd的直接父節點是*{b,c}d,隱含父節點是 adb,祖先節點是a{b,c}d,當然隱含父節點往往不止1個,因此求取模式*bd的頻率值需要加入它的所有祖先節點的迎合值(即10+0+12+20).樹中的節點構成了候選頻繁模式集,當某個節點的頻率值大于min_conf×m時,則認為該節點所代表的模式是頻繁模式.

圖1 最大模式樹舉例Fig.1 Example of max pattern tree

Mht算法的實現步驟如下:

1)給定周期p,將特征時間序列S分割成長度為p的一系列周期段S1,S2,…,Sm,m為周期段的段數.

2)掃描所有的周期段,得到所有的1-模式集L1及每個模式的頻率值,將頻率值不小于min_conf×m的1-模式抽取出來組成1-頻繁模式集F1.

3)將F1的所有元素合并,產生Cmax.

4)重新掃描所有周期段,求取周期段與Cmax的交集,若所得到的模式已經存在,則將節點的迎合值加1,否則在相應的父節點下插入新的節點(若它的祖先節點不存在,則插入祖先節點,并將祖先節點的迎合值置0),將新節點的迎合值置1.樹的葉節點應該含有2個非*字母,因為已經有1-頻繁模式集僅含有1個非*字母.

5)將每個節點的迎合值與它的所有隱含父節點的迎合值相加,得到該節點的頻率值,若某個模式的頻率值不小于min_conf×m,則該節點所代表的模式為頻繁模式.

2 帶移動窗的的部分周期模式挖掘算法

某些時間序列挖掘過程中只要求在近期數據庫中進行,因此在挖掘過程中引入時間窗口的概念,時間窗口[8]是指在某個時間區域之前的時間序列數據都是過時的,不用于當前部分周期模式挖掘過程的,即部分周期模式的挖掘過程只是在當前時間區域中進行,提高了挖掘結果的時效性.

令當前時間窗口為Cur_window,起止時間為Ttart和Tend,SC為當前時間窗口中的特征時間序列,D為周期段的段數,F為SC中的頻繁模式集.從時間Tend到Tnow為時間序列新增的數據,新數據集合為sc,d為sc的周期段的段數,則新時間窗口 New_window的起止時間為 Tstart+(Tnow-Tend)和 Tnow.在Tstart和Tstart+(Tnow-Tend)之間的數據為老數據應淘汰,記為retire,周期段數為 r,則新時間窗口New_window的時間序列記為NewSC,NewSC=SC∪sc/retire.模式 X 在 SC、retire、sc和 NewSC中的頻率值記為X.frequencyS、X.frequencyr、X.frequencys和 X.frequencyN.

經過時間序列數據庫的更新,在新時間窗口中的1-模式存在4種情況:

1)1-模式在Cur_window和New_window都是非頻繁的即 X.frequencyS<min_conf×D,且 X.frequencyN<min_conf(D+d-r).

2)1-模式在Cur_window和New_window都是頻繁的即 X.frequencyS>min_conf×D,且 X.frequencyN>min_conf×(D+d-r).

3)1-模式在Cur_window是頻繁的,而在New_window中是非頻繁的即X.frequencyS>min_conf×D,但X.frequencyN<min_conf×(D+d-r).

4)1-模式在 Cur_window是非頻繁的,而在New_window中是頻繁的即 X.frequencyS<min_conf×D,但X.frequencyN>min_conf×(D+d-r).

顯然,只需考察3)和4)2種情況即可.

MW算法包括2步:

1)根據頻繁1-模式集的更新算法對F1集進行更新產生F1';

2)由 F1'合并產生的最大模式為 C'max,若C'max=Cmax,則保留原來的樹T,只需更新各節點的迎合值即可.考慮淘汰的時間序列retire的周期段,求取與C'max的交集,若所得到的模式存在,則將相應節點的迎合值減1;考慮新增時間序列sc的所有周期段,求取與C'max的交集,若所得到的模式存在,則將相應節點的迎合值加1;

若C'max≠Cmax,則采用更新算法MTU對最大子模式樹進行更新;

下面分別介紹頻繁1-模式集的更新算法和最大子模式的樹的更新算法MTU.

2.1 頻繁1-模式集的更新算法

1)遍歷淘汰數據庫retire,計算所有的模式X∈F1在retire中的頻率值X.frequencyr;遍歷新增數據庫sc,計算所有的模式X∈F1在sc中的頻率值X.frequencys,從而得到F1的所有模式在NewSC中的頻率值,X.frequencyN=X.frequencyS+X.frequencyS-X.frequencyr.若 X.frequencyN< min_conf×(D+d-r),則將其淘汰,否則保留.

2)在遍歷retire和sc的同時,根據sc的每一個周期段構造不在F1中的候選1-模式集C1,對C1中的任一模式Y,若Y.frequencyS< min_conf×(d-r)+Y.frequencyr,依據文獻[7]中的引理2,那么 Y 在更新后序列中就必是非頻繁的,可將其從C1中刪除.

3)對原部分時間序列SC/retire進行遍歷,計算C1中各個候選 Y在 SC/retire中的頻率值,加上Y.frequencyS,便得到Y在更新后時間序列NewSC中的頻率值Y.frequencyN,若Y.frequencyN不低于min_conf×(D+d-r),則Y為頻繁模式,從而得到新的頻繁模式集F1'為保留的F1和C1中的頻繁模式的集合.

2.2 最大子模式的樹的更新算法

假設C'max為更新后的最大模式,顯然C'max由更新后的1-頻繁模式集F1'的所有元素合并而產生.若cj為Cmax第j個位置特征值符號,cj'為C'max第j個位置特征值符號,如果cj≠cj',則cj將被更新為cj'.更新過程分 2 步[7],即先刪除 cj,形成 Ctmax,然后在相應位置增加cj'形成C'max,記錄F1與F1相比較有所更新的1-模式集記為U1.

同樣,相應的最大子模式樹的更新過程也分為2步:1)更新是生成樹Tt,它的根節點是,很顯然是Cmax的子模式,因此,如果在T中有節點代表了,則這個節點變成Tt的根節點,否則,創造一個新的節點.考慮圖1的樹,若C'max=a{b,e}d,則=abd,abd以及它的直接后代節點ab*便是初始的Tt,而此時樹Tt還不完整,需要加上它所有的非直接的后代節點,以及相應的迎合值,掃描樹T,對于樹T的每一個節點,求它與的交集,然后將所得節點連同其在T中的迎合值插入樹Tt中(若該節點已存在,則將迎合值累加).則在樹Tt中加入如下模式:abd(10+12),*bd(0+20),a*d(50+10),ab*(8+32).結果如圖2所示,同時考慮淘汰的時間序列retire,只需求取那些不包含 U1中的1-模式的周期段與的交集,若所得到的模式存在,則將相應節點的迎合值減1.

圖2 插入所有后代節點后的樹TtFig.2 Tree Ttafter inserting all the posterity node

顯然,含有新增字符的子模式的迎合值不能確定.同時一些其他的新模式或許會出現,如模式aed,因此需要重新搜索時間序列.對原部分時間序列SC/retire進行遍歷,只需求取那些包含U1中的1-模式的周期段與C'max的交集,若所得到的模式已經存在,則將節點的迎合值加1,否則在相應的父節點下插入新的節點(若它的祖先節點不存在,則插入祖先節點,并將祖先節點的迎合值置0),將它的迎合值置1.搜索新增時間序列sc的所有周期段,將它與Cmax'的交集加入樹T'中,過程如上述.

3 計算復雜度分析

本文提出的MW算法,對于長度為D+d的時間序列,掃描次數最多為2次.在第1)步中的工作主要是檢查F1中的頻繁模式是否保持頻繁,是在對sc和retire進行1次搜索完成的,同時對sc構造出的候選集C1進行修剪,搜索Sc/retire,從C1中發現新的頻繁1-模式.總共在1)對Sc+sc搜索了1次,但是由于算法計算很簡單,因此計算量很小.在2)中,若C'max=Cmax,則只需對retire和sc搜索1次,只有在C'max≠Cmax時,才需要對當前時間窗口Sc和新增窗口sc進行搜索,而且對Sc進行搜索時,只是對某些符合條件的周期段進行搜索,因此在第2)步中,最壞的情況下搜索1次,關于最大子模式樹的構建中計算復雜度分析見文獻[5].

4 算法測試及結果分析

在實驗中使用2個數據庫進行實驗,其中一個是人工合成數據庫,用一個隨機時間序列生成器產生所需的1 000 000個含有4個特征值的時間序列數據.另一個是某城市某個主干道某檢測面的交通流量檢測數據,其檢測間隔為5 min,數據庫大小為12 M,截取的數據片度如圖3所示,其中的連續數據通過行業專家的經驗被量化為5個等級:很小、小,中等、大和很大.

圖3 交通流量數據Fig.3 Traffic flow data

實驗中分別將增量長度d和置信度閾值min_conf作了變化,其周期分別定為4和24.算法實現采用Matlab編程工具,運行機型為賽揚M,1.46GHz的主頻,256M內存的PC機,為分析其計算效率,結果如下.實驗發現,當周期為24時,可以得到明顯的符合實際的周期模式.而由于周期為4時,周期過短而造成無法很好的識別部分周期的結果.

表1 在人工合成時間序列上的運行結果Table 1 Run time on the synthetic data

表2 在交通時間序列上的運行時間比較Table 2 Run time on the traffic time series data

表1和表2分別給出了當窗口長度分別固定為2 000和2 400,min_conf=30%時,2種算法在合成時間序列和交通流時間序列中的運行時間比較.由表中可以發現,本文所提出的基于移動窗的MW算法所用的時間要比最大子模式迎合樹Mht算法要少的多,而且MW算法的運行時間幾乎不隨新增數據長度的變化而變化,對于大型時間序列數據運行時間比較穩定,這是因為MW算法每次的計算對象都是新窗口中的數據,而且當新窗口中的1-模式沒有變化時,則不需要對最大子模式樹的結構進行更新.而Mht算法隨著新增數據長度的增長運行時間而減少,這是因為在總的數據長度不變的情況下,增加新增數據的長度將會減少最大子模式樹總的更新次數,從而降低了計算時間.因此,MW算法更適合于大型時間序列數據.

圖4 當min_conf值變化時的運行時間Fig.4 The run time when min_conf change

為說明置信度閾值對計算時間的影響,圖4給出了當窗口長度D=2 000和新增數據長度d=200,而改變置信度閾值min_conf時,2種算法對于合成時間序列的計算時間比較結果.由圖4可見,2種算法隨著置信度閾值的增大,計算時間都在減小,這是因為隨著置信度閾值的增大,1-頻繁模式越來越少,因此總的計算量也越來越小,而且當置信度閾值超過50%時,計算時間變化會很小,這是因為此時,滿足條件的1-頻繁模式很少,而且變化不大,從而使得不必進行過多的計算.

5 結束語

提出了一種帶移動時間窗的時間序列部分周期模式挖掘算法.在挖掘過程中數據不斷的被采集,數據的性能分布也會有相應的變化,為了挖掘最新的模式,利用移動時間窗,在先前挖掘結果的基礎上,對最近的時間序列進行部分周期模式挖掘.文中提出的算法最多對指定時間窗口中的數據搜索2次即可.既保證了挖掘結果的時效性又降低了算法的計算復雜度.實驗中在各種條件下,對算法進行了不同側面的比較,搜索速度加快,使得該算法更適用于大型時間序列數據庫的部分周期模式挖掘.

[1]RODDICK J F,SPILIOPOULOU M.A survey of temporal knowledge discovery paradigms and methods[J].IEEE Trans on Knowledge and Data Engineering,2002,14(4):750-767.

[2]HU X,XU P,WU Sh,et al.A data mining framework for time series estimation[J].J Biomed Inform,2010,43(2):190-199.

[3]LIAN X,CHEN L.Efficient similarity search over future stream time series[J].IEEE Trans on Knowledge and Data Engineering,2008,20(1):40-54.

[4]MARTEAU P F.Time warp edit distance with stiffness adjustment for time series matching[J].IEEE Trans On Pattern A-nalysis and Machine Intelligence,2009,31(2):306-318.

[5]RICHARD J.POVINELLI XIN F.A new temporal pattern identification methord for characterization and prediction of complex time series events[J].IEEE Trans on Knowledge and Data Engineering,2003,15(2):339-352.

[6]HAN J,GONG W,YIN Y.Efficient mining of partial periodic patterns in time series database[C]//Proc 15th Int'l Conf Data Eng Sydney,Australia,1999:106-115.

[7]AREF W G,ELFEKY M G,ELMAGARMID A K.Incremental,online,and merge mining of partial periodic patterns in time-series databases[J].IEEE Trans on Knowledge and Data Engineering,2004,16(3):332-342.

[8]歐陽為民,蔡慶生.基于時間窗口的增量式關聯規則更新技術[J].軟件學報,1999,10(4):427-429.

OUYANG Weimin,CAI Qingsheng.A Time-window based incremental technique for updating association rules[J].Journal of software,1999,10(4):427-429

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 青青青视频蜜桃一区二区| 伊人久久久大香线蕉综合直播| 99ri国产在线| 99re热精品视频中文字幕不卡| 亚洲成人精品在线| 久久99国产精品成人欧美| 国产欧美性爱网| 五月激情综合网| 国产精品.com| 日韩黄色在线| 亚洲欧美不卡| 免费国产黄线在线观看| 亚洲色大成网站www国产| 亚洲日韩精品欧美中文字幕 | 丁香五月激情图片| 亚洲日韩久久综合中文字幕| 2021国产乱人伦在线播放 | 人妻无码中文字幕一区二区三区| 理论片一区| 5388国产亚洲欧美在线观看| 99精品国产自在现线观看| 免费亚洲成人| 日韩性网站| 2022国产91精品久久久久久| 人妻无码一区二区视频| 亚洲AV成人一区二区三区AV| 青青操视频免费观看| 高清免费毛片| 国产精品9| 2020国产在线视精品在| 欧美日韩在线国产| 午夜a视频| 亚洲色欲色欲www在线观看| 欧美第一页在线| 天天综合网亚洲网站| 日本不卡在线视频| 四虎精品国产AV二区| 国产av剧情无码精品色午夜| 精品久久国产综合精麻豆 | 亚洲系列无码专区偷窥无码| 亚洲天堂视频网站| 亚洲第一香蕉视频| 深爱婷婷激情网| 日韩在线第三页| av在线手机播放| 色综合成人| 成人小视频网| 日韩AV手机在线观看蜜芽| 综合色天天| 伊人久综合| 国产产在线精品亚洲aavv| 黄色网页在线播放| 久久精品无码中文字幕| 国产福利免费在线观看| 亚洲Av综合日韩精品久久久| 午夜国产精品视频| 欧美午夜视频在线| 国产在线麻豆波多野结衣| 在线亚洲精品自拍| 女同久久精品国产99国| 热这里只有精品国产热门精品| 久久国产免费观看| 97影院午夜在线观看视频| 欧美激情第一区| 无码中文AⅤ在线观看| 精品小视频在线观看| 91视频99| 亚洲国产综合自在线另类| 色屁屁一区二区三区视频国产| 秘书高跟黑色丝袜国产91在线| 亚洲人成网站色7799在线播放| 综合五月天网| 欧美亚洲国产精品久久蜜芽| 美女毛片在线| 在线一级毛片| 亚洲最大综合网| 国产91成人| 中美日韩在线网免费毛片视频| 亚洲伊人天堂| 国产成人久视频免费| 亚洲国产系列| 国产丝袜丝视频在线观看|