









摘 要: ""目前學界普遍通過循環神經網絡(RNN)建模強度函數來刻畫時序點過程,然而此類模型不能捕捉到事件序列之間的長程依賴關系,并且強度函數具體的參數形式會限制模型的泛化能力。針對上述問題,提出一種無強度函數的注意力機制的時序點過程生成模型。該模型使用Wasserstein距離構建損失函數,便于衡量模型分布與真實分布之間的偏差,利用自注意力機制描述歷史事件對當前事件的影響程度,使得模型具有可解釋性且泛化能力更強。對比實驗表明,在缺失強度函數先驗信息的情況下,該方法比RNN類的生成模型和極大似然模型在QQ圖斜率的偏差和經驗強度偏差這兩個指標總體上分別減少35.125%和24.200%,證實了所提模型的有效性。
關鍵詞: "事件序列; 時序點過程; Wasserstein距離; 多頭自注意力
中圖分類號: "TP391 """文獻標志碼: A
文章編號: "1001-3695(2022)02-022-0456-05
doi:10.19734/j.issn.1001-3695.2021.08.0298
Wasserstein learning method for self-attention temporal "point process generation model
Lu Jiaming, Li Chenlong, Wei Yiqiang
(College of Mathematics, Taiyuan University of Technology, Jinzhong Shanxi 030600, China)
Abstract: "At present,the academic circles generally describe the temporal point process by modeling the intensity function using recurrent neural network(RNN).However,this kind of model can’t capture the long-range dependence between event sequences,and the specific parameter form of the intensity function will limit the generalization ability of the model.In order to solve these problems,this paper proposed a temporal point process self-attention generation model without intensity function.The model used Wasserstein distance to construct the objective function,which was convenient to measure the deviation between the model distribution and the real distribution,and used the self-attention mechanism to describe the impact of historical events on current events,so that the model was interpretable and had stronger robustness.Comparative experiments show that,in the absence of prior knowledge of intensity function,the deviation of QQ graph slope and empirical intensity deviation of this method reduce 35.125% and 24.200% respectively compared with RNN generation model and maximum likelihood mo-del,which proves the effectiveness of the proposed model.
Key words: "event sequence; temporal point process; Wasserstein distance; multi-head self-attention
0 引言
社交平臺上的用戶行為、金融交易信息[1,2]、 醫療健康信息[3]等人類活動和地震等自然現象都會產生大量的異步事件序列。異步事件序列具有時間次序,其時間戳能夠反映事件發生的潛在動態規律[4];同時,異步事件序列中事件的發生時間是隨機的,這意味著相繼發生的事件之間的時間間隔是不相等的。因此,有關異步事件序列的研究具有實際價值并存在挑戰。
時序點過程是一種有效建模異步事件序列的數學工具[5],它將事件之間的時間間隔當做隨機變量,并借助參數化的強度函數對異步事件序列的發生時間進行精確建模。通常,強度函數的參數形式根據研究對象的不同而有不同的設計,如泊松過程、霍克斯過程、自校正過程和更新過程[6]等。然而,不同時序點過程強度函數的參數形式往往結構單一,不能廣泛用于解決實際問題;另外,參數形式的錯誤指定會造成模型性能的顯著降低[7]。
近年來,研究者將時序點過程和神經網絡結合起來,提出了參數化強度函數的深度學習方法, 并將其稱為深度時序點過程[8]。一般而言,深度時序點過程將強度函數視為歷史過程的非線性函數,使用循環神經網絡(RNN)對其進行參數化[9]。基于RNN的深度時序點過程大都采用對數似然構建損失函數,最小化這一損失函數漸近等價于最小化真實分布和模型分布之間的KL散度,但這常常會導致模式下降等問題[10]。為此,文獻[7]以基于RNN和Wasserstein距離(W距離)的生成對抗網絡(WGAN[11])為基礎,提出了一種不需要似然函數的時序點過程估計方法(WGANTPP[7])。然而,RNN類模型存在兩個固有的缺點:a)只能緩解而不能根本解決序列數據的長程依賴問題;b)遞歸運算方式使得RNN只能接收前面的輸出作為輸入,限制了模型的計算效率。盡管研究者提出了RNN的多種變體,如長短時記憶網絡(LSTM)[12]和門限回歸單元(GRU)[13]等,但仍然不能根本解決使用循環結構所導致的問題。
為解決上述問題,本文提出了一種基于多頭自注意力機制和W距離的時序點過程生成學習方法(self-attention WGAN for temporal point process,SGT)。SGT使用添加梯度懲罰項的W距離來衡量模型分布與真實數據分布之間的偏差,以避免WGAN類模型因權重裁剪而造成的梯度爆炸等問題[11,14~16]。與RNN類模型相比, SGT通過多頭自注意力機制建立歷史事件之間的聯系,同時處理批量化的序列數據,克服了RNN遞歸結構導致的缺陷,不僅可以捕捉到異步事件序列之間的長程依賴關系,而且能夠提高運行效率[17~20]。此外,學習到的自注意力權重能夠描述歷史事件發生對當前事件的影響程度。因此,SGT比RNN類深度時序點過程模型的可解釋性更強,本文SGT在仿真數據集和真實數據集上均取得了穩定優異的表現。
1 相關知識
1.1 時序點過程
時序點過程是由事件發生時刻 T={t 1,…,t N,…} "所組成的隨機過程,其條件強度函數為 λ*(t)=λ(t|H t) ,其中符號*表示強度函數依賴于歷史 H t={t j∈T:t jlt;t} 。在時間窗 [t,t+dt) 內, λ*(t)dt=Ρ{#[t,t+dt)|H t} ,其中,記號 #[t,t+dt) 表示在時間窗口 [t,t+dt) 內發生的事件數; λ*(t)dt 可視為在給定歷史條件下事件發生的概率。常見的時序點過程有以下幾類:
a)非齊次泊松過程(inhomogeneous Poisson process)[21]。 "λ(t) 是與 H t 獨立的非負函數,例如由 k 個高斯核函數組成的多模函數 λ(t)=∑k i=1α i(2 π σ2 i)-1/2 exp (-(t-c i)2/σ2 i) ,其中 t∈[0,T),c i和σ i 分別是均值和標準差, α i 是核函數的權重。
b)霍克斯過程(Hawkes process)[22]。該過程中歷史事件的發生會增加未來事件發生的概率,強度函數常用參數形式為 λ(t)=μ+β∑ t ilt;tg(t-t i) ,其中, 0lt;βlt;1,μgt;0,g(·) 是非負核函數,一般是指數函數 g(t)= exp (-ωt) , ωgt;0 。
c)自校正過程(self-correcting process)[23]。該過程中歷史事件的發生會減小未來事件發生的概率。 λ(t) 的參數形式為 λ(t)= exp (ηt-∑ t ilt;tγ) ,其中 η和γ 分別代表外生強度和內生強度,指數形式確保強度函數非負。
1.2 W距離
兩個分布之間的W距離定義為
W(P r,P g)= inf "ψ∈Ψ(Ρ r,Ρ g) Ε (X,Y)[|X-Y|] ""(1)
其中: Ψ(Ρ r,Ρ g) 定義為聯合分布 ψ(X,Y) 的集合, Ρ r 和 Ρ g 是聯合分布的邊際密度。但 W(Ρ r,Ρ g) 的計算過程十分復雜,故考慮其對偶形式[24]sup "‖f‖ L≤1 (Ε X~Ρ r[f(X)]-Ε Y~Ρ g[f(Y)]) ,其中 ‖f‖ L sup "X≠Y "|f(X)-f(Y)| |X-Y| ",且 W(Ρ r,Ρ g) 的上限對于所有的1-Lipschitz函數 f 都滿足。然而為獲得此上界而枚舉所有的1-Lipschitz函數是不可能的[7]。因此,可以使用一個神經網絡 f w 去近似 f,w∈W 是網絡參數。此時,對偶問題轉換為
W(Ρ r,Ρ g)= max "w∈W,‖f w‖ L≤1 Ε X~Ρ r[f w(Y)]-Ε Y~Ρ g[f w(X)] ""(2)
1.3 自注意力和多頭自注意力
自注意力機制通過一一對應的相似度函數來刻畫輸入數據之間的相互依賴關系。本文采用查詢—鍵—值模式的自注意力,具體計算過程如下:
a)對于每個輸入 e "n∈E=[e 1,…,e N]∈"Euclid Math TwoRAp
L×N ,將其線性映射到三個不同的空間,得到查詢向量 q "i∈"Euclid Math TwoRAp
D 、鍵向量 k "i∈"Euclid Math TwoRAp
D 和值向量 v "i∈"Euclid Math TwoRAp
D 。對于整個輸入序列 E ,其線性映射過程為 Q =E W "q=[ q "1,…, q "D]∈"Euclid Math TwoRAp
L×D, K =E W "k=[ k "1,…, k "D]∈"Euclid Math TwoRAp
L×D, V =E W "v=[ v "1,…, v "D]∈"Euclid Math TwoRAp
L×D,其中 W "q∈"Euclid Math TwoRAp
N×D, W "k∈"Euclid Math TwoRAp
N×D, W "v∈"Euclid Math TwoRAp
N×D 分別為線性映射的參數矩陣[25]。
b)對于每一個查詢向量 q "n∈ Q 、鍵向量 k "j∈ K 和值向量 v "j∈ V ,自注意力機制對應的輸出向量為 h "n=∑N j=1α nj v "j=∑N j=1 softmax (s(q n, k "j)) v "j,其中n,j∈[1,N]為輸入向量序列的位置,α nj表示第n個輸入關注到第j個輸入的權重,s(·) 為相似度函數,softmax(·)為歸一化函數[25]。
自注意力機制可視為在一個線性投影空間中建立輸出序列為 H=[h 1,…,h "D]∈"Euclid Math TwoRAp
L×D 中不同向量之間的交互關系。而多頭自注意力則是在 M 個投影空間中應用自注意力以捕捉到多個的投影空間中不同的交互信息: "εm∈{1,…,M}有 Q "m=E W m q, K "m=E W m k, V "m=E W m v,H=[ h 1;…;h "M] W "O,其中 W "O∈"Euclid Math TwoRAp
D×N, W m q∈"Euclid Math TwoRAp
N× D M , W m k∈"Euclid Math TwoRAp
N× D M , W m v∈"Euclid Math TwoRAp
N× D M "為投影矩陣[25]。
1.4 位置編碼
對于輸入數據的特征向量 Z ={z 1,z 2,…,z L}∈"Euclid Math TwoRAp
L×1 來說,其位置編碼向量 p (z l)∈"Euclid Math TwoRAp
L×N 常通過式(3)進行預定義[15]:
[ p (z j)] i= ""sin (pe(z j)/10000 i-1 M ) i為偶數
cos (pe(z j)/10000 i-1 M ) i為奇數 """"(3)
其中: pe(z j) 表示 z j 在噪聲序列中的次序。該編碼方式無須引入額外的參數就可以對位置信息進行豐富編碼。
2 SGT模型
2.1 SGT的模型結構
為捕捉事件序列的長程依賴關系,使生成序列的分布盡可能接近真實序列分布,提高時序點過程生成方法的學習效果,本文提出一種基于多頭自注意力機制和W距離的時序點過程生成學習方法SGT。該模型由生成網絡和判別網絡兩部分構成,含有位置編碼、多頭自注意力、殘差連接、層標準化、全連接層和softmax(·)層等組件,其模型結構如圖1所示。
SGT模型具體構成介紹如下:
a)生成網絡。設生成網絡的輸入噪聲序列和輸出序列分別是 Z={z 1,z 2,…,z L}和X={x 1,x 2,…,x L} ,生成網絡的目標是將噪聲序列轉換為判別網絡無法區分來源的事件序列 g θ(Z)=X 。由于在時序點過程中齊次泊松過程扮演著非信息性和類似均勻分布的角色,所以SGT的生成網絡在此輸入的噪聲序列采樣于齊次泊松過程。
因為生成網絡的主要結構是自注意力機制,而其計算得到的權重缺少輸入序列中每個時間戳的位置信息,所以要對噪聲序列加入位置編碼進行修正。對于輸入的噪聲序列 Z={z 1,…,z L}∈"Euclid Math TwoRAp
L×1,令E=[e(z 1)+p(z 1),…,e(z L)+p(z L)],E∈"Euclid Math TwoRAp
L×N 由嵌入編碼 e(·)∈"Euclid Math TwoRAp
L×N和位置編碼p(·)∈"Euclid Math TwoRAp
L×N 組成。然后,將編碼后的噪聲序列輸入到多頭自注意力機制中,并使用放縮點積作為多頭自注意力的相似度函數,得到輸出 H=[ h 1,h 2,…,h "M] W O∈"Euclid Math TwoRAp
L×N,其中 h "m =softmax( "Q "m K T "m "D k ") V "m 。 為避免當前事件受到未來事件的影響,在自注意力機制中添加了掩碼機制:在計算 Q "m K T "m(j,:)(矩陣 Q "m K T "m的第j 行)時,將 Q "m K T "m(j,j+1)、 Q "m K T "m(j,j+2)、 Q "m K T "m(j,L) 的值設為負無窮,則經過softmax(·) 函數后,未來事件對當前事件的影響將變為0,使得每個事件僅受歷史事件的影響。進一步地,為了緩解由于模型深度增加而帶來的模型退化問題,在多頭自注意力的輸出中加入殘差連接。接下來,加入層標準化可以有效避免梯度消失和梯度爆炸問題;最后將多頭自注意力模型的輸出 H 輸入到全連接層,得到生成序列 X ={x 1,x 2,…,x n}=σ( HW f+ b f),其中σ(·) 是激活函數ELU(·), X ∈"Euclid Math TwoRAp
L×1, W f∈"Euclid Math TwoRAp
N×1, b f∈"Euclid Math TwoRAp
L×1 。
b)判別網絡。該網絡的目標是判斷其輸入序列是真實序列還是由生成網絡產生。除最后一層網絡外,SGT的判別網絡與生成網絡完全相同。判別網絡的最后一層為softmax(·),其輸出結果用來構建整個網絡的損失函數,以反映真實序列和生成序列的差異程度。
2.2 SGT的訓練過程
與WGAN一樣,SGT需使生成的時序點過程的分布盡可能接近真實時序點過程數據的分布。SGT的訓練過程如下:
a)生成 [0,T) 內服從分布 Ρ z 的泊松噪聲序列 Z ,其中, Ρ z 的強度函數為 λ zgt;0 [7]。
b)將噪聲序列 Z 的生成序列 X 和真實序列 Y 代入式(2)。為使參數化模型族 g θ 滿足1-Lipschitz條件的同時避免梯度爆炸,在判別網絡訓練目標中加入梯度懲罰項 A ,則SGT的損失函數為
L =min "θ W(Ρ r,Ρ z)=
min "θ "max "w∈W,‖f w‖ L≤1 (Ε X~P r[f w(X)]-Ε Z~P z[f w(g θ(Z))]-A) ""(4)
其中: A=υ‖ |f w(X)-f w(g θ(Z))| |X-g θ(Z)| -1‖;υ 為梯度懲罰項的調節系數。生成網絡與判別網絡目標相反,生成網絡的目標函數為
min "θ "max "w∈W,‖f w‖ L≤1 Ε Z~P z[f w(g θ(Z))] ""(5)
c)用Adam優化方法對損失函數訓練,最后進行模型評價。
2.3 實驗設置和算法流程
SGT模型使用批量大小 m =256的Adam優化方法進行訓練,優化方法的學習率 α =1E-4,一階和二階矩估計的指數衰減率分別為 β 1=0.5,β 2 =0.9。模型訓練15 000次并應用早停法。SGT算法流程如下:
輸入:Lipschitz約束的正則系數 υ=0.3 ;批量大小 m ;判別器迭代次數 n d=5 ;判別網絡初始化參數 w 0 ;生成網絡初始化參數 θ 0 ;Adam優化器的超參數 α,β 1,β 2 。
輸出:生成器的生成序列。
while "θ "has not converged do
for "n =0,…, n d "do
{x(i)}m i=1~Ρ r ; //采樣得到真實序列
{z(i)}m i=1~Ρ z ; //采樣得到噪聲序列
L←[ 1 m ∑m i=1f w(g θ(z(i)))- 1 m ∑m i=1f w(x(i))]+ υ∑m i,j=1‖ |f w(x i)-f w(g θ(z j))| |x i-g θ(z j)| -1‖; "http://判別損失
w←Adam( ""wL,w 0,α,β 1,β 2) ; //更新判別器參數
end for
{z(i)}m i=1~Ρ z ; //采樣得到噪聲序列
θ ←Adam(- """w 1 m ∑m i=1f w(g θ(z(i))),θ 0,α,β 1,β 2 ); /*更新生成器參數*/
end while
3 實驗過程及結果分析
3.1 數據集介紹
實驗共使用五個數據集,其中三個仿真數據集和兩個真實數據集,均是以.txt文本格式存儲的數值型數據。在時間窗[0,15)內,分別由非齊次泊松過程[21]、霍克斯過程[22]和自校正過程[23]產生三個仿真數據集,每個數據集均含有20 000條序列。三個用于產生仿真數據集的時序點過程參數設置如下:
a)非齊次泊松過程。其強度函數的形式為 λ(t)=∑k i=1α i (2π σ2 i)-1/2 exp (-(t-c i)2/σ2 i) ,參數設置為 k=3 , α=[4,8,11] , σ=[1,1,1] , c=[1,2,3] 。
b)霍克斯過程。其條件強度函數的形式為 λ(t)=μ+β∑ t ilt;tg(t-t i) ,參數設置為 μ=1.0 , β=0.8 ,衰減核 g(t-t i)= e -(t-t i) 。
c)自校正過程。其條件強度函數的形式為 λ(t)= exp (ηt-∑ t ilt;tγ) ,參數設置為 η=1.0 , γ=3.0 。
真實數據采用重癥監護醫學數據集MIMIC-Ⅱ和社交網絡數據集meme,每個序列中事件發生的時間戳均被裁剪到[0,15)。真實數據集細節介紹如下:
a)MIMIC-Ⅱ(medical information mart for intensive care-Ⅱ)是一個免費開放的、公共資源的重癥監護室研究數據集,該數據集是貝斯以色列迪康醫學中心(BIDMC)重癥監護室中病人的醫療數據,這些數據記錄了病人從發病、入診、檢查、治療到出院的時間點,共有650條序列。
b)meme數據集是描述社交網絡行為傳播的公開數據集,共包括超過1 720萬條新聞或博客的傳播時間點。本文對該數據集進行篩取,選取數據集中長度大于3的序列作為可使用數據,共得到23 020條序列。
3.2 對比實驗和模型評價指標
選擇WGANTPP[7]和RMTPP[8]兩個模型與SGT作對比,其中,WGANTPP是文獻[7]提出的時序點過程生成方法,其模型采用RNN的變體LSTM[12]來構建模型的生成網絡和判別網絡,使用帶梯度懲罰項的W距離構建損失函數, 可以從RNN生成模型角度與SGT在時序點過程方面進行比較;RMTPP是文獻[8]首次將RNN應用到時序點過程的理論模型,其開創性的成果使其成為學界在對深度時序點過程進行研究時重要的對比模型,該模型將時序點過程的強度函數表示為歷史的非線性函數,使用極大似然構建損失函數,可以從RNN極大似然估計角度與SGT進行對比。與WGANTPP和RMTPP兩個模型進行對比,可以對SGT的有效性作出衡量。模型的評價指標選用QQ圖斜率和經驗強度的平均絕對偏差。QQ圖能夠反映事件序列間的微觀依賴關系,經驗強度反映序列的宏觀動態信息,它們的平均絕對偏差越小,表明學習方法越優秀[7]。具體原理如下:
a)強度函數 λ(t) 的積分 Λ=∫t i+1 t iλ(s) d s 與參數為1的指數分布的QQ圖應該落在45°參考線附近[7]。 因此取序列QQ圖斜率與參考線斜率的平均絕對偏差作為模型效果的評價指標。
b)雖然SGT是一個無強度函數的模型,但可以通過比較生成序列與真實數據經驗強度的平均絕對偏差來評估模型的優劣[7]。經驗強度 λ′(t)=E(N(t+δt)-N(t))/δt表示[t,t+δt] 發生事件的平均數。
3.3 實驗結果分析
3.3.1 仿真數據集結果分析
三個仿真數據集下SGT及其對比模型的生成樣本案例如圖2所示,其中紅色曲線為真實樣本,黃色、綠色和藍色曲線分別是SGAN、WGANTPP和RMTPP模型的生成樣本(見電子版), t 表示時間窗口內事件發生的時間, N(t) 表示時間窗口內發生的事件數。觀察圖2可知,SGT模型生成的樣本案例與真實樣本案例的最為接近。在仿真數據集上SGT、WGANTPP和RMTPP模型生成樣本與真實樣本的均方根誤差(RMSE)分別為1.236、2.324和2.333,其中SGT生成樣本與真實樣本的RMSE最小。不同模型在不同時序點過程上的生成序列和仿真數據的QQ圖如圖3所示,其中紅點是仿真序列數據的QQ圖(見電子版)。觀察圖3得知,除霍克斯數據集外,SGT的生成序列與仿真序列數據的QQ圖差異最小。表1匯總了五次實驗得到的QQ圖斜率偏差的均值和標準差。在缺失強度函數先驗知識的情況下,除了在霍克斯數據集上是次優的外,由SGT得出的QQ圖斜率偏差要明顯小于另外兩個模型,總體上比基于RNN的生成模型WGANTPP的結果減少49.2%,比基于RNN的極大似然模型RMTPP的結果減少21.05%。
圖4是不同模型在不同時序點過程中的經驗強度比較,直觀地展現了不同模型在三個仿真數據集上學習到的經驗強度,紅線是仿真序列的經驗強度(見電子版)。觀察圖4得知,除霍克斯數據集外,SGT的生成序列和仿真序列的經驗強度最為接近。表2匯總了五次實驗得到的經驗強度偏差的均值和標準差。從表2可以看出,在缺失強度函數先驗知識的情況下,除了在霍克斯數據集上是次優的外,SGT生成序列和仿真序列的經驗強度偏差最小,SGT經驗強度的偏差比WGANTPP減少41.56%,比RMTPP減少6.84%。
3.3.2 真實數據集結果分析
圖5是兩個真實數據集下SGT及其對比模型的生成樣本案例,不同的真實數據擁有不同的發生方式。由圖5可知,SGT模型生成的樣本與真實樣本最接近。計算SGT、WGANTPP和RMTPP模型生成樣本與真實樣本的均方根誤差(RMSE)分別為1.243、3.331和3.096,其中SGT生成樣本的RMSE最小。由于真實數據的潛在生成過程未知,通常被看做是從特定領域產生的某種類型的時序點過程,不是由已知強度函數參數的時序點過程生成的,故不能對真實數據進行QQ圖比較。因此,在真實數據集上僅選用經驗強度的平均絕對偏差作為模型的評價指標。圖6是醫療數據集MIMIC
-Ⅱ和社交網絡數據集meme的經驗強度圖,可以直觀看出SGT生成的序列數據更加符合真實數據的分布。
隨機初始化生成網絡的參數,運行五輪得到經驗強度偏差的均值和標準差,結果如表3所示。與基于RNN的生成模型WGANTPP和極大似然模型RMTPP相比,SGT模型的經驗強度偏差最小。
3.4 損失收斂曲線
SGT模型在非齊次泊松數據集上的損失函數的收斂曲線如圖7所示,在其他數據集上的收斂曲線與其類似。觀察圖7可知,由于生成網絡和判別網絡的目標相反,模型的損失在對抗變化,即在迭代次數小于1 700時,隨著模型訓練的進行生成網絡的生成能力逐漸增強,開始生成高質量的時序點過程序列,而此時判別網絡的鑒別能力相對較弱,難以有效分辨出生成序列的真假;當迭代次數處于[1700,3000]時,判別網絡的鑒別能力開始逐步提升,逐漸能夠分辨出生成序列的真假;當迭代次數在[3000,5000]時,損失開始振蕩變化;當迭代次數大于10 000時,損失的振蕩趨于平穩,并于迭代完成時,損失在-5附近動態波動。
3.5 模型可解釋性
SGT與RMTPP和WGANTPP相比,除了在時序點過程的生成學習方面有更優的表現外,還具有更好的模型可解釋性。將SGT模型在不同數據集上的自注意力權重進行可視化,如圖8所示,圖中的每一行表示歷史事件對當前事件的影響程度,顏色越深表示影響程度越大(見電子版)。
從圖8可以看出,若序列采樣自非齊次泊松過程,則歷史事件對序列的影響程度相似且較弱;若序列采樣自霍克斯過程,則事件受歷史事件影響明顯,并且歷史事件中存在對未來事件影響程度很大的特殊事件;若序列采樣于自校正過程,則歷史事件對未來事件的發生存在影響。就真實數據meme和MIMIC-Ⅱ而言,事件易受相鄰較近的歷史事件影響,但隨著歷史序列長度的增加,歷史事件的影響程度趨于平均,不存在對事件影響程度很大的特殊事件。因此,在進行精確建模時可以首先考慮非齊次泊松過程。
4 結束語
本文提出了一種基于多頭自注意力機制和W距離的深度時序點過程生成學習方法。該方法在強度函數先驗信息未知情況下可以直接探究時序點過程的生成過程,能夠生成與真實事件序列分布相同的序列數據,且模型泛化能力較強。與RNN類深度時序點過程模型相比,SGT中的多頭自注意力機制可以有效克服遞歸結構所引起的長程依賴問題,提升模型運行效率且更具可解釋性。在仿真數據集和真實數據集上的對比實驗表明,SGT比RNN類的生成模型和極大似然模型在QQ圖斜率的偏差和經驗強度偏差這兩個指標總體上分別減少了35.125%和24.200%,證實了所提模型的有效性,表明SGT比RNN類模型在時序點過程研究方面具有更優的表現。未來希望將網絡中的所有參數進行譜歸一化處理,提高SGT在霍克斯過程上的表現能力,并且不再限制研究模型的時間窗口,在更長的真實事件序列上驗證所提SGT的有效性。
參考文獻:
[1] "Ding Xiao,Shi Jihao,Duan Junwen, et al .Quantifying the effects of long-term news on stock markets on the basis of the multikernel Hawkes process[J]. Science China Information Sciences ,2021, 64 (9):article No.192102.
[2] Bacry E,Mastromatteo I,Muzy J F.Hawkes processes in finance[J]. Market Microstructure and Liquidity ,2015, 1 (1):1550005.
[3] Wang Yichen,Xie Bo,Du Nan, et al. "Isotonic Hawkes processes[C]//Proc of the 33rd International Conference on Machine Lear-ning.2016:2226-2234.
[4] 江海洋,王莉.一種建模社交化點過程序列預測算法[J].中國科學技術大學學報,2019, 49 (2):149-158. (Jiang Haiyang,Wang Li.A modeling socialization point process sequence prediction algorithm[J]. Journal of University of Science amp; Technology of China ,2019, 49 (2):149-158.)
[5] Daley D J,Vere-Jones D.An introduction to the theory of point processes[M].New York:Springer,2008:76-88.
[6] Aalen O O,Borgan O,Gjessing H K.Survival and event history analysis:a process point of view[J]. International Statistical Review ,2009, 77 (3):463-464.
[7] Xiao Shuai,Farajtabar M,Ye Xiaojing, "et al .Wasserstein learning of deep generative point process models[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:3247-3257.
[8] Du Nan,Dai Hanjun,Trinedi R, et al .Recurrent marked temporal point processes:embedding event history to vector[C]//Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2016:1555-1564.
[9] Xiao Shuai,Yan Junchi,Yang Xiaokang, et al .Modeling the intensity function of point process via recurrent neural networks[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:1597-1603.
[10] 劉鑫.基于時間點過程對科技文獻引用行為的建模與預測[D].上海:華東師范大學,2018. (Liu Xin.Modeling and predicting scientific literature’s citation via temporal point process[D].Shanghai:East China Normal University,2018.)
[11] Gulrajani I,Ahmed F,Arjovsky M, et al .Improved training of Wasserstein GANs[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:5769-5779.
[12] Hochreiter S,Schmidhuber J.Long short-term memory[J]. Neural Computation ,1997, 9 (8):1735-1780.
[13] Chung J,Gulcehre C,Cho K, et al .Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL].(2014-12-11).https://arxiv.org/pdf/1412.3555.pdf.
[14] 馮永,張春平,強保華,等.GP-WIRGAN:梯度懲罰優化的Wasserstein圖像循環生成對抗網絡模型[J].計算機學報,2020, 43 (2):190-205. (Feng Yong,Zhang Chunping,Qiang Baohua, et al .GP-WIRGAN:a novel image recurrent generative adversarial network model based on Wasserstein and gradient penalty[J]. Chinese Journal of Computers ,2020, 43 (2):109-205.)
[15] Vaswani A,Shazeer N,Parmar N, et al .Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:5998-6008.
[16] Hu Mingxuan,He Min,Su Wei, et al .A TextCNN and WGAN-GP based deep learning frame for unpaired text style transfer in multimedia services[J]. Multimedia Systems ,2021, 27 (8):723-732.
[17] 段超,張婧,何彬,等.融合注意力機制的深度混合推薦算法[J].計算機應用研究,2021, 38 (9):2624-2627,2634. (Duan Chao,Zhang Jing,He Bin, et al .Deep hybrid recommendation algorithm incorporating attention mechanism[J]. Application Research of Computers ,2021, 38 (9):2624-2627,2634.)
[18] "Leng Xueliang,Miao Xiaoai,Liu Tao.Using recurrent neural network structure with enhanced multi-head self-attention for sentiment analysis[J]. Multimedia Tools and Applications ,2021, 80 (3):12581-12600.
[19] Xiao Xi,Xiao Wentao,Zhang Dianyan , et al .Phishing websites detection via CNN and multi-head self-attention on imbalanced datasets[J]. Computers amp; Security ,2021, 108 (9):102372.
[20] Zhang Qiang,Lipani A,Kirnap O, et al .Self-attentive Hawkes process[EB/OL].(2020-02-14).https://export.arxiv.org/pdf/1907.07561.
[21] Kingman J F C.Poisson processes[M].Oxford:Clarendon Press,1993:20-55.
[22] Du Haizhou,Zhou Yan,Ma Yunpu, et al .Astrologer:exploiting graph neural Hawkes process for event propagation prediction with spatio-temporal characteristics[J]. Knowledge-Based Systems ,2021, 228 (9):107247.
[23] Isham V,Westcott M.A self-correcting point process[J]. Stochastic Processes and Their Applications ,1979, 8 (3):335-341.
[24] Arjovsky M,Chintala S,Bottou L.Wasserstein GAN[EB/OL].(2017-03-09).https://arxiv.org/pdf/1701.07875v2.pdf.
[25] 邱錫鵬.神經網絡與深度學習[M].北京:機械工業出版社,2020:194-200. (Qiu Xipeng.Neural network and deep learning[M].Beijing:China Machine Press,2020:194-200.)