李澤朋,顧長貴,宋雨軒
(上海理工大學 管理學院,上海 200093)
一般來說,異常檢測是指對環境中的異常行為,或者不符合預期行為的檢測[1]。目前檢測領域的復雜環境也給異常檢測帶來了巨大的挑戰[2]。汽車制造領域的螺栓擰緊是通過對擰緊件(螺紋零件)施加擰緊力矩,使其拉伸形變產生軸力,實現被擰緊件之間相互夾緊的一種擰緊方式[3]。為了保證汽車出廠前車身各部位螺栓擰緊達到合適的擰緊力,以避免在汽車出廠后承擔沉重的汽車召回代價,各汽車公司均會進行汽車出廠異常檢測[4]。
基于規則、聚類、支持向量機和森林等參數統計模型和非參數統計模型常被用于做時間序列數據的異常檢測[5]。但由于硬件要求高、操作困難、檢測率不穩定等原因,大多數企業的實際檢測過程中,通常由熟練的工程師利用現有的扭矩數據直接判斷是否合格[6]。這一過程包含太多主觀不可控因素,所以遷移性大大降低[7]。
隨著數據量的增加,傳統的方法在大規模異常檢測中會遇到困難[8]。近年來,基于復雜網絡的時間序列分析在各個領域引起了廣泛的關注。通過將時間序列映射到網絡,可以直觀地得到從微觀到宏觀的不同時間尺度上的結構模式[9]。Lacasa 等人提出了一種廣泛應用的可見圖算法來連接相互可見的數據元素[10]。這種方法被迅速采用并廣泛應用于不同領域提取嵌入時間序列中的信息[11]。
然而在上述方法中,時間序列均被投射到靜態網絡中,很難找到系統的動態進化行為[12]。復雜系統的動態過程可以由時間序列中具有預定義長度的序列段反映[13]。如果數據點彼此可見,將該段映射到可見圖中,就是通過連接這些可見的數據點來實現[14]。對連續的可見圖進行有向連接就會生成狀態轉移網絡。在狀態轉移網絡中,將節點定義為時間序列段內的狀態,如果對原始數據由可見圖方法產生的兩個狀態(可見圖)之間連續,則兩個狀態之間存在有向連接。本文中狀態轉移網絡中節點出現的頻率稱為度。如果原始時間序列構造的網絡中節點的出現頻率明顯大于重組時間序列構造的網絡中節點的出現頻率,則將該節點稱為模體,其可以作為時間序列的全局代表[15]。為了判斷模體的出現是否具有長期記憶性,應用去趨勢波動分析(DFA)理論計算了模體的Hurst 指數,并對其網絡特征進行判別[16]。
本文試圖通過對汽車擰緊過程時間序列構造狀態轉移網絡,并分析不同序列之間網絡的特性,進而來擴展和驗證可見圖方法,并驗證汽車擰緊過程的數據中是否存在著非孤立的相互依賴的模體狀態。在本研究中提出應用狀態轉移網絡的方法建立異常檢測數據網絡,找出狀態轉移網絡中合格與不合格數據的差異,從而實現異常檢測的功能。
本文中用到的數據由上汽集團汽車出廠檢測部門提供,包括5 組合格汽車螺栓擰緊過程時序數據(后文簡稱合格汽車擰緊過程序列,即TSQP)與5組不合格汽車螺栓擰緊過程時序數據(后文簡稱不合格汽車擰緊過程序列,即U-TSQP)。圖1(a1~a5)為5 組合格汽車擰緊過程時序圖,(b1~b5)為5組不合格汽車擰緊過程時序圖。
如圖1 所示,(a1)-(a5)為5 組合格汽車擰緊過程時序(簡稱,TSQP)圖,(b1)-(b5)為5 組不合格汽車擰緊過程時序(簡稱,U-TSQP)圖,其中x軸代表擰緊時間(ms),y軸代表扭矩值(N/m)。

圖1 汽車擰緊過程時序圖Fig.1 Time series diagram of automobile bolt connection process
狀態
時間序列可表示為X ={x1,x2,x3,…,xN},其中N為序列長度。首先,由滑動窗口長度s沿時間序列從前向后滑動,可得到一系列相互重疊的滑動窗口長度的時間序列片段Xm ={xm,xm+1,xm+2,…,xm+s-1},其中m =1,2,3,…,N- s +1。
構造狀態轉移網絡的可見圖方法對應的滑動窗口長度選擇為s =5。通過可見圖方法,每個時間序列片段可被轉化為一個可見小圖。在可見小圖中,節點被定義為該時間序列片段中的數據,同一個可見小圖中各節點之間是否可以連邊由各節點是否可見決定,其數學形式表述為:如果處于xa和xb之間的每個點xc都滿足公式(1):

為此,在取滑動窗口長度為s =5 時,對所有數據利用可見圖方法構造可見小圖之后,可以得到其所有的可見小圖,即狀態轉移網絡中所有的狀態,如圖2 所示。
如圖2 所示,汽車螺栓擰緊過程時間序列中觀察到的狀態。在圖片的左上角為每個狀態分配了一個標識號。共有10 組不同的序列,每組都產生了如圖2 所示的25 種狀態。

圖2 汽車擰緊過程時序狀態圖Fig.2 Time series state diagram of automobile bolt connection process
在此用gk表示鄰接矩陣,并用之代表某個滑動窗口長度s內的數據點構成的可見圖結構。如果該滑動窗口長度s內的數據點xa和xb相連,則鄰接矩陣元素gk(a-k +1,b +k +1)的值為1;否則,值為0。由此方式可將原式的整個時間序列{x1,x2,x3,…,xN} 映射為鄰接矩陣序列G ={g1,g2,g3,…,gN-s+1},鄰接矩陣序列G中的每一個元素代表一個可見圖結構,由此利用可見圖理論將整個時間序列映射為許多個可見圖。
在狀態序列G ={g1,g2,g3,…,gN-s+1} 中,在狀態gi與gi+1之間存在有向的擰緊,其中1 ≤i≤N- s。為此,可以得到一個狀態鏈,式(2):

遍歷狀態鏈,如果任意兩種狀態的鄰接矩陣形同,則用前者狀態代替后者狀態。例如,如果g1=g3,則用g1替代g3,則此時狀態鏈變為g1→g2→g1→…→gN-s+1。該遍歷過程去除了狀態鏈中重復的局部狀態。將剩余的局部狀態定義為網絡節點,從而將原時間序列映射成為狀態轉移網絡。
網絡節點的度為局部狀態gk的出現次數,網絡節點之間連邊的權重則是不同的局部狀態之間的轉移次數,節點之間連邊的方向為局部狀態的轉移方向。在網絡圖中,用網絡連邊的粗細區分網絡節點之間連邊的權重。
去趨勢波動分析(DFA)適用于分析非平穩時間序列的長期記憶。其優點是能有效去除時間序列中各階的趨勢分量,并能檢測出含有噪聲和多項式趨勢信號的長時記憶。將DFA 應用于原始時間序列{yi},i =1,2,3,…,N的步驟如下,其中N是時間序列的長度。
(1)計算原始序列的累積偏差以獲得新序列zi=,i =1,2,3,…,N,其中〈y〉 的值是整個序列的平均值,即;
(2)將綜合序列zi劃分為t非重疊窗口,窗口長度(數據點數)為:,其中w表示時間尺度;
(3)在每個窗口中,用二階多項式函數擬合w個數據點zi,作為局部趨勢。然后,從局部趨勢中減去w個數據點,得到殘差ri;
(5)本文改變了時間尺度w(1 ≤w≤N/10);
(6)在雙對數坐標系下,將振幅波動F(w)繪制為時間尺度w的函數。
如果F(w)與w的關系在雙對數坐標系中是線性的,F(w)(F(w)~wH)有冪律形式,其中標度指數H是線性關系的斜率。H的值量化了波動的尺度不變相關性。如果H =0.5,則與白噪聲相對應的區間波動沒有相關性。如果H <0.5,則波動中存在負相關,即較小的值更可能跟隨較大的值,反之亦然。如果H >0.5,則波動存在正相關,即較大的值后面跟著較大的值的可能性較大,反之亦然。
根據建立狀態轉移網絡的步驟,將汽車螺栓擰緊過程時間序列映射到網絡中。網絡中的每個節點表示一個狀態,即圖2 中的每個狀態圖就是圖3 中的節點。在圖2 中,觀察到25 種狀態(節點),片段長度s =5,因此本研究的狀態轉移網絡中節點最多為25 個。注意,網絡中的每個節點表示一個狀態,即圖2 中的每個狀態是圖3 中的節點。
如圖3 所示,在取滑動窗口長度為s =5 時,第一組合格汽車擰緊過程序列到第五組合格汽車擰緊過程序列的狀態轉移網絡。(a1-e1)表示由原始時間序列生成的狀態轉移網絡;(a2-e2)表示在移除連接強度小于500 的連接后從狀態轉移網絡獲得的增強狀態轉移網絡;(a3-e3)表示,從重組時間序列的狀態轉移網絡中移除連接強度小于500 的連接后,獲得的增強重組狀態轉移網絡。狀態轉移網絡中的每個節點由兩個數字標識,即括號中的一個數字表示圖2 中狀態(或節點)的ID 號,括號左側的另一個數字表示圖1 中原始時間序列中首次出現的狀態(或節點)的序列號。定向連接(箭頭)表示從一個狀態到另一個狀態的轉換。紅色箭頭表示權重描述轉移頻率的自連接,黃色框表示自連接節點。

圖3 5 組合格汽車擰緊過程序列狀態轉移網絡圖Fig.3 Time series state transfer network diagram of five groups of qualified automobile bolt connection process
如圖4 所示,在取滑動窗口長度為s =5 時,第一組不合格汽車擰緊過程序列到第五組不合格汽車擰緊過程序列的狀態轉移網絡。(a1-e1)表示由原始時間序列生成的狀態轉移網絡;(a2-e2)表示在移除連接強度小于500 的連接后從狀態轉移網絡獲得的增強狀態轉移網絡;(a3-e3)表示,從重組時間序列的狀態轉移網絡中移除連接強度小于500 的連接后,獲得的增強重組狀態轉移網絡。狀態轉移網絡中的每個節點由兩個數字標識,即括號中的一個數字表示圖2 中狀態(或節點)的ID 號,括號左側的另一個數字表示圖1 中原始時間序列中首次出現的狀態(或節點)的序列號。定向連接(箭頭)表示從一個狀態到另一個狀態的轉換。

圖4 5 組不合格汽車擰緊過程序列狀態轉移網絡圖Fig.4 Time series state transfer network diagram of five groups of unqualified automobile bolt connection process
如圖5 所示,當滑動窗口長度為s =5 時,圖為對合格汽車擰緊過程序列構造的狀態轉移網絡和重組狀態轉移網絡中得到了度分布、度比率和尺度指數圖。(a1)-(e1)是第一組到第五組合格汽車擰緊過程序列的狀態轉移網絡度分布。從圖中可以很容易地識別出原始序列和無序序列中的關鍵節點;(a2)-(e2)是第一組到第五組合格汽車擰緊過程序列重組前后狀態轉移網絡度的比值分布。從比率中可以很容易地找到關鍵節點;(a3)-(e3)是第一組到第五組合格汽車擰緊過程序列模體的位置時間序列標度指數,從中可以發現模體的長期記憶性。

圖5 5 組合格汽車擰緊過程序列狀態轉移網絡特性分析圖Fig.5 Characteristic analysis diagram of time series state transfer network of five groups of qualified automobile bolt connection process
由合格汽車擰緊過程和不合格汽車給擰緊過程的時間序列生成的狀態轉移網絡分別如圖3(a1-e1)和圖4(a1-e1)所示。為了更清楚地觀察網絡結構,過濾掉原始狀態轉移網絡中連接強度小于500的連接,得到圖3(a2-e2)和圖4(a2-e2)中的增強狀態轉移網絡。為了進行比較,隨機重組了原始合格汽車擰緊過程時間序列。刪除連接強度小于500的連接后,隨機時序的增強狀態轉移網絡如圖3(a3-e3)和圖4(a3-e3)所示。每個節點由圖3 中的兩個數字標識,即括號中的數字表示圖2 中狀態(或節點)的ID 號,括號左側的另一個數字表示圖1 中原始時間序列中首次出現的狀態(或節點)的序列號。例如,對于圖3(a1)中的左上角節點20(6),“20”表示該節點第一次從圖1(a)中的第20 個數據點出現,而“6”表示圖2 中的第6 狀態(節點)。
在狀態轉移網絡中,自連接節點即具有從自身到自身的連接的節點,如圖3(a1-e1)所示。a1 中第一組合格汽車擰緊過程序列的自連接節點分別為3(3)、49(4)、208(10)和5(19);b1 中第二組合格汽車擰緊過程序列的自連接節點分別為2(3)、3(4)、296(10)和289(19);c1 中第三組合格汽車擰緊過程序列的自連接節點分別為1(3)、5(4)、238(10)和231(19);d1 中第四組合格汽車擰緊過程序列的自連接節點分別為2(3)、1(4)、229(10)和237(19);e1 中第五組合格汽車擰緊過程序列的自連接節點分別為4(3)、13(4)、232(10)和218(19)。在增強的狀態轉移網絡中,自連接節點也在圖3(a2-e2)中可觀察到,a2 中第一組合格汽車擰緊過程序列的自連接節點分別為3(3)和49(4);b2 中第二組合格汽車擰緊過程序列的自連接節點分別為2(3)和3(4);c2 中第三組合格汽車擰緊過程序列的自連接節點分別為1(3)和5(4);d2 中第四組合格汽車擰緊過程序列的自連接節點分別為2(3)和1(4);e2 中第五組合格汽車擰緊過程序列的自連接節點分別為4(3)和13(4)。在圖3(a1-e1)中,雖然不同合格汽車擰緊過程序列中的自連接節點對應于原始時間序列首次出現的不同位置,但自連接節點的對應狀態是相同的(自連接節點對應的括號外的數字是不同的,括號內的數字相同)。在增強狀態轉移網絡中,合格汽車擰緊過程序列的不同組之間的自連接節點數目也是相同的;在圖3(a2-e2)中,每個組的自連接節點數目減少到2 個。作為比較,本文提出的增強型重組狀態轉移網絡中不存在自連接節點,如圖3(a3-e3)所示。
此外,本文還研究了圖3(a2-e2)中增強狀態轉移網絡中自連接強度的值。具體地,對于合格汽車擰緊過程的第一組序列中的節點3(3)和49(4),狀態轉移網絡中的連接強度分別為3 240 和3 239;對于合格汽車擰緊過程的第二組序列中的節點2(3)和節點3(4),狀態轉移網絡中的連接強度分別為3 204和3 224;對于合格汽車擰緊過程的第三組序列中的節點1(3)和5(4),狀態轉移網絡中的連接強度分別為3 149 和3 119;對于合格汽車擰緊過程的第四組序列中的節點3(3)和49(4),狀態轉移網絡中的連接強度分別為3 204 和3 224;對于合格汽車擰緊過程的第五組序列中的節點4(3)和節點13(4),狀態轉移網絡中的連接強度分別為3 166 和3 165。
與每組合格汽車擰緊過程序列相反,在圖4 中的每個不合格汽車擰緊過程序列的狀態轉移網絡、增強狀態轉移網絡和增強重組狀態轉移網絡中均未觀察到自連接節點。這種自連接節點的差異表明合格汽車擰緊過程序列和不合格汽車擰緊過程序列之間的網絡拓撲結構不同,并且暗示合格汽車擰緊過程序列和不合格汽車擰緊過程序列之間的動態行為也不同。
由5 組合格汽車擰緊過程序列和隨機重組時間序列生成的每個節點的度,如圖5(a1)-(e1)所示;5 組合格汽車擰緊過程序列節點度與隨機重組時間序列節點度的比率,如圖5(a2)-(e2)所示。如果狀態轉移網絡中關鍵節點的節點度明顯大于無序狀態轉移網絡中關鍵節點的節點度,則該節點稱為模體,可以作為狀態轉移網絡的全局代表。根據模體的定義,可以找到5 組合格汽車擰緊過程序列的模體。第一組合格汽車擰緊過程序列的狀態轉移網絡中的模體1 和模體2,對應節點為3(3)和49(4);第二組合格汽車擰緊過程序列的狀態轉移網絡中的模體1 和模體2,對應的節點分別為狀態2(3)和狀態3(4);第三組合格汽車擰緊過程序列的狀態轉移網絡中的模體1 和模體2,對應的節點為1(3)和5(4);第四組合格汽車擰緊過程序列的狀態轉移網絡中的模體1 和模體2,對應節點分別為2(3)和1(4);第五組合格汽車擰緊過程序列的狀態轉移網絡中的模體1 和模體2,對應的節點為4(3)和13(4)。可見圖顯示5 組合格汽車擰緊過程序列對應的可見圖結構(3)和(4)為模體,度值最大。可見圖結構(3)和(4)在合格汽車擰緊過程序列中具有重要意義,如圖5(a2)-(e2)。
為了研究模體在合格汽車擰緊過程序列中是否隨機出現,提取了合格汽車擰緊過程序列中狀態3或狀態4 的位置,得到了對應的位置時間序列,采用去趨勢波動分析方法計算Hurst 指數H值。第一組合格汽車擰緊過程序列的模體1 和模體2 對應的H值分別為0.60 和0.57;第二組合格汽車擰緊過程序列的模體1 和模體2 對應的H值分別為0.60 和0.57;第三組合格汽車擰緊過程序列的模體1 和模體2 對應的H值分別為0.61 和0.57;第四組合格汽車擰緊過程序列的模體1 和模體2 對應的H值分別為0.60 和0.56;第五組合格汽車擰緊過程序列的模體1 和模體2 對應的H值分別為0.62 和0.56。五組合格汽車擰緊過程序列對應的模體的H值均在0.6 左右,說明模體不是隨機出現的。
本文通過可見圖方法將5 組合格汽車擰緊過程序列與5 組不合格汽車擰緊過程序列映射到狀態轉移網絡,探究了汽車擰緊過程的動態機制。經研究發現5 組合格汽車擰緊過程序列產生的狀態轉移網絡在網絡特性上趨于一致,并且5 組合格汽車擰緊過程序列具有相同的模體。而5 組不合格汽車擰緊過程序列產生的狀態轉移網絡在網絡特征上沒有相似性,也沒有模體的出現。
具體而言,(3)、(4)、(10)、(19)的自連接節點出現在5 組合格汽車擰緊過程序列的原始狀態網絡(圖3(a1)-(e1))中,并且節點(3)和(4)經Hurst指數驗證為5 組序列的模體。不合格汽車擰緊過程序列的原始狀態轉移網絡中沒有模體,這意味著5組不合格汽車擰緊過程序列在擰緊過程中表現出隨機性,序列之間沒有共同特征。為此,本文使用的狀態轉移網絡的方法有效的驗證了合格序列和不合格序列之間存在的差異。
實驗結果表明:在可見圖結構(3)和(4)中,5 組合格汽車擰緊過程序列中的出現最顯著,并且出現明顯的非偶然強自連接節點(3)和(4),這兩種狀態的標度指數均大于0.5,證明該時間序列具有長期記憶性,說明合格汽車擰緊過程序列具有長期記憶性。
由于合格汽車擰緊過程序列的分形性質,在未來的研究中,將進一步探索合格汽車擰緊過程序列在其他時間尺度上的運行規律,希望能揭示更深刻的時間序列運行規律。