李菁菁, 楊校林, 李俊, 何群輝
1.中國科學院計算機網絡信息中心,北京 100083
2.中國科學院大學,北京 100049
當今科研活動越來越依賴數據、計算和網絡傳輸的一體化深度融合支撐。科研活動對數據傳輸服務的質量穩定性要求越來越高。例如在天文和空間觀測領域,VLBI(甚長基線干涉測量)技術能在具備極高角分辨率和測量精度的要求下將分布在相距較遠的射電望遠鏡通過廣域鏈路進行實時地面組網聯測。這種精密實時聯測能力在天體觀測、大地測量、深空探索等工程領域有著重要作用[1]。以e-VLBI 為代表的一類科學應用對數據傳輸的抖動較為敏感,因此對廣域網絡鏈路流量實時傳輸的穩定性提出了較為嚴苛的要求。如果能在網絡運行管理中對重點鏈路的局部流量尖峰或傳輸異常進行快速監測預警,則能輔助科研專網的運行管理者更好的保障此類鏈路的穩定運行。
當前科研網絡流量傳輸監測的方法大部分是基于固定閾值。警戒閾值的設置一般基于當前線路傳輸能力的資源消耗情況,如果當前帶寬消耗低于預留警戒線(比如20%),則監測預警模型向網絡管理人員發出預警。這種監測預警方法在普通公眾業務網絡傳輸中可以及時監測到鏈路帶寬耗盡導致的傳輸擁塞問題,但是在鏈路流量平均負載不高的情況下,則很難快速發現鏈路流量局部尖峰或傳輸異常。此外,固定閾值法的設定是否合理也較大程度影響網絡流量異常的及時發現。如果閾值設定過高,則會導致更高的漏警率,閾值設定過低,則會導致誤報率過高。同時,因為廣域網絡鏈路因為匯集了較多的節點的流入和流出,因此其鏈路流量尺度特性比局域網絡鏈路更具多樣性,如何快速在多種細粒度流量特征中識別出傳輸異常成為網絡管理人員亟需解決的問題。
為了解決科研專網中重點鏈路的局部流量尖峰和傳輸異常的快速監測預警問題,本文基于局部離群點檢測方法設計了一種新的鏈路流量監測預警模型,面向科研專網上的重點應用需求,快速發現在網鏈路流量中的細粒度的流量尖峰或傳輸異常信息并給出預警。
固定閾值預警方法是根據業務類型和線路負載情況設定固定的預警閾值,通過判定當前監測到的鏈路流量觀測值是否超過設定閾值從而觸發線路資源耗盡的預警。而實際業務鏈路中的流量是根據不同時間段而不斷波動的,固定閾值法無法具備監測重點鏈路局部流量尖峰或局部傳輸異常的能力,必須引入動態自適應的局部流量監測預警機制捕捉細粒度的流量尖峰或局部傳輸異常。廣域網鏈路匯聚流量是由途徑節點匯入的大量細分傳輸流量組成,將流量數據按一定的映射關系轉換成一定形式的數據點的集合,則根據數據流的行為特征來看,大量細分特征流量所對應的數據點應為正常數據點,而局部流量尖峰或局部傳輸異常所代表的數據點在特征分類中應為偏離數據點。根據連續隨機分布原理,匯聚流量的數據點分布應符合正態分布,這些數據集中大部分數據點應為正常數據點,則偏離大部分數據點的個別數據點則是偏離數據點,偏離度較多的數據點一般并非因為隨機因素產生[2]。因此,通過在給定規模的數據集中快速找出這些偏離數據點,即可通過數據點對應的細分流量,將其快速判定為鏈路匯聚流量中的局部尖峰或局部傳輸異常,而不受當前流量占鏈路傳輸負載能力的比例影響,解決了固定閾值預警方法的缺陷。
在中國,幾乎所有的工業互聯網平臺業務都還沒有完全進入到良好的盈利階段,都還需要依靠本公司其他業務補貼。大家都在爭取活久,因為唯有活下去才能有一絲希望。大家都在搶客戶,都在花錢、燒錢、虧錢過日子,盈利是暫時不要去想了。
k-近鄰是根據樣本集中數據對象之間的距離排序進而選取與當前數據樣本距離最小的k個數據對象。反向k-近鄰是根據k-近鄰來定義的,例如圖2 示例,k為3,數據樣本p1的KNN 為{p2,p3,p5},數據樣本p2的KNN 為{p1,p3,p5},數據樣本p3的KNN 為{p1,p2,p5},數據樣本p4的KNN 為{p2,p5,p6},數據樣本p5的KNN 為{p2,p3,p6},數據樣本p6的KNN 為{p3,p5,p7},數據樣本p7的KNN 為{p3,p5,p6},因此,數據樣本p1的反向KNN(RKNN)為{p2,p3},數據樣本p2的RKNN為{p1,p3,p4,p5},數據樣本p3的RKNN 為{p1,p2,p5,p6,p7},數據樣本p4的RKNN 為φ,數據樣本p5的RKNN 為{p1,p2,p3,p4,p6,p7},數據樣本p6的RKNN 為{p4,p5},數據樣本p7的RKNN為{p6}。由此可見,k-近鄰和反向k-近鄰并不是對稱的。
LOF 算法時間復雜度過高,且計算對象的局部異常因子時只考慮了k-近鄰對象,當對象分布存在兩個及以上簇時,LOF 算法容易將處于簇邊緣的正常對象誤判成異常對象。如圖1 中的兩個密度不同的C1 簇和C2 簇,p點是處于C2 簇中的正常對象,p點是q點的k-近鄰,q 點是p 點的反向k-近鄰,但是按照LOF 算法的計算方式極易誤判p點為異常對象。

圖1 局部離群對象示意圖Fig.1 Schematic diagram of local outliers
針對以上SOC估算的影響因素,本課題組進行了鋰離子電池SOC估算的相應實驗。實驗以兩組鋰離子電池組為研究對象,每組電池組用3片鋰離子電池串聯而成,單體電池型號為INCMP58145155N-I,額定電壓為3.7 V,額定容量10 Ah。具體的實驗過程為將兩組電池組每天先進行從10%~70%的深度放電,記錄回跳電壓,并擱置2 h,待電壓恢復后,再進行 0.2 C 完全放電。每當放電深度設置的一個實驗周期結束,改變放電倍率重復實驗。并且分別置兩組電池于高溫和低溫環境下,以觀測環境溫度對電池剩余容量的影響。實驗采用蓄電池綜合參數自動測試設備,型號為BTS-M 300 A/12 V。

定義2 (局部質心因子 local centroid factor)對象p的局部質心因子表征該對象的局部正常程度:
其中點狀空間主要指以散點形式布置于濱水活動場所的空間,如船艇、建筑、橋梁和水門關等;線狀空間主要指連接點狀和面狀空間的廊道,其本身也作為活動場所,如水系和濱水道路等;面狀空間主要指有一定的面積和開敞性的空間,如碼頭和水上聚落等(圖4~6,表3)。

對象p的局部異常因子采用如下公式:
定義3(局部異常因子 local outlier factor):
研究組:組內退行性膝關節骨性關節炎患者35例中有男性25例,女性10例;年齡60~70歲,平均(65.33±2.05)歲。

其中:
當前,隨著企業的發展,項目全過程的預算在房產公司中的應用越來越多,應用十分普遍,通過房產公司的不斷總結經驗,累積與沉淀,已經探索了一條以房產項目費用為中心,對資金流動的管控為主要措施的全過程預算形式。即項目的成本費用是主要的管控目標,成本費用的支出計劃為基點,對成本的進出作為重點管控為主要措施,費用的考核評價為考核標準的項目管理過程與成本費用管控方式。
定義1(局部密度 local outlier density):對象p的局部密度由兩部分組成,一部分是其k-鄰近距離的倒數,第二部分是底數為e,指數為負的k-鄰近距離的指數:

離群點的通常定義是指在一個時間序列中,遠離序列一般水平的極大值或者極小值。離群點檢測是一種在數據挖掘領域廣泛使用的重要技術,可以在較大規模的復雜數據集中剔除異常噪音,被廣泛應用在網絡監控、故障檢測、數據清洗、垃圾過濾等領域。當前離群點檢測的方法主要分為兩類,第一類是傳統類型,包括基于統計模型、基于距離模型、基于密度模型、基于偏離模型[3];第二類一般通過人工智能和模式識別進行檢測[4],主要包括基于模糊粗糙集[5]和自組織映射等[6]。基于統計模型的方法對數據集全貌特征掌握度要求較高,基于距離模型的無法聚焦局部突變,Breunig 等人提出了基于局部密度的離群點檢測方法LOF[7],但此方法對分布在群簇邊緣的數據點存在一定的誤判。Jin W.等人提出了INFLO[8]算法,通過在計算局部異常因子的同時考慮對象的k-近鄰和反向k-近鄰解決誤判問題,但因為需要頻繁查找對象的近鄰導致算法時間復雜度較高。

圖2 數據樣本的k-近鄰和反向k-近鄰Fig.2 K-nearest neighbor and reverse k-nearest neighbor of data
本文實驗驗證數據集采用的是中國科技網(CSTNet)全國骨干網真實生產環境中采集的傳輸設備真實運行狀態數據,每條數據均根據運行生產工單系統的記錄分為正常數據點和有局部異常的數據點,動態對比基線使用AE-棧式混合LSTM 根據歷史數據輸入從而輸出相應的判定基準值而得到。
算法偽代碼如下:

Algorithm In put: k, D, a threshold T Output: label of p in D Method: 1.FOR each p in D DO 2.Get its inf based on definition 2;

3.IF inf > 1 THEN 4.ELLabel p as a normal point;5.SE 6.N = getRKNN(p);7.IF N > = avg (RKNN) THEN 8.Get its lof based on definition 3;9.// not consider its RNN;10.IF lof > = T THEN 11.label p as an outlier;12.ELSE label p as a normal point;13.ELSE 14.Get its lof based on definition 3;15.// must consider its RNN;16.IF lof >= T THEN 17.label p as an outlier;18.ELSE label p as a normal point;19.ENDFOR 20.Return (p, lof_score, label of p in D)
固定閾值法是設定固定的基線,通過對比當前觀測值是否超出固定基線的大小進行判定的,只能判斷鏈路帶寬資源剩余量是否逼近警戒閾值[10]。因為科研觀測對數據傳輸穩定性的嚴苛要求,需要監測的目的并非是警戒帶寬資源剩余量,而是當前鏈路流量的局部特征是否存在突變或者異常,此時檢測判定所需比對的基線應是隨著時間序列而動態變化的動態檢測基線。動態檢測基線[11]一般是通過統計方法例如計算不同時序下數據集合的局部質心,也可以是通過對歷史對照數據的機器學習模型輸出結果檢測基線,然后通過滑動窗口模型快速計算和比對當前觀測值與動態基線從而實現對動態流量的局部細粒度實時監測。
本文通過建立滑動時間窗口模型進行鏈路觀測數據與動態基線的計算和比對處理。滑動時間窗口模型具體如圖3 所示。滑動窗口的設計步長為1,窗口的大小為288。每個步長對應5 分鐘的觀測值,288 個步長對應1440 分鐘即窗口大小對應為1 個自然日的時間區域。窗口在滑動時,窗口大小不變,同時隨著窗口的滑動,在窗口覆蓋的時間區域內不斷剔除1 個步長的舊數據并添加這個滑入窗口內1個步長的新數據。根據改進局部異常點檢測算法在指定時間窗口內對數據進行計算比對并判斷是否為離群點,若該時刻觀測值與動態判定基線的計算結果觸發告警,則輸出異常時刻,否則為正常時刻,然后繼續將窗口滑動下一個步長。

圖3 時間滑動窗口Fig.3 Time sliding window
(4)構造標志:區域內礦床分布在火山構造內或附近,并受斷裂構造控制,斷裂構造帶既是成礦熱液的運移通道,也是控礦和容礦場所,特別是構造復合地段,更是成礦的有利部位,因此,火山構造和斷裂可視為本區金礦體的良好間接找礦標志。
step 1:獲取當前時間窗口WT 的網絡流量觀測值和動態基線當前值,計算時間窗口內鏈路網絡流量殘差序列,并對窗口內的殘差序列做z-score 變換。
step 2:根據改進局部異常點算法計算當前時間時刻T 的網絡流量是否符合離群判定,若符合,則觸發異常告警。
step 3:窗口向前滑動,進入下一時刻,進行step 1。
整個數據處理過程的基本步驟如下:
改進的局部離群點算法的流程為:首先根據定義2 判定數據對象的局部質心因子,如果該數據對象的局部質心因子大于等于1,說明它是其k-鄰域的局部質心,其k-鄰域的所有數據對象可以以它為中心點形成一個點簇,它位于該簇數據點最密集的地方,所以它一定不是局部異常點,如果數據對象的局部質心因子小于1,則不能認定該數據對象是局部正常點,需要進一步判定;如果數據對象的反向k-近鄰對象個數大于等于全局反向k近鄰對象個數的均值,在計算局部異常因子時,不需要考慮數據對象的反向k-近鄰,這是因為在多簇數據分布的環境下,大部分數據分布在簇內部,只有少量的數據分布在簇的邊緣,計算簇內部數據對象的局部異常因子時不需要考慮其反向k-近鄰,而簇邊緣數據對象的反向k-近鄰一定比簇內部的反向k-近鄰對象數量少;如果數據對象的反向k-近鄰個數小于全局對象反向k-近鄰數目均值,則必須同時考慮該數據對象的k-近鄰對象和反向k-近鄰對象。這種離群點快速監測方法可以快速對離群點進行判定,能在多簇環境下保持判定精度,同時提升了識別效率[9]。
圖4 為近一年內隨機挑選的48 小時的網絡流量觀測值和動態對比基線之間的殘差示意圖,圖5 為隨機挑選的兩天內的網絡流量觀測值和網絡流量預測值之間的殘差直方圖。通過兩圖可得出網絡流量殘差沒有出現零均值、同方差的情況。
本文通過室內試驗對軟粘土固結特性進行分析得出地基土在不同固結荷載下剪切模量與時間的關系。在此基礎上考慮時間因素對剪切模量的影響,建立摩阻力與時間、剪切模量相關的微分方程。

圖4 流量殘差波動圖Fig.4 Traffic residual fluctuation graph

圖5 流量殘差頻數分布直方圖Fig.5 Histogram of flow residual frequency distribution
第一階段需要通過兩組實驗確定離群點動態基線判定的最佳閾值h,當某時刻觀測值的離群判定超過h,則觸發局部異常告警。兩組實驗的每組訓練集數據為10 天內產生的共2,880 條的流量歷史數值,即2,880 條數據。第一組訓練集共有8 個告警時刻點,第二組訓練集共有14 個告警時刻點。
圖6 和圖7 為兩組實驗在不同閾值h下, 模型的精確率、召回率以及F1-score 的變化。根據這兩組實驗結果可以得出,當最佳閾值h設置為1.2 時,兩組實驗的精確率和召回率均可達到最高的調和值。
通過實驗和訪談,實驗對象認為以情感態度價值觀為主的課程在一定程度上雖然可以緩解學習障礙,但不能做到面面俱到。學習本身是一個復雜的過程,學習者的需求也是因人而異的,在面對技能的學習上,生動的語言描述和和情感價值觀的講授方法并不是特別有效,而更加有效的課程設計策略還有待研究。據此,實驗過后,繼續尋找文獻,發現只有黃璐[19]為學者們提供了一些設計策略(見表2)可供參考。

圖6 第一組實驗的模型評價指標變化Fig.6 Changes in model evaluation indicators for the first set of experiments

圖7 第二組實驗的模型評價指標變化Fig.7 Changes in model evaluation indicators for the second set of experiments
確定最佳閾值h 之后,在測試集上驗證最佳閾值h 的效果。當測試集設定為5 天內包含5 個異常離群點位置的1440 條流量數據,測試結果如表1 所示,其中真陽性個數為4,假陽性個數2,假陰性個數為1。圖8 為流量殘差示意圖。圖8 中的A 時刻對應的時刻即是離群判定點,對應觸發因子為1.25大于觸發閾值1.2,同理,B 點和C 點的觸發因子分別為1.23 和1.4,在對應的時間窗口內也會觸發,因此本模型在h=1.2 的條件下可以將絕大部分細粒度的流量正確識別并觸發告警。

圖8 網絡流量殘差示意圖Fig.8 Schematic diagram of network traffic residuals

表1 模型實驗驗證結果Table 1 Model experiment verification results
基于最佳閾值h=1.2,將此模型置于骨干網絡生產環境中進行實網驗證效果,驗證結果如圖9 所示。在上海天文臺利用中國科技網京滬10Gb 長途干線進行VLBI 聯測時,長途干線鏈路流量使用傳統方法監測預警的固定閾值一般設定為圖中的8Gb 紅色虛線,在5 天的觀測周期中,8Gb 的固定閾值紅線無一次命中觸發,而使用新型監測模型能快速命中觸發5次局部細粒度流量突變預警。在中國科技網生產環境中的實網驗證表明,預警觸發點與實際生產工單數據中的異常記錄點全部吻合,具備工程應用的可行性。

圖9 基于固定閾值的網絡流量預警Fig.9 Network traffic warning based on fixed threshold
隨著網絡規模的不斷擴大,網絡流量的組成類型越來越復雜,聯合精密觀測等科研應用對科研專網的傳輸穩定性要求越來越高,這對網絡傳輸質量保障工作帶來了極大的挑戰。本文提出的基于快速離群點檢測算法和滑動窗口模型的局部細粒度流量異常預警模型已通過實網驗證其有效性。在精密觀測的網絡傳輸保障中,能準確快速地檢測鏈路流量的細粒度異常只是相關工作的第一步,隨著人工智能技術與軟件定義網絡技術的結合,SDN 智能路由技術和機器學習流量工程研究的開展,高質量的廣域網數據傳輸保障、網絡安全預警預測等新技術的不斷涌現,鏈路的細粒度精密測量和精確預警輔以更敏捷的資源調度管理技術和更完善的細粒度流量智能分類分發能力,就能不斷提高大規模廣域網絡的實時運行服務能力和傳輸質量保障水平,為科研專網輔助精密科學觀測工作提供更強的能力支撐。
利益沖突聲明
所有作者聲明不存在利益沖突關系。