汪永斌,譚獻海
(西南交通大學 信息科學與技術學院, 成都 611756)
不同于傳統(tǒng)的列車通信網(wǎng)絡,列車控制與服務網(wǎng)絡(TCSN,Traffic Control Service Network)在保證列車控制業(yè)務傳輸?shù)耐瑫r,充分考慮應用日益廣泛的旅客服務業(yè)務,實現(xiàn)列車控制與旅客服務業(yè)務流量一體化傳輸[1]。如果不對旅客服務流量進行監(jiān)管,大量突發(fā)旅客服務流量容易導致網(wǎng)絡擁塞,關鍵控制業(yè)務傳輸需求得不到有效保障,從而嚴重威脅列車運行安全。為此,對旅客服務流量特性的研究是實現(xiàn)有效監(jiān)管的前提條件。
2014 年,裴子秀等人利用網(wǎng)絡仿真軟件OPNET對列車控制業(yè)務流量進行仿真,分析列車控制業(yè)務的流量特性,發(fā)現(xiàn)大部分列車控制業(yè)務報文到達時間間隔和報文長度均為常量值,但未涉及對旅客服務業(yè)務流量特性的分析[1]。2018 年,趙晉南等人提出針對TCSN 的兩級令牌分配監(jiān)管算法,并使用Matlab對該算法進行仿真驗證,但其仿真結果缺乏說服力,主要原因在于仿真實驗停留在對旅客服務業(yè)務流量特性的傳統(tǒng)認知上,未對其流量特性進行全面細致的分析[2]。2018 年,劉力浩等人設計了五元組與DPI技術結合的TCSN 流量識別算法,對業(yè)務報文的五元組和載荷特征進行識別,但該識別方法依賴于對已知業(yè)務識別特征的預先分析,未考慮業(yè)務報文到達時間間隔變化規(guī)律等關鍵特征,對TCSN 業(yè)務流量的識別能力較為有限[3]。2019 年,張江楠等人分析即時通信業(yè)務的流量特征,重點分析QQ、微信、微博等應用報文的到達時間間隔,結果發(fā)現(xiàn)報文間隔時間分布均表現(xiàn)出明顯的重尾特性[4]。
現(xiàn)有針對旅客服務業(yè)務流量特性的研究或停留在傳統(tǒng)泊松過程的認知上,或局限于某種特殊應用。考慮到TCSN 應區(qū)分服務網(wǎng)絡以及旅客服務業(yè)務的特殊性,本文對TCSN 旅客服務業(yè)務進行分類,并在此基礎上確定各個業(yè)務類報文到達時間間隔的數(shù)學模型。
國際電信聯(lián)盟(ITU,International Telecommunication Union)在2002 年制定了因特網(wǎng)業(yè)務分類標準,但近年來互聯(lián)網(wǎng)業(yè)務發(fā)生了較大變化,該標準不完全適用于當前互聯(lián)網(wǎng)環(huán)境[5]。因此,本文采用華為QoS(Quality of Service)標準作為ITU 標準的補充,將TCSN 中常見旅客服務應用劃分為傳統(tǒng)互聯(lián)網(wǎng)應用、即時通信、實時音視頻、流媒體、P2P 5 個業(yè)務類別[6]。
復雜多變和易突發(fā)是旅客服務流量最顯著的特性,但是報文到達時間間隔和包長的變化規(guī)律是導致上述現(xiàn)象的根本原因[7]。為了實現(xiàn)針對不同旅客服務業(yè)務提供有區(qū)分的監(jiān)管服務,對報文到達時間間隔和包長變化規(guī)律的研究十分關鍵,本文重點研究旅客服務業(yè)務類報文到達時間間隔的變化規(guī)律。
隨著信息技術的快速發(fā)展,互聯(lián)網(wǎng)流量表現(xiàn)出不符合傳統(tǒng)泊松過程的自相似特性,而重尾特性是流量自相似的重要成因[7]。為此,選用指數(shù)分布、冪律(Power-law)分布、Pareto 分布、對數(shù)正態(tài)(Lognormal)分布、Weibull 分布5 種概率分布作為實驗分析模型[8]。
最小二乘法是一種優(yōu)化方法,通過最小化殘差平方和來尋找適合數(shù)據(jù)的最佳匹配函數(shù)及函數(shù)參數(shù)估計值[9]。本文使用最小二乘法,將旅客服務流量報文到達時間間隔與選用的概率分布模型進行擬合,根據(jù)擬合效果確定反映旅客服務報文到達時間間隔變化規(guī)律的最佳分布模型及其參數(shù)估計值。
可決系數(shù)R2是反映模型擬合優(yōu)度的重要統(tǒng)計量,均方根誤差(RMSE,Root Mean Square Error)是衡量估計值和觀測值偏差的統(tǒng)計量。R2最適合反映模型擬合程度,但易出現(xiàn)過擬合現(xiàn)象,導致模型泛化能力不強;RMSE 能夠在一定程度上降低過擬合風險,但對數(shù)值量較小的觀測值區(qū)分能力不強[4]。為此,綜合考慮R2和RMSE 的優(yōu)缺點,本文采用R2和RMSE 相結合的方法,對旅客服務業(yè)務流量到達時間間隔的擬合效果進行評價。
(1)構建旅客服務業(yè)務流量數(shù)據(jù)集,使用Python 工具包pandas 和numpy,完成實驗數(shù)據(jù)的解析和預處理;(2)使用工具包Scipy 生成旅客服務報文到達時間間隔的概率統(tǒng)計值,觀察傳統(tǒng)互聯(lián)網(wǎng)、即時通信、流媒體、實時音視頻、P2P 業(yè)務類報文到達時間間隔概率統(tǒng)計值的圖形分布,使用最小二乘法將報文到達時間間隔概率統(tǒng)計值與選用的概率分布模型進行擬合;(3)綜合考慮圖形擬合結果和擬合評價指標,確定反映各業(yè)務類報文到達時間間隔變化規(guī)律的最佳分布模型及參數(shù)。
考慮到列車旅客上網(wǎng)流量數(shù)據(jù)涉及用戶隱私,實際數(shù)據(jù)獲取較難,本文利用實驗室局域網(wǎng)模擬列車旅客上網(wǎng)環(huán)境,使用WireShark 收集8 人自2019 年9 月15 日9:30 到17:30 期間產生的所有流量數(shù)據(jù),旅客服務業(yè)務的流量數(shù)據(jù)來源見表1。

表1 旅客服務業(yè)務流量數(shù)據(jù)來源
本文收集實驗室模擬環(huán)境中8 h 的流量數(shù)據(jù),并將這些數(shù)據(jù)與UNB(University of New Brunswick)網(wǎng)絡安全實驗室開源數(shù)據(jù)集(ISCX-2017)進行整合[10],將整合獲得的流量數(shù)據(jù)集命名為TP-Traffic,作為本文研究的數(shù)據(jù)來源。
為研究旅客服務業(yè)務報文到達時間間隔的規(guī)律,需將獲取的報文到達時間間隔轉換為概率統(tǒng)計值。以傳統(tǒng)互聯(lián)網(wǎng)業(yè)務報文到達時間間隔為例,具體轉換過程為:將報文到達時間間隔從小到大進行排序,假設報文到達時間間隔最小值和最大值分別為t1和t2,將整個時間間隔區(qū)間t2-t1均分為n個子區(qū)間,每個子區(qū)間長度T=(t2-t1)/n,報文到達時間間隔落在第i個區(qū)間的概率值pi等于落在((i-1) ·T,i·T)之間的記錄數(shù)ni與整個區(qū)間總記錄數(shù)N的比值,即式(1):

本文將網(wǎng)頁瀏覽、文本文件傳輸、數(shù)據(jù)庫訪問、終端訪問、交互式游戲等網(wǎng)絡業(yè)務歸類為傳統(tǒng)互聯(lián)網(wǎng)業(yè)務,提取其報文到達時間間隔,按式(1)計算報文到達時間間隔落在每一個子區(qū)間的概率值;報文到達時間間隔與對應的概率值如圖1 所示,橫坐標為報文到達時間間隔(單位:s),縱坐標為橫坐標對應概率值的對數(shù)表示。由圖1 可知,傳統(tǒng)互聯(lián)網(wǎng)業(yè)務報文到達時間間隔表現(xiàn)出不同于傳統(tǒng)泊松過程的重尾特性。
互聯(lián)網(wǎng)業(yè)務報文到達時間間隔的統(tǒng)計值與概率分布模型的擬合曲線見圖2。其中,圖2a 是傳統(tǒng)互聯(lián)網(wǎng)業(yè)務報文到達時間間隔的完整擬合曲線;將圖

圖1 傳統(tǒng)互聯(lián)網(wǎng)業(yè)務的報文到達時間間隔分布
2a 中橫坐標區(qū)間[0, 0.6] 與縱坐標區(qū)間[0, 0.02]的區(qū)域放大,即得到圖2b,其橫坐標是傳統(tǒng)互聯(lián)網(wǎng)業(yè)務以秒為單位的報文到達時間間隔,縱坐標是橫坐標對應的概率值;其中,紫色虛線為指數(shù)分布擬合曲線,綠色虛線為Weibull 分布擬合曲線,藍色實線為對數(shù)正態(tài)分布擬合曲線,紅色實線為帕累托分布擬合曲線,黑色虛線為冪律分布擬合曲線,藍色星形為傳統(tǒng)互聯(lián)網(wǎng)業(yè)務報文到達時間間隔的概率值。

圖2 傳統(tǒng)互聯(lián)網(wǎng)業(yè)務的報文到達時間間隔擬合曲線
通過數(shù)據(jù)擬合實驗獲得的傳統(tǒng)互聯(lián)網(wǎng)業(yè)務報文到達時間間隔所對應的概率分布模型的擬合參數(shù)及評價指標見表2。結合圖2 和表2 可知,擬合效果最佳的是冪律分布,其擬合曲線經(jīng)過大部分實驗數(shù)據(jù)點,且其R2值最接近1,RMSE 最小。由此可證明,冪律分布是反映傳統(tǒng)互聯(lián)網(wǎng)業(yè)務報文到達時間間隔變化規(guī)律的最佳數(shù)學模型。

表2 傳統(tǒng)互聯(lián)網(wǎng)業(yè)務概率分布模型的擬合參數(shù)及評價指標
其它4 種業(yè)務類(即時通信、實時音視頻、流媒體、P2P)的實驗結果分析與傳統(tǒng)互聯(lián)網(wǎng)類似,在此不作贅述。5 種旅客服務業(yè)務類的報文到達時間間隔服從的概率分布模型及相應的參數(shù)見表3。

表3 旅客服務業(yè)務類報文到達時間間隔概率分布模型
根據(jù)列車旅客上網(wǎng)服務需求,對旅客服務業(yè)務進行分類,對各業(yè)務類的流量特征展開研究,重點研究各業(yè)務類報文到達時間間隔的變化規(guī)律;經(jīng)實驗發(fā)現(xiàn):指數(shù)分布不能有效刻畫旅客服務業(yè)務類到達時間間隔的變化規(guī)律,其概率密度函數(shù)具有明顯的重尾特性;采用5 類概率分布模型進行擬合實驗,對比分析實驗結果及評價指標,確定可反映各業(yè)務類報文到達時間間隔變化規(guī)律的最佳數(shù)學模型以及其參數(shù)。
今后可以根據(jù)新的應用場景,制定新的分類方案,研究各業(yè)務類報文到達時間間隔的變化規(guī)律。