劉文海,李再幃,何越磊
(上海工程技術大學城市軌道交通學院,上海 201620)
國內外學者對軌道不平順的發展趨勢進行了各類建模研究。如:學者使用多元統計方法構建了軌道不平順與軌道結構等因素相關的預測模型[1-2];建立高低標準差隨時間變化的線性軌道不平順預測模型[3];使用灰色理論對軌道不平順的指標結構進行預測[4];建立運量和高低不平順的非線性預測模型[5]。以上研究均是通過建立軌道不平順與運行時間、通過總重等變量之間確定的函數關系來預測軌道不平順的發展趨勢,未能考慮軌道不平順發展過程中的固有不確定性。
學者使用伽馬過程構建軌道不平順的長期劣化模型[6];使用貝葉斯框架來更新軌道不平順發展過程中的不確定性[7];使用層次貝葉斯模型作為軌道不平順的預測模型[8];利用馬爾可夫模型研究適用于不同軌道區段的資產管理策略[9];利用數理統計原理對軌道不平順的概率分布進行分析及預測[10]。上述研究通過將軌道不平順的劣化過程視為一個隨機過程來考慮軌道不平順發展過程中的固有不確定性,但未能將專家的經驗信息納入考慮。
學者使用SVM-MC 方法對軌道的高低不平順建立了預測模型[11];使用BP 神經網絡和其他各類機器學習算法相結合對軌道不平順進行預測[12-15]。上述研究主要通過使用各種機器學習算法,利用軌道幾何形位的檢測數據訓練模型來預測軌道不平順的發展,這類模型通常需要大量的歷史數據來訓練模型,在缺乏歷史數據時預測效果不佳。本文提出了一種能夠將歷史數據與專家經驗信息綜合考慮的貝葉斯方法來預測軌道不平順的發展狀況。
短期內有砟軌道不平順的發展趨勢通常呈現出線性特征,適用于線性回歸模型。考慮到貝葉斯線性回歸模型可以將樣本信息,先驗信息全部納入考慮。所以,本文選擇貝葉斯線性回歸模型作為預測模型。同時,為充分考慮不同軌道單元區段之間劣化的差異性,將某有砟高速鐵路線路劃分為若干個等長的200 m 軌道單元區段,并將各軌道單元區段之間的劣化過程看作是相互獨立的過程[16-17],根據每個軌道單元區段獨有的劣化規律建立貝葉斯線性回歸模型。對于每一個軌道單元區段,模型如下
式中:is,rs,為未知參數,is為軌道單元區段s 的軌道初始質量,即軌道在搗固過后第一次軌道檢測的TQI(7 項標準差的和)幅值;rs表示軌道單元區段s 的軌道劣化率,用來衡量兩次搗固維修之間軌道單元區段的劣化速率;εs為隨機誤差項,即不包含在模型中的解釋變量和其他一些隨機因素對被解釋變量的總影響項;ys=為軌道單元區段s 在不同檢測時刻j 的已知歷史軌檢數據樣本(j=1,2,…,n),即200 m 軌道單元區段7 項軌道幾何不平順幅值標準差之和,單位為mm;xs=(,…,)為軌道單元區段s 在不同檢測時刻的搗固時間間隔,即距上次搗固維修的劣化時間,單位為月。
本文針對某有砟高速鐵路的基礎設施和運行條件,編制了關于線路劣化特征的調查問卷,進行能夠全面反映專家專業知識和判斷的訪談。專家需要根據給定的線路狀況使用變分度法來估計軌道在特定的搗固周期內搗固過后的初始質量值(is)、軌道劣化率(rs)和誤差項(εs)的主觀概率分布。由于不同的線路維修情況和不同的線路特征如:病害情況、軌下基礎、所處線型、線路坡度、線路所處地質條件等,會對軌道搗固后的初始質量和劣化率有不同程度的影響,這直接影響專家對軌道初始質量和劣化率的判斷。為了明確線路狀況,需要對所研究線路的每個軌道單元區段的維修狀況,線路特征進行實地調查和訪問。訪談前,專家已被告知以下問題:①研究目的;②每種情況下的鐵路數據是如何測量的,記錄數據使用的車輛和測量系統是哪一種;③軌道檢測頻率;④如何以及出于什么原因使用從他們的答案中獲得的數據。
根據前文所述,該貝葉斯模型的未知參數為is,rs,,模型求解就是要根據給定的歷史檢測數據ys=()和xs=()來求解未知參數并根據給定的搗固時間間隔X*來預測軌道單元區段的TQI 幅值Y*。求解貝葉斯模型的常用方法有:使用共軛先驗的解析解和使用MCMC 方法的數值模擬解。因為解析解獲得的結果為單一確定值,無法體現軌道劣化過程中的固有不確定性,而數值模擬解得到的是一個概率分布。故本文選擇MCMC中的吉布斯(Gibbs)采樣算法來求解模型參數,Gibbs采樣算法需要得到各參數的條件分布。設模型各參數的先驗分布為:is~N(μa,),rs~N(μb,),~IG(α,β)。其中:N 為正態分布;IG 為逆伽馬分布。由貝葉斯公式,is的條件后驗分布可表示如下
其中:P(ys|xs,is,rs,)為似然函數,也稱之為證據函數,包含了樣本信息;P(is)為模型參數的先驗分布,表示在獲取數據之前對模型參數的認識,包含了專家的經驗信息,即后驗分布綜合了樣本數據和專家的經驗信息。由式(2)可得is的條件分布為
同理可得rs,的條件分布為
得到模型各參數的條件分布后即可用Gibbs 采樣對模型參數進行估計,Gibbs 采樣的步驟如下:
1)輸入所有未知參數的條件概率分布,即式(3)~式(5);
2)設定狀態轉移燃燒步數n1,需要的樣本個數n2;
7)重復4)~6)步n1+n2-1 次。
為準確預測某高速鐵路線路有砟軌道不平順的發展趨勢,這里使用了某有砟高鐵線路兩次搗固維修操作間2020 年11 月至2021 年5 月78 km范圍內的軌檢車檢測數據,并得到了相應的線路維修操作記錄。由于線路的各種維修操作會對軌道不平順的預測結果有較大影響[18]。因此,通過查閱相關維修操作記錄,確保所選的線路區段在檢測時間范圍內進行的維修作業量為最少。把經過預處理的軌檢數據按200 m 一個區段計算7 項軌道幾何不平順幅值標準差之和,得到390 個200 m 軌道單元區段的TQI 值。為方便表述,依據里程順序將各軌道單元區段依次編號為:1~390。需說明的是:所選有砟高鐵線路的設計時速為250 km/h,測試車輛為高速綜合檢測列車,采樣間隔為0.25 m,軌道檢測頻率為每月一次,所得樣本數據如圖1 所示。

圖1 歷史數據樣本Fig.1 Historical data samples
利用所收集的軌檢數據中前6 個月的軌道檢測數據作為訓練數據來擬合模型,利用第7 個月的軌道檢測數據做測試數據用來做預測分析,因為區段數過多,而每個軌道單元區段都有自己的先驗和后驗參數,限于篇幅不能全部展示,先選取4 個典型的軌道單元區段為例說明所提預測方法的流程及預測結果,隨后展示全部390 個軌道單元區段的預測結果。
2.2.1 先驗參數設置
根據上文所述,貝葉斯線性回歸模型中使用的先驗參數通過調查問卷獲得,為消除單個專家的主觀影響,問卷被發給126 名在鐵路軌道養護維修方面擁有豐富經驗的專家管理人員和工程師填寫,并對問卷結果進行未加權平均用于推斷先驗參數的分布情況。值得注意的是,原則上調查的專家數量越多,最后數據越具有權威性和客觀性,但實際操作過程中調查專家數量在50 人以上時就可以有較好的預測效果,若少數專家就能準確預測趨勢,那么即使調查人數較少最后也能準確預測,考慮到專家有時可能會有估計錯誤,故多調查一些專家也能減少少數錯誤估計對結果的影響。根據調查問卷及訪談的結果,先驗參數的設置如表1 所示,其中CI95 為95%的置信區間。

表1 先驗參數匯總Tab.1 Prior summary of model parameters
2.2.2 模型求解
按照上文所述采樣步驟,先任意取模型未知參數的初始值,并使用Gibbs 算法進行采樣近似計算模型未知參數的后驗分布,這一過程會針對采樣的目標分布構造一條馬爾科夫鏈,然后從任意初始狀態出發沿著馬爾科夫鏈進行狀態轉移,經過一定步數的轉移過程后,模型參數會逐漸趨近于某一固定值,并在之后的采樣過程中圍繞此固定值上下浮動,此時說明采樣結果收斂。故在采樣收斂前采樣出的一部分樣本不是平穩分布的馬爾可夫鏈所產生的,這一部分采樣值一般會舍棄不用,在Gibbs 采樣算法中可以通過設置燃燒步數來設定舍棄的樣本數量,如果設置燃燒步數過大會導致采樣計算時間增加,燃燒步數過小會導致使用的樣本不是來自平穩分布的樣本,經過大量試算,本文設置的燃燒步數為20 000,生成所需樣本數為20 000,并以生成正式樣本的均值和方差作為參數后驗分布的均值和方差。最后計算出模型參數的后驗分布圖如圖2~圖5 所示。

圖2 軌道單元區段273 模型各參考數的先驗后驗對比Fig.2 Comparison of prior and posterior distribution for model parameters in section No.273

圖3 軌道單元區段275 模型各參考數的先驗后驗對比Fig.3 Comparison of prior and posterior distribution for model parameters in section No.275

圖4 軌道單元區段279 模型各參考數的先驗后驗對比Fig.4 Comparison of prior and posterior distribution for model parameters in section No.279

圖5 軌道單元區段280 模型各參數的先驗后驗分布對比Fig.5 Comparison of prior and posterior distributions for model parameters in Section No.280
圖2~圖5 黑色實線為模型參數的后驗分布曲線,紅色虛線代表模型參數的先驗分布曲線,橫坐標為參數的可能取值,縱坐標為頻數。在貝葉斯線性回歸模型中,模型里的參數被視為隨機變量而不是確定的值。這些分布圖顯示了模型參數的完整特征,包括:對稱性、中心趨勢、離散度和特定值的概率。值得注意的是,該方法是可更新的,在給定新的歷史樣本數據集時,可能會得出具有不同結果的新模型,從圖中先驗分布和后驗分布的對比也可以看出,該模型會根據給定的歷史數據對專家的先驗判斷進行修正而得到綜合了樣本數據和先驗信息的后驗分布,這種方式也比較符合人類對于世界的認知過程,即通過不斷獲取新的樣本來更新對固有知識的認知。
得到模型參數的后驗分布后便可對軌道單元區段軌道不平順的劣化過程進行線性擬合。圖6 所示為4 個不同的軌道單元區段的模型擬合結果。

圖6 模型擬合結果Fig.6 Model fitting results
2.2.3 模型預測
確定了模型的后驗分布參數后可根據式(6)來預測第7 個月TQI 幅值,上述4 個軌道單元區段的TQI 幅值預測結果如圖7 所示,圖中預測值取概率分布的均值作為預測值。從圖7 可以看出預測結果與實際值較為接近,滿足精度要求,且不同于傳統預測方法所得到的具體預測值,該方法得到的結果是一個概率分布,從概率分布中可以體現出軌道不平順發展的固有不確定性,預測結果的概率分布覆蓋范圍越寬說明該結果的不確定越大,反之不確定越小預測越準確,可信度越高。為充分說明本文所提方法的有效性。圖8 為390個軌道單元區段的預測結果,表2 為預測結果誤差分析。

表2 預測結果誤差Tab.2 Error of prediction results

圖8 390 個軌道單元區段的TQI 幅值預測結果Fig.8 TQI amplitude prediction results of 390 unit sections
選擇區段編號為280、286 的2 個典型軌道單元區段為例,僅使用前3 個月的歷史數據分別用貝葉斯線性回歸模型和傳統線性回歸模型對后幾個月的軌道不平順發展趨勢進行預測分析,其中傳統線性回歸模型的使用方法與文獻[16]的方法相同,預測結果如圖9 所示。

圖9 不同方法的預測結果對比Fig.9 Comparison of prediction results for different methods
由圖9 可知,在僅使用3 個月的歷史數據進行預測時,因為傳統的線性回歸方法僅能通過歷史數據對模型進行擬合,而僅憑3 個月的歷史數據并不總是能真實反映軌道不平順的發展趨勢,在小數據量情況下的擬合結果偏離了軌道單元區段本身的軌道不平順發展趨勢。相比之下,貝葉斯方法可以將專家對該軌道單元區段劣化規律的先驗知識與樣本數據進行綜合考慮,故預測出的軌道單元區段的軌道不平順發展趨勢與實際數據更加吻合。故在缺乏歷史數據時,使用貝葉斯方法可以避免被信息不充分的少量歷史數據樣本給誤導,從而提高在缺乏歷史數據時對軌道不平順發展趨勢的預測精度。
為進一步說明在缺乏歷史數據的情況下貝葉斯線性回歸模型較傳統線性回歸模型有更高的預測精度,仍然使用上述兩種方法分別對所選390 個軌道單元區段的前3 個月的歷史數據進行模型擬合并預測此390 個軌道單元區段第4 個月的TQI幅值。模型預測結果誤差分析如表3 所示,模型預測結果如圖10 所示。

表3 缺乏歷史數據時預測結果精度分析Tab.3 Accuracy analysis of prediction results in the absence of historical data

圖10 缺乏歷史數據時不同方法的預測結果Fig.10 Prediction results of different methods in the absence of historical data
為探明先驗對后驗有何影響,本節選擇了對預測結果影響較大的軌道初始質量和劣化率參數進行分析。以區段編號為273 的軌道單元區段為例,在只有3 個月歷史數據和6 個月歷史數據的情況下分別設置了3 組不同的先驗參數。
先驗方案1 為能夠準確預測不平順發展趨勢的參數設置,先驗方案2 將軌道初始質量參數的均值進行了偏大設置,先驗方案3 將劣化率參數的均值進行了偏小設置。先驗參數設置和后驗參數計算結果如表4 所示。

表4 設置不同先驗時的后驗計算結果Tab.4 Posteriori calculation results of different prior parameters
由表4 中后驗計算結果可知,在只使用3 個月歷史數據時,后驗的計算結果極為接近先驗,即在缺乏歷史數據時,先驗信息起主要作用。在歷史數據的使用量增加到6 個月時先驗對后驗的影響減小。即新增的歷史數據對偏大或偏小的先驗信息進行了糾正,即若專家對某參數估計結果偏大,則歷史數據會對后驗修正,使后驗結果稍小于先驗,結果最終顯示為先驗信息和歷史數據的綜合結果。這說明,在缺乏歷史數據時先驗信息對結果的影響較大,錯誤的先驗信息可能會導致錯誤的預測結果。
1)貝葉斯線性回歸模型可以準確預測有砟軌道不平順的發展趨勢。
2)貝葉斯線性回歸模型可以將專家對于各種軌道條件狀態下劣化的經驗信息融入到模型中去。在歷史數據較少時,結合專家的經驗信息,模型的預測精度比傳統線性回歸模型更高。
3)由于該模型本質上是線性回歸模型,對于線路的劣化符合線性發展規律的區段預測效果較好,對于頻繁維修的線路,TQI 幅值變化無規律的區段預測效果不理想。