近年來,機器學習算法發展日新月異,逐漸滲透到各行業。本文就機器學習算法在涵洞狀態預測中的具體應用展開系統性研究,包括應用現狀、算法選擇、模型指標以及存在問題等內容,以期對機器學習算法在涵洞研究領域的進一步發展和機器學習的進一步應用有所幫助。
一、機器學習算法在涵洞狀態預測的應用現狀
(一)算法選擇
國內涵洞損傷與病害研究涵蓋涵洞病害特征、成因及防治、穩定狀態、裂縫成因、受力變形特征及洞體淤堵檢測等。目前已采用支持向量機(SVM)算法預測公路涵洞震害,以地震烈度、場地類別、涵洞型式、洞口構造、跨徑及長度等六因素為震害因子,預測準確率超70%,表現優異。SVM算法在處理高維特征和非線性問題方面具有優勢,但在處理多分類問題對涵洞震害影響方面存在挑戰。在實際應用中,需要考慮建筑材料和山體滑坡等因素調整參數設置。
在國外,使用決策樹(DT)算法對約10萬個公路涵洞的使用狀態進行預測,結果顯示模型準確率達80%,而且通過使用該方法,涵洞維護的成本可降低約44%,DT算法簡單直觀、無需預處理、穩健性高,但不足是對樣本變動敏感,對于涵洞可能遭受不同的自然和/或人為極端事件(如百年一遇的洪水、超載卡車駛過、未經授權向附近溝渠傾倒廢物等)未納入考慮范圍。根據Adaboost算法對得克薩斯州10000座橋梁的預測研究顯示,ROC曲線面積在0.8以上,但此算法易出現過擬合情況。同時,相關研究分析對比了隨機森林(RF)、決策樹(DT)、支持向量機(SVM)、K近鄰算法(KNN)和人工神經網絡(ANN)等算法在涵洞狀態預測中的表現,對2555個涵洞的分析結果顯示RF準確率最高,為82%。
目前,健康監測系統在橋梁、隧道和鐵路等大型基礎設施中的應用已日趨成熟。這些系統主要依賴于傳感器網絡和數據采集技術,實現對涵洞結構和狀態的實時監測。通過長期監測和數據分析,我們能夠準確識別影響涵洞性能的關鍵因素,并提供針對性地預測和維修建議。然而,相較于其他領域,涵洞相關的研究數量仍顯不足。
(二)輸入變量選擇
涵洞的分類多樣,依據不同的標準可以進行多種劃分。按照建筑材料,涵洞可分為磚涵、石涵、混凝土涵以及鋼筋混凝土涵;從構造形式上看,涵洞則分為圓管涵、拱涵、蓋板涵和箱涵。此外,根據填土情況的不同,涵洞還可以分為明涵和暗涵。明涵特指洞頂無填土的涵洞,適用于低路堤及淺溝渠處;而暗涵則是指洞頂有填土的涵洞,其最小填土厚度應超過50cm,適用于高路堤及深溝渠處。
在國內,對涵洞損傷和狀態的研究主要集中在涵洞裂縫、蓋板狀態、洞身變形以及洞體淤堵等方面。這些研究所考慮的影響因子則包括場地類別、涵洞型式、洞口構造以及涵洞跨徑等。這些研究旨在更深入地了解涵洞的性能和狀態,以便更好地進行維護和管理。在國外,涵洞的研究重點與國內相似,主要集中在涵洞變形裂縫、淤堵和剩余壽命等方面。研究所涉及的影響因子主要包括涵洞的物理特性(如尺寸、材料和形狀)、部分環境因素(以pH值為主)以及車流量等。例如,Gao、Fang和Iqbal等人對美國俄亥俄州約10萬條涵洞數據和得克薩斯州約1萬條橋梁數據進行了深入研究。然而,他們的結論顯示,目前數據庫所采集的數據和因子在實際建模過程中能發揮作用的僅占不到10%,主要涵蓋涵洞材料、尺寸、形狀和車流量等因素。
因此,本研究中機器學習模型的輸入變量涵蓋了涵洞材料、尺寸、形狀、使用年限、涵洞磨損情況以及pH值等多個方面。這些變量將作為模型訓練和0yiUZ6putNMsKxF1dnzcdPJHbwLQH0y+imRpMMb+Dpw=分析的重要依據,以實現對涵洞性能的精準預測和評估。
(三)模型評價指標
在此機器學習涵洞狀態預測模型(ML)的開發初期,我們選用了三種不同的機器學習算法,分別是人工神經網絡(ANN)、支持向量機(SVM)以及決策樹。這些模型的開發依賴于ODOTTIMS涵洞清單數據庫提供的數據,該數據庫由ODOT于2018年發布。為了確保數據適用于機器學習模型的構建,我們對下載的原始數據進行了預處理,具體采用了列表刪除(LD)和反距離加權(IDW)等技術,使得數據能夠滿足ML模型開發的要求。ODOT最初使用的10分評級表被重新調整劃分為兩組,以清晰地標識涵洞是否需要接受檢查。其中,第一組涵洞得分在0至6分之間,表明這些涵洞需要接受檢查;而第二組涵洞得分在7至9分之間,表明這些涵洞狀況良好,無需進一步檢查。利用準確率(Accuracy)、召回率(Recall)、精確度(Precision)、F-分數(F1Score)和ROC曲線(ROCCurve)等評價指標對模型進行了初步評估,結果顯示,決策樹模型相較于其他兩種算法,展現出了更為優越的性能。因此,決策樹(DT)算法被用于進一步的模型開發。
準確率(Accuracy)是衡量分類器性能的關鍵指標之一。具體而言,準確率代表了分類器在給定測試數據集中正確分類的樣本數與總樣本數之間的比率,它實質上是預測正確的概率體現。然而,初步研究還發現,涵洞評級數據的不平衡性對機器學習模型的準確率造成了顯著影響,數值從76%到85%不等。故準確率這一指標往往無法全面、準確地反映模型的預測能力。召回率(Recall)又稱真陽性率(TPR)或靈敏度(Sensitivity),召回率表示實際為正的樣本被判斷為正樣本的比例。召回率低意味著分類器會產生很多假負例(FalseNegative)預測,在本研究中,召回率為0.81,表現出色。精確度(Precision)的數值會受到假正例(FP)案例數量的影響,以涵洞狀況預測為例,和召回率類似,如果模型預測出大量涵洞狀況不佳,而實際上并非如此,這就導致了較低的精確度,因為模型預測了過多的涵洞狀況不佳,其代價是額外的實地考察和現場檢查。所以在模型選擇時,應優先考慮具有較高精確度的模型,如本模型精確度達0.73。F分數(F1score)的高低直接反映了分類器在減少假正例(FP)和假負例(FN)方面的能力。當F分數較高時,意味著模型能夠更準確地識別出實際的正例情況,同時減少了因誤報(即FP)帶來的干擾。因此,一個高F分數的模型在識別正例和避免誤報方面表現優秀。F分數最佳為1,表示分類器完美識別,性能最佳;最差為0,則表明分類器無法識別,性能極差,本研究F分數接近0.8,性能較好。接收者工作特征曲線(ROCCurve)是描繪分類概率閾值從0到1變化時,召回率與誤報率(FPR)之間關系的圖形。為了將涵洞狀態預測模型性能與現有研究進行比較,使用了ROC曲線下的曲線面積(AUC)來進一步評估所開發的決策樹模型。AUC的取值范圍在0.5至1.0之間,其中0.5表示最差性能,1.0最佳。在此ML模型中,ROC曲線的性能表現較好。
總體研究結果顯示,采用建議的選擇性檢查方法,一年內混凝土涵洞的檢查量可減少約50%。
二、機器學習算法在涵洞狀態預測的應用問題
(一)數據選擇沒有標準化
雖然本研究中涵洞狀態預測分析模型表現較好,但仍存在亟待解決的問題,如當前涵洞數據采集工作缺乏統一的標準,不同地區往往根據自身需求或設備條件進行采集。單純從數據分析的角度來看,數據庫中接近90%的信息是非關鍵的,這導致了存儲空間的浪費。考慮到涵洞數量眾多,這種情況不僅使得數據存儲效率低下,還會在分析過程中增加前期數據清洗的工作量和運算成本,降低了數據處理和分析的效率與準確性。因此,制定統一的涵洞數據采集標準,優化數據存儲和分析流程,對于提高涵洞管理的效率和準確性具有重要意義。
(二)數據量較少
在構建現有的機器學習算法涵洞預測或分析模型時,研究者們通常基于研究方向和已有數據來選取輸入變量,隨后由模型自行判定特征變量,鮮有研究對輸入變量的選擇過程進行深入分析,從而導致在確定涵洞狀態的關鍵影響因子方面仍有所不足。相較于橋梁、隧道等大型基礎設施,涵洞的研究相對匱乏,多數研究受限于較小的數據樣本量,這主要是由于未能充分整合不同維度的數據及復雜的數據采集、傳感、傳輸和存儲硬件要求。然而,現有技術已完全具備數據整合和擴容的能力。因此,加強數據整合工作有望深化和拓寬涵洞研究,為涵洞的安全高效運行提供更強有力的支持。
(三)實踐應用受限
盡管機器視覺和健康監測系統目前已經得到了較好的發展,但是由于涵洞數量眾多且大多深埋于地下,其復雜的傳感、傳輸、存儲和分析過程在涵洞上的應用前景仍然面臨著較大的阻力,這些系統在涵洞實踐應用中的使用受到了一定的限制。為了克服這些挑戰,我們需要進一步研究并優化這些系統,以適應涵洞的特殊環境和需求,從而推動其在涵洞監測和維護中的廣泛應用。
三、結語
綜上所述,機器學習算法在涵洞狀態預測領域已取得研究成效,能基于多因素涵洞數據構建預測模型,精準評估涵洞狀態。同時,機器學習算法能自動學習數據特征,挖掘潛在影響,為涵洞管理維護提供支持。然而,仍存在數據獲取整合難、數據質量不一等問題,影響預測準確性。此外,涵洞狀態預測涉及復雜因素,算法和參數選擇需謹慎,需大量實驗驗證。
針對我國機器學習在涵洞狀態預測的應用提出建議:第一,應加強涵洞數據采集整理,統一數據標準,確保準確性完整性,利用數據清洗預處理技術提升數據質量。第二,研究不同機器學習算法在涵洞狀態預測中的應用,通過對比實驗選擇最佳算法和參數。第三,結合其他領域知識,引入新特征和方法,提高預測準確性。
(作者單位:廣州城建職業學院;基金項目:2023廣東省普通高校重點領域專項[新一代信息技術],編號:2023ZDZX1095。)