王科理,高福來,楊 鵬,王 亮
(1 中國鐵道科學研究院 研究生部,北京 100081;2 中鐵檢驗認證中心有限公司,北京 100081;3 智洋創新科技股份有限公司,山東淄博 255086)
隨著中國的高速鐵路里程逐漸大幅度增加,高鐵沿線設備采用高鐵綜合檢測車或運營車輛實時視頻監控方式,即通過接觸網安全巡檢裝置(2C)、車載接觸網運行狀態檢測裝置(3C)、接觸網懸掛狀態檢測監測裝置(4C)等設備獲取現場設備的圖像信息,因此采集到的視頻和圖像數據量非常龐大。傳統人工后臺排查的方式進行數據分析不僅效率低下,而且容易受到工作人員的工作狀態影響,給行車安全帶來隱患。因此研究準確高效的圖像自動目標檢測方法,對于提高鐵路運行效率,保障鐵路系統正常運營安全具有重要意義。
在鐵路線路中,鳥巢異物屬于比較常見的隱患類型,鳥巢的組成部分是樹枝、鐵絲等,極易造成接觸網設備短路跳閘、絕緣子閃絡等故障,影響高鐵行車安全,給鐵路部門帶來極大困擾。目前鐵路部門根據鳥巢搭建的位置以及對供電安全產生的危害程度,劃分為A、B、C 3個級別進行處理。距離帶電設備小于500 mm的鳥巢以及正在建設中且距離帶電設備小于1 000 mm的鳥巢列為A級,此種情況下需立即申請天窗時間進行處理;鳥巢距帶電設備在500~2 000 mm范圍內列為B級,此種情況下必須在當日天窗或臨時天窗進行處理;當鳥巢距帶電設備在2 000 mm以外時列為C級,此種情況下對供電安全沒有影響,可在14日內處理完畢。對于鳥巢異物隱患,目前主要處理方式分為人工巡檢或者人工觀察采集到的現場圖片進行鳥巢異物的識別并調動人員去現場清除。由于鳥巢位置隱蔽,在圖片中所占比例過小以及形狀不規則等原因,采取這些方式不只浪費人力物力財力,同時也無法及時有效地排除安全隱患。
近幾年來,借助于深度學習尤其是卷積神經網絡的飛速發展,計算機視覺領域也開始了前所未有的技術革新,在互聯網、安防、語音識別等領域中體現了巨大的應用價值和商用價值。而在接觸網圖像識別領域,現有技術仍然停留在傳統圖像處理算法和一些直接應用的經典深度學習算法,缺少與實際場景相適應的深層次研究。因此,基于深度學習的接觸網圖像目標檢測技術是眾多國內研究者不斷深入探究的課題。
為更好地解決上述難點,文中提出一種基于深度學習的鐵路鳥巢異物檢測方法,實現了針對鐵路接觸網鳥巢異物目標檢測。算法分為2部分,首先是對采集的現場圖像數據進行圖像處理操作完成預處理,然后基于預處理后的圖片輸入到卷積神經網絡進行鳥巢異物的識別。
研究內容突破傳統的人工識別、人工巡檢方式,基于深度學習技術對鐵路鳥巢異物進行精準的目標識別。在解決鐵路接觸網鳥巢異物檢測的同時,也可為其他領域的目標識別方法提供一種新思路,并且在一定程度上提高鐵路電氣化線路鳥巢異物識別的檢測速度、準確度,提升巡檢自動化水平,降低接觸網整體運營管理的人力物力成本。
關于鐵路鳥巢異物檢測,目前大多研究內容集中使用傳統圖像處理方法提取特征進行識別。段旺旺等人[1]提出了一種采用局部動態閾值二值化和Zhang-Suen細化算法等傳統圖像處理方法粗略得到疑似鳥巢的關鍵區域,之后通過提取HOG特征使用支持向量機(SVM)分類器進行分類,提取出鳥巢區域位置。謝亮凱[2]研究出了一種根據鳥巢和硬橫梁相對位置不變性的檢測方法。該方法將預處理后的圖像利用Sobel水平算子將圖像邊緣檢測出來,之后再使用概率Hough變換直線檢測算法校正圖像的角度,并結合待分析圖像中線段的長度關系對最前面的硬橫梁進行檢測,最后對校正后的圖像進行Otsu二值化處理,進而通過統計硬橫梁之間的白色區域面積,判斷鳥巢是否存在。目前鐵路鳥巢檢測采用的傳統圖像處理技術對于光照、遮擋等自然環境變換的場景適應性能不穩定,沒有很好的普適性,很容易出現漏檢誤檢的情況。鐵路鳥巢異物檢測的工作仍需要人工進行大量的看圖識別,工作量可想而知。
隨著學者們在深度學習領域多年深耕,各高校以及研究機構已經開始嘗試將深度學習技術應用到缺陷、異物等目標檢測領域,進一步證明了基于深度學習的鐵路鳥巢異物檢測的可行性。
為了實現鐵路接觸網鳥巢異物檢測,首先需要對采集的原始鐵路線路圖片進行預處理,主要包括圖像縮放、圖像去噪和圖像增強。然后再使用卷積神經網絡模型進行鳥巢檢測。其具體流程如圖1所示。

圖1 鳥巢異物檢測流程圖
由于接觸網處于戶外環境,現場拍攝的圖片會隨時受到天氣變化的影響,包括明暗變化和噪聲大小等,尤其在遇到惡劣天氣時,采集的圖像則更加容易失真。為了將圖像特征清晰的目標圖像輸入到目標檢測模型,需要提前對采集的現場圖片進行圖像去噪和圖像增強等操作。同時由于目前現場采集的裝置是高清攝像機,采集到的圖片都是高分辨率的圖像。但是高分辨率就意味著相同尺寸大小所包含的像素點數量多,占用內存大,運算量相應增大,為了更好地實現算法的實時性并減少運算量,需要對高分辨率的圖像進行圖像縮放。
2.1.1圖像縮放
在處理計算機圖像的過程中,圖像縮放是一種非平凡地對數字圖像大小進行調節的過程,因此圖像縮放需要在處理效率和結果的平滑度以及清晰度上做出權衡。
文中采用最近鄰插值法進行圖像縮放,是一個將變換后的圖像中的原像素點最鄰近像素的灰度值賦給原像素點的方法。最近鄰插值法將原始圖像中的像素點(x0,y0)在x和y方向上擴展到相應的像素點(x1,y1),其縮放系數為kx,ky,變換矩陣為式(1):

設x1=i+u,y1=j+v,其中i,j為非負整數;u、v∈[0,1)。若u<0.5,v<0.5,將(i,j)賦 予(x1,y1);若u<0.5,v>0.5,將(i,j+1)賦予(x1,y1);若u>0.5,v<0.5,將(i+1,j)賦 予(x1,y1);若u>0.5,v>0.5,將(i+1,j+1)賦予(x1,y1)。
2.1.2圖像去噪
圖像在形成時由于車速改變、光照強度變化、車體振動和相機傳感器本身會疊加一定的噪聲,圖像在計算機中各種處理的過程中也可能會伴隨著噪聲。這種噪聲會削弱圖像的細節特征,使細節特征發生模糊甚至丟失,對隨后的目標檢測帶來不利的影響。因此,必須將這些噪聲加以過濾和處理,常用的濾波算法包括均值濾波、中值濾波以及雙邊濾波等。在文中,采取雙邊濾波的方法來限制噪聲。該方法可以完成平滑降噪和保留邊緣特征的任務,是一種非線性濾波方法。和其他濾波原理一樣,雙邊濾波也是使用加權平均的計算方法,其中某個像素的強度由周圍像素亮度基于高斯分布的加權平均來表示。此外,雙向濾波權重除了考慮了像素范圍內的輻射差異,還計算了像素的歐氏距離,如卷積核心中的像素與中心像素的深度距離、顏色強度、相似程度等。在計算中心像素時,這2個權重都要考慮。雙邊濾波算法為式(2):

式中:f(x,y)為輸入圖像,(x,y)=p;g(p)為雙邊濾波輸出;p為像素點;q為鄰域像素點;L為鄰域像素集合;C為標準量;w s為空間鄰近函數;w r為灰度相似度函數。
2.1.3圖像增強
圖像增強是指將圖像中有用的特征信息進行加強并且可以在一定程度上接受失真,其目的旨在針對給定圖像的應用場景突出我們需要的整體或局部的圖像特征,并且突出圖像中不同目標特征之間的差別,從而提高目標判斷能力和識別效果。對于現場采集到的鐵路圖片,需要通過圖像增強方法增強鳥巢區域特征信息,使目標檢測模型更好地學習特征、判斷類別、檢測區域。
文中使用直方圖均衡化算法進行圖像增強,變換函數由灰度級概率密度函數得出,隨后根據變換函數調整圖像的灰度級分布。變換函數T(r)與原圖的概率密度函數pr(r)滿足式(3):

式中:r為原圖像的灰度級。
上式滿足如下條件:
(1)T(r)在區間0≤r≤1中為單值單調遞增。
(2)當0≤r≤1時,0≤T(r)≤1。
2.2.1基于YOLO v3的目標檢測算法
首先采用One-Stage算法中的YOLO v3[3]來進行目標識別。全卷積網絡YOLO v3采用Darknet-53結構(含有52個卷積層和1個全連接層)進行圖像特征提取,通過使用殘差跳層連接和去掉池化層的手段,降低了層級之間的特征損失[3]。Darknet-53主要由3×3和1×1的卷積核以及類似ResNet中的快捷鏈路構成。相較于ResNet-152,Darknet-53有更低的BFLOP(10億次浮點數運算),在分類準確率相同的情況下縮減一半的時間。
YOLO v3使用了Darknet-53前面的52層,設置卷積層步長為2來實現降采樣。YOLO v3中采用類似特征金字塔網絡(FPN)的上采樣和融合做法,在多個尺度(scale)的特征圖(feature map)上做檢測,可以適用于多尺度大小的目標檢測。
我們將圖像預處理后的鳥巢圖片輸入網絡后,YOLO v3會先將輸入圖片重置為416×416大小的圖片,然后使用Darknet-53深層網絡來提取目標特征,再將特征向量送至特征金字塔結構中進行多尺度預測,從而完善并提高目標檢測準確率和位置精度,最后對預測框進行非極大值抑制,以減少重復檢測。從而獲得目標類別和坐標等信息。其坐標信息公式為式(4):

式中:tx、ty、th和tw為模型預測輸出;cx和cy為網格單元坐標;pw和ph表示預測前邊界框(bounding box)的大小;bx、by、bh和bw為預測得到的邊界框(bounding box)中心的坐標和尺寸。
2.2.2 基于Faster RCNN的目標檢測算法
Faster RCNN[4]作為一種Two-stage算法,主要由 卷 積 層、RPN(Region Proposal Network)網 絡、ROI(Region Of Interest)池化層以及分類和回歸4部分組成。
卷積層提取輸入圖像的特征圖,用于RPN網絡和全連接層共享和生成候選區域。傳統的檢測框生成過程很慢,Adaboost[5]利用滑動窗和圖像金字塔結合的方法完成檢測框的生成,RCNN是使用SS(Selective Search)的方法來生成檢測框,而Faster RCNN則是直接使用RPN生成候選區域,去掉了滑動窗口和SS方法,從而很大程度上加快了檢測框的生成速度。
對于預處理后的原始鳥巢圖片,為了提升算法的通用性,我們使用2階段的Faster RCNN檢測算法。將輸入的鳥巢圖片重置為1 200×900大小,使用ResNet50骨干網絡進行圖片特征的提取,接著將特征向量送至RPN層和ROI池化層中進行多尺度預測,最終通過后續的全連接層和softmax網絡對目標框做分類。Faster RCNN算法識別流程如圖2所示。

圖2 Faster RCNN檢測流程圖
試驗環境為:12196MiB顯存、Ubuntu 16.04.6 LTS操作系統、OpenCV4.1.1、NVIDIA 2080Ti顯卡、CUDA10.1等。
分別采用基于Darknet框架的YOLO v3方法和基于Tensorflow框架的Faster RCNN模型對預處理后的現場采集的圖片進行鳥巢異物檢測。
鐵路鳥巢數據集共有5 200張圖片,圖片分辨率均為2 456×2 054。文中將訓練集和測試集的比例設置為9∶1。為了方便于后續訓練,在預處理過程中,首先進行圖像縮放,每張圖片縮放4倍,之后進行圖像去噪和圖像增強。
在YOLO v3方法中,為了提高檢測的效果并加快模型訓練速度,我們使用在ImageNet[6]數據集上訓練的網絡參數進行初始化,并對模型進行微調[7]使其訓練能夠快速收斂,更加適用于鐵路鳥巢的檢測。為了抑制過擬合,將學習率設置為0.001,動量(momentum)設為0.9進行訓練。在迭代15 000 epoch后,損失函數趨于穩定。在Faster RCNN訓練的過程中,選擇ResNet50的預訓練權重。Faster RCNN在迭代80 000 epoch后,損失函數趨于穩定,學習率設為0.001,動量設為0.9進行訓練。
YOLO v3算法和Faster RCNN算法試驗結果的對比見表1,采取的評判指標是誤檢率、準確率、漏檢率和檢測速度。將IOU(Intersection Over Union)大于0.5且分類正確的樣本視為正樣本,將其和總樣本的比值作為準確率,通過計算預測錯的負樣本和預測出的總樣本的比作為誤檢率,通過計算未檢測出的樣本和總樣本的比作為漏檢率。通過表1可以看出Faster RCNN在檢測鳥巢的準確率、誤檢率以及漏檢率上表現更優。Faster RCNN作為2階段的目標檢測算法,準確率方面要比單階段的YOLO v3算法更高,但是檢測速度慢于YOLO v3算法。2種方法的檢測效果如圖3、圖4所示,可以看出對圖片中鐵路鳥巢異物有較好的檢測結果。

表1 鳥巢識別試驗結果對比

圖3 YOLO v3檢測結果

圖4 Faster RCNN檢測結果
(1)論文實現了鐵路鳥巢異物的檢測工作,極大提高了鐵路接觸網鳥巢異物檢測自動化程度。
(2)實現的2種基于深度學習的鳥巢異物檢測算法準確率達到85%以上,能夠有效進行電氣化鐵路鳥巢異物檢測,降低人工成本。
(3)對于鐵路鳥巢的目標識別仍有很多難點需要進一步攻克。對于準確率等方面仍需繼續提升,對于誤檢漏檢的情況,不能只依靠深度學習模型,還需要加入更多的圖像處理方法,具體問題具體分析,提高算法精度和速度,使其更具穩定性。