基于深度卷積神經網絡的隧道襯砌裂縫識別算法

2018-06-28 02:03:18柴雪松朱興永李健超辛學仕

鐵道建筑 2018年6期

柴雪松，朱興永，李健超，薛峰，辛學仕

(1.中國鐵道科學研究院集團有限公司鐵道建筑研究所，北京 100081；2.中國鐵路蘭州局集團有限公司工務處，甘肅蘭州 730000；3.北京郵電大學，北京 100876)

隧道襯砌裂縫會影響隧道的穩定性，嚴重時危及列車運行安全，因此必須及時對襯砌裂縫進行有效識別。傳統的檢測方法是以人工目視檢查為主，檢測效率很低,檢測質量也難以保證。為此，國內外相繼研制了基于圖像處理的隧道襯砌質量檢測系統，實現了對隧道襯砌圖像的快速采集，并開展了裂縫自動識別的研究。中國鐵道科學研究院于2017年自主研制了隧道襯砌表面狀態檢測系統[1]，能以50 km/h的速度采集含1 mm以上襯砌裂縫的圖像，并實現了對圖片中襯砌裂縫的快速準確識別。本文對該系統中的襯砌裂縫快速識別算法予以介紹。

隧道圖像具有復雜的特性，既有水漬、污染及其他結構縫的存在，又有光照不均勻、噪聲繁多、分布不規律的情況。這些都給傳統的圖像處理方法帶來了發展瓶頸。近年來人工智能逐步發展，其中尤為重要的深度學習技術已經全面滲透計算機視覺領域，并且取得了傲人的成績。本文提出的基于計算機視覺的襯砌裂縫自動識別算法正是將深度學習開創性地應用到傳統的襯砌裂縫識別領域。這是一種有監督的學習方式，采用深度卷積神經網絡能夠更好地提取圖像更深層次的特征，能做到在識別裂縫時不受或者少受環境因素干擾。試驗表明，這一算法具有很高的識別率，同時時間性能優異，應用價值極高。

1 國內外研究情況

1.1 基于圖像處理的裂縫檢測法

目前，基于圖像處理的裂縫檢測已經取得了很多研究成果。國外，出現了基于網絡分析的裂縫檢測算法和基于最小路徑的裂縫檢測算法。此類方法不適合處理被嚴重噪聲污染的圖像。FUJITA等[2]提出了一種兩步處理的算法。該算法能有效地去除圖像中不均勻光照、陰影、污點等引起的噪聲。后來，產生了一種利用形態學處理和邏輯回歸的統計學分類的裂縫檢測算法[3]。該算法對裂縫提取的精度超過80%，但是該算法會漏檢一些細小的裂縫且計算量較大，效率低下。國內，李剛等[4]提出了一種基于Sobel算子和最大熵法的圖像分割算法，褚燕利[5]提出了一種基于灰度圖像及其紋理特性的裂縫特征提取算法。盧曉霞分析和比較了多種經典的算子，王曉明等提出了一種基于多圖像和多分辨率的路面裂縫檢測方法[6]。該方法使用了圖像融合技術，而且多尺度的方法很好地保存了圖像的集合特性，極大地提高了裂縫檢測的可靠性和精度。隨著機器學習方法的快速發展，結合機器學習方法和圖像處理的裂縫識別算法不斷涌現。

1.2 深度學習在圖像分類中的發展

深度學習(deep learning)這一概念由Hinton等[7]于2006年提出。首先提出的是自動編碼器的多層次結構模型，后來在限制玻爾茲曼機(Restricted Boltzmann Machine,RBM)的基礎上拓展出了深度置信網絡(Deep Belief Network,DBN)。它是一種無監督性逐層訓練算法，在優化并解決深層結構問題方面有很大改善[8]。另外，SERMANET等[9]提出了卷積神經網絡(Convolutional Neural Netwok,CNN)——一個較為直觀的多層結構網絡學習算法，利用圖像空間信息減少訓練參數數量從而在提高模型訓練性能方面有了很大改善。深度學習通過分層式結構的多層信息處理來進行非監督的特征學習和圖像分類，模擬人腦學習和分析的能力，形成一個神經網絡[10-12]結構。它可以像人腦一樣對外界輸入事物進行分析和理解，該網絡優勢被廣泛應用于圖像、文本、聲音等研究領域。

圖像分類是要解決圖片中是否包含某類物體的問題，對圖像進行特征描述是物體分類的主要研究內容。一般說來，物體分類算法通過手工特征或者特征學習方法對整個圖像進行全局描述，然后使用分類器判斷是否存在某類物體。應用比較廣泛的圖像特征有SIFT,HOG,SURF等。這些對圖像分類的研究中，大多數特征提取過程是人工設計的，通過淺層學習獲得圖像底層特征，與圖像高級主題間還存在很大的“語義鴻溝”。而深度學習利用設定好的網絡結構，完全從訓練數據中學習圖像的層級結構性特征，能夠提取更加接近圖像高級語義的抽象特征，因此在圖像識別上的表現遠遠超過傳統方法。

卷積神經網絡在特征表示上具有極大的優越性，模型提取的特征隨著網絡深度的增加越來越抽象，越來越能表現圖像主題語義，不確定性越少，識別能力越強。AlexNet的成功證明了CNN網絡能夠提升圖像分類的效果，其使用了8層的網絡結構，獲得了2012年ImageNet數據集上圖像分類的冠軍[13]，為訓練深度卷積神經網絡模型提供了參考。2014年GoogleNet另辟蹊徑，從設計網絡結構的角度來提升識別效果[14]。其主要貢獻是設計了Inception模塊結構來捕捉不同尺度的特征，通過1×1的卷積來進行降維。2014年另外一個工作是VGG，進一步證明了網絡的深度在提升模型效果方面的重要性[15]。2015年最重要的一篇文章是關于深度殘差網絡(ResNet)，文章提出了擬合殘差網絡的方法，能夠做到更好地訓練更深層的網絡[16]。后續分類網絡的發展如Google的inception系列，2017年的主流模型比如獲得最佳論文獎的DenseNet等都借鑒了ResNet的設計思想。本文的模型也是基于ResNet的基礎網絡設計的。

1.3 基于深度學習的圖像分割方法

雖然深度學習在圖像分類和目標檢測上取得了巨大的進步，但仍有人質疑深度學習在工程中的應用效果。因為它無法很好地解決圖像識別的另一大任務——圖像分割。圖像分割與圖像分類的最大區別是圖像分割要實現對每個像素的分類。而真正解決這一問題的是2015年CVPR的一篇圖像語義分割的文章FullyConvolutionalNetworksforSemanticSegmentation，自此以后一系列的用于圖像分割的改進神經網絡模型被提出，從FCN,DecovNet,DilatedNet到DeepLab,PSPNet，分割精度進一步提升。

2 算法設計與實現

針對文獻[1]中研制的隧道襯砌表面狀態檢測系統所獲取的隧道襯砌圖片，建立的襯砌裂縫識別算法的流程如圖1 所示。

圖1 襯砌裂縫識別算法流程

2.1 超像素分割(Simple Linear Iterative Clustering,SLIC)

通過相機獲取的原始隧道圖片(4 096×4 096)過于龐大，為便于處理，需要對其進行切分。由于裂縫分布的不均勻性，普通的切分方法極有可能使裂縫出現在切分圖的邊緣，對后續的分類模型訓練造成負面影響。因此，本文采用SLIC超像素分割方法對原圖進行分割，按照生成的一定數量的超像素對原圖進行切分。裂縫的形狀多為細長形，本文針對這一特點做了相應的算法改進，同時也做了大量試驗對SLIC超像素分割進行優化和加速。該過程如圖2所示。

圖2 超像素分割示意

輸入為一張大圖，經過超像素分割，聚類成一定數量的不規則圖像塊。經過調試和一些編程技巧的優化后，本文用cuda編程將分割程序運行在GPU(Pascal Titan X)上，速度為每張圖片0.05 s，在同樣效果的情況下速度大幅提升。

大圖中每一個不規則像素塊被切分出來按照一定格式保存，被用于裂縫識別數據集的建立。保存的圖片如圖3所示。可以看出，這些不規則的像素塊有效地保持了裂縫的形狀，避免了裂縫出現在分割的邊緣處。

圖3 超像素分割后像素塊形成的圖片

2.2 數據集

為了解決襯砌裂縫識別問題，本文構建了一個名為CNT的專有數據集，包含分類子集CLS-CRACK的專用數據集和分割子集SEG-CRACK。數據集選取3條完整隧道的圖片數據作為數據源，涵蓋不同路段、不同光照和不同的隧道類型。經過龐大的人工清洗和人工標注最終生成一個符合深度學習模型訓練標準的數據集。其中，CLS-CRACK共包含 6 550 張圖像和對應的分類標注，其中 4 550 張用作訓練集，2 000 張用作驗證集，正負樣本比例基本為2∶1。CLS-CRACK數據集包括圖像分類標簽0和1，代表圖片樣本是否含有裂縫。SEG-CRACK數據集包含裂縫圖片 2 000 張及其相應的分割標注，其中訓練集 1 700 張，驗證集300張。分割標注是包圍裂縫的多邊形，通過圖像處理轉化成分割掩碼，用0和1的灰度值代表類別。

2.3 分類模型設計

2.3.1 模型細節

一個完整的分類網絡包括輸入、圖片處理、計算推理和輸出。在訓練階段輸入包括圖像和對應的標簽，而在測試階段輸入只有圖像。模型最終輸出該圖像是否含有裂縫。分類模型框架如圖4所示。

圖4 分類模型框架

為了快速并準確地對隧道圖片進行裂縫的識別，本文選擇了速度性能均衡的ResNet18網絡。

本文基于caffe深度學習框架來實現，在GPU(Pascal Titan X)上進行測試，一張尺寸300左右的圖片前向與反向計算的時間分別是4.48 ms與5.07 ms，速度極快。ResNet18包括18個卷積層，第1層為7×7的卷積層，最后一層為全連接層，中間為8個模塊結構，每個模塊結構包括2個3×3卷積層。網絡結構如圖5所示。

圖5 ResNet18網絡結構

2.3.2 模型訓練與測試

本文使用caffe深度學習框架來進行模型訓練與測試，模型訓練采用在ImageNet上訓練好的分類模型繼續訓練。訓練參數的設置對于模型訓練的效果至關重要。本文設置基礎學習率為0.001并采用分段式下降策略，圖片批數量為15，訓練100次全數據，圖片進入網絡前統一縮放至600×600大小，并進行減均值除方差操作進行歸一化處理。

模型測試應用了不同的裁切(crop)策略，即對一張圖先縮放，再從圖中crop出一定尺寸大小的圖片。這些圖片經過模型預測的結果綜合起來能更好地提升準確率。

在分類任務中，最常用的性能度量指標是錯誤率和精度。但是，本項目關心的是挑出的圖片中有多少是存在裂縫的或者所有存在裂縫的圖片有多少被挑出來了。此時，查準率(precision)和查全率(recall)是更為適用于此類需求的性能度量指標。對于二分類問題，根據真實類別和模型預測的類別組合可劃分為真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)4種情形。查準率P和查全率R分別定義為

查準率和查全率是一對矛盾的度量指標，很多情況下可根據模型的預測結果對樣本進行排序，排在最前面的是最有可能為正例的樣本，按照從前往后的順序逐個把樣本作為正例進行預測，每次可計算出當前的查全率和查準率，以查準率為縱軸、查全率為橫軸作圖就得到P-R曲線。本文的試驗不僅分析了這些指標，也在P-R曲線上對模型效果進行了評估。

2.4 分割算法設計與實現

分割網絡基于ResNet 18與DeepLabv 3分割框架設計。分割網絡結構如圖6所示。

圖6 ResNet 18-DeepLabv 3分割網絡結構

2.4.1 帶孔卷積

使用帶孔卷積可以處理任意大小的輸入圖片，將最后一次全局池化的參長(stride)設為1，其前面網絡的下采樣過程用擴散系數(rate)為2的帶孔卷積來替代，就能夠直接在原始圖像分辨率大小下獲得特征響應。但是這種一直在全分辨率下進行計算的方式無論在時間上還是空間上都成本巨大。而根據FCN-8s最終是對8倍下采樣的特征圖進行8倍雙線性插值得到原始輸入圖片大小的分割預測圖。可以在得到8倍下采樣特征圖的后續網絡中加入帶孔卷積。這樣既不會過多地增大時間和空間成本，又能對足夠精確的特征圖進一步優化。

根據空洞卷積原理，對原始ResNet 18網絡進行了如下改進：即在第3次下采樣后第4次下采樣網絡開始時，將后續所有網絡的卷積層的stride設為1，同時添加空洞因子。其中對于之前的第4次下采樣模型塊rate=2，第5次下采樣rate=4，最后得到8倍下采樣的特征圖，再通過8倍雙線性插值后就可以得到原始圖片大小的預測結果。

2.4.2 帶權重的Softmax Loss函數

與常規的裂縫分割不同，裂縫分割有其數據分布的特殊性，裂縫在每張圖片上其像素只占有很小比例，而深度學習框架常用的Softmax損失函數可以看作為一個平均投票器，這樣就會導致像素更偏向于被預測為非裂縫的背景點。針對這個問題，修改了Softmax Loss函數，改為帶權重的Softmax Loss函數，該函數使有裂縫的像素值位置加權參與運算。該方法有效解決了裂縫數據不均衡的問題。

2.4.3 分割模型測試指標

在深度學習語義分割任務中慣用的評價指標有像素分類準確率、均交并比(Mean Intersection over Union,MIOU)等。MIOU指的是模型預測結果與“真相”的交并比，是一個非常嚴苛的指標。在本文中只有一類裂縫需要被分割，因此只要計算裂縫的MIOU即可分析模型的分割效果。

2.4.4 分割模型閾值選取

在裂縫分割的過程中，經過分割網絡的每個像素點都會得到一個得分。該得分代表著該像素點屬于裂縫的置信度。在判斷像素點是否為裂縫的過程中可以選取不同的閾值。選取不同閾值，獲得的裂縫分割圖像效果不同，如圖7所示。

圖7 不同閾值的分割圖像

從圖7可以看出：閾值選取得越高，越會導致一些裂縫點被認為是背景。為了不損失裂縫信息，在后面的試驗分析中將閾值取為0.5。

3 分類試驗結果與分析

3.1 對比試驗分析

模型采用的是Softmax分類器，最終輸出的是該圖像是否存在裂縫的概率值。試驗中，概率值大于0.5則認為測試圖像存在裂縫。本文首先做了單尺度crop(600/600)試驗，模型精度為0.927，查準率和查全率分別為0.545和0.800。以此作為基準試驗，做了三組對比試驗。試驗參數及結果見表1。

表1 分類模型性能測試對比試驗參數及結果

從表1中可以看出：試驗2比試驗1在精度，查準率和查全率方面都有所提升，原因是一張圖片crop出多個子圖片，模型對這些子圖片都進行判別，再綜合考慮所有的結果最后對一張測試圖像給出結果。試驗3與試驗2對比，不同之處在于模型的最終結果不根據多張子圖片的結果綜合打分，而是找出其中概率最大的結果。依據是，在更關注查全率的前提下隧道圖片正樣本較少，且裂縫為細長形不容易被發現，一旦在某個狀態下被確定為裂縫則就認為它存在裂縫，這樣能提高查全率。經過分析，試驗2的multi-crop策略能有效提升模型精度，因此在搭建級聯網絡時采取試驗2的參數。

3.2 P-R曲線分析

P-R圖直觀地顯示出分類器模型在測試樣本總體上的查全率和查準率，能通過曲線的分布情況與曲線下的面積來比較分類器的性能。3次試驗的P-R曲線見圖8。

圖8 分類模型性能測試對比試驗P-R曲線分析

從圖8中可以看出：試驗2和試驗3的P-R曲線基本能完全包住試驗1的曲線，即試驗2、試驗3的查準率和查全率都要高于試驗1。多尺度crop的技巧對于提高模型性能具有良好的效果。試驗2和試驗3的曲線存在交疊，模型性能較難評估。雖然表1表明在相同得分閾值下，試驗3的查全率要高于試驗2，但試驗2的曲線下方面積比試驗3大，試驗2曲線取得查準率和查全率雙高點的可能性要大于試驗3曲線。因此，通過分析P-R曲線不僅能夠評估模型性能，還能根據不同的任務需求尋找最合適的得分閾值。在裂縫分類任務及后面的試驗中，默認閾值為0.5。

4 分割試驗結果與分析

4.1 對比試驗分析

用SEG-CRACK的驗證集共300張圖片進行模型的測試，進行了多組試驗與baseline對比來分析MIOU，結果見表2。

表2 分割模型性能測試結果對比

4.2 可視化結果分析

裂縫分割優化結果見圖9。可看出分割優化后圖像與標注圖像非常吻合。

圖9 裂縫分割優化結果展示

5 結論與展望

本文提出了一個基于深度學習的襯砌裂縫識別算法，針對隧道圖片特征分析并優化了SLIC超像素分割算法，構建了一個用于襯砌裂縫分析的數據集CLS-CRACK。在此基礎上，設計分類網絡ResNet 18，用caffe深度學習框架進行模型訓練與優化。最后，將訓練好的模型在驗證集上進行性能分析。試驗結果表明，該模型在CLS-CRACK數據集上表現良好，模型識別正確率94%，能夠快速準確地實現裂縫的識別。完成裂縫識別后，用ResNet 18網絡參考DeepLabv 3框架搭建裂縫分割網絡，針對裂縫分割問題作了諸多調整改進使得模型收斂，且做了大量的試驗來優化分割模型，最終在分割驗證集上MIOU達到65%。

通過進一步收集現場圖片并不斷完善模型，本文的研究成果在鐵路襯砌裂縫檢測中可以發揮積極作用。

[1]柴雪松，李健超.基于圖像識別技術的隧道襯砌裂縫檢測系統研究[J].鐵道建筑，2018,58(1)：20-24.

[2]FUJITA Y,MITANI Y，HAMAMOTO Y.A Method for Crack Detection On A Concrete Structure[C]//Pattern Recognition，the 18th Internation Conference.IEEE,2006.

[3]LANDSTROM A,THURLEY M J.Morphology-based Crack Detection For Steel Slabs[J].Selected Topics in Signal Processing,IEEE Journal,2012,6(7):866-875.

[4]李剛,賀昱曜.不均勻光照的路面裂縫檢測和分類新方法[J].光子學報,2010,39(8):1405-1408.

[5]褚燕利.基于灰度圖像及其紋理特性的裂縫特征提取[J].公路,2010,7(7):131-136.

[6]盧曉霞.基于圖像處理的混凝土裂縫寬度檢測技術的研究[D].電子科技大學,2010.

[7]HINTON G E,SALAKHUTDINOV R R.Reducing the Dimensionality of Data with Neural Networks[J].Science,2006,313(7):504-507.

[8]BENGIO Y,COURVILLE A,VINCENT P.Representation Learning:A Review and New Perspectives[J].Pattern Analysis and Machine Intelligence,IEEE Transactions,2013,35(8):1798-1828.

[9]SERMANET P,CHINTALA S,LECUN Y.Convolutional Neural Networks Applied to House Numbers Digit Classification[C]Pattern Recognition,the 21st International Conference.IEEE,2012.

[10]BENGIO Y.Deep Learning[M].Massachusetts:MIT Press，2015.

[11]AGATONOVIC-KUSTRIN S,BERESFORD R.Basic Concepts of Artificial Neural Network (ANN) Modeling and Its Application in Pharmaceutical Research[].Journal of Pharmaceutical and Biomedical Analysis,2000,22(5):717-727.

[12]BENGIO Y.Learning Deep Architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.

[13]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet Classification with Deep Convolutional Neural Networks[J].Neural Information Processing Systems,2012,1-9.

[14]SZEGEDY C,LIU W,JIA Y,et al.Going Deeper with Convolutions[J].Computer Vision and Pattern Recognition,2015,1-9.

[15]SIMONYAN K,ZISSERMAN A.Very Deep Convolutional Networks for Large-scale Image Recognition[C]//the International Conference on Learning Representations,2015.

[16]HE K,ZHANG X Y,REN S Q,et al.Deep Residual Learning for Image Recognition[J].Computer Vision and Pattern Recognition,2015(12):1-9.