崔李三 鄧鵬 周圓兀



摘 要:為提高自密實混凝土骨料語義分割算法的性能,本文研究了一種融合注意力機制與深度學習的計算機視覺方法,該方法采用主流的編碼器(ResNet50)-解碼器(U-net)結構,建立了基于融合注意力機制與深度學習的自密實混凝土骨料語義分割模型,可以在像素級別上分割混凝土圖像中的骨料,并通過精度、召回率、F1分數和交并比等4個指標對模型進行評估。實驗結果表明,在同一數據集下,本文模型評估性能優于目前性能優異的模型DeepLab V3+、PSPNet和HRnet,為評價自密實混凝土的穩定性或抗靜態離析性提供了高效率的工具。
關鍵詞:深度學習;注意力機制;語義分割;自密實混凝土;穩定性評價
中圖分類號:TP391.41;TU528.041 DOI:10.16375/j.cnki.cn45-1395/t.2023.04.006
0 引言
自密實混凝土是一種高流動性、非離析混凝土,具有良好的自密性和耐久性能,可以在不使用振搗器的情況下實現更好的充填性和均勻性,降低工程施工難度和成本,具有廣泛的應用前景,如高層建筑、大型橋梁和水利工程等。自密實混凝土通常使用特殊的配合比和添加劑,其制備過程中需要控制混凝土的流動性和坍落度,以確保混凝土具有均勻的密實性和良好的耐久性能。由于自密實混凝土的制備較為復雜,需要采用特殊的工藝和技術,因此,在實際應用中需要嚴格控制混凝土的質量和施工工藝,以確保其穩定性和耐久性能。自密實混凝土的穩定性或抗靜態離析性通常可以根據硬化視覺穩定性指數進行評估[1],該方法主要通過縱向切割硬化混凝土,依靠人工目視比較不同高度的骨料分布,獲得其穩定性信息,工作量大、效率低、數據精度受到限制。因此,利用圖像處理技術對自密實混凝土的內部結構進行分析和評價成為了一種新的研究方向。這種方法可以通過數字圖像獲取和處理,快速、準確地獲得自密實混凝土的內部結構信息,提高了評價的效率和精度。
近年來,利用圖像處理方法評價自密實混凝土穩定性的研究不斷涌現,并取得了一定的研究成果。基于計算機視覺的檢測方法已逐漸應用于混凝土骨料分割任務,包括形態學分水嶺算法[2]、閾值[3]和邊緣檢測[4]等,這些方法雖然具有圖像處理速度快、人工操作少等優勢,但僅適合簡單工況,應用范圍小。隨著全卷積神經網絡等一些深度學習算法在圖像處理技術中的應用,為解決上述混凝土骨料分割方法的不足提供了有效手段[5]。深度學習算法中的語義分割模型主要使用編碼器-解碼器結構(如SegNet[6]、U-net[7-8]、BTU-net[9]和PSPNet [10])。編碼器通常是一個卷積神經網絡,由多個卷積層和池化層組成,用于提取圖像的低級和高級特征,如VGG[11]、ResNet[12-13]、MobileNet[14]和GoogLeNet[15]。解碼器用于對提取的特征進行進一步優化,通常包括轉置卷積層或上采樣層以及卷積層,以便將編碼器輸出的低維特征圖映射回原始圖像的像素空間。然而,使用編碼器-解碼器結構應用于骨料語義分割的問題上主要存在2個問題:骨料多尺度和骨料邊界信息丟失[6]。Lin等[7]提出特征金字塔網絡來解決分割任務中的對象多尺度問題。Chen等[10]使用空洞卷積來放大感受野并聚合多尺度上下文信息,而不會減小特征映射的大小,從而減少邊界信息丟失。Sun等 [11]提出了一種多路徑高分辨率網絡,通過高分辨率和低分辨率并行連接、交換信息,可以有效利用高分辨層的空間語義信息和低分辨率層的語義信息,使網絡解決多尺度和邊界信息丟失問題更加高效。Milletari等[16]通過使用增加注意力機制模塊的ResNet50作為主干網絡改進DeepLab V3+[10]網絡,進一步提高了模型性能。Wang等[12]設計了一種半監督語義分割網絡,與之前的方法相比,在精度指標上(如召回率、交并比和精度)都有較大優勢,但模型相對復雜,訓練更加困難,需要計算的資源也較大,Yang等[14]基于高速實時語義分割雙分支架構設計了一個具有高分辨率分支和輕量化的全局語義分支,有效地保留語義分割所需的遠程和局部上下文依賴關系,并且計算開銷較低。
盡管基于深度學習的語義分割方法已在土木工程中廣泛使用,如建材質量檢測[17]、建筑垃圾分類[18]、現場安全管理等,然而在自密實混凝土骨料圖像處理中的應用較少。為提高深度學習的語義分割算法在自密實混凝土骨料圖像處理中的應用,提出了一種基于深度卷積神經網絡的混凝土骨料語義分割算法,對自密實混凝土的圖像進行自動化處理,以期提高評價的準確性與可靠性。
1 融合注意力機制的自密實混凝土骨料語義分割模型
為了實現混凝土截面圖像中自密實混凝土骨料的精確分割,本文提出了一種基于深度學習的新型架構。該模型使用U-net[19]對沉積圖像進行處理,并根據預測結果從圖像中提取骨料的形態特征。本文提出的自密實混凝土骨料語義分割框架如圖1所示。該方法采用具有編碼器-解碼器主流的語義分割結構。編碼器提取輸入圖像特征,解碼器將低分辨率編碼器特征映射到輸入分辨率特征圖以實現全像素的分類。修改后的ResNet50[20]作為編碼器提取沉降圖像的特征,U-net作為解碼器實現分割。注意力機制通過學習進行通道和空間維度上的注意力特征融合,本文在ResNet50的結構中引入了一種通道空間注意力機制(convolutional block attention module,CBAM)[21],以模擬通道、空間維度之間的相關性并增強基本特征。本文模型使用的U-net解碼器部分可以分為2個階段:上采樣和卷積。上采樣階段使用2*2卷積核將編碼器中的低維特征圖放大,經過5次上采樣放大到原始圖像的尺寸。U-net解碼器的上采樣階段與編碼器的相應階段通過跳躍連接在一起,將編碼器中的高級特征圖與解碼器中的低級特征圖結合起來。跳躍連接保留高級特征圖的信息,可以減少多次卷積導致的骨料多尺度和邊界信息丟失,提高了分割精度。在最后一個卷積層上應用softmax激活函數生成概率分布,進行圖像分割預測。
1.1 注意力機制
在深度學習中,注意力機制為一個可學習的模塊,即通過在特征圖的通道或空間上計算一個權重向量,使網絡模型在訓練時能夠動態、自適應地調整輸入的不同部分,達到使模型關注特定信息的目的。例如,在圖像分類中,注意力機制可以幫助模型識別與分類相關的局部區域,在語義分割中,可以幫助模型聚焦于具有語義信息的區域。本研究使用的CBAM[21]模塊的注意力機制結構如圖2所示。CBAM模塊允許網絡動態調整通道和空間權重以提高網絡的表達能力。通過該操作有效特征獲得大權重,無效或低效特征獲得小權重,訓練模型獲得顯著效果。CBAM模塊的輸入和輸出的通道數、特征圖尺寸都是相同的,可以集成到網絡的任何位置。CBAM模塊分為通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM)兩部分。CAM和SAM的計算公式分別為式(1)、式(2),
1.2 主干網絡
隨著神經網絡層數的不斷加深,訓練CNN模型的難度也會逐漸增加。為了應對訓練深度CNN模型的困難,He等[20]提出深度殘差網絡(ResNet)來解決網絡深度加深引起的梯度消失或爆炸問題,使用殘差連接(跳躍連接),以使原始輸入信息直接傳入以下輸出部分,進一步降低了深度神經網絡的訓練難度,有助于誤差反向傳播并優化模型參數。在圖像識別、圖像分割、目標定位等計算機視覺相關任務中取得了良好的效果。
使用修改后的ResNet50主干特征提取網絡,ResNet50整體結構如圖3所示。本文方法是在Conv Block和Identity Block 2個殘差塊內增加CBAM注意力機制,以提高網絡的表達能力。修改后的ResNet50主干特征提取網絡有5個特征提取階段(Stage 0—Stage 4),每個階段都會得到1個特征圖(Feature),這5個特征圖為主干特征提取網絡的輸出。
1.3 損失函數
損失函數(loss function)在深度學習中的作用是衡量模型預測結果與真實標簽之間的差異程度,通過最小化損失函數來調整模型的參數使其能夠更準確地預測輸出結果。損失函數的作用是將深度學習任務中的問題轉化為一個數學優化問題,使得模型的優化過程可以通過求解損失函數的最小值來實現。語義分割任務的常用損失函數包括交叉熵損失函數、Dice損失函數、Jaccard損失函數和focal損失函數等,常常根據具體任務和數據集的特點來選擇使用的損失函數。用于自密實混凝土骨料分割的數據集表現出樣本不平衡,圖像中骨料只占其中一部分像素,砂漿和拍攝背景占據了大部分像素。不平衡的訓練樣本會導致訓練模型專注于具有大量樣本的類,低估具有少量樣本的類,并最終影響測試集上的泛化性能[6]。為了解決網絡訓練期間發生的樣本不平衡問題,將Dice損失函數和focal損失函數結合起來指導神經網絡訓練。Dice損失函數用于計算2個樣本之間的相似性,通過學習類分布來緩解不平衡的像素問題。focal損失函數側重于困難樣本,這迫使模型更好地學習分類不佳的像素。組合損失函數將難以分類的類和像素都考慮在內,使其在訓練過程中更加穩定。
[αt]是不平衡系數,可通過設置[αt]取值實現控制易分類和難分類樣本對損失的貢獻;[pt]是模型的估計概率;[lnpt]為標準交叉熵損失函數;γ是可調聚焦參數,可通過設置γ取值實現控制正負樣本對損失的貢獻;[α]是一個可調參數,用于控制易于分類的樣本在損失計算中的權重,[α]的取值范圍為[0,1];y是標簽值;[p]為模型對于樣本屬于真實類別的預測概率。
1.4 數據集
為了評估所提出的自密實混凝土骨料分割算法的性能,本文通過縱向切割混凝土圓柱體,可以獲得混凝土截面骨料分布的高分辨率圖像,使用Labelme標注工具對圖像中的骨料進行像素級的標識,每個像素對應于骨料或背景類別。圖4為本文數據集樣本,標簽圖為PNG格式,骨料被標注為1,背景被標注為0。標注后數據集在GitHub上進行了開源共享(https://github.com/fanta12138)。同時加入了Coenen等提供的數據集[23]。由于計算機硬件的限制,不能將完整圖片輸入模型進行訓練,因此,制作數據集時截面圖像被裁剪為分辨率是512×512的圖像,共獲得了2 072張圖像。數據集分為訓練集(包含1 491張圖像)、驗證集(包含166 張圖像)和測試集(包含415張圖像)。在數據集帶標簽的像素中,骨料類別的像素占比25.4%,背景類別占比74.6%。因此,類別分布是不均衡的。
2 模型訓練
本文使用 Chollet[17]深度學習框架。實驗是在Ubuntu系統工作站上進行,該工作站配置了Intel Core i7-11700 CPU,工作頻率為2.50 GHz,32 GB DDR4內存和NVIDIA RTX2080Ti GPU。遷移學習通常用于計算機視覺任務,將信息從經過訓練的網絡傳輸到新網絡,以解決類似的問題并為模型提供更好的初始狀態。從頭開始訓練卷積神經網絡時,將對整個模型的權重進行隨機初始化,沒有經過大型數據集的預訓練,神經網絡不容易收斂,而且所需計算資源太大。雖然本文提出的模型對原始ResNet50作了一定的改動,但仍使用原始ResNet50在ImageNet[18]大型數據集上預訓練的權重作為初始權重。
模型訓練時利用 Adam優化器更新模型參數。本文采用了余弦退火學習率下降方法調整學習率,與常規的學習率衰減方法相比,余弦退火學習率下降方法能夠更好地避免訓練過程中的震蕩和過擬合問題。其中初始學習率為1×10?4。通過使用余弦退火學習率下降方法,初始學習率被設置為一個比較大的值,這使得模型在訓練初期可以快速地找到一個相對較好的局部最優解。隨著訓練的進行,學習率會不斷地降低,使得模型可以緩慢地調整參數并最終收斂到全局最優解。該網絡經過100次迭代訓練,每一輪中單次傳給網絡的圖像數量設置為4張。為方便訓練,在前50次迭代訓練時凍結主干網絡權重。在訓練和驗證過程中,參考模型在訓練集和驗證集上的損失、交并比作為模型訓練狀態的監控指標,并根據曲線的變化判斷模型是否收斂。如圖5所示,隨著訓練迭代次數的增加,訓練和驗證過程中的交并比逐漸增加。在前50次訓練結束后,主干網絡權重解凍,訓練和驗證損失曲線出現波動,隨著模型繼續訓練優化,最終收斂。
3 實驗驗證
3.1 骨料分割評估指標
根據幾個常用于評價語義分割模型的指標,定量評價本文模型的性能。通過與標簽的比較,評估了自密實混凝土骨料分割的結果。本文選擇了通常用于評估模型的4個指標:精度、召回率、F1分數和交并比。將骨料像素視為正樣本,將背景像素視為負樣本。精度是指分類為骨料的所有像素中正確骨料像素的百分比;召回率是指正確分類的所有骨料像素的百分比;F1分數是指精度和召回率的調和平均數;交并比是指邊界框的真實值交集和并集的比值,用來預測分割精度。
3.2 注意力機制消融實驗
本文利用相同的數據集進行訓練和測試,以驗證注意力機制CBAM塊對骨料分割模型性能的影響。如表1所示,由于增加了CBAM塊,網絡可以使用全局信息有選擇地增強包含有用信息的特征,并抑制無用的特征以提高模型性能。與沒有CBAM塊的神經網絡相比,精度、召回率、F1分數和交并比值分別提高了0.76%、1.90%、1.34%和2.59%。
3.3 損失函數消融實驗
骨料分割數據集存在樣本不平衡,損失函數對模型性能有重大影響。本文訓練了3個使用不同損失函數的網絡,其他參數保持相同,以驗證所提出的組合損失函數的效果。從表2中可以看出,提出的組合損失函數在精度、召回率、F1分數和交并比方面的效果均好于其他2個損失函數。
3.4 模型對比
使用測試集來進一步比較本文模型和其他3種語義分割模型及傳統閾值方法的性能。如表3所示,本文模型計算結果在4個指標中都實現了最優性能。此外,可以明顯看出,與傳統Otsu閾值方法相比,本文模型在精度、召回率、F1分數和交并比方面的表現均優于Otsu閾值方法,分別提升了37.77%、11.92%、24.86%和52.76%。
圖6為不同分割方法結果對比圖。由圖6可看出,本文模型可以對自密實混凝土骨料和砂漿進行精確分割,特別是對小目標骨料、輪廓和邊緣信息表現更高的準確性(紅圈標識所示),骨料的詳細分布信息可以很容易獲取。
表4為硬化自密實混凝土試樣視覺穩定性指數評級標準(HVSI)[1],將圖像在高度方向上分割為4層,對分割結果進行后處理,可準確地得到圖像中骨料的分布。圖7為典型的自密實混凝土橫截面圖像和分層骨料分布。經過本文算法預處理后,將橫截面切割成尺寸相等的4層,骨料像素被標記為1,砂漿像素被標記為0,經算法統計確定每層的骨料/砂漿面積比,即圖7中的白/黑面積比。使用本文方法可以高效、客觀地評價自密實混凝土的穩定性。
4 結論
本研究基于深度學習和圖像處理技術提出了一種混凝土骨料語義分割模型,可以快速、高效地提取出圖像中的骨料分布密度等相關參數。本文方法使用語義分割主流的編碼器-解碼器結構、具有跳躍連接的U-net模型對自密實混凝土截面圖像的輸出特征圖進行多尺度特征提取和融合,提高了模型對骨料邊緣信息的提取能力。引入CBAM注意力機制模塊顯著提高了編碼器的特征提取能力,綜合了Dice和focal 2種損失函數,減少正負樣本不均衡的影響。通過與DeepLab V3+、HRnet和PSPnet 3種高性能分割方法在本文數據集上進行比較,驗證了本文方法的優越性。自密實混凝土的圖像可以通過本文方法進行自動化處理,避免了人工處理的主觀性和不穩定性,提高了評價的準確性和可靠性。
參考文獻
[1] ASSAAD J J. Correlating thixotropy of self-consolidating concrete to stability,formwork pressure,and multilayer casting[J]. Journal of Materials in Civil Engineering,2016,28(10):1-10.
[2] 楊子晴,楊健,熊吳越. 基于改進分水嶺算法的堆積態再生混合粗骨料圖像分析[J]. 硅酸鹽學報,2021,49(8):1691-1698.
[3] 范九倫,趙鳳. 灰度圖像的二維Otsu曲線閾值分割法[J]. 電子學報,2007,35(4):751-755.
[4] 高廣運,楊成斌,高盟,等. 持力層對大直徑擴底灌注樁豎向承載性狀的影響[J]. 巖土工程學報,2012,34(7):1184-1191.
[5] 李濤,王子豪,王庸道,等. 基于深度殘差網絡的油紙絕緣老化狀態識別策略研究[J].廣西科技大學學報,2022,33(1):39-45.
[6] WANG W J,SU C,ZHANG H. Automatic segmentation of concrete aggregate using convolutional neural network[J]. Automation in Construction,2022,134:104106.
[7] LIN T Y,DOLL?R P,GIRSHICK R,et al. Feature pyramid networks for object detection[C]// Proceedings of 30th IEEE Conference on Computer Vision and Pattern Recognition,2017,106:936-944.
[8] 龍雪,李政林,王智文,等. 基于改進U-Net網絡的肺部CT圖像結節分割方法[J].廣西科技大學學報,2022,33(1):63-70,77.
[9] 文澤奇,林川,喬亞坤. 輪廓檢測深度學習模型中解碼網絡融合方法[J].廣西科技大學學報,2021,32(4):43-49,57.
[10] CHEN L C,ZHU Y K,PAPANDREOU G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//15th European Conference on Computer Vision,2018,11211:833-851.
[11] SUN K,XIAO B,LIU D,et al. Deep high-resolution representation learning for human pose estimation[C]// Proceedings of the 32nd IEEE Conference on Computer Vision and Pattern Recognition,2019,2019:5686-5696.
[12] WANG W J,SU C. Semi-supervised semantic segmentation network for surface crack detection[J]. Automation in Construction,2021,128:103786.
[13] 王衢,林川,陳永亮.? 基于ResNet網絡與離散變分自編碼器的精細輪廓檢測方法[J].廣西科技大學學報,2022,33(3):8-13,28.
[14] YANG M Y,KUMAAR S,LYU Y,et al. Real-time semantic segmentation with context aggregation network[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2021,178:124-134.
[15] 羅紹猛,文家燕,陳彬. 基于改進GoogLeNet的瘢痕色澤和血管分布評估算法[J]. 廣西科技大學學報,2022,33(3):36-42,52.
[16] MILLETARI F,NAVAB N,AHMADI S A. V-Net:fully convolutional neural networks for volumetric medical image segmentation[C]//Proceedings of the 4th? IEEE International Conference on 3D Vision,2016,2016:565-571.
[17] CHOLLET F.? Keras:the python deep learning library[EB/OL]. (2017)[2022-10-19]. https://keras.io/.
[18] DENG J,DONG W,SOCHER R,et al. ImageNet:a large-scale hierarchical image database[C]// IEEE Conference on Computer Vision and Pattern Recognition,Princeton,USA:IEEE,2009.
[19] RONNEBERGER O,FISCHER P,BROX T. U-net:convolutional networks for biomedical image segmentation [C]//18th International Conference on Medical Image Computing and Computer-Assisted Intervention,2015,9351:234-241.
[20] HE K,ZHANG X Y,REN S,et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recog-
nition,2016,2016:770-778.
[21] WOO S,PARK J,LEE J Y,et al. CBAM:convolutional block attention module[C]//Proceedings of the 15th European Conference on Computer Vision,2018,11211 LNCS:3-19.
[22] LIN T Y,GOYAL P,GIRSHICK R,et al. Focal loss for dense object detection[C]// Proceedings of the IEEE International Conference on Computer Vision,2017,2017:2999-3007.
[23] COENEN M,SCHACK T,BEYER D,et al. Semi-supervised segmentation of concrete aggregate using consensus regularisation and prior guidance [C]// ISPRS Annals of the Photogrammetry,Remote Sensing and Spatial Information Sciences,2021,5(2):83-91.
Improved U-net semantic segmentation algorithm for
self-compacting concrete aggregate
CUI Lisan, DENG Peng, ZHOU Yuanwu*
(School of Civil Engineering and Architecture, Guangxi University of Science and Technology,
Liuzhou 545006, China)
Abstract: To improve the performance of semantic segmentation algorithm for self-compacting concrete aggregate, a computer vision method integrating attention mechanism and deep learning was developed. This method adopted the mainstream encoder (ResNet50)-decoder (U-net) structure, and established a semantic segmentation model of self-compacting concrete aggregate based on attention mechanism and deep learning. It could segment aggregate in concrete image at pixel level. The model was evaluated by four indicators:precision, recall, F1 score and IoU. The experimental results show that under the same dataset, the evaluation performance of this model is better than those of DeepLab V3+, PSPnet and HRnet, which have excellent performance at present. This provides an efficient tool for evaluating the stability or static segregation resistance of self-compacting concrete.
Key words: deep learning; attention mechanism; semantic segmentation; self-compacting concrete; stability evaluation
(責任編輯:羅小芬)
收稿日期:2022-11-26
基金項目:廣西高校中青年教師科研基礎能力提升項目(2022KY0348);國家自然科學基金項目(51908141);廣西科技大學博士掛職駐柳企業工作項目(BSGZ2127);廣西科技大學博士基金項目(校科博14z13);廣西高等教育本科教學改革工程項目(2020JGZ129);2022年度校級本科教育教學改革項目(2022XJJG51)資助
第一作者:崔李三,博士,工程師,研究方向:建筑儲能與節能材料
*通信作者:周圓兀,博士,副教授,碩士生導師,研究方向:遺傳算法、邊坡穩定性分析,E-mail:ywzhou@gxust.edu.cn