金屬表面缺陷檢測方法YOLOv3I

2023-05-21 04:02:40劉浩翰賀懷清惠康華

吉林大學(xué)學(xué)報(理學(xué)版) 2023年3期

劉浩翰,孫鋮,賀懷清,惠康華

(中國民航大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津 300300)

由于工業(yè)金屬零件在生產(chǎn)過程中產(chǎn)生的表面缺陷會影響機械設(shè)備的正常運行,因此能快速、準確、全面地檢測其表面缺陷具有重要意義.目前,軸承溝道表面缺陷檢測方法主要歸結(jié)為兩類: 標準的缺陷檢測和基于深度學(xué)習(xí)的缺陷檢測.軸承生產(chǎn)環(huán)境精細且復(fù)雜,所產(chǎn)生的缺陷大小形狀各異,同時與金屬表面有相似的紋理特性,因此檢測較困難.標準檢測方法通常需要相關(guān)領(lǐng)域質(zhì)檢專家參與檢驗缺陷,成本較高,同時無法避免視覺疲勞導(dǎo)致的誤檢、漏檢,檢測效果得不到保證.基于深度學(xué)習(xí)的缺陷檢測方法主要有兩階段(two-stage)和單階段(one-stage)兩種.兩階段目標檢測算法包括生成候選框和使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[1]提取特征并進行分類回歸兩個階段,其代表性算法有R-CNN[2],SPP-Net[3],FastR-CNN[4],Faster R-CNN[5]和Mask R-CNN[6].單階段缺陷檢測算法是基于端到端回歸的方法,其典型代表有SSD(single shot multiBox detector)[7]和YOLO(you only look once)系列算法[8-10].兩階段目標檢測算法因其對每個候選框進行特征提取、分類和預(yù)測框回歸,因而具有較高的準確性,單階段目標檢測算法則具有更快的檢測速度.

基于深度學(xué)習(xí)的目標檢測算法依賴卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像特征,效果越好的模型通常有越深的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),同時網(wǎng)絡(luò)模型會產(chǎn)生更多的參數(shù)量和計算量.例如: 田強等[11]通過改進殘差模塊結(jié)構(gòu),加強模型正則化抑制網(wǎng)絡(luò)的過擬合,通過控制卷積核數(shù)量減少網(wǎng)絡(luò)冗余參數(shù),加速了網(wǎng)絡(luò)訓(xùn)練過程; 朱海琦等[12]使用殘差思想充分提取淺層特征信息,提高了淺層特征信息利用率; 黃鳳榮等[13]基于Faster R-CNN引入多級ROI(region of interest)池化層結(jié)構(gòu),提高了發(fā)動機零件表面缺陷檢測效率; 史文旭等[14]提出了融合和增強特征模塊的SSD遙感圖像目標檢測算法; 連麗容等[15]基于RetinaNet深度學(xué)習(xí)模型結(jié)合雙目機器視覺提高了路側(cè)行人檢測結(jié)果召回率,但檢測速度低于對比算法YOLOv3(you only look once v3); 許增等[16]提出了結(jié)合DenseNet的改進YOLOv3方法,將網(wǎng)絡(luò)的每層都與后面所有層連接,模型精度得到提升但顯著增加了參數(shù)量和計算量; 易三莉等[17]使用U-Net結(jié)合Inception模塊增加網(wǎng)絡(luò)寬度,但Inception模塊各分支卷積核大小相同,不能有效提取輸入的多尺度特征; 楊焰飛等[18]將Inception模塊放入特征融合支路因而降低了模型運行速率; 王雪[19]在U-Net基礎(chǔ)上使用空洞卷積提取多尺度特征,因為使用不同的擴張率導(dǎo)致感受野不連續(xù),可能會丟失如邊緣之類的連續(xù)信息.上述方法有的通過增加網(wǎng)絡(luò)模型的深度、合并模型獲得模型在精度性能上的提升,缺點是引入了較多的參數(shù),使模型運行緩慢,不能很好地兼顧檢測的精度和速度,模型參數(shù)使用率較低; 有的通過使用改進后的殘差模塊提取淺層特征,但網(wǎng)絡(luò)底層的維度變化,會丟失細節(jié)信息; 還有通過增加網(wǎng)絡(luò)各層之間的連接,改變感受野大小,但會導(dǎo)致模型復(fù)雜度增大或丟失一些連續(xù)性信息.本文綜合對比了YOLOv3,YOLOv4和YOLOv5[20]的最完全版YOLOv5x模型,經(jīng)實驗證明YOLOv4,YOLOv5不適合本文復(fù)雜紋理背景工業(yè)缺陷檢測的研究,最終選擇YOLOv3作為基模型進行工業(yè)金屬表面缺陷檢測的研究.

為權(quán)衡網(wǎng)絡(luò)模型的精度和速度,本文基于YOLOv3提出一種改進的缺陷檢測方法YOLOv3I(you only look once v3 inception).為解決軸承等工業(yè)零件表面缺陷大小不一難以檢測、深度學(xué)習(xí)模型參數(shù)量大使用效率低的問題,將標準CNN結(jié)構(gòu)使用單一固定大小的卷積核改進為使用多個不同尺度卷積核進行并行處理的結(jié)構(gòu),不同大小的卷積核有不同大小的感受野,可以適應(yīng)和提取不同尺寸的缺陷特征,通過提取多尺度特征進行融合以提升網(wǎng)絡(luò)模型的特征提取能力.在使用1×1卷積大幅度減少多個卷積核并行導(dǎo)致的參數(shù)增加問題的同時,引入空間可分離卷積,將卷積核分解為不對稱卷積,增加網(wǎng)絡(luò)的寬度和深度,在不改變感受野的前提下進一步提升了網(wǎng)絡(luò)在精度上的性能,同時減少了模型參數(shù)量.標準CNN進行特征下采樣時通常先對輸入的多維特征進行維度提升使特征稀疏化,保留更多特征信息,升維表明需更高的計算開銷,本文使用升維與池化多路并行的方式完成高效率下采樣,同時在每個支路前使用1×1卷積降維,減小網(wǎng)絡(luò)參數(shù)量,提高模型的參數(shù)使用效率.

1 YOLOv3模型

1.1 模型特征

兩階段檢測方法通常用產(chǎn)生的候選框進行訓(xùn)練和預(yù)測,但產(chǎn)生候選框的過程會耗費很多時間,并重復(fù)對每個候選框使用分類器進行訓(xùn)練和預(yù)測,計算量較大,其較低的檢測效率無法滿足生產(chǎn)實時性要求.

(1)

由式(1)可見,網(wǎng)絡(luò)特征提取能力的提高會增大每個預(yù)測網(wǎng)格是否存在物體的概率Pobject,從而使預(yù)測框進行分類預(yù)測時更“自信”.

同時每個網(wǎng)格會產(chǎn)生C個類別的條件概率PClassi|Object,即在預(yù)測網(wǎng)格存在物體的前提下產(chǎn)生的類別概率,預(yù)測框共享條件概率; 在預(yù)測階段每個網(wǎng)格會產(chǎn)生3個不同大小的預(yù)測框預(yù)測輸入圖像上的目標,預(yù)測框的信息包括(x,y,w,h,confobject),其中x和y是預(yù)測框歸一化位置,w和h分別為預(yù)測框歸一化的寬和高,confobject為預(yù)測框中包含目標的置信度,預(yù)測框預(yù)測的每個類別的概率PClassi為

(2)

1.2 骨架網(wǎng)絡(luò)

圖1 DarkNet-53的組成單元BlockFig.1 Composition unit Block of DarkNet-53

CNN定義的標準范式[21]: 多個卷積層與池化層交叉堆疊,再通過多個全連接層進行向量展平輸出.YOLOv3骨架網(wǎng)絡(luò)DarkNet-53由5個段堆疊構(gòu)成,單個段的輸入輸出特征圖尺寸相同,段與段之間通過步長為2的卷積層進行下采樣.Block借鑒殘差模塊[22]設(shè)計思想并通過堆疊形成不同的段,Block的輸入輸出尺寸維度相同,其結(jié)構(gòu)如圖1所示.

1.3 YOLOv3在金屬缺陷檢測中的問題分析

YOLOv3檢測頭部分使用多尺度網(wǎng)格劃分的方案仍無法滿足工業(yè)缺陷檢測背景復(fù)雜的使用需求.多尺度網(wǎng)格劃分在很大程度上緩解了同時檢測不同大小目標的問題,密集的網(wǎng)格劃分能更好地適應(yīng)密集型目標的檢測場景,但YOLOv3骨架結(jié)構(gòu)設(shè)計的簡潔特性,特征提取層僅使用單一卷積尺度,無法應(yīng)對缺陷目標前景和背景紋理相似度高、區(qū)分度較差導(dǎo)致的誤檢和漏檢情況.假設(shè)網(wǎng)絡(luò)模型可學(xué)習(xí)到輸入樣本的多個尺度特征,就能更好地學(xué)習(xí)和理解輸入樣本特點,再結(jié)合YOLOv3多尺度目標檢測的優(yōu)勢,可提高其對復(fù)雜背景下目標檢測的性能.

殘差模塊在對殘差分支進行擬合時只考慮了所擬合特征與底層輸入是否有差別,未考慮多尺度特征的表達,未充分利用網(wǎng)絡(luò)高層豐富的語義信息.殘差網(wǎng)絡(luò)對殘差分支進行擬合而非對整個底層輸入進行擬合,使模型在訓(xùn)練階段能更快地收斂,恒等映射分支保留底層特征,具有特征復(fù)用的作用,最后兩個分支進行相加操作,同時保留輸入底層特征和學(xué)習(xí)到的特征.網(wǎng)絡(luò)高層已逐漸開始映射輸入數(shù)據(jù)的語義信息,如果網(wǎng)絡(luò)高層對輸入信息進行多尺度特征處理而不是簡單地擬合殘差信息,可提高網(wǎng)絡(luò)模型高層對多尺度語義信息的響應(yīng),提高復(fù)雜場景下識別大小不同目標的能力.假設(shè)網(wǎng)絡(luò)高層可使用不同大小感受野處理輸入的特征信息,在保留底層特征的同時融合多尺度特征,將提高網(wǎng)絡(luò)模型對多尺度特征的表達能力.

2 YOLOv3I模型

2.1 修正Inception

卷積操作通常是使卷積核在整個特征圖上滑動計算,每個卷積核將只對某種特征敏感,其中大部分的激活值為0,這種密集連接結(jié)構(gòu)的計算浪費了許多計算資源,一種解決辦法是使用稀疏連接結(jié)構(gòu),現(xiàn)階段硬件的實現(xiàn)均以數(shù)學(xué)矩陣即密集運算為基礎(chǔ)而設(shè)計,可考慮在卷積層內(nèi)部實現(xiàn)一種相對的稀疏結(jié)構(gòu),將稀疏的矩陣分解為密集的子矩陣進行計算,間接地利用矩陣的稀疏性、多支路并行的卷積結(jié)構(gòu)以密集連接的形式實現(xiàn)稀疏計算,通過共享輸入特征計算獲取不同尺度的特征,將高度相關(guān)的特征聚集,下一層可同時提取不同尺度的特征,符合人類視覺信息的多尺度處理特點,對感受野中不同大小的物體都能進行正確的檢測.基于此,Inception使用多尺度處理的概念,使用多支路卷積結(jié)構(gòu)模塊,1×1卷積提取局部信息,3×3和5×5是深度學(xué)習(xí)模型使用最多的卷積尺度,可以覆蓋更大的感受野,捕獲相距較遠的激活信息之間的依賴信息,提取較大范圍的空間信息,并且用這3種尺度的卷積可避免特征圖尺寸對齊問題,鑒于池化操作在卷積網(wǎng)絡(luò)中的成功應(yīng)用,Inception模塊添加了一個并行的池化支路,結(jié)構(gòu)如圖2所示.

較大的卷積尺寸如5×5會給模型帶來較大的計算量,池化支路輸出通道數(shù)與輸入通道數(shù)相同,則下一個計算模塊計算量加倍,例如: 假設(shè)對28×28×256維度的輸入進行處理,各分支處理后維度為28×28×256,池化層沒有參數(shù),故不產(chǎn)生計算量,其中1×1,filters=128(filters指卷積核個數(shù))卷積,3×3,filters=192卷積,5×5,filters=96卷積的計算量分別為28×28×128×1×1×256,28×28×192×3×3×256,28×28×96×5×5×256,共約8.54×108次乘加操作,若標準CNN卷積層單一大小卷積核為3×3,filters=256,則計算量為28×28×256×3×3×256,約為4.62×108次乘加操作,Inception模塊計算量為其1.8倍,模塊的堆疊將不可避免地使模型計算量急劇上升.

考慮到較大尺度卷積核可以聚合空間信息,因為特征圖鄰近單元有強相關(guān)性,相鄰感受野的輸出高度相關(guān),因此在傳入大卷積核和感受野之前進行特征降維,信息的損失會很小; 同時,為提高模型的表示能力增加模型的深度和寬度,使用1×1卷積[23],在較大卷積核之前進行降維,降低模型計算量,限制網(wǎng)絡(luò)的大小,增加網(wǎng)絡(luò)的深度,并且增加Inception模塊層的卷積核數(shù)量,擴展了網(wǎng)絡(luò)寬度.重新設(shè)計的Inception如圖3所示.令符號#表示卷積層前面的1×1卷積層,則在較大卷積核前面分別使用#3×3,filters=64和#5×5,filters=96,池化層后面使用1×1,filters=64.

圖2 Inception初始設(shè)計思想Fig.2 Initial design idea of Inception

圖3 加入1×1卷積的Inception模塊Fig.3 Inception module with 1×1 convolution

添加1×1卷積層不會破壞Inception結(jié)構(gòu)的稀疏性,同時使用修正線性激活函數(shù)ReLU[24]增加模型的非線性表達能力,仍用上例,總計算量減少為3.58×108次乘加操作,相比不加入1×1卷積的Inception模塊減少約60%的計算量,相比只有3×3卷積的標準CNN減少約22.5%的計算量,因此在堆疊Inception模塊時不會導(dǎo)致計算量爆炸.綜上,使用1×1卷積有3個作用: 1) 對多維度的特征進行升維、降維,減少模型參數(shù)量和計算量; 2) 增加模型非線性表達能力; 3) 增加模型深度和寬度.

2.2 引入空間可分離卷積

因為較大尺寸的卷積如5×5卷積計算量較大,減小其卷積核尺寸會縮小感受野大小,導(dǎo)致網(wǎng)絡(luò)表達能力下降,因此引入空間可分離卷積[25],也稱為不對稱卷積.在不改變卷積層感受野的同時減少參數(shù)量,參數(shù)量的減少通常意味著計算量的減少,結(jié)構(gòu)如圖4所示.理論上,任何大小的卷積都能分解為不對稱卷積,本文使用文獻[18]的參數(shù),設(shè)n=7.

空間可分離卷積是Inception模塊的一個升級變種,標準CNN結(jié)構(gòu)的單一固定大小的n×n卷積可使用1×n和n×1的不對稱卷積替換,這樣可進一步節(jié)省參數(shù)量,并且感受野大小保持不變,假設(shè)輸入仍為28×28×256維,將3×3卷積分解為1×3卷積和3×1卷積的不對稱卷積后,計算量為28×28×256×3×1×256×2=3.08×108,相比3×3卷積計算量減少約33.3%.如圖5所示,將3×3卷積分解為1×3和3×1不對稱卷積后,最終一個像素的感受野仍等同于3×3卷積的感受野,感受野大小均為3×3.同理,將圖3中Inception的5×5卷積分解為兩個3×3卷積,其底層感受野也將保持不變,再將每個3×3卷積使用空間可分離卷積分解為1×3和3×1卷積,最終結(jié)構(gòu)如圖4所示,然后將DarkNet-53段5的卷積結(jié)構(gòu)替換為空間可分離卷積結(jié)構(gòu).

圖4 Inception空間可分離卷積Fig.4 Inception with spatial separable convolution

圖5 空間可分離卷積不改變感受野大小Fig.5 Spatial separable convolution won’t change receptive field size

2.3 使用池化與卷積并行結(jié)構(gòu)的高效下采樣

為避免池化導(dǎo)致信息丟失,在CNN結(jié)構(gòu)中,通常會先對特征通道進行升維以保留足夠多的稀疏特征.先升維將產(chǎn)生較大的計算量,先池化又將導(dǎo)致特征表示信息丟失,Inception使用池化與卷積并行結(jié)構(gòu)的高效下采樣同時完成升維和池化,結(jié)構(gòu)如圖6所示.

為提高對軸承等工業(yè)零件表面缺陷的特征提取能力,借鑒使用Inception[18,26]思想,不同于標準CNN卷積層使用單一固定大小的卷積核,使用多支路并行的多種規(guī)格卷積核對同一輸入進行處理,然后將提取到的多尺度特征進行融合處理,并通過實驗證明其有效性.

2.4 YOLOv3I網(wǎng)絡(luò)結(jié)構(gòu)

空間可分離卷積使用填充對多支路卷積和池化操作的輸出進行尺寸對齊,文獻[25]通過實驗證明Inception模塊不宜放到網(wǎng)絡(luò)淺層,在特征圖尺寸介于12～20間效果最好,段5輸出特征圖尺寸為13×13,因此將YOLOv3骨架網(wǎng)絡(luò)DarkNet-53段5的Block使用空間可分離卷積進行改進,并保留DarkNet-53的殘差結(jié)構(gòu),改進后的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示.

圖6 高效下采樣模塊Fig.6 Efficient downsampling module

圖7 使用空間可分離卷積改進后的BlockFig.7 Improved Block using spatial separable convolution

池化操作具有平移不變性[27],因此在標準CNN結(jié)構(gòu)中,使用多個池化操作緩慢減小特征圖尺寸,降低模型的計算量,在一定程度上防止過擬合.單純使用池化會導(dǎo)致特征空間信息的丟失,所以通常在池化前先進行升維以保留更多稀疏特征.為避免升維增加的計算量和池化導(dǎo)致的信息丟失,使用卷積和池化并行的結(jié)構(gòu)完成高效下采樣,結(jié)構(gòu)如圖4所示.在DarkNet-53的段3和段4、段4和段5之間均使用高效下采樣結(jié)構(gòu).

3 實驗及結(jié)果分析

3.1 實驗數(shù)據(jù)集

本文使用公開數(shù)據(jù)集檢驗所提方法的可行性,并在軸承生產(chǎn)企業(yè)提供的真實軸承表面缺陷數(shù)據(jù)集上驗證方法的實際效果.

公開數(shù)據(jù)集: 采用東北大學(xué)發(fā)布的鋼板表面缺陷數(shù)據(jù)集NEU[28],圖像分辨率為200×200,其中包括6種常見的典型金屬表面缺陷,缺陷類型包括軋入氧化皮缺陷、補丁狀缺陷、裂縫、麻點表面、夾雜質(zhì)和劃痕,每種缺陷類型有300張帶有標注的缺陷圖像,共1 800張圖像.數(shù)據(jù)集NEU具有類內(nèi)缺陷差距明顯的特點,例如: 缺陷大小差異較大、紋理角度隨機; 金屬材質(zhì)及表面反光導(dǎo)致的灰度值不統(tǒng)一等; 工業(yè)制造生產(chǎn)環(huán)境復(fù)雜性導(dǎo)致的金屬制品復(fù)雜背景.這些特性使數(shù)據(jù)集NEU成為金屬表面缺陷的代表性樣本.

真實軸承溝道表面缺陷數(shù)據(jù)集: 從軸承制造工廠車間采集的約380張帶有表面缺陷的軸承溝道圖像,分辨率為640×480,其中包括短絲(short_wire)190張和砂輪花(wheel_flower)190張兩個類別.短絲類似于麻點,呈向內(nèi)凹和向外凸狀; 砂輪花近似劃痕,由打磨時與雜質(zhì)碰撞產(chǎn)生.

表面缺陷數(shù)據(jù)不易采集,而深度學(xué)習(xí)模型常需要大量的數(shù)據(jù)才能學(xué)習(xí)到數(shù)據(jù)共有的特征以提高泛化性,本文對數(shù)據(jù)集進行數(shù)據(jù)增強擴容,用有限的數(shù)據(jù)集生成更多且同樣有效的數(shù)據(jù),使數(shù)據(jù)的分布更豐富,加強模型的魯棒性,分別將數(shù)據(jù)集擴大10倍,數(shù)據(jù)集NEU擴增為18 000張,軸承數(shù)據(jù)集擴增為3 800張,均按8∶2配置訓(xùn)練集和測試集.

3.2 實驗環(huán)境

實驗平臺采用Intel(R) Xeon(R) Silver 4214 CPU,32 GB內(nèi)存,Ubuntu 18.04.5 LTS的服務(wù)器,使用NVIDIA Quadro RTX 5000 GPU進行加速運算,在Pytorch框架下進行開發(fā)與調(diào)試.

3.3 基模型的確定

平均精度(average precision,AP)和平均準確率(mean average precision,mAP)是缺陷檢測最常用的衡量模型性能的指標,分別考察模型在數(shù)據(jù)集每個類別上的精度和模型在數(shù)據(jù)集所有類別上的綜合性能.YOLOv4,YOLOv5的數(shù)據(jù)預(yù)處理功能默認開啟,如馬賽克增強(Mosaic)、自動聚類錨框等,YOLOv3未使用數(shù)據(jù)預(yù)處理.本文選用YOLOv3,YOLOv4和YOLOv5的最完全版模型YOLOv5x進行實驗對比,以確定本文的基模型.

YOLO系列模型在對輸入圖像進行特征提取和劃分網(wǎng)格進行最終預(yù)測時均將圖像和特征圖處理為正方形.為增加實驗難度,使用圖像長寬比不同的軸承數(shù)據(jù)集測試各模型性能,在訓(xùn)練過程中均使用多尺度訓(xùn)練.測試階段為充分評估各模型檢測性能,采用黑邊填充,將輸入圖像按長邊等比縮放至分辨率640×640.對比模型的各類別平均精度、平均準確率、參數(shù)量和模型復(fù)雜度,對比結(jié)果列于表1.模型復(fù)雜度用每秒浮點運算次數(shù)(FLOPs)表示.

表1 YOLO系列模型在軸承數(shù)據(jù)集上的性能對比

工業(yè)缺陷檢測不同于自然生活場景下的目標檢測,對輸入樣本過度地預(yù)處理和改進網(wǎng)絡(luò)模型特征融合方式可能增加輸入樣本復(fù)雜背景對模型的擾動,導(dǎo)致模型“退化”.相比YOLOv3,YOLOv4通過增大感受野、集成多種注意力機制以及使用更多特征融合方式,模型顯得臃腫,使得在處理復(fù)雜背景下目標檢測問題時性能出現(xiàn)“退化”,YOLOv4之所以各類別平均精度較低,平均準確率仍可以達72.8%,是因為其仍有較好的召回率,為81.4%,說明了YOLOv4查找潛在缺陷的能力較強,但分類性能極差; YOLOv5發(fā)布已兩年,至今未向COCO[29]等權(quán)威性公開數(shù)據(jù)集服務(wù)器提交結(jié)果,目前存在較大爭議,本文測試了YOLOv5最完全版本YOLOv5x,其模型復(fù)雜度遠超YOLOv3和YOLOv4.

綜上,YOLOv3表現(xiàn)最好,因此本文選擇YOLOv3作為基模型.

3.4 模型訓(xùn)練

用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器進行參數(shù)的優(yōu)化,初始學(xué)習(xí)率設(shè)為0.01,用余弦學(xué)習(xí)率衰減(cosine learning rate scheduler,COS),動量設(shè)為0.937,權(quán)重衰減系數(shù)設(shè)為0.000 5,使學(xué)習(xí)率緩慢減小從而更好收斂,模型訓(xùn)練300個周期(epochs).數(shù)據(jù)集增強擴容能有效防止過擬合現(xiàn)象.使用多尺度進行訓(xùn)練,即一個訓(xùn)練周期中每訓(xùn)練10個batch就將輸入圖像的分辨率隨機加減n×32像素大小,數(shù)據(jù)集NEU輸入圖像分辨率保持在[224,416],軸承數(shù)據(jù)集輸入圖像分辨率保持在[480,640].圖8為損失函數(shù)曲線.由圖8可見,模型經(jīng)過300個訓(xùn)練周期后曲線變化趨于平緩,說明模型均已收斂.隨著訓(xùn)練的進行,YOLOv3與改進后的YOLOv3I模型在增強后的數(shù)據(jù)集NEU上的平均準確率變化如圖9所示,由圖9可見,改進后的模型所減少的參數(shù)并未影響其性能,并且YOLOv3I在精度上性能更好.

圖8 模型損失函數(shù)曲線Fig.8 Loss function curves of models

圖9 模型測試集上精度曲線Fig.9 Accuracy curves of models on test datasets

3.5 實驗結(jié)果與對比分析

使用訓(xùn)練好的改進模型對數(shù)據(jù)集中的圖像進行檢測,圖10和圖11分別為YOLOv3模型和改進后的YOLOv3I模型對軸承溝道表面缺陷數(shù)據(jù)集和數(shù)據(jù)集NEU的檢測效果.由圖10和圖11可見,改進后的模型對各類缺陷都有較好的檢測效果,可檢測出更多潛在的目標,并能以更高的置信度confobject檢測缺陷目標.

圖10 改進前后模型在真實軸承數(shù)據(jù)集上的檢測結(jié)果Fig.10 Detection results of models before and after improvement on real bearing dataset

圖11 改進前后模型在數(shù)據(jù)集NEU上的檢測結(jié)果Fig.11 Detection results of models before and after improvement on NEU dataset

由圖10可見,對于真實軸承數(shù)據(jù)集,第一組圖片由于雜質(zhì)與目標缺陷顏色類似,YOLOv3誤將其檢測為缺陷目標,而YOLOv3I并未出現(xiàn)誤檢測; 第二組對比圖YOLOv3I檢測出更多潛在的缺陷,模型召回率更高; 第三組在數(shù)據(jù)集圖像較模糊時,YOLOv3I仍能保持較高的檢測性能,體現(xiàn)了更好的泛化性能.由圖11可見,改進后的模型對各類缺陷精度均有不同程度的提升.改進后的YOLOv3I模型參數(shù)量較原模型有一定程度下降,模型總參數(shù)量為4.76×107,而YOLOv3參數(shù)量為6.26×107,改進后的模型參數(shù)量減少24%,YOLOv3I模型復(fù)雜度有所降低.

為盡可能多地保留輸入圖像細節(jié),模型測試階段使用圖像長邊進行等比縮放,且要符合YOLO輸入圖像分辨率為32倍數(shù)的條件,因此軸承數(shù)據(jù)集上模型測試使用分辨率640×640,數(shù)據(jù)集NEU上模型測試使用分辨率224×224,相比于YOLOv3,二者計算量FLOPs分別減少12 GB FLOPs和1.6 GB FLOPs,降低了模型復(fù)雜度.

上述實驗結(jié)果表明,改進后的YOLOv3I模型具有更強的多尺度特征提取能力,從而提高了模型預(yù)測框的置信度confobject,各類別的條件概率有提高,即提高了網(wǎng)絡(luò)模型的分類性能,因此具有更好的檢測性能,相比于YOLOv3,在均能檢測出缺陷時,YOLOv3I的分類精度更高,YOLOv3I可將YOLOv3漏檢的缺陷檢測出來,即檢測出更多的潛在缺陷,在工業(yè)缺陷檢測中具有較高的應(yīng)用價值.因此,使用多支路并行的卷積結(jié)構(gòu)替換單層固定大小的卷積可提高模型在具有多樣性缺陷類型數(shù)據(jù)上的性能,通過高效下采樣能使模型同時完成升維并減小特征圖尺寸,節(jié)省了模型參數(shù),并且性能有一定提升.

本文使用單階段檢測方法SSD作為對比方法,并且SSD模型規(guī)模要大于YOLOv3,理論上SSD有更大的模型容量,模型特征表示能力應(yīng)更強.表2和表3列出了YOLOv3,YOLOv3I和SSD在兩個數(shù)據(jù)集上的對比結(jié)果.SSD同屬于單階段檢測模型,使用VGG16作為骨架網(wǎng)絡(luò),通過對比結(jié)果分析可知,因VGG比較繁瑣的設(shè)計,較高的計算量,在工業(yè)缺陷檢測較復(fù)雜的背景下其檢測精度不如YOLO模型.而本文改進方法減少了計算量,網(wǎng)絡(luò)模型更有效,模型精度也有一定提高.

表2 不同模型在軸承數(shù)據(jù)集上的性能對比

表3 不同模型在數(shù)據(jù)集NEU上的性能對比

3.6 消融實驗

為進一步說明改進模型的有效性,設(shè)置消融實驗,在軸承數(shù)據(jù)集和數(shù)據(jù)集NEU上分別驗證空間可分離卷積和高效下采樣結(jié)構(gòu)對改進模型的正向作用.

表4 軸承數(shù)據(jù)集上的消融實驗

表5 數(shù)據(jù)集NEU上的消融實驗

由于軸承數(shù)據(jù)集圖像分辨率長寬比不同,因此為盡可能多地保留圖像細節(jié),使用640×640分辨率進行測試,而數(shù)據(jù)集NEU圖像分辨率為200×200,為符合YOLOv3輸入圖像為32倍數(shù)的條件,使用224×224分辨率進行測試.由于二者使用不同分辨率進行測試,因此模型參數(shù)量規(guī)模相同時,在軸承數(shù)據(jù)集上的浮點計算量更高,因此模型在兩個數(shù)據(jù)集上復(fù)雜度不同.由表4可見,由于軸承數(shù)據(jù)集規(guī)模較小,因此原方法YOLOv3即可達到91.6%的平均準確率; 使用空間可分離卷積,模型調(diào)和平均值有所下降,而平均準確率小幅上升約0.8%,說明空間可分離卷積并未同時提升查準率和查全率,但相比原方法有所提高,并且模型參數(shù)量約下降18%; 使用高效下采樣后,調(diào)和平均值下降更多,反映了查準率、查全率二者提升不協(xié)調(diào),平均準確率約提升1.5%,相比原方法降低了模型參數(shù)量和計算量; YOLOv3I參數(shù)量下降24%,模型復(fù)雜度減小12 GB FLOPs,模型容量減小的同時精度提升,提高了模型的參數(shù)利用率和計算效率.由表5可見,數(shù)據(jù)集NEU規(guī)模相比軸承數(shù)據(jù)集較大,在融合空間可分離卷積和高效下采樣后模型平均準確率提高5.5%,模型復(fù)雜度下降1.6 GB FLOPs,與軸承數(shù)據(jù)集上結(jié)果相同,提高了模型參數(shù)利用率,證明了本文方法的有效性.

綜上所述,本文通過修改YOLOv3骨架網(wǎng)絡(luò)DarkNet-53,使用多支路并行卷積替換其段5的標準CNN卷積模塊,增加了模型的寬度,對提取到的多尺度特征進行堆疊融合以更好地理解輸入數(shù)據(jù); 通過1×1卷積進行升維、降維,緩解了并行支路卷積堆疊引起的參數(shù)量爆炸問題,具有跨通道信息交流的作用,并加深了模型的深度; 使用空間可分離卷積不但保留了多支路并行卷積提取多尺度特征的優(yōu)點,將普通卷積分解為不對稱卷積,在保持感受野不變的前提下進一步減少參數(shù)量,在公開數(shù)據(jù)集NEU和企業(yè)提供的軸承數(shù)據(jù)集上通過實驗證明了改進后模型性能的提升,并且通過設(shè)置消融實驗進一步證明了本文方法的有效性.