劉浩翰,王鈺濤,賀懷清,孫鋮
(中國民航大學 計算機科學與技術學院,天津 300300)
軸承套圈溝道是精度很高的工作表面,表面粗糙度(本文特指Ra值)可達0.02 μm,圓度可達0.50 μm,其工作表面的紋理對軸承壽命及振動的影響很大,一些情況下采用輪廓儀或圓度儀進行評價已經不能適應特殊要求。例如,工作表面的表面粗糙度小于0.05 μm后與軸承振動的相關性已經很差,甚至會在某些場合出現負相關,即隨著表面粗糙度的降低,軸承壽命和振動反而變差。
近年來,軸承行業對軸承工作表面的視覺評價方法進行了很多研究,但還未形成統一的標準,通常是各公司以圖譜的形式控制質量,無法直接在線檢查及實時反饋。國外某些著名軸承企業雖然在20年前就開始了視覺識別質量控制和光學分揀,但應用層面仍主要采用傳統的人工檢測方法[1],依靠操作人員手感及目測的方式進行表面缺陷的判斷與分類,效率低且主觀因素較強,容易導致漏檢和較高的錯誤率。
憑借客觀標準性和高效性優勢,計算機視覺技術逐步應用于工業生產中的圖像自動分類,其核心的圖像識別算法在具有明顯特征的數據集中可以達到較高的準確度。常用方法有LBP特征提取算法[2]、HOG特征提取算法[3]和Haar特征提取算法[4],其在實際應用中往往是針對特定數據集人為設計適合其特征的方法,由于人為設計難以涵蓋所有缺陷特征信息[5],此類算法所構建的模型復雜多變且效果不穩定。
深度學習的發展為圖像自動分類提供了解決契機[6-11],其利用多層卷積神經網絡對大量數據集進行學習并通過訓練提取特征,能夠緩解復雜特征圖像分類識別中建模困難的窘境。針對軸承溝道表面缺陷數據細節豐富,特征不突出,類間差異小,難以精確分類的特點,本文使用殘差塊作為主要特征計算方法,在深層網絡中融入Inception模塊[12]進行特征降維和拼接以獲取更多的圖像細節特征,在特征計算中引入批量標準化(Batch Normalization,BN)[13]進行數據正則化處理來加速模型收斂,并采用軸承溝道表面缺陷數據集進行了驗證,以實現軸承溝道表面缺陷的高精度分類。
殘差網絡模型[14]中殘差塊的提出有效緩解了深層次網絡模型訓練中梯度消失、模型退化的問題,近年來成為圖像分類的主流模型,但是對于類間差別小圖像的分類效果仍有待提升。網絡層次加深的同時,模型的訓練時間也隨之加長,內部數據分布偏移現象加劇,故考慮在每層特征計算后對數據進行正則化處理來減少數據分布偏移的影響,使用歸一化方法加快收斂速度。同時,在深層次模型訓練中,語義的宏觀表達能力增強,而對于軸承溝道表面缺陷數據集來說,豐富的細節特征對缺陷分類精度有重要影響,故在后期模型訓練中考慮使用不同尺度的卷積計算進行特征融合,以此提升網絡訓練模型的精度。
殘差網絡模型為多個殘差模塊的堆疊結構,殘差單元結構如圖1所示,殘差模塊改變了固有的堆疊網絡結構,增加了恒等映射,這樣通過殘差的計算緩解了深層次網絡梯度消失的問題。對于圖像差別細微、類間區別微小的軸承溝道表面缺陷數據集,殘差網絡模型雖然比較適合,但并不能通過簡單的加深網絡提升精度。

圖1 殘差單元結構Fig.1 Structure of residual unit
通過多次網絡數量和參數的調整試驗,在深度增加的同時進行圖像特征的融合,改進ResNet網絡模型的結構如圖2所示,其包括4個(殘差+BN)部分和2個(Inception+BN)部分,能夠在不過度增加層數、參數的同時保證準確率。模型訓練時在每次特征計算后加入BN正則化減緩數據分布偏移現象。在前期的特征計算中,殘差模塊中恒等映射的特殊結構可以很好緩解梯度消失的現象,進行網絡的堆疊計算。越到網絡深層,特征越抽象,而且每個特征所涉及的感受野也更大,故將Inception模塊放入網絡的較深層次,采用不同大小的卷積核進行特征計算以盡可能保證圖像的細節信息參與最終的分類計算,保證訓練精度。

圖2 改進的ResNet模型Fig.2 Improved ResNet model
1.2.1 殘差模塊+BN
為增強模型的穩定性并加快訓練速度,同時解決內部數據分布偏移的問題,使用批量標準化操作將每層結果數據進行處理,即
(1)

(2)

通過(2)式,特征值分布會重新拉回至標準正態分布,使特征值落于激活函數對于輸入的敏感區間,避免梯度消失并加快收斂。加入BN正則化后的殘差模塊內部結構如圖3所示。

圖3 殘差+BN模塊Fig.3 Residual+BN module
1.2.2 Inception模塊+BN
隨著網絡模型深度的增加,原始圖像經過計算得到的特征則更加抽象,因此在網絡的深層計算中引入Inception模塊。如圖4所示,每個Inception模塊由前攝入層、并行處理層和過濾拼接層組成。前攝入層為常規的卷積計算;并行處理層包括1×1卷積、3×3卷積、5×5卷積和2×2最大池化這4個分支,每次卷積計算后同樣進行BN正則化處理送入下層激活計算;過濾拼接層進行不同尺度卷積核計算后得到特征值的計算融合。采用不同規模、大小的卷積核計算,增加了網絡的寬度和對尺寸的適應性,不同支路的感受野不同,因此計算后的特征值擁有了多尺度的特征信息。

圖4 Inception+BN模塊Fig.4 Inception+BN module
工業原始數據的實際采集過程困難且數據量有限,需進行數據預處理后才能輸入改進ResNet模型進行缺陷分類。本文進行的數據預處理主要分為圖像缺陷區域檢測與提取、滑窗裁剪、數據增強3個步驟,如圖5所示。
試驗數據采集于國內某精密軸承生產企業,采集場景如圖6所示。由于套圈表面鏡面反光嚴重,不利于圖像采集,故采用D700同軸光源,在同軸燈中裝置一塊45°半透半反玻璃,將高亮度、高密度的LED陣列排列在線路板上構成一個面光源,面光源發出的光線經過透鏡后映照在半透半反玻璃上,光線經全反射垂直照在被測物體上,從被測物體上反射的光線垂直向上穿過半透半反玻璃進入30萬像素的工業相機攝像頭。這樣既消弭了反光,又防止了圖像中出現攝像頭的倒影,從而捕獲明晰的圖像用于進一步的剖析和處理。

圖6 數據采集Fig.6 Data collection
軸承溝道表面缺陷樣本共有1 230張圖像,其中短絲類267張、砂輪花類533張、正常類428張,各類別的原始圖像如圖7所示,原始圖像分辨率為640×480(單位為像素,下同)。

圖7 軸承溝道表面缺陷的原始圖像Fig.7 Original image of bearing raceway surface defects
缺陷部分在整幅原始圖像中的占比極小,需要進行缺陷區域提取。本文采用選擇性搜索的候選區域算法[15]將每幅圖像相似度高的區域進行依次劃分、合并,相似度計算中考慮了顏色、紋理、尺度和空間交疊這4個指標。
2.2.1 顏色

(3)
(4)
s(rt)=s(ri)+s(rj),
(5)
式中:C為用區域的L1范數歸一化后的向量;rt=ri∪rj;s()為區域的像素尺寸;下標i,j為區域索引號。
2.2.2 紋理

(6)
式中:t為求得的導數值。
2.2.3 尺寸
尺寸用于優先合并小區,其定義為
(7)
式中:s為整張圖像的像素級尺寸。
2.2.4 空間交疊
空間交疊用于優先合并被包含進其他區域的區域,其定義為
(8)
式中:Bij為能夠包含ri和rj的最小矩形框。
2.2.5 區域間最終相似度
將上述4個相似度以線性組合的方式組合在一起作為最終相似度。經選擇性搜索算法進行的短絲缺陷區域檢測效果如圖8所示,圖中紅框為從原始圖像中提取到的重點區域,由圖可知原始的短絲集中缺陷區域被成功檢測并提取。

圖8 短絲缺陷區域檢測及提取Fig.8 Detection and extraction of short wire defect area
對原始圖像集中缺陷區域檢測提取后,進行選定分辨率規格(100×120)的滑動窗口裁剪并進行精確分類以保證數據集的質量。
如圖9所示,短絲類的特征為表面被明顯勾起,有片狀的凸起;砂輪花類的特征為表面有小孔形態的壓痕且小孔分布較為稠密;正常類的表面特征為表面平滑,紋理順暢,色澤過渡平滑且均勻。

圖9 滑動窗口裁剪后的軸承溝道表面缺陷圖像Fig.9 Surface defect image of bearing raceway after cutting of sliding window
深度學習的優勢在于從大量數據中進行特征學習來不斷優化模型,大規模且優質的數據是深度學習的基礎,但從工業生產中獲得的圖像數據集有限,故需要進行數據集擴充。
使用數據增強方法對原始圖片進行灰度化處理、旋轉平移、顏色通道變更、銳化增強、高斯模糊等組合操作,進行數據集的擴充。數據增強后的數據集包含各類圖像共7 380張,其中短絲類1 602張、砂輪花類3 210張、正常類2 568張。短絲類圖像經過數據增強后的部分圖像數據如圖10所示。

圖10 短絲類缺陷的部分圖像增強數據Fig.10 Some image enhancement data of short wire defects
原始軸承溝道表面缺陷數據集經過數據預處理后送入改進ResNet網絡進行模型的訓練與優化。將預處理后的數據集劃分為5 905張訓練集圖像(短絲類1 282張、砂輪花類2 568張、正常類2 055張)和1 475張測試集圖像(短絲類320張、砂輪花類642張、正常類513張)。試驗使用的深度學習框架為Tensorflow,Tensorflow-gpu版本為1.5,編程語言為Python,操作系統為Windows10,GPU配置為GeForce RTX 2060。
選用LeNet5模型與殘差網絡模型進行對比分析,評價指標為準確率、精確率、召回率和綜合評價指標,各指標計算公式為
(9)
(10)
(11)
(12)
式中:Faccuracy為準確率,代表分類正確的樣本數占總樣本數的比例;CTP為真正例,實際為正預測為正;CTN為真反例,實際為負預測為負;CFP為假正例,實際為負但預測為正;CFN為假反例,實際為正但預測為負;Fprecision為精確率,代表正確預測為正的數量占預測為正的所有樣本數量的比例;Frecall為召回率,代表正確預測為正占實際為正的樣本數量比例;F1為綜合評價指標,是精確率和召回率的調和平均值。
模型訓練過程如圖11所示,圖中橫坐標為訓練的迭代次數,縱坐標為相應指標的數值,其中train acc,train loss分別代表模型訓練時的準確率和損失值;val acc,val loss分別代表在測試數據集中驗證模型效果時的準確率和損失值。由圖11可知:LeNet5模型在訓練和驗證過程中的損失值一直維持在較高水平,準確率不高;改進ResNet模型的曲線更為平緩,準確率最高,收斂性也優于LeNet5和ResNet模型。

圖11 各模型的訓練過程Fig.11 Training process of each model
各模型的評價指標對比結果見表1,由表可知:LeNet5模型的各項指標數值在91%左右,ResNet模型和改進ResNet模型的各項指標均超過96%;與ResNet模型相比,改進ResNet模型各項指標(達到98.84%)均高于ResNet,這是由于改進ResNet模型加入了BN正則化的數據處理過程,使得loss值更快下降到相對穩定的較低水平,低于0.2且模型收斂性最好。在后期訓練過程中,Inception模塊的引入使得原始圖像的細節特征不易丟失,準確率更高。

表1 各模型的評價指標Tab.1 Evaluation indexes of each model
為驗證改進ResNet模型的魯棒性,選取相似的鋼材表面缺陷數據集NEU-CLS進行效果驗證,該數據集收集了熱軋鋼帶的軋制氧化皮、斑塊、開裂、點蝕、內含物、劃痕這6種典型表面缺陷,如圖12所示。該數據集包括1 800個灰度圖像,每類缺陷各300個樣本。本文模型多次試驗的準確率均不低于98.02%,算法通用性較強。

圖12 熱軋鋼帶表面缺陷示意圖Fig.12 Diagram of surface defects of hot rolled steel strip
綜上,針對軸承溝道表面缺陷數據集分類問題,改進ResNet模型的各項指標最優,模型平均準確率可達到98%以上且收斂性更好。
針對軸承溝道表面缺陷圖像數據集差別細微的特點,提出適合此類數據特征的改進ResNet模型。與其他解決同類問題的模型相比,改進ResNet模型有效提高了軸承溝道表面缺陷圖像的分類準確率。若應用到實際生產,可以實現軸承溝道表面缺陷圖像的實時高精度分類。
在下一步工作中,將針對軸承廠家提供的第2批數據進行分類試驗,進一步優化網絡來實現更高的精度及更好的泛化性。