梁智濱,趙文義,李靈巧,楊輝華,
(1.桂林電子科技大學 電子工程與自動化學院,廣西 桂林 541004;2.北京郵電大學 人工智能學院,北京 100876;3.桂林電子科技大學 計算機與信息安全學院,廣西 桂林 541004)
分切是電動汽車動力電池生產中重要生產工藝,其刀具質量尤其是刃口豁口的大小和數量決定了分切產生毛刺的深度和數量。因磨削不合格、安裝及使用等原因,分切刀具會產生大小、形狀各不相同的豁口。極片切割工藝要求采用μm 級的高精度標準,而使用超過豁口閾值(如長度或深度為5 μm)的分切刀具進行切割時,生產的電池因極片存在較大的毛刺,有極高的短路風險。業內目前普遍采用人工裸眼在光學顯微鏡上觀察的方法獲得刀具豁口圖像,檢測一把常規刀具約需50 min,視覺損傷大且工作繁重。文獻[1]提出一種刀具豁口的高精度自動檢測系統,檢測單把刀具約需10 min,并成功應用于B 公司。由于刀具有油易于粘附,使用、轉運和現場檢測環境潔凈度較差,在刃口處易粘連金屬附著物、毛發、棉絮等形態各異的附著物。附著物一方面影響了顯微成像時自動對焦和清晰成像,另一方面形成刀具偽邊緣,導致顯微圖像拼接[2]失敗,增加豁口誤檢率和漏檢率,嚴重影響系統檢測精度。因此,準確檢測并去除附著物是刀具豁口高精度自動檢測的難題。
國內外在附著物檢測、異物檢測、缺陷檢測等領域已經取得了一定的研究進展。在傳統機器視覺領域中,文獻[1]提出一種基于邊界敏感的豁口缺陷檢測算法,該算法在一定程度上解決了豁口缺陷的精確測量問題,有效性僅限于無附著物的豁口缺陷,對于含附著物的豁口,仍存在檢測結果不精確、無法檢測等問題。LI 等[3]利用擒縱輪的輪廓作為先驗知識,結合附著物邊緣曲率變化較大的特點,分離了附著物和工件,從而修復了目標輪廓。GUO 等[4]把含異物的機場跑道分解成高頻和低頻部分,高頻部分采用小波變換的尺度邊緣檢測,低頻部分采用形態學邊緣檢測,然后融合高低頻兩部分得到異物檢測結果。ZHANG 等[5]設計了液體藥品異物檢測系統,根據異物運動軌跡連續的特點,利用序列圖像檢測異物。煙葉中參雜有異物紋理、顏色等信息不同的特征,采用Laws 和SVM 算法分別進行兩次分類,可有效提出煙草中的異物[6]。ISKANDAR 等[7]提 出CEST 顏色腐蝕分割算法,對胡椒漿果樣品中參雜的異物進行檢測,其材料在顏色特征上區分度較大。以上方法基于附著物與背景間的紋理、灰度值、形狀、顏色等存在較為明顯的特征,然而本文研究的刀具附著物利用上述特征不能與刀具進行有效區分。
在深度學習領域,LIANG 等[8]改進Faster RCNN目標檢測算法,對高壓設備缺陷區域進行定位。JING 等[9]改進YOLOv3 的棉花異性纖維檢測網絡,利用數據增廣和多尺度特征提高了檢測精度,但目標檢測任務不能精準地去除附著物。CAO 等[10]采用可形變卷積模塊,通過計算額外偏移量,比普通卷積擁有更大的感受野,但同時也增加了計算量。在軟注意力機制中,LI 等[11]提出了低劑量CT 去噪網絡,把自注意力與3D 卷積相結合,達到了更好的去噪結果。LIU 等[12]將自注意力與殘差模塊相結合,重構出更多的高頻信息,提高了超分辨率人臉重建質量。ZHANG 等[13]提出自我注意生成對抗網絡,有效構建了跨圖像區域的多層次依賴關系。在硬注意力機制方面,BA 等[14]提出多目標識別網絡,只針對數字像素區域提取特征,使非像素區域的梯度為0,導致梯度不能繼續傳遞,從而增加了訓練難度。盡管相關異物檢測、定位和去除網絡研究均取得了一定成果,但應用于本文問題,仍存在不足:均沒有對網絡提取的特征加以區分,缺乏對目標的針對性學習,導致計算資源浪費在背景等無關特征上;深層的網絡中包含大量的冗余參數,更容易出現過擬合現象,而且耗費較大的計算量和儲存空間,降低了網絡的運行效率。
針對現有研究方法無法有效提取復雜附著物特征,導致附著物存在誤去除和刀具邊緣扭曲的問題,本文提出一種結合自注意力的附著物去除網絡(Attachments Removing Network,ARNet)。通過二值掩膜特征提取模塊輔助區分光源與刀具區域,引入去除過程學習模塊(Removal Process Learning Module,RPLM)提取附著物去除過程中的時序信息,并利用自注意力精確分離模塊提取注意力分數加權后的附著物特征,強化不同形態的附著物特征提取能力。此外,在網絡訓練過程引入邊緣損失函數,從而約束網絡對邊緣的修復能力。同時,引入深度可分離卷積減少網絡中的冗余參數,加快網絡訓練進程,以達到工業現場對速度的要求。
本文所提刀具附著物去除網絡ARNet的結構如圖1 所示,本文參考了PReNet[15]網絡的設計思路,在特征提取模塊中引入自注意力機制(Self-Attention,SA)[16]加強特征提取能力。同時,在殘差結構中引入深度可分離卷積[17],減少自注意力機制增加的計算量,從而設計出效率更高、參數量和計算量更少的ARNet。該網絡包含二值掩膜引導模塊(Binary Mask Guided Module,BMGM)、去除過程學習模塊、自注意力精準分離模塊(Self Attention Refined Separation Module,SARSM)和特征整合模塊。此外,根據刀具圖像的背景特征,調整了網絡的遞歸次數,其中遞歸T次后的輸出圖像公式如下:

圖1 附著物去除網絡的結構Fig.1 Structure of attachments removing network

其中:XO為輸入的附著物圖像;F(X1,X2)為附著物圖像到無附著物圖像的非線性映射操作;YT為遞歸T次后的附著物去除圖像;n為總遞歸次數。當T=1 時,F(X1,X2)輸入為2張相同附著物的原圖XO;當T=n時,F(X1,X2)輸入為XO和YT-1。
刀具刃口圖像中的附著物種類有金屬屑、毛發、棉絮等,其中毛發表面較為光滑,存在反光現象,導致毛發區域不完整,難以提取其完整的形狀特征;而棉絮的透光性好,成像后易造成偽影且其灰度值較低,經過若干次卷積后,權重響應越來越低甚至為0,去除效果差。為解決上述問題,本文提出二值掩膜引導模塊,利用Ostu 二值化算法,生成刀具圖像掩膜,從而引導網絡依據附著物形狀特征,更完整地去除附著物。其中Ostu 二值化是一種自適應的閾值確定算法,通過計算類間方差的最大值得到最佳的分割閾值,計算公式如式(2)所示:

其中:ω0(T)和ω1(T)分別表示閾值為T時圖像中附著物與刀具像素的概率和白色光源為背景像素的概率;μT為圖像灰度的均值;μ0(T)和μ1(T)分別表示附著物與刀具像素區域的均值和光源背景區域的均值。
在刀具刃口圖像中,計算得到目標和背景的最佳分割閾值后,得到二值化掩膜,如圖1 中輸入部分所示。在各遞歸過程開始前,結合前一次遞歸去除結果、二值化掩膜引導特征和附著物原圖,合并構成9 通道的特征圖并作為網絡的輸入,通過3×3 的卷積提取二值掩膜引導下的淺層特征,利用ReLU 激活函數進行激活。
在附著物網絡遞歸過程中,附著物經過多次去除直至完整去除,本文提出去除過程學習模塊,該模塊借鑒了LSTM[18]的思想,增強網絡在周期維度上的特征提取能力,有效提取附著物遞歸去除過程中的時序信息。LSTM 改進了原始的遞歸神經網絡,通過對遺忘門、輸入門、候選細胞態和輸出門的控制,決定流動特征的取舍或遺忘,從而有效地防止網絡訓練過程中的梯度爆炸和丟失現象,并提取時序信息。在去除過程學習模塊中,通過改進的卷積運算和激活函數實現門單元的控制,其中改進的卷積運算采用深度可分離卷積,在有效提取時序信息的同時加快了特征的提取速度。
刀具附著物分布在刀具和白色光源的交界處,且由于刀具和附著物區域缺少紋理特征,極為相似,難以對兩者進行有效區分。如果采用普通的殘差模塊提取深層特征,則缺乏針對刀具邊界區域的學習,在附著物粘連的邊緣處容易出現扭曲現象。針對上述問題,本文提出自注意力精準分離模塊,該模塊借鑒了編解碼器(Encoder-Decoder)結構的思想,利用編碼器提取輸入的刀具附著物圖像中的語義部分,把附著物區域與刀具和光源區域有效地劃分,并利用自注意力機制分解附著物區域的特征,令解碼器把刀具和光源區域特征還原。其中,自注意力機制可以作為圖像響應的向導,在輸入的特征序列中,分別計算特征在任意位置的響應,從而獲得全局信息,動態調節特征圖譜中的網絡權值,達到聚焦于附著物區域的效果,從而更好地分離圖像中的刀具部分和附著物部分。
本文所提SARSM 模塊的結構如圖2 所示,首先編碼器部分通過2 次步長為2 的深度可分離卷積后,把尺寸為100×100 像素的特征圖下降到25×25 像素,然后通過如圖2 所示的SA 自注意力模塊,具體步驟為:

圖2 自注意力精準分離模塊的結構Fig.2 Structure of self attention refined separation module
1)特征Q與特征K構建對應位置的依賴關系;
2)輸入的特征圖譜Q以轉置相乘的方式和K共同構成全局依賴關系字典,再經過權值系數調整后,由Softmax 函數激活,構建尺寸大小為625×625 像素注意力分數矩陣;
3)在全局依賴關系字典中,得到被查詢特征V上的某位置的真實響應,從而得到增強后的注意力特征。
其中SA 模塊的輸出公式為:

最后,解碼部分利用編碼和自注意力加強后的特征由卷積和2倍上采樣逐步提升通道尺寸至100×100像素,從而實現附著物與刀具邊緣的精準分離。
特征整合模塊將上一級的深層特征進行整合,通過3×3 像素的卷積,逐通道進行卷積,把維度從32下降到3。其圖像維度與輸入附著物圖像保持一致,且圖像尺寸保持不變,最后輸出附著物去除后的3 通道圖像。特征整合的計算公式如式(4)所示:

其中:YT為遞歸第T次的附著物去除圖像;Wo為3×3 的卷積核;R(x)表示網絡學習到的無附著物的深層特征;bo為輸出的偏置。
均方誤差(Mean Squared Error,MSE)是訓練網絡常用的損失函數,但由于平方懲罰容易丟失邊緣等高頻信息而產生模糊的視覺效果,因此,本文采用結構相似性指數(Structural Similarity,SSIM)作為主要的損失函數,SSIM 相比于MSE 在網絡訓練初期能學習到圖像的結構信息,減少因附著物誤去除產生的噪點,且能提高收斂速度。其中結構相似性損失函數LSSIM的計算公式如下:

其中:XGT和XT分別表示無附著物圖像和預測的遞歸去除T次后的無附著物圖像。根據式(5)可以求得XGT和XT圖像的結構相似度。由于該指數范圍為[0,1],且該值越接近1,表示兩幅圖越相近,因此把結構相似度的結果取負數作為結構相似度損失函數LSSIM。
本文的刀具圖像中高頻分量主要為刀具的邊緣部分,如圖3 所示,圖3(a)、圖3(c)為附著物圖像和去除附著物后圖像,圖3(b)、圖3(d)為對應的取拉普拉斯變換后的邊緣圖像。

圖3 拉普拉斯變換結果Fig.3 Laplace transform results
為了在去除附著物的同時進一步恢復邊緣細節信息,本文提出附加的邊緣損失函數,從而約束XGT和XT之間的高頻分量。邊緣損失函數定義為:

其中:L(XGT)和L(XG)分別表示通過拉普拉斯算子從無附著物圖像XGT和預測的遞歸T次后的無附著物圖像XT中提取的邊緣圖。
將邊緣圖像相減后取絕對值,并以相反數的形式求得附加的邊緣損失。總的損失函數Ltotal定義為:

其中;λ權重參數平衡了邊緣損失,在本實驗中設置為0.000 3。
實驗使用放大倍數為10 的Carl Zeiss 蔡司物鏡,靶面尺寸為1.1 英寸的Basler 工業相機,構成精度為0.345 μm/像素的光學系統。使用采集外徑約為110 mm,內徑約為90 mm 的某型號動力電池分切刀具。實驗從312 套刀具圖像中(每套300 張,每張圖像的尺寸均為4 096×2 160 像素),收集了567 張附著物圖像,其中包含訓練集510 張圖像,測試集57 張圖像,該數據集命名為TA567,樣本數據示例如圖4 所示。對含有附著物部分的圖像進行隨機裁剪,生成尺寸為100×100 像素含附著物和對應的無附著物圖像,共3 478 對,其中包含訓練集3 130 對圖像,測試集348 對圖像。

圖4 刀具附著物數據集TA567 的樣本示例Fig.4 Samples example of tool attachments TA567 data set
本文使用選擇峰值信噪比(PSNR)、SSIM 和交并比(IOU)這3 種圖像質量評價方法對附著物去除效果進行比較。其中,PSNR 通過計算生成圖像與原始圖像之間的像素差異來衡量圖像的重建質量,PSNR 以dB 為計算單位,數值越大表示重建質量越好,其計算公式如式(8)所示:

SSIM 是一種考慮人眼視覺感知的圖像質量評價方法,從圖像的亮度、對比度和結構3 個方面進行評價,用于衡量生成圖像與原圖的相似度。結構相似度的取值范圍為0~1,結果越接近1,表示兩幅圖越相近,計算方式如公式(9)所示:

IOU 用于測量預測區域與標注區域之間的相關度,本文采用附著物去除區域的最小外接矩形與附著物區域的最小外接矩形計算IOU。交并比的取值范圍為0~1,結果越接近1,表示相關度越高。
本文實驗環境平臺采用Intel 8700 6 核12 線程CPU,操作系統為Ubuntu16.04,Python 版本采用3.6,以Pytorch0.4.1 作為深度學習框架,使用NVIDIA TITANX 11G 顯卡對網絡進行加速訓練。網絡訓練采用Adam 算法優化策略,初始學習率為0.001,總共訓練100 個epoch,在第30、50、80 個epoch 時,調整學習率到原來的20%。小批量數據樣本Batch Size 為2,最大迭代次數為153 100。
在不同T取值下,ARNet 網絡與PReNet 網絡的對比實驗結果如表1 所示。實驗結果表明,隨著遞歸次數T的增加,各網絡的3 個評價指標均呈上升趨勢,在T=3 時遞增減緩,并在T=4 時趨于平穩,這表明各網絡在T=4 時,網絡性能趨于穩定。從表1 可看出,當T取不同值時,本文提出的ARNet網絡均比PReNet網絡評價指標更好,表明ARNet網絡特征提取能力更強,在附著物去除效果上更優。同時,ARNet 網絡的參數量和模型大小分別為0.023 M 和89.8 KB,而PReNet網絡的參數量和模型大小分別為0.169 M 和665.9 KB,相比之下,ARNet網絡的參數量更少且模型更小(降低為PReNet的86.5%),說明ARNet 網絡在去除過程學習模塊和精確分離模塊中引入的深度可分離卷積和編解碼結構能提取到關鍵的特征信息,在本文數據集上兼顧了速度和精度。當T=4 時,結果顯示本文提出的ARNet 網絡在PSNR、SSIM 和IOU 這3 項指標上,比PReNet 網絡分別提高了0.63%、1.016 dB 和3.48%,且計算量減少了90.9%,其中計算量采用FLOPs 浮點運算數來衡量。

表1 遞歸周期實驗結果Table 1 Experimental results of different recursion periods
定量的評價指標結果如表2 所示,本文提出的ARNet 網絡分割效果最好。本文以PReNet 網絡為基線網絡,對本文提出的BMGM、RPLM 和SARSM 這3個模塊進行了消融實驗。在PReNet 的基礎上,二值掩膜引導模塊(PReNet+BMGM)引入二值化后的掩膜特征后,能在多次遞歸過程中引導去除的部位,從而提高去除效果。去除過程學習模塊(PReNet+RPLM)比引入的BMGM 模塊在3 個評價指標上提升更大,說明去除過程學習模塊在多次遞歸結構下,能學習到去除部位的位置信息,而BMGM 模塊以網絡輸入特征為切入點,豐富了特征信息,卻在一定程度上缺少了掩膜中附著物的位置信息。去除部分和自注意力精準分離模塊(PReNet+SARSM)在評價指標上提升最大,說明編解碼機構能提煉出網絡中的有效特征。結合自注意力機制,注意力分數矩陣在像素級上進行特征的加權強化,對附著物去除起到了良好的促進作用。同時,本文提出的加權邊緣損失Ledge能進一步在網絡訓練中增加邊緣區域的約束,使網絡更關注邊緣細節修復,達到優化去除效果的目的。

表2 不同網絡的附著物去除性能對比Table 2 Comparison of attachment removal performance of different networks
如圖5 所示,本節將選取3.3 節遞歸實驗中網絡精度趨于穩定的ARNet(T=4),并 與DDN[19],JORDER[20]、RESCAN[21]和PReNet[15]網絡進行對比以驗證本文網絡的有效性。圖5 從上到下依次為含附著物的刀具圖像、Ground-Truth 附著物區域、DDN網絡、JORDER 網絡、RESCAN 網絡、PReNet 網絡和本文網絡的附著物去除結果。可以看出本文網絡對刀具邊緣的修復效果較好,能準確地分離出刀具區域和附著物區域,并且沒有出現誤去除附著物的現象。在其他網絡的實驗結果中,附著物和刀具的銜接部分出現了不規則的突起,而本文網絡恢復的豁口邊緣更平滑。此外,本文網絡針對不同種類的附著物均能保持較高的精確度,魯棒性良好。

圖5 附著物去除實驗的結果Fig.5 Result of the attachments removing experiment
本節選取上述主觀和客觀結果最好的ARNet 和PReNet 網絡進行豁口檢測效果的對比實驗。實驗從TA567 數據集中隨機選取8 個豁口樣本,分別用上述2 種網絡去除附著物,并在豁口檢測系統中分析豁口的長度、深度和面積參數,實驗結果如表3 所示,其中GT 表示無附著物。對于豁口的長度參數,本文網絡比PReNet 網絡更接近無附著物的豁口長度;在豁口深度比較中,網絡在豁口1 和豁口3 上具有相同的結果,分別為5.5 μm 和12.4 μm。其中網絡在豁口1的深度結果大于真實值5.2 μm,相差0.3 μm,均誤差在允許范圍內。在豁口2 和豁口6 結果中,ARNet網絡精準還原豁口深度,誤差為0;在面積參數中,得益于豁口長度和深度還原精度較高,本文網絡還原的面積更接近真實值。實驗結果表明,本文網絡去除附著物后,豁口檢測結果更優。

表3 無附著物與各網絡去除附著物后的豁口檢測結果分析Table 3 Gap detection results analysis of no attachments and after removing the attachments of each network
如圖6 所示為豁口1~4 的檢測效果圖(彩色效果見《計算機工程》官網HTML 版)。圖6 中的L、D和A分別表示豁口的長度、深度和面積。圖圖6(a)、圖6(b)和圖6(d)的豁口在去除附著物前,由于附著物的遮擋,只檢測出部分的豁口區域。如圖6(b)、圖6(j)和圖6(n)所示,經過PReNet 網絡和ARNet 網絡去除附著物后,豁口面積從203.4 μm2分別恢復到274.4 μm2和343.1 μm2,豁口區域恢復了34.9%和68.7%。圖6(c)中因附著物遮擋過多導致豁口漏檢,經過網絡處理后,圖6(k)和圖圖6(o)漏檢的豁口被完整檢出,降低了豁口檢測系統的漏檢率。由實驗結果可知,ARNet 和PReNet 網絡均能在一定程度上去除附著物。

圖6 豁口檢測實驗的結果示例Fig.6 Example of results of gap detection experiment
如圖6(i)~圖6(l)所示,附著物與刀具邊緣連接部分不平整。而圖6(m)~圖6(p)中上述連接部分較為平整,恢復后的刀具邊緣過渡平滑。由實驗結果可知,ARNet網絡中的自注意力機制提升了附著物與刀具邊緣連接處的還原精度,相比于PReNet 網絡,ARNet 網絡去除附著物的效果更優。為統計上述實驗中豁口檢測結果的誤差率,需對長度、深度和面積的誤差進行加權。如表4 所示,統計了附著物去除前(Origin)和無附著物(GT)的豁口檢測結果,計算出兩者的誤差。實驗數據顯示,附著物的存在對豁口的面積影響最大,其次是附著物的長度和深度。

表4 去除附著物前后的豁口檢測結果Table 4 Gap detection results before and after removal of attachments
豁口面積過大是電池極片產生毛刺的最重要因素,而豁口深度和豁口長度對產生毛刺相對敏感。因此,在計算檢測總誤差率時,根據豁口幾何參數對產生毛刺的敏感程度,設定面積、深度和長度的相應權重分別為0.5、0.3 和0.2。豁口樣本的總檢測誤差率如圖7 所示,總檢測誤差率由長度、深度和面積分別加權求和得到。在豁口編號為4 時,PReNet 網絡在T=4 時出現誤檢,附著物去除后的檢測結果比無附著物的檢測結果更差。本文網絡在8 個豁口樣本的誤差曲線最低,表明本文網絡ARNet 在T=4 時,附著物去除效果更優。

圖7 各網絡去除附著物前后的豁口檢測總誤差率Fig.7 Total error rate of gap detection before and after removal of attachments in each network
本文提出一種結合自注意力機制的附著物去除網絡,采用二值掩膜引導模塊區分目標區域和背景區域,通過學習模塊提取去除位置的信息,并利用自注意力精準分離模塊,在編解碼過程中使用自注意力機制強化附著物特征,以完整地分離開附著物與刀具區域,得到刀具輪廓平滑的無附著物圖像。實驗結果表明,本文網絡完整地還原了刀具邊緣,兼顧了較低的計算量和較高的附著物去除精度,提高了豁口檢測的準確率,同時增強了刀具豁口高精度檢測系統的穩定性和可靠性,可應用于工業檢測設備中。下一步將從多尺度、卷積方式(如引入可形變卷積)等方面優化網絡,解決小面積附著物對豁口檢測造成的不良影響。