邱玥灝,王子佳,牛丹,劉銘皓,劉進波,丁軍軍
(1.江蘇省產業技術研究院,江蘇南京,210000;2.東南大學 自動化學院,江蘇南京,210096;3.南京科遠智慧科技集團股份有限公司,江蘇南京,211102;4.東南大學 網絡空間安全學院,江蘇南京,211189)
在全球范圍內推動工業4.0 戰略的浪潮下,“中國制造2025”提出了以推進智能制造為主攻方向的重要舉措,旨在提升中國制造業的信息技術水平[1]。然而,與其他國家相比,中國制造業整體基礎相對薄弱,缺乏足夠的競爭力。因此,針對中國制造業當前的實際情況,逐步進行智能化改造成為提升制造業水平的首選方案。在鋼鐵企業從個體裝置的自動化到整個系統的自動化,再到整個流程的智能化的逐步升級的過程中,存在許多難點。比如,鋼坯生產線的鋼坯物料跟蹤。通過實現鋼坯編號的自動化識別和跟蹤,提高生產效率和質量控制水平,為鋼鐵行業的發展和運營提供了重要支持。在傳統方式下,只能依靠人眼獲取鋼坯的編號信息。鋼坯編號在智能化改造研究中具有重要意義,通過對鋼坯進行編號,可以實現對每根鋼坯的唯一標識和追蹤,對于后續生產跟蹤和出廠管理至關重要。
雖然人工記錄仍然是主要的編號檢測方式之一,但它已經無法滿足新時代復雜任務的需求。因此,人們期望找到一種既能確保技術人員安全,降低成本,又能高效精確地進行鋼坯編號檢測的方法。
本文主要對鋼坯編號的檢測問題進行了研究分析,針對鋼坯編號檢測圖像破損以及檢測速度和精度的要求,提出了兩點優化。首先,提出了融合邊緣預測和生成對抗網絡的編號圖像修復算法,對鋼坯編號圖片中破損部位進行修復處理,使得檢測目標更加明確。然后,提出了改進的YOLOv5網絡,該網絡使用MobileNetv3 取代了YOLOv5 特征提取網絡Backbone,減少了網絡的參數量和計算量,提高鋼坯編號檢測的速度。同時為了彌補MobileNetv3 帶來的小精度降低,使用空間和通道注意機制替換MobileNetv3 的SE注意力模塊,并使用SiLU 激活函數替代ReLU 激活函數。這彌補了鋼坯編號檢測精度的損失,增強了算法的鋼坯編號的特征的提取能力。最后,利用改進后的YOLOv5 網絡對修復后的鋼坯編號圖片進行檢測。
本文的圖像修復網絡如圖1 所示。網絡采用對抗模型結構,包括邊緣生成器和平滑結構重構器。邊緣生成器Ge預測圖像的邊緣結構Epred,并為下一階段提供指導。平滑結構生成器Gs 根據Ge 生成的邊緣結構Epred 預測圖像的平滑結構,生成整體結構圖像Spred。生成器通過編碼器和解碼器實現,利用擴張卷積在解碼器的殘差層進行特征圖的上采樣,擴大感受野(擴張因子為8)。判別器在本模型中采用了70×70 PatchGAN 結構設計,這一獨特架構使其具備精細的局部判別能力。通過這種方式,PatchGAN 能夠聚焦于圖像的局部紋理和細節,實現對生成圖像與真實圖像間細微差別的敏銳捕捉。此外,為了增強模型的泛化能力和訓練穩定性,判別器還運用了實例歸一化技術(Instance Normalization)。

圖1 網絡結構
Jiahui Yu[2]及其團隊提出了一種頻譜歸一化馬爾科夫鑒別器(SN-PatchGAN)模型,專用于處理具有復雜形狀破損情況的圖像修復問題。該模型具體結構細節如圖2 所示,通過引入頻譜歸一化等技術強化了對圖像局部特征的學習與重建能力,有效提升了圖像修復的質量和真實度。

圖2 頻譜歸一化馬爾科夫鑒別器
鑒別器的輸入包括圖像、掩膜和引導通道,輸出一個形狀為Rh×w×c的3D 特征圖。鑒別器由6 層卷積層組成,每層使用大小為5、步長為2 的卷積核,以捕捉Markovian 塊的特征信息。通過對生成的特征圖應用對抗損失,得到與特征圖中元素數量相等的損失,每個損失對應圖像中不同區域和語義表示。使用SN-PatchGAN 提高了圖像修復網絡的訓練速度和穩定性。
(1)圖像邊緣預測
邊緣檢測是圖像處理與計算機視覺領域中的核心基礎問題之一,其主要任務在于精準識別并定位圖像中因亮度突變而形成的邊界點。這一過程旨在通過敏銳地捕捉到這些顯著的強度變化來提取圖像的關鍵結構特征,從而在保留圖像本質信息的同時,有效地壓縮數據量,剔除冗余及無關細節內容,實現對圖像結構的精煉表達和高效理解。目前有多種邊緣檢測方法,在本文中采用Canny[9]算子計算的邊緣圖來訓練改進模型,這充分考慮了Canny 和HED[10]各自的優缺點。
(2)邊緣結構生成器
邊緣保留平滑方法旨在去除圖像中的高頻紋理,同時保留不同對象的尖銳邊緣和結構信息,以獲取整體結構。設真實圖像為Igt,真實圖像的邊緣保留平滑結構圖像為Sgt,其中Sgt的邊緣圖為Egt,灰度圖像為Sgray。在邊緣生成器中,輸入包括帶孔的平滑結構圖像的灰度圖,邊緣圖和圖像掩膜M(其中1 表示源區域,0表示缺失區域)。這里,⊙表示逐元素乘積操作。邊緣生成器預測掩膜區域的邊緣圖Epred:
在這個階段,我們使用真實邊緣圖Egt和預測邊緣圖Epred作為鑒別器的輸入,并通過鑒別器來判斷輸入邊緣圖的真實性。該網絡采用聯合損失函數Le,它是對抗損失和特征匹配損失LFM的相加。該損失函數的計算公式如下:
判別器的特征表示為De。特征匹配損失LFM。雖然感知損失與特征匹配損失類似,都比較了選定層的激活圖,但二者有所區別。感知損失是基于VGG 網絡的選定層來比較,但由于VGG 網絡未經過邊緣生成訓練,無法準確捕捉早期階段的邊緣信息。因此,感知損失無法滿足準確預測邊緣信息的需求。為滿足這一需求,在本階段采用特征匹配損失LFM,其計算公式如下所示:
Ni被定義為第i 個激活層中神經元的數量,則特指鑒別器模型的第i 層的激活。
譜歸一化(Spectral Normalization,SN)通過計算并調整權重矩陣的譜范數以確保其最大奇異值恒定為1,從而達到穩定整個訓練過程的目的,并有效約束網絡的Lipschitz 連續性常數,這是控制GAN 等生成對抗網絡訓練不穩定性的重要手段。
譜歸一化起初僅被應用于GAN 的鑒別器部分,用以克服訓練中的梯度消失或爆炸問題。然而近期的研究發現SN同樣能給生成器帶來顯著益處。
因此,在該階段,SN 不僅應用于鑒別器,也應用于生成器。該階段的邊緣結構預測流程如圖3 所示。

圖3 邊緣預測流程圖
(1)邊緣保留平滑方法
圖像平滑需要突出低頻成分、抑制高頻成分,并減少梯度的突變。傳統的圖像處理方法通常使用圖像卷積平滑操作,如高斯濾波和均值濾波,以去除噪聲。然而,這些方法會模糊邊緣信息。改進方法如雙邊濾波在邊緣保留方面有進展,但仍存在邊緣信息丟失的問題。綜上所述,本部分旨在保持圖像結構并消除紋理,通過不同的方法來進行圖像平滑操作。
(2)平滑結構重構器
在圖像修復流程中,為確保生成的修補內容具備連貫性、合理性及真實性,本章節引進了結構重構器Gs,該模塊旨在有效恢復受損圖像的整體構造和細節連續性。該階段的輸入是部分破損的結構圖像,通過將其與合成的邊緣圖進行組合來生成填充了破損區域的結構圖像Spred:
該階段,使用了聯合損失,包括 ?1損失、對抗損失、感知損失和樣式損失。 ?1損失衡量了預測結構Spred與真實結構Sgt之間的差異:
為了模擬目標結構Sgt的分布,結構重構器還引入了對抗損失。sG的對抗損失寫為:
其中鑒別器sD用于區分真實結構和預測結構。感知損失 Lperc通過衡量預測圖像和真實圖像在預訓練網絡中對應激活圖之間的差異來懲罰感知上不相似的結果:
感知損失使用了預訓練網絡的多個層(如relu1_1、relu2_1 等),并通過計算它們的激活圖之間的差異來量化感知損失。整體損失函數 Lstyle由 ?1損失、對抗損失、感知損失和樣式損失組成,各部分的權重可以調整以達到最佳效果。
樣式損失用于消除感知損失中的棋盤偽影,它通過計算高階特征的格拉姆矩陣之間的差異來衡量。該階段的整體損失函數?s 為:
需要注意的是,在結構重構器中沒有使用頻譜歸一化,因為它會增加網絡訓練的時間并限制網絡的表達能力。該階段的預測圖像平滑結構的流程如圖4 所示。

圖4 平滑結構預測流程圖
YOLOv5 相比于YOLOv4,在網絡的靈活性和檢測速度方面有顯著改進。它根據網絡的寬度和深度分為四個版本:YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x。本文選擇基于YOLOv5s 進行改進,以在檢測速度和精度之間取得平衡。
鋼坯編號圖像的模糊不清給檢測帶來了困難,導致準確度下降和漏檢情況增多。因此,從實際需求來看,YOLOv5模型無法完全滿足要求。為了提高檢測速度,本文使用MobileNetv3 替換了YOLOv5 的骨干結構,并引入了空間通道注意力模塊(CBAM)來提高對鋼坯編號的檢測精度。此外,在骨干結構中使用SiLU[11]激活函數替代ReLU[12]可以加快模型收斂速度和訓練效果,進一步提高模型的精度。
本文選擇了基于神經架構搜索(NAS)的MobileNetv3[6]網絡作為替代的主干特征網絡。MobileNetV3 網絡包含Large 和Small 兩種版本,其中Large 版能在精度與速度間取得平衡。該模型的conv2d 模塊結合了常規卷積、批量歸一化以及h-swish 激活函數以增強特征表達能力;bneck模塊則采用深度可分離卷積,有效降低模型參數量并提升運算效率,尤其適合移動端等資源受限環境。MobileNetv3在bneck 模塊中具有多個優點和獨特特性。(1)引入SE 注意力模塊(SENet[13]),通過擠壓和激勵操作調整特征通道的重要程度。(2)使用深度可分離卷積(DWConv),由深度卷積和逐點卷積組成,降低網絡的計算和參數量。(3)使用線性瓶頸的殘差倒置結構擴展輸入特征,通過1×1 的Conv 卷積進行通道升維,然后使用3×3 的DWConv 卷積,通道數量逐漸減少,與傳統的殘差結構方式不同,如ResNet[4]。
本文提出使用CBAM[7]模塊代替MobileNet 網絡中的SE 模塊,以提高圖像注意力處理的精確度。CBAM 模塊在通道注意力機制基礎上增加了空間注意力機制,解決了SE模塊僅考慮通道權重的限制。通過CBAM 模塊,網絡的特征提取能力得到增強,重要信息得到突出,無關信息得到抑制,從而提取更關鍵的特征。CBAM 模塊由通道注意力模塊(CAM)和空間注意力模塊(SAM)組成,分別在通道和空間上進行特征提取。具體結構詳見圖5。

圖5 CBAM 網絡結構
改進的YOLOv5 模型將原本MobileNetv3 部分中的ReLU 激活函數替換為SiLU 激活函數。這一改變是因為SiLU 具有更好的穩定性,能夠加速模型的收斂速度并提高訓練效果。此外,SiLU 中引入的小量參數還能夠有效地提升模型的精度。
在改進版的YOLOv5 算法中,我們采用了Mosaic 數據增強方法。這種方法與CutMix[5]方法原理相似,都是通過組合多張圖片來擴充數據集,提高模型泛化能力。區別在于:CutMix 需要兩張圖片,而Mosaic 需要四張。
具體操作如下:Mosaic 從訓練集中隨機選擇四張圖片,按比例縮放裁剪至相同尺寸,然后拼接成一張虛擬圖片作為新輸入進行訓練。
使用Mosaic 方法可以在不增加訓練時間的情況下有效擴充數據集,提高模型性能。同時,由于使用了更多圖片組合,能更好地捕捉目標信息,提高檢測精度。
(1)網絡檢測準確度
平均而言,加上MobileNet 的YOLOv5 的檢測精度有所降低,但使用CBAM 模塊替換SE 注意力模塊后,改進后的YOLOv5 的檢測精度和mAP(平均AP)比YOLOv5 分別平均提高了7.5%和3.47%。

表1 YOLOv5改進過程性能對比
(2)檢測速
為了更顯著地比較算法之間的效果,我們比較了不同算法的檢測能力。實驗結果如表2 所示。盡管Resnet50-SSD 的檢測速度高達44.48fps,但其平均精度最低。YOLO 系列使用端到端方法直接返回對象的類、置信度和位置,這比兩階段方法更快。改進后的YOLOv5(引入MobileNet)的方法,準確率比YOLOv5 下降了,但是檢測速度得到了大幅提升。使用通道和空間注意力模塊(CBAM)后,改進后的YOLOv5 的檢測速度略有降低,但是檢測準確率得到了有效地提升。盡管本文提出的改進后的YOLOv5 的檢測速度比Resnet50-SSD 慢約4.13fps,但它的平均精度比Reset50-SSD 高27.97%,仍然可以滿足鋼坯編號識別的需要。

表2 不同模型的檢測能力
為了進一步提高編號檢測的精度,將融合邊緣預測和生成對抗網絡的圖像修復方法作為應用改進后的YOLOv5 檢測鋼坯編號的前提。
如表3 和表4 所示,顯示了系統應用融合邊緣預測和生成對抗網絡的圖像修復技術前后的性能比較。平均而言,該實驗中改進后的YOLOv5 的檢測精度和mAP(平均AP)分別提高了1.17%和0.51%。

表3 改進的YOLOv5檢測效果

表4 結合圖像修復的改進后YOLOv5檢測效果

表5 檢測速度對比
但是我們也發現,系統整體的檢測速度從40.35fps 降低到20.42fps,這是由于GAN 的加入導致的。但降低的速度依舊可以滿足檢測需求,對于系統整體而言利大于弊。
鋼坯編號智能檢測系統設計流程圖如圖6 所示,該鋼坯編號智能檢測系統是為了實時跟蹤鋼坯在生產線上的位置而開發的。系統通過軌道式平板行車將鋼坯從生產線移動到堆放區,并使用三維掃描系統進行位置檢測。相機位于軌道一側,三維掃描系統對軌道式平板行車進行持續跟蹤定位,相機固定不動。當滿足觸發條件時便發出觸發信號給相機。系統會將采集到的圖片存儲在服務器的FTP 文件夾中,并按照時間命名。然后,系統會循環監聽FTP 文件夾,檢測過去15s 內的圖片,并進行識別處理。整個過程持續30s,根據現場相機位置與軌道式平板行車行進速度進行調節,時間約等于一輛軌道式平板行車完整地運行過相機前側的所需時間。對采集到的鋼坯圖像進行定位、修復、檢測,完成檢測任務。最后將檢測到的編號與連鑄數據庫進行二次驗證,驗證成功則證明本次檢測正確,將檢測結果存入數據庫,失敗則引入人工介入,查看和反饋問題。

圖6 系統設計流程圖
為驗證識別結果,鋼坯編號識別結果與連鑄數據庫進行比對,以提高編號識別準確率,對比流程如圖7 所示。如果連鑄數據庫中查不到板坯原PDI 數據,則引入人工干預,人工錄入鋼坯編號,并將問題記錄并反饋,有助于未來一步一步提高鋼坯編號識別精度,進一步減少工人介入頻率。

圖7 編號識別結果與數據庫對比流程
系統使用MySQL 數據庫對出爐鋼坯信息進行數據存儲,這樣做是基于數據采集頻率和存儲維護要求的考慮。具體而言,鋼坯信息包括鋼坯編號、出爐時間、圖片存儲路徑、生產標準、生產規格等關鍵信息,均會被存儲在MySQL 數據庫中。
運行步驟如下:首先,對系統進行數據庫配置,輸入數據庫端口號、密碼等,如圖8 所示。

圖8 數據庫配置
然后,裝載有印著編號的鋼坯的軌道式平板行車進入三維掃描系統的掃描范圍之內,三維掃描系統跟蹤軌道式平板行車的移動,當軌道式平板行車運行到指定位置時,觸發識別信號,相機采集鋼坯照片,并上傳服務器。鋼坯編號智能檢測系統開始對對應文件夾中的鋼坯圖像進行識別。如圖9所示。

圖9 鋼坯編號智能檢測系統軟件
二次驗證失敗的鋼坯編號,說明編號檢測失敗,則需要人工介入,補錄界面如圖10 所示。歷史補錄總結如圖11所示。

圖10 編號補錄

圖11 編號歷史補錄總結

圖12 編號識別后數據庫鋼坯編號相關信息
鋼坯編號檢測完成后,將在數據庫呈現鋼坯編號的相關信息,如檢測時間、生產標準、跨區、存儲位置、庫區編號、車號、跨號和是否人工介入等。
本論文研究在江蘇某鋼鐵集團實踐證明是可行的,項目已平穩運行半年,累計運行次數超過2800 次,運行效果優良。表6 展示了基于本文的鋼坯編號智能檢測系統在實際應用中與傳統的人工識別方式相比,檢測性能得到了一定的提升。

表6 基于本文的鋼坯編號檢測方式與其他檢測方式性能對比
鋼坯編號字符的平均檢測準確率達到98.60%,檢測速度達到15fps,有效提高了庫區無人化作業效率。
本論文研究在江蘇某鋼鐵集團實踐證明是可行的,項目已平穩運行半年,累計運行次數超過2800次,運行效果優良,平均檢測準確率達到98%,檢測時間達到15fps,有效提高了庫區無人化作業效率,獲得一致好評。