基于改進可變形-端到端目標檢測模型的竹片缺陷檢測方法

2025-03-12 00:00:00馬良城徐筱茹伍希志

森林工程 2025年2期

摘要：目前，雖然已經有一些基于圖像處理技術的竹片缺陷檢測方案，但這些方案檢測存在種類較少、實用性較差且難以部署在機器上等缺陷，為此，提出一種改進的竹片缺陷檢測模型。該模型為改進的可變形-端到端目標檢測（Deformable-DETR）模型，首先將骨干網絡替換成由DCNv3卷積為核心而堆疊設計的InternImage，該網絡在保留卷積神經網絡（CNN）先驗特性的情況下還能捕捉到長距離依賴，使提取到的特征空間語義更豐富；然后在特征提取后新增一個采樣模塊，該采樣模塊將圖像特征抽象為精細的前景特征和少量粗糙的背景特征，不僅能去除冗余的背景特征信息，還能提取高語義前景信息；最后引入一種新穎的協作混合分配訓練策略，該策略通過訓練由一對多標簽分配監督的多個并行輔助頭，提高編碼器在端到端檢測器中的學習能力。此外，使用數據增強來擴展數據集，并使用遷移學習，以增強竹片缺陷的檢測。試驗結果表明，該改進方法可以提高模型的缺陷特征提取與解析的能力，并在測試數據集上取得了85. 7%mAP50（全類平均精確度），單張圖片推理時間為0. 28 s，檢測精度優于其他主流目標檢測模型，為竹片缺陷檢測提供新的方法。

關鍵詞：缺陷檢測；深度學習；空間特征采樣；協作混合分配訓練；計算機視覺

中圖分類號：S781. 9；TP391. 41 文獻標識碼：A DOI：10. 7525/j. issn. 1006-8023. 2025. 02. 014

0 引言

在當前“雙碳”背景下，綠色可持續的建筑材料應用越來越廣泛。竹子是伐后可再生、廢棄后可降解的天然生物質復合材料，由竹片作為原材料的集成材是一種有潛力替代傳統建筑材料的綠色工程材料［1］。為了提高竹片黏結性能和產品表面美觀性，需要對竹片進行缺陷檢測。竹片缺陷的類型主要有5類：蛀孔片、霉片、竹青片、竹黃片、黑節片和三角條。目前，在工廠實際生產中，竹片缺陷檢測主要采用人工檢測，因此，亟須研究竹片缺陷智能檢測方法。

在缺陷檢測方面，機器視覺是使用廣泛的研究方法，且最常用的是基于圖像處理的檢測方法，如基于最大類間方差法（OTSU）與CANNY算法的竹片缺陷圖像檢測方法對竹片缺陷檢測［2］。在基于深度學習的缺陷檢測領域內，常用的有如下幾種方法，卷積神經網絡（CNN）［3］、自動編碼器神經網絡［4］、深度殘差神經網絡［5］、全卷積神經網絡［6］和遞歸神經網絡［7］。近幾十年來，簡單CNN架構的網絡在大多數常見的計算機視覺（CV）問題中表現出了顯著的性能，但是這些方法提取的特征比較抽象和粗糙。LeNet卷積神經網絡結構是一種非常流行的LeNet網絡結構［7-8］，該網絡通常采用下面2種架構進行缺陷檢測：一種是堆疊結構復雜的CNN網絡，通過不同的網絡結構來提取圖像特征信息，并完成端到端訓練來檢測圖像中的缺陷［9］；另一種是將CNN與條件隨機場（CRF）模型相結合，以CRF能量函數為約束對CNN進行訓練或以CRF優化網絡預測結果，以實現對圖像中缺陷的識別［10］。

隨著計算機視覺技術的發展，越來越多優秀的目標檢測模型應運而生。例如單階段、雙階段的模型在缺陷檢測問題上也能帶來性能和效率的提升，但是以階段劃分的檢測模型存在非極大值抑制（NMS）［11］的問題，很難部署到嵌入式設備上。牟洪波等［12］通過基于灰度共生矩陣和模糊反向傳播（BP）神經網絡對木材缺陷識別，結果表明該方法平均識別成功率達到90%。Ferguson等［13］提出了一種基于區域Mask R-CNN［14］結構的X射線圖像鑄造缺陷識別系統，結果表明，訓練網絡同時進行缺陷檢測和缺陷實例分割，比單純的缺陷檢測訓練具有更高的缺陷檢測精度。王正等［15］基于改進YOLOv7算法進行木材八類缺陷檢測，結果表明改進后的模型在平均精確度（mAP50）上評分有4. 57%～6. 79%的提升，展現出令人信服的結果。

現有的視覺模型雖然在缺陷檢測中取得了一定研究進展，但存在以下問題：骨干網絡不能有效提取到數據的前景特征［16］；提取的特征圖背景信息過多而出現的冗余現象［17］；在一對一集合匹配的可變形-端到端目標檢測（Deformable-DETR）［18］模型中，作為正樣本分配的查詢太少會導致對編碼器輸出的監督稀疏，從而嚴重影響編碼器的判別特征學習。針對以上幾個不足點，本研究提出一種新穎的竹片缺陷檢測模型，針對圖像特征圖的背景信息過于豐富與空間冗余問題，引入采樣模塊對特征向量進行采樣，從而降低背景信息進行的干擾，通過協作混合分配訓練策略進行模型的訓練，在顯著減少模型計算的同時提高竹片缺陷檢測精度。與原始模型和其他主流模型相比，該模型計算更穩定，目標定位精度更高，為機器視覺和深度學習方法在竹片缺陷檢測中的應用提供理論基礎。

1 竹片數據集

竹片數據集是本研究團隊拍攝建立的。圖1為竹片圖像采集平臺，試驗硬件包括圖像采集裝置、光源系統裝置和暗箱。圖像采集裝置使用海康威視500萬像素互補金屬氧化物半導體（complementarymetal oxide semiconductor，CMOS）面陣工業相機MV-CAO50-12GC，相機鏡頭距竹片220 mm，光源系統使用是條形光源LED燈，長100 mm，采用線性光源控制器MYC-APT1024T2，可以線性控制光照強度。暗箱是由不銹鋼板材料焊接而成，為防止其內部表面因光源產生反光影像拍攝，在其內部貼滿黑色磨砂紙。

竹片缺陷圖片如圖2所示，包括蛀孔片、霉片、竹青竹黃片、黑節片4類缺陷圖片，每類各200幅，所有數字圖像為BMP 格式，圖像分辨率為2 448×2 048。圖2（a）蛀孔片為defection1，其中蛀孔一般較小，大部分邊緣較為清晰，少部分邊緣存在腐爛模糊的現象；圖2（b）霉片為defection2，其中有霉斑的表面積和色澤都不均勻，深色的幾近于黑色，淺色的幾近于綠色；圖2（c）竹青片與圖2（d）竹黃片為竹片的表面形態缺陷，為defection3，竹青片與竹黃片是由于切削量不夠，殘留了部分竹青或竹黃；圖2（e）黑節片為defction4，竹節部分顏色較正常竹節深，近于黑色。在得到原始數據后通過數據標注軟件LabelImg以及半自動化標注軟件Label Studio對圖像進行標注以制作數據集。數據集中的訓練集、測試集、驗證集劃分按照經典7∶2∶1的比例進行劃分。由于拍攝的竹片缺陷樣本較少，需要引入數據增強來擴充數據集。本研究使用的數據增強方式不僅有隨機翻轉、隨機裁剪、隨機比例裁剪并縮放等基礎數據增強方式，還有組合增強（AutoAugment），使數據增強在模型訓練中充分發揮作用。

2 研究方法

本研究基于DETR 的變種模型Deformable-DETR進行改進，先對DETR進行簡介，說明為何采用Deformable-DETR，然后詳細闡述本研究所提出的改進方案，從特征提取網絡的改進，到新增特征采樣模塊，再到引入協作混合分配訓練方案解決編碼器訓練過程的監督稀疏問題。改進模型（SAS-Deformable-DETR）流程如圖3 所示，在協作混合分配訓練策略下，先由骨干網絡提取竹片缺陷圖的特征，得到特征圖，再由采樣器（Sampler）對特征圖進行采樣，得到采樣特征圖，隨后將采樣特征圖輸入編碼器（Encoder）進行特征學習，最后將解碼器（Decoder）的輸出接入預測頭，得到預測框和分類標簽。

2. 1 DETR簡介

在不損失一般性的情況下，DETR利用具有參數θC 的主干卷積網絡C 來提取圖像特征圖F：

F = C（I，θC）。（1）

式中，I 為輸入圖像。

F 被視為網格結構的特征向量集F

F=｛fi，j ∈ RC | i =1，2，…，H，j=1，2，…，W｝。（2）

式中：fi，j 是位置（i，j ）處的特征向量；C 是特征通道的數量；H、W 是圖像特征圖的高度和寬度。網格結構的特征集F 被視為具有強語義信息的高級視覺標記集，并通過用θt 參數化的變換器Τ 轉換為檢測結果

{（clsk，boxk ）| k = 1，2，…，D} = T（ F，θt ）。（3）

式中：（clsk，boxk ）表示一個具有類別和邊界框的檢測對象；D 為固定檢測次數。

雖然DETR提取的特征集F 能均勻地跨越圖像中的空間位置并包含大量背景語義信息，但存在處理能力不能動態地分配給更相關的類似區域前景，而較少關注視覺場景的類似區域背景的問題，現有的Deformable DETR借鑒了可變形卷積（DCN）的思想，提出可變形注意力機制——每個特征點不需要與全部特征點進行交互計算，只需要與部分通過采樣獲得的特征點進行交互計算，并且對于采樣來說，采樣點的位置是可學習的。這種可變形注意力機制，能夠解決DETR收斂慢與特征分辨率受限的問題。

2. 2 特征提取網絡

在模型整體架構中，骨干網絡作為特征提取器對模型整體有著至關重要的作用。傳統卷積網絡以CNN為核心進行深度堆積以達到提取特征的效果，由于CNN局部性導致大部分CNN神經網絡不能捕捉到圖像中長距離特征之間的關系，而InternImage［16］這一骨干網絡是以可變形卷積（DCN）［19］為核心算子，將該核心算子與抽象塊相結合來構建基本塊堆疊而成，使骨干網絡不僅具有檢測下游任務所需的有效感受野，而且具有受輸入和任務信息約束的自適應空間聚合。與改進的具有較大卷積核的卷積網絡不同，InternImage的核心算子是一個卷積核大小為3×3的動態稀疏卷積，其優點主要有：①采樣偏移靈活；②根據輸入數據自適應調整采樣偏移量和調制標量；③卷積窗口是一個常見的3×3，避免了大密集核引起的優化問題和昂貴的成本，其架構如圖4所示。其中基本塊的核心算子為DCNv3，通過一個可分離卷積（3×3深度卷積后進行線性投影）傳遞輸入特征對采樣的偏移量以及調節尺度進行預測；根莖網絡（Stem）和下采樣層是為了得到不同尺度的特征圖，使用骨干網絡和下采樣層將得到的特征圖放縮至不同尺度。由圖4可知，在最開始放置根莖層，將輸入特征圖分辨率降低了3/4。根莖層由2個卷積核大小為3、步長為2、填充為1的卷積網絡，2個層歸一化（Layer Normalization，LN）層和1個GELU（Gaussian Error Linear）層組成，第一個卷積的輸出通道為第二個卷積的一半。類似地，下采樣層由步幅為2的卷積核大小為3和步長為1的卷積組成，后接一個LN層。其位于2個階段之間，用于對輸入特征圖進行2倍下采樣。

2. 3 特征采樣

由于對長平坦特征向量的注意力操作，當骨干網絡進行特征提取后得到特征向量，就存在一部分特征是冗余的。圖像通常包含除了目標對象之外的區域較大的背景，這些區域可能在提取到的圖像特征中占據很大一部分，并且，如果背景向量在特征向量中占比過高可能會對檢測目標對象產生干擾。為了解決這一局限，引入了一個采樣模塊，如圖5所示。該采樣模塊可以將圖像特征圖壓縮為由精細特征向量和少量粗略特征向量組成的抽象特征集［17］，再通過Transformer精細與粗略特征空間內的信息交互進行建模，并將特征轉換為檢測結果。該模塊可以自適應地在特征空間上分配計算，以提高計算效率。

輪詢Sampler：輪詢采樣器旨在獲得精細特征集F。通過一個采樣器使用小型元評分網絡用作排序策略，其中小型元評分網絡來預測每個空間特征位置（i，j ）的信息性得分

sij = ScoringNet（ fi j，θs ）。（4）

式中：sij 表示信息性得分，其分數越大，特征向量fij的信息量就越大。然后將所有分數{sij}排序，再取前N 個得分向量形成精細特征集Ff

Ff = [ fl，|l = 1，2，…，N ]。（5）

式中，fl代表精細特征向量。

為了使ScoringNet 能夠通過反向傳播進行學習，將預測的信息性得分sl作為采樣精細特征集的調節因子

Ff = [LayerNorm（ fl ）?sl，|l = 1，2，…，N ]。（6）

理想情況下，N 可能隨圖像內容而變化，但觀察到固定量采樣已經產生了良好的性能，即N = αL（L為向量長度），其中α 是一個恒定的分數值，將其命名為輪詢比率。

池化Sampler：上述輪詢采樣器提取精細特征集，剩余的特征向量主要對應于背景區域。為了將其壓縮成一個總結上下文信息的小特征集，通過一個池采樣器，對剩余的特征向量進行加權池化，以獲得固定數量的M 個背景上下文特征向量。形式上，剩余的特征向量集（Fr）為

Fr = F/Ff = { fr| r = 1，2，…，L - N }。（7）

將投影具有可學習權重W a ∈ RC × M的特征向量以獲得聚合權重ar ∈ RM

ar = frW a。（8）

并且投影具有可學習權重W v ∈ RC × C的特征向量以獲得投射向量

fr′ = frW v。（9）

用softmax對所有剩余的未采樣位置上的聚合權重（arm）進行歸一化

式中，r′為未采樣位置。

利用歸一化的聚合權重，對投影的特征向量進行聚合以獲得新的特征向量（fm），該特征向量總結了未采樣位置的信息

Zhao等［20］研究表明，上下文信息對于識別對象至關重要，并且信息之間可以通過不同尺度的特征金字塔進行聚合。池采樣器可以通過動態生成聚合權重來得到不同尺度的信息，與來自輪詢采樣器的精細集Ff一起，獲得所需的抽象集F*。

2. 4 協作混合分配訓練策略

由于Deformable-DETR 模型為集合預測模型，不像傳統的模型需要先提出候選框，最后再使用非極大值抑制（NMS）得到預測結果，所以不僅精度高而且能部署在硬件設施上。但是因為集合匹配需要解碼器的輸出準確，而模型存在編碼器輸出監督稀疏的問題，為了緩解這一問題本研究引入協作混合分配訓練策略［21］，該策略采用了不同的一對多標簽分配范式的多功能輔助頭。不同的標簽分配豐富了對編碼器輸出的監督，從而迫使編碼器具有足夠的辨別力，以支持這些頭的訓練收斂。圖6為協作混合分配訓練策略的框架圖，注意輔助分支只在訓練過程中使用。

具體來說，先定義編碼器的潛在特征為，通過多尺度適配器將潛在特征轉換為特征金字塔｛ 1，…， J｝，其中J 表示特征圖下采樣步長為22 + J，與ViTDet（Vision Transformer，檢測器）相似，特征金字塔是由單尺度編碼器的單個特征圖通過雙線性插值與3×3卷積進行上采樣得到的。對于多尺度編碼器，則只對多尺度編碼器特征?中最豐富的特征進行下采樣，以構建特征金字塔。定義的第K 個協作頭具有相應的標簽分配方式Ak，將{F1，F2，…，FJ}發送給第i 個協作頭，以獲得預測結果P?i。在第i 個協作頭，Ai 用于計算Pi 中正負樣本的監督目標。將G 稱為真實值，該過程可表述為

Pi{pos}，Bi{pos}，Pi{neg} = Ai （P?i，G ）。（12）

式中：{pos}和{neg}表示由Ai 確定的（j、Fj 中的正坐標或負坐標）一對集合；j 表示{F1，F2，…，FJ}中的特征索引；Bi{pos}是空間正坐標集；Pi{pos}和Pi{neg}是相應坐標中的監督目標，包括類別和回歸偏移。損失函數可定義為

Lenc i = Li （P? {pos} i ，P{pos} i ） + Li （P? {neg} i ，P{neg} i ）。（13）

需要注意的是，負樣本的回歸損失會被舍棄。對K 個輔助頭的優化訓練目標表述為

2. 5 優化器

本研究所使用的優化器為AdamW，AdamW 是在Adam（Adaptive Moment Estimation，優化器）的基礎上引入權重衰減（weight decay）正則化。Adam為Adaptive+Momentum，是由一階動量優化以及二階動量優化結合后的產物。Adam 優化算法可以描述為

式中：? 為增加分母穩定性的系數，通常取值為10-6，能在數值穩定性和逼真度之間取得良好的平衡；ɑ為學習率，能夠控制步長來解決收斂問題；mt為第t步的一階動量；Vt為第t 步的二階動量。

AdamW是在Adam的基礎上引入權重衰減，在Adam中，是直接將權重衰減添加到梯度中

gt = gt + λθt - 1。（16）

式中：gt為第t 步的梯度；θt-1為第t-1步中的模型權重；λ 為正則化系數。

而在AdamW中，正則化變成為

θt = θt - 1 - γλθt - 1。（17）

式中：γ 是學習率；λ 為正則化系數。

2. 6 損失函數

對于一張圖片Deformable-DETR會輸出N 個不同的邊界框（bounding box），通過對這N個邊界框以及生成的N個真實值進行最優二部圖匹配，根據匹配結果計算損失（loss）值。通過定義邊界框與真實值的匹配代價來使用匈牙利匹配算法得到最優二部圖匹配方案。

邊界框與真實值的匹配代價表示為

Lmatch =-1{c } i ≠? p? σ（i）（ci ）+1{ci ≠?}Lbox（bi，b?σ（i））。（18）

式中：1{c } i ≠ ? 是一個布爾函數，當ci ≠ ?為1，否則為0；ci是第i 個物體的類別標簽；σ （i）是第i 個目標匹配的邊界框的索引；p? σ（i）（ci ）表示模型預測的第σ （i）個預測框的類別為ci 的概率；bi 和b?σ（i）分別是第i 個目標的位置的真實值的坐標和預測框的坐標；Lbox 是2 個矩形框之間的距離。由IoU 損失和L1 損失構成，通過和來控制2個損失的權重，表示為

Lbox（bσ（i），b?i ） = λIoU LIoU（bσ（i），b?i ） + λL1‖bσ（i） - b? ‖ i1。（19）

式中，LIoU 使用的是GIoU損失。

當得到最優二部匹配后，根據匹配結果計算損失函數。模型的損失函數與匹配代價相類似，但是類別與測試用的是對數似然

3 試驗與結果分析

3. 1 試驗設置

本研究所有試驗均由遷移學習提供預權重，在預訓練的基礎上再利用本文數據集進行微調。代碼基于MMDetection［22-23］框架進行開發，所有試驗使用的數據集都是同一數據集，且進行相同的數據預處理和數據增強。為了進行公平地比較各類模型性能，遵循常見的實踐設置，用預先訓練的權重初始化主干，并默認使用1×（12個epochs）或3×（36個epochs）調度來訓練這些模型。所有這些檢測模型都由AdamW進行優化，初始學習率為1×10-4，并且網絡架構和損失函數在內的其他設置遵循基線進行設置以公平比較。

在評估模型性能時，計算混淆矩陣的3個主要元素：真陽性（TP）、假陰性（FN）和假陽性（FP），以實現平均精度（mAP）、精確率和召回率的計算。

3. 2 結果分析

3. 2. 1 骨干特征提取網絡分析

在進行模型試驗時，因為本研究的竹片缺陷檢測問題數據集規模較小、缺陷語義信息不豐富，所以使用遷移學習進行模型訓練，在預訓練權重模型的基礎上再進行初步測試。測試過程為：首先選取不同架構的骨干特征提取網絡在COCO（CommonDbjects in Context）數據集上進行測試，得到特征熱力圖；其次根據特征熱力圖選取性能較好的骨干特征網絡；最后進行模型后續模塊性能測試的試驗。在挑選測試原圖時，圖片要求有較少物體且物體能有明顯個性化特征，在COCO數據集中挑選圖7（a）作為測試原圖，圖7（b）為ResNet50提取的特征熱力圖，圖7（c）為ResNet101提取的特征熱力圖，圖7（d）為SwinTransformer提取的特征熱力圖，圖7（e）為InternImage提取的特征熱力圖。

由圖7對比可知，當骨干網絡的架構為Intern‐Image 時，其特征熱力圖提取的特征語義信息比ResNet 和SwinTransformer 的更詳細，這是因為InternImage在具有傳統CNN能學習稀疏空間位置的基礎上又引入具有全局關系建模能力的DCNv3算子。

3. 3. 2 消融試驗

在消融試驗中，本研究在SAS-Deformable-DETR 上分別驗證了協作混合分配訓練策略（CHAT）、Sampler 模塊，以及更換的BackBone 對竹片缺陷檢測的性能影響，結果見表1。

由表1可以看出，不同模塊以及改進對竹片缺陷檢測的貢獻。其中，采用協作混合分配訓練策略且使用InternImage骨干特征提取網絡、Sampler采樣模塊的模型性能在所有指標上都優于未添加任何組件的BaseLine模型。

通過在未更換骨干特征提取網絡情況下，對Sampler采樣模塊進行消融發現：

1）只應用協作混合分配訓練策略的模型性能優于只添加Sampler采樣模塊的模型（+12. 2%mAP50），由此可以得出結論，Sampler采樣模塊適用于提取特征較為豐富的情況下，并且協作混合分配訓練策略可以大幅度改善DETR模型的缺點帶來性能提升。

2）只應用協作混合分配訓練策略的模型性能優于BaseLine 模型（+1. 1% mAP50），由此可以說明，在DETR模型訓練過程中存在正樣本分配的查詢太少會導致對編碼器輸出的監督稀疏的問題，而引進的協作混合分配訓練策略能解決這一問題帶來模型性能提升。

3）當添加Sampler采樣模塊的同時應用協作混合分配訓練策略時，對比只添加單個模塊或是不添加任何模塊的BaseLine模型性能都有提升（與其中性能最好的做對比+1. 4% mAP50）。這是因為，在提取語義不豐富的情況下，協作混合分配訓練策略可以使模型高效利用采樣過的高語義特征從而提高模型性能。

當更換骨干網絡后，對Sampler 采樣模塊進行消融發現：

1）只更換骨干網絡而不添加任何模塊的模型性能優于BaseLine（+0. 1% mAP50），證明InternImage骨干網絡所提取語義信息性能優于BaseLine模型。

2）應用協作混合分配訓練策略的模型性能優于只更換骨干特征提取網絡的模型（與其中性能最好的做對比+2. 2% mAP50），由此可以得出結論，雖然骨干網絡可以使提取到的特征更為豐富，但是未能解決模型存在的本質缺點，當使用新的訓練策略時可以使模型性能發揮最佳。

3）添加Sampler采樣模塊的模型性能優于只更換骨干特征提取網絡的模型（+0. 1%mAP50），由此可以得出結論，當骨干特征提取網絡提取到充裕語義信息后，Sampler采樣模塊可以對這些充裕語義信息進行采樣，提取語義信息較為豐富的特征。

4）當添加Sampler采樣模塊的同時應用協作混合分配訓練策略時，對比只添加單個模塊或是不添加任何模塊模型，性能都有明顯提升（與其中性能最好的做對比+6. 8% mAP50），由此可以得出結論，當骨干網絡能夠提取到充裕語義信息時，配合協作混合分配訓練策略和Sampler采樣模塊，能得到含有高語義信息的特征圖，再通過訓練策略的功能矯正模型編碼與解碼階段存在的問題。

3. 3. 3 對比試驗

在對比試驗中，對比了幾種在目標檢測領域較為流行且性能較好的模型在缺陷檢測數據集上的mAP50指標數值，如圖8所示，由圖8可以發現，本研究所提出的模型性能遠優于其他主流模型。

表2展示了較為流行的模型和SAS-Deformable-DETR 模型使用不同骨干網絡獲得的mAP 指標數值，表2中所挑選的較為流行的模型涵蓋了單階段、兩階段、基于Transformer的目標檢測模型。由表2可看出，本研究提出的方法在使用ResNet50 作為BackBone 時，SAS-Deformable-DETR 的mAP 得分雖然沒有DAB-DETR模型分數高，但是所訓練的輪數以及時間都要更短，與其他模型對比，mAP50得分高出1. 2%、單張圖片推理時間快0. 09 s且訓練輪數少；在使用InternImage 作為BackBone 時，SAS-Deformable-DETR 的mAP50 得分高出其他模型9. 0%且單張圖片推理時間快0. 05 s。

3. 3. 4 檢測結果可視化

以檢測霉片為例，圖9為SAS-Deformabl-DETR模型檢測霉片的特征熱力圖，通過對比圖9（a）與圖9（b）的特征熱力圖，可以清楚看到特征熱力圖的特征信息與竹片缺陷相對應，證明SAS-Deformabl-DETR模型可以準確清晰地檢測出竹片缺陷。通過圖9（c）可以觀察發現，骨干網絡在提取特征階段能有效將缺陷位置的語義信息捕捉到，但是較為冗余。通過圖9（d）觀察neck模塊的最后一個輸出層的AM（Ablation CAM）圖，可以發現在無梯度信息時，模型的骨干網絡和neck模塊訓練所關注的重點均在圖片的缺陷位置，這可以說明模型骨干網絡所提取的特征信息較為準確。

圖10為SAS-Deformabl-DETR模型檢測竹片缺陷結果，通過對比可以看出，圖10（b）中檢測結果較為準確，缺陷類別defection1 的檢測框置信度為63%、缺陷類別defection3的檢測框置信度為98%、缺陷類別defection4 的檢測框置信度為74%，通過數據以及檢測框的可視化結果表明SAS-Deformabl-DETR模型檢測竹片缺陷的效果良好。

4 結論

本研究提出一種改進的基于空間特征采樣與查詢回收機制的竹片缺陷檢測模型（SAS-Deformable-DETR），在竹片缺陷檢測領域其性能優于目前大多數的檢測模型。SAS-Deformable-DETR模型中InternImage骨干網絡可以高效地提取到竹片缺陷的語義信息，而Sampler采樣器可以將提取到語義信息進行采樣從而得到高語義信息的特征圖，在使用協作混合分配訓練策略的情況下，通過編碼階段與解碼階段的訓練任務進行特征解讀，從而得到竹片缺陷的預測值。在竹片缺陷檢測的數據集上SASDeformable-DETR模型的評估指標mAP50得分比最流行的模型高出5. 4%，證明本研究提出的模型在竹片缺陷檢測領域的性能較為不錯，為竹片缺陷檢測提供了一種高效可靠的方案。

【參考文獻】

［1］張毓雄，姚順波. 民間竹文化的傳承與竹產業的發展——基于“中國竹子之鄉”湖南益陽的調查［J］. 北京林業大學學報（社會科學版），2011，10（4）：7-13.

ZHANG Y X，YAO S B. Inheritance of bamboo culture anddevelopment of bamboo industry-based on Yiyang districtof Hunan Province，the origin of bamboo culture in China［J］. Journal of Beijing Forestry University （Social Science），2011，10（4）：7-13.

［2］牛晗，伍希志，任桂芹，等. 基于OTSU與CANNY算法的竹片缺陷圖像檢測［J］. 森林工程，2022，38（6）：75-81.

NIU H，WU X Z，REN G Q，et al. Image detection of bamboochip defects based on OTSU and CANNY algorithms［J］. Forest Engineering，2022，38（6）：75-81.

［3］ YANG J，YANG G. Modified convolutional neural networkbased on dropout and the stochastic gradient descent optimizer［J］. Algorithms，2018，11（3）：28.

［4］ BERGMANN P，L?WE S，FAUSER M，et al. Improving unsuperviseddefect segmentation by applying structural similarityto autoencoders［J］. arXiv preprint arXiv：1807.02011，2018.

［5］ YU L，CHEN H，DOU Q，et al. Automated melanoma recognitionin dermoscopy images via very deep residual networks［J］. IEEE Transactions on Medical Imaging，2016，36（4）：994-1004.

［6］ XUE Y，LI Y. A fast detection method via region-basedfully convolutional neural networks for shield tunnel lining defects［J］. Computer-Aided Civil and Infrastructure Engineering，2018，33（8）：638-654.

［7］ LEI J，GAO X，FENG Z，et al. Scale insensitive and focusdriven mobile screen defect detection in industry［J］. Neurocomputing，2018，294：72-81.

［8］ LECUN Y，BOTTOU L，BENGIO Y，et al. Gradient-basedlearning applied to document recognition［J］. Proceedingsof the IEEE，1998，86（11）：2278-2324.

［9］ HE Y，SONG K，MENG Q，et al. An end-to-end steel surfacedefect detection approach via fusing multiple hierarchicalfeatures［J］. IEEE Transactions on Instrumentationand Measurement，2019，69（4）：1493-1504.

［10］ TAO X，WANG Z，ZHANG Z，et al. Wire defect recognitionof spring-wire socket using multitask convolutionalneural networks［J］. IEEE Transactions on Components，Packaging and Manufacturing Technology，2018，8（4）：689-698.

［11］ HOSANG J，BENENSON R，SCHIELE B. Learning nonmaximumsuppression［C］//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. Honolulu，HI，USA，IEEE，2017：4507-4515.

［12］牟洪波，王世偉，戚大偉，等. 基于灰度共生矩陣和模糊BP神經網絡的木材缺陷識別［J］. 森林工程，2017，33（4）：40-43，54.

MU H B，WANG S W，QI D W，et al. Wood defects recognitionbased on gray-level co-occurrence matrix and fuzzyBP neural network［J］. Forest Engineering，2017，33（4）：40-43，54.

［13］ FERGUSON M，RONAY A，LEE TINA Y T，et al. Detectionand segmentation of manufacturing defects with convolutionalneural networks and transfer learning［J］.Smart and Sustainable Manufacturing Systems，2018，2（1）：137-164.

［14］ HE K，GKIOXARI G，DOLLáR P，et al. Mask R-CNN［C］//Proceedings of the IEEE International Conference onComputer Vision. Venice，Italy，IEEE，2017：2961-2969.

［15］王正，江鶯，嚴飛，等. 基于YOLOv7的木材缺陷檢測模型Wood-Net 的研究［J］. 林業工程學報，2024，9（1）：132-140.

WANG Z，JIANG Y，YAN F. Research on wood defect detectionmodel wood-Net based on YOLOv7［J］. Journal ofForestry Engineering，2024，9（1）：132-140.

［16］ WANG W，DAI J，CHEN Z，et al. Internimage：Exploringlarge-scale vision foundation models with deformable convolutions［C］//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. 2023：14408-14419.

［17］ WANG T，YUAN L，CHEN Y，et al. Pnp-DETR：Towardsefficient visual analysis with transformers［C］//Proceedingsof the IEEE/CVF International Conference on ComputerVision. 2021：4661-4670.

［18］ ZHU X，SU W，LU L，et al. Deformable DETR：Deformabletransformers for end-to-end object detection［J］.arXiv preprint arXiv：2010. 04159，2020.

［19］ DAI J，QI H，XIONG Y，et al. Deformable convolutionalnetworks［C］//Proceedings of the IEEE International Conferenceon Computer Vision. Venice，Italy，IEEE，2017：764-773.

［20］ ZHAO H，SHI J，QI X，et al. Pyramid scene parsing network［C］//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，2017：2881-2890.

［21］ ZONG Z，SONG G，LIU Y. DETRs with collaborative hybridassignments training［C］//Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris，France，IEEE，2023：6748-6758.

［22］ CHEN K，WANG J，PANG J，et al. MMDetection：OpenMMlab detection toolbox and benchmark［J］. arXiv preprintarXiv：1906. 07155，2019.

［23］張迪，樊紹勝. 基于YOLO V3的輸電線路故障檢測方法［J］. 自動化技術與應用，2019，38（7）：125-129.

ZHANG D，FAN S S. Fault detection of transmission linebased on YOLO V3［J］. Techniques of Automation andApplications，2019，38（7）：125-129.

基金項目：湖南省科技特派員服務鄉村振興（2023NK4285）；中國博士后科學基金資助（2021M690768）。