基于高分辨率網絡和注意力機制的真偽卷煙包裝鑒別

2021-11-30 02:46:56肖楠周明珠邢軍羅澤李曉輝

數據與計算發展前沿 2021年5期

關鍵詞：特征模型

肖楠，周明珠，邢軍，羅澤，李曉輝＊

1中國科學院計算機網絡信息中心，北京 100190

2中國科學院大學，北京 100049

3國家煙草質量監督檢驗中心，河南鄭州 450001

引言

在中國，煙草制品消費量極大，其每年所帶來的稅收利潤是國家重要的金融來源。近年來不斷有假冒偽劣卷煙混入市場中，嚴重影響了市場秩序和人民健康，所以對卷煙的真偽進行準確的鑒別對于維護國家和消費者的合法權益具有重要意義。

未拆封的卷煙包裝紙作為卷煙的重要標志，是判別卷煙真假的關鍵因素。傳統方法中，技術人員從卷煙包裝的色彩、防偽技術應用、工藝特征等角度出發，利用人眼（即感官）與同規格真品進行綜合對比[1]，這種方法易造成誤差且效率低下。隨著計算機技術的不斷進步，人們嘗試結合圖像分類技術對卷煙包裝紙圖像進行真偽鑒別。張毅等[2]以煙包為單位，利用角點檢測方法提取目標二值圖以實現煙包識別；王凱華等[3]基于改進的特征點檢測方法結合圖像配準技術進行鑒別；鐘宇等[1]提出機器學習模型，以圖像特征向量相似度作為判別指標。這些方法的提出，雖然在一定程度上緩解了卷煙包裝真偽鑒別任務中人工識別效率低的問題，但是特征提取器與分類器的選擇仍然受到人為因素的干擾，容易導致模型提取特征的能力不足，進而影響模型的分類性能。

深度學習技術因能夠利用多層網絡結構獲得更接近圖像的高級語義特征，被廣泛應用于包括圖像分類、場景識別等計算機視覺任務中[4]。特別的，自Alex-Net[5]在分類問題中嶄露頭角后，卷積神經網絡架構進入發展爆發期。包括以小卷積核堆疊方式簡化網絡結構，驗證了網絡深度的加深有利于模型性能優化的VGG-Net[6]，利用1×1 卷積進行升降維整合不同尺度卷積核的 Google-Net[7]，以及結合跨層連接方式緩解因網絡層數增多所造成的梯度爆炸問題的ResNet[8]等。這些網絡不同程度上盡可能地利用了卷積神經網絡局部感知、權值共享的優勢，提升了模型分類準確率，且以此建立的模型學習能力、泛化能力更強，這對實現大規模卷煙真假智能化識別是有利的。

依據卷煙包裝紙圖像鑒別卷煙真偽屬于更加細粒度的圖像分類問題。分類難點主要有兩個方面：一是假煙與真煙之間的差異細微，二是同一品牌卷煙的不同規格差異大。要想結合計算機視覺技術在大規模樣本檢測中實現高效、準確的自動化識別，所建立的模型就需要具備可以提取到更加細致的高精度特征的能力，因為往往成功區分卷煙真偽的是一些微小的差異，這就為鑒別任務提出了新的挑戰[9]。

ResNet 等經典分類網絡在進行不斷的卷積和池化過程中，會丟失很多空間表征[10]，從而無法獲得更具判別性的特征。高分辨率網絡（High-Resolution Network，HRNet）[11]提出在主干網絡中始終保持高分辨率特征圖以保證分類精度，并結合并行連接高低分辨率子網結構獲得多尺度信息，為提高卷積神經網絡在分類問題中的準確率提供了新的研究思路。

基于此，本文以項目中利用掃描儀設備采集的真假煙盒圖像為實驗樣本，構建基于高分辨率網絡的真偽卷煙包裝鑒別模型，同時引入高效通道注意力模塊對現有的高分辨率網絡進行改進，改善了基于傳統經典分類網絡容易丟失空間精度以及分類效果差的問題，取得了97.21%的分類準確率。

1 基于高分辨率網絡的真偽卷煙包裝鑒別模型

卷煙包裝真偽鑒別任務存在真品與偽造品之間的差距很細小，甚至不同品牌的兩種真煙相似度極高的情況，在這種容易造成混淆的情況下，傳統經典的卷積分類網絡如ResNet 等不再具有優勢。考慮到對卷煙進行正確的真偽鑒別的關鍵可能是一些更加細粒度的特征，而高分辨率網絡恰好是針對傳統分類網絡精度損失問題而被提出的，所以本文嘗試將高分辨率網絡作為骨干網絡，構建真偽卷煙包裝鑒別模型，以達到模型性能提升的目的。

1.1 高分辨率網絡

為了減少參數量和增大感受野，卷積神經網絡會在低層不斷進行卷積和池化操作，也就是會對圖像特征信息進行下采樣操作然后得到局部特征，在這個縮小的過程中，很多細微空間表征會被損失，從而影響進一步的分類、分割等工作。針對此問題，研究者們嘗試通過雙線性插值等上采樣方法[12]盡可能的彌補表征空間在特征提取階段的損失，或者從減少降采樣次數的角度出發，提出了既增大了感受野又減少了卷積次數的空洞卷積[13]。這種經歷了損后重補的高分辨率表征，很大程度上會被語義表達能力強的表征影響，從而空間敏感度不高。為了避免空間精度的丟失，高分辨率網絡提出了多尺度特征圖并聯連接的想法，在主干網絡始終保持高分辨率的特征圖，然后逐步降低特征圖分辨率獲得多尺度子網與主干網絡并聯，并結合交換單元，獲得了精度更高和語義信息更加豐富的特征圖，一定程度上改善了空間表征損失的難題。其結構如圖1 所示。按照數據流走向可將高分辨率網絡工作流程劃分為三部分：獲得高分辨率特征圖、構建并行子網、融合多尺度信息。

圖1 HRNet 結構Fig.1 The structure of HRNet

1.1.1 獲得高分辨率特征圖

為避免下采樣后的表征復現不充分問題，HRNet 網絡在圖像數據輸入網絡結構后，進入基礎特征提取階段。進行了兩次步長為2 的卷積（2-stride）操作，得到原來圖像1/4 大小的高分辨率特征圖，然后此尺寸的圖像將不再發生變化，并始終保存在主干網絡中。

1.1.2 構建并行子網

主干網絡獲得了高分辨率特征圖后，數據流進入了其他分辨率子網構建階段。HRNet 利用四個階段，構建了主體是由四個不同尺度特征子網并行的結構，其關鍵部分結構如圖1 所示。圖中1/4、1/8、1/16、1/32 表示當前階段特征圖分辨率占原圖像分辨率的比例。在獲得多分辨率子網的過程中，每一個階段所產生的新子網分辨率是上一階段分辨率的一半，并且自第二階段開始通道數會逐層成倍增加。為了保證不同階段的低分辨率子網可以并聯到上一階段網絡結構上，HRNet 在不同階段銜接處添加了過渡層，其在保持前一階段子網分辨率不變的同時，利用卷積下采樣和上采樣操作完成分辨率縮小和通道數增加的工作，實現不同階段通道數和分辨率的對應。具體的來說，網絡結構的各階段由多個模塊化的多分辨率塊堆疊而成，在第一階段，由1 個多分辨率塊組成，其包含了4 個通道數是64 的殘差單元，每個單元沿用了殘差網絡的“瓶頸Bottleneck”模塊。經過過渡層，到了第二階段，網絡結構中有了兩個子網，包括主干網絡以及分辨率是其一半的子網，其通道數（假設初始通道數為C）分別變成了C，2C。此階段依然包含一個多分辨率塊，但這個多分辨率塊與第一階段不同，是由4 個有兩個3×3 卷積的基礎殘差單元組成。第三、四階段與第二階段所采用的多分辨率塊結構相同，只是重復數量依次變為4 和3，且通道數也相應變成了C，2C，4C和8C。

1.1.3 融合多尺度信息

由于圖像的不同分辨率所表達的語義信息是不同的，所以HRNet 在多分辨率子網中添加了交換單元，令不同尺度特征圖之間可以進行重復信息交互。在高分辨率網絡中，從出現多分辨率子網的第二階段開始，包括主干網絡在內的所有子網彼此之間都要進行多次信息交融。在分類之前的各階段因為不同子網特征分辨率與通道數不同，無法直接相加，所以采用了如下策略：同分辨率的層直接復制，不同分辨率的，需要高分辨率的使用雙線性插值方法進行上采樣，然后利用1×1 卷積將通道數統一，需要低分辨率的使用2-strided 卷積降采樣。在最后進行分類之前，無法直接利用全連接網絡將不同分辨率的分支連接起來，通過實驗驗證對比，HRNet 采用效果最佳的將小的特征圖上采樣到高分辨率，然后所有特征圖相加的融合方式作為分類層的輸入。

高分辨率網絡以保證原有圖像高分辨率特征的方式取代了傳統利用低層特征復現高層信息的方式，經實驗驗證，一定程度上減少了空間精度的損失，并提高了分類準確率。

1.2 網絡結構與模型構建

本文采用HRNet18 作為基礎的骨干網絡，其各階段的關鍵參數如表1 所示。

表1 每個階段關鍵參數變化情況Table 1 Changes of key parameters in each stage

由于卷煙煙盒圖像的數據量較小，本文所有模型都將以遷移學習的方式進行，即利用已經在ImageNet 上進行預訓練得到的基礎網絡參數來進行特征的提取，然后構建分類網絡，最終獲得基于HRNet18 的真偽卷煙包裝鑒別模型。

2 注意力機制

高分辨率網絡為了保證更加具有語義表達能力的特征圖，逐步在主干網絡中添加了不同尺度的子網，通過不斷重復的信息交換豐富語義信息。但是，從表1 來看，HRNet 中存在很多的通道，并且伴隨著子網的增加網絡結構中的通道數成倍增加，直接進行簡單的通道信息相加的方式忽略了其通道之間的關聯性。故而本文決定從HRNet 網絡結構基礎上添加通道注意力機制。

2.1 通道注意力機制

通道注意力更關注于通道信息的相關性對于網絡性能的影響[14]。它希望在不斷的網絡學習過程中，可以得到一組權重系數來加強有利于分類的重要特征，和抑制容易造成混淆的不重要特征，從而提升網絡性能。

通道注意力機制被廣泛應用于卷積神經網絡中得益于壓縮和激勵[15]（Squeeze-and-Excitation, SE）模塊的出現。其通過全局平均池化(Global Average Pooling, GAP)和激勵操作來學習權重系數，確定了不同通道的重要程度，改善了網絡性能。此后，一些研究者嘗試將SE 模塊與空間注意力相結合以加強通道注意力相關性的影響[16]，或者將融合方式復雜化來提高有效性[17]。雖然這些方法有利于模型分類準確率的提升，但是他們復雜化了網絡結構帶來了很大的計算負擔。為了平衡表現性和復雜性，ECA模塊在優化了SE 模塊的基礎上，提出了利用自適應卷積核約束通道之間的信息交互范圍的方法，既降低了參數量也保持了相當的性能。

ECA[18]模塊認為將所有通道信息互相融合是沒有必要的，所以提出了根據網絡結構中的通道數進行自適應的決定最佳融合范圍的方法。這對于不同階段通道數不斷增加的HRNet 來說是有益處的，所以本文將ECA 模塊引入高分辨率網絡結構中。因為ECA 模塊是在優化了SE 模塊之后進行的改進，所以下文首先介紹SE 模塊的工作機理。

2.1.1 壓縮和激勵模塊

SE模塊主要通過壓縮(squeeze)、激勵(excitation)操作來完成通道重要程度的確定工作。

壓縮操作的目的是為權重系數的計算提供充分的輸入信息。一般情況下會利用GAP 方法將二維的特征圖壓縮成一個一維的實數，這個實數一定程度上代表了特征圖空間上的全局信息。具體計算如公式（1）所示：

其中，z表示通道維度GAP 后的實數矩陣表示壓縮函數，x為特征圖的集合，h表示特征圖的高度w 表示特征圖的寬度。

激勵操作的作用就是要學習代表各個通道重要程度的權重系數，其關鍵就是確定通道之間的對應關系。所以SE 中采用了全連接+ReLU 層+全連接層+Sigmoid 層的結構，其中在第一個和第二個全連接層還進行了升降維操作以降低模型參數量。具體計算如公式（2）所示：

2.1.2 高效通道注意力

ECA 模塊在SE 基礎上做了如下兩部分的調整。

（1）省略降維操作

考慮到降維操作破壞了通道與其權重間的直接對應關系，ECA 不再進行SE 模塊中的降維操作，在經過GAP操作之后，權重W與特征直接進行運算。

（2）局部跨通道信息融合

在SE 模塊中，在確定通道權重時，會考慮到所有通道信息之間的相關性，所以會對所有通道進行信息融合操作。這樣的操作會隨著網絡結構的加深而產生大量的內存消耗，從而影響模型的性能。所以ECA 模塊提出了當前通道特征圖只與其近鄰的k個通道進行信息交互的跨通道交互方式。為了捕獲到合適的局部交互信息，k的合理選擇十分必要。結合在固定卷積分組數的情況下，高維（低維）通道與長（短）距離卷積之間存在正比關系的理念，ECA 模塊提出在k與通道之間是存在映射關系的，所以提出了一種根據網絡結構中的變化自適應改變k大小的計算公式，如公式（3）所示：

然后ECA 模塊利用卷積核大小為k的一維卷積實現了局部通道之間的信息交互。具體的SE 與ECA 模塊的設計如圖2 所示。其中H，W代表輸入特征分辨率，C代表通道數。

圖2 SE 模塊（左一）和ECA 模塊（右一）設計圖Fig.2 Design drawing of SE module (left one) and ECA module (right one)

2.2 將高效注意力模塊嵌入高分辨率網絡

HRNet 在逐步添加多尺度子網的過程中，每一個子網的通道數都會成倍增加，且在交換單元，各子網之間會直接將通道信息重復相加以獲得更充分的語義信息。但是，在眾多通道中并非所有信息都是有利于我們的鑒別任務的，不光存在冗余信息，甚至可能存在抑制鑒別信息。所以本文將考慮到了不同通道的重要性級別不同，且自適應調整信息交融范圍的ECA 模塊引入到了高分辨率網絡中，旨在通過這種局部約束的方式提高模型的預測能力。

由上文所知，HRNet 網絡由重復的多分辨率塊構成，且在不同階段多分辨率塊的構成單元包括瓶頸和基礎殘差單元，所以我們將ECA 模塊即圖2（右一）分別插入到殘差單元中，具體做法如圖3 所示。

圖3 將有效的通道注意力模塊嵌入殘差單元Fig.3 Embed ECA module into the residual unit

3 實驗結果與分析

3.1 數據集介紹

由國家煙草質量監督檢驗中心發布的卷煙產品鑒別檢驗規程可知，目前以煙盒作為檢驗項目的主要鑒別方法為感官鑒別法。雖然不同規格假煙造假方式會有所不同，但是通常情況下，技術人員會利用感官結合經驗，以卷煙包裝的印刷工藝、包裝特征等作為指標，與真煙包裝進行對比實現鑒別。

以采集到的數據集中造假方式具有代表性的白沙煙為例，對主要的造假方式進行具體介紹（如圖5 所示）：（1）字體套印方式不同。真煙中“精品香煙”字樣，沒有添加熒光圖案。（2）圖案明亮程度不同。“精品香煙”字樣下方印花圖案的明暗程度有所差異，假煙的更加明亮。（3）印刷位置不同。由圖可知，真煙中的“白沙”拼音距離下框線的距離更遠些。

圖5 數據集示意圖Fig.5 Diagram of datasets

由上可知，基于引入了高效通道注意力的高分辨率網絡，構建真假卷煙包裝鑒別模型，可以改善鑒別任務準確率的重要前提是保證輸入圖像本身是高分辨率的。所以本文采用了項目中利用掃描儀設備采集的包括利群、雲煙、南京、中華等25 個規格的真假煙盒的正反面圖像，共計2 518 張，數據集的具體類別分布如圖4 所示，且每張圖像分辨率是1200dpi。在利用掃描儀對煙盒的正反面掃描時，以A4 紙為底并盡量將所采集的圖像保持在畫面的中間位置，來避免外界背景的影響。同時，因為依據卷煙包裝進行真偽鑒別任務對于包裝色彩明暗等敏感度高，所以在掃描過程中會始終保證光線充足且盡量避免反光。

圖4 數據集類別分布圖Fig.4 Category distribution of dataset

本文將數據集劃分為訓練集2 140 張（85%）、測試集378 張（15%）的結構，并且為了保證模型的泛化能力，劃分數據集的時候采用了隨機劃分的方法。鑒于采集的數據量相對較小，為了豐富數據集的多樣性，對輸入數據做了包括多角度旋轉、去均值和尺度歸一化等在線數據增強操作。

3.2 實驗環境和基本設置

本實驗所采用的操作系統是基于Linux 內核的Ubuntu18.04，并利用Python3.6 和深度學習框架Pytorch 1.60 進行訓練，為了提高訓練速度，結合使用了型號為Quadro p5000 的圖形處理器。模型訓練中所涉及到的超參數設置情況如表2 所示。

表2 超參數設置Table 2 The values of hyperparameter

3.3 骨干網絡對比

為驗證高分辨率網絡在真偽卷煙鑒別任務中的優越性，我們分別以VGG16、VGG19、ResNet50、ResNet101 和HRNet18 作為骨干網絡，進行模型構建。最終的實驗結果如表3 所示。可以看到與傳統的經典分類網絡進行對比，HRNet18 在參數量最低的情況下，獲得了最高的準確率。間接地體現出其并行子網結構對于真假煙鑒別任務是有利的。

表3 不同骨干網絡參數量和準確率對比Table 3 Comparison of parameters and accuracy of different backbone networks

3.4 不同注意力單元實驗對比

為了進一步的增強高分辨率網絡的特征表達能力，本文在高分辨率網絡的殘差單元嵌入了高效通道注意力中的ECA 模塊。

目前，對硬件要求較低且應用較為廣泛的注意力模塊包括SE 與卷積塊注意力單元 (Convolutional Block Attention Module，CBAM)，所以本文以它們作為參考以驗證模型的性能。實驗結果如表4 所示。由結果可知，引入了ECA 模塊的模型準確率較基礎網絡有約2.7%的提升，并優于引入其他兩種注意力單元的模型，而且添加了ECA 模塊的模型參數量較HRNet18 僅增加了0.00038，幾乎可以忽略不計。這在一定程度上反映出將高效通道注意力和高分辨率網絡結合的方法在卷煙真假鑒別任務中是有效的，并且并不會帶來參數量增加很大的負擔。

表4 不同注意力單元嵌入HRNet18 參數量和準確率對比Table 4 Comparison of parameters and accuracy of different attention units embedded in HRNet18

3.5 結果可視化分析

為了更加直觀的分析實驗結果，本文將基于HRNet18 和HRNet18+ECA 方法在卷煙包裝真假識別測試集上的混淆矩陣進行了可視化，如圖6 和圖7所示。

從整體來看，結合了高效通道注意力的高分辨率網絡模型優勢更大，能夠準確鑒別更多類別的卷煙真偽。一定程度上驗證了高效通道注意力的有效性。具體的來說，由圖6 所示，基于HRNet18 構建的模型只能正確鑒別紅雙喜等少數類別的卷煙，對于大部分規格卷煙真假鑒別錯誤率還比較高，且誤判成其他類型卷煙規格的種類較多。由圖7 可知，基于HRNet+ECA 的模型在包括真假煙41 類的卷煙包裝真偽鑒別中獲得了很高的分辨率，其他9 種卷煙的鑒別準確率相對較低，且主要集中在將真煙判斷成了假煙的問題上。

圖6 HRNet18 混淆矩陣Fig.6 Confusion matrix of HRNet18

圖7 HRNet18 嵌入ECA 混淆矩陣Fig.7 Confusion matrix of HRNet18 combined ECA

4 結論與展望

本文在真偽卷煙包裝鑒別問題中引入了深度學習技術，利用高分辨率網絡和高效通道注意力構建了真偽卷煙包裝鑒別模型，盡可能地減少了圖像特征空間精度的損失，而且在高分辨率網絡的殘差單元嵌入了高效通道注意力模塊，不僅加強了特征圖的表征能力，同時也使模型分類準確率最高達到97.21%。實驗結果表明，將基于高分辨率網絡和注意機制的方法應用于卷煙包裝真偽鑒別任務中是可行且有效的，只是模型準確率還有改善的空間。況且在計算通道注意力權重過程中進行了全局平均池化操作，忽略了特征的空間位置信息。接下來，可以從此角度出發，結合更大規模的數據集與更深層次的網絡模型進行深入的研究，從而進一步提高模型的性能。

利益沖突聲明

所有作者聲明不存在利益沖突關系。