基于卷積神經網絡的多尺度Logo檢測算法

2020-05-12 09:04:06江玉朝吉立新高超李邵梅

網絡與信息安全學報 2020年2期

江玉朝，吉立新，高超，李邵梅

江玉朝，吉立新，高超，李邵梅

（國家數字交換系統工程技術研究中心，河南鄭州 450002）

針對自然場景圖像中多尺度Logo的檢測需求，提出了一種基于卷積神經網絡的多尺度Logo檢測算法。該算法基于兩階段目標檢測的實現思路，通過構建特征金字塔并采取逐層預測的方式實現多尺度候選區域的生成，通過融合卷積神經網絡中的多層特征圖以增強特征的表達能力。在FlickrLogos-32數據集上的實驗結果顯示，相比基線方法，所提算法能夠提升生成候選區域的召回率，并且在保證大中尺度Logo檢測精度的前提下，提升小尺度Logo的檢測性能，驗證了所提算法的優越性。

Logo檢測；卷積神經網絡；多尺度；區域生成網絡；特征融合

1 引言

在計算機視覺領域，多尺度目標檢測一直是一項具有挑戰性的基礎課題。近年來，隨著卷積神經網絡（CNN，convolutional neural network）的發展，針對大中尺度的目標檢測取得了重大突破，而對于小目標，由于受到小目標像素少、分辨率低、背景干擾等因素的影響，相應算法的檢測性能仍十分受限。作為目標檢測的一個特例，Logo檢測在品牌趨勢預測、商標產權保護、車輛標志識別等領域有廣泛的應用[1-3]。

當前，基于CNN的多尺度目標檢測主要有以下兩類實現思路[4]：一類是以Faster R-CNN[5]為代表的兩階段方法，此類方法首先生成一定數量的候選區域集合，然后使用分類算法對提取的候選區域進行類別判定和位置精修；另一類是以SSD[6]為代表的單階段方法，此類方法直接在CNN的多尺度特征圖上預測目標類別和邊界框回歸參數。與兩階段方法相比，單階段方法在設計之初主要側重于優化檢測的速度，在算法精度方面始終與兩階段方法存在一定差距。因此，本文基于兩階段的實現思路研究自然場景圖像中多尺度Logo目標的檢測問題，即第一階段利用候選區域生成算法提取出場景圖像中可能包含Logo目標的子區域；第二階段對該子區域進行類別判定并做進一步的位置精修。顯然，對于這樣的檢測流程，第一階段生成候選區域的優劣將直接影響檢測算法的性能。

作為兩階段目標檢測的代表方法，Faster R-CNN[5]通過構建區域生成網絡（RPN，region proposal network）生成候選區域。具體而言，RPN在基礎特征提取網絡之后的單尺度特征圖上通過預定義的多尺度錨點（anchor）進行密集采樣得到初始候選區域集合，而后經前景分類篩選、邊界框回歸、非極大值抑制等步驟得到最終的候選區域。這其中存在兩個問題：①單尺度特征圖的感受野難以適應多尺度目標，造成與感受野尺度不匹配目標的檢測性能受限；②預定義的錨點尺度未能適應小目標，導致小目標在RPN訓練階段生成的正負樣本數量嚴重不平衡。

為解決上述問題并適應Logo檢測應用場景，本文提出了一種基于CNN的多尺度Logo檢測算法。算法在Faster R-CNN的基礎上，通過構建特征金字塔并采取逐層預測的方式實現多尺度候選區域的生成，利用理論感受野指導特征金字塔層級的設計，結合有效感受野[7-8]以及Logo對象的先驗知識指導預定義錨點的設計，使特征金字塔的每層用于生成特定尺度的候選區域。此外，本文借鑒現今流行的多尺度特征融合思想，在基礎網絡和目標檢測網絡之間增加了多尺度特征融合網絡，用于融合多層次特征以增強目標檢測網絡輸入特征的表達能力。實驗方面，本文在Logo檢測的benchmark數據集FlickrLogos-32[9]上進行了詳細的算法驗證，相比于基線方法[10]，本文算法的實驗結果取得了明顯優勢（mAP 85.7% VS 81.1%[10]），驗證了本文算法的優越性。

2 相關工作

2.1 多尺度目標檢測

現階段存在很大一部分工作致力于解決多尺度目標的檢測問題。圖像金字塔思想通過對原始圖像進行簡單縮放構造圖像的多尺度副本，進而實現多尺度目標檢測[11-13]，通常構造圖像金字塔能夠顯著提升算法的檢測精度，但與之而來的龐大內存和時間開銷往往令許多實際應用難以承受。鑒于CNN的層次結構本身具有天然的多尺度金字塔形狀，一些方法[6,14]選擇直接在特征金字塔各層上預測特定尺度的目標，此類單階段方法一般在速度上具有明顯優勢，但淺層的高分辨率特征通常難以支撐細粒度的目標分類，導致針對小目標的檢測效果一般。因此，文獻[15-16]采用多尺度特征融合的方式彌補小目標檢測性能的不足，此類算法通過融合語義信息豐富的高層特征和高分辨率的淺層特征，提升了多尺度目標檢測的整體性能。

2.2 Logo檢測

隨著CNN在計算機視覺領域取得的革命性突破，一些研究學者開始將CNN應用在Logo檢測任務中。Iandola等[17]較早地開展了這項工作，通過Fast R-CNN[18]建立了使用CNN進行Logo檢測的精度基準。Zhang等[3]提出多尺度平行卷積網絡用于車輛Logo的識別。為了促進深度學習方法在Logo檢測問題中的研究，Hoi等[19]構建了大規模Logo檢測與商標識別數據集LOGO-Net。文獻[10,20]則從大規模合成Logo圖像的角度緩解訓練樣本缺乏的問題。Christian等[21]通過改進Faster R-CNN中候選區域的生成機制，有針對性地提升了小尺度Logo的檢測性能。

3 基于CNN的多尺度Logo檢測算法

圖1給出了本文基于CNN的多尺度Logo檢測算法的整體框架，該框架源于兩階段目標檢測的實現思路，算法主要分為基礎特征提取網絡、多尺度區域生成網絡、多尺度特征融合網絡、目標檢測網絡4個部分。其中，圖示基礎特征提取網絡為經典VGG16的全部特征提取層，多尺度區域生成網絡負責生成輸入圖像中可能包含Logo目標的候選區域，多尺度特征融合網絡用于整合多層次特征以增強特征的表達能力，目標檢測網絡實現針對候選區域的類別預測和邊界框回歸。

3.1 多尺度區域生成網絡

從結構上來說，本文算法中多尺度區域生成網絡為多級二分類回歸的全卷積網絡（如圖1所示），在層次結構上與SSD[6]、S3FD[14]等相似，均在基礎特征提取網絡后添加了額外的卷積層，并選取不同尺度的特征層預測特定尺度的目標。不同的是，SSD各預測層直接進行多類目標檢測，而S3FD針對的是人臉檢測。對于Logo目標，本文算法在設計多尺度區域生成網絡時考慮了兩個因素：①多層CNN的感受野與Logo目標尺度的適應關系，這直接關系到網絡層次結構的設計；②預定義錨點與Logo目標尺度的適應程度，這直接關系到網絡的精度和收斂速度。

圖1 基于CNN的多尺度Logo檢測算法

Figure 1 Multi-scale Logo detection algorithm based on CNN

根據CNN感受野理論，CNN某層單位感受區域之外的任何位置都不會影響該層相應單元的輸出結果。因此，在設計多尺度區域生成網絡時，最后一層卷積特征圖上預測單元所對應的理論感受野應當覆蓋絕大多數尺度的目標，此項約束實際上也決定了基于CNN的目標檢測算法所能預測的目標尺度上限。表1中計算了本文多尺度區域生成網絡各預測層經過3×3卷積操作之后的理論感受野，顯然經過一系列卷積和池化操作，高層的理論感受野逐步增大。圖2給出了FlickrLogos-32數據集對象大小的整體分布情況，結合表1中相關參數可以看出，預測層Conv7_2的理論感受野能夠覆蓋該數據集中絕大多數尺度的目標，這在理論上保證了本文所設計的多尺度區域生成網絡與數據集的目標尺度相適應。

表1 本文多尺度區域生成網絡各預測層的相關參數

圖2 Flickrlogos-32數據集對象大小分布

Figure 2 Distribution of object instance sizes in Flickrlogos-32

在確定網絡層次結構的基礎上，算法進一步考慮各預測層上預定義的錨點尺度和高寬比。根據CNN的有效感受野理論[7-8]，CNN的有效感受野滿足高斯分布，僅占據理論感受野中心區域的較小部分（如圖3所示，整體黑色區域為理論感受野，而白色點云區域為有效感受野，圖片引自文獻[7]）。本文為各預測層預設的錨點尺度如表1所示，所設置的錨點尺度均在一定程度上小于相應層的理論感受野，同時采取S3FD中錨點設置的等比例間隔策略，即相應預測層的錨點尺度與該層的步長始終保持等比例，該策略能夠保證不同預測層的錨點具備同樣的空間密度分布。

生態循環經濟的最終目的在于經濟發展，作為一項系統化的經濟開發活動，它已經不再通過單一的模式來讓人們理解和認知經濟發展、保護環境與經濟發展的系統化融合，主要強調了遵循生態系統的自然規律，注重經濟效益的“質量化”增長。因此，在這一經濟理念的影響下，國家逐漸形成了良性發展結構、管理機制創新和人文內涵特色化的生態文明。

圖3 理論感受野與有效感受野關系

Figure 3 Relationship between theoretical receptive fields and effective receptive fields

在錨點高寬比的設置方面，圖4展示了Flickrlogos-32數據集中32類Logo的官方示例，表2近似統計了該數據集中32類官方Logo以及所有Logo對象的高寬比，本文發現，僅從官方Logo的統計層面就能夠對錨點的高寬比設置產生較強的指導意義。事實上，由于Logo對象平面性的設計原則，自然場景圖像中出現的Logo通常具備較穩定的高寬比。進一步考慮實際場景中Logo目標可能存在旋轉、扭曲等情況，本文預設的錨點高寬比如表2所示。

圖4 FlickrLogos-32官方Logo示例

Figure 4 Exemplar images of Logo classes from the FlickrLogos-32

表2 Flickrlogos-32中官方Logo以及所有Logo對象高寬比的近似統計

因此，本文選擇采取與SSD類似的粗放式正負樣本生成策略，即對于正樣本，算法允許任意標記樣本在網絡產生的全體錨點范圍內進行匹配操作。具體而言，算法首先為每個真值框（ground truth）匹配與之IoU（intersection over union）值最大的錨點作為正樣本，然后在剩余錨點中挑選與任一真值框IoU值高于0.5的也作為正樣本。對于負樣本，算法依據常用的難分負樣本挖掘方法，首先篩選出與任意真值框IoU值都低于0.3的錨點子集作為初始負樣本集合，接著按照預測背景概率由低到高的順序對集合中的所有錨點進行排序，選取概率較低的錨點作為最終的負樣本，并限制最終選定的正負樣本數量之比不超過1:3，以保證網絡的快速收斂[6,14]。

在訓練目標方面，本文基本沿用原始RPN[5]中定義的多任務損失函數。由此，對于單個訓練樣本，本文多尺度區域生成網絡的損失函數定義為

3.2 多尺度特征融合網絡

在原始Faster R-CNN框架中，RPN生成的每個候選區域在特征層Conv5_3上完成位置映射后，由RoI pooling操作產生固定尺寸的特征圖，而后送入目標檢測網絡得到最終的檢測結果。為了進一步提升多尺度Logo檢測算法的整體性能，本文借鑒現今流行的多尺度特征融合思想[23-24]，在基礎網絡與目標檢測網絡之間增加了多尺度特征融合網絡。如圖1所示，網絡選定Conv4_3作為特征融合的基準層，因為該層相對于Conv5_3具有更小的步長，更有利于小目標的檢測。同時，網絡使用最大值池化（max pooling）實現針對Conv3_3特征層的下采樣，使用文獻[25]中的反卷積（deconvolution）實現針對Conv5_3特征層的上采樣，并保證采樣后的特征圖均與基準層Conv4_3的大小相同。

由于特征層Conv3_3、Conv4_3和Conv5_3三者的特征尺度差異很大[24]，直接融合將導致特征尺度較大的層對于后續的預測結果產生支配性的影響，而這些特征層本身并不能保證良好的檢測性能，相反會增加后續參數學習的難度。因此，網絡在對采樣后的多層特征圖進行融合前，先分別對Conv3_3、Conv4_3和Conv5_3層實施文獻[24]中引入的L2正則化操作，并相應擴大各層特征的初始L2范數值為10、8、5，以提升網絡的訓練速度[14]。

3.3 目標檢測網絡與聯合訓練

作為兩階段目標檢測的第二階段，目標檢測網絡針對候選區域做進一步的類別判定和位置精修。如圖1所示，本文目標檢測網絡仍基于Faster R-CNN中實現，即利用全連接層產生最終的分類和回歸結果。不同的是，為了緩解原始RoI pooling操作[5]在候選區域映射過程中兩次離散性的量化造成的區域不匹配問題[26]，本文使用文獻[26]中提出的RoI Align代替RoI pooling操作，這在一定程度上減輕了候選區域映射過程產生的位置偏差對于小目標檢測的影響。

在多網絡的聯合訓練方面，本文基于候選區域生成先于目標檢測的順序流程，參考Faster R-CNN中提出的四步交替訓練方法，將本文多網絡的聯合訓練過程分為以下4個階段。①單獨訓練區域生成模塊，該模塊包括基礎網絡和多尺度區域生成網絡，其中基礎網絡、Conv_fc6以及Conv_fc7基于ImageNet預訓練模型初始化[6]，其他新添加層使用標準差為0.01的零均值正態分布進行隨機初始化。②單獨訓練目標檢測模塊，該模塊包括基礎網絡、多尺度特征融合網絡和目標檢測網絡，其中基礎網絡以及目標檢測網絡同樣基于ImageNet預訓練模型初始化，多尺度特征融合網絡中的反卷積層基于雙線性插值法初始化[25]，降維卷積核參數使用標準差為0.01的零均值正態分布進行隨機初始化，訓練所需的候選區域由區域生成模塊提供。③再次訓練區域生成模塊，其中基礎網絡由第二階段訓練所得的對應參數初始化，并保持其參數在訓練過程中固定，只更新區域生成模塊的獨有部分。④再次訓練目標檢測模塊，固定第三階段區域生成模塊的所有參數，只更新目標檢測模塊的獨有部分。

4 實驗與結果分析

4.1 數據集與評價指標

本文實驗采用的數據集源自奧格斯堡大學多媒體計算和計算機視覺實驗室維護并公開的FlickrLogos-32[9]，作為Logo檢測的benchmark數據集，其通常用于評估多類Logo檢測/識別以及真實圖像上的Logo檢索方法。FlickrLogos-32共有8 420張圖像（包含6 000張不含Logo的圖像），分為32類Logo，每類為70張且均具有較為平坦的表面。圖2給出了該數據集對象大小的整體分布情況，不難發現：①該數據集對象具有較大的尺度變化范圍，適用于評估檢測算法的尺度不變性；②該數據集對象的平均尺度較小，適用于檢驗算法在小目標檢測方面的性能。

在實際訓練過程中，本文按照該數據集的官方劃分標準，為每類Logo劃分40張圖像用于訓練，剩余30張用于測試。由于本文算法中多尺度區域生成網絡采取粗放式的正負樣本生成策略，該策略下網絡的充分訓練無疑對訓練樣本的數量和質量均提出了較高要求，因此，本文在將訓練樣本送入網絡訓練之前，預先對每張訓練圖像隨機采取如下數據增強操作：①直接使用原始圖像；②對原始圖像隨機進行2倍或4倍的下采樣，原圖范圍內的剩余區域全0填充；③對原始圖像隨機進行1.5倍或2倍的上采樣，并使用邊長為600px的正方形區域對采樣后的圖像進行隨機裁剪，同時保證裁剪后子圖像中包含的任一真值框區域與上采樣后真值框的面積之比不低于0.8。

目標檢測任務通常需要一定的評價指標來評估檢測算法的性能，Logo檢測領域中常用的評價指標是平均精度均值（mAP，mean average precision）。mAP綜合表征了準確率（precision）和召回率（recall），其值越大，表明算法性能越好，本文中使用mAP值評估檢測算法的整體性能。此外，本文使用召回率均值（mR，mean recall）評估算法中多尺度區域生成網絡的有效性，該指標計算一組實驗條件下多類目標召回率的算術平均值，能夠反映區域生成網絡為多類目標生成高質量候選區域的平均性能。

4.2 對比實驗與分析

本文算法基于深度學習框架PyTorch實現，從節約內存和便于實現的角度出發，每批次只訓練一個樣本，使用隨機梯度下降算法優化神經網絡參數，同時為了節約顯存，基礎網絡中的前四層卷積層的學習率設為0。對于多網絡的聯合訓練，本文區域生成模塊每階段迭代6×104次，目標檢測模塊每階段迭代4×104次，初始學習率均為0.001，學習率衰減步長為4×104，衰減系數為0.1。

表3列出了4種不同算法在FlickrLogos-32數據集上的實驗結果，可以看出，與基線方法Faster R-CNN[10]相比，本文算法取得了明顯優勢（85.7% VS 81.1%）。在基線方法的復現過程中，本文基于VGG16和RoI Align[26]的實驗配置，得到了與其相近的實驗結果，這表明本文算法相對于基線方法的性能提升直接來源于本文算法的改進部分，即多尺度區域生成網絡和多尺度特征融合網絡。

在不同尺度目標的檢測性能評估方面，本文統計了FlickrLogos-32測試集中每類Logo對象的平均尺度，然后將Logo類別按照平均尺度的降序排序，順序選取了前、中、后各5類Logo分別作為大、中、小尺度的代表。圖5直觀對比了本文算法與基線方法在所選類別上的平均精度，可以發現，對于大中尺度的目標，本文算法與基線方法的整體檢測性能基本相當；而對于尺度較小的目標，本文算法的平均精度明顯高于基線方法，這表明本文算法在小尺度目標檢測方面更加穩健。

圖5 本文算法與基線方法在不同尺度類別上平均精度的對比

Figure 5 Comparison of the AP of different scale categories between our algorithm and the baseline

表3 不同算法在FlickrLogos-32數據集上的實驗結果

除此之外，為了驗證本文算法中多尺度區域生成網絡的有效性，本文分別計算了測試集上多尺度區域生成網絡與原始RPN[5]在生成單位數量候選區域條件下的召回率均值，所有召回率的計算均基于0.5的IoU閾值，即僅當某真值框與該圖像中任一候選區域的IoU值超過0.5，該真值框被判定為召回。如圖6所示，可觀察到：①多尺度區域生成網絡在任意數量候選區域條件下產生的召回率均值都明顯優于原始RPN，這表明利用特征金字塔逐層預測不同尺度候選區域的做法，能夠有效提升生成候選區域的召回率；②在IoU閾值0.5的設定下，兩種區域生成算法的召回率均值都不高，盡管后續目標檢測網絡會對候選區域進行位置精修以保證最終的召回率，但目前區域生成算法的實際性能仍有進一步提升的空間，因此這方面成為下一步的研究重點。

圖6 本文算法與基線方法在區域生成網絡性能方面的對比

Figure 6 Comparison of the PRN performance between our algorithm and the baseline

最后，本文實驗探究了多尺度特征融合網絡對于算法性能的影響，替換圖1中目標檢測網絡的輸入為單特征層，其他參數保持不變，得到的檢測結果如表4所示。從表4中可以看出，基于權重可學習的特征融合算法能夠在一定程度上提升檢測算法的整體性能。圖7給出了本文基于CNN的多尺度Logo檢測算法與基線方法在FlickrLogos-32部分測試實例上檢測結果的對比（右側為本文算法的檢測結果），可以發現本文算法對于目標的多尺度、小尺度等情形具備更強的穩健性。

表4 多層特征融合預測與單特征層預測在檢測精度上的對比

圖7 本文算法與基線方法在部分測試實例上檢測結果的對比

Figure 7 Comparison of the detection results of our algorithm and the baseline on some test images

5 結束語

本文針對自然場景圖像中多尺度Logo的檢測需求，提出了一種基于CNN的多尺度Logo檢測算法。算法在兩階段目標檢測模型Faster R-CNN的基礎上，通過構建特征金字塔并采取逐層預測的方式實現多尺度候選區域的生成，同時增加了多尺度特征融合網絡，用于整合多層次特征以增強特征的表達能力。在FlickrLogos-32數據集上的實驗結果表明：①采取特征金字塔逐層預測多尺度候選區域的方式，能夠有效提升生成候選區域的召回率；②基于權重可學習的特征融合做法能夠在一定程度上提升檢測算法的整體性能。由于目前本文區域生成算法的性能仍與設計預期存在一定的差距，提升生成候選區域的召回率是下一步的研究方向。

[1] SU H, GONG S, ZHU X. Scalable deep learning logo detection[C]//International Conference on Computer Vision Workshop. 2017: 270-279.

[2] GAO Y, WANG F, LUAN H, et al. Brand data gathering from live social media streams[C]//International Conference on Multimedia Retrieval. 2014: 169.

[3] PAN C, YAN Z, XU X, et al. Vehicle logo recognition based on deep learning architecture in video surveillance for intelligent traffic system[C]//IET International Conference on Smart and Sustainable City. 2013: 123-126.

[4] ZHANG S, WEN L, BIAN X, et al. Single-shot refinement neural network for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018.

[5] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//International Conference on Neural Information Processing Systems. 2015.

[6] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]// European Conference on Computer Vision. 2016.

[7] LUO W, LI Y, URTASUN R, et al. Understanding the effective receptive field in deep convolutional neural networks[C]//Conference and Workshop on Neural Information Processing Systems. 2016.

[8] ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Object detectors emerge in deep scene CNNs[J]. Computer Science, 2014.

[9] ROMBERG S, PUEYO L G, LIENHART R, et al. Scalable logo recognition in real-world images[C]//ACM International Conference on Multimedia Retrieval. 2011: 25.

[10] HANG S, ZHU X, GONG S. Deep learning logo detection with data expansion by synthesising context[C]//Applications of Computer Vision. 2017.

[11] HU P, RAMANAN D. Finding tiny faces[C]//Computer Vision & Pattern Recognition. 2017.

[12] EGGERT C, WINSCHEL A, ZECHA D, et al. Saliency-guided selective magnification for company logo detection[C]//IEEE 23rd International Conference on Pattern Recognition (ICPR). 2016.

[13] MENG Z, FAN X, XIN C, et al. Detecting small signs from large images[C]//IEEE International Conference on Information Reuse and Integration. 2017.

[14] ZHANG S, ZHU X, LEI Z, et al. S3FD: single shot scale-invariant face detector[C]//International Conference on Computer Vision. 2017.

[15] CAO G, XIE X, YANG W, et al. Feature-fused SSD: fast detection for small objects[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017.

[16] LIN T Y, DOLLáR, PIOTR, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017.

[17] IANDOLA F N, SHEN A, GAO P, et al. DeepLogo: hitting logo recognition with the deep neural network hammer[J]. arXiv preprint arXiv:1510.02131, 2015.

[18] GIRSHICK R. Fast R-CNN[C]//International Conference on Computer Vision. 2015.

[19] HOI S C H, WU X, LIU H, et al. LOGO-Net: large-scale deep logo detection and brand recognition with deep region-based convolutional networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 46(5): 2403-2412.

[20] EGGERT C, WINSCHEL A, LIENHART R. On the benefit of synthetic data for company logo detection[C]//The 23rd ACM International Conference on Multimedia. 2015.

[21] EGGERT C, ZECHA D, BREHM S, et al. Improving small object proposals for company logo detection[J]. arXiv preprint arXiv:1704. 08881, 2017.

[22] GIRSHICKR, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2014.

[23] KONG T, YAO A, CHEN Y, et al. HyperNet: towards accurate region proposal generation and joint object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016.

[24] LIU W, RABINOVICH A, BERG A C. ParseNet: looking wider to see better[J]. Computer Science, 2015.

[25] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4):640-651.

[26] HE K, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, (99): 1.

[27] OLIVEIRA, GON?ALO, FRAZ?O, et al. Automatic graphic logo detection via fast region-based convolutional networks[C]//International Joint Conference on Neural Networks. 2016: 985-991.

Multi-scale Logo detection algorithm based on convolutional neural network

JIANG Yuchao, JI Lixin, GAO Chao, LI Shaomei

National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China

Aiming at the requirements for multi-scale Logo detection in natural scene images, a multi-scale Logo detection algorithm based on convolutional neural network was proposed. The algorithm was based on the realization of two-stage object detection. By constructing feature pyramids and adopting layer-by-layer prediction, multi-scale region proposals were generated. The multi-layer feature maps in convolutional neural networks were fused to enhance the feature representation. The experimental results on the FlickrLogos-32 dataset show that compared with the baseline, the proposed algorithm can improve the recall rate of region proposals, and can improve the performance of small Logo detection while ensuring the accuracy of large and middle Logo, proving the superiority of the proposed algorithm.

Logo detection, convolutional neural network, multi-scale, region proposal network, feature fusion

The Nature Science Foundation of China (No.61601513)

TP391

10.11959/j.issn.2096?109x.2020026

江玉朝（1994?），男，江蘇鹽城人，信息工程大學碩士生，主要研究方向為計算機視覺。

吉立新（1969?），男，江蘇淮安人，博士，信息工程大學研究員、博士生導師，主要研究方向為通信與信息系統。

高超（1982?），男，河南鄭州人，博士，信息工程大學助理研究員、博士生導師，主要研究方向為計算機視覺。

李邵梅（1982?），女，湖北鐘祥人，博士，信息工程大學副研究員，主要研究方向為計算機視覺。

論文引用格式：江玉朝, 吉立新, 高超, 等. 基于卷積神經網絡的多尺度Logo檢測算法[J]. 網絡與信息安全學報, 2020, 6(2): 116-124.

JIANG Y C, JI L X, GAO C, et al. Multi-scale Logo detection algorithm based on convolutional neural network[J]. Chinese Journal of Network and Information Security, 2020, 6(2): 116-124.

2019?05?29；

2019?08?11

江玉朝，jingjiujiang@qq.com

國家自然科學基金資助項目（No.61601513）