999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類激活圖增強的圖像分類算法*

2020-01-11 06:26:54楊萌林張文生
計算機與生活 2020年1期
關鍵詞:分類特征實驗

楊萌林,張文生+

1.中國科學院 自動化研究所 精密感知與控制研究中心,北京100190

2.中國科學院大學 人工智能學院,北京100049

1 引言

圖像分類是計算機視覺領域中的基本任務之一,它通過提取圖像的判別特征將不同類別的圖像區分開來。圖像分類在疾病診斷[1]、場景識別[2]等領域有著重要的應用。近年來,由深度神經網絡發展起來的深度學習[3]在各種計算機視覺任務上(如圖像分類[4]、語義分割[5]、目標檢測[6]等)取得了顯著的成績。然而深度神經網絡巨大的參數量和高度的非線性化,使其學習機制不能完全被人所理解。因此深度神經網絡的可視化、可解釋性成為了深入理解深度學習的核心,也是突破深度學習發展瓶頸的關鍵[7]。

一種可視化、可解釋特征圖——分類激活圖(classification activation map,CAM)[8]在2016 年被提出后,便得到了廣泛的關注和研究。分類激活圖是一種包含了高層語義信息的特征圖,經過簡單的后處理后,能夠得到原始圖像的分類熱圖,可用于可視化分析等。

分類激活圖提供了直觀的分類依據,但是分類激活圖具有稀疏、不完整、不連續等問題[9-10]。主要原因是在分類標簽的監督下,模型很容易陷入局部判別區域,而圖像中其他的區域也能夠提供一定的判別信息,這些判別信息可能是使模型獲得更高層語義信息、提升分類性能的關鍵。除此之外,以往相關的研究中,大部分工作[8,11]僅僅利用分類激活圖進行可視化分析等。事實上,具有可解釋性的分類激活圖能夠幫助理解模型的結構,進一步改進和提升原有模型的性能。

基于以上觀察,本文從分類激活圖入手,改進和增強原有圖像分類算法。針對原始分類激活圖稀疏、不完整、不連續的問題,本文在特征層面上采用多尺度擴張卷積,并自適應學習每一個尺度的權重。由于原始分類激活圖的獲取需要兩步的后處理,本文結合多尺度特征的學習設計了單步的多尺度分類激活圖獲取的方法,并且構成了端到端的網絡模型進行學習。總結一下,本文主要的創新點和貢獻為:

(1)提出了自動加權的多尺度特征學習方法。該方法簡單、高效,并且能夠根據梯度反傳自適應學習每一個尺度特征的權重。

(2)將多尺度特征學習與分類激活圖結合,提出了單步、直接的多尺度分類激活圖獲取方法,該方法能夠嵌入到網絡中形成一種端到端的結構。同時該分類激活圖具有多尺度的特點,在一定程度緩解了原來激活圖稀疏、不完整、不連續的問題。

(3)設計了一種分類激活圖增強的網絡結構ResNet-CE。該網絡在三種公開的數據集CIFAR10、CIFAR100、STL10 上進行了大量的實驗,結果表明ResNet-CE 的分類性能相對于基準模型ResNet 都有了明顯提升,分類錯誤率分別降低了0.23%、3.56%、7.96%,并且優于目前大部分的分類模型。

2 相關研究工作

本文的工作涉及深度學習中主流的分類模型,基于擴張卷積的多尺度特征學習,分類激活圖等,以下相關研究工作將從這幾方面依次展開。

2.1 基于深度學習的圖像分類模型

1998 年,Lecun 等人提出了神經網絡的基本結構LeNet[12],應用在了手寫數字識別上。2012 年,Krizhevsky 等人提出了8 層的AlexNet[4]利用GPU 加速,在大規模數據集ImageNet[13]上進行了驗證,相對于傳統的方法AlexNet 有了顯著的提升。2014 年,Simonyan 等人考慮使用較小的卷積核和步長來提升參數量和網絡深度,提出了16、19 層的VGG 模型[14]。與此同時,Szegedy 等人從多尺度的角度考慮引入了Inception 結構,并提出22 層的GoogLeNet[15]。進一步,2015 年He 等人設計了一種殘差模塊[16-17],在一定程度上緩解了由深度引起的梯度彌散的問題,使得網絡深度得到了大幅度的提高,網絡的性能也得到了極大的提升。進一步,2017 年Huang 等人從特征的重復、充分利用出發采用密集連接,提出了DenseNet[18]。表1 總結了以上模型的特點。

Table 1 Summary of related deep neural networks表1 相關深度神經網絡的總結

2.2 基于擴張卷積的多尺度特征學習

與圖像層面的多尺度學習不同,本文提出的多尺度學習是在特征層面進行的,并且根據梯度反向傳播自動對每一個尺度的特征加權,該方法簡單、有效,幾乎不增加額外的計算量。該多尺度學習主要通過擴張卷積來實現,擴張卷積典型的特點是在參數量相同時,擁有更大的感受野。

擴張卷積,又稱為空洞卷積。相比普通的卷積,擴張卷積引入了擴張率的概念,即在相鄰的卷積核之間增加“空洞”(零元素)。擴張卷積的數學形式很早就被提了出來用于小波分解[19]。2015年,Yu等人[20]將不同擴張率的擴張卷積用于不同的網絡層中,來提取上下文信息進行語義分割和圖像分類。進而,他們將擴張卷積與ResNet 結合,提出DRN(dilated residual networks)模型[21]進行圖像分割,并解決了由擴張卷積引入的Gridding artifacts 問題。后期大部分的工作將擴張卷積用于目標定位、語義分割等[22]。

2.3 分類激活圖

深度神經網絡的可視化或者可解釋性有著重要的意義,這里重點介紹采用分類激活圖的可視化方法。分類激活圖是一種具有高層語義信息的特征圖,由Zhou 等人[8]在2016 年提出來。構造分類激活圖的基本思想是對網絡中最后一層的特征圖進行加權,該權重來自全連接層。在此基礎上Selvaraju 等人[23]發現了一種通過梯度的方法計算該權重的方法,從而提出了梯度加權的分類激活圖(gradient-weighted class activation mapping,Grad-CAM)。2018 年,Zhang 等人[9]證明了一種與原始分類激活圖[8]等價但更直接的方法,但是該方法無法直接解決分類激活圖固有的問題,Zhang 等人利用特征互補的方式實現分類激活圖的補全,進行目標定位。結合文獻[9]中的方法,本文提出了多尺度分類激活圖獲取方法,該方法能夠直接嵌入到網絡中提升判別能力、增強分類,并且在一定程度上緩解了分類激活圖存在的問題,在3.3 節中進行了詳細的介紹。

3 分類激活圖增強的圖像分類算法

本文以殘差網絡為例構造了ResNet-CE 模型,示意圖如圖1 所示。下面從基本網絡骨干ResNet、多尺度分類激活圖等依次展開相關的設計。

Fig.1 Framework of classification algorithm based on classification activation map enhancement圖1 分類激活圖增強圖像的分類算法的基本框架

3.1 基本網絡骨干

ResNet 的基本結構是殘差模塊,該模塊在一定程度緩解了梯度彌散的問題,增加了網絡的深度,提升了網絡的性能。

如圖2 所示,在該模塊中,對特征圖x∈?W×H×N和經過卷積輸出的f(x)∈?W×H×N直接建立了一條連接,進行信息融合,得到輸出h(x)∈?W×H×N:

其中,(W,H) 為特征圖的寬和高,N為特征圖的通道數。

Fig.2 Residual block圖2 殘差模塊

通過堆疊該模塊,可以得到不同層數的網絡結構。在一定的范圍內,層數越深,模型的分類效果越好,但同時訓練時間、測試時間以及需要的計算資源會相應地增加。兼顧分類性能和效率兩方面的因素,參照文獻[16]中ResNet-50(如表2 所示)的配置,取前3 個模塊,n取值為16,進行本文的實驗,提出的ResNet-CE 即在該配置下進行設計的。

Table 2 Parameter configuration of ResNet-50表2 ResNet-50 參數配置

3.2 多尺度特征學習與分類激活圖

某一擴張率的擴張卷積能夠感受一定尺度的語義信息,而融合不同擴張率的擴張卷積能夠獲得多尺度或上下文的語義信息。同時,與使用多種不同大小卷積核的卷積相比,采用多種不同擴張率的擴張卷積可以大大降低參數量和運算量。如圖3 為擴張卷積的示意圖(從左至右擴張率依次為1、2、3)。擴張卷積與普通的卷積在相同參數量的情況下,感受野得到了大幅度的提升。卷積核大小為3×3,擴張率為d的卷積,其感受野與卷積核大小為[3+2(3d-1)]×[3+2(d-1)]的卷積相同,擴張率d為1 時,擴張卷積和普通的卷積相同。

Fig.3 Illustration of dilated convolution圖3 擴張卷積示意圖

對于特征圖x(i,j),當采用卷積w(m,n)(其中i、j、m、n為二維矩陣的索引值),普通的卷積運算為:

擴張率為d的卷積運算為:

進一步,圖4 展示了三種分類激活圖的獲取方法。原始的分類激活圖(圖4 Original CAM)需要兩個步驟:(1)從全連接(fully connected,FC)層獲得權重;(2)將權重映射回之前的特征圖。文獻[9]中采用了一種等價的方法(圖4 Equivalent CAM),即用C個1×1 的卷積替換全連接層,并移至平均池化層(global average pooling,GAP)之前,從而直接得到通道數為C的特征圖,即為分類激活圖,其中C等于類別數。但是該方法沒有直接解決分類激活圖本身的問題,并且由N通道轉換至C通道時丟失了太多的語義信息。

Fig.4 Methods to obtain classification activation map圖4 分類激活圖獲取方法

考慮到多尺度特征學習以及語義信息的過渡,本文提出了多尺度分類激活圖獲取的方法(圖4 Proposed method):即模型在由N通道的特征圖轉換成C通道的特征圖時,引入了一個多尺度的卷積模塊(圖4 Multiscale conv block)。該模塊中包含了多個尺度特征的提取,每一個尺度分別包含三個卷積,卷積核的大小分別是1×1、3×3、1×1,卷積的個數為N/2、N/2、C。擴張卷積在第二個卷積中實現,采用的擴張率為1、2、3(過大的擴張率會引入噪聲和無關的上下文信息)。進行擴張卷積時,填補與擴張率相等個數的零元素來保持特征圖的大小不變。其他兩個卷積分別實現語義信息的過渡,降低運算量和直接將分類激活圖嵌入到網絡中形成端到端的結構。

利用該模塊可以獲得不同尺度的分類激活圖,由于不同尺度特征的重要性不同,本文采用一種自適應加權的方式,具體的方法是:給每一個尺度的模塊賦予一個初始權重,然后通過梯度反傳的方式自動更新該權重,該方法簡單但卻十分有效。總結一下,構造該模型的具體步驟為:

(1)選取骨干網絡的最后一層(或倒數第二層)作為提取分類激活圖的特征圖f(x)。

(2)將特征圖f(x)通過多尺度卷積模塊轉變為具有類別信息的特征圖g1(x)、g2(x)、g3(x)。

(3)對該特征圖進行加權融合:

式(4)中,三個參數的初始權重設置為1 并隨著網絡的梯度反傳自動調節,得到的g(x)進行批歸一化處理。

式(5)中,E[?]表示均值,Var[?]表示方差,gk(x)表示第g(x)的第k個通道。式(6)中的γ、β是待學習的參數。

(4)對融合的分類激活圖g(x)進行池化操作,再經過Softmax 輸出最終的概率y:

式(7)、式(8)中,k的取值范圍為[1,C],表示第k類的輸出概率。

3.3 損失函數與評價指標

模型采用分類任務中常用的交叉熵作為損失函數,對于第k類,真實標簽用yk表示,損失函數為:

評價指標用平均錯誤率(mean error,mE)進行度量,即測試集中分類錯誤個數n與測試集中樣本總數N的比值:

4 實驗與結果

由于構造ResNet-CE 時,另外加入了一個多尺度的模塊,因此基準模型ResNet相應的多加入一個殘差模塊進行比較,確保參數量相當。ResNet 和ResNet-CE 嚴格采取相同的數據預處理方法、初始化方式、訓練過程、優化方法、損失函數等。

4.1 數據集

本文在3 個公開數據集CIFAR10、CIFAR100[24]和STL10[25]上進行了相關的實驗。其中,CIFAR10 數據集包含了10 種不同的類別,分別是飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船、卡車。每張圖的大小是32×32,有3 個通道。CIFAR100 與CIFAR10 的圖片格式一致,而類別為100 種。

4.2 CIFAR10 與CIFAR100 實驗設置與結果

在CIFAR10 和CIFAR100 的實驗中,有50 000 張圖片作為訓練集,10 000 張圖片作為測試集。本文采用與文獻[16]相同的數據預處理方法,即在訓練集上進行兩種處理:數據增廣和不進行數據增廣。數據增廣:以0.5 的概率進行水平翻轉,并將圖片用零填充至36×36 的大小,然后在其中隨機剪切出來32×32 的圖片。無論哪種方式,都先在訓練集上進行歸一化,而在測試集上只進行數據的歸一化,不進行數據增廣。

實驗采用隨機梯度下降(stochastic gradient descent,SGD)的方式進行優化,與文獻[16]不同的是,本文實驗迭代次數為200,學習率初始值為0.1,在60、120、160 時以0.2 的倍率下調。訓練時,圖像批處理大小設置為128,測試時設置為100。按照以上設置,實驗在PyTorch 0.4 框架下獨立進行了5 次,計算出來5 次均值作為最后的結果,實驗結果如表3 所示。

Table 3 Classification error rate of models on CIFAR10 and CIFAR100表3 模型在CIFAR10 和CIFAR100上的分類錯誤率 %

為了驗證提出的ResNet-CE 的有效性,本文對比了多種模型在CIFAR10 和CIFAR100 上的實驗結果,包括NIN(network in network)[26]、DSN(deeply supervised nets)[27]、FitNet[28]、HighwayNet[29]、LeNet[12]、VGG[14]、ResNet[16]。其中NIN 采用了一種多層感知機的卷積模塊并用全局平均池化代替全連接層;DSN 為每個隱藏層引入伴隨目標函數來提供直接的監督;FitNet采用了教師-學生的網絡結構進行知識蒸餾;HighwayNet 應用了可學習的門限機制并引入了跨層的信息通道,以上模型直接引用了相關論文中的實驗結果。LeNet、VGG、ResNet 在2.1 節進行了相關的介紹,在與ResNet-CE 相同的實驗條件下,本文重新對這3 類模型進行了相關的實驗(在表3 中加*號來區別)。

從表3 可以看出,本文提出的ResNet-CE 在兩種不同數據預處理的實驗下(“+”表示采用數據增廣),分類的性能都好于基準模型ResNet 并且優于目前大部分主流的分類模型如VGG、HighwayNet、FitNet 等。采用數據增廣時,ResNet-CE在CIFAR10和CIFAR100得到了5.73%和23.85%的錯誤率,相對于基準模型ResNet 分別降低了0.23%、3.56%。不進行數據增廣時,ResNet-CE 效果更為明顯,分類錯誤率低于基準模型0.35%和3.70%。

4.3 STL10 實驗設置與結果

STL10 數據集[25]中包含了113 000 張圖片,每張圖像的大小為96×96。訓練集有5 000 張圖片,測試集包含了8 000 張圖片,分別都有相同的10 個類別:飛機、鳥、車、貓、鹿、狗、馬、猴子、船舶、卡車。除此之外,STL10 還包含了一些無標簽的圖片。該數據集可進行半監督學習和監督學習的實驗,本文只利用有標簽的圖像進行監督學習,來驗證提出算法在較大圖片以及少量樣本上的有效性,該數據集更符合實際的應用場景。

在STL10 上同樣進行兩種數據預處理,即數據增廣和不進行數據增廣。STL10 的數據增廣:以0.5的概率水平翻轉,并在圖像周圍填充零元素至100×100,然后在其中隨機剪切出來96×96 大小的圖片。網絡配置和訓練方式與CIFAR10/100 相同。

從表4 中的實驗結果可以看出,ResNet-CE 相比于基準模型ResNet,在STL10 數據集上有明顯的提升。在兩種數據預處理下的實驗,ResNet-CE 錯誤率分別降低了9.61%和7.96%,達到了27.03%和15.91%的錯誤率。由于STL10 訓練集只有5 000 張圖片,數據量小且少于測試集8 000 張圖片,進行數據增廣后,兩個模型性能都有顯著的提升。

Table 4 Classification error rate of models on STL10表4 模型在STL10 上的分類錯誤率 %

5 實驗分析與討論

5.1 自動加權的多尺度特征學習

為了驗證自動加權學習方式的有效性,本文將ResNet-CE 多尺度卷積模塊的每一個尺度權重系數固定為1,進行了對比實驗,實驗結果如表5 所示。

在表5 中,ResNet-CE(-)表示不采用加權的學習模型。由實驗結果可以看出采用加權學習的ResNet-CE 在3 種不同的數據集上,分別進行的兩種實驗(共6 組實驗)獲得的分類錯誤率都有不同程度降低。在CIFAR10 和CIFAR100 上的錯誤率較低的程度不是非常明顯,主要原因是該數據集相對簡單,基準模型已經達到了很高的識別率。在STL10 上分類錯誤率較為明顯,分別降低了3.59%、2.20%。

Table 5 Classification error rate of models in different learning styles表5 模型在不同學習方式下的分類錯誤率 %

5.2 多尺度分類激活圖與分類熱圖

STL10 數據集分辨率較大,本文以STL10 為例,生成STL10 對應的分類熱圖進行分析和討論。

分類激活圖轉成可視化的熱圖需要簡單的后處理:首先對得到的分類激活圖進行雙線性插值,使分類激活圖大小等于原始圖像,進一步覆蓋到原始圖像上,從而得到熱圖,其過程如圖5 所示。

Fig.5 Heatmap generation process圖5 熱圖生成過程

根據上述方法,圖6展示了由ResNet-CE和ResNet在STL10 生成的熱圖,其中第1、4 行是原始圖像,第2、5 行是由ResNet產生的熱圖,第3、6 行是由ResNet-CE 產生的熱圖,熱圖中高亮的區域代表與分類相關的區域。

通過該熱圖能夠發現:(1)模型是如何做出判斷的,即模型判斷的依據,如對于貓、狗、猴子等動物的判斷,模型關注目標的臉部區域。對于船舶、飛機、卡車的識別,模型關注目標主體部分,這對模型或算法的理解和改進具有重要的意義。(2)基準模型ResNet 產生的熱圖(第2、5 行)表現出稀疏、不連續、不完整等問題,相對而言本文提出的ResNet-CE 稍微緩解了以上問題,語義信息更加明顯和直觀。盡管如此,得到的熱圖仍然是不完整的,對大部分圖片,有相當一部分的區域被抑制了。另外,整體上看響應的判別區域越多越準,模型的表現越好,如何進一步挖掘判別區域將是一份有意義的工作。

Fig.6 Classification heatmaps generated by ResNet-CE in STL10 dataset圖6 由ResNet-CE 在STL10 數據集上生成的分類熱圖

5.3 分類熱圖與模型輸出

為了更加清楚說明分類熱圖與分類的關系,本文以圖7 中的兩組樣本進行說明。圖7 中第一列為待識別的圖,第二列為ResNet 產生的熱圖,第三列為ResNet-CE 產生的熱圖。從圖7 中可以看出ResNet-CE 感受到了更多、更精確的區域。

Fig.7 Samples and correspnding heatmaps圖7 樣本以及對應的熱圖

除此之外,表6 列出了這兩個樣本對應10 個輸出通道的概率值。結合表6 和圖7,可以看出樣本1(標簽為猴子,對應圖7 的第一行),ResNet 抓住了兩部分主要的特征,樹干和猴子的臉部。輸出通道#5和#8 的概率較大,分別為0.420 5 和0.377 0,其中#5對應的標簽是鹿,#8 對應的是猴子。鹿的紋理和樹的紋理有一定的相似之處,ResNet 沒有很好地區分,而ResNet-CE 更多地關注了猴子臉部而抑制了樹干的特征,得到的#8 的概率為0.644 3,#5 的概率為0.047 0。同樣地,在樣本2 中(標簽為飛機,對應圖7的第二行),雖然兩個模型最終的結果都判為了第一類,即飛機,但是ResNet-CE 給出了更大的置信度(0.995 2),對應熱圖中的區域也更大、更準。

Table 6 Probability value of output channel of samples表6 樣本輸出通道的概率值

總的來說,ResNet-CE 通過多尺度擴張卷積得到了更多的具有判別性質的信息,進一步利用這些信息幫助模型做出決策和判斷。通過不斷的梯度反傳,模型能夠得到更準確的判別信息,從而提高模型的判別能力。

6 結束語

本文提出了一種分類激活圖增強的圖像分類算法。研究發現:(1)通過自動加權的多尺度擴張卷積能夠在一定程度彌補原始分類模型下分類激活圖不完整、不連續以及稀疏等問題;(2)通過對分類熱圖的進一步利用,挖掘出更多、更準的判別區域,能夠在原有的分類模型上得到進一步的提升。本文提出的方法非常簡單但十分有效,同時保留了分類激活圖本身的可視化、可解釋的功能,但是挖掘更多的目標區域仍需要進一步的探索。下一步的工作計劃是研究圖像中目標內部的相似性以及與背景的差異性,來挖掘更多的激活區域提升模型的性能。

本文提出的算法在醫學影像的疾病診斷、無人駕駛的場景識別等有重要的意義。同時,也為分類算法等相關任務提供了一個新的研究思路和方向。

猜你喜歡
分類特征實驗
記一次有趣的實驗
分類算一算
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 国内精品九九久久久精品| 国产99视频精品免费视频7| 亚洲人成网18禁| 亚洲精品午夜无码电影网| 亚洲精品国产首次亮相| 国产精品自在线拍国产电影| 亚洲人成人无码www| 欧美乱妇高清无乱码免费| 韩国自拍偷自拍亚洲精品| 2021无码专区人妻系列日韩| 综合社区亚洲熟妇p| 国产69囗曝护士吞精在线视频 | 国产网友愉拍精品| 久久久久人妻一区精品色奶水| 中文字幕 欧美日韩| 欧美综合成人| 中文字幕乱妇无码AV在线| 毛片在线播放网址| 欧美视频在线不卡| h网址在线观看| 亚洲日本www| 18黑白丝水手服自慰喷水网站| 国产凹凸视频在线观看| 国产成人乱无码视频| 狠狠色综合久久狠狠色综合| 国内a级毛片| 亚洲欧美成人综合| 亚国产欧美在线人成| 久久精品66| 亚洲日本精品一区二区| 天堂va亚洲va欧美va国产| 无码AV日韩一二三区| 搞黄网站免费观看| 亚洲成a人片| 国产xxxxx免费视频| 欧美亚洲一二三区| 91成人在线观看| 亚洲精品va| 青青国产视频| 亚洲国产精品一区二区第一页免 | 欧美乱妇高清无乱码免费| 91黄色在线观看| 色综合中文字幕| 欧美午夜网| 亚洲人在线| 国产手机在线观看| 国产一级视频久久| 欧美成a人片在线观看| 114级毛片免费观看| 天堂在线亚洲| 久久中文字幕av不卡一区二区| 亚洲天堂视频网站| 国产精品美乳| 国产精选小视频在线观看| 日韩欧美中文| 影音先锋丝袜制服| 国产在线一二三区| 久久网欧美| 久综合日韩| 精品国产成人av免费| 久久福利网| 婷婷综合亚洲| 视频二区国产精品职场同事| igao国产精品| 欧美精品色视频| a在线观看免费| 最新加勒比隔壁人妻| av一区二区无码在线| 国产成人综合在线视频| 欧美国产在线精品17p| 亚洲国产天堂久久综合226114| 亚洲一区二区三区中文字幕5566| 成人91在线| 亚洲欧美在线精品一区二区| 91成人免费观看| 97人人做人人爽香蕉精品| 日韩激情成人| 一级毛片不卡片免费观看| 一区二区理伦视频| 欧洲免费精品视频在线| 亚洲成人免费在线| 99性视频|