999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

細粒度圖像識別任務的多層和區(qū)域特征融合模型*

2023-02-04 11:51:50劉宇澤孫涵李明洋李明心康巨濤王恩浩
中國農(nóng)機化學報 2023年1期
關(guān)鍵詞:特征區(qū)域融合

劉宇澤,孫涵,李明洋,李明心,康巨濤,王恩浩

(1. 南京航空航天大學計算機科學與技術(shù)學院,南京市,211100;2. 伊利諾伊大學厄巴納—香檳分校Grainger工程學院,美國伊利諾伊州,61801)

0 引言

在整個十多年的細粒度識別研究中,最根本的目標是解決同一類下不同子類的識別問題,相關(guān)的經(jīng)典數(shù)據(jù)集有FGVC-Aircraft[1]數(shù)據(jù)集和CUB-200-2011(CUB)[2]數(shù)據(jù)集以及Stanford Dogs[3]數(shù)據(jù)集等。這一識別任務的關(guān)鍵問題在于圖片整體相似而局部微小細節(jié)不同,在人眼幾乎也很難分辨的情況下,該任務的挑戰(zhàn)性可想而知,從而引起了廣泛的研究與關(guān)注。

細粒度圖像識別任務對于判別區(qū)域的特征學習至關(guān)重要。目前,主流的細粒度識別方法有兩種。一是通過人為標注判別區(qū)域邊界框進行學習,這種強監(jiān)督下的學習方法[4-6]雖然在模型構(gòu)建以及計算開銷上簡單許多,但是人工標注判別區(qū)域的成本太高,不能從根本上完整地解決細粒度圖像識別的問題。二是通過注意力機制自動學習圖像中具有判別特征的區(qū)域,這種無監(jiān)督下模型的自主學習方法[7-10]不需要人為添加邊界框,但是在模型構(gòu)建中需要引入額外的網(wǎng)絡結(jié)構(gòu),并且在訓練和推理階段會引入額外的計算開銷。

本文提出了一種基于注意力機制的MRI模型用于細粒度圖像識別任務。本模型不需要人工標注邊界框和注釋等額外的監(jiān)督信息,即可完成一個端到端的訓練。

1 研究背景

目前在細粒度圖像識別方法整體上是兩種思路。一種是直接從原始的整體圖像中學習圖像的特征信息[11-12]。另一種就是基于部件或者注意力的,學習區(qū)域特征信息的學習策略[8-9],也就是圖像的特征學習對象是整體或者是局部的不同。

一開始基于人工標注邊界框的強監(jiān)督學習方式,在對于具有判別力的圖像區(qū)域的選取中省下了很大的功夫,之后需要的是利用已經(jīng)標注好的區(qū)域和注釋進行特征提取和分類。Zhang等[13]強化對于特征區(qū)域的幾何約束并在姿態(tài)歸一化的基礎(chǔ)上進行類別預測。Chai等[14]利用強監(jiān)督信息對圖像前后景進行分割,然后對前景進行處理,減少了無關(guān)區(qū)域的干擾。從選定好的特定區(qū)域的帶有類別和部件注釋的圖像中學習具有高區(qū)分度的中間特征,即和部件一對一的特征。但在實際應用以及未來趨勢中,當應用部署時,無論是新增的數(shù)據(jù)還是龐大的整體數(shù)據(jù)集,人工標注總是顯得十分麻煩以及耗費成本,因此研究趨勢開始往深度學習靠近[15]。

隨著近段時間深度學習的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡逐漸成為了圖像識別中的主流方法。細粒度識別方法已經(jīng)從基于手工制作特征的多級框架[16-19]轉(zhuǎn)變?yōu)榛诰矸e神經(jīng)網(wǎng)絡的多級框架[20-22]。在沒有人工標注邊界框和注釋的情況下,Jaderberg等[23]提出了空間轉(zhuǎn)換器網(wǎng)絡來顯示表示網(wǎng)絡內(nèi)的數(shù)據(jù),并預測具有豐富信息的區(qū)域位置。

同時大量基于部件或注意力的方法也被提出,Xiao等[21]提出的基于注意力部件的思路認為圖像中物體的部件具有非常重要的意義。Fu等[7]提出了一個強化注意建議網(wǎng)絡,以獲得區(qū)分注意區(qū)域和多尺度的基于區(qū)域的特征。Sun等[24]提出了一個單擠壓多激勵模塊來學習每個輸入圖像的多注意區(qū)域特征,然后在度量學習框架中應用多注意多類約束。除了部件以外,從自然語言處理領(lǐng)域逐漸延伸出來的模擬人觀察事物原理的注意力機制也有豐富的研究成果。Zhao等[9]提出了多元化的視覺注意力網(wǎng)絡,明確追求注意力區(qū)域的多樣性,更好的收集具有辨別性的信息。Hu等[25]提出了一種強化通道的圖像識別部件,給骨干網(wǎng)絡提取后的特征圖的通道附加注意力權(quán)重,這種關(guān)注通道特征的思路可以作為部件加在絕大部分的圖像識別模型中。Behera等[26]提出了一種強調(diào)上下文關(guān)聯(lián)的特征融合方法,用注意力權(quán)重來強調(diào)自主提取的特征區(qū)域在內(nèi)容和空間上的相互關(guān)聯(lián)。

目前研究中主要存在數(shù)據(jù)集識別的準確率需要進一步提高的問題、對于人工標注邊界框等等高成本方法的克服問題,以及模型整體過于復雜所帶來的額外計算開銷的問題。

本文提出一種主體基于注意力機制的,全面利用骨干網(wǎng)絡計算結(jié)果的細粒度圖像識別框架(圖1),名為多層和區(qū)域特征融合模型(MRI)。主要分為兩個部分,“多層融合”部分在標準分類骨干網(wǎng)絡中進行修改,原骨干網(wǎng)絡僅利用最后一層特征提取結(jié)果,本文將骨干網(wǎng)絡的淺層和深層提取結(jié)果全部利用,保證數(shù)據(jù)的全面性,并且添加了特征圖的融合權(quán)重。在“區(qū)域特征融合”部分自主提取興趣區(qū)域并學習各個區(qū)域之間的相關(guān)性,從而在原區(qū)域特征的基礎(chǔ)上對各個區(qū)域的特征進一步完善。

圖1 MRI模型的架構(gòu)細節(jié)

2 模型構(gòu)成方法與原理

模型的總體運行模式為接收一張圖片的輸入并輸出這張圖片的預測類別。為找到一個對應輸入圖片和預測標簽的映射函數(shù)F(圖1),模型整體由3個部分組成:基礎(chǔ)CNNFa(.;θa),多層融合模塊Fb(.;θb),區(qū)域融合模塊Fc(.;θc)。我們的目標是通過端到端的訓練來學習模型參數(shù)θ={θa,θb,θc}。

2.1 帶有注意力權(quán)重的多層融合策略

多層融合指的是在最開始的骨干網(wǎng)絡基礎(chǔ)上,對于骨干網(wǎng)絡中不同層輸出的特征圖進行有規(guī)律的融合。正如本文引言所說,隨著骨干網(wǎng)絡層數(shù)加深,由于卷積核提取特征的原理,越深的特征圖的感受野越大,同時也具有更加豐富的語義信息。相反,淺層的特征圖感受野小,雖然語義信息較少,但是特征圖中包含更多的細節(jié)。融合多層的特征圖有利于全面利用模型的計算成果,增強語義信息的表現(xiàn)力和模型的推理能力。

對于“多層融合”部分,一方面,原有的骨干網(wǎng)絡在細粒度圖像識別中總是考慮最深層的特征提取結(jié)果,大量的計算和時間成本下網(wǎng)絡絕大部分的計算結(jié)果都被丟棄,所以將淺層提取結(jié)果融合加以利用。另一方面,在骨干網(wǎng)絡的提取中,隨著每一層卷積核的特征融合,感受野不斷增大,原來的圖像特征逐漸轉(zhuǎn)移到通道中。這是伴隨著從淺往深,圖像特征從細節(jié)到抽象的變化過程。細粒度圖像識別任務中具有判別力的局部細節(jié)特征至關(guān)重要,因此融合淺層提取結(jié)果是具有理論意義的。在采用多層融合的基礎(chǔ)上,同時給每層附加了注意力權(quán)重,在模型的不斷學習中,給予其自主調(diào)整對于不同層的關(guān)注程度的能力。

文章采用的骨干網(wǎng)絡是Resnet-50,這個網(wǎng)絡放在最開始,其中的卷積層訓練得到的可學習參數(shù)為θa。同時具有五層特征圖輸出{Oi|i=1,2,3,4,5},由于第一層輸出過于淺層,感受野太小,對于深度學習計算意義不大,所以僅考慮后四層特征圖。

2.1.1 感受野加強

為擴張?zhí)卣鲌D的感受野,使其具有更加豐富的語義信息,對Sun等[27]提出的語義分割領(lǐng)域中的一部分內(nèi)容進行了復用。

首先,對于{Oi|i=2,3,4,5},通過1×1卷積將特征圖的通道數(shù)轉(zhuǎn)換為128,將通道數(shù)減小并且統(tǒng)一,可減少后續(xù)計算的開銷,更加方便后續(xù)的多層融合。然后,對{Oi|i=2,3,4}三個特征圖分別采用同樣擴張率的擴張卷積進行操作。為了防止計算量增加,卷積核都固定在3×3這一較小量上進行運算。對于前三層特征圖擴張率設定為1,2,3,但對于最后一張?zhí)卣鲌D擴展率為1,3,5。擴張率為1指的是采用原始的3×3卷積核,而擴張率為2指的是3×3卷積核每次采樣2個像素,也就是和5×5卷積核效果相近,從而使感受野擴大。以此類推,擴張率為3和5實際上使卷積核分別擴張到7×7和11×11。隨著擴張率增大,感受野同時也增大。在分別進行獨立的不同擴展率的卷積核卷積后,對具有不同感受野的三張?zhí)卣鲌D進行元素相加。最后,經(jīng)過一個3×3的卷積核進行融合。經(jīng)過擴展卷積后的特征圖相比于之前具有更多豐富的語義信息,使骨干網(wǎng)絡的輸出結(jié)果不再僅僅關(guān)注物體的抽象特征,而更容易關(guān)注并學習到物體的整體信息。

2.1.2 附著注意力的多層融合

這里同樣的復用了部分Sun等[27]提出的并行融合策略,在復用的基礎(chǔ)上進行了部分截取并進行了創(chuàng)新。對于經(jīng)過處理后的四層特征圖,因為在相鄰層上特征圖的感受野相近,所以采用相鄰層融合的策略,這樣的融合策略可以避免對特征圖中特征信息的重復融合,減少冗余信息,并且整體融合后可以加強特征圖的特征表現(xiàn)力。因此整體上對相鄰層優(yōu)先融合,并重新編號,繼續(xù)以相鄰層融合。這里的融合就是元素相加并用3×3卷積核進行融合。

本文對{Oi|i=2,3,4,5}四張?zhí)卣鲌D在感受野強化前添加注意力權(quán)重{Ai|i=2,3,4,5},初始化同為0.25。因為對于特征圖來說,淺層和深層帶來的效益不同,一方面是淺層細節(jié)信息,另一方面是深層語義信息,不能顧此失彼,也不能一視同仁。首先所有權(quán)重均為1的相加融合對于網(wǎng)絡來說數(shù)據(jù)還是有重復融合的情況,添加權(quán)重后4張?zhí)卣鲌D的融合結(jié)果也會和典型的細粒度圖像識別領(lǐng)域中利用深層特征圖的數(shù)據(jù)形式靠齊,其次,對于深淺層不同特征信息不能人為的限制權(quán)重分配,若不采用注意力機制,而一次次試驗對于不同數(shù)據(jù)集的超參數(shù)也是很大的工程,因此注意力機制可以給模型更大的自主學習空間。其中所有卷積層訓練得到的參數(shù)和注意力權(quán)重參數(shù){Ai|i=2,3,4,5}為可學習參數(shù)θb。本模塊融合后得到總特征圖O送入?yún)^(qū)域特征融合模塊。

2.2 區(qū)域特征融合模塊

對于“區(qū)域特征融合”部分,在特征圖中自由選取區(qū)域,這些區(qū)域很大程度上會很少或者不會包含重要的局部特征,但總有區(qū)域會包含需要的具有判別特征的判別區(qū)域,因此對于這些區(qū)域進行特征融合操作,將每個區(qū)域與其他所有區(qū)域的相關(guān)性作為基礎(chǔ)進行了一個帶有注意力權(quán)重的融合,從而在很大程度上完善了各個區(qū)域的特征表現(xiàn)。

2.2.1 提出興趣區(qū)域

為了有效率的學習上下文信息,在特征圖O上用不同的比例提取了大量的興趣區(qū)域。比例通過矩形的不同大小體現(xiàn)??紤]最小的區(qū)域r(O的左下角i行j列,寬Δx,高Δy),通過不同的寬和高獲取區(qū)域集(例如區(qū)域R={r(i,j,mΔx,nΔy)};m,n=1,2,3,…,i

圖2 興趣區(qū)域選擇方法的可視化呈現(xiàn)

2.2.2 特征區(qū)域融合

在這個步驟中,把之前計算出的用來統(tǒng)一所有區(qū)域的固定大小的特征向量轉(zhuǎn)換為有權(quán)重的形式。這使得特征區(qū)域可以在基于相關(guān)性權(quán)重的基礎(chǔ)上進行特征融合。這里對Sun等[26]的上下文敏感注意力策略進行了復用。

式中:cr——計算過權(quán)重的內(nèi)容向量;

αr,r′——經(jīng)過softmax處理后的注意力權(quán)重系數(shù);

βr,r′——經(jīng)過tanh激活函數(shù)處理后的矩陣向量;

Wα,Wβ,Wβ′——參數(shù)矩陣;

bα,bβ——偏差值;

q,k——對特征向量進行數(shù)學處理的函數(shù)。

2.3 分類

這里將前一模塊得到的19張融合后的特征區(qū)域進行最后的操作。首先在保留通道數(shù)的基礎(chǔ)上調(diào)整形狀,將19張?zhí)卣鲌D通道維以外的數(shù)據(jù)合成一維,進行平均池化后乘以權(quán)重α(這里的α是設定的超參數(shù),默認為0.01),同時對最開始多層融合模塊的輸出特征圖進行平均池化,然后將兩張?zhí)卣鲌D元素加和送入分類器中,根據(jù)輸出概率得出最后的預測結(jié)果。

2.4 損失函數(shù)

MRI模型使用交叉熵損失函數(shù)。交叉熵損失函數(shù)只關(guān)心正確類別的預測概率,只要它的值足夠大,就能保證分類結(jié)果的準確性。

式中:L——所有樣本的平均損失;

N——訓練數(shù)據(jù)集中的樣本個數(shù);

M——類別的數(shù)量;

yic——符號函數(shù)(1或0),如果樣本i的正確類別為c,則取1,否則取0;

pic——樣本i屬于類別c的預測概率。

3 試驗結(jié)果與分析

文章在FGVC-Aircraft數(shù)據(jù)集和Oxford Flowers102以及AID數(shù)據(jù)集上對MRI模型進行了性能上的評估,并得到了試驗數(shù)據(jù)。在整個試驗過程中,將數(shù)據(jù)集按照訓練集和測試集進行了劃分,用到了各個圖片類別的標簽,沒有用任何人工標注的邊界框和注釋。

3.1 數(shù)據(jù)集介紹

MRI模型在Oxford Flowers、FGVC-Aircraft和AID數(shù)據(jù)集上的訓練準確率如表1、表2、表3所示。所有方法都沒有使用人工標記邊界框和注釋。

3.1.1 Oxford Flowers數(shù)據(jù)集

Oxford Flowers數(shù)據(jù)集共102個花卉的類別,選取6 149張圖片作為訓練樣本進行訓練,并選取1 020張同屬于這102個類別中但并未加入訓練樣本的圖片進行測試,樣本圖像如圖3所示。

(a) 測試樣本 (b) 訓練樣本

3.1.2 FGVC-Aircraft數(shù)據(jù)集

FGVC-Aircraft數(shù)據(jù)集共71個飛機類別,選取 3 302 張圖片作為訓練樣本進行訓練,并選取3 301張同屬于這71個類別中但并未加入訓練樣本的圖片進行測試,樣本圖像如圖4所示。

(a) 測試樣本 (b) 訓練樣本

3.1.3 AID數(shù)據(jù)集

AID數(shù)據(jù)集共30個類別,主要由航拍遙感圖像組成,包括機場、海岸等圖片類別。選取6 679張圖片作為訓練樣本進行訓練,并選取3 321張同屬于這30個類別中但并未加入訓練樣本的圖片進行測試,樣本圖像如圖5所示。

(a) 測試樣本 (b) 訓練樣本

3.2 試驗細節(jié)

采用了廣泛使用的Resnet-50作為模型的骨干網(wǎng)絡,使用在Imagenet數(shù)據(jù)集上訓練的預訓練模型參數(shù)。訓練之前將輸入圖像大小調(diào)整為224×224,每邊填充4后隨機裁剪,并進行隨機旋轉(zhuǎn)和水平翻轉(zhuǎn)用來數(shù)據(jù)增強。

在興趣區(qū)域選擇的過程中,將42×42×128的特征圖的前兩維當作一個14為單位的3×3的二維平面進行區(qū)域提取。最小提取大小為1×2,將所有能被1×2和1×3大小的區(qū)域覆蓋的區(qū)域舍棄后,加上原始的整張?zhí)卣鲌D,一共19張?zhí)卣鲌D,并采用雙線性插值調(diào)整大小為7×7×128,進行特征區(qū)域融合。

在訓練過程中,批量大小和迭代次數(shù)分別設置為8和100。學習率初始設定為0.005,并且動量參數(shù)初始設定為0.5。前十次迭代采用余弦退火算法調(diào)整學習率,之后的迭代中采用基于SWA優(yōu)化的隨機權(quán)重平均進行優(yōu)化。

3.3 結(jié)果分析

如表1所示,MRI在Oxford Flowers數(shù)據(jù)集上的表現(xiàn)優(yōu)于其他大多數(shù)方法,訓練效率也很高。如圖6所示,在30個批次左右基本達到了最高的精度。

表1 在Oxford Flowers數(shù)據(jù)集上的各方法準確率比較Tab. 1 Comparison of the accuracy of various methods on the Oxford Flowers dataset

(a) 準確率

(b) 平均損失

圖6(a)為準確率圖像,準確率在訓練10批次后基本穩(wěn)定在95%左右。圖6(b)為平局損失圖像,平均損失同樣在10批次左右基本收斂,并在0.02附近波動,整體訓練速度和準確率都較為優(yōu)異。

如表2所示,MRI在FGVC-Aircraft數(shù)據(jù)集上的性能優(yōu)于大多數(shù)其他方法,訓練效率也較高。如圖7所示,在大約50個epoch中基本達到了最高的精度。圖7(a)為準確率圖像,準確率在訓練40~50批次后基本穩(wěn)定在86%左右。圖7(b)為平均損失圖像,平均損失在30批次左右基本收斂,并在0.08附近波動,相較于已有的識別方法,整體訓練速度和準確率較為優(yōu)異。

表2 在FGVC-Aircraft數(shù)據(jù)集上的各方法準確率比較Tab. 2 Comparison of accuracy of various methods on FGVC-Aircraft dataset

(a) 準確率

(b) 平均損失

如表3所示,MRI在AID數(shù)據(jù)集上的表現(xiàn)非常出色,訓練效率很高。如圖8所示,在20個批次左右基本達到了最高的精度。圖8(a)為準確率圖像,準確率在訓練10批次后基本穩(wěn)定在96%左右,最高一次接近97%。圖8(b)為平均損失圖像,平均損失在8批次左右基本收斂,并在0.025附近波動,整體訓練速度和準確率優(yōu)異。

如圖9所示,與原始的骨干網(wǎng)絡相比,可以發(fā)現(xiàn)多層特征融合的圖像具有更豐富的局部信息,充分利用了淺層骨干網(wǎng)的計算結(jié)果,使得模型在對于圖像類別進行預測時能夠具有更加豐富的推測依據(jù),而非僅關(guān)注骨干網(wǎng)絡最后一層下采樣提取出來的深層特征。

表3 在AID數(shù)據(jù)集上的準確率Tab. 3 Accuracy on the AID dataset

(a) 準確率

圖9 不同模型識別效果圖

Fig. 9 Different model recognition renderings

3.4 消融試驗

如表4所示,創(chuàng)新的權(quán)重添加、優(yōu)化的區(qū)域融合策略、多層融合和骨干網(wǎng)絡的適用性都比較好,各模塊在訓練準確率上表現(xiàn)較好,采用較少的批次即可達到最佳準確率。雖然MRI在數(shù)據(jù)集上不如CAP模型,但是MRI模型的可訓練參數(shù)數(shù)量約為27.23 M,遠遠少于以Resnet-50為骨干網(wǎng)絡的CAP模型的36.9 M。

表4 消融試驗數(shù)據(jù)Tab. 4 Ablation study data

模型(最佳準確率以%/epoch為單位)分為Resnet-50(B)卷積神經(jīng)網(wǎng)絡、添加多層融合(+M)、注意力權(quán)重(+W)和區(qū)域特征融合(+R)模塊??梢园l(fā)現(xiàn)準確率趨勢和達到最高準確率的最小批次的模型依次為(B+M+W+R)>(B+M+W)>(B+M)>B。最終MRI模型的(B+M+W+R)可訓練參數(shù)(Param)以百萬(M)為單位給出。

MRI模型在Oxford Flowers、FGVC-Aircraft和AID三個數(shù)據(jù)集上訓練的準確率如表1、表2和表3所示,這里的所有方法都沒有用到人工標注邊界框和注釋。從表中數(shù)據(jù)可以看出,所提出的MRI模型在三個數(shù)據(jù)集上的訓練效果均較為優(yōu)異,綜合考慮FGVC-Aircraft數(shù)據(jù)集在圖像細節(jié)和特征的明顯程度上相較于其他數(shù)據(jù)集的識別難度更大,可能由于所提出的MRI模型規(guī)模上較小,導致對于包含更多細致特征的數(shù)據(jù)提取中難以通過有限的參數(shù)表示出來。與最新的CAP模型比較中,在模型的整體規(guī)模上遠小于CAP模型,但是在實際應用中,輕量級模型在移動端上的部署會有更好的適配性。

4 討論

卷積層多層融合模塊:這一部分里面關(guān)于感受野加強部分,前三層均采用了1,2,3的擴張率,而最后一層采用的是1,3,5的擴張率。從卷積層的深度來說,擴張率的本質(zhì)是為了讓深層卷積層感受野擴大,從而獲得更加豐富的語義信息,這里我們采用了直接復用,但是從實驗的角度來分析,一方面擴展率其實作為超參數(shù)對于不同數(shù)據(jù)集可能會有不一樣的參數(shù)會更加適合,另一方面此前也有很多其他的融合策略例如U型網(wǎng)絡方法[37]、HED方法[38]和U型網(wǎng)絡和HED混合的方法,將這些不同的融合方法進行實驗是有必要的,可能會有不一樣的效果。

興趣區(qū)域選取模塊:這一部分里關(guān)于興趣區(qū)域的選取規(guī)則是按照將前一部分多層融合后的特征圖經(jīng)過雙線性池化成固定大小的特征圖,并進行單位長度14,3×3的大小進行選取,這里的單位長度決定了特征圖的劃分大小,原則上是可以改變的,因為這與后續(xù)興趣區(qū)域的選取規(guī)則有關(guān),當單位長度較小時,興趣區(qū)域的提取會更加細致,每個選取出來的區(qū)域可能只會包含少量特征或者沒有,同時帶來的也會有計算量的增大,對于這一點的試驗也是有研究意義的。

圖10為一些本文模型錯誤分類圖像(左)與它們被誤認為的類別圖像(右-從錯誤的子類別中選出):AID (a),Oxford Flowers (b),aircraft(c),可以看出,外觀特征或視角變化極其相似,例如來自同一制造商導致了錯誤的分類(圖10(b)、圖10(c))。此外還注意到,子類別可能具有非常具體的特征,但由于較差的角度或有限的光照條件(圖10(a)),這些特征在圖像中不夠清晰。

在圖10所代表的情況下,其他方法在識別此類圖像時同樣表現(xiàn)不佳,例如CAP方法在一些困難和具有挑戰(zhàn)性的情況下也不能取得很好的效果。認為導致識別失敗的原因之一可能是不相關(guān)的背景差異干擾了模型對圖像類別的推測過程??梢圆捎谜Z義分割領(lǐng)域中能夠分離前后背景的算法來提取主體進行識別,可能會有更好的效果。

(a) 機場和火車站

5 結(jié)論

提出一種基于注意力機制的MRI模型,在解決細粒度圖像識別任務中人工標注判別區(qū)域的成本太高、模型構(gòu)建中引入額外的網(wǎng)絡結(jié)構(gòu),在訓練和推理階段引入額外的計算開銷等問題上做出了一定的優(yōu)化與改進。和以往的方法相比,本模型可以自主選擇興趣區(qū)域,借助注意力機制和區(qū)域之間的相關(guān)性對模型自主選擇特征區(qū)域可能出現(xiàn)的缺失的關(guān)鍵信息進行完善,骨干網(wǎng)絡中的多層融合附著了注意力權(quán)重,這種弱監(jiān)督模式下,給予了模型最大的自主學習的可能性,不需要人工標注邊界框和注釋等額外的監(jiān)督信息,即可完成一個端到端的訓練。模型設計考慮了骨干網(wǎng)絡的多層利用情況以及興趣區(qū)域的選取與融合,在計算開銷上沒有涉及到太多過于龐雜的數(shù)據(jù)運算,優(yōu)化的區(qū)域選取策略使興趣區(qū)域個數(shù)減少,使模型損失收斂速度明顯加快,兼顧了訓練時間和準確率。討論部分涉及到的問題是未來可能需要改進的一些方向。整體上模型就部分數(shù)據(jù)集表現(xiàn)優(yōu)異,同時在模型體量和訓練效率上具有不錯的表現(xiàn)。同時,MRI模型在AID航拍圖像數(shù)據(jù)集上具有極為優(yōu)異的表現(xiàn),對于航拍圖片的識別領(lǐng)域具有一定的實用價值。

1) 提出了一種對于骨干網(wǎng)絡的利用方法,全面利用由大量時間和計算成本產(chǎn)生的數(shù)據(jù),在考慮全方面考慮圖像的特征提取結(jié)果的同時給予模型自主訓練特征圖關(guān)注度的機制。

2) 提出了區(qū)域的特征融合補全優(yōu)化策略,完善由隨機選取區(qū)域產(chǎn)生的相比于人工標注判別區(qū)域所缺失的準確性和關(guān)鍵部位信息,減少了一大部分融合時產(chǎn)生的冗余計算量。

3) 在經(jīng)典數(shù)據(jù)集上的訓練均得出了較為優(yōu)秀的準確率,本文模型對于三種典型數(shù)據(jù)集的識別準確率如下:Oxford Flowers數(shù)據(jù)集達到95.70%;FGVC-Aircraft數(shù)據(jù)集達到86.17%;AID數(shù)據(jù)集達到96.96%。首次訓練AID數(shù)據(jù)集取得優(yōu)異成果,在學習率優(yōu)化策略固定的同時,損失函數(shù)的收斂相比于同類方法較快,這在未來更新數(shù)據(jù)集時迭代模型參數(shù)具有重要的減少時間成本的意義。

4) 與現(xiàn)有的人工標注邊界框的方法相比,MRI僅僅需要圖像及對應類別進行訓練,極大程度上減少了人工成本。

猜你喜歡
特征區(qū)域融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關(guān)于四色猜想
分區(qū)域
基于嚴重區(qū)域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 亚洲日韩第九十九页| 真人高潮娇喘嗯啊在线观看| 日本不卡在线播放| 一区二区三区四区日韩| 香蕉eeww99国产精选播放| 久久综合丝袜长腿丝袜| 久久这里只有精品23| 99久久99视频| 国产凹凸视频在线观看| 久久久久88色偷偷| 久久永久精品免费视频| 日本成人在线不卡视频| 欧美成人一区午夜福利在线| 91精品免费高清在线| 一区二区日韩国产精久久| 找国产毛片看| 日本欧美中文字幕精品亚洲| 在线国产你懂的| 成人在线亚洲| 伊人色在线视频| 国产欧美日韩va另类在线播放| 日韩精品一区二区三区免费| 色综合久久无码网| 日韩欧美在线观看| 色噜噜狠狠色综合网图区| 人人爽人人爽人人片| 一区二区自拍| 小说 亚洲 无码 精品| 亚洲侵犯无码网址在线观看| 成人午夜在线播放| 亚洲第一视频区| a级毛片视频免费观看| 日韩在线欧美在线| 欲色天天综合网| 亚洲无线视频| 亚洲,国产,日韩,综合一区| 久久国产亚洲欧美日韩精品| 精品国产91爱| 国产一区二区三区在线观看视频 | 成人午夜福利视频| 国产精品亚洲综合久久小说| 国产高清在线丝袜精品一区| 毛片最新网址| 久久精品娱乐亚洲领先| 女人18毛片一级毛片在线 | 最新国产网站| 一区二区午夜| 国产精品精品视频| 一区二区理伦视频| 欧美国产日韩另类| 国产粉嫩粉嫩的18在线播放91| 97色伦色在线综合视频| 欧美一级夜夜爽| 粗大猛烈进出高潮视频无码| 国产精品免费露脸视频| 国产日本一区二区三区| 国产在线98福利播放视频免费| 国产成人三级| 亚洲一区波多野结衣二区三区| 日本不卡在线视频| 亚洲第一成人在线| 成人av专区精品无码国产| 国内精品视频| 亚洲无线视频| 亚洲人成亚洲精品| 欧美午夜在线观看| 欧美成人免费午夜全| 国产美女丝袜高潮| 91久久国产热精品免费| 综合色88| 亚洲精品你懂的| 欧美日韩精品在线播放| a国产精品| 久久久久青草线综合超碰| 欧美黄网在线| 国产亚洲精| 日韩精品中文字幕一区三区| 午夜性爽视频男人的天堂| 国产精品分类视频分类一区| 国产极品美女在线观看| 91在线视频福利| 国产成人高清亚洲一区久久|