999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多尺度可變Vision Transformer及其在動物圖像識別中的應用

2024-06-11 00:00:00夏益凡王端虹李紀龍姜楓
軟件工程 2024年5期

關鍵詞:動物圖像;ViT;可變注意力機制;多層特征圖

中圖分類號:TP39 文獻標志碼:A

0 引言(Introduction)

對野生動物進行保護,維護生物的多樣性和生態鏈的完整性,促進人與自然和諧共生,是生態文明建設的一項重要任務。對動物圖像進行快速、準確的識別,在野生動物的保護過程中是十分重要的一個環節,近年來正逐漸成為計算機視覺領域的熱門研究課題之一。

動物圖像具有如下兩個特點。(1)動物所處背景復雜多變。如圖1(a)和圖1(b)所示,蜜蜂、蝴蝶等圖像經常以鮮花、草叢為背景,動物主體部分占比小,通常識別困難。(2)動物類間差異小、類內差異大。如圖1(c)和圖1(d)所示,狗和狼屬于不同類,但都具有犬類特征,相似度高;如圖1(e)和圖1(f)所示,同屬甲蟲類的獨角仙和金龜子的特征差異大,獨角仙有一根粗壯角突,而金龜子沒有角突。

因此,動物圖像的識別難度相較于其他圖像的識別難度更大。本文根據動物圖像的特點,結合卷積神經網絡(Convolutional Neural Networks,CNN)[1-4]和Transformer[5-7]的優勢,提出一種多尺度可變ViT(Vision Transformer)模型,用于動物圖像的識別。

1 相關工作(Related works)

1.1 Vision Transformer模型

ViT[5]是谷歌于2020年提出的將Transformer應用于圖像分類的模型。令輸入圖像的長、寬和高分別為H、W 和C,P 表示圖像塊的大小,C 為圖像通道數,ViT模型架構如圖2所示,具體步驟如下。

第一步:圖像切塊。首先將圖像均勻地切成(H/P)×(W/P)個圖像塊,其次將每個二維圖像塊展平為一維向量,每個向量的維度為P2×C。

第二步:圖像塊編碼。對每個圖像塊進行編碼,將每個展平后的圖像塊映射到D 維的向量,并為每個圖像塊加上位置編碼,表示其在圖像中原來的位置,用于計算圖像塊之間的注意力。此外,單獨加上一個編號為0的塊,用于計算圖像類別。

第三步:自注意力編碼。利用Transformer中的自注意力機制,使用多頭自注意力和多層感知器(Multi-LayerPerceptron,MLP)、層標準化等操作計算圖像塊之間的注意力,得到每個圖像塊的編碼。

第四步:計算圖像類別。將Transformer編碼器得到的圖像塊編碼輸入全連接層,經過維度轉換,使用Softmax函數得到圖像屬于每種類的概率向量,取最大值得到圖像類別。

1.2 ResNet模型

ResNet(殘差網絡)是一種深度卷積神經網絡[9],其設計的關鍵是通過跨層連接(shortcut connection)解決訓練深度神經網絡的梯度消失問題。網絡的深度對模型的性能至關重要,當增加網絡層數后,網絡可以提取更加復雜的特征模式。然而當網絡層數過深時,會出現網絡退化的問題,準確率會出現飽和甚至下降的情況,網絡的訓練誤差和測試誤差明顯增大,而ResNet可以有效地解決這種退化問題。

ResNet解決網絡退化問題的原理如圖3所示。圖3為ResNet殘差塊結構,殘差塊結構分為兩個部分:主路徑和跨層連接。圖3左側路徑為主路徑,通常是由2~3個卷積層組成的,用于提取輸入圖像的特征信息。圖3右側路徑為跨層連接,直接從輸入連接至輸出,即恒等映射。跨層連接的存在,使網絡在計算殘差反向傳播時不會出現梯度消失或梯度爆炸等問題,從而提高了網絡的性能和泛化能力。

2 多尺度可變ViT 圖像識別模型(Multi-scaleadaptable Vision Transformer image recognitionmodel)

2.1 方法框架

本文提出多尺度可變ViT動物圖像識別模型,其框架如圖4所示。該模型由特征提取模塊、編碼器和分類頭3個部分組成。特征提取模塊選取ResNet50[9]作為骨干網絡,從圖像中提取特征;編碼器中使用可變自注意力模塊,計算各圖像塊之間的注意力權重并獲取各種尺度動物的特征;分類頭包括MLP層,并使用Softmax函數獲得分類結果。

2.2 特征提取模塊

在特征提取模塊中,使用如表1所示的ResNet50模型作為特征提取器。ResNet50包含5個大層:Conv1、Conv2、Conv3、Conv4和Conv5。本文使用Conv3層、Conv4層和Conv5層輸出的特征圖,分別記為C3、C4和C5。此外,將C5經過一個3×3、步長為2的卷積得到特征圖C6。至此,獲得C3、C4、C5、C6四張特征圖,然后將4張特征圖拼接后作為編碼器層的輸入。

2.3 編碼器

在ViT的編碼器中,使用多頭自注意力機制計算每個圖像塊(query)和其他所有塊(key)的相關性權重,并以此對圖像塊的特征進行重新編碼。自注意力的弊端主要如下:(1)計算量大,每個圖像塊都要與其他所有圖像塊計算相關性,算法復雜度高。(2)精度不高,尤其是對于圖像中動物主體占圖像比較小的情況,識別率更低。因此,本文借鑒可變注意力原理,對每個query,只選取圖像中的一部分key進行運算,并根據注意力權重進行特征融合,從而降低算法復雜度、提升圖像識別率,如算法1所示。

算法1中,q∈RN*T*D 是帶位置信息的特征圖,T 為所有特征圖序列化后的維度總和。r 是參考點坐標,每張特征圖的參考點都是通過將一個與其大小相等的二維等差數列展平后,分別除以特征圖的大小獲得。算法的工作原理:首先,將x 經過一個線性投影,將其維度變換為(N ,Lx ,M ,D∥M );其次,讓q 通過兩個線性層,分別將之轉換為偏移量offsets 和注意力權重weights,再將參考點r 與偏移量offsets 疊加得到采樣點sample_loc,隨后將經過一個線性層的原始數據x、采樣點sample_loc、使用Softmax函數得到的注意力權重weights 送入deform_attn_func函數計算相似度;最后,通過一個線性層獲取最終結果。需要說明的是,在計算相似度時,不使用q 的原因為它是帶位置信息的特征圖數據,而x 是原始特征圖數據。

3 實驗與分析(Experiments and analysis)

3.1 數據集

目前,常見的動物數據集如下。Animals 90,包含90種常見類別動物的圖片,約5 400張,該數據集的圖片總量較少;Animals 10,包含10種類別動物的圖片,約26 000張,該數據集的動物種類較少;CUB-200鳥類數據集,包含200類鳥類子類,共11 788張圖片,該數據集只有鳥類圖片,不涵蓋其他類別動物;Animals with attributes 2數據集,包含50種類別動物的圖片,共37 322張,該數據集的動物類別較少。

為了保證動物種類齊全,數據豐富,本文通過搜集并整理動物圖像,自制動物圖像數據集。該數據集場景多樣,種類齊全,包括哺乳動物、海洋生物、節肢動物等,共有90個動物類,每個類平均有210張訓練集和30張測試集。為了保證訓練數據充足,提高模型的魯棒性及改善類別不平衡的問題,本文采用數據增強(Data Augmentation,DA)技術對數據集進行擴充,通過增加網絡訓練樣本的個數,使網絡模型對復雜環境有更強的適應性。通常,數據增強方法包括隨機翻轉、隨機裁剪、色彩抖動、隨機灰度和隨機光照變換等,本文在對動物特征圖進行比對后,采取隨機翻轉和隨機裁剪的數據增強方法,其中隨機翻轉采用了水平翻轉和垂直翻轉,而隨機裁剪能夠在保留圖像比例的基礎上,隨機移動圖片各區域在圖片上的位置。實驗中,訓練集共有18 210張圖片,測試集共有2 932張圖片,比例為6∶1。

3.2 實驗環境和參數設置

實驗使用的服務器GPU 為Nvidia GeForce RTX 3070Laptop,使用的深度學習框架為Pytorch。輸入圖像分辨率為224×224,Transformer編碼器的輸入圖像塊編碼后的特征維度D 取256。訓練過程中,使用ADAM(Adaptive MomentumEstimation)優化器加速神經網絡模型的訓練過程。同時,通過動態調整學習率,在不同的參數空間中自適應地調整參數的更新幅度,幫助模型更快地收斂,提高模型的準確率。實驗中,分別設置學習率為1e-5,權重衰減系數為0.1,每40輪衰減1次,batch_size為12,epoch為200。

3.3 模型性能評價指標

實驗采用圖像分類中最常用的Top-1準確率作為性能評價指標。同時,因為Top-1準確率只考慮了最可能的單個類別,忽略了其他可能的類別,因此使用了Top-5準確率。Top-1準確率是指在分類問題中,模型預測的最高概率類別與實際類別相符的比率。即當在測試數據集上使用訓練好的模型進行預測時,對于每個樣本,模型都會給出一個概率分布,表示該樣本屬于每個類別的概率,對比概率最大的類是否符合圖片真正對應的類,將預測正確的樣本數除以總樣本數,就能得到模型的Top-1準確率。Top-5準確率是在Top-1準確率的基礎上,對比概率最大的前5個類是否包含圖片真正對應的類。

3.4 實驗結果

為了測試本文方法的有效性,將之與經典的分類模型視覺幾何組(Visual Geometry Group, VGG)[10]、殘差網絡(ResNet)[9]和ViT[5]在相同數據集上進行實驗比較,不同方法的實驗結果如表2所示。本文所提出的多尺度可變ViT動物識別模型在動物圖像集上的Top-1準確率和Top-5準確率分別達到90.34%和97.59%,均高于其他方法相應的指標值。

實驗結果顯示,本文算法Top-1準確率比單獨用ViT或ResNet更高,表明將可變注意力機制和ResNet網絡相結合,能夠提升圖像的識別率,因為相較于自注意力機制而言,可變注意力機制具有更好的適應性,而ResNet則避免了信息在深層網絡中退化的問題,最終共同提升了模型的識別準確率。

3.5 消融實驗

為了驗證本文方法的適應性和泛化能力,進行了特征圖攜帶位置信息的消融實驗,消融實驗結果如表3所示。表3中,特征圖數量為1,表示圖像經過ResNet后,僅選用C5這一張特征圖;特征圖數量為4,表示圖像經過ResNet后,選用C3、C4、C5和C6一共4張特征圖。表3中的結果表明,在采用4張攜帶位置信息特征圖的情況下,算法的準確率更高,位置信息及多張特征圖均能夠較好地提升算法的準確率。

4 結論(Conclusion)

本文針對動物圖像識別問題,提出了一種多尺度可變ViT動物圖像識別模型,能夠有效地解決圖像中存在的背景復雜、部分種類動物難以識別的問題。該模型以Transformer為基礎,在CNN中引入多尺度特征,并提出可變注意力的概念,提升動物分類的準確率。同時,為了驗證算法的有效性,本文對現有動物數據集進行了適當擴充,構建了包含90種常見類別、共21 142張圖片的動物數據集。實驗結果表明,相較于目前主流的分類模型和算法,本文提出的方法具有更高的分類準確率。

作者簡介:

夏益凡(2000-),男,本科生。研究領域:深度學習,圖像識別。

王端虹(2000-),男,本科生。研究領域:數字圖像處理,機器學習。

李紀龍(2000-),男,本科生。研究領域:深度學習,圖像分割。

姜 楓(1980-),男,博士,教授。研究領域:機器學習,計算機視覺。

主站蜘蛛池模板: 无码国产伊人| 久久综合五月婷婷| 亚洲热线99精品视频| 91麻豆国产在线| 少妇精品网站| 日韩 欧美 小说 综合网 另类| 国产人在线成免费视频| 欧美a在线看| 久久香蕉国产线看观看精品蕉| 日韩高清一区 | 免费a级毛片18以上观看精品| 在线观看的黄网| 亚洲另类国产欧美一区二区| 92精品国产自产在线观看| 国产在线视频福利资源站| 国产乱人免费视频| 国产亚洲高清视频| 99热这里只有精品在线播放| 久久亚洲国产一区二区| 亚洲综合极品香蕉久久网| 国产成人精品日本亚洲| 国产在线日本| 久久综合五月| 99免费视频观看| 国产青榴视频在线观看网站| 一级成人a毛片免费播放| 三上悠亚一区二区| 国产一线在线| 国产成人91精品| 中国国语毛片免费观看视频| 欧美日韩动态图| 亚洲国产一区在线观看| 凹凸国产分类在线观看| 国产成人三级| 91成人在线观看视频| 亚洲精品色AV无码看| 91成人在线观看视频| 国国产a国产片免费麻豆| 色综合五月婷婷| 永久成人无码激情视频免费| 无码啪啪精品天堂浪潮av| 五月婷婷丁香综合| 97青青青国产在线播放| 国产视频 第一页| 国产精品国产三级国产专业不| 无码内射在线| 国产精品香蕉在线| 亚洲性一区| 国产精品美女网站| а∨天堂一区中文字幕| 久久综合结合久久狠狠狠97色| 人人澡人人爽欧美一区| 国产激情第一页| 久久综合亚洲鲁鲁九月天| 另类欧美日韩| 91小视频在线播放| 国产噜噜噜视频在线观看| 中文字幕乱码中文乱码51精品| 国产精品99久久久久久董美香| 国产制服丝袜91在线| 99久久精品免费看国产免费软件| 精品国产免费观看一区| 久久精品视频亚洲| 日韩高清一区 | 日本黄色不卡视频| 日本午夜精品一本在线观看 | 蜜芽一区二区国产精品| 小说区 亚洲 自拍 另类| 黄色福利在线| 国产精品任我爽爆在线播放6080| 中文字幕乱码二三区免费| 91精品伊人久久大香线蕉| 97一区二区在线播放| 免费黄色国产视频| 国产精品亚洲一区二区三区在线观看 | 久久伊人操| 色综合天天视频在线观看| 国产免费羞羞视频| 国产丝袜第一页| 尤物精品国产福利网站| 国产自在线播放| 一边摸一边做爽的视频17国产 |