蔣博文
(安徽理工大學(xué) 計算機科學(xué)與工程學(xué)院,安徽 淮南 232001)
圖像分類是機器視覺研究熱點之一。顧名思義,圖像分類即給定輸入圖像,卷積神經(jīng)網(wǎng)絡(luò)對輸入進行圖像預(yù)處理、特征圖特征提取以及使用分類器進行分類,最終輸出預(yù)測類別標簽,其中特征圖的有效信息提取是至關(guān)重要的一步。傳統(tǒng)的圖像分類算法提取圖像的色彩、紋理和角點等特征信息,其在早期較為簡單的圖像分類任務(wù)中具有較好得表現(xiàn),但在復(fù)雜場景下卻不能滿足要求 。
注意力機制作為捕捉特征圖顯著特征、提高卷積神經(jīng)網(wǎng)絡(luò)特征提取能力的新方法。隨著現(xiàn)代科技的發(fā)展,海量復(fù)雜的信息不斷地向人們襲來,信息無處不在。然而人類接受信息的能力是有限的,研究發(fā)現(xiàn)在人類接受視覺數(shù)據(jù)的初始,人類的視覺處理系統(tǒng)會快速地將自己的大部分注意力集中在場景中相對重要的區(qū)域上,這種選擇處理機制可以極大地減少人類視覺系統(tǒng)需要處理的數(shù)據(jù)量,并在復(fù)雜信息環(huán)境中,抑制不重要的視覺刺激,從而將更多的精力分配給現(xiàn)實場景中更重要的部分,提取更重要的信息以便于大腦進行更高層次的決策。接觸人類視覺研究,研究者們提出了注意力機制的思想。對于現(xiàn)實中的事物其所具有的特征是不同的,在卷積神經(jīng)網(wǎng)絡(luò)中反映為每張?zhí)卣鲌D的差異性。注意力機制就是通過一系列手段捕捉每張?zhí)卣鲌D顯著特征的像素或通道信……