劉 東,王生生
(1. 湘南學(xué)院 軟件與通信工程學(xué)院,郴州 423300;2. 吉林大學(xué) a.符號計算與知識工程教育部重點實驗室; b.計算機(jī)科學(xué)與技術(shù)學(xué)院,長春 130012)
圖像視覺特征提取與表達(dá)是圖像檢索與分類的關(guān)鍵步驟,同時也是計算機(jī)視覺領(lǐng)域的重要研究方向[1]。歸納總結(jié)視覺特征研究發(fā)展歷程,可分為3個階段:底層視覺特征提取、中間層特征表達(dá),以及最近流行的深度學(xué)習(xí)方法。1)底層視覺特征提取主要針對圖像形狀、紋理、顏色等信息進(jìn)行刻畫,提取表征圖像外觀的視覺特征,如常用的尺度不變特征變換[2]、局部二值模式[3]等。底層視覺特征提取一般計算較簡單,但單獨使用時難以勝任復(fù)雜的計算機(jī)視覺任務(wù)。2)中間層特征表達(dá)是指對底層視覺特征進(jìn)一步編碼和統(tǒng)計,以挖掘更具判別能力的深層特征表示,如經(jīng)典的視覺詞袋模型(BoVW, bag-of-visual-words)[4]。中間層特征表達(dá)在一定程度上可以彌補(bǔ)底層視覺特征的缺陷。3)深度學(xué)習(xí)方法作為一種倍受關(guān)注的數(shù)據(jù)驅(qū)動方法,其不需要手工參與設(shè)計,直接以圖像像素作為初始數(shù)據(jù)輸入,經(jīng)過多層網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習(xí)圖像的潛在深層特征。以卷積神經(jīng)網(wǎng)絡(luò)(CNN, convolution neural network)[5]為代表的深度學(xué)習(xí)方法,發(fā)展出一系列高效的網(wǎng)絡(luò)結(jié)構(gòu),如AlexNet[5]、VGGNet[6]、ResNet[7]等,被用在高光譜圖像分類[8]、人體行為識別[9]與表情識別[10]等多個領(lǐng)域。CNN雖然在自然場景圖像分類中取得巨大成功,但仍然存在一些缺陷,如依賴海量樣本數(shù)據(jù)、可解釋性較差、難以推理、較難描述和理解圖像內(nèi)容模式的含義等,這使得CNN在處理小樣本和對語義特性要求較高的多目標(biāo)圖像時面臨許多挑戰(zhàn)。……