樊養余 李祖賀 王鳳琴 馬江濤
?
基于跨領域卷積稀疏自動編碼器的抽象圖像情緒性分類
樊養余①李祖賀*①②王鳳琴②馬江濤②
①(西北工業大學電子信息學院 西安 710072);②(鄭州輕工業學院計算機與通信工程學院 鄭州 450002)
為了將無監督特征學習應用于小樣本量的圖像情緒語義分析,該文采用一種基于卷積稀疏自動編碼器進行自學習的領域適應方法對少量有標記抽象圖像進行情緒性分類。并且提出了一種采用平均梯度準則對自動編碼器所學權重進行排序的方法,用于對基于不同領域的特征學習結果進行直觀比較。首先在源領域中的大量無標記圖像上隨機采集圖像子塊并利用稀疏自動編碼器學習局部特征,然后將對應不同特征的權重矩陣按照每個矩陣在3個色彩通道上的平均梯度中的最小值進行排序。最后采用包含池化層的卷積神經網絡提取目標領域有標記圖像樣本的全局特征響應,并送入邏輯回歸模型進行情緒性分類。實驗結果表明基于自學習的領域適應可以為無監督特征學習在有限樣本目標領域上的應用提供訓練數據,而且采用稀疏自動編碼器的跨領域特征學習能在有限數量抽象圖像情緒語義分析中獲得比底層視覺特征更優秀的辨識效果。
圖像分類;圖像情緒;自學習;卷積自動編碼器;領域適應
隨著社會化媒體的迅速發展,圖像成為人們自我表達和互相溝通的重要途徑。和文本一樣,圖像內容包含著與情緒和意見相關的信息[1]。分析圖像的情緒語義具有重要意義:從媒體受眾角度看它可以被用于藝術和廣告等作品的輔助設計;從發布者角度看它可以被用于網絡情緒信息挖掘和輿情監測;另外它還可以被用于基于情緒語義的圖像檢索[2]。而圖像情緒性分類就屬于情緒語義分析范疇,它根據圖像對人的情緒影響來對其進行區分[3]。
進行該研究的基本方法是從圖像中提取色彩和紋理等底層視覺特征并將其與情緒語義進行映射,但是底層視覺特征與高層語義間的“語義鴻溝”阻礙了可靠映射關系的建立。目前在計算機視覺領域,深度學習技術[8]在圖像認知層識別中取得突破性成果,所以有人將深度卷積神經網絡(Convolutional Neural Network, CNN)[9]這樣的有監督深度學習模型應用于具象圖像情緒分析。文獻[10]最先基于深度CNN進行視覺情緒研究,文獻[11]利用多層CNN預測圖像情緒,并提出一種漸進微調訓練方案。但是有監督訓練需要大量有標記樣本,它無法在數據量小的樣本集合上開展。以現有情緒語義分析領域的抽象圖像數據庫為例,其有標記樣本數量僅有一兩百個[3,6,7],基于有監督訓練的深度學習模型并不適用。
而面向海量無標記數據的無監督特征學習正在成為新的研究熱點[8],像稀疏自動編碼器(Sparse AutoEncoder, SAE)這種通過對無標記數據進行自我復原訓練來提取特征的技術已經被推廣到很多標記數據有限的應用場合[12,13]。因此本文嘗試基于SAE進行無監督特征學習并將其應用于小樣本量的抽象圖像情緒語義分析。具象圖像的情緒語義受認知層語義驅動,而抽象圖像沒有確定認知含義,它對人情緒的影響依靠視覺上的直接沖擊。所以用無監督學習特征代替底層視覺特征與抽象圖像情緒語義進行映射具有可行性。本文面臨的問題是小樣本量數據庫不能提供特征學習所需的大量數據,但是近年來領域適應和遷移學習概念的提出使不同領域間的知識共享和利用成為可能[14,15]。無監督特征學習領域中有一種利用大量無標記數據提高分類任務性能的方法叫自學習(self-taught learning)[15,16],它不要求無標記數據的分布與目標領域數據分布完全相同。而目前基于自動編碼器的領域適應和遷移學習已經在語音情緒分析和自然語言處理中得到應用,因此本文以基于自動編碼器的自學習方式進行跨領域學習。
本文的主要創新在于:(1)針對小樣本量抽象圖像數據集,提出一種結合單層SAE和卷積神經網絡進行跨領域特征學習以在情緒語義層對其進行分類的方案,在進行特征學習時借用與抽象圖像數據不相關的無標記數據集STL-10[21];(2)提出一種基于平均梯度(Average Gradient, AG)[22]按邊緣性強弱對自學習特征權重進行排列和顯示的方法,用于對在跨領域的大量數據上和在目標領域小樣本量數據上進行無監督特征學習的效果進行直觀對比。實驗結果表明采用“知識遷移”從與驗證數據無關的大量無標記圖像中能學習到邊緣性更強的特征權重,基于SAE的跨領域學習能在小樣本量抽象圖像情緒性分類中獲得更好的效果。
如圖1所示,本文所采用的對抽象圖像進行情緒性分類的系統框架包含3個部分:源領域特征學習、目標領域全局特征提取和圖像分類。(1)源領域特征學習:從源領域無標記數據集中采集圖像子塊,采取白化處理加強圖像塊邊緣特征,并采用對隱藏層加入稀疏性約束的自動編碼器來學習局部特征。(2)目標領域全局特征提取:基于卷積神經網絡獲取目標領域抽象圖像在整幅圖像上的全局特征響應,然后采取池化操作降低特征維數。(3)圖像分類:將全局特征以向量形式送入邏輯回歸(Logistic Regression, LR)模型,進行基于交叉驗證的有監督訓練和測試,從而對基于無監督特征學習的抽象圖像情緒性分類性能進行評價。

圖1 基于卷積自動編碼器的抽象圖像情緒性分類系統框架
3.1基于稀疏自動編碼器的自學習
自動編碼器通過將目標輸出設置得和輸入一樣來進行數據自我復原訓練,能夠從無標記數據中學習到代表性特征[23]。當基于自動編碼器在圖像數據上進行無監督學習時經常加入白化預處理來強化圖像的邊緣信息,本文采用了一種典型的零相位成分分析(Zero-phase Component Analysis, ZCA)白化[12]。假設從源領域采集到的第個圖像塊尺寸為×,將包含3通道的彩色圖像塊數據按照R, G和B分量的順序排列,可以得到維的向量(i)。進行白化處理后的輸入向量為white(i),這里white代表×大小的白化變換系數矩陣。而自動編碼器的維隱層響應向量為[12,24]

其中,SAE是連接SAE隱層和白化后數據的輸入權重,1代表輸入偏置,是激活函數。而=SAEwhite是包含白化處理的整體權重,它代表隱層與原始數據間的關系。經過白化處理后,輸入數值會超出[0,1]的范圍,所以進行數據重建時不需要采用激活函數對自動編碼器的輸出進行映射[12]:
(2)
自動編碼器神經網絡通過反向傳播訓練來尋找代價函數的最小值。為了防止過擬合和保持隱層響應的稀疏性,需要對代價函數加入權重衰減項和稀疏性懲罰項,整體代價函數為[16,24]

對自動編碼器進行訓練后得到的輸入權重SAE就是尋找到的數據得以自我復原的關鍵參數,它是對應圖像子塊不同位置的權重系數,根據該權重系數在某圖像塊上得到的隱層響應就是該圖像塊的特征。基于自動編碼器進行跨領域特征學習時,假設從源領域所學習到的包含白化處理的整體權重為S,輸入偏置為1S,目標領域的某圖像塊為T,則該圖像塊對應的特征響應為

3.2 自學習特征權重可視化和基于平均梯度的特征權重排序
對基于自動編碼器的無監督特征學習效果進行比較時,除了以分類性能為依據,還可以通過權重可視化從視覺上進行觀察。當輸入向量維數為m=,隱層單元數為s時,是大小為s×m的矩陣。而的大小為m×m,所以連接隱層與原始數據的整體權重也是大小為s×m的矩陣。包含s個維的特征權重向量,對應著維原始輸入與s個隱層響應的映射關系:

其中,w代表第個隱層單元與某輸入圖像塊向量形式的第個元素之間的系數,代表第個隱層單元的所有系數組成的向量,即第個特征對應的權重向量。將每個維的特征權重向量拆分成R, G和B分量:R,G和B,還原為×大小矩陣并進行歸一化處理后當作彩色圖像顯示就可以對學習結果進行直觀表示[16]。
SAE學習到的特征權重會呈現邊緣性,邊緣性的強弱能反映特征學習效果。但是在訓練過程中權重系數是被隨機初始化的,在不同的實驗中學習到的權重本身沒有順序規律,從直觀上對不同特征組進行評價比較困難。因此本文提出了一種在無監督特征學習后按照一組權重的邊緣性強弱對其進行統一排序的方法。
平均梯度本身是用來衡量圖像相對清晰度的一種參數,它反映了圖像在多方向邊界附近的灰度變化速率。以×大小的灰度圖像為例,其平均梯度的定義為[22]

(7)

(9)
并從R, G和B這3個通道的平均梯度中選擇最小值作為對自學習權重進行排序顯示的指標:

排序可以將特征權重按照邊緣性強弱進行大致劃分,從而便于對不同特征組進行直觀比較。
圖2給出了后續進行全局特征提取和抽象圖像分類的網絡模型,首先基于CNN將局部特征在抽象圖像上進行逐點卷積來獲得整幅圖像上的全局特征響應,然后進行池化操作并將響應結果組合成向量,送入LR模型進行分類訓練和測試。為了提高運算效率,本文在卷積過程中采用一種先在3個色彩通道進行并行2維卷積,然后再將結果求和的方式[16]。先將通過SAE學習到的每個局部特征權重按3個色彩通道進行拆分,分別將其與×大小圖像的R, G和B分量進行逐點卷積得到3個大小的卷積后特征,并對分通道卷積后的3個特征圖案求和得到全局特征。為了降低維數和避免過擬合,卷積神經網絡采用池化操作來對前一層網絡所得特征進行聚合采樣,本文在進行白化處理的前提下選擇平均池化方式。
現有用于情緒語義研究的抽象圖像數據集主要有兩個:Abstract100[6,7]和Abstract280[3]。Abstract 100包含100張抽象圖像,它的情緒語義標記結果是基于3維情緒模型:從喚醒度(冷靜到興奮)、愉悅度(不愉悅到愉悅)和優勢度(被支配到支配)3個方面分析情緒,其每幅圖像都經志愿者從愉悅度和喚醒度兩方面進行主觀評分。而Abstract280包含280張抽象圖像,其標記結果包含8種情緒:娛樂、敬畏、滿足和興奮4種正面情緒以及憤怒、反感、恐懼和傷心4種負面情緒。由于該數據庫樣本分布不均勻,本文在訓練測試中基于正面和負面情緒概念進行二元分類。
本文在STL-10數據庫上進行無監督局部特征學習,然后在抽象圖像數據庫上進行全局特征提取和分類。而且按同樣參數分別在小型數據庫Abstract100和Abstract280上進行了非跨領域的圖像塊采樣和無監督特征學習,并在對應數據庫上進行分類實驗。本文還提取了一組底層視覺特征進行情緒分類,選用特征包括[1]:從RGB色彩通道中提取的顏色直方圖, GIST(Generalized Search Trees)描述子,適用于紋理檢測的LBP(Local Binary Pattern)描述子和使用1000個單詞字典的BOW (Bag Of Words)量化描述子。除此之外,本文還利用MatConvNet[25]工具箱基于文獻[11]中用于對大量具體圖像進行情緒分析的深度CNN模型開展分類實驗。在所有實驗中采用5次交叉驗證,將樣本按名稱順序分為5個子集。

圖2 基于卷積神經網絡的全局特征提取和圖像分類模型示意圖
5.1無監督特征學習
本文基于SAE進行跨領域無監督特征學習所用的STL-10數據庫包含了100000個內容涵蓋多種交通工具和動物的無標記圖像[21],如圖3所示,這些樣本和后續用于情緒分類的抽象圖像沒有關聯。本文以完全隨機方式分別從Abstract100, Abstract 280和 STL-10數據庫上采集了100, 1000, 10000和100000個8×8大小的圖像塊進行特征學習,并且在最終的分類實驗中對每種情況都進行5次重復以測試隨機采樣時樣本數量對整體性能的影響。在白化預處理階段正則化常數設為0.1,采用的SAE包含400個隱層單元(對應400個自學習特征),訓練參數設置為,,。
圖4給出了在一次實驗中通過SAE從各個數據庫上所學習到的特征權重的可視化表示(限于篇幅未給出樣本數為100的結果),所有特征權重均按照mAG值進行升序排列。可以看出,當訓練樣本過少時(比如1000)從3個數據庫上所學特征權重均較為模糊。隨著訓練樣本的增加,基于STL-10數據庫的特征學習效果有顯著提高,在訓練樣本為100000時從STL-10數據庫上能學習到更多邊緣較為清晰的特征權重。而在Abstract100和Abstract280上的學習效果雖有提升卻并不顯著,這說明從小量樣本上采集大量數據進行無監督特征學習時效果較差。另外,在按照mAG值對權重進行升序排列后(mAG值小的在上),特征權重中的下半部分邊緣性更為明顯。這從直觀上說明,mAG值能夠反映自學習權重的邊緣性能,按其進行排序能夠達到按邊緣性強弱對特征權重進行大致劃分的目的,進行排序后可以更直觀地觀察和對比學習效果。

圖3 Abstract100, Abstract280和 STL-10數據庫上的樣例圖像

圖4基于稀疏自動編碼器在各數據庫上所學特征權重的可視化表示
5.2 Abstract100數據庫上的分類實驗
本文從該數據庫公布的評價結果中選取對每幅圖像都進行評價的21名志愿者所給出分數,對其求平均并以0為閾值進行二值化,以此作為二元標記值。喚醒度標記表示圖像是否令人興奮,愉悅度標記表示圖像是否使人愉悅。為了測試特征學習過程中的隨機采樣對算法性能的影響,首先對采集不同數量樣本時非跨領學習和跨領域學習對應分類結果進行測試。非跨領域方法采用從Abstract100數據庫上學習到的特征,而跨領域方法采用從STL-10數據庫上學習到的特征。實驗時統一將樣本縮放為的大小,卷積網絡的池化區域尺寸設置為。圖5以愉悅度實驗為例,給出了在LR模型訓練迭代次數為40時,重復5次采集各種數量樣本進行特征學習所得交叉驗證平均分類準確率(accuracy)結果。可以發現:用于特征學習的訓練樣本過少時,同樣參數下分類性能受隨機采樣影響呈現波動,而當訓練樣本數量為100000時,整體性能基本穩定。所以接下來重點對基于底層視覺特征的方法以及采集100000樣本時非跨領學習和跨領域學習方法的分類結果進行對比。實驗進行了多個迭代次數條件下的測試,最后通過5次交叉驗證下的精確度(precision),召回率(recall)和準確率(accuracy) 3個指標的平均結果來全面評價分類性能。當迭代次數超過100之后各項性能沒有明顯提升,因此以10為間隔從10到100選取測試迭代次數。
圖6和圖7給出了在一次實驗中,基于各種方法進行分類時平均性能隨迭代次數變化的曲線。從圖6可以看出,在喚醒度分類實驗中,跨領域學習方法除了在召回率指標上遜色于底層視覺特征方法之外,它在其它兩項指標上均取得了最好性能。而非跨領域學習僅在精確度指標上明顯優于采用底層視覺特征的方法。從圖7給出的愉悅度分類實驗結果可以看出,不管是否采用跨領域學習,基于無監督特征學習的方法在各項指標上均表現出比采用底層視覺特征的方法更好的性能,而且跨領域學習可以進一步顯著提高各項性能。這說明采用無監督學習特征對圖像進行情緒性分類是可行的,而且在樣本有限時進行跨領域學習更加有效。相比于采用底層視覺特征的方法,基于卷積自動編碼器的方法在喚醒度指標上的性能提升不如愉悅度明顯。喚醒度描述的是情緒激活程度,而愉悅度描述的是情緒正負屬性,這說明基于卷積自動編碼器模擬人眼對圖像進行掃描感知的方法對圖像所激發的情緒屬性信息比強弱程度更為敏感。
除此之外,本文還基于文獻[11]建立的深度CNN模型進行實驗。學習率設為0.01,最大迭代次數設為20,并取迭代次數遞增過程中進行交叉驗證的最佳結果。由于文獻[6]僅對準確率指標進行了測試,所以表1給出了采用各種方法在準確率指標上得到的最好結果進行對比。其中的非跨領域和跨領域學習方法對應結果是基于100000樣本進行特征學習并將實驗重復5次所得的平均值。可以發現:(1)采用文獻[11]中的深度CNN模型對小樣本量數據進行訓練時效果并不理想,這說明基于有監督訓練的深度學習模型并不適用于小樣本量的應用場合;(2)基于大量訓練樣本的跨領域學習方法在總體上表現出了更優異的性能:與文獻[6]相比喚醒度分類的平均準確率提高了14.9%,而且愉悅度分類的平均準確率也提高了4.1%。雖然本文采用傳統特征的方法和非跨領域學習方法相比文獻[6]也提高了喚醒度分類性能,卻使愉悅度分類性能有所下降。

圖5 重復采集樣本進行特征學習在Abstract100上得到的愉悅度分類準確率

圖6 采用各種方法在Abstract100上進行喚醒度分類時各種指標平均性能隨迭代次數變化曲線

圖7 采用各種方法在Abstract100上進行愉悅度分類時各種指標平均性能隨迭代次數變化曲線
表1采用各種方法在Abstract100上進行情緒分類所得到的最高準確率

方法文獻[6]文獻[11]模型底層視特征非跨領域學習跨領域學習 喚醒度0.670.720.760.760.77 愉悅度0.730.600.670.700.76
5.3 Abstract280數據庫上的分類實驗
在Abstract280數據庫上的實驗中,本文沿用文獻[3]的做法只保留了228個意見明確的樣本。由于該數據庫的樣本數量有限且分布很不均勻(憤怒情緒對應樣本只有3個),所以開展多分類訓練并不具說服力。因此本文沒有像文獻[3]一樣進行一對多分類,而是按正面情緒和負面情緒將所有樣本分成兩類,基于5次交叉驗證進行二分類實驗,其它實驗參數和測試指標和5.2節相同。

圖8 采用各種方法在Abstract280上進行情緒分類時各種指標平均性能隨迭代次數變化曲線
實驗首先對基于底層視覺特征的方法以及采集100000樣本時的非跨領學習和跨領域學習方法進行性能對比。當迭代次數超過200之后各項性能沒有提升,因此以10為間隔從10到200選取迭代次數。圖8給出了一次實驗中基于各種方法進行分類時各種指標的平均性能隨迭代次數變化的曲線。跨領域學習方法除了在召回率指標上略遜色于基于底層視覺特征的方法外,它在其它兩項指標上均明顯優于其它方法,而非跨領域學習僅在精確度指標上獲得比采用底層視覺特征的方法更好的性能。這進一步說明基于無監督學習特征對圖像進行情緒性分類的可行性,而且跨領域學習能夠解決小樣本量數據庫的樣本有限問題。
本文也基于文獻[11]的深度CNN模型在Abstract280數據庫上進行了實驗,表2給出了采用各種方法在各項指標上得到的最優結果。其中的非跨領域和跨領域學習方法對應結果也是基于100000樣本進行特征學習并將實驗重復5次所得的平均值。可見:(1)采用文獻[11]中的深度CNN模型對Abstract280數據庫進行分類的整體效果比采用底層視覺特征的方法差,召回率最大達到1是因為在某些訓練迭代次數條件下5次交叉驗證中的所有測試樣本均被預測為正面樣本;(2)除了召回率指標外,基于100000訓練樣本的跨領域特征學習方法在總體上表現出了最優性能。圖9給出了在一次實驗中采用跨領域學習方法時情緒預測值最高和最低的5幅圖像。預測錯誤的圖像用黑框標出,而且在每幅圖像下方給出了其原有基于8種情緒模型的標記信息。可以看出,最能令人產生正面情緒的5幅圖像對應的原情緒標記主要是滿足、敬畏和娛樂,而最能令人產生負面情緒的5幅圖像對應的原情緒標記主要是恐懼和傷心。這進一步說明自學習特征可以和底層視覺特征一樣被用于圖像情緒語義辨識。
表2采用各種方法在Abstract280上進行情緒分類時各項指標上的最優結果

指標文獻[11]模型底層視覺特征非跨領域學習跨領域學習 精確度0.630.720.780.80 召回率1.000.810.730.81 準確率0.610.690.710.76
本文基于稀疏自動編碼器以“知識遷移”方式從大量無標記圖像中獲取自學習特征,并結合卷積神經網絡將其應用于高階情緒語義層的抽象圖像分類。為了從直觀上對不同領域上的無監督特征學習進行比較,提出一種基于平均梯度對自學習特征權重進行排列顯示的方法。實驗結果表明基于稀疏自動編碼器的無監督學習特征不僅能被用于認知層面的圖像識別還能夠被用于情緒語義層面的圖像辨識。而且當目標樣本數量較少時,以跨領域的方式從與測試集合完全無關的樣本中學習到的特征能取得比傳統底層視覺特征更好的效果。這些結論也能給深度學習特別是無監督特征學習技術在其它有限樣本集合中的應用帶來啟發。
[1] BORTH D, JI R, CHEN T,. Large-scale visual sentiment ontology and detectors using adjective noun pairs[C]. 21st ACM International Conference on Multimedia, Barcelona, Spain, 2013: 223-232. doi: 10.1145/2502081.2502282.
[2] 李祖賀, 樊養余. 基于視覺的情感分析研究綜述[J]. 計算機應用研究, 2015, 32(12): 3521-3526.doi: 10.3969/j.issn.1001- 3695.2015.12.001.
LI Zuhe and FAN Yangyu.Survey on visual sentiment analysis[J]., 2015, 32(12): 3521-3526.doi: 10.3969/j.issn.1001-3695.2015.12.001.
[3] MACHAJDIK J and HANBURY A. Affective image classification using features inspired by psychology and art theory[C]. 18th ACM International Conference on Multimedia, Firenze, Italy, 2010: 83-92. doi:10.1145/ 1873951.1873965.
[4] ZHANG H, G?NEN M, YANG Z,. Understanding emotional impact of images using Bayesian multiple kernel learning[J]., 2015, 165: 3-13.doi: 10.1016/ j.neucom.2014.10.093.
[5] ZHAO S, GAO Y, JIANG X,. Exploring principles-of-art features for image emotion recognition[C]. 22nd ACM International Conference on Multimedia, Orlando, FL, USA, 2014: 47-56.doi: 10.1145/2647868.2654930.
[6] ZHANG H, YANG Z, G?NEN M,. Affective abstract image classification and retrieval using multiple kernel learning[C]. 20th International Conference on Neural Information Processing, Daegu, South Korea, 2013: 166-175.doi: 10.1007/978-3-642-42051-1_22.
[7] ZHANG H, AUGILIUS E, HONKELA T,. Analyzing emotional semantics of abstract art using low-level image features[C]. 10th International Symposium on Intelligent Data Analysis, Porto, Portugal, 2011: 413-423.doi: 10.1007/ 978-3-642-24800-9_38.
[8] LECUN Y, BENGIO Y, and HINTON G. Deep learning[J]., 2015, 521(7553): 436-444.doi: 10.1038/nature14539.
[9] 李寰宇, 畢篤彥, 查宇飛, 等. 一種易于初始化的類卷積神經網絡視覺跟蹤算法[J]. 電子與信息學報, 2016, 38(1): 1-7.doi: 10.11999/JEIT150600.
LI Huanyu, BI Duyan, ZHA Yufei,. An easily initialized visual tracking algorithm based on similar structure for convolutional neural network[J].&, 2016, 38(1): 1-7.doi: 10.11999/ JEIT150600.
[10] CHEN T, BORTH D, DARRELL T,. Deepsentibank: Visual sentiment concept classification with deep convolutional neural networks[OL]. http://arxiv.org/abs/ 1410.8586v1, 2014.
[11] YOU Q, LUO J, JIN H,. Robust image sentiment analysis using progressively trained and domain transferred deep networks[C]. 29th AAAI Conference on Artificial Intelligence (AAAI), Austin, TX, USA, 2015: 381-388.
[12] 李祖賀, 樊養余, 王鳳琴. YUV空間中基于稀疏自動編碼器的無監督特征學習[J]. 電子與信息學報, 2016, 38(1): 29-37.doi: 10.11999/JEIT150557.
LI Zuhe, FAN Yangyu, and WANG Fengqin. Unsupervised feature learning with sparse autoencoders in YUV space[J].&, 2016, 38(1): 29-37.doi: 10.11999/JEIT150557.
[13] ZHANG F, DU B, and ZHANG L. Saliency-guided unsupervised feature learning for scene classification[J]., 2015, 53(4): 2175-2184.doi: 10.1109/TGRS.2014.2357078.
[14] 楊興明, 吳克偉, 孫永宣, 等. 可遷移測度準則下的協變量偏移修正多源集成方法[J]. 電子與信息學報, 2015, 37(12): 2913-2920.doi: 10.11999/JEIT150323.
YANG Xingming, WU Kewei, SUN Yongxuan,. Modified covariate-shift multi-source ensemble method in transferability metric[J].&, 2015, 37(12): 2913-2920.doi: 10.11999/JEIT150323.
[15] 莊福振, 羅平, 何清, 等. 遷移學習研究進展[J]. 軟件學報, 2015, 26(1): 26-39.doi: 10.13328/j.cnki.jos.004631.
ZHUANG Fuzhen, LUO Ping, HE Qing,. Survey on transfer learning research[J]., 2015, 26(1): 26-39.doi: 10.13328/j.cnki.jos.004631.
[16] NG A Y, NGIAM J, FOO C Y,. Unsupervised feature learning and deep learning[OL]. http://deeplearning.stanford. edu/wiki/index.php, 2015.
[17] DENG J, ZHANG Z, EYBEN F,. Autoencoder-based unsupervised domain adaptation for speech emotion recognition[J]., 2014, 21(9): 1068-1072.doi: 10.1109/LSP.2014.2324759.
[18] YANG X, ZHANG T, and XU C. Cross-domain feature learning in multimedia [J]., 2015, 17(1): 64-78.doi: 10.1109/TMM.2014.2375793.
[19] ZHOU J T, PAN S J, TSANG I W,. Hybrid heterogeneous transfer learning through deep learning[C].28th AAAI Conference on Artificial Intelligence (AAAI), Quebec City, QC, Canada, 2014: 2213-2219.
[20] KOUNO K, SHINNOU H, SASAKI M,. Unsupervised domain adaptation for word sense disambiguation using stacked denoising autoencoder[C].29th Pacific Asia Conference on Language, Information and Computation (PACLIC 29),Shanghai, China, 2015: 224-231.
[21] COATES A, LEE H, and NG A Y. An analysis of single-layer networks in unsupervised feature learning[C]. 14th International Conference on Artificial Intelligence and Statistics, Ft. Lauderdale, FL, USA, 2011: 215-223.
[22] WANG R, DU L, YU Z,. Infrared and visible images fusion using compressed sensing based on average gradient[C]. 2013 IEEE International Conference on Multimedia and Expo Workshops (ICMEW), San Jose, CA , USA, 2013: 1-4.doi: 10.1109/ICMEW.2013.6618257.
[23] L?NGKVIST M and LOUTFI A. Learning feature representations with a cost-relevant sparse autoencoder[J]., 2015, 25(1): 1-11.doi: 10.1142/S0129065714500348.
[24] LI Z, FAN Y, and LIU W. The effect of whitening transformation on pooling operations in convolutional autoencoders[J]., 2015, 2015(1): 1-11.doi: 10.1186/s13634-015- 0222-1.
[25] VEDALDI A and LENC K. MatConvNet: convolutional neural networks for matlab[C]. 23rd ACM International Conference on Multimedia, Brisbane, Australia, 2015: 689-692. doi: 10.1145/2733373.2807412.
樊養余: 男,1960年生,教授、博士生導師,研究方向為圖像處理及其應用、虛擬現實及可視化技術.
李祖賀: 男,1983年生,講師、博士生,研究方向為計算機視覺、機器學習.
王鳳琴: 女,1980年生,副教授,博士,研究方向為圖像處理、視頻編碼.
馬江濤: 男,1981年生,講師,博士生,研究方向為大數據處理與分析.
Affective Abstract Image Classification Based on Convolutional Sparse Autoencoders across Different Domains
FAN Yangyu①LI Zuhe①②WANG Fengqin②MA Jiangtao②
①(,,’710072,);②(,,450002,)
To apply unsupervised feature learning to emotional semantic analysis for images in small sample size situations, convolutional sparse autoencoder based self-taught learning for domain adaption is adopted for affective classification of a small amount of labeled abstract images. To visually compare the results of feature learning on different domains, an average gradient criterion based method is further proposed for the sorting of weights learned by sparse autoencoders. Image patches are first randomly collected from a large number of unlabeled images in the source domain and local features are learned using a sparse autoencoder. Then the weight matrices corresponding to different features are sorted according to the minimal average gradient of each matrix in three color channels. Global feature activations of labeled images in the target domain are finally obtained by a convolutional neural network including a pooling layer and sent into a logistic regression model for affective classification. Experimental results show that self-taught learning based domain adaption can provide training data for the application of unsupervised feature learning in target domains with limited samples. Sparse autoencoder based feature learning across different domains can produce better identification effect than low-level visual features in emotional semantic analysis of a limited number of abstract images.
Image classification; Image affect; Self-taught learning; Convolutional autoencoder; Domain adaption
TP391.4
A
1009-5896(2017)01-0167-09
10.11999/JEIT160241
2016-03-17;改回日期:2016-07-22;
2016-10-09
李祖賀 zuheli@126.com
陜西省科技統籌創新工程重點實驗室項目(2013 SZS15-K02)
The Science and Technology Innovation Engineering Program for Shaanxi Key Laboratories (2013SZS15- K02)