999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度特征和注意力機制的藝術圖像情感分類研究

2022-05-11 07:32:14劉佳欣
智能計算機與應用 2022年2期
關鍵詞:語義分類特征

楊 松, 劉佳欣, 吳 桐

(1 大連外國語大學 軟件學院, 遼寧 大連 116044; 2 大連外國語大學 語言智能中心, 遼寧 大連 116044;3 網絡空間大數據安全院級研究中心, 遼寧 大連 116044)

0 引 言

隨著微博、微信、論壇等社交媒體的廣泛使用,越來越多的用戶喜歡以文本、圖像及視頻的形式分享信息、表達觀點和宣泄情緒。 網絡中的海量信息往往存在很多主觀的感情色彩,基于文本的情感分析技術已在信息情感的把握中發揮了重要作用,而基于圖像的情感分析技術仍有待深入的研究。 圖像情感分類作為計算機視覺、模式識別、認知科學等多個學科的交叉技術,近年來受到國內外研究人員的廣泛關注。 希望借助計算機技術研究和建立符合人類感知的情感映射機制,理解并準確分類圖像中蘊含的高層情感語義。 目前在一些特定場景的圖像情感分類研究已取得一些成果,例如人臉表情、自然風景、服飾面料等,而以藝術圖像為目標的情感分類研究相對較少。 藝術圖像作為藝術作品的重要組成部分,本身具有豐富的情感語義信息,能夠通過顏色搭配、線條手法、紋理特征及抽象主體特寫等方式向人們傳遞作品內在的情感,相對于文本情感,圖像情感表現得更為抽象、理解的難度更大。 研究藝術圖像的情感識別與分類,對藝術圖像的鑒賞、保護等具有重要指導意義。

本文從情感角度出發,以藝術圖像作為研究對象,通過深度學習來挖掘藝術作品帶給欣賞者的情感變化,提出一種基于深層特征和注意力機制的藝術圖像情感分類模型FeaturesNet,抽取藝術圖像的CLAHE 顏色特征和Laplacian 紋理特征,與學習到的深度情感語義特征融合,彌補情感語義特征抽取的不足。 引入CBAM 注意力機制,在降低模型過擬合的同時提高對藝術圖像情感分類的準確率,為基于深度學習的圖像情感分類提供一定參考。

1 相關研究綜述

近年來,國內外的一些學者在藝術圖像情感分類領域取得了一些成果。 雷晶晶以木板套色版畫為研究對象,提出基于SVM 算法和模糊聚類算法的圖像情感分類模型,實驗采用人工標注的數據集,由于數據集小導致情感分類的準確率不高;李博等提取顏色直方圖、Itten 對比、二階矩特征,驗證加權K 近鄰算法在Abstract 數據集上離散情感分布預測的有效性,但參數K 需要人工選取。 傳統的機器學習算法在圖像情感語義分類中的應用已達到瓶頸,深度學習模型被引入到圖像情感語義分類領域,能夠解決圖像特征需要人為構造的問題,有利于縮小圖像底層視覺特征和深層語義特征之間的“語義鴻溝”。

盛家川等將人類認知與CNN 模型結合,根據中國畫顯著性區域和筆道復雜度提取感興趣區域,利用預訓練的微調GoogLeNet 模型提取中國畫的深層特征并進行可視化,結合中國畫情感表達手法知識,調整模型結構,優化訓練參數,提升中國畫情感分類的準確率;盛家川等提出基于CNN 特征聚合重標定的中國畫情感分類算法,重定向圖像為正方形,在ResNet 模型上融合同一模塊下各卷積層特征并反饋至卷積層輸出,重新標定通道特征值并強化不同特征的激活強度。 將預測值作為權重,計算各類別激活映射,加權融合所有類別的激活定位,視覺解釋情感區域特征,實現對中國畫的情感特征可視化及情感分類任務。 白茹意等利用抽象畫的基本元素與人類情感之間存在的關系,提取抽象畫的底層視覺特征,采用遷移學習方法,將預訓練模型的參數遷移至目標模型并對模型進行微調,提取抽象畫的深層語義特征,最后將兩者線性融合,利用SVM 方法實現抽象畫的情感分類任務;王征等利用AlexNet 模型提取中國畫的深層特征并與顏色特征融合,將得到的特征組合進行特征處理,使用SVM 分類器進行情感分類;張浩等為深入分析云南少數民族繪畫作品所蘊含的情感,微調預訓練VGG16 模型,將該模型應用于Twitter 數據集中訓練,以提升模型學習能力,采用不同方法分別對繪畫作品進行數據增強,輸入訓練好的微調模型中,比較各方法以及組合處理方法對民族繪畫作品的情感分類結果,以達到情感分類的最優狀態。

深度卷積神經網絡屬于有監督學習方法,分類效果依賴于大量樣本數據的訓練,通過模型訓練提取圖像深度特征并與傳統的圖像底層特征融合,可以給模型性能帶來一定的改善。 同時,圖像情感的極性僅與圖像特定的區域有關,而其他區域對分類的影響極小,通過在深度學習中引入視覺注意力機制,使模型更加關注那些影響圖像情感分類結果的關鍵區域。 此外,隨著模型層數逐漸加深,訓練過程容易造成圖像細節信息的丟失,改進模型結構仍存在著巨大的提升空間。 圖像情感分類可以在圖像深度特征融合、注意力機制引入、模型結構改進等方面開展深入研究,提升圖像情感分類的準確率和效率,同時降低模型的過擬合度。

2 藝術圖像的特征提取

2.1 CLAHE 顏色特征

顏色特征是圖像最基本的底層視覺特征,是圖像中關鍵與敏感的視覺信息。 在心理學的相關研究中,有學者認為顏色是表達情感的普遍方式,具有藝術性、鮮明性、聯想性、獨特性、合適性及喚醒性等特點。積極情感的圖像整體色彩較為鮮艷明亮,消極情感的圖像顏色則暗淡壓抑。 在研究圖像底層顏色特征時,大部分學者習慣采用顏色直方圖表達顏色特征,可直觀看出圖像像素的分布情況。 在同一數據集中,圖像的像素分布存在較大差異,針對像素分布不均勻的圖像,部分區域與整體圖像相比較為明亮或光線較暗,因此采用普通顏色直方圖均衡進行全局圖像增強,效果不太理想。 自適應直方圖均衡(AHE)與顏色直方圖相比,優勢在于該方法通過計算圖像每一處顯著區域的直方圖,重新調節圖像亮度值,進行均勻分布,以改善圖像每個區域的局部對比度,增強圖像邊緣的清晰度,但該方法容易導致圖像產生噪聲,進而產生圖像過度增強的現象。 限制對比度自適應直方圖均衡(CLAHE)與AHE 相比,通過對每一像素鄰域的對比度限制,得到對應的變換函數,可有效抑制圖像噪聲。與原圖像相比,經CLAHE 方法處理后的圖像細節更為突出,特征更加豐富,顏色直方圖較原圖像相比也更為平滑,如圖1 所示。

圖1 CLAHE 顏色特征可視化圖Fig.1 Figure of CLAHE color feature visualization

經過CLAHE 算法處理后的顏色特征輸入到兩個卷積層、兩個最大池化層、一個全連接層、3 個BN層和3 個激活層的網絡中。 其中,卷積核大小為3×3,64,2,1;最大池化層均為22,2;全連接層神經元為1 000個;激活層使用激活函數;卷積層和全連接層后均連接BN 層,用于防止模型過擬合。 將該網絡模型命名為ColorNet,輸出結果即為圖像的顏色特征,記為,CLAHE 顏色特征提取過程,如圖2 所示。

圖2 CLAHE 顏色特征提取過程Fig.2 Extraction process of CLAHE color features

2.2 Laplacian 紋理特征

通常物體的表面都具有紋理特征,包含了對比度和空間頻率等因素,其目的是描述圖像相鄰像素之間灰度空間的分遍歷情況。 圖像紋理特征同屬于圖像底層特征,雖然視覺效果沒有顏色特征更直觀,但不同的紋理特征同樣能夠對人類的情感產生影響。 拉普拉斯算子(Laplacian)是圖像鄰域內像素灰度差分計算的基礎,利用二階微分運算推導出的一種圖像鄰域增強算法,可用于描述圖像區域的變化速度。 其基本思想是當鄰域的中心像素灰度低于其所在鄰域內的其他像素的平均灰度時,中心像素的灰度應該進一步降低;反之進一步提高中心像素的灰度,進而實現圖像銳化處理。 與一階微分運算相比,拉普拉斯算子邊緣定位能力更強,獲取的邊界信息更加細致。 因此,利用拉普拉斯算子對圖像進行銳化邊緣檢測、提取圖像紋理特征有助于圖像分類、目標檢測識別、圖像分割等任務。 二維圖像拉普拉斯算子公式(1):

其離散化形式可表示為式(2):

Laplacian 算子對噪聲很敏感,為了獲取較好的紋理,突出邊緣特征信息,使用高斯濾波對圖像進行降噪處理。 本文提取圖像紋理特征具體步驟為:

(1)利用高斯濾波去除圖像噪聲;

(2)將降噪后的圖像轉為灰度圖像;

(3)使用Laplacian 算子提取處理后的灰度圖像的邊緣特征;

(4)將處理后的灰度圖像與邊緣特征圖像融合。

經Laplacian 算子等處理后得到的紋理特征輸入兩個卷積層、兩個最大池化層、一個全連接層、3個BN 層和3 個激活層的網絡中。 其中,卷積核為3×3,64,2,1;最大池化層均為22,2;全連接層神經元為1 000個;3個激活層使用函數;卷積層和全連接層后均連接BN 層,防止過擬合。 將該網絡模型命名為LapNet,輸出結果即為圖像的紋理特征,記為,Laplacian 紋理特征的提取過程,如圖3 所示。

圖3 Laplacian 紋理特征提取過程Fig.3 Extraction process of texture features

2.3 深度語義特征

在圖像深度語義特征提取的過程中,采用ResNet101 與CBAM 注意力機制融合的網絡模型對數據集進行訓練,在不改變ResNet101 模型原結構的前提下,將通道注意力機制和空間注意力機制融入ResNet101 模型的第一層卷積層和最后一層卷積層中,集中關注圖像主體區域和局部區域的特征信息,充分挖掘藝術圖像的整體特征和細節特征,使模型訓練和測試的準確率較傳統卷積神經網絡模型有所提升。 將該融合模型所提取的圖像深層情感語義特征記為,在ResNet101 與CBAM 注意力機制融合模型中輸入特征圖后,模型不同層所提取到的特征可視化效果圖如圖4 所示。 由此可見,隨著融合網絡模型層數的不斷加深,肉眼可見的可視化效果逐漸模糊,圖像深層特征變得更加抽象。

圖4 不同層深層特征可視化圖Fig.4 Visualization map of deep features in different layers

2.4 特征融合輸入

將上述提取到的 CLAHE 顏色特征、Laplacian 紋理特征和CBAM 深層語義特征利用() 函數并按照維數1(列)進行拼接融合,整體輸入到含有兩個全連接層、兩個BN 層、一個激活層的網絡中,將該卷積神經網絡模型命名為FeaturesNet,其結構如圖5 所示。

圖5 FeaturesNet 網絡模型結構Fig.5 Network model structure of FeaturesNet

3 情感分類模型

3.1 ResNet

2015 年,微軟團隊提出了ResNet 模型,模型結構較其他CNN 模型更深,整體性能也有所提高。 該模型的基本殘差模塊由短路連接路徑和殘差路徑組成,通過引入網絡前層與網絡后層的短路連接路徑加深模型的網絡深度,有助于訓練過程中梯度的反向傳播,解決其他模型容易引發的梯度消失問題,提升深層次模型的網絡性能。 殘差路徑結構包括卷積層、BN 層和ReLU 激活層,在連續兩層卷積層中,將輸入特征與卷積層輸出特征合并,導致輸出結果由原來兩層輸出() 變成()。 基于短路連接路徑部分沒有引進其他參數增加計算復雜度,因此即使增加模型層數,也能加快模型的訓練速度,提升模型的訓練效果。 ResNet 模型共有5 種網絡結構,其中ResNet101 為殘差神經網路中最常見的模型,其短路連接路徑中共有3 個卷積層,分別為兩層1×1 卷積層和一層3×3 卷積層,通過這3 層卷積層之間的短路連接路徑加深各網絡結構。

3.2 注意力機制

在計算機視覺領域中,注意力機制(Attention)與人類視覺機制十分相似,將關注焦點聚焦在圖像局部顯著區域位置。 早期研究中,L Itti 等受靈長類生物的視覺系統啟發,提出視覺注意力機制模型,構建并融合顏色、方向和亮度特征圖,最終提取復雜場景圖像的顯著區域位置。 隨著深度學習的普及,將注意力機制與卷積神經網絡結合,通過快速掃描數據集,判定主要特征區域,并將注意力集中分布在感興趣區域或重要信息特征位置,忽略非感興趣區域及無關信息,可更快、更準確地獲取數據集的主要特征信息,提升網絡模型工作效率。 CBAM 注意力機制是由Sanghyun Woo 等人于2018 年提出的,其本質是前饋卷積神經網絡,由通道注意力機制( ChannelAttention ) 和 空 間 注 意 力 機 制(SpatialAttention)混合組成。 其工作原理是首先向模型中輸入一張特征圖,CBAM 注意力機制依次通過通道和空間兩個維度提取特征圖對應的注意力特征圖;將注意力特征圖與輸入特征相乘得到自適應優化特征。 在通道注意力機制和空間注意力機制模塊內均包含池化操作,利用平均值池化和最大值池化對圖像全局區域和局部區域給予關注,同時保留特征圖細節處的語義信息。 考慮到CBAM注意力機制具有輕量性和通用性的特點,本文將CBAM 注意力機制與ResNet101 卷積神經網絡模型結合,通過端到端的訓練,提升傳統卷積神經網絡模型的性能。

3.3 算法流程

將實驗整體網絡模型命名為FeaturesNet,輸入的圖像大小為224×224×3。 由于處理CLAHE 顏色特征和Laplacian 紋理特征均在OpenCV 庫中進行,因此要將向量轉換為numpy 數組形式,再分別進行底層特征處理;將CLAHE 顏色特征和Laplacian 紋理特征再轉回向量形式,分別輸入ColorNet 和LapNet 網絡中,進一步提取圖像底層特征,ColorNet 輸出的特征記為, LapNet 輸出的特征記為,圖像數據輸入ResNet101 與CBAM 融合網絡模型中得到的深層語義特征記為; 最后,將得到的圖像底層特征和深層情感語義特征融合,輸入ClassNet 網絡中,進而對藝術圖像進行情感語義分類。

4 實驗結果與分析

4.1 實驗環境

本文實驗環境:處理器為Intel i5-8279U,主頻2.40 GHZ,實驗基于Python 3.7 的深度學習框架Pytorch,開發工具為PyCharm,使用Linux 操作系統,GPU 進行訓練,GPU 為NVIDIA Tesla V100-SXM2-16 GB,顯存總量為16 160 MiB。

4.2 實驗數據集的構建

缺少圖像情感數據會導致卷積神經網絡模型訓練的不充分或模型易出現過擬合的問題。 實驗使用Machajdik 等在2010 年所創建ArtPhoto 和Abstract兩個公開數據集,其中ArtPhoto 數據集由806 幅藝術圖像及情感標簽組成,Abstract 數據集包含280 張藝術抽象畫。 由于ArtPhoto 和Abstract 數據集情感標簽完全相同,積極類情感和消極類情感數據集劃分方式一致,通過對積極類情感和消極類情感的標簽進行投票統計,將得票數高的標簽作為圖像的最終情感類別,若積極類情感和消極類情感求和票數相同,則剔除該圖像。 經情感標簽重新劃分后,最終將ArtPhoto 數據集和Abstract 數據集合并作為本文實驗的數據集,其中Positive 類共540 張圖像,Negative 類共538 張圖像。 數據集各標簽的示例圖像如圖6 所示。

圖6 圖像情感數據集示例圖像Fig.6 The schematic figures of image sentiment dataset

由于原數據集大多數圖像格式是通道數為3 的RGB 格式圖像,其中也存在少數通道數為1 的灰度圖像,為方便后續實驗的展開,在數據預處理階段統一將圖像轉為RGB 格式。

情感語義信息的主觀性和復雜性導致帶有情感語義標簽的圖像數據集較少,而利用深度學習方法訓練模型的本質是在海量數據集中學習深層次圖像特征,進而獲取圖像情感語義信息,因此在數據集預處理階段,還需對其進行數據增強操作。 具體操作包括對數據集中各圖像翻轉及旋轉操作,數據集的增強示例圖像如圖7 所示。 對數據增強后的數據集進行人工篩選,最終形成各情感標簽均為1 920張實驗數據集。

圖7 數據增強示例圖Fig.7 The schematic figures of data enhancement

4.3 實驗評價指標

實驗評價指標為圖像情感分類準確率,采用K折交叉驗證方法,因此準確率最終為經K 折交叉驗證后測試集的平均準確率。將標準差() 和(Area Under Curve)作為實驗補充評價指標,通過記錄每折測試集的準確率,計算測試集準確率集合的離散程度,得 出模型值,而值域為[0,1],模型值越大,證明模型分類的準確率越高。

4.4 實驗結果分析

在訓練過程中,設置迭代次數為20,學習率為0.01, BatchSize 為64, 采 用SGD 優 化 器, 選 擇損失函數,動量梯度下降參數設為0.9,使用5 折交叉驗證方法。 為驗證本文模型對藝術圖像情感識別的效果,選擇經典卷積神經網絡模型ResNet50、ResNet101、ResNet101 與CBAM融合算法及李志義提出改進VGGNet 模型、Satoshi Iizuka 提出的ColorNet 中ClassificationNet以及本文提出的特征融合模型進行比較,分析各模型對情感識別準確率變化的情況,5 折交叉驗證后測試集的平均準確率見表1。 由表1 可知,以ResNet101 與CBAM 融合特征作為主干特征,分別用、和3 組特征組合逐一對數據集進行訓練,所得的準確率較經典卷積神經網絡模型及改進模型相比均有所提升,本文所提出的基于圖像底層特征和深層情感語義特征融合的FeaturesNet 模型準確率可達93.36%,較ResNet50提 升 10.31%, 較 ResNet101 提 升 9.01%, 較ResNet101 與CBAM 融合模型即特征提升6.98%;與改進模型VGGNet 相比提升16.59%;與ClassificationNet 相比提升5.31%。 從實驗結果也可以看出,與的特征組合所得準確率同比與的特征組合高033。 同時,和模型所對應的標準差較其他模型標準差也較低,的值趨近于1,說明在測試集上本文模型的準確率表現穩定,波動較小。在各模型的5 折交叉驗證中,選取在訓練集上預測結果最好的一折,繪制該折訓練全過程的準確率及損失值變化情況,各模型的準確率隨迭代次數變化的折線對比圖如圖8 所示,各模型隨迭代次數變化的損失情況如圖9 所示,橫坐標代表迭代次數,縱坐標分別代表準確率和損失值。 由模型在訓練集的表現情況可以得出,特征組合模型、和與經典卷積神經網絡模型和他人改進模型相比,收斂速度更快,當4 時,FeaturesNet 模型的損失值從4 降至05 以下;當6 時,FeaturesNet 模型的損失值已經趨近于0,準確率能夠達到100。

表1 不同模型的準確率對比Tab.1 Accuracy comparison with different models

圖8 不同模型的準確率變化折線圖Fig.8 Line chart of accuracy changes of different models

圖9 不同模型的損失值變化折線圖Fig.9 Line chart of loss value changes of different models

綜上,將圖像的深度特征與傳統特征融合作為藝術圖像情感分類模型的輸入,能夠充分發揮兩者對情感分類的重要作用,同時引入基于CBAM 的注意力機制,使模型的關注點更集中在圖像的重點區域,即決定圖像情感傾向的區域,從而能夠快速有效地提升藝術圖像的情感語義分類的準確率。

5 結束語

本文提出一種基于深度特征和注意力機制的卷積神經網絡模型FeaturesNet,將藝術圖像的傳統底層視覺特征與深層特征相結合,從多角度提取容易激發情感反應的藝術圖像特征,可有效解決模型層數的加深帶來細節特征丟失的問題,同時引入CBAM 注意力機制使模型更關注圖像中決定情感傾向的重要區域,從而提升藝術圖像情感分類的準確率。 實驗結果表明,該模型對藝術圖像情感分類的準確率可達到93.36%,證明其對藝術圖像情感分類的有效性,為藝術圖像的鑒賞與保護工作提供參考。

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 99热免费在线| 欧美精品高清| 亚洲成A人V欧美综合天堂| 精品一區二區久久久久久久網站 | 国产精品美女网站| 噜噜噜久久| 成人午夜亚洲影视在线观看| 国产91视频观看| 国产91av在线| 2020国产精品视频| 国产三级成人| 国产成年女人特黄特色毛片免 | 午夜激情福利视频| 欧美午夜小视频| 国产精品99一区不卡| 中文字幕乱妇无码AV在线| 国产一区二区网站| 白浆免费视频国产精品视频| 亚洲人人视频| 亚洲综合香蕉| 毛片免费在线视频| 欧美高清国产| 第九色区aⅴ天堂久久香| 免费亚洲成人| 久久免费视频播放| 国产无码在线调教| 亚洲精品无码AⅤ片青青在线观看| 国产麻豆永久视频| 国产91视频免费观看| 久久美女精品国产精品亚洲| 女同久久精品国产99国| 欧美日韩高清| 日韩a级片视频| 国产视频你懂得| 国产成人夜色91| 丁香婷婷激情综合激情| 日韩欧美国产成人| 91久久偷偷做嫩草影院精品| 日韩东京热无码人妻| 伊人色综合久久天天| 国产精品视频999| 国精品91人妻无码一区二区三区| 亚洲色图欧美在线| 99久久精品无码专区免费| 国产成人a在线观看视频| 亚洲国产高清精品线久久| 国产精品毛片一区| 女人18毛片一级毛片在线| 国模视频一区二区| 国产地址二永久伊甸园| 麻豆国产精品| 丰满人妻被猛烈进入无码| 亚洲欧洲日产国码无码av喷潮| 久久久久88色偷偷| 国产日韩欧美中文| 国产小视频a在线观看| 亚洲中字无码AV电影在线观看| 亚洲欧美成aⅴ人在线观看| 国产女人18水真多毛片18精品| 国产一区亚洲一区| 日本精品影院| 亚洲最新网址| 亚洲欧洲自拍拍偷午夜色| 国产传媒一区二区三区四区五区| 国产成人免费手机在线观看视频| 日韩大乳视频中文字幕| 国产在线精品人成导航| 久久精品午夜视频| 真实国产乱子伦高清| 97se亚洲综合| 9丨情侣偷在线精品国产| 99re精彩视频| 日本高清免费不卡视频| 国产xx在线观看| 国产你懂得| 成人一区在线| 亚洲人成网站日本片| 狼友视频一区二区三区| 亚国产欧美在线人成| 久久性视频| 91亚洲精品国产自在现线| 三级视频中文字幕|