視覺影像分析算法在美術場景中的應用

2021-03-10 06:34:22馮帆

系統仿真技術 2021年4期

馮帆

（陜西學前師范學院，陜西西安 710061）

隨著社會的發展，繪畫已經從精英藝術轉變為大眾藝術。受西方視覺藝術以及繪畫形式的影響，中國當代藝術也開始利用符號對社會場、文化構建以及大眾審美趣味進行闡述［1］。繪畫作為一種重要藝術創作形式和民族遺產，通過優美的表現形式，展現了人類文化的風貌，傳遞出人類的思想情感，是人類對世界認識的獨特形式。圖像分類是當前計算機研究的重點，為人類繪畫圖像數字化提供幫助，實現了繪畫作品的研究和創新［2］。通過將計算機和繪畫創作相結合，可以拉近藝術創作和觀賞者之間的距離，提升藝術家對繪畫符號語言的認識和運用［3］。在歷史長河中，人類創作了大量繪畫作品，其內容涵蓋了多種藝術風格，為了更好地學習繪畫知識，利用計算機提取繪畫作品特征，實現對繪畫的評估、識別、分類和保護。

為了研究視覺影像分析算法在藝術場景中的應用，本文利用卷積神經網絡結合符號學對繪畫進行解讀。首先利用符號學和藝術史的理論知識，基于符號學的角度結合美學和現象學等學科領域的知識，對當代繪畫的符號化表現進行橫向分析，并對符號進行分類；再進行縱向的切片分析，總結符號的形成和運用技法。結合神經網絡對繪畫中的圖像特征進行分析和解讀。

1 方法

1.1 利用符號學解讀繪畫中的視覺藝術

對符號的使用可以追溯到人類生命活動伊始，符號學說主張藝術起源于人類用來表示某種含義的符號，藝術形式是一種符號體系。符號學注重研究構成和表征的問題，將“文本”當作具有特定意義的合成符號［7］。因此，符號學可以作為一種視角和觀念性的工具，消除藝術品的形式主義和自律性，能動地理解視覺藝術品。并且符號學注重意義和產生意義的形式，將視覺藝術品的外表和細節符號化［4］。

符號學可以提供由心理分析、敘述以及修飾理論產生的思想和理念，來深入細致地分析藝術品。查爾斯S·皮爾斯的理論指出，符號可通過3種姿態發揮作用：（1）特定的符號或表征。（2）特定的精神圖像，也稱為解釋符號。（3）客體或詞語指標的對象。對一幅關于果盤的荷蘭靜物畫（圖1），就是關于某種事物的表征或符號，觀察者在看到這幅繪畫時，會將這個事物與腦海形成的意象相結合。對于第一個觀察者來說，它可以是真實的水果；對另一個人來說，可能是別的靜物畫；對第三個人來說可能是“17世紀的荷蘭”。因此繪畫所表現的客體是由觀察者的主觀意愿所決定的［5］。

圖1 荷蘭靜物藝術畫Fig.1 Dutch still life art painting

視覺藝術中敘述的解釋是關于如何通過圖像去講故事，羅蘭·報在《S/Z》中提到了5種符碼的解析。行動性符碼是指通過“一系列動作”幫助觀察者將細節代入到故事的序列中，在某種意義上，時間圖像是符碼的敘述性描述。闡釋性符碼是通過預設有個難題，引導觀察者去尋找解答這個難題的細節。當圖像的主題難以辨認時，闡釋性符碼才會起到作用。語義性符碼包含文化信息，需要觀察者代入到圖像人物的背景信息中［6］。象征性符碼需要觀察者引入象征的方式，對圖像中的某些細節進行解讀。參照性符碼則包含一定的文化知識，需要觀察者了解圖像中的歷史信息。這些符碼通過對圖像做出敘述，每個解釋的細節都有一個恰當的說法。這種敘述在分析圖像時，被觀察者有力地呈現出來，并將思想代入到這個過程中［7］。

因此，基于繪畫圖像的符號分析可以幫助觀賞者了解藝術家隱藏在繪畫中的思想和情感，為了更好地對繪畫所蘊含的信息進行分析，結合卷積神經網絡算法對繪畫中的圖像特征進行識別，并依據繪畫風格進行分類，可以幫助觀察者更好地對繪畫進行解讀。

1.2 基于卷積神經網絡的視覺影像分析算法

人工神經網絡是通過模擬生物體的神經連接以及大腦處理和記憶信息的方式進行數據信息的處理。卷積神經網絡是人工神經網絡的一類，對網格狀數據結構的處理效果尤為顯著，由于卷積神經網絡具有很好的圖像處理和特征識別效果，因此廣泛應用于計算機視覺和自然語言處理領域［8］。卷積神經網絡的結構包含輸入層、卷積層、池化層、全連接層和輸出層，圖2為LeNet-5卷積神經網絡模型的結構圖［9］。該網絡包含7層結構，C1表示具有6個卷積核的卷積層，S2表示池化層，C3表示具有16個卷積核的卷積層，S4表示池化層，C5和F6表示全連接層，輸出層為基于徑向基函數的分類層。

圖2 LeNet-5模型結構圖Fig.2 LenNet-5 model structure diagram

卷積層具有權值共享和局部連接的特點，權值共享是指在對模型的卷積層輸入圖像后，會增加一個偏置項，使卷積核的參數量增加一個。卷積運算的函數公式f()為

其中，ω表示卷積核參數；×表示卷積運算；b表示偏置項；x表示輸入。

權值共享意味著卷積核在對圖像進行遍歷時，卷積核的參數固定不變［15］。例如在遍歷圖像時，使用的卷積核參數為26個，這樣模型中用了6個卷積核，總共權值參數也只有156個，可以有效地降低參數量。

局部連接是指卷積神經網絡中相鄰兩層間，采用部分節點連接的方式提取局部特征，其構思來源于生物視覺神經元中起到感知外界環境功能的只有部分神經元，并且圖像中像素之間的相關性與像素間的距離有關［10］。因此采用局部感知的方式采集圖像中的信息，最后綜合圖像信息，實現增強圖像信息的目的。采用局部連接的方式，可以降低參數量，提升參數的學習速率，防止神經網絡在訓練過程中發生過擬合現象。

池化層的具體操作與卷積層相似，但池化只取對應位置的最大值和平均值，并且不經過反向傳播的修改。進行平均池化和最大池化后，以步長為2遍歷特征圖，將特征數據的維度減半，池化后的結果經過激活函數，輸出為下一層網絡的輸入值。激活函數是用于實現非線性特征映射，例如：Sigmoid函數、tanh函數和ReLU函數等［11］。

反向傳播算法（Back Propagation）和梯度下降算法（Gradient Descent）是神經網絡訓練中重要的權值迭代更新方法，在神經網絡中從前往后的傳播方式稱為前向傳播，結構如圖3所示。神經網絡中神經元的激活值可以利用激活值的公式計算得到，即

圖3 反向傳播算法Fig.3 Back propagation algorithm

然后將神經網絡每層的輸出值作為下一層的輸入值，并不斷向前傳播直至到輸出層進行輸出，稱為完成一次前向傳播。接著利用損失函數將結果反向傳播，并做出下面兩個假設條件。

（1）損失函數可以作為訓練樣本X的代價函數C的均值，公式為

對單一的訓練樣本(x，y)，代價函數Cx的公式為

（2）代價函數可以作為輸出值的函數，多個訓練樣本的整體損失函數為

為了使網絡迭代更新過程中，得到的損失函數值最小，降低生成的預測值和實際值之間的誤差，可以利用梯度算法對其進行求解。通過梯度下降的方式對參數進行更新，使代價函數的值最小，公式為

通過調節移動步長和梯度下降的方式對參數進行更新。在迭代過程中，根據公式可以使損失值達到最小值，得到訓練好的網絡模型參數。

卷積神經網絡的最后一層通常為Softmax回歸分類層，Softmax是邏輯回歸模型對多分類問題的推廣，可用于處理多分類問題。Softmax的損失函數J(θ)為

其中，θ表示參數；m表示訓練集大小，即{(x1，y1)，(x2，y2)，…，(xi，yi)，…，(xm，ym)}；I{}表示取值規則。對于輸入x分類、類別為j的概率為

1.3 基于卷積神經網絡的圖像特征提取

使用卷積神經網絡結構進行預訓練，為保證對比實驗的合理性，將默認參數設置和預訓練網絡保持一致。對用戶輸入的風格圖像進行預處理，包括顏色通道轉換與去均值化。提取圖像風格信息特征流程如圖4所示。

圖4 圖像風格信息特征提取框架圖Fig.4 Frame diagram of feature extraction of image style information

提取信息特征首先解析風格圖像的文件長度，然后對風格圖像數目進行裁剪，設置每一張圖像的尺寸與顏色通道。最后將圖像轉化到BGR（Blue Green Red）通道，對通道上的像素去均值化。完成上述準備工作后，開始對輸入數據進行提取信息特征。整個圖像像素矩陣預處理后輸入到網絡結構中，其中提取的網絡層包含3層卷積層、Relu層與池化層。紋理信息源自于底層信息特征之間的相關一致性，所以需要協調比較多個相關的信息特征層，這樣就可以得到最佳的風格特征，即

其中，wl為風格信息特征層權值，Sl為輸出的目標風格信息與某一層的損失值。

具體的數學公式為

其中，Tfeature為目標輸出圖像的信息特征，Sfeature為當前風格圖像的輸出特征。

對于輸入的內容與風格圖像，需要從多層中間輸出層中提取圖像的風格特征，而只截取對應的高層語義信息特征便可以提取到對應的內容特征。如圖5為提取圖像內容信息特征的流程。把輸入的內容圖像進行顏色通道轉變與去均值化，輸入網絡結構提取目標圖像信息特征。

圖5 圖像內容信息特征提取框架圖Fig.5 Frame diagram of feature extraction of image content information

本文采用LeNet-5模型作為視覺影像分析算法的模型，并針對多種風格的繪畫進行實驗，識別繪畫中的符號特征，并對圖像進行分類。訓練集的數量為4878張，測試集的數量為2500張。為了擴大訓練集數量，提升模型訓練效果，針對訓練集中的一幅繪畫分別旋轉90度、180度和270度，將訓練集擴大4倍。采用同樣的方法對GoogleNet模型和ResNet模型進行訓練，并進行識別效果的對比。

2 算法性能對比

本文采用LeNet-5模型、GoogleNet模型和ResNet模型進行實驗，3種模型的網絡層數分別為7、22和152層。對2種數據集的識別結果如圖6所示。

圖6 3種模型對2種數據集的識別準確率Fig.6 Recognition accuracy of the three models for two kinds of data sets

由圖6可見，3種卷積神經網絡模型均對數據集有較高的識別準確率，對2種數據集的識別準確率均高于99%，但當增加訓練集數量時，模型的識別準確率沒有明顯的提升，并且隨著網絡層數的增加，模型變得更加復雜，訓練模型的時間越來越長。總體來說，卷積神經網絡可以很好地識別繪畫中的符號特點，有效地對繪畫進行識別和分類。

綜上所述，本文利用卷積神經網絡結合符號學分析繪畫特征，并通過建立視覺影像分析算法對繪畫進行識別和分類。實驗結果證明該算法對繪畫特征識別具有很高的可行性。

3 結論

為了利用視覺算法對美術繪畫圖像進行解讀，本文首先通過符號學對繪畫進行解讀。然后基于卷積神經網絡建立視覺影像分析算法，實現利用計算機對繪畫進行識別和分類。實驗結果顯示，視覺影像分析算法對繪畫的分類準確率為99%以上，具有很好的繪畫識別效果和分類能力。對識別不同繪畫分割的視覺藝術具有可行性。但本文仍存在一些不足，由于美術繪畫風格多種多樣，而訓練集中的樣本數和包含的繪畫形式相對較少。因此，對繪畫風格的識別能力有限。在后續研究中，將會擴大數據，提升視覺影像分析算法的識別能力。