基于注意力機制的個性化圖像美學質量評估

2021-10-28 04:42:22江佳俊楊曉雨

計算機技術與發展 2021年10期

江佳俊，蔣旻*，楊曉雨，郭嘉

(1.武漢科技大學計算機科學與技術學院，湖北武漢 430065； 2.智能信息處理與實時工業系統湖北省重點實驗室(武漢科技大學)，湖北武漢 430065)

0 引言

圖像美學質量評估是利用計算機模擬人類對美的感知和認知，自動評價圖像的“美感”[1]。圖像美學質量評估是計算美學與計算機視覺、心理學、虛擬現實等領域的學科交叉新方向，其在圖像推薦、圖像編輯美學等行業具有良好的應用前景。

在圖像美學質量評估的研究歷史中，大部分美學圖像評估方法都試圖用量化指標對圖像美感進行評估，根據量化指標的不同，大部分美學質量評估方法可以被劃分成以下三類：(1)基于分類的方法，圖像美學質量評估結果被分成“高質量”、“低質量”和“普通質量”三種類別；(2)基于評分的方法，圖像評估結果為一個量化的分值，通常在1～10之間；(3)基于分布的方法，評估結果用各美學評分分值的概率分布來表達。由于近年來提出的大部分美學評分方法采用第二種方式，所以文中也選用基于評分的方式評估圖像美學。

早期較傳統的圖像美學評價方法是根據與攝影相關的視覺特征(例如對稱性、構圖布局、顏色、紋理、清晰度、對比度等)來進行圖像美學質量評估。這些特征往往是用一些手工設計的視覺特征描述子來表達。雖然手工設計的特征可設計性范圍很廣，但是由于設計特征時需要具備攝影中的美學規則的相關經驗，計算量較大、很少考慮特征之間的關系和很難涵蓋所有的美學規則等因素的存在，所以基于手工設計的特征的方法往往效率較低且輸出結果不穩定。

為了改善傳統方法中手工設計特征的低效和魯棒性差的缺陷，近年來，研究人員逐漸將深度學習技術引入審美評估，但是大部分基于深度學習的審美評估方法存在一些共同的缺陷：

(1)一幅圖像除了考慮構圖布局外，往往存在需要突出的主體(主題)部分。大部分基于深度學習的方法往往只從圖像整體角度進行評估，沒有考慮主體的突出性和位置合理性。

(2)對于同一幅圖像，不同人的美學評價可能不盡相同，甚至相去甚遠。通用的美學質量評估方案一般沒有考慮不同用戶審美間的差異。如何將個人審美主觀偏好建立在評估系統中，實現個性化美學質量評估，成為一個有挑戰性的問題。

文中以個性化圖像評估為研究對象，利用視覺顯著性技術將主體的突出性和位置合理性等因素引入審美評估過程，提出了一種新的基于注意力機制的個性化美學質量評估方法。該方法在Rodriguez-Pardo等人提出的個性化殘差網絡PAA[2](personalised-aesthetic-assessment-using-residual-adapters)的基礎之上引入了注意力機制，既保持了圖像內容個性化偏好(個人美學質量評估的主觀偏好)，又將個人對圖像構圖的偏好(即主體的突出性)因素加入評分過程。在Flickr[3]數據集上的實驗表明，該方法相較于PAA方法在評估準確率上提升了約3%。

1 相關工作

1.1 注意力機制

注意力機制的本質在于讓網絡能夠學會忽略無關信息而關注重點信息。從作用角度而言，注意力機制主要分為空間注意力和時間注意力兩類，文中采用的是空間注意力非局部操作non_local模塊。

圖1 文中算法網絡結構

1.2 殘差網絡

殘差網絡主要用于解決深層網絡退化問題和梯度爆炸問題。一條主路徑和跳層連接組成殘差塊，若干個殘差塊組成殘差網絡。

1.3 研究背景

近些年來，圖像美學質量評估成為了一個研究熱點。傳統的美學質量評估方法一般是通過圖像的對稱性、三分法則和物體顯著性等原則進行圖像評估，這類方法往往需要大量的人工標定和專業化手工設計特征。Yan Ke等人[4]提出了一種評估方法，包含圖片簡潔性、清晰度、顏色、對比度和平均亮度(曝光度)等特征描述，實現了基于分類的美學質量評估。Datta等人在文獻[5]中將底層特征(顏色、紋理、形狀、圖片大小等)和高層特征(景深、三分法則、區域對比度)結合起來作為圖像美學特征，得到了較好的效果。Luo等人在文獻[6]中提出將前景和背景進行分離，得到前-背景對比度特征，該方法最后采用的美學特征包括清晰度、對比度、亮度對比度、顏色的簡潔性、和諧度和三分法則的符合程度等。其在DPChallenge數據集上進行了實驗，具有93%的分類準確率。Wong等人[7]在Luo方法的基礎上進行了改進，采用基于顯著度的方法提取前景，還融合了Yan Ke[4]和Datta[5]等人提出的一些特征，豐富了特征內容，取得了較好的實驗結果。Marchesotti等人[8]直接用尺度不變特征變換(SIFT)、Fisher變換和局部顏色描述來進行美學圖像評估，其在MRSA數據集上的實驗表明，該方法評估性能顯著提升。

上述基于手工設計特征進行圖像質量評估的方法，由于需要專業化手工設計特征，存在因手工設計特征不完備性造成評估效率低且魯棒性不高等缺陷。為了改善傳統方法的缺陷，許多學者提出了一些基于深度學習的圖像質量評估方法。與傳統手工特征提取方法不同的是，這類方法不使用手工設計特征，而是采用基于監督學習的神經網絡模型來進行質量評估，從實驗效果來看，與基于手工特征的方法相比，這類方法普遍提高了評估的準確度。Kong S等人[9]提出了一種基于深度卷積神經網絡圖像美學排名方法，該方法的評分模型中包含了圖像屬性和內容，可以預測1到5級美學的屬性和等級。該方法在AVA[10]數據集上的實驗取得了較好的分類效果。Talebi等人[11]提出了一種深度CNN模型(NIMA)用于圖像美學質量評估。NIMA模型沒有采用基于分類或者基于評分的美學量化指標，而是根據美學質量評估模型評估任意給定的圖像的評分等級分布。NIMA給每幅圖像在1到10的范圍內每一個可能的分數的可能性都進行賦值，輸出一個分數分布直方圖。這種方法能更好地表達美學評分問題本身具有的模糊性，所以在某種程度上提高了圖像美學質量評估的精確度，實驗表明，該算法在公共數據集AVA上獲得了良好的性能測試結果，在AVA數據集中的極端美學品質圖像表現更優。

考慮到圖像的整體布局和內容相關性，Liu D等人[12]認為圖像中視覺元素之間存在相互依賴關系，將圖像合成信息建模為其局部區域的相互依賴更為合理，所以應該將圖像劃分為局部區域的組合，并在這些區域上計算美學特征。基于這種思想，他們提出了一種基于組合感知的網絡，該網絡通過神經網絡來學習視覺元素之間的相互依賴關系，在AVA數據集上的測試得到了較好的結果。

面對同一幅圖像，不同的人可能會有不同的美學評價。圖像美學質量評估往往帶有大量的個人感情色彩，大部分美學質量評估方法一般是試圖建立一個通用美學模型，沒有考慮個人主觀偏好。但是近年來個性化圖像美學也逐漸受到學者們的關注[2,13]。Rodriguez-Pardo等人[2]采用一種基于卷積神經網絡模型的方法對具有不同類型的用戶特定偏好進行建模，并利用該模型PAA(personalized aesthetic assessment using residual adapters)進行個性化的美學質量評估。該模型使用了殘差適配器對特定用戶的偏好進行建模。殘差網絡的加入不僅在一定程度上解決了網絡退化問題和梯度彌散問題，而且大大加快了網絡的效率。在Flickr數據集[3]上的實驗體現了該方法基本能夠實現個性化美學質量評估的功能。J Ren等人[13]提出了一種主動學習算法，并使用一個由所有者評定的真實個性相冊的小數據集來優化網絡。J Ren提出的網絡主要包括三部分:(1)通用美學模型；(2)圖像屬性特征網絡；(3)圖像內容屬性網絡。將(2)、(3)提出的圖像特征進行融合，作為美學圖像評估的偏置來調整網絡，實驗表明，該方法能有效的自主學習個性化偏好，且在定量比較方面優于現有方法。由于真實個性化數據集難以收集，文中最終決定在PAA網絡基礎上進行改進。

一幅圖像在進行美學質量評估時，除了需要考慮到圖像本身的屬性特點和結構外，還需要考慮圖像的主體內容對圖像評估結果的影響，但大部分評估方法只從圖像本身特征和整體布局進行評估，沒有考慮到圖像主體的突出性及其位置的合理性對美學質量評估的影響。一般來說，視覺顯著性最高的區域或者顯著物體對應著圖像中最重要的內容，即圖像主體內容，所以顯著性分析也被用于美學質量評估。Tu Y和Niu L等人在文獻[14]中使用一個全卷積網絡來生成能同時感知照片構圖和物體顯著性的美學評分圖，其模型在實驗中展現出了較好的性能。但是，該方法在進行圖像顯著性分析時，只考慮到了視覺顯著性最高的區域，而忽略了其他區域，導致評估結果不夠全面。

綜上，文中提出了一種基于注意力機制的個性化圖像美學質量評估方法。該方法在個性化殘差網絡的基礎之上加入注意力機制來進行顯著性分析，按顯著性的高低對圖像區域分配對應權重，這樣不僅考慮了圖像主體的突出性(顯著性)，而且還保留了圖像顯著性低的區域的影響力，使得各個區域對評估結果影響更加合理。文中提出的方法既考慮了圖像內容偏好(個人美學質量評估的主觀偏好)，又考慮到對圖像構圖的偏好(即主體的突出性)，在Flickr數據集上實驗表明，與Rodriguez-Pardo提出的PAA方法[2]相比，文中方法取得了更好的評估準確率。

2 基于注意力機制和個性化的網絡模型

為了實現上述目標，文中對Rodriguez-Pardo提出的PAA方法[2]進行了擴展，提出一種基于注意力機制的個性化殘差網絡。算法模型中融入個性化模塊和注意力模塊。網絡結構如圖1所示。該網絡以ResNet18為基線[15]，除了在每個Basic block都加入個性化模塊外，還在layer2和layer3之間，以及layer3和layer4之間加入了注意力模塊。每個Basic Block的結構相同，如圖2所示，均是在ResNet18原始Basic block模塊中的基礎模塊Ci上加入了個性化(建模)模塊。

圖2 含個性化建模的Basic Block模塊的結構

圖3 注意力機制模塊內部結構

文中用非局部操作non_local[16]模塊實現注意力模塊，其內部結構如圖3所示。引入注意力機制主要是為了增強圖像構圖對最終美學質量評估的影響。考慮到深層網絡主要包含圖像高層語義信息，位置信息量較少，而最淺層網絡圖像信息較為駁雜稀疏，所以文中設置兩個注意力模塊，分別放置在較淺層卷積層(layer2和layer3)之后。注意力模塊將輸入特征信息進行分塊處理，采用特征矩陣逐乘的方式，得到每個位置像素的權重，從而實現權重的重新分配，對圖像評估影響較大的位置區域的像素分配較大的權重，影響力較小的位置分配較小的權重。經過該模塊處理后的特征如圖1中的熱力圖所示，經第二個注意力模塊處理得到的熱力圖信息更為詳細，主體信息更為明確。

在layer4后網絡又經過三個全連接層和兩個正則化層，在最后一層全連接層后輸出歸一化后的美學審美評分。其中穿插了隨機丟棄(dropout)部分神經元的方法，在一定程度上降低了過擬合的幾率。此外，文中在訓練過程中將卷積與其緊接的批標準化(batch normalization)進行折疊封裝。由于一般卷積后接BN層是沒有偏差(bias)的，這樣將兩部分折疊，加快了前向傳播的速度，也不會影響最終的實驗結果。文中網絡使用的損失函數是均方誤差MSE，定義如下：

(1)

3 實驗

3.1 數據集

為了對圖像進行美學質量評估，前人構造了許多美學質量評估數據集，包括FLICKR[3]、AVA[10]、CUHKPQ[17]等，這些數據集中的圖片大多數來自于網絡上的圖像分享網站DPChallenge、Photo.Net等。文中使用Flickr數據集進行相關測試。Flickr數據集屬于社交數據集，包含1億+張圖片，其中除了圖像的評分外，還包含各個用戶之間的關系和共屬的興趣小組等信息，在進行個性化建模前需要將數據集按用戶進行整理，整理得出多個個性化數據集，每個個性化數據集包括某用戶id、該用戶評估的所有圖像id及其評分分值。考慮到圖像的大小可能并未統一規格，需對數據集進行統一處理，將圖像縮放至256×256大小，然后對圖像進行隨機水平翻轉，并將圖像隨機裁剪為網絡模型輸入大小224×224，然后進行正則化處理，隨機裁剪和翻轉增加了數據集的多樣性，可有效避免過擬合。為了加快訓練過程中數據集的讀取速度以及防止數據集散列存放占用大量內存空間，將數據集處理好之后以TFRecord格式進行存儲。TFRecord格式采用二進制編碼，占用空間小(只占用一個內存塊)，加載數據集時，只需要一次性加載這個二進制文件即可，簡單、快速。對Flickr這種大型數據進行訓練時，可以將數據分成多個TFRecord文件，來提高處理效率。

3.2 網絡結構和參數設置

另外考慮到圖像評估階段中個性化的問題，在圖像特征提取階段中加入了殘差塊，通過殘差塊保存少量的用戶偏好信息，將瓶頸層(bottleneck)與殘差塊相融合，從而達到個性化評估的效果。

3.3 實驗設計

文中使用torch在具有6 GB GPU內存的NVIDIA GeForce GTX 1060Ti上的Python環境中訓練和測試該算法，使用Adam優化器來進行參數學習以及網絡優化，Batchsize設置為30，epochs設置為200，總共迭代次數為22 200次。在Flickr數據集上進行實驗，分別對殘差塊和注意力機制模塊的有效性進行對比評估。Flickr數據集總共包含40 500幅圖像，210個用戶參與評分。文中選取37個用戶作為測試集，共4 739幅圖像，剩下的所有數據作為訓練集。為保證實驗過程中單一變量原則，所有實驗中的學習率統一設置為0.1，并在每訓練10輪epochs后降低90%。在訓練開始時，使用較大的學習率能使得網絡快速收斂，隨著訓練的進行，逐漸降低學習率有助于找到最優解。為了得到穩定的模型，并兼顧效率，文中選擇三折交叉驗證進行個性化的實現。以第i個用戶為例，第i個用戶的個性化數據集Di會在實驗中依據三折交叉驗證原則進行劃分，分為訓練集合和測試集合。

文中使用的美學質量評估指標為SRCC[18](Spearman等級相關系數)范圍為[-1，1]，定義如下：

(2)

3.4 實驗結果與分析

對比實驗在Flickr數據集上進行，文中與PAA(personalized aesthetics with residual adapters)網絡進行實驗對比，結果如表1所示。

表1 與PAA網絡在Flickr數據集實驗結果對比

由表1可以看出，在同一數據集Flickr上，PAA網絡取得SRCC均值為0.631的結果。文中以ResNet18網絡為基線網絡，在該網絡基礎上融入了殘差塊并集成了注意力機制，并通過選取ResNet18預訓練模型前四層權重對網絡進行訓練擬合，引入注意力機制增強了特征提取過程中提取特征的有效程度，相當于權重的重新分配。通過對圖像評估影響較大的區域分配較大權重，從而提高了美學質量評估的準確度，同時文中網絡相較于PAA，穩定性略有增加。

另外進行了消融實驗，文中在Flickr數據集上依次驗證了殘差塊和注意力機制對最終的美學質量評估的改進，對比實驗結果如表2所示。

表2 在Flickr數據集消融實驗結果對比

文中的基線網絡使用的是ResNet18網絡，使用ResNet18預訓練模型對模型進行訓練后，在AVA上展現的性能為SRCC均值為0.561。

在基線網絡上加入殘差塊后，由于殘差塊用來學習用戶的特定偏好，而Flickr數據集中用戶量較大，每個人的偏好不盡相同，這就造成了雖然評估效果有了一定的改善，但是SRCC值波動依舊較大。另外考慮到圖像構圖本身(主體的位置、布局等)對圖像質量評估有影響，為了在特征提取過程對美學質量評估影響較大的部分特殊關注，在基線網絡上加入注意力機制模塊，為這部分區域分配較大的權重，提高此區域對最終美學質量評估的影響力，以便提升結果的可信度。從在Flickr數據集上的表現來看，評估效果有了較大的提高。最終，文中在基線網絡上融合了注意力機制和殘差塊，在Flickr數據集上取得了SRCC值為0.659的結果，通過SRCC(std)來看該模型有了比較穩定的表現。

由在Flickr數據集上的消融實驗表明，殘差塊和注意力機制的引入在一定程度上改善了圖像質量評估效果。

表3 與NIMA網絡在AVA數據集上實驗結果對比

另外文中網絡模型在AVA數據集上也做了測試，雖然AVA數據集中缺乏用戶與評估圖像間的關聯信息，文中網絡無法發揮出其個性化優勢，所以將文中算法作為通用美學評估方法和最流行的通用美學評估方法NIMA進行了對比(如表3所示)。從AVA數據集上的測試結果顯示，文中方法取得了SRCC均值為0.637的結果，比AVA稍好。從網絡評估的穩定性而言，文中網絡在AVA數據集上的表現比NIMA網絡在AVA數據集上的表現來說要穩定。整體上看，文中網絡表現稍優于NIMA的網絡。

綜合以上兩個實驗對比，文中在基線網絡ResNet18上融合注意力機制和殘差塊后，網絡性能有了明顯的改善。

4 結束語

文中提出了一種基于注意力機制和個性化的圖像美學質量評估網絡，該網絡主要以ResNet18為基線網絡，在其基礎上進行改進，在每個layer層中融入了殘差塊，并在第二個layer層和第三個layer層后加入了注意力機制模塊，每個layer層的輸出都是經過當前層處理(包括殘差塊)后與當前layer層輸入相加后的結果，這樣能更好地保證特征提取的合理性。實驗結果表明，模型在對圖像進行質量評估時保留了個人偏好，對個人的審美有了較大的改善，其次注意力機制的引入使得圖像評估指標有了較大提升，相比于現有方法，文中提出的模型性能稍強，仍有很大的改進空間。文中只是在基線網絡ResNet18上做了簡單的改進，可以考慮將基線網絡替換為Inception網絡或者是其他網絡，ResNet18只是對最終的結果進行了激活，而Inception在每次卷積后都進行了激活，這樣提高了神經網絡對模型的表達能力，與此同時，Inception卷積后對通道數進行了疊加，提升了模型的擬合能力。另外可考慮擴充數據集，現有的數據集缺乏對個人偏好的整理，可自己去收集整理出有關個人偏好的數據集。