基于深度學習的廣告布局圖片美學屬性評價

2021-04-06 10:53:26沈佳敏鮑秉坤

計算機技術與發(fā)展 2021年3期

沈佳敏，鮑秉坤

(南京郵電大學通信與信息工程學院，江蘇南京 210000)

0 引言

隨著互聯(lián)網技術的發(fā)展，廣告業(yè)務有了新的展現(xiàn)形式：在線廣告，而線上線下服務的打通，使得在線廣告的需求越來越大。因此，準確高效地評價一張廣告圖片是很有必要的。為了簡化工作，文中并不關注廣告圖片中廣告語的具體內容，即文中對廣告布局圖片進行美學屬性評價。

對于一個人類藝術家來說，當他/她展示一張照片或一幅圖畫時，他/她不僅會從不同的美學屬性方面給出一個數(shù)字分數(shù)，而且還會說出一個段落來描述不同的美學屬性[1]。一張圖片的美學屬性包括構圖、燈光、顏色、圖片的焦點等。在這項工作中，對于廣告布局圖片的評分標準[2]，該文主要考慮構圖、色彩照明、圖片的焦點以及總體印象。

構圖主要考慮的是整張圖片的穩(wěn)定性[3]。所謂穩(wěn)定，是人類在長期觀察中自然形成的一種視覺習慣和審美觀念。因此，凡符合這種審美觀念的造型藝術才能產生美感，違背這個原則的，看起來就不舒服。但是，穩(wěn)定不意味著圖片的元素在圖片中平均分配，而是所有的元素在圖片中存在一種合乎邏輯的比例關系，例如對稱分布。事實上，對稱的穩(wěn)定感特別強，對稱能使圖片有莊嚴、肅穆、和諧的感覺，像中國古代的建筑就是對稱的典范。

顏色是通過眼、腦和生活經驗所產生的對光的視覺感受[4]，肉眼所見到的光線，是由波長范圍很窄的電磁波產生的，不同波長的電磁波表現(xiàn)為不同的顏色，對色彩的辨認是肉眼受到電磁波輻射能刺激后所引起的視覺神經感覺。顏色具有三個特性，即色相、明度和飽和度。

圖片的焦點是圖片中的重要組成部分[5]，如果沒有固定的興趣點，圖片就會顯得雜亂無章。沒有什么能吸引觀眾的注意力或引起他們的興趣，也沒有什么線索能說明圖片的目的是什么。但另一方面，具有強烈興趣點的照片會立即向觀眾展示照片的全部內容。它們引起了人們的注意，并把觀眾吸引到一個構圖中，讓他們的眼睛停留片刻。在這項工作中，廣告圖片的焦點即是突出廣告的主體。

圖片的總體印象，即對整張圖片的感受，主要考慮整張圖片各個組成部分放在一起是否適宜，以及組合到一起后整體的美學印象。

圖像字幕，大多數(shù)圖像字幕工作遵循CNN-RNN框架，取得了很好的效果[6]。近年來關于圖像字幕[7-8]的文獻大多介紹了注意方案[9]。該文遵循這一趨勢，在網絡中添加注意力模式。

為了得到廣告布局圖片有關上述四個方面的美學屬性評價，文中設計了美學多屬性網絡，包括多屬性特征網絡、注意網絡以及語言生成網絡，然后根據(jù)圖像字幕的評價標準，比較文中模型和其他模型。

1 數(shù)據(jù)集

由于沒有適合該文場景的公開數(shù)據(jù)集，因此選擇5名專業(yè)的廣告設計師以及10名廣告從業(yè)人員對廣告布局圖片進行了美學屬性評價，數(shù)據(jù)集中包含各美學屬性的數(shù)值評分和語言評價。該文將這個數(shù)據(jù)集稱為ALID數(shù)據(jù)集，該數(shù)據(jù)集的美學屬性包括色彩照明、構圖、景深、焦點和總體印象。數(shù)據(jù)集中總共有大約200 000張廣告布局圖片，對于每個屬性，選擇2 000張圖片進行驗證，2 000張圖片進行測試，剩下的圖片用于訓練。

2 系統(tǒng)模型

在本節(jié)中將詳細介紹整個模型的系統(tǒng)框架。如圖1所示，所提出的美學多屬性網絡(AMAN)分為三個部分：多屬性特征網絡(multi-attribute feature network，MAFN)、注意網絡和語言生成網絡(language generation network，LGN)。MAFN通過4個屬性得分的多任務回歸計算不同屬性的特征矩陣。注意網絡動態(tài)地調整所獲得特征的通道維度和空間維度的注意權重。最后，LGN通過長短期記憶網絡(long short-term memory，LSTM)[10]生成字幕，LSTM網絡需要數(shù)據(jù)集中關于美學語言評價的真實內容和注意網絡調整后的特征映射。

2.1 多屬性特征網絡

(1)

(2)

MAFN如圖1上部所示，GFN和AFN使用Desnet161來提取密集的特征圖。所有先前圖層的參數(shù)都是共享的。GFN和AFN的輸出分為5個部分：一般特征和4個審美屬性的特征。GFN對全局美學分數(shù)的輸出執(zhí)行全連接操作。

對于最終結果，執(zhí)行均方誤差(MSE)[4]的計算，并將其作為模型損失參數(shù)返回到之前的層。AFN對屬性特征映射進行卷積運算，得到4個不同的屬性特征映射。與GFN一樣，通過全連接層和均方誤差損失得到最終屬性得分。

MAFN可以同時提取圖像的不同屬性特征映射。因此，該模型不再局限于輸出一個句子的注釋。圖像的美學特征可以從多個屬性進行評價，更好地指導圖像的綜合評價。多任務網絡得到的具體結果還可以直接利用知識遷移擴展ALID字幕數(shù)據(jù)集的屬性評估，從而提供更廣泛的審美評估能力。

圖1 系統(tǒng)框圖

2.2 注意力網絡

注意力網絡包含兩種模式[11]，一是空間注意在信道注意之后，二是信道注意在空間注意之后。通過實驗，該文采用第一種結構作為注意力網絡。給定特定的N-1層特征映射MN-1，根據(jù)信道注意計算fc，得到信道注意權重wc。然后將加權wc和N-1層特征映射線性融合，得到新的N層信道感知特征映射MN。之后，將信道感知特征圖MN發(fā)送到空間感知注意模塊計算fs，得到了空間注意權重ws。最后，對前一步得到的信道感知特征圖MN進行空間感知，即CNN輸出的特征。合并的過程可以用下面的公式表示：

fc=tanh((wc?MN-1+bc)⊕whcht-1)

(3)

MN=softmax(WNfc+bN)

(4)

fs=tanh((ws?MN-1+bs)⊕whsht-1)

(5)

MN+1=softmax(WNfs+bN)

(6)

在上面的公式中，t表示時間狀態(tài)，h表示LSTM隱藏狀態(tài)，⊕表示矩陣和向量相加，?表示向量的外積，b表示偏移量。

2.3 語言生成網絡

長短期記憶網絡是學習長期依賴信息的一種特殊類型的RNN。在許多問題上，LSTM已經取得了相當大的成功，并得到了廣泛的應用。通過將多個屬性的信息輸入LSTM單元，可以根據(jù)圖像特征和時序信息進行下一個單詞的預測。具體來說，如果美學評估的兩個子任務和生成的注釋是統(tǒng)一的，則訓練過程可以描述為這樣的形式：對于訓練集的圖片I，對應的描述是序列S={S1,S2,…,SN}(其中Si表示句子)。對于語言生成模型θ和屬性?，給定輸入圖片I，為每個屬性生成序列Si的概率如下：

(7)

該模型利用通道和空間注意模型來提高圖像有效區(qū)域的利用率。因此，可以在解碼階段更有效地利用圖像的特定區(qū)域的特征。語言生成網絡的損失可以用下面的公式來表示：

(8)

該模型利用圖像的語義信息來指導解碼階段的詞序生成，避免了僅在解碼開始時使用圖像信息的問題，從而導致圖像信息隨著時間的推移逐漸丟失。為了更好地獲取圖像的高層語義信息，該模型對原有的卷積神經網絡進行了改進，包括多任務學習方法，該方法可以提取圖像的高層語義信息，增強編碼階段圖像特征的提取。

3 實驗結果展示及分析

3.1 基準網絡

CNN-LSTM：該模型基于Google的NIC模型[12]。Resnet-152[13]提取不同屬性的特征，LSTM進行編碼。該基線與文中方法的區(qū)別在于：(1)沒有引入注意機制來增強特征提取過程；(2)沒有使用多任務網絡來提取不同屬性的特征。相反，每個屬性分別訓練一個網絡。它沒有充分利用CNNs的美學特征，在提取CNNs特征時會進行簡單的知識轉移。

SCA-Model：該模型基于SCA-CNN[12]模型，ResNet-152為不同的屬性提取特征。LSTM在提取特征后進行空間和通道注意增強。此基線與文中基線的區(qū)別在于：(1)SCA模型不使用多任務網絡來提取不同屬性的特征。每個屬性分別訓練一個網絡；(2)SCA模型沒有充分利用美學特征。在提取CNNs的特征時，會發(fā)生一個簡單的知識遷移。

3.2 實驗細節(jié)

文中實驗基于該框架，LSTM單元數(shù)為1 000個，發(fā)送到LSTM單元的特征包括2 048維全局特征和512維屬性特征。單詞向量維數(shù)設置為50。基礎學習率為0.01。注意模塊的尺寸為512。在訓練的過程中采用dropout，以防止過度擬合。采用隨機梯度下降優(yōu)化策略對網絡進行優(yōu)化。

3.3 結果展示

模型的測試結果如圖2所示。可以發(fā)現(xiàn)，結果不僅具有豐富的句子結構，而且對特征的把握也非常準確。評論和屬性的相關性很高。在得分方面，平均屬性得分非常接近地面真相得分。通過評分和點評，形象評價生動。

圖2 結果展示

3.4 比較分析

3.4.1 與基準網絡比較

比較文中模型和基準網絡，性能的評估標準包括RLEU-1、2、3、4、METEOR、ROUGE和CIDEr。表1和表2所示的比較結果表明，文中模型在所有標準中都優(yōu)于基線模型。

表1 文中模型和基準網絡關于BELU準則的比較結果

續(xù)表1

表2 文中模型和基準網絡關于其他準則的比較結果

3.4.2 與其他方法比較

使用SPICE[14]來比較方法[1]和文中模型之間的性能。SPICE是自動評估生成的圖像標題的標準。它通過將句子解析成一個圖來解決結果和生成的標題之間的相似性。計算公式如下：

(9)

如表3所示，該模型在各種屬性上都優(yōu)于文獻[9]提出的方法。方法[1]采用屬性融合訓練方法，將構圖、色彩和光照、主題三個屬性結合起來。但是，通過對比可以發(fā)現(xiàn)，文中在這三個屬性中生成的注釋比前面的注釋具有更好的注釋。

表3 結果在測試集上通過SPICE準則的比較

3.5 結論

提出了一個新的問題：廣告布局圖片的美學質量評價，建立了一個新的數(shù)據(jù)集ALID，提出了一種新的網絡AMAN，該網絡可以生成美學標題和美學屬性數(shù)值評分。

4 結束語

圖像美學質量評價是比較熱門的研究問題，該文研究了廣告布局圖片的美學質量屬性評價。為了研究這個問題，邀請了5名專業(yè)的廣告設計師以及10名廣告從業(yè)人員對廣告布局圖片進行美學屬性評價，從而構造了包含各美學屬性的數(shù)值評分和語言評價的新的數(shù)據(jù)集ALID，提出了美學評價模型AMAN。該模型包含了多屬性特征網絡(MAFN)、注意網絡和語言生成網絡(LGN)。通過實驗分析，該模型在各個評價標準下都表現(xiàn)得比較優(yōu)異。當然，該方法仍有需要完善的地方，例如可以考慮利用強化學習來生成語言評價。