基于多特征融合的諧音廣告語生成模型

2018-11-16 07:58:02徐琳宏林鴻飛祁瑞華

中文信息學報 2018年10期

徐琳宏，林鴻飛，祁瑞華，楊亮

(1. 大連外國語大學軟件學院，遼寧大連 116044； 2. 大連理工大學信息檢索實驗室，遼寧大連 116024)

0 引言

隨著商品經濟的發展，商品的種類和品牌數量不斷增加，廣告成為商家競爭和銷售的重要手段。廣告傳播的方式不僅包括傳統的電視和報紙，網絡作為一種新的形式，占有的比重也越來越大，尤其是手機、平板電腦和電視等電子媒介的出現，為廣告的傳播提供了更快、更廣的傳播途徑，逐漸受到更多商家的青睞。廣告的定義為： “通過媒體向公眾介紹商品、勞務和企業信息的一種宣傳方式。一般指商業廣告。從廣義來說，凡是向公眾傳播社會人事動態、文化娛樂、宣傳觀念的都屬于廣告范疇。[1]”廣告的形式多樣，有語音、圖片以及視頻形式。無論哪種形式，廣告語言都是其中不可或缺的部分。“廣告語言是指廣告中的語言，包括各種廣告中所有的語言文字信息，即廣告中的語音、詞語、句子、文字、標點符號和文字圖形。[2]”

廣告語言和廣告語是從屬關系，“廣告語言包括廣告語，廣告語是廣告語言中的純語言形式，是廣告語言中最能體現企業品牌價值的部分。[3]”一則成功的廣告語不僅要語言簡短、朗朗上口，而且要有美感，能凝練商品或品牌的核心價值，是一種高級的語言創作過程。廣告語的創作過程中需要更多的智慧、靈感和豐富的知識，也是一個艱苦的過程。

古詩詞是傳統文化中廣泛流傳的文學形式，朗朗上口、對仗工整，有較強的傳播優勢。巧妙地用古詩詞改編廣告語，可以增強廣告作品的文化品位，增強廣告的感染力。古詩詞一般文字精煉、意境深遠，符合廣告語簡短而內涵豐富的特點。借助詩詞的廣告語能夠獲得人們的廣泛認知，有較高的知名度。通過計算機自動生成古詩詞型的廣告語有兩種生成方式：一種是為商品生成新的符合韻律的詩詞廣告語；另一種是在原詩的基礎上經過嵌入和替換的方法生成廣告語。兩種方式各有特色，生成新詩詞的方法可以更好地貼近商品特征，但新詩詞在傳播能力方面不如嵌入式的詩詞廣告語，因為后者是大家耳熟能詳的詩句，能迅速引起人們興趣，便于記憶和再次傳播，本文采用后一種形式。

在古代詩詞的基礎上，我們通過諧音替換和多特征融合的方式生成廣告語，并從語音、形狀、語義和情境多方面評估廣告語，為該類語言的創作提供更多更好的資源。接下來的內容安排如下：第1節介紹了國內外廣告語生成和詩詞生成的相關工作；第2節提出諧音廣告語的生成模型；第3節解釋生成廣告語的評估方法；第4節報告了實驗的設計和結果；第5節給出了研究的結論和未來改進的方向。

1 相關工作

本文研究目標是以古詩詞為原型，自動生成諧音廣告語，所以下面分別從諧音廣告語生成和古詩詞生成兩個方面介紹相關的研究工作。

諧音廣告語中包含諧音詞匯，而大部分包含諧音詞匯的語句都具有雙關的含義。在諧音雙關語和廣告語的生成方面，國外很早就有相關的研究工作。早在1982年，Michel等人就研究過雙關廣告語中的模糊性[4]。2002年，Pricken也提出將熟悉的表達方式做替換或者變換，這是產生廣告語的重要手段[5]。2003年，Lundmark等人以概念混合理論為基礎，研究雙關廣告語中隱喻與幽默的關系[6]。2008年，Valitutti等人生成具有情感的廣告標題，生成廣告語時根據句中詞匯來合成情感，而情感是在大規模語料庫上通過無監督的方法獲得，系統選擇一些固定情感的詞匯，如有強烈諷刺效果的詞匯等，生成新的廣告語[7]。2011年，Valitutti等又提出一種計算幽默程度的方法，評估生成的諧音雙關語。首先利用音素距離、音節距離、單詞距離和熟悉用語等多個特征生成諧音雙關語，最后采用人工評估的方法檢驗生成系統的效果[8]。2012年，Pawel Dybala等人生成日文的雙關語，通過高頻詞匯統計的方式過濾候選詞匯，降低雙關語生成系統的時間代價。Yike Zhang等人分別在2011和2012年利用敘述生成系統中的概念字典和廣告修辭技術提高廣告生成系統的能力[9-10]。2013年，Ping Xiao等人為圖片廣告語生成恰當的隱喻概念。他首先尋找與商品價值相同的高想象力的概念，然后從情感、突出特點、次要屬性和張量相似度四個方面評估候選答案，最后采用三個真實的廣告案例，驗證生成方案的有效性[11]。Valitutti等人也在2013年通過對普通文本的替換產生諧音幽默的句子，替換過程中主要考慮單詞的聲音相似性、拼寫和可替換性三個特征，使幽默生成變為詞語選擇問題，最后通過人工打分的方式評估諧音文本的幽默性[12]。

古詩詞是中華傳統文化的璀璨明珠，關于古代詩詞分析及自動生成方面有許多研究工作，古詩詞的生成除了考慮對仗和韻律，更重要是的考慮生成詩詞的情境和意境。

徐有富將詩的意境分為時代特色、地域特色和個人特色三部分[13]。陳少松指出唐詩也分古體詩和近體詩，有的遵守平仄要求，有的不遵守，并詳細討論了詩與音節和調之間的關系[14]。徐志嘯用“套語”理論研究《詩經》，認為相同韻律的詩表達同樣的思想[15]。莫礪鋒在《怎樣讀杜甫詩》一文中記述杜甫生處動蕩時代，詩的風格沉郁[16]。以上是語言學方面對詩詞韻律和意境的部分研究。下面介紹自然語言處理中關于詩詞生成方面的研究工作。

2010年，周昌樂等人根據宋詞的特點設計平仄編碼，構建了一種基于遺傳算法的宋詞自動生成模型。并針對主題相關度、風格情感一致性和總體質量三個方面人工打分，評測生成詩句的效果[17]。2010年，何晶等人根據用戶輸入的關鍵詞，生成詩詞首句，然后將格律詩的上下句映射為統計翻譯模型中的源語言與目標語言。其中設置的詩詞評價指標有較好的借鑒價值，全詩評價包括語言、韻律、是否符合題意、結構和意境五個方面，每部分權重不同，采用人工打分的方式評估[18]。2015年，蔣銳瀅利用主題模型進行詩詞的意境擴展，使用BLEU值自動評測詩詞質量[19]。

以上是國外雙關廣告語生成和國內詩詞生成方面的研究進展，國內關于廣告語生成方面的研究較少，基于固定文本來生成廣告語的研究更是處于起步階段。本文在大家耳熟能詳的常用詩詞基礎上，生成諧音廣告語，主要的貢獻如下： ①根據一定的韻律模板生成初級廣告語群，并提取廣告語的九大特征； ②對生成的初級廣告語群，采用基于主成分分析和自定義權重的雙序評估方法，得到每個品牌的高分廣告語群； ③考慮語音、形狀、語義和情境四個維度，采用人工評分的方式，評估生成廣告語的質量。

2 廣告語的生成模型

廣告語生成模型是在人們熟知的古詩詞文集中挑選詩句，利用一定語音模板生成候選廣告語群，然后再分別從語音、形狀、語義和情境四個方面計算生成廣告語的特征向量，從而得到某品牌的廣告語群的特征矩陣。最后在評估階段根據生成的特征矩陣，自動獲取最佳廣告語。某品牌的廣告語生成系統的整體流程如圖1所示。

圖1 廣告語的生成模型

該模型的輸入是某品牌的信息，首先利用語音模板在古詩詞文集中查找相應的候選廣告語。然后對該品牌的候選廣告語群中的每條廣告語計算形狀、語義、情境和語音四個維度的九個特征，生成該品牌廣告語群的特征矩陣，作為后續評估算法的輸入，從而篩選出質量較好的多條廣告語。特征矩陣是選擇廣告語的重要數據，下面本文將詳細介紹四個維度的九個特征。

2.1 語音模板

語音模板是在古詩詞文集中檢索每條詩句，查找與品牌信息相同或者相似發音的詞匯，并替換成相應的品牌信息，生成候選廣告語群。在計算兩個詞匯發音相似程度時，本文采用浮動積分制。

其中五支韻，i 與聲母 zh、ch、sh、z、c、s 搭配，而七齊韻，i與聲母 b、p、m、f、d、t、n、l、j、q、x、y搭配。

模板一是向上加分制，如果兩個詞匯的韻母完全相同分值設定為3，詞匯中如果有一個字的發音完全相同，即聲母、韻母和音調一致，則分值加1。例如，“江鈴”和“江陵”，在韻母相同的基礎上，兩個字聲母都相同，則語音距離得分為5。模板二是向下減分制，如果兩個詞匯的韻母不相同，則檢查兩個詞匯的發音是否符合十三轍十八韻，符合則語音距離得分為1。古代詩詞講究合轍押韻，押韻的詩句讀起來朗朗上口，也便于記憶。本文使用《詩韻新編》[20]中選取的十八韻制作模板，其中十八韻分類情況見表1。

表1 十八韻

2.2 形狀特征

形狀特征是指廣告的外在表現形式，包括詞性、長度和字形三部分。

(1) 詞性特征：該特征計算品牌詞匯Bi與詩句中被替換掉的原詞匯Pi的詞性是否相同。如果詞性相同得分為1，否則得分為0。本特征在一定程度上體現了生成廣告語的語法正確性。

(2) 長度特征：太短的廣告語信息含量低，太長的廣告語又容易使人失去閱讀興趣。單純使用長度數值不能體現上述對廣告語的要求，所以，本文將廣告語的字數通過高斯變換，得到長度特征，增加中間長度的廣告語特征值，降低長度過長或過短的廣告語特征值，具體公式如式(1)所示。

(1)

其中x表示廣告語的字數，f(x)為變換后的長度特征值。期望為μ，標準差為σ2，由公式(1)可見，選擇一個合理的期望值μ，對結果的影響較大。為了得到合理的期望值，需要統計大規模的廣告語，計算平均長度。2013年，劉佳等人創建了廣告語言文本語料庫[21]。該語料庫包含2 676條廣告語，共計28 653個漢字，廣告語的平均長度為10.7，所以本文選擇μ為10.7，σ=1的正態分布。

(3) 字形特征：有時包含相同漢字的詞匯在詞義上也會比較相近，所以字形特征計算品牌詞匯Bi與詩句中原詞匯Pi有多少個字完全相同。特征初值為0，如果找到字形相同的字，則累加1。

2.3 語義特征

語義特征主要是體現品牌信息嵌入到詩句中，語義上是否合理、通暢。包括內聚程度、替換距離和熟悉程度。假設廣告種類的詞匯為Ti，詩句中被替換掉的詞匯為Pi。

(1) 內聚程度：計算Ti與廣告語中其他詞匯的Bigram值，相加后除以詞匯總數，如式(2)所示。

,Vj)/lengh(Ai)

(2)

其中Coh(Ai)表示廣告語Ai的內聚程度，Bigram(Ti,Vj)計算品種詞匯Ti與詩句中第j個詞匯的Bigram值。所以內聚程度是指Ti與廣告語中其他詞匯Bigram加和除以廣告語的詞匯總數。值越大說明詩詞內容與該種類的商品越相關。本文集成KenLM Toolkit[22]工具包，訓練Ngram語言模型。

(2) 替換距離：計算品牌詞匯Bi與詩詞中被替換掉的詞匯Pi之間的Bigram值，如式(3)所示。

Dis(Ai)=Bigram(Bi,Pi)

(3)

Dis(Ai)值越大說明廣告信息嵌入的越合理，值太小，則說明該品牌信息與原詩語義差別較大。

(3) 熟悉程度：每首詩被人們熟知的程度不一樣，有些詩被廣為傳頌，而有些詩只有詩詞鑒賞專家才了解。朗朗上口，被更多受眾熟知的詩生成的廣告語容易記憶和傳播。

為了保證廣告語的生成效果，本文選擇的詩詞是人們耳熟能詳的唐詩宋詞，將每首詩的熟悉程度定為四個等級。以人教版和蘇教版的語文教材為劃分標準，小學語文教材中出現的詩熟悉程度的特征值為5，中學教材中的值為4，高中教材中的值為3，不在語文教材中的詩詞值為1。可見，值越大熟悉程度越高，生成的廣告語傳播效果越好。

2.4 情境特征

唐朝的王昌齡在《詩格》中提到“詩有三境：一曰物境；二曰情境；三曰意境”，其中情境的定義為“情境二。娛樂愁怨，皆張于意而處于身，然后馳思，深得其情。”簡單來說，詩的情境就是指詩中表達的情感。

廣告語主要是通過贊揚等手段，以積極的情感表達商品的優點。所以通常來說，包含正向情感的古詩比較適合作為廣告語，而包含哀怨、批評等負向情感的古詩作為廣告語接受度會比較低。為了更好地刻畫詩句的情感特征，本文將情境特征劃分為詩句情感和整詩情感兩部分，因為一首詩中多有轉折和遞進，每一個分句的情感不一定和整首詩的情感基調一致，所以我們采用詩句情感和整詩情感，分別從微觀和宏觀兩個方面來描述詩句的情感。

(1) 詩句情感：該特征主要描述詩詞生成的廣告語的情感傾向性，分為-1、0和1三個等級。分別表示貶義、中性和褒義三種情感。計算如式(4)所示。

(4)

其中Orien(Ai)表示廣告語Ai的情感傾向性，Orien(Cj)表示廣告語中第j個漢字的情感傾向性。因為古詩中的用詞和現代漢語的用詞有較大差別，一方面分詞的準確率比較低，另一方面即使切分正確，古詩中的用語在現代情感詞典中也很多沒有收錄，因而，本文選擇在漢字級別上計算古詩的情感。一條廣告語的情感傾向性是通過其中字的情感傾向性累加得到的。漢字Cj的情感Orien(Cj)是通過大連理工大學信息檢索實驗室的情感詞匯本體[23]，根據漢字出現在正向和負向情感詞匯中的頻率確定漢字的情感。即，

其中MaxClass(Cj)表明字Cj在情感詞典出現次數最多的類別，分為褒義、貶義和中性三種類別。

(2) 整詩情感：古詩相對于現代文來說，比較晦澀難懂，還有的詩文比較長，不容易找到代表整篇古詩情感基調的語句。所以，本文不是通過分析古詩文本身獲得整篇詩文的情感，而是利用百度百科，爬取與詩篇對應的現代文解說。例如《靜夜思》在百度百科中的解說為“此詩描寫了秋日夜晚，詩人于屋內抬頭望月的所感。詩中運用比喻、襯托等手法，表達客居思鄉之情，語言清新樸素而韻味含蓄無窮，歷來廣為傳誦” 。由此可見，現代解說比白話文形式的古詩文更易理解。

詩詞解說可以看作是一個小的語篇，獲取篇章情感傾向性的方法是：首先，使用Word2Vec在1G的維基百科中文語料上訓練詞向量。然后將詩文解說中每個詞匯的詞向量拼接得到一篇解說文的二維矩陣Mij，i為解說文的最大詞匯長度，j為一個詞向量的長度。最后將矩陣Mij作為卷積神經網絡(CNN)的輸入，通過深度學習的方法計算語篇的情感傾向性。詩文解說作為測試集，訓練集和開發集選取 COAE2014 任務 4 提供的5 000條微博語句，其中4 000條訓練集，1 000條作為開發集。卷積神經網絡在開發集上的準確率為86.25%。

3 多級融合的雙序評估算法

第2節中的廣告語生成模型，為每條廣告語計算出一個特征向量。因此，輸入一個品牌的商品，生成候選的廣告語群，即得到包含多條廣告語的特征矩陣。有時一個品牌商品廣告語的數量可以達到幾十個或者幾百個，如何從中挑選最優的廣告語，需要一個合理的評估算法。

評估算法的輸入是廣告語群的特征矩陣，因為此階段生成的廣告語并沒有評價質量好壞的標簽，需要采用無監督的方法，將多特征融合，得到廣告語的排序。本文采用的是多級融合的雙序評估算法，算法的整體流程如圖2所示。

圖2 多級融合的雙序評估算法

廣告語群的特征矩陣分別經過主成分分析(Principal Component Analysis，PCA)和自定義權重(Custom Weight，CW)兩種評估算法計算得分并排序，最后融合兩種評估算法的分值，得到最終的廣告語分值。多級融合中第一級是指兩種評估算法中分別融合特征矩陣的多個特征，第二級融合是指組合兩個評估算法的得分，獲取廣告語的最終分值。下面分別介紹兩種評估方法。

3.1 基于PCA的評估算法

基于主成分分析的評估算法是在一定有效成分比例的控制下，通過矩陣變換，選擇多特征值中比較有代表性的特征進行積累，計算得分。

3.1.1 PCA的基本原理

主成分分析(Principal Component Analysis，PCA)，是一種常用的無監督降維方法。通過正交變換將一組相關特征轉換為一組最優不相關的特征。其主要原理如下：

假設樣本個數為m，X={x1，x2…，xm}表示樣本數據。第一步，首先對樣本數據X進行歸一化，計算樣本的協方差矩陣S=XXT。第二步，求得S的m個特征根λ={λ1，λ2…，λm}，使|S-λI|=0，其中I為單位矩陣。第三步，求特征根對應的單位特征矩陣A，則主成分F=AX。

(5)

一般有效成分比例取值在80%以上，使降維后的特征能更好地體現原始樣本數據的關系。

3.1.2 基于PCA的廣告語評估

每條廣告語都對應一個向量，每個分量分別對應第2節中給出的九個特征。這些特征之間有一定的相關性，例如詩句情感和整詩情感可能相關，整個詩文的情感一定是通過部分詩句來表現的。還有替換距離和內聚程度也都有一定的相關性。如果直接將各特征的分值歸一化后相加，會把某些相關性較大的特征多次疊加。為了去除特征之間的冗余性，本文首先利用主成分分析法，消除部分特征的相關性，保留獨立不相關的p個主要特征，然后將p個獨立的特征值相加，作為廣告語的最終得分。

(6)

3.2 權重評估算法

自定義權重的評估算法首先為各特征分配自定義的權重，然后將權重向量與特征向量相乘，并加和作為廣告語分值。具體步驟如下：

第一步，將九個特征分為形狀、語義、語音和情境四個維度，每個維度的權重初始化為0.25，包含多個特征的維度，每個特征平分本維度的權重，得到一個初始化的權重向量W={w1,w2,…，wn}。其中，n值為9。第二步，通過式(7)計算廣告語Ai的得分：

*Xij

(7)

3.3 兩種評估算法的測試及融合

本文選擇網上流傳較廣的四個標準廣告語作為測試集，每個都是由詩詞改編。用這些廣告語測試兩種評估算法的有效性。利用第2節中給出的模型為四個品牌生成廣告語群。分別通過PCA和自定義權重兩種方法，計算標準廣告語的得分，分值的范圍是0～9。兩種評估方法在標準廣告語上的平均得分均高于5.3分，且標準廣告語在生成的廣告語群中排名基本都在前三名。說明兩種評估方法都能夠有效地從生成的廣告語中挑選出大眾認可度較高的廣告語。

雖然兩種評估方法都能夠識別接受度較高的廣告語，但兩者打分的結果也有一定差別。基于PCA的評估方法打分普遍比基于權重的方法分值低，且廣告語之間分值差距較小。而基于權重的評估方法廣告語群中分值差距較大。如果單純使用PCA的評估方法，不能有效區分廣告語的級別，僅使用基于權重的方法，可能會丟失某些質量較高的廣告語，召回率較低。單純使用PCA的方法又不能更好地體現廣告語的區分度。為了更全面和完善地評估生成的廣告語，本文融合了兩種評估算法，具體算法如下：

forAiin AdvermentList:

if score_pca(Ai)>=tand

score_weight(Ai)>=t:

score(Ai)=average(Ai)

else if score_pca(Ai)>=t:

score(Ai)=score_pca(Ai)

else if score_weight(Ai)>=t:

score(Ai)=score_weight(Ai)

else

score(Ai)=0

其中t為廣告語分值的閾值，本文設置為6。循環廣告語群中每條生成的廣告語，如果兩種評估方法的分值都大于等于t，則最終分值取兩者平均。如果兩種評估方法的分值都小于t，則舍棄該廣告語。從算法中可以看出，兩種評估方法，只要有一組分值大于t，則輸出廣告語，這在一定程度上增加了高分廣告語的召回率。如果兩個評估方法分值都大于t，則取平均值，也保證了廣告語之間的區分度。

4 實驗結果

第3節中通過融合兩種評估算法，得到高分廣告語群，這些評分較高的廣告語是否能夠獲得受眾的認可，還需要通過人工打分的方式評估。本節主要介紹使用的語料、實驗方案及人工評估標準和結果。

4.1 實驗數據集

實驗數據包括品牌信息和古詩詞文集。品牌信息本文選擇了茶葉、白酒、酒店和襯衫四個品種，共28個品牌的信息。每個品牌信息包括品種、品牌、諧音詞匯和描述四部分信息。其中，諧音詞匯是最終出現在廣告語中的詞匯。

考慮到生成的廣告語不但要朗朗上口，還要便于記憶和傳播，本文的古詩詞文集沒有采用全唐詩和全宋詞，而是選用人們比較熟悉的唐詩和宋詞591首，按句切分后作為候選的古詩詞文集，其中每句包括詩名、作者、詩句、熟悉程度和詩詞描述。熟悉程度是指人們對詩句的熟悉程度。小學、中學和高中課本中的詩句分別定位5、4、3等級，其余的熟悉等級定義為1。詩句描述是在百度百科抓取的詩文解釋，完整描述整個詩文的內容和意境。

4.2 實驗方案及結果4.2.1 實驗方案及評估標準

首先，根據輸入的品牌信息，利用第2節中的廣告語生成模型，生成候選廣告語群，并計算對應的特征矩陣。然后采用第3節中介紹的多級融合的雙序評估算法，以特征矩陣為輸入，得到候選廣告語的評分和排名，并從中分離出高分廣告語群。最后，制定合適的評估標準，通過人工評估的方式，驗證生成廣告語的質量。

考慮到目前機器對詩詞意境和語義關系的理解的不足，我們采用人工評估的方式綜合考察廣告語的效果。曹志耘在《廣告語言藝術》中認為廣告語要“簡明、醒目、生動”[2]。于根元在《廣告語言概論》中提到“廣告語言要短，要上口”，“廣告語言的任務是介紹商品和服務”[24]。根據上述廣告語的特性，本文從語感和主題貼合度兩個方面考察生成的廣告語，具體的評估標準如表2。

表2 廣告語評估標準

4.2.2 實驗結果及分析

我們請五名評測員按表2中的標準對高分廣告語群打分。經雙序評估算法過濾后的廣告語共55條，每條都由五個評測人員分別在語感和主題貼合度兩個方面打分，結果如表3所示。

其中機器得分是第3節雙序評估算法計算后的分值。P1到P5列分別給出五個評測人員在語感和主題貼合度兩個方面對55條廣告語的評分結果。

表3 人工評估結果

從結果可以看出人工評估結果略低于機器評分，兩者基本相近，說明雙序評估算法對高分廣告語群的評估與人們的感受基本接近。語感得分普遍比主題貼合度部分比例高，說明語音模板效果較好，能夠過濾出朗朗上口的廣告語。但廣告主題和詩詞意境的貼合還有待加強。

圖3分析了茶葉、白酒、酒店和襯衫四個品種廣告在人工評分和機器評分上的差異。白酒的機器評分與人工評分最相近，這是因為很多古詩的題材與酒有關，詩詞的意境與品種主題比較貼合。襯衫的人工評分最低，只有4.7分。很大一部分原因是由于襯衫屬于現代商品，古詩所處的時代沒有此類商品，很多襯衫和古詩的主題不相融。所以在生成廣告語中可考慮商品種類和文集之間的相融程度。例如白酒適合使用古詩生成廣告，而洗漱用品可能使用歌詞作為原始文集更好。

圖3 不同品種的評測結果

為了對比三種評估方法的效果，下面通過55個人工評估的廣告語檢驗PCA評估方法、自定義權重的評估方法以及融合評估方法的有效性。其中，一致性是計算自動評估方法與人工評分差值的平均，如表4所示。

表4 三種評估方法效果對比

實驗結果表明，PCA評估方法比權重評估方法的一致性更高，更接近人工評分的結果，但權重評估方法的F1值最高，能夠找到更多的高分廣告語。融合方法吸取兩種評估方法的優點，F1值更高，與人工評分最接近。

為了進一步細化各個維度特征對自動評分結果的影響，本文以效果較好的自定義權重方法為例，依次添加語義、情境、形狀和語音四個維度的特征，取機器評分與人工評分之差的絕對值衡量各個特征的作用，結果如表5所示。

表5 各維特征對自動評估算法的影響

可見，依次加入語義、情境、形狀和語音四大類特征，機器評分的結果逐漸接近人工評分的結果。其中加入語音特征，結果提高最為明顯，這是因為諧音廣告語評估中，語音上是否朗朗上口是評估大眾接受程度的一個重要特性。

因為人工的參與，不同人對詩詞的理解有一定的隨機性，打分機制存在依賴打分人個人偏好的問題。為了衡量評估人工打分質量，本文嘗試增加了機器評估生成廣告語的部分，使機器評估方法輔助人工評估，更加全面和多角度地評估生成的詩詞廣告語。

廣告語一般簡明、醒目，所以機器評估部分主要從語義透明度和語句簡潔性兩個方面考核。語義透明度是指整個句子的語義可以根據合成語句的多個詞匯含義來推知的程度。本文通過計算廣告語中所有字的使用頻率來衡量。語句簡潔性是指句子清晰、簡單，本文利用語句中漢字的筆劃數量來計算。最后將機器評估的排序結果與人工評估的排序結果對照，利用兩者的相關性判別不同評估人的打分質量。

表6中“前N個”代表人工評估的前N個廣告語在機器評估的前N個中出現的個數，即兩者的一致度。由于機器對詩詞意境和語義的把握還有欠缺，所以機器評估不能完全代替人工評估。但機器評估涵蓋了廣告語要“簡明、醒目”的特點，它與人工評估的相關性可以從一個側面反應人工評估的可靠性。由表6中數據可以看出人工評估與機器評估的相關系數均在1/3左右，每個人的相關系數基本相近，可見人工評估雖然有一定的主觀性，但標準基本相近，比較可靠。

表6 人工評估一致性檢測

表7給出了生成廣告語的部分樣例，從結果可以看出生成的部分廣告語質量可以接受，也有一些廣告語讀起來朗朗上口，并與品牌主題貼合度較大，有一定的傳播價值和藝術性。

表7 部分高分廣告語

5 結論及不足

本文在融合多種語音和語義特征的基礎上，生成諧音廣告語，利用雙序評估算法自動計算廣告語的分值，從而得到主題相關且便于傳播和記憶的廣告語。根據嚴格的人工評測結果，該模型生成的大部分廣告語是可以接受的，具有較好的實用性。

但我們的研究工作也存在一些問題，如部分三個字以上的品牌信息不能生成合適的廣告語。這一方面是因為被人們熟知的古詩詞數量有限，另一方面是生成模型缺少單字分別嵌入的能力。未來，我們將嘗試在古詩詞的基礎上增加歌詞等文本集，并進一步提高模型的生成能力。