□饒 軍 吳曉璐 華申峰
為了加強對廣播電視廣告的監管,國家廣電總局相繼頒布了61 號令、66 號令、71 號文和79 號文,對廣告內容和廣告播出做出了明確規定。近年來,隨著計算機技術的發展,通過對廣告制作樣本并利用樣本匹配技術監播已知廣告,從搜索精度和效率上都已取得較好的效果。但是對于廣播電視廣告監管部門工作人員來說,僅僅對已知廣告的監播并不能滿足實際工作中的所有需求,因為在廣播電視節目中,不斷會有新的廣告出現,針對未在樣本庫中的新廣告,樣本匹配技術顯然是不能勝任的。如果只是通過人工瀏覽標注新廣告,無疑是一件費時耗力的工作,并且由于人的記憶能力限制,人工的方式會帶來較大的誤報漏報的誤差,為此必須尋找一種可行的智能技術解決這一難題。
一、廣告商投放重復廣告意愿調查。由于廣告商投放廣告的目的是為了宣傳產品,讓盡可能多的人記住并有意愿購買其產品。廣告商在媒體中投放廣告宣傳所欲達到的目標,特別是為了達到用戶的廣告回憶率、廣告內容理解率等認知方面的目標,和一般學習過程的目標類似。從消費者對廣告內容的認知過程來說,廣告重復投放對于生產廠家有著積極的意義。在最顯見的層面上,由于無法保證受眾在廣告播放時集中注意力,廣告重復可以增加受眾注意到產品廣告的概率,這是重復廣告最基本的功能。其次,艾賓浩斯(Hermann Ebbinghaus)遺忘曲線的研究表明了重復對增強記憶的作用,重復的信息刺激是防止廣告遺忘的基本手段。因此,廣告商投放廣告必定不是只播出一次,而是在一定時間段內大量重復播出。
基于重復性對廣告認知加強效果,我們假設廣告商投放的廣告播放次數會多于一次,這是利用重復片段檢測來檢測新廣告的基礎。
二、廣播電視廣告重復性播放統計。為了驗證在一定時間段內廣播電視的廣告會重復投放的這一假設,我們對江西一套2015年4月14日、4月15日、4月16日三天的廣告播出數目以及其中的重復廣告數目做了詳細統計,如圖1 所示:
2015年4月14日共播放廣告652 條,其中只播放一次的廣告為112 條,占總體廣告播放條目數的17.2%。當天出現有重復的廣告為540 條,分別屬于135 個不同版本的廣告。
2015年4月15日共播放廣告660 條,其中只播放一次的廣告為118 條,占總體廣告播放條目數的17.9%。當天出現有重復的廣告為542 條,分別屬于146 個不同版本的廣告。
2015年4月16日共播放廣告643 條,其中只播放一次的廣告為110 條,占總體廣告播放條目數的17.1%。當天出現有重復的廣告為533 條,分別屬于131 個不同版本的廣告。
綜合這三天的廣告播出情況統計,只有43 條在這三天內出現過一次,也就是說以三天為統計單位,約有98%的廣告是可以通過重復性檢測被發現,這個數據充分證明了利用重復性發現新廣告技術的可行性。

圖1 2015年4月14日至16日江西一套廣告播放統計圖
特征提取的主要任務是將音頻波形信號轉換成統計特性更好的特征向量,便于進一步的匹配和檢索。和語音信號一樣,音頻信號也具有短時平穩特性,本文采用基于短時子帶能量的特征,描述了某一時刻的頻帶能量分布。建立音頻向量空間模型的流程圖如圖2 所示。
一、音頻信息從視頻文件中分離出來,并將原始音頻轉化成8kHz 采樣16bit 量化精度、單聲道PCM 格式。
二、分幀。分別對每一幀音頻提取歸一化能量特征,對其矢量量化,將每一幀的特征映射到{1,2,……,k},這樣可以用量化出的碼字代表一幀音頻信息。
三、每五秒將音頻分為一個音頻片段,每一片段即為重復性查找時的基本單元,統計每一音頻片段數據的音頻字頻率。
四、最后根據音頻TF-IDF 算法給直方圖的每一維賦予權重值,即可得到音頻向量空間模型的表示。
直接利用大量數據統計出的各音頻字的頻率倒數的對數值計算音頻IDF。

圖3 基于重復性檢測的新廣告發現系統圖

表1 利用音頻信息的重復性檢測結果
基于重復性檢測的新廣告自動發現系統目的是在待監測的數據中檢測出未在模板庫中收集的重復節目片段,因此為了減輕重復性檢測的計算量,可以首先利用音頻模板檢索系統,將已知廣告和片花模板出現的數據段從待處理的數據集中過濾掉;然后在過濾剩下的數據上經過重復性片段的檢測,得到一系列重復片段候選,在這些候選中包括新出現的廣告,某些重播的電視節目以及誤識片段;再經過利用音頻指紋技術對重復候選確認過濾去誤識片段、利用圖像幀的變化率、靜音率、音頻變化率等特征,過濾掉重播電視劇等非廣告片段,最后經過人工審核將新檢測出的廣告標注并入模板庫。系統框架如圖3 所示。通過以上步驟,可以去除重播的電視劇以及其他非廣告類節目。
為統計新廣告發現系統的性能,本文的測試數據集選擇了江西一套三天(2015年4月14日至16日)的數據,其中音頻數據采樣率為8KHz,采樣精度為16bit。
我們通過召回率和誤報率來衡量新廣告發現算法的性能,計算公式分別如下:

表1 是測試結果,其中誤報主要是由于重播的節目片花或節目預告造成。
使用上述方法所開發的廣告智能監管系統已經成功在江西省廣電監管中心進行實施應用,系統投入運行以來,運行穩定,大大減輕了值班人員的工作負擔,提高了工作效率,實現了廣告監測的智能化。