劉卓錕,劉華平,黃文美,王博文,孫富春
(1. 河北工業大學 省部共建電工裝備可靠性與智能化國家重點實驗室,天津 300130; 2. 清華大學 智能技術與系統國家重點實驗室,北京 100084)
面對多媒體信息數據量的激增和模態復雜多樣化的挑戰,跨模態檢索因其可以處理不同模態的數據成為國內外學者研究的重要課題。跨模態檢索應用得比較成熟的領域主要為計算機視覺、模式識別、文本圖像檢索等[1-4],其研究的重點依然放在圖像和文本兩種模態之間。但是圖像反映的顏色、紋理等信息和文本對物體的描述有時不能帶給我們足夠的信息量,比如在網購過程中,消費者僅通過瀏覽購買商品的文字和圖片信息,有時不能在大腦完整地構建商品的特征信息,因而會購買到與需求不符的商品;在深海和太空探索領域,由于視頻和圖像受環境因素影響較大,僅憑攝像機反饋回來的視頻和圖像不足以讓人們確定未知物體的材質信息;在日常生活中,當我們購買家具或西瓜時,僅通過視覺信息并不能準確判斷家具所用木材質量的好壞或西瓜是否熟透,常常通過敲擊其表面產生的聲音來輔助判定。
引入聲音模態在某些方面可以解決文本和圖像信息量不足的問題。目前關于聲音的檢索技術大多涉及的是與語音和音樂相關的檢索技術,其中聲音特征采用梅爾頻率倒譜系數(Melfrequency cepstral coefficients,MFCC)。梅爾頻率倒譜系數模仿人耳的感知特性[5],該方法具有很好的識別性和可靠性,是應用最廣泛的聲音特征之一。另一方面,圖像特征采取卷積神經網絡(convolutional neural network,CNN)提取。卷積神經網絡的出現使得圖像識別領域發展迅速,國外已有研究將卷積神經網絡應用于跨模態檢索的圖像特征提取[6]。
不同于相同模態之間的檢索,在跨模態檢索中,檢索結果和查詢的模態是不同的。如何在不同模態之間建立相關性成為跨模態檢索的關鍵。目前,應用在跨模態檢索中的方法有典型相關分析法[7-9]、偏最小二乘法[10]、耦合字典學習法[11]等。對比其他方法,典型相關分析(canonical correlation analysis,CCA )因其簡單高效的特點在跨模態檢索領域應用十分廣泛,文獻[7]提出多標簽典型相關分析,可以處理多標簽信息量大的數據集的情況。文獻[8]提出多視圖典型相關分析方法,利用不同視圖的互補和相關信息可以處理多視圖數據。文獻[9]提出核典型相關分析,解決了非線性情況下不同模態間相關性的問題。
然而,傳統的典型相關分析在應用時要求兩組變量間符合一一配對關系。當兩組變量間出現多個對應關系或配對形式為組配對時,上述方法將不再適用。針對上述情況,本文引入聚類典型相關分析方法。首先使用梅爾頻率倒譜系數聲音特征和卷積神經網絡提取的圖像特征,然后利用聚類典型相關分析將兩種特征映射到子空間并用歐氏距離進行檢索,最后在慕尼黑工業大學觸覺紋理數據集上進行驗證,實驗結果表明所述方法適用于材質檢索,具體流程如圖1所示。
本文的聲音特征使用梅爾頻率倒譜系數特征,圖像特征使用卷積神經網絡提取得到。
梅爾頻率倒譜系數是語音處理中最常用的特征之一。文獻[12]對敲擊物體產生的聲音提取梅爾頻率倒譜系數特征,并應用于聲音的分類。本文求得梅爾頻率倒譜系數的一階和二階差分特征系數,結合標準梅爾頻率倒譜系數[13],最終得到39維梅爾頻率倒譜系數特征。圖2(a) 、(b)所示為訓練集中敲擊竹木和紅色羊毛氈的聲音時域信號,圖2(c)、 (d)所示為經過上述過程得到的聲音特征。

圖 2 竹木和紅色羊毛氈聲音信號和聲音特征Fig. 2 Sound signals and features of bamboo and red fleece

典型相關分析作為一種靈活有效、可擴展能力強的數據分析方法,在跨模態檢索領域占據著重要地位。典型相關分析不僅可以最大化兩組變量在投影空間的相關性,還能對復雜特征進行降維處理。本文使用這種方法對聲音特征和圖像特征進行相關性分析處理。
使用典型相關分析對聲音特征矩陣X=[x1x2· ··xn] 和 圖 像 特 征 矩 陣Y=[y1y2···yn] 進 行 處 理。將X和Y表示為各自特征的線性組合,U=ωxTX和 V = ωyTY,通過研究U和V的關系來代替X和Y的關系,U和V的相關系數 ρ 表達式為

式 中: ωx和 ωy為 兩 組 變量 對應 的 投影 向量; ΣXX和ΣYY分 別表示特征集X和Y的協方差矩陣; ΣXY表示X和Y的互協方差矩陣:

近年來,卷積神經網絡已經被廣泛地應用于圖像的識別檢測領域。本文選用的網絡為預先訓練好的AlexNet網絡[6],包含5個卷積層和3個完全連接層。將圖片分辨率調整為256×256輸入到文獻[6]所述模型之中,最終得到4 096維圖像特征。 圖3(a)、 (b)所示為訓練集中敲擊竹木和紅色羊毛氈的圖片,圖3(c)、 (d)所示為經過上述過程得到的圖像特征。通過構造拉格朗日等式,在約束條件下,找到合適的投影向量 ωx和 ωy, 使U和V的相關性達到最大化:


式中:L為構造的拉格朗日函數;λ和 θ 為引入的系數變量。
將 求 解 轉 化 為 常 規 的 特 征 值 問 題, ωx和 ωy可以通過其對應最大特征值的特征向量找到:

當樣本變量不再是一一對應關系時,雅虎和微軟研究院的Rasiwasia等[14]改進典型相關分析,提出均值典型相關分析 (mean canonical correlation analysis,MCCA )和聚類典型相關分析(cluster canonical correlation analysis,CCCA ),相應的子空間對應關系如圖4所示,不同的形狀代表不同的種類,相同形狀代表同一種類中的不同物體。

圖 4 3種方法的子空間對應關系Fig. 4 The subspace correspondences of the three methods
對于本文使用的聲音數據集X=[X1X2···XC]和圖像數據集Y=[Y1Y2···YC],其中C表示數據集的總類別數, Xc和 Yc是 屬于類別c對應的數據X、Y的子集。

式中: |Xc|和 |Yc|分 別為相應第c類數據個數。
3.2.1 均值典型相關分析
均值典型相關分析較為簡單,首先求得每個子集的平均值,然后求得投影向量來建立子集均值之間的相關關系,最后尋找相關系數最大時的投影向量,即
3.2.2 聚類典型相關分析
聚類典型相關分析不再建立子集間均值的關系,而是建立子集中每一個數據點和對應子集所有數據點的關系,此時相關系數表達式為



圖 5 數據集中包含的所有材料Fig. 5 Materials included in the data set

式中:T為建立對應關系的總對數,
本實驗所用的數據集為慕尼黑工業大學建立的觸覺紋理數據集[15]。數據集中包含108種不同的物體,按照材質和表面特征分為固體網狀物、石頭、玻璃陶瓷、木材、橡膠、纖維、泡沫、塑料紙片、紡織面料等九大類,具體每類物體的圖像如圖5所示,圖5中數字表示該類材質第一個物體的起始位置。訓練集包括聲音集和圖片集,聲音集中每個聲音樣本由一個人敲擊待測物體表面1次所得,其長度為0.2 s。將108種待測物體每種重復敲擊10次,共得到1 080個聲音樣本。圖片集每張圖片分辨率為320×480,在不打開閃光燈情況下,同樣由一個人重復拍攝待測物體10次所得,共得到1 080張圖片樣本。測試集數據數量和樣本大小與訓練集相同,不同之處在于采集數據的過程有所差別,測試集中聲音和圖片樣本不是由同一個人重復10次完成,而是由10個不同的人每人采集1次所得。整個數據集的特點是采集數據的過程均為人工完成,沒有施加約束條件,例如敲擊物體表面時,沒有限制施加力的大小。
根據第2章得到的39維聲音特征和4 096維圖像特征,應用于第3節所述典型相關分析方法,找到訓練集中聲音特征和圖像特征典型相關分析子空間,然后將測試集中的聲音特征和圖像特征映射到典型相關分析的子空間,即可使用子空間的聲音特征去檢索圖像特征,通過計算歐氏距離度量樣本特征的相似性。
實驗最終在測試集上執行從聲音到圖像的跨模態信息檢索。常用的信息檢索的評價指標有查準率P、查全率R和平均準確率 (mean average precision,MAP)等。PR曲線比較直觀地顯示出檢索效果的好壞,MAP則考慮到檢索結果的排名情況。PR曲線與坐標軸圍成的面積越大,MAP值越高,則檢索效果越好。本文使用MAP和PR曲線對RCCA (同種物體聲音圖像隨機匹配)、MCCA和CCCA 3種方法的實驗結果進行評價。圖6所示為3種不同方法的MAP值的大小隨子空間維度的變化,從圖6可以得到,子空間維度為5時,3種方法效果最好,且CCCA的MAP值明顯優于其他2種方法。

圖 6 不同方法的MAP值隨子空間維度的變化Fig. 6 Var iation of the MAP of different methods with subspace dimensions
圖7所示為子空間維度為5時,3種方法的PR曲線,從中可以看出,CCCA的PR曲線與坐標軸圍成的面積最大,檢索效果最好。由于所使用的數據集中的數據不符合傳統意義上的一一配對關系,RCCA 和MCCA的檢索效果不如CCCA。

圖 8 3種材料的低維映射圖Fig. 8 Low-dimensional mapping of three materials

圖 7 PR曲線Fig. 7 PR curve
圖8所示為數據集中纖維、泡沫和塑料3種材料圖像和聲音數據的低維映射,其中藍色代表纖維,黃色代表泡沫,紅色代表塑料。從圖8中可以看出,CCCA對這3類材料的區分度要強于RCCA的效果。
表1為3種方法下不同材質類別的MAP大小,圖9為對應的柱形圖。整體結果顯示,本文引入的CCCA在硬質材質(固體網狀物、石頭、玻璃陶瓷等)的檢索效果比軟質材料(橡膠、纖維、泡沫等)好,這主要由于本文所使用的聲音數據是由敲擊物體表面所得,而實驗過程中待測物體放置在實驗臺上,采集數據時容易受到實驗臺影響。特別是,CCCA在石頭這類材料測試中的表現尤為出色, MAP值達到0.32,比RCCA和MCCA高50%。

表 1 不同材質類別的MAPTable 1 MAP of different categories of material
圖10(a)所示為測試集一個竹木圖片,圖10(b)為敲擊這種竹木的聲音樣本,使用CCCA進行檢索,檢索得到圖10(c)所示的10張圖片,從左到右依次為落葉松木、紡織網、石瓦片、鋁板、櫻桃樹木、壓縮木板、落葉松木、山毛櫸木、壓縮木材、銀橡木。從實驗結果可以看出,與測試集竹木樣本最相似的10個結果有7個和測試樣本屬于同一類別,檢索正確率達到70%,可見CCCA在木材類材質識別效果較好。

圖 9 不同材質類別的MAPFig. 9 MAP of different categories of material

圖 10 使用竹木聲音樣本的檢索結果Fig. 10 Retrieval result of bamboo sound sample
本文跨越不同模態之間的限制,結合聲音圖像特征與典型相關分析方法,將跨模態檢索方法應用于材質檢索領域,在慕尼黑工業大學觸覺紋理數據集上取得較好效果。雖然通過實驗驗證該方法目前的效果存在一定的局限性,但隨著不同模態信息的不斷加入和特征提取的方法不斷改進,未來該方法的應用前景必定更加廣闊。