朱明航 柳 欣 于鎮寧 徐 行 鄭書凱
1(華僑大學計算機科學與技術學院 福建廈門 361021)
2(福建省大數據智能與安全重點實驗室(華僑大學)福建廈門 361021)
3(之江實驗室 杭州 311121)
4(電子科技大學計算機科學與工程學院 成都 611731)
(mhzhu@stu.hqu.edu.cn)
神經認知學研究表明人類在視聽信息感知的時候具有將人臉和語音進行關聯的能力.例如,當人們在跟朋友打電話時,雖然只能聽見對方的聲音,但是腦海中會下意識地構建出他們的樣貌特征,以及當看到好友的照片時,能瞬間回憶起對方熟悉的聲音.心理學研究將人類這種跨人臉-語音的交互能力稱為“麥格克效應”[1],其表明人在跟外界交談時,能夠在人臉信息和語音信息之間進行交互關聯.同時,大量神經科學研究表明,人類的大腦存在著多個模塊感知區域[2],這些區域之間通過腦神經連接來并行處理信息,其中視覺模塊跟聽覺模塊的神經連接通路更為緊密.基于此,人們可以較好地對人臉與語音進行跨模態感知,例如當人們在觀看有聲電視節目時,能以較高的準確率從當前說話人聲音中匹配出正確的人物身份.在跨模態生物特征感知方面,人臉信息跟語音信息都能有效地作為刻畫人物特定語義的特征載體,比如說身份、性別、年齡、種族和國籍等,這些反映特定語義的生物特征信息可以隱式地從人臉或語音信息中進行提取,從而基于人臉和語音的跨模態交互關聯研究具有一定的可行性.
上述現象表明,人臉信息與語音信息之間存在顯著的關聯特性.因此,有效的人臉-語音相關性挖掘和跨模態匹配研究能夠促進認知科學和人工智能技術創新實踐的發展,具有重要的現實意義.受此啟發,越來越多的研究者認識到探索人臉-語音關聯的研究已迫在眉睫.該研究有廣闊的應用前景,例如基于語音視頻的說話人身份標注、視頻人臉及語音信息時態同步和基于聲音的人臉面部特征還原等[3-5].從國內外研究進展分析,目前的跨人臉-語音模態的研究還依然處于起步階段[6],大量人臉-語音關聯語義的研究等待著人們去探索.
跨人臉-語音模態關聯性學習方法的研究作為一項新穎的課題,存在著許多具有挑戰性的任務.一些方法[7]雖然也對人臉-語音進行了關聯性學習,但在跨模態匹配任務的表現中只取得了比隨機概率略好的性能表現.根據現有的人臉-語音關聯學習方法,目前跨人臉-語音模態的研究依然面臨著3 個主要挑戰:1)樣本復雜性,人臉樣本和語音樣本分別通過不同的傳感器獲取,它們的特征屬性及數據類型完全不同,因此無法直接進行人臉-語音特征間的交互關聯,從而導致語義表征間存在著巨大的語義鴻溝.2)監督信息匱乏,基于有限的標簽信息去監督人臉-語音特征,挖掘出的跨模態特征表示過度依賴于人為監督,導致獲取的跨模態連接并不可靠,從而無法得到模態間緊密的語義關聯.同時基于有監督的標簽生成需要人工的手動注釋,其過程繁瑣且成本高昂.3)語義關聯不足,現有的大多數人臉-語音跨模態關聯方法只是利用損失函數進行簡單的特征關聯,其從本質上忽略了人臉-語音模態間潛在語義的關聯特性,且無法滿足實際應用的需求.
針對上述挑戰,設計一種可以利用潛在語義促進跨人臉-語音模態關聯性學習的方法尤為重要.值得注意的是,自監督學習旨在通過對原始數據特征中潛在語義的挖掘生成偽標簽進而監督整體特征學習,這種從數據本身出發學習特征表示的方法為跨模態關聯學習提供了借鑒意義.
基于自監督學習對潛在語義挖掘的思想,本文提出了一種基于雙向偽標簽自監督學習的跨人臉-語音匹配方法(cross face-voice matching method via bipseudo label based self-supervised learning,Bi-Pcm),用于跨模態下的人臉-語音關聯與匹配.具體來說,首先,設計了一個跨模態加權殘差網絡(cross-modal weighted residual network,CMWR)模塊,在解決人臉-語音特征異構性的同時,學習到模態間的共享嵌入特征.接著引入自監督學習模塊,通過人臉和語音特征間的潛在語義生成偽標簽,實現跨模態下的雙向監督,進而獲取潛在語義關聯.然后,本文對2 種模態下生成的偽標簽構建關聯損失,約束偽標簽生成,從而獲取基于潛在語義生成的強跨模態嵌入.最后,通過本文方法獲取的跨模態表示將在所有人臉-語音跨模態匹配任務上進行測評.本文的主要貢獻包括4 點:
1)提出了一種新穎的基于雙向偽標簽自監督學習的方法用于獲取人臉-語音間的跨模態關聯.據文獻[6-7]所知,本文提出的方法是利用偽標簽來促進跨人臉-語音模態下的關聯性學習.
2)設計了一種高效的偽標簽生成方法,旨在利用特征空間的關聯促進潛在語義對齊,增強相同人臉-語音特征相關性,并擴大不相關人臉-語音之間的特征差異,從而生成高質量偽標簽進行監督約束.
3)創新性地提出了一種基于自監督跨模態學習框架來獲取人臉-語音間的共享特征嵌入,并通過一種模態的偽標簽語義作為監督信號來監督另一種模態的特征學習,從而高效地進行跨模態語義關聯.
4)大量實驗結果表明,本文方法相比較于現有的跨人臉-語音匹配工作,可擴展性更強,并在多個跨人臉-語音模態匹配任務上都取得了全面的提升.
人類面部視覺及語音信息是人機交互過程中最為直接和靈活的方式,因此基于人臉和語音的跨模態感知吸引了研究學者的廣泛關注.從生物特征角度來看,來自相同身份的人臉和語音數據,對應著許多相似的語義特征,例如性別、種族還有年齡[8],因此人臉和語音具有表征相同身份的語義關聯信息.目前基于人臉-語音關聯特征的方法主要分為2 類:基于分類損失和基于空間距離度量.基于分類損失的代表方法是SVHF[9](seeing voices and hearing faces:cross-modal biometric matching),它利用卷積神經網絡(convolutional neural network,CNN)架構學習人臉-語音間的關聯表示,進而解決跨模態匹配任務.基于空間距離度量的代表方法是PINs[10](learnable pins: crossmodal embeddings for person identity),該方法通過獲取人臉圖片和語音片段構建正負例人臉-語音樣本對,然后構造個人身份節點,利用對比損失最小化正例樣本的空間距離來學習人臉-語音間的嵌入特征.上述2 種方法在一些具有挑戰性的實驗中,可以達到與人類相當的水平,但是卻擁有局限性,即它們所學習出來的特征只能運用于特定的跨模態匹配任務上,當任務更改時網絡也需要重新訓練.
隨著跨人臉-語音模態關聯研究的發展,設計能用于多個跨模態匹配任務的通用特征表示引起注意.在FV-CME[11](face-voice matching using cross-modal embeddings)中首先利用2 個分支網絡來分別學習人臉和語音模態下的特征表示,并利用N對損失來規范特征對應.這種方法雖然可以運用于多種人臉-語音的跨模態匹配任務,但需要大量的參數用于模型的優化.LAFV[12](on learning associations of faces and voices)利用對人臉-語音公共信息的整合,學習交叉模態下的特征關聯,從而減少跨模態差異,且可以達到與文獻[7,13]中方法相似的結果.DIMNet[5](disjoint mapping network for cross-modal matching of voices and faces)使用不相交映射網絡(disjoint mapping network)將關聯特征映射到共享協變量中,實現了人臉-語音匹配任務上的性能提升.然而這種學習需要對大規模訓練數據進行標簽注釋,過程耗時且成本昂貴.為避免使用三元組損失[14],SSNet[3](deep latent space learning for cross-modal mapping of audio and visual signals)采用類中心學習來探索人臉-語音間的特征關聯.類似的LDJE[15](learning discriminative joint embeddings for efficient face and voice association)通過使用雙向五元組約束、身份約束和中心約束訓練網絡.SSNet 和LDJE 這2 種方法都主要通過中心約束來監督嵌入特征,不能充分地利用潛在語義學習更可靠的跨模態關聯.
得益于深度學習的發展,將表示學習和聚類算法結合是深度神經網絡最具前途的方法之一.而自監督學習作為目前最熱門的框架,旨在使用原始特征生成監督網絡訓練的偽標簽,通過潛在特征關聯進行學習.深度聚類DeepCluster[16](online deep clustering for unsupervised representation learning)中引入了學習圖像表示的自監督方法,通過對特征無監督聚類的結果約束圖像的特征表示.而將自監督學習運用于跨模態關聯,需要考慮模態間自監督學習的可適用性以及跨模態下自監督學習生成特征的異構性.
本文所提出的雙向偽標簽自監督學習的跨人臉-語音學習方法總體框架如圖1 所示,該框架由2 個主要模塊組成,即跨模態加權殘差網絡模塊和自監督學習模塊.前一個模塊旨在學習跨模態公共嵌入特征,生成模態間的通用特征表示;而后一個模塊創新性地利用自監督學習方法生成偽標簽,并將一種模態下生成的偽標簽作為唯一的監督信號去監督另一種模態的特征學習,實現雙向偽標簽關聯.這2 個模塊相互結合進行訓練,以促進人臉-語音的跨模態關聯學習.

Fig.1 The overall framework of the proposed cross-modal face-voice learning method圖1 本文跨人臉-語音模態學習方法的總體架構
人臉-語音由于模態的不同,異構特征間存在著巨大的語義鴻溝.要想探索跨模態下人臉-語音的關聯,如何跨越異構特征之間的語義鴻溝至關重要.受多模態深度學習[17]啟發,雙流深度網絡能兼容學習和探索異構特征間的通用表示.現有的人臉-語音方法[9]局限于使用權值共享的單一全連接層獲取通用特征,而單層的網絡結構無法挖掘人臉-語音特征中的非線性相關性.為解決這個問題,本文設計了跨模態加權殘差網絡模塊來學習跨模態下異構特征的通用表示.其思想是使雙流深度網絡和殘差網絡結構[18]相結合,在保留原始特征的同時,學習到人臉-語音特征間的非線性相關性.跨模態加權殘差網絡結構由2 個全連接層(fully connected layer)組成,它們的加權參數分別用 ω1和 ω2表示.人臉或者語音數據用x表示,將數據經過2 個全連接層處理表示為FC(x)=d(ω2σ(ω1x)),其中 σ(·)為雙曲正切激活函數tanh(·),d(·)表示權重丟棄層(dropout layer),用于減少特征冗余,提高網絡的泛化能力.通過人臉和語音子網絡提取的特征,將通過共享權重的相同結構進行處理,得到的人臉高級特征和語音高級特征分別定義為
其中 σ(·)可用于避免訓練過程中的梯度過度波動,縮放因子 α[19]是一個可學習的參數.殘差網絡結構將輸出特征進行跳躍連接,在緩解網絡梯度消失的同時,使得原始特征得以保留.而2 個模態之間的全連接層進行權值共享,有助于實現模態間的兼容性學習.基于此,通過跨模態加權殘差網絡,可以有效地學習人臉-語音模態間異構特征的通用表示.
對于跨模態嵌入特征的學習,要想建立人臉-語音特征之間的關聯,學習器應該將不同模態下的數據映射到一個共同的特征空間中,且需要保證來自相同身份的人臉-語音數據對在特征空間中更加接近,不同身份的人臉-語音對更加疏遠.現有的大多數方法[13,15]都只是利用正則化有限的損失函數來學習人臉-語音間的跨模態對應關系,這在很大程度上忽略了人臉-語音在潛在語義上的關聯.而自監督學習旨在通過探索原始的特征分布產生偽標簽,進而訓練模型學習潛在語義關聯.因此,基于自監督學習生成的偽標簽有利于捕獲人臉-語音間的弱相關性.
本文所提出的架構旨在創新性地利用模態下生成的偽標簽信息實現模態間雙向監督,并且從每種模態中學習到的偽標簽應該很好地與下游任務對應.為此,本文研究了這樣一個假設,即想要捕獲跨人臉-語音模態間的對應關系,可以從自監督學習下獲取的偽標簽中揭示出有效的潛在語義信息.而為了生成更有效的偽標簽監督信號,本文還考慮了人臉-語音數據在2 種模態下偽標簽分布之間的對應關系.對于通過跨模態加權殘差網絡得到的人臉高級特征和語音高級特征它們的特征維度都為 R1×K.因為本文采取小批量訓練方案,每個小批量中包含B個樣本,所以會得到一個B×K維的特征矩陣M.為消除矩陣M中特征之間單位和尺度差異的影響,需要對M進行歸一化處理.定義∈RB×1表示矩陣M(B,K)中的列向量,則其歸一化表示為
其中dis(·,·) 表示歐氏空間距離.對于特征矩陣M*,為了探索特征空間中的隱式語義,通過設置聚類總數為q的無監督算法K-means,對其進行迭代聚類,直至收斂.因此,特征矩陣M*中的B個樣本將被劃分到q個簇中,而每個簇在迭代過程中都有其對應的中心特征(o1,o2,…,oq;oi∈R1×K).我們根據特征向量oi與特征原型 η的空間關系為簇分配偽標簽,且需要保證每個簇有自己唯一的偽標簽,簇與簇之間的偽標簽不存在差異性,所以采用獨熱編碼(one-hot)的方式生成偽標簽,過程如圖2 所示.q個簇將對應大小為Lx∈R1×q的0,1 的編碼(例如:Lx=(0,0,1,0,0),q=5).基于簇的q個特征向量oi與特征原型 η的歐氏空間距離dis(oi,η)排序后,為距離 η最近的簇分配偽標簽向量Lx=(1,0,0,…,0),為距離 η最遠的簇分配偽標簽向量Lx=(0,…,0,0,1).基于這種空間排序依次為簇分配偽標簽,保證了每個簇生成的偽標簽是唯一的,且偽標簽之間不存在差異性.因此,批中的B個樣本根據其所在的簇,通過無監督聚類及簇中心特征和特征原型空間距離約束,被分配偽標簽向量Lx.對于自監督學習下的人臉-語音關聯,需要保持相同身份的人臉-語音數據在分配偽標簽后語義的一致性,同時顯示出不相關人臉-語音對的差異性.本文將從2 種模態下獲取的偽標簽進行跨模態語義關聯.假設第i個樣本的人臉-語音數據,在通過偽標簽分配后得到的偽標簽向量分別為則跨模態偽標簽關聯得分表示為

Fig.2 Pseudo-label assignment based on feature prototype圖2 基于特征原型的偽標簽分配
如當相同身份的人臉-語音樣本通過偽標簽分配后得到的偽標簽相同時,從特征語義上說明了樣本的2 種模態語義更加相似,因此將給予自監督學習模塊得分獎勵.反之,相同樣本的人臉-語音數據在2種模態下分配的偽標簽不同時,學習模塊則沒有得分獎勵.通過偽標簽關聯得分可以反映出自監督學習產生的人臉和語音偽標簽之間的對應關系.基于此,本文構建的偽標簽關聯損失定義為
其中B是小批量學習的樣本數,exp(·) 為以 e為底的指數函數.模型在訓練中,隨相同身份的人臉-語音數據通過自監督學習產生的特征語義越接近,偽標簽關聯得分S會越高,偽標簽關聯損失 Lcma則會更小.跨模態偽標簽關聯損失的減小意味著人臉-語音數據通過自監督學習生成的偽標簽在跨模態下的語義一致性得以保留,同時為自監督學習的下游任務提供了穩定的偽標簽監督信號.
為理解 Lcma損失的反向傳播如何影響特征網絡,本文通過獲取關聯得分時參數矩陣X的優化進行解釋,其優化過程如算法1 所示.
算法1.參數矩陣優化算法.
值得注意的是,隨著當前小批量樣本訓練的完成,本輪的特征原型 η將保留并參與下一輪批量訓練中特征原型的更新迭代:
其中 η*表示前n-1輪批量學習中特征原型的平均特征,參數 λ=0.9.特征原型的更新迭代保證了每輪樣本的訓練特征得以保留,使得更新后的特征原型更具穩定性.且基于特征原型劃分的偽標簽在簇數更多時,不會受個別樣本特征的干擾,從而生成的偽標簽作為跨模態關聯的監督信號更具魯棒性和可解釋性.
基于自監督學習方法生成的人臉-語音偽標簽,本文實現跨模態偽標簽信號的雙向監督,進而增強人臉-語音模態間的語義關聯.對于樣本i的人臉特征和語音特征,其通過自監督學習得到的人臉偽標簽和語音偽標簽分別為將其作為對方模態下的監督信號,進而得到雙向偽標簽關聯損失:
其中 ?(·,·)為交叉熵損失,φface,voice表示判別學習器.雙向偽標簽關聯損失從跨模態角度利用2 個模態下的偽標簽實現跨模態交叉監督,從而同時優化2 個模態間的關聯損失,增強相同身份的人臉-語音數據對之間的語義相關性,并擴大不相關人臉-語音對之間的差異性.基于此,雙向偽標簽關聯損失可以有效地挖掘模態間的潛在語義,提高跨模態下生成的人臉-語音關聯表示的魯棒性和模型的泛化能力.
為了幫助整體網絡更好地學習人臉-語音之間的跨模態關聯,本文設計并使用了2 個輔助損失函數加速模型收斂,促進整體網絡的學習.
1)身份預測損失.據文獻[5]可知,有限的監督信息能夠增強人臉-語音嵌入特征的判別性,同時增強跨模態加權殘差網絡處理異構特征時的可分離性.本文基于ID損失和性別約束,通過參數分類器來學習人臉-語音潛在語義的判別性嵌入,其中身份預測損失為:
其中 φc對應在ID和性別約束g下的全連接判別學習器.該損失將用于加速網絡模型的收斂,促進跨模態加權殘差網絡對判別性特征的學習.
2)偽標簽分布損失.為了進一步規范2 種模態下來自相同身份偽標簽之間的一致性,學習框架將訓練中B個樣本的偽標簽分布視為一個整體,通過歸一化函數softmax 獲取樣本偽標簽概率分布.我們將B個樣本的人臉和語音數據對應的偽標簽概率分布分別表示為p(f)和p(v),并基于KL 散度(Kullback Leibler divergence)生成跨模態下的偽標簽分布損失:
其中 α=0.5,FKL(·) 為KL 散度計算函數.使用FKL(p(f)||p(v))和FKL(p(v)||p(f))相結合是為了保持損失的對稱性.有且僅當自監督學習到的人臉-語音偽標簽概率分布相同時,LKL=0.最小化偽標簽分布損失是從整體跨模態關聯角度,通過相同身份個體的人臉-語音特征更接近,擴展到2 個模態下的偽標簽分布一致性,使得在自監督模塊注重相同身份的人臉-語音對應性學習,從而強制深度網絡學習到的跨模態關聯特征更具魯棒性.
本文構建的整體損失函數表示為
默認情況下,γ1和 γ2的權重系數分別設置為10和0.1.跨模態偽標簽關聯損失 Lcma和偽標簽分布損失 LKL的權重系數都設置為1,一方面保證了它們在促進模態間潛在語義特征挖掘中的協同作用,另一方面加速了整體損失函數在訓練中更快地迭代與收斂.本文將每批次訓練的樣本數設置為128,并選擇結合了動量技術、RMSprop(root mean square prop)修正的Adam[20](adaptive moment estimation)方法作為優化模型.在訓練期間,學習率會隨著訓練輪數的增加而衰減,初始的學習率設置為10-3,衰減到的最小學習率為10-8.值得注意的是,在實踐中,本文通過設置不同簇數q來獲取多種人臉-語音偽標簽,并在實驗中通過多種偽標簽組合來挖掘人臉-語音間的潛在語義關聯,從而探索出更深層的跨模態人臉-語音聯系.
為了充分評估本文所提出算法的有效性,本文在公開的Voxceleb1[21]和VGGFace[22]語音視頻數據集上進行實驗,并采取基準的評價準則進行量化評估.具體的實驗細節與設置如下.
Voxceleb1 中總計包含10 萬多條音頻和2 萬多條視頻,而VGGFace 中包含2 622 個身份信息.在實驗中,對這2 個數據集的數據交集共1 225 個身份進行數據集劃分,其中訓練集、驗證集和測試集中包含的人物身份個數分別為924,112,189.為了保證實驗評估時的有效性和魯棒性,本文在實驗中選取的訓練集和驗證集以及測試集之間個體身份信息完全不相交.
1)人臉數據處理.首先對原始檢測的人臉圖像進行縮放,然后通過隨機裁剪函數進行裁剪,并統一圖像大小為224×224×3.在訓練階段采用概率為50%的隨機水平翻轉處理.人臉子網絡使用ResNet-34[23]架構實現,最終輸出的人臉特征維數為256.
2)語音數據處理.語音數據首先通過語音檢測函數清洗后除去原始音頻中包含的靜音片段,然后根據語音片段時長進行裁剪.如果語音片段時長大于10 s,則隨機保留10 s;若片段時長小于10 s,則會隨機復制增加語音長度到10 s.語音處理使用幀長25 ms、幀間隔10 ms 的梅爾倒譜系數,并對處理后的語音片段進行歸一化處理.語音子網絡采用DIMNetvoice[5]架構實現,最終輸出的語音特征維數為256.
為了驗證本文方法的有效性,實驗將在4 種人臉-語音跨模態匹配任務上進行測試.
1)跨模態驗證任務
跨模態驗證用來判斷給定的人臉數據和語音數據是否屬于相同身份,該任務使用曲線下面積(area under curve,AUC)作為唯一的評價指標.
2)跨模態檢索任務
在跨模態檢索任務中將給定一種模態的待測樣本,需要從總數據集中查詢與待測樣本匹配的正例,所以該任務挑戰難度更大.本任務將采用平均準確率(mean average precision,mAP)作為評價指標.
3)1∶2 匹配任務
1∶2 匹配任務由人臉圖片檢索語音片段(F-V)和語音片段檢索人臉圖片(V-F)這2 種情況組成.對于F-V 的1∶2 匹配,給定一張人臉圖片,需要從2 段語音片段中判斷出哪個和人臉圖片身份相同.同理可知V-F 的1∶2 匹配,給定一段語音片段,需要從2張人臉圖片中判斷出哪個和語音身份相同.本任務中采用百分制的準確率(accuracy,ACC)作為評價指標.
4)1∶N匹配任務
1∶N匹配任務是1∶2 匹配任務的擴展,其將待匹配的樣本總數增加到N,且需要從中識別出唯一的正例.同樣地,1∶N匹配也存在F-V 和V-F 的2 種情況,且隨著樣本總數N的增加,任務難度也逐漸增加.該任務也采用準確率ACC 作為評價指標.
為了驗證本文所提出方法的有效性,將通過3.3節中所涉及的4 種跨人臉-語音模態匹配任務進行測試.值得注意的是,本文所提出的跨模態學習架構,由于偽標簽生成跟簇數q有關,而不同的偽標簽會對學習到的人臉-語音關聯表示產生影響,所以在實驗中嘗試了不同的偽標簽組合.本文實驗中使用了簇數分別為8,32,64 來生成偽標簽,其形式化標記分別對應 Bi-Pcm-F(first),Bi-Pcm-S(second),Bi-Pcm-T(third)方法.除此之外,本文還嘗試設置了不同的偽標簽組合來探索更多跨人臉-語音模態的潛在語義關聯.本文設置了4 種偽標簽組合:1)8 和32 組合;2)8和64 組合;3)32 和64 組合;4)8,32,64 組合.這4 種組合分別對應Bi-Pcm-FS,Bi-Pcm-FT,Bi-Pcm-ST,Bi-Pcm-FST 方法.實驗中,當不同偽標簽數的方法進行組合后,偽標簽的分配以及訓練的過程并行執行,最后生成的整體損失也將進行疊加.
1)跨模態驗證
參考文獻[5],本文與現有方法的實驗比較如表1所示,實驗在不同分類數據上進行.其中“U”表示人臉-語音數據對沒有進行分類,“G”(gender)表示人臉-語音數據對中的2 個測試者性別相同,“N”(nationality)表示人臉-語音數據對中的2 個測試者的國籍相同,“A”(age)表示人臉-語音數據對中的2 個測試者年齡相同.而對于“GNA”這種情況,則是2 個測試者的性別、國籍和年齡都相同.從表1 可知,本文所提出的Bi-Pcm-FST 方法相比較于PINs,SSNet方法,實驗性能在各個驗證任務上平均提升5 個百分點.實驗表明本文模型在不同的任務上都更具有效性.

Table 1 AUC Values of Cross-Modal Verification Task表1 跨模態驗證任務的AUC 值
2)跨模態檢索
跨模態檢索任務的實驗結果如表2 所示.本文在F-V 和V-F 的2 個情景上都進行了檢索實驗.為了與未進行學習的特征進行對比,本文在實驗中增加了隨機情況下(Chance)的實驗結果,Chance 方法將在跨模態檢索以及1∶N匹配任務中使用.方法Bi-Pcm-FST 的平均mAP 為6.20,高于目前先進的DIMNet-IG 方法將近2 個百分點,這說明基于本文的特征表示在面對大量數據檢索任務時更具健壯性.

Table 2 Performance mAP of Cross-Modal Retrieval表2 跨模態檢索中mAP 的性能
3)1∶2 匹配
1∶2 匹配在不同分類數據上的測試結果如表3所示,其中數據分組“U”“G”“N”的方式同本節跨模態檢索中的描述一致.此任務共包括2 種情景,分別為F-V 和V-F.本文基于不同偽標簽組合的Bi-Pcm 方法,在2 種情景下進行了多組實驗以探索多種偽標簽語義對人臉-語音關聯的影響.從實驗結果可知,本文基于Bi-Pcm-FST 的多偽標簽組合相比較其他偽標簽組合在多種1∶2 匹配任務上性能表現更佳,所以本文中其他的對比實驗均以Bi-Pcm-FST 作為代表.在1∶2 匹配任務中,Bi-Pcm-FST 與目前主流的LDJE 相比雖然只獲得了少量的提升,但是LDJE 方法在訓練中使用了大量的人為監督標簽來構造雙向五元組約束,并利用中心約束以及身份約束,本質上過度依賴有監督學習,況且監督標簽的獲取成本昂貴且十分耗時.而Bi-Pcm-FST 更注重自監督學習生成可用偽標簽來代替這些傳統的有監督標簽,且取得了更好的性能表現,這種獲取可用偽標簽的方法為跨人臉-語音模態的研究開創了一種更加新穎的思維.跨模態1∶2 匹配的實驗結果也表明,本文基于雙向偽標簽關聯的自監督學習能夠為人臉-語音探索出更多的潛在語義信息.

Table 3 ACC on Cross-Modal 1∶2 Matching Task表3 跨模態1∶2 匹配任務的準確率 %
4)1∶N匹配
1∶N匹配結果如圖3 所示.此項任務隨待匹配樣本數N的增加,實驗難度也進一步增大.可以發現各項工作的準確率也隨N的增加而逐漸降低.但是Bi-Pcm-FST 方法在V-F 和F-V 兩種情景下,與其他主流方法相比,依然具有更好的表現.由準確率曲線可以發現,Bi-Pcm-FST 方法隨待匹配樣本數N的增加,匹配準確率相比較其他方法衰減得更加平緩,即使在V-F 的1∶N匹配任務中難度較大的“G”分組上,當N=6 時,匹配準確率也能比主流的DIMNet 方法提高2 個百分點.通過1∶N匹配任務的實驗結果進一步說明本文架構具有更強的潛在語義挖掘能力.

Fig.3 Comparison of cross-modal 1∶N matching performance圖3 跨模態1∶N 匹配的性能對比
本文所提出的框架主要由2 個模塊組成,即跨模態加權殘差網絡模塊和基于雙向偽標簽關聯的自監督學習模塊.使用不同模塊的消融實驗如表4 所示,其中CMWR 表示跨模態加權殘差網絡,id 表示可用語義信息的嵌入,self-learn 表示自監督學習模塊.從表4 中各個模塊的消融實驗可以發現,當單獨使用跨模態加權殘差網絡或者單獨使用自監督學習模塊時,雖然整體網絡的性能都能有所提升,但是提升幅度很小,例如在跨模態驗證任務的“U”分組上只能提升1.7 個百分點.但將2 種模塊進行結合后,整體性能在“U”分組上提升4 個百分點,說明2 個模塊之間的相互協作對促進整體網絡的性能表現有重要的影響.依次來看,跨模態加權殘差網絡能夠跨越模態間語義鴻溝,從而有效地學習人臉-語音間的關聯表示;而基于雙向偽標簽關聯的自監督學習模塊可以生成高效偽標簽來促進整體網絡性能的提升.

Table 4 Ablation Studies of Cross-Modal Verification表4 跨模態驗證上的消融實驗
在本文中,損失函數是用來約束人臉-語音特征表示的關鍵因素.因此,實驗中進一步研究了損失函數對跨模態匹配性能的影響,圖4 展示了不同損失函數對F-V 跨模態1∶2 匹配任務的消融結果.需要注意,雙向偽標簽關聯損失 LBi-P和偽標簽分布損失LKL的構成都需要跨模態偽標簽關聯損失 Lcma的協助,所以無法進行將 Lcma單獨移除的實驗.從消融結果可以發現,當總體網絡缺少 LBi-P時,實驗準確率下降得最為明顯,總體性能下降1.4 個百分點,說明雙向偽標簽關聯約束對促進網絡性能提升有著重要作用.消融實驗中,移除跨模態分布損失 LKL后,整體網絡性能輕微下降了0.4 個百分點.而 Lcma通過得分獎勵機制,使得自監督學習模塊生成人臉-語音偽標簽,進而參與 LBi-P和 LKL來約束跨模態特征學習.因此,在移除 Lcma后將無法得到偽標簽.除此之外,從圖4中關于 Lcma的單獨消融實驗可知,當使用 Lcma時整體網絡性能只有微小的提高,其原因是只基于 Lcma產生的偽標簽并沒有被用于下游任務中,而將 Lcma生成偽標簽用于 LBi-P或 LKL時,整體網絡性能才能有不錯的提升,說明 Lcma更多的作用是輔助獲取高效穩定的跨模態偽標簽用于下游任務的學習.
綜上所述,Lcma幫助自監督模塊生成高效偽標簽用于下游任務,LBi-P將利用上游偽標簽挖掘潛在語義關聯,而LKL將輔助 LBi-P提高特征關聯的有效性.跨模態匹配任務的實驗表現和消融結果說明了本文的多種損失相互協助,相比較現有的方法,可在多種跨人臉-語音匹配任務上取得更佳的性能表現.
對于跨模態檢索任務,具有代表性的V-F 檢索結果如圖5 所示,其中與語音身份相同的人臉圖片已由加粗方框標注.從跨模態檢索結果可以發現,即使待檢索樣本規模為整個數據集時,本文在跨模態檢索任務上依然取得了不錯的性能表現.

Fig.5 Cross-modal retrieval results圖5 跨模態檢索結果
此外,如圖6 所示,本文進一步利用t-SNE[25](tdistributed stochastic neighbor embedding)算法對學習到的高維人臉-語音嵌入特征進行2 維可視化,其中相同顏色的數據點來自同一身份樣本.圖6(a)是初始特征分布,人臉特征與語音特征由于模態間差異,被劃分為2 類,但是模態內的這2 種特征卻因沒有進行辨別性學習而被混淆在一起.圖6(b)是通過本文方法學習后的結果,可以明顯看出相同身份的人臉和語音特征的空間分布更為接近,且不同身份的特征之間更加地疏遠,說明本文中基于雙向偽標簽關聯的自監督學習方法確實能學習到更具判別性的跨模態特征.

Fig.6 Visualization of embedding characteristics on t-SNE圖6 嵌入特征的t-SNE 可視化
為了驗證 Lcma損失可實現跨模態數據的編碼,本文進行了人臉-語音偽標簽相似度匹配實驗.如圖7所示,我們在訓練集和測試集上分別對樣本的人臉-語音偽標簽進行了相似度統計.本文共用到3 種偽標簽數:8,32,64.偽標簽數為8 時,雖然實驗收斂得更快,但是最后得到的偽標簽相似度低(準確率約77%);偽標簽數為64 時,網絡雖然收斂更慢,但是獲得的偽標簽相似度更高(準確率約81%).綜上,Lcma損失可以幫助實現高效的跨模態數據編碼.

Fig.7 Face-voice pseudo-label similarity based on cma-loss圖7 基于 Lcma損失的人臉-語音偽標簽相似度
為了驗證本文 LBi-P對模型泛化能力的影響,本文在現有的訓練集基礎上減少了100 個人臉-語音數據進行模型重新訓練,并在測試集上評估.泛化能力評估實驗結果如圖8 所示,當使用全部的損失后,V-F的1∶2 匹配任務上實驗準確率只下降了0.6 個百分點,但是在移除 LBi-P損失后,實驗準確率下降了1.3個百分點,說明 LBi-P能保證模型的泛化能力盡可能得到保留,驗證了 LBi-P能夠提高跨模態下生成的人臉-語音關聯表示的魯棒性和模型的泛化能力.

Fig.8 Generalization ability assessment on 1∶2 matching task圖8 在1∶2 匹配任務上的泛化能力評估
本文提出了基于雙向偽標簽自監督學習的方法,該方法可有效地用于人臉-語音跨模態關聯和匹配.首先構建了跨模態加權殘差網絡來學習人臉-語音間的共享嵌入,然后創新性地提出雙向偽標簽關聯方法生成高效偽標簽,并用其監督人臉-語音實現潛在語義學習.本文獲得的模態間增強語義嵌入可適用于各種人臉-語音匹配任務.與現有工作比較,本文在大量跨模態匹配任務中都取得了最佳的性能表現.
作者貢獻聲明:朱明航負責算法設計與實驗;柳欣負責模型優化和算法分析;于鎮寧負責模型可行性分析;徐行負責算法優化;鄭書凱負責實驗多樣性分析.