改進(jìn)的深度編碼器在多模態(tài)特征學(xué)習(xí)中的應(yīng)用

2021-12-09 11:50:20徐鳳平

通化師范學(xué)院學(xué)報(bào) 2021年12期

徐鳳平

多模態(tài)特征學(xué)習(xí)的關(guān)鍵在于如何挖掘不同模態(tài)之間的關(guān)聯(lián)性.目前有許多基于傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)的多模態(tài)數(shù)據(jù)分析方法，如支持向量機(jī)SVM、Latent Dirichlet Allocation（LDA）、Independent Component Analysis（ICA）等.這些方法都屬于淺層模型，對(duì)高維關(guān)聯(lián)的挖掘存在困難，很難獲得準(zhǔn)確的多模態(tài)特征表示.目前主流的基于深度學(xué)習(xí)的多模態(tài)特征融合模型往往采用單融合點(diǎn)結(jié)構(gòu)，它們?cè)谧铐攲涌臻g僅僅進(jìn)行了一次模態(tài)交互.

早期的研究人員主要是采用基于淺層模型來(lái)挖掘模態(tài)間的關(guān)聯(lián)性.BLEI等人針對(duì)多模態(tài)檢索問(wèn)題的特點(diǎn)提出了面向“文本-圖像”多模態(tài)數(shù)據(jù)的相關(guān)LDA模型［1］.XING等人提出了一種基于特殊的無(wú)向圖模型的雙翼式模型（Dual Wing Model）［2］.RASIWASIA等人提出了一種基于典型關(guān)聯(lián)分析（Canonical Corre?lation Analysis，CCA）的多模態(tài)特征融合模型以進(jìn)行跨模態(tài)檢索［3］.這些多模態(tài)特征學(xué)習(xí)方式可以歸類(lèi)為由一到兩層結(jié)構(gòu)組成的淺層模型.由于來(lái)自于不同模態(tài)的數(shù)據(jù)之間的數(shù)值形式及統(tǒng)計(jì)特性相差巨大，所以在淺層模型結(jié)構(gòu)定義的低維空間中，不同模態(tài)數(shù)據(jù)特征之間關(guān)聯(lián)性的耦合度不高.

隨著深度學(xué)習(xí)的不斷發(fā)展，神經(jīng)網(wǎng)絡(luò)在挖掘文本、圖像等模態(tài)高維特征上的優(yōu)越性充分得到了體現(xiàn).SU等人使用LSTM和CNN搭建了一套基于音頻和圖像特征的多模態(tài)深度學(xué)習(xí)系統(tǒng)（audio-visual speech recognition sys?tems，ASVR），學(xué)習(xí)音頻和圖像間的跨模態(tài)關(guān)聯(lián)［4］.HU等人借鑒循環(huán) 神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）的思想，對(duì)傳統(tǒng)的多模態(tài)受限玻爾茲曼機(jī)進(jìn)行改進(jìn)，提出了循環(huán)多模態(tài)受限玻爾茲曼機(jī)（Recurrent Temporal Multimodal Restricted Boltzmann Machine，RTMRBM），解決圖像語(yǔ)音識(shí)別問(wèn)題［5］.HOU等人提出了基于CNN的多模態(tài)深度卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)，提高了語(yǔ)音和圖像識(shí)別的準(zhǔn)確率［6］.

筆者認(rèn)為，不同模態(tài)之間的關(guān)聯(lián)性是立體的，不只是存在于頂層的高維空間.因此目前的方法存在對(duì)模態(tài)間關(guān)聯(lián)性及其交互作用挖掘不充分的問(wèn)題.目前的多模態(tài)特征學(xué)習(xí)方法采用的都是傳統(tǒng)特征，如圖像的sift和cedd及文本的lda和one-hot-representation等，這些特征包含的語(yǔ)義信息較少且不同模態(tài)的數(shù)據(jù)在數(shù)值形式、特征分布等方面相差巨大，影響了最終特征的性能.

為了解決上述問(wèn)題，本文提出了一種基于多融合點(diǎn)深度神經(jīng)網(wǎng)絡(luò)的多模態(tài)特征學(xué)習(xí).主要內(nèi)容有：提出一種基于自編碼器的多模態(tài)特征學(xué)習(xí)模型，在特征學(xué)習(xí)階段，設(shè)計(jì)一種基于多融合點(diǎn)的特征學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)；在訓(xùn)練階段，設(shè)計(jì)了一種多通路解碼網(wǎng)絡(luò)結(jié)構(gòu)，用輸入自適應(yīng)的交替式網(wǎng)絡(luò)訓(xùn)練策略指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練；最后本文在多模態(tài)特征學(xué)習(xí)領(lǐng)域常用的多個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，將模型輸出的多模態(tài)特征應(yīng)用于檢索場(chǎng)景，用數(shù)據(jù)檢索方面的性能指標(biāo)作為評(píng)價(jià)指標(biāo)，驗(yàn)證論文工作的有效性.

1 基于自編碼器的多模態(tài)特征學(xué)習(xí)模型

1.1 多模態(tài)特征學(xué)習(xí)的總體框架

多模態(tài)特征學(xué)習(xí)過(guò)程可以分為三個(gè)階段：第一階段為特征提取及標(biāo)準(zhǔn)化階段，首先通過(guò)基于大規(guī)模數(shù)據(jù)集訓(xùn)練出的CNN模型和Word2vec模型抽取圖像和文本特征，然后通過(guò)一系列標(biāo)準(zhǔn)化措施使得兩個(gè)模態(tài)的數(shù)據(jù)特征空間擁有相近的數(shù)值形式及統(tǒng)計(jì)特性，作為第二階段的輸入.第二階段為多模態(tài)特征學(xué)習(xí)階段，將不同模態(tài)的數(shù)據(jù)特征輸入文中提出的基于多融合點(diǎn)結(jié)構(gòu)的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí).第三階段為網(wǎng)絡(luò)訓(xùn)練階段，通過(guò)相關(guān)的目標(biāo)函數(shù)指導(dǎo)模態(tài)內(nèi)的數(shù)據(jù)關(guān)聯(lián)性，以及模態(tài)間的數(shù)據(jù)關(guān)聯(lián)性的挖掘.具體如圖1所示.

圖1 多模態(tài)特征學(xué)習(xí)模型總框架

1.2 基于多融合點(diǎn)的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)

多模態(tài)特征學(xué)習(xí)的關(guān)鍵在于如何有效地挖掘不同模態(tài)之間的關(guān)聯(lián)性.目前有共享融合層自動(dòng)編碼器和獨(dú)立通道自動(dòng)編碼器兩大類(lèi)結(jié)構(gòu)，但它們僅僅在中間編碼層中進(jìn)行了一次跨模態(tài)交互.筆者提出一種基于多融合點(diǎn)的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)，以單融合點(diǎn)多模態(tài)自動(dòng)編碼器模型為基礎(chǔ)，在網(wǎng)絡(luò)的不同層次設(shè)置多個(gè)融合點(diǎn)用來(lái)學(xué)習(xí)模態(tài)間的關(guān)聯(lián)關(guān)系，并將這種關(guān)聯(lián)關(guān)系從低維到高維遞進(jìn)地傳遞下去，使得不同層次特征空間中的數(shù)據(jù)都參與模態(tài)內(nèi)及模態(tài)間語(yǔ)義關(guān)聯(lián)挖掘.

多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)具體結(jié)構(gòu)如圖2所示.在網(wǎng)絡(luò)層前采用了深度特征引入分布標(biāo)準(zhǔn)化措施，網(wǎng)絡(luò)層包含了全連接層和多融合點(diǎn)交互層.深度特征使用Caffe深度學(xué)習(xí)框架中提供的基于ImageNet訓(xùn)練CNN模型提取圖像特征；使用Wikipedia提供的開(kāi)源語(yǔ)料集訓(xùn)練Word2vec模型提取文本特征，將特征提取模型的輸出維度設(shè)置為相同值［7-8］；采取Mean Cancellation、KL Expansion和Covariance Equalization等一系列分布標(biāo)準(zhǔn)化措施.全連接層先將兩個(gè)不同模態(tài)的數(shù)據(jù)特征映射到相近的高維空間，然后在相對(duì)高維的特征空間中進(jìn)行跨模態(tài)關(guān)聯(lián)挖掘，減小了由于引入多融合點(diǎn)結(jié)構(gòu)而帶來(lái)的額外噪音，提高了跨模態(tài)語(yǔ)義關(guān)聯(lián)挖掘的效果.多融合點(diǎn)交互層包含兩種數(shù)據(jù)通路，分別是模態(tài)內(nèi)數(shù)據(jù)通路（In?tra-modal channel）、模態(tài) 間數(shù) 據(jù) 通路（Intermodal channel），其中模態(tài)內(nèi)數(shù)據(jù)通路接受單個(gè)模態(tài)數(shù)據(jù)輸入，負(fù)責(zé)將單個(gè)模態(tài)數(shù)據(jù)特征從低維向高維逐層映射，獲得單個(gè)模態(tài)在多個(gè)特征空間中的特征表示.對(duì)于每個(gè)模態(tài)p，其第l個(gè)隱層的模態(tài)內(nèi)數(shù)據(jù)通路特征計(jì)算方式為：

其中：f為激活函數(shù)，w為連接權(quán)重，b為偏置參數(shù).

圖2 改進(jìn)的多融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)

模態(tài)間數(shù)據(jù)通路即設(shè)置的多個(gè)融合點(diǎn)，通路中的每一層同時(shí)與兩個(gè)單模態(tài)內(nèi)通路的輸出，以及前一層模態(tài)間通路的輸出相連（第一層除外），其作用是在網(wǎng)絡(luò)的各個(gè)層次挖掘兩個(gè)模態(tài)數(shù)據(jù)特征的語(yǔ)義關(guān)聯(lián)性，并將這種跨模態(tài)語(yǔ)義關(guān)聯(lián)性逐層傳遞下去.在頂部的輸出層形成編碼階段的最終輸出.基于多融合點(diǎn)結(jié)構(gòu)形成的模態(tài)間數(shù)據(jù)通路，可以讓網(wǎng)絡(luò)的多個(gè)層次參與到多模態(tài)特征的學(xué)習(xí)過(guò)程，強(qiáng)化了模態(tài)間數(shù)據(jù)的交互作用，豐富了最終生成的多模態(tài)特征包含的語(yǔ)義信息.對(duì)于模態(tài)p及模態(tài)q，網(wǎng)絡(luò)第l個(gè)隱層的模態(tài)間數(shù)據(jù)通路特征計(jì)算方式為：

1.3 多模態(tài)特征學(xué)習(xí)模型的訓(xùn)練策略

對(duì)于多模態(tài)特征學(xué)習(xí)這一實(shí)際應(yīng)用場(chǎng)景，定義了相應(yīng)的模態(tài)內(nèi)、跨模態(tài)相關(guān)損失函數(shù)并提出輸入自適應(yīng)的交替式訓(xùn)練策略指導(dǎo)模型的訓(xùn)練，確保了論文提出網(wǎng)絡(luò)結(jié)構(gòu)的合理性及可行性.

定義模態(tài)內(nèi)相關(guān)性（intra-modal correlation）和跨模態(tài)相關(guān)性（cross-modal correlation）兩個(gè)目標(biāo)函數(shù).

模態(tài)內(nèi)相關(guān)性.借助解碼的訓(xùn)練方式，以輸出層為起點(diǎn)進(jìn)行解碼，重構(gòu)兩個(gè)模態(tài)原始的輸入特征，通過(guò)計(jì)算原始特征與重構(gòu)特征之間的損失來(lái)衡量輸出特征的模態(tài)內(nèi)關(guān)聯(lián)性.

給定雙模態(tài)數(shù)據(jù)對(duì)（xinz,xtnz)，其中圖像和文本特征都非空，記重構(gòu)后的特征輸出為(x′i，x′t)，則模態(tài)內(nèi)相關(guān)性定義為：

跨模態(tài)相關(guān)性.進(jìn)一步挖掘不同跨模態(tài)的關(guān)聯(lián)性，給定一個(gè)模態(tài)的數(shù)據(jù)輸入，由模型還原得到模態(tài)的特征輸出，將模態(tài)的重構(gòu)特征與期望特征之間的距離定義為模態(tài)間關(guān)聯(lián)性.

對(duì)于雙模態(tài)數(shù)據(jù)對(duì)（xinz,xtnz)，其中圖像和文本特征都非空，固定一個(gè)模態(tài)特征，將另一個(gè)模態(tài)特征置為0，得到（xinz,xtz)和（xiz,xtnz)兩個(gè)單模態(tài)數(shù)據(jù)對(duì).以（xinz,xtz)為例，此時(shí)圖像模態(tài)數(shù)據(jù)非空，文本模態(tài)數(shù)據(jù)為空，在僅有圖像模態(tài)輸入的前提下，重構(gòu)后的文本特征輸出為，計(jì)算重構(gòu)特征與原始特征xtnz的距離作為跨模態(tài)相關(guān)性.

對(duì)于上文提出的兩個(gè)目標(biāo)函數(shù)而言，模態(tài)內(nèi)相關(guān)性旨在訓(xùn)練網(wǎng)絡(luò)的重構(gòu)輸出準(zhǔn)確還原輸入的數(shù)據(jù)特征，而模態(tài)間相關(guān)性則是訓(xùn)練網(wǎng)絡(luò)由一個(gè)模態(tài)數(shù)據(jù)發(fā)散推出另一個(gè)模態(tài)的數(shù)據(jù).為了解決兩個(gè)目標(biāo)函數(shù)不兼容導(dǎo)致單通路解碼網(wǎng)絡(luò)訓(xùn)練震蕩的問(wèn)題，本文提出了一種多模態(tài)特征學(xué)習(xí)場(chǎng)景下的解碼網(wǎng)絡(luò)模型，以堆自動(dòng)編碼器為基礎(chǔ)，對(duì)兩個(gè)目標(biāo)函數(shù)采取了多解碼通路的設(shè)計(jì).為每個(gè)模態(tài)數(shù)據(jù)設(shè)計(jì)兩條解碼通路，分別負(fù)責(zé)計(jì)算模態(tài)內(nèi)相關(guān)性和模態(tài)間相關(guān)性，如圖3所示，以“圖像-文本”多模態(tài)數(shù)據(jù)為例，解碼網(wǎng)絡(luò)包含四條通路，分別記為模態(tài)內(nèi)圖像通路（intra-image channel）、模態(tài)間圖像通路（inter-image channel）、模態(tài)內(nèi)文本通路（intra-text channel）和模態(tài)間文本通路（inter-text channel）.

圖3 多通路解碼網(wǎng)絡(luò)結(jié)構(gòu)

多通路解碼網(wǎng)絡(luò)結(jié)構(gòu)可以根據(jù)不同的輸入場(chǎng)景選擇對(duì)應(yīng)的解碼通路和目標(biāo)函數(shù)進(jìn)行參數(shù)的調(diào)整.具體而言，給定一對(duì)雙模態(tài)數(shù)據(jù)（xinz,xtnz)，為了訓(xùn)練網(wǎng)絡(luò)的跨模態(tài)發(fā)散性，將其拆分為兩組單模態(tài)數(shù)據(jù)（xinz,xtz)與（xiz,xtnz).以（xinz,xtz)為例，此時(shí)輸入圖像模態(tài)的數(shù)據(jù)為原始數(shù)據(jù)，而文本模態(tài)的輸入置為0，重構(gòu)層的期望輸出仍為已知的雙模態(tài)數(shù)據(jù)（xinz,xtnz).對(duì)應(yīng)于模態(tài)間關(guān)聯(lián)性的場(chǎng)景，此時(shí)選擇“模態(tài)內(nèi)圖像數(shù)據(jù)通路”和“模態(tài)間文本數(shù)據(jù)通路”，計(jì)算兩條通路的重構(gòu)輸出與原始雙模態(tài)數(shù)據(jù)（xinz,xtnz)之間的距離作為損失進(jìn)行網(wǎng)絡(luò)的訓(xùn)練及參數(shù)的更新，選擇的數(shù)據(jù)通路情況如圖4所示.

圖4 跨模態(tài)發(fā)散性訓(xùn)練

輸入為圖像空文本非空（xiz,xtnz)的通路選擇情況同理可得.

為了訓(xùn)練模態(tài)內(nèi)數(shù)據(jù)關(guān)聯(lián)性，此時(shí)輸入為（xinz,xtnz)，表示兩個(gè)模態(tài)數(shù)據(jù)都非空，解碼網(wǎng)絡(luò)旨在還原兩個(gè)模態(tài)的原始輸入，對(duì)應(yīng)于模態(tài)內(nèi)關(guān)聯(lián)性的場(chǎng)景.因此選擇“模態(tài)內(nèi)圖像數(shù)據(jù)通路”和“模態(tài)內(nèi)文本數(shù)據(jù)通路”，計(jì)算兩條通路的重構(gòu)輸出與原始輸入之間的距離進(jìn)行網(wǎng)絡(luò)的訓(xùn)練及參數(shù)的更新，對(duì)應(yīng)的數(shù)據(jù)通路如圖5所示.

圖5 模態(tài)內(nèi)關(guān)聯(lián)性訓(xùn)練

基于以上分析，多通路解碼網(wǎng)絡(luò)為每個(gè)模態(tài)設(shè)計(jì)了兩條通路，分別用于計(jì)算模態(tài)內(nèi)關(guān)聯(lián)性和跨模態(tài)發(fā)散性.為了進(jìn)行有效訓(xùn)練，需要擴(kuò)充原始的雙模態(tài)數(shù)據(jù)集，將雙模態(tài)數(shù)據(jù)集進(jìn)行拆分，從每一對(duì)多模態(tài)數(shù)據(jù)集中拆出兩組單模態(tài)數(shù)據(jù)對(duì)加入到原始訓(xùn)練數(shù)據(jù)集，生成新的訓(xùn)練數(shù)據(jù)集X′.在網(wǎng)絡(luò)訓(xùn)練階段，網(wǎng)絡(luò)的輸入數(shù)據(jù)有可能是雙模態(tài)數(shù)據(jù)對(duì)（兩個(gè)模態(tài)的數(shù)據(jù)都為非空值），也有可能是單模態(tài)數(shù)據(jù)對(duì)（其中一個(gè)模態(tài)非空，另一個(gè)模態(tài)為空）.在迭代訓(xùn)練過(guò)程中，以mini-batch為最小單位，在每一次迭代開(kāi)始時(shí)，隨機(jī)打亂數(shù)據(jù)對(duì)的分布（保證每一個(gè)mini-batch內(nèi)的數(shù)據(jù)都是同類(lèi)型的）.首先判斷這一批數(shù)據(jù)的輸入形式，自適應(yīng)地選擇對(duì)應(yīng)的解碼通路及目標(biāo)函數(shù)計(jì)算相關(guān)損失，然后將誤差反向傳播，從而進(jìn)行神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)整.兼顧模態(tài)內(nèi)關(guān)聯(lián)性和跨模態(tài)發(fā)散性的同時(shí)，達(dá)到根據(jù)不同輸入自適應(yīng)地選擇合適通路的目的.

訓(xùn)練策略算法如下：

2 實(shí)驗(yàn)及分析

2.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

主要有三個(gè)數(shù)據(jù)集，分別是Mir Flickr、Nus-wide和Pascal Sentence.

Mir Flickr一共包含1 000 000張從社交圖像網(wǎng)站Flickr上爬取下來(lái)的圖像，以及對(duì)應(yīng)的用戶附屬的標(biāo)簽信息，每張圖像的平均標(biāo)簽數(shù)是6個(gè).在這1 000 000張圖像中，有25 000張圖像被人工標(biāo)注到24個(gè)類(lèi)別.對(duì)于有標(biāo)簽的25 000對(duì)數(shù)據(jù)，有4 551張圖像沒(méi)有對(duì)應(yīng)的文本數(shù)據(jù)，20 449對(duì)數(shù)據(jù)是雙模態(tài)都齊全的.在實(shí)驗(yàn)中，對(duì)無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)的訓(xùn)練，從這20 449對(duì)數(shù)據(jù)對(duì)中隨機(jī)選取了5 000張圖像作為測(cè)試集進(jìn)行相關(guān)測(cè)試.

Nus-wide是一個(gè)網(wǎng)絡(luò)圖像數(shù)據(jù)集，共包含269 648張圖像及其對(duì)應(yīng)的文本標(biāo)簽.這些數(shù)據(jù)對(duì)一共被分成了81個(gè)類(lèi)，每對(duì)數(shù)據(jù)至少屬于其中的一個(gè)類(lèi).在實(shí)驗(yàn)中，篩選出至少包含5個(gè)文本標(biāo)簽的數(shù)據(jù)對(duì)，對(duì)每個(gè)類(lèi)按照其類(lèi)內(nèi)數(shù)據(jù)對(duì)的個(gè)數(shù)進(jìn)行排序，并選取了數(shù)量最多的前20個(gè)類(lèi)作為測(cè)試集.

Pascal Sentence數(shù)據(jù)集包含20個(gè)類(lèi)，共1 000對(duì)圖像/文本數(shù)據(jù)，每個(gè)類(lèi)包含50個(gè)數(shù)據(jù)樣例.這些圖像是從PASCAL 2008 development kit中隨機(jī)選擇的，每張圖像都有5個(gè)描述性的句子描述圖像內(nèi)容.由于數(shù)據(jù)集規(guī)模較小，在實(shí)驗(yàn)過(guò)程中，將每張圖像的每個(gè)描述性句子與該圖像組成一對(duì)多模態(tài)數(shù)據(jù)對(duì)，將數(shù)據(jù)集規(guī)模由原始的1 000擴(kuò)充為5 000.在實(shí)驗(yàn)中從每個(gè)類(lèi)中隨機(jī)選擇了200對(duì)數(shù)據(jù)組成訓(xùn)練集，剩下的1 000對(duì)數(shù)據(jù)作為測(cè)試集.

由于模型的性能無(wú)法直接度量，將模型學(xué)到的多模態(tài)特征的檢索性能作為模型性能的評(píng)價(jià)指標(biāo)，包括準(zhǔn)確率（Precision）、召回率（Recall）、MAP（Mean Average Precision）.

準(zhǔn)確率（Precision）：在進(jìn)行檢索請(qǐng)求時(shí)，返回的結(jié)果中與query屬于同一類(lèi)別的樣例數(shù)目與總返回樣例數(shù)目的比值：

召回率（Recall）：在進(jìn)行檢索請(qǐng)求時(shí)，返回的結(jié)果中與query屬于同一類(lèi)別的樣例數(shù)目與庫(kù)中該類(lèi)別樣例總數(shù)的比值：

MAP：多次檢索的平均準(zhǔn)確率的均值.MAP能夠結(jié)合準(zhǔn)確率與召回率綜合評(píng)估檢索系統(tǒng)的檢索性能.

2.2 多融合點(diǎn)結(jié)構(gòu)設(shè)計(jì)的有效性評(píng)估

2.2.1 實(shí)驗(yàn)設(shè)置

為了驗(yàn)證論文提出的多融合點(diǎn)交互層在強(qiáng)化模態(tài)間語(yǔ)義信息挖掘方面的有效性，以單融合點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)，保持整個(gè)網(wǎng)絡(luò)的層數(shù)固定不變，改變多融合點(diǎn)交互層的起始位置得到多個(gè)模型，通過(guò)實(shí)驗(yàn)對(duì)比這些模型的性能，進(jìn)而驗(yàn)證多融合點(diǎn)結(jié)構(gòu)設(shè)計(jì)的有效性.

進(jìn)一步地，為了確保實(shí)驗(yàn)的全面性，對(duì)同一的實(shí)驗(yàn)數(shù)據(jù)集提取多種不同類(lèi)型的特征，分別在單融合點(diǎn)模型及多融合點(diǎn)模型上進(jìn)行了多組實(shí)驗(yàn)，通過(guò)模型輸出的多模態(tài)特征的檢索準(zhǔn)確率及召回率比較現(xiàn)有單融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)與論文提出的多融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)的性能差異.

在實(shí)驗(yàn)中，固定網(wǎng)絡(luò)層數(shù)為五層，各層節(jié)點(diǎn)數(shù)設(shè)置如表1所示.

表1 網(wǎng)絡(luò)節(jié)點(diǎn)設(shè)置信息

2.2.2 結(jié)果與討論

圖6給出的是以固定層數(shù)的單融合點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)，改變多融合點(diǎn)交互層的起始位置得到的各個(gè)模型的性能.其中橫坐標(biāo)表示的是多融合點(diǎn)結(jié)構(gòu)開(kāi)始的層數(shù).從圖6中可以看出，對(duì)于5層的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)，融合點(diǎn)結(jié)構(gòu)的起始位置對(duì)網(wǎng)絡(luò)性能的影響是先升后降，在橫坐標(biāo)為3處達(dá)到最大值.從1到3性能提升說(shuō)明在低層特征空間進(jìn)行跨模態(tài)挖掘帶來(lái)了更多的噪音累積向后傳播影響了模型性能，與特征分布標(biāo)準(zhǔn)化的結(jié)論相呼應(yīng).從3到5性能下降說(shuō)明減少融合點(diǎn)結(jié)構(gòu)設(shè)計(jì)會(huì)減少跨模態(tài)語(yǔ)義信息的挖掘，降低了輸出特征的信息量，影響了學(xué)習(xí)網(wǎng)絡(luò)性能.實(shí)驗(yàn)數(shù)據(jù)證明了本文提出的多融合點(diǎn)結(jié)構(gòu)設(shè)計(jì)對(duì)多模態(tài)特征學(xué)習(xí)有正向影響.

圖6 多融合點(diǎn)起始位置對(duì)模型性能的影響

圖7給出了不同輸入場(chǎng)景下，單融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)與多融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)輸出的多模態(tài)特征的檢索性能差異.

圖7 單融合點(diǎn)與多融合點(diǎn)模型性能

當(dāng)使用深度學(xué)習(xí)特征時(shí)，單融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)與多融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)的性能分別達(dá)到了各自的最優(yōu)值，且多融合點(diǎn)模型的性能與單融合點(diǎn)相比具有明顯的優(yōu)勢(shì).

融合后的多模態(tài)特征比單模態(tài)特征性能更佳，且多融合點(diǎn)結(jié)構(gòu)強(qiáng)于單融合點(diǎn)結(jié)構(gòu).說(shuō)明多融合點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)對(duì)多模態(tài)特征學(xué)習(xí)有正向影響.

當(dāng)使用傳統(tǒng)特征時(shí)，單融合點(diǎn)網(wǎng)絡(luò)性能>兩個(gè)單模態(tài)特征性能>多融合點(diǎn)網(wǎng)絡(luò)性能.說(shuō)明了傳統(tǒng)特征模態(tài)間差異較大，多融合點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)由于進(jìn)行了多次跨模態(tài)關(guān)聯(lián)引入了額外的誤差.

2.3 多模態(tài)學(xué)習(xí)模型訓(xùn)練策略的有效性評(píng)估

2.3.1 實(shí)驗(yàn)設(shè)置

在本實(shí)驗(yàn)中分別使用自動(dòng)編碼器經(jīng)典的單解碼通路訓(xùn)練策略與論文提出的基于多解碼通路網(wǎng)絡(luò)學(xué)習(xí)策略訓(xùn)練整個(gè)網(wǎng)絡(luò)，對(duì)比各模型輸出多模態(tài)特征的檢索表現(xiàn).多解碼通路網(wǎng)絡(luò)能夠根據(jù)輸入自適應(yīng)選擇對(duì)應(yīng)的目標(biāo)函數(shù)，而對(duì)于單解碼通路的網(wǎng)絡(luò)，為了將這兩個(gè)相關(guān)性綜合起來(lái)使用，將其組合起來(lái)作為網(wǎng)絡(luò)總的目標(biāo)函數(shù).

2.3.2 結(jié)果與討論

比較多解碼通路模型輸出特征與單解碼通路模型輸出特征的檢索性能，從圖8中可以看出多解碼通路模型輸出特征的檢索性能與單解碼通路相比有顯著提升，說(shuō)明多解碼通路能夠有效地指導(dǎo)多模態(tài)特征學(xué)習(xí)場(chǎng)景下的網(wǎng)絡(luò)訓(xùn)練，提升模型輸出多模態(tài)特征的性能.

圖8 模型性能對(duì)比

2.4 多模態(tài)特征學(xué)習(xí)模型整體性能評(píng)估

2.4.1 實(shí)驗(yàn)設(shè)置

在本實(shí)驗(yàn)中將多融合點(diǎn)的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)模型與多模態(tài)特征學(xué)習(xí)場(chǎng)景下的網(wǎng)絡(luò)學(xué)習(xí)策略結(jié)合起來(lái)，衡量整體模型的性能.將MFMDL（Multi-fusion Multimodal Deep Learning）與目前多模態(tài)特征領(lǐng)域的現(xiàn)有算法進(jìn)行對(duì)比，包括DBM、DBN、Bi-AE（Bimodal-Autoencoder）和Cor-AE（Correspondence-Autoencoder）.

實(shí)驗(yàn)中，為了減少隨機(jī)性，采取多次獨(dú)立實(shí)驗(yàn)去平均值的方式匯報(bào)實(shí)驗(yàn)結(jié)果.對(duì)于Mir?Flickr和Nus-wide數(shù)據(jù)集，采用一個(gè)8層網(wǎng)絡(luò)模型：包含2層全連接層、3層多融合點(diǎn)交互層，以及3層多通路解碼層.而Pascal Sentence由于數(shù)據(jù)集較小，采用了一個(gè)5層網(wǎng)絡(luò)模型：包含1層全連接層、2層多融合點(diǎn)交互層及2層多通路解碼層.

各網(wǎng)絡(luò)每一層的神經(jīng)元數(shù)目設(shè)置如表2所示.

表2 各數(shù)據(jù)集對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)

2.4.2 結(jié)果與討論

從圖9中可以看出，在相同的實(shí)驗(yàn)設(shè)置下，本論文提出的MFMDL算法在三個(gè)數(shù)據(jù)集上都有比較明顯的優(yōu)勢(shì).論文方法能提升多模態(tài)特征檢索性能的原因主要有兩個(gè)方面：一方面，提出了基于多融合點(diǎn)的特征學(xué)習(xí)網(wǎng)絡(luò)，多融合點(diǎn)的結(jié)構(gòu)設(shè)計(jì)在生成中間層特征表達(dá)過(guò)程中能夠強(qiáng)化模態(tài)間關(guān)聯(lián)關(guān)系，達(dá)到充分挖掘模態(tài)間語(yǔ)義信息的目的；另一方面，針對(duì)多模態(tài)特征學(xué)習(xí)這一具體場(chǎng)景對(duì)網(wǎng)絡(luò)的訓(xùn)練及優(yōu)化策略加以改進(jìn)，提出了多通路的解碼網(wǎng)絡(luò)及配套的輸入自適應(yīng)交替式訓(xùn)練策略，在訓(xùn)練過(guò)程中能夠兼顧模態(tài)內(nèi)固有信息的挖掘與模態(tài)間語(yǔ)義信息的挖掘，兩方面共同作用促成了性能更優(yōu)的多模態(tài)特征學(xué)習(xí)模型.

圖9 檢索準(zhǔn)確率與召回率

3 結(jié)語(yǔ)

本文提出了一種基于多融合點(diǎn)的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)，能夠加強(qiáng)不同模態(tài)數(shù)據(jù)間交互作用，充分挖掘模態(tài)間語(yǔ)義關(guān)聯(lián).引入了深度特征并進(jìn)行了一系列標(biāo)準(zhǔn)化措施平衡不同模態(tài)的特征分布上的差異，消除多融合點(diǎn)結(jié)構(gòu)帶來(lái)的關(guān)聯(lián)誤差.在訓(xùn)練階段，文本針對(duì)多模態(tài)特征學(xué)習(xí)具體場(chǎng)景定義了網(wǎng)絡(luò)訓(xùn)練的目標(biāo)函數(shù)；提出了一種多模態(tài)特征學(xué)習(xí)場(chǎng)景下的多通路解碼網(wǎng)絡(luò)，對(duì)兩個(gè)目標(biāo)函數(shù)采取了多解碼通路的設(shè)計(jì)；提出了一種基于多解碼通路的輸入自適應(yīng)交替式訓(xùn)練策略，根據(jù)輸入數(shù)據(jù)的具體情況選擇相對(duì)應(yīng)的通路進(jìn)行訓(xùn)練和優(yōu)化.

在實(shí)驗(yàn)階段，選擇了三個(gè)領(lǐng)域內(nèi)常用的多模態(tài)數(shù)據(jù)集，采取控制變量法從多角度對(duì)本文提出的各算法實(shí)施有效評(píng)測(cè).最終的實(shí)驗(yàn)結(jié)果證實(shí)了本文工作的有效性.