基于無監督深度學習的跨模態數據目標檢索

2021-11-17 03:12:52紀沖，劉巖

計算機仿真 2021年3期

紀沖，劉巖

(內蒙古農業大學計算機與信息工程學院，內蒙古呼和浩特 010018)

1 引言

移動設備、社交網絡以及自媒體平臺的蓬勃發展，圖像、文本、音頻以及視頻等多媒體數據出現了指數級的上漲趨勢，但這些具有差異性的數據往往可能是在對同一事件或者主題進行描述，所以，用戶迫切希望在海量多媒體數據中，通過其中一種模態檢索到其它相關聯的模態數據，此類檢索也叫作跨模態檢索。當前的檢索技術分為單模態與多模態檢索，前者的檢索目標必須為相同模態種類，而后者則通過融合不同模態，依據模態的互補信息，達成檢索目的，該檢索階段中必須確保查詢集和檢索集兩者之一具有相同模態，該方法雖然可以處理多種模態數據，但是無法完成不同模態間的跨模態檢索。近年來，跨模態檢索技術得到了眾多相關學者的廣泛關注，并成為學術領域的研究熱點。

文獻[1]提出的異構哈希網絡下跨模態人臉檢索方法，利用圖像與視頻分支，在一個公共空間中進行人臉圖像與人臉視頻映射以及非線性哈希函數學習，應用Fisher、softmax以及三元排序等損失函數對哈希網絡進行訓練，通過設定Fisher為公共空間判別力，softmax指代空間表達的可分性，將三元排序用于檢索性能提升，完成人臉視頻數據集合的跨模態人臉檢索；文獻[2]為了獲取更加真實精準的物體材質分析結果，構建了一種表面材質的跨模態檢索方法，經過梅爾頻率倒譜系數特征提取，利用卷積神經網絡取得圖像特征，通過典型相關分析達成特征與子空間的映射操作后，根據歐氏距離得到檢索結果；而文獻[3]則針對跨模態檢索算法中不同模態數據間的潛在語義關聯，設計出一種融合多層語義的跨模態檢索模型，基于深度玻爾茲曼機的雙向框架屬性，建立文本模態各抽象層次與圖像模態各抽象層次關系，依據挖掘到的模態抽象層內在關聯，達成數據集檢索。

由于上述方法均沒有將模態內數據結構與模態間結構匹配關聯考慮在內，為此，提出一種基于無監督深度學習的跨模態數據目標檢索方法。

2 無監督深度學習網絡構建

無監督深度學習網絡主要由棧式自編碼[4]神經網絡與深度信任網絡兩部分共同架構而成，基于自編碼器與受限玻爾茲曼機[5]的基本單元，通過棧式框架完成深層神經網絡的創建。

2.1 棧式自編碼神經網絡模塊

由各層自編碼器組成的棧式自編碼神經網絡中，自編碼器具備稀疏性與降噪性兩種屬性，通過將下一層自編碼器的輸出作為上一層自編碼器的輸入，實現所需層數的迭代操作。

假設第k層自編碼器W(1)、W(2)、b(1)以及b(2)的對應參數分別是W(k，1)、W(k，2)、b(k，1)以及b(k，2)，那么，采用下列兩個表達式，對該層自編碼器的編碼方式進行描述

z(l+1)=W(l，1)a(l)+b(l，1)

(1)

a(l+1)=f(z(l+1))

(2)

式中，矢量為a(l)，用于表示第l層神經元[6]的激活狀態。若解決事件類別屬于分類問題，則可以在最頂層設置一個分類器。

同理，能夠推導出下列兩個表達式，來表示第k層自編碼器的解碼方式

z(n-l)=W(n-l，2)a(n-l+1)+b(n-l，2)

(3)

a(n-l)=f(z(n-l))

(4)

式中，神經網絡的層級總數是n。

利用貪婪的逐層初始化策略，對棧式自編碼神經網絡進行初始化處理，操作起始點為神經網絡的最底層，隨后根據所得的初始化參數W(1，1)、W(1，2)、b(1，1)以及b(1，2)，對首層的隱含層神經單元激活狀態a(1)進行求取，因為第二層自編碼器的輸入即為首層的輸出，所以，依據第二層自編碼器的輸入a(1)，對該層的網絡參數W(2，1)、W(2，2)、b(2，1)以及b(2，2)進行初始化，從而取得第二層的隱含層神經單元激活狀態a(2)，待到達所需層數時，該迭代操作終止。若頂層存在分類器，那么，可將輸入設定為最頂層的激活狀態，進而實現分類器所需參數的初始化處理。

2.2 深度信任網絡模塊

構建深度信任網絡(deep belief network，簡稱DBN)的基本單元為受限玻爾茲曼機，通過逐層初始化與整體反饋策略，不僅使深層網絡的訓練弊端得以有效解決，降低了網絡訓練復雜度，而且掀起了深度學習的探索浪潮，該網絡既能夠做判別使用，也能夠用于生成操作。

利用無向連接把圖中的h2層與h3層聯立為聯合內存，而x與h1、h1與h2的層間都為有向連接，其中，認知權值是由底層向上層的權值，功能是按照從下到上的順序產生認知，而生成權值則是由頂層向下層的權值，功能是按照從上到下的順序生成數據。最底層屬于可見層，決定因素為訓練數據，且該層級矢量中的每一維均可利用該層的神經元表示。深度信任網絡的預訓練模式為逐層進行，在對各層實施訓練的過程中，依據可見層對隱藏層進行推斷，隨后再將該隱藏層作為下一層級的可見層。

圖1 深度信任網絡框圖

深度信任網絡的訓練流程描述如下：

1)把訓練數據作為輸入項，對受限玻爾茲曼機的底層進行訓練；

2)根據上一層級生成的隱藏層狀態輸入項，完成該層級受限玻爾茲曼機的訓練；

3)迭代操作第二步，待生成所需隱藏層數后結束；

4)如果頂層的受限玻爾茲曼機訓練數據存在標簽，則需要在訓練過程里添加神經元作為分類標簽，共同完成訓練。若頂層受限玻爾茲曼機包含10個神經元，并劃分訓練數據為兩個類別，則頂層受限玻爾茲曼機含有12個神經元，當各訓練數據歸屬于對應的類別時，該類別的對應神經元標簽標記為1，否則，標記成0。

深度信任網絡的調優階段將代價函數設定為交叉熵，通過wake流程與sleep流程，使優化參數滿足最小化條件。其中，wake流程即為認知階段，根據外界特征與認知權值，完成各層結點狀態的生成，再采用梯度下降法，對各層間的生成權值進行修改；而sleep流程即為生成階段，依據頂層表示與生成權值，得到底層狀態，從而實現認知權值的更改。

3 基于無監督深度學習的跨模態數據目標檢索

基于架構的無監督深度學習網絡，對跨模態數據目標檢索方法進行設計。

3.1 跨模態對應受限玻爾茲曼機搭建

為了實現跨模態數據目標檢索，將單模態受限玻爾茲曼機擴展為跨模態對應受限玻爾茲曼機，其構建示意圖如下所示。

圖2 對應受限玻爾茲曼機框架圖

從圖2中可以看出，對應受限玻爾茲曼機中兩個單模態受限玻爾茲曼機擁有的神經元個數相同，在表示層進行關聯的各模態相似約束用圖中虛線來表示。

假設跨模態搜索的數據目標分別是圖像與文本，則從兩目標受限玻爾茲曼機的輸入層到表示層的映射函數分別用fI(·)與fT(·)表示，包含目標受限玻爾茲曼機輸入層與表示層間權值W、輸入層偏置[7]c以及表示層偏置b等所有指標在內的參數均表示為θ，得到θ={WI，cI，bI，WT，cT，bT}，其中，圖像為I，文本為T。

minimizeθLD+αLI+βLT

(5)

式中，α與β不能取值為0，在表示空間內數據目標之間的歐幾里得距離總和為LD，也叫作多模態關聯偏差，數據目標受限玻爾茲曼機的優化目標函數分別是LI與LT，其表達式分別如下所示

(6)

(7)

(8)

利用一種輪流優化方法對目標函數進行計算，基于圖像與文本數據目標的似然，采取對比散度算法實施參數更新，再根據關聯偏差，利用梯度下降算法更新參數。該學習算法的流程描述如下：

1)采用下列對比散度計算公式，對圖像受限玻爾茲曼機的參數進行更新

θ←θ+ε·α·Δθ

(9)

式中，θ∈(WI，cI，bI)，學習速率為ε。

2)文本受限玻爾茲曼機的參數更新，由下列對比散度計算公式完成。

3)結合關聯誤差，通過下列梯度下降法實現參數更新

(10)

σI(·)=σ(·)(1-σ(·))

(11)

4)對上述三個階段進行迭代操作，直到收斂后結束。

3.2 跨模態數據目標檢索流程

隨著多模態信息的不斷增加，其數據量日益龐大，根據數據目標之間存在的關聯性進行跨模態檢索，具有一定的實踐意義，其檢索具體流程描述如下：

1)數據預處理：因為各模態數據均為非結構化或半結構化，且其中會產生不相關的噪聲，因此，為了準確提取數據特征，要對各模態數據實施預處理。初始所提數據通常為所提文檔，無法直接采用無監督深度學習網絡進行訓練，所以，先利用結構分詞模型執行分詞處理，再使用word2vec[9]實施詞向量化，最后，依據單詞和文本的相關性，構建詞向量矩陣(即文本)；圖像數據的尺寸大小不一，應用OpenCV統一調整圖像大小為相同尺寸后完成去噪處理。

2)數據特征提取：圖像經過預處理被轉換為用來表示空間的特征向量，統計圖像“詞頻”就是對特征集合“單詞表”中與各特征相對應的“單詞”出現次數進行統計，結合所得詞頻數據與全部圖像信息，架構圖像特征向量空間；利用LDA模型對預處理的文本單詞實施建模，隨后依據單詞的主題分布推導出文本主題分布狀況[10]。

3)跨模態檢索：根據無監督深度學習網絡創建的對應受限玻爾茲曼機模型，得到圖像與文本之間的關聯誤差，利用提取的數據目標特征，完成圖像與文本的跨模態檢索。

4 仿真研究

4.1 仿真環境

仿真環境的硬件配置是：32位Windows7系統，Pentium四核3.2GHz處理器，運行內存2GB；軟件配置為MATLAB R2012a版本。

4.2 測試指標

檢索性能評估指標設置成平均值平均精度mAP，已知任意查詢點q和該點的前R個查詢結果，則其平均精度計算公式如下所示

(12)

式中，查詢點q的實際近鄰個數為L，前r個檢索到的文檔精度為P(r)，指示函數表示為δ(r)，若指示函數取值是1，則第r個文檔與檢索到的文檔具有關聯性，反之，若取值為0，則不存在相關性。因此，推導出下列平均值精度表達式

(13)

其中，查詢點數量是Q。

4.3 檢索性能評估

為了驗證所提方法的適用性與理想性，分別采用文獻[2]方法、文獻[3]方法與所提方法進行仿真，仿真數據集合分別是由3000個多媒體文檔構成的wiki data集合與由25000個多媒體文檔組成的mirflickr-25K數據集合。下圖分別是不同方法檢索數據集合的跨模態檢索精度。

圖5 不同方法檢索示意圖

通過圖中曲線走勢可以看出，檢索較小的wiki數據集合時，三種方法均具有良好的檢索精度，雖然評估參數值相同，但所提方法仍有較為明顯的優勢；當對數據較多的mirflickr-25K集合進行檢索時，典型相關分析策略與自學習哈希方法的平均精度參數并沒有隨著數據量的增加而提升檢索性能，反而出現下降情況，而所提方法則呈現出數據越多、精度越高的趨勢，具有顯著的優越性。

4.4 檢索效率對比

為了驗證所提方法的檢索效率，對比不同方法檢索所用時間，對比結果如圖6所示。

圖6 不同方法檢索用時對比圖

如圖所示，相比傳統方法，所提方法檢索用時最少，充分證明所提方法檢索效率更高，實際應用性較高。

5 結論

由于當前檢索技術的研究多數仍集中在本質為單模態檢索的領域中，造成模態無法被檢索成功，為此，提出一種基于無監督深度學習的跨模態數據目標檢索方法。該方法既推動了相關機器學習理論的應用與發展，也滿足了檢索方式多樣化的需求，具備重要的應用價值，為后續研究奠定了數據資源。