航空安全事件圖文關(guān)聯(lián)方法的研究

2020-12-14 09:13:54白云清盧林燕

計(jì)算機(jī)應(yīng)用與軟件 2020年12期

王紅白云清盧林燕

(中國民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院天津 300300)

0 引言

隨著全媒體時(shí)代的到來，多模態(tài)數(shù)據(jù)融合方法的研究成為業(yè)界關(guān)注的熱點(diǎn)。圖文關(guān)聯(lián)的本質(zhì)是跨模態(tài)信息匹配[1]，通過分析隱含語義信息，把具有相同或者相似含義的圖像與文本模態(tài)進(jìn)行關(guān)聯(lián)。圖像與文本的研究主要集中在單向關(guān)聯(lián)，如圖像識別[2-3]、圖像描述[4-6]、文本生成圖像[7-8]等。近年來，圖文關(guān)聯(lián)從分類網(wǎng)絡(luò)[9]發(fā)展為不同模態(tài)特征的融合，主要包含特征提取、特征嵌入、目標(biāo)函數(shù)三個(gè)部分。

在特征提取方面，出現(xiàn)了將RNN、LSTM和VQA等深度學(xué)習(xí)算法應(yīng)用到圖文關(guān)聯(lián)上的算法[10-12]。HGLMM+GMM模型是一種高斯-拉普拉斯混合模型(Hybrid Gaussian-Laplacian Mixture Model)和高斯混合模型(Gaussian Mixture Model)的組合[13]，用于文本信息的特征提取，主要結(jié)合了兩個(gè)分布模型的優(yōu)勢，能夠根據(jù)不同組件的不同維度進(jìn)行混合分布建模。完全卷積網(wǎng)絡(luò)[14]是一種通過提取高維的圖像特征獲得更多細(xì)節(jié)信息的方法，主要用于圖像分割。本文使用了它的特征提取部分。

在特征嵌入方面，主要有深度卷積網(wǎng)絡(luò)(VGGNet)和殘差網(wǎng)絡(luò)(Residual Network,ResNet)[15]。根據(jù)ResNet，Liu等[16]提出了一種特征嵌入模型RRF-NET，該模型是一個(gè)雙分支網(wǎng)絡(luò)，每個(gè)分支上連接了四個(gè)完全連接層(Fully Connected，F(xiàn)C)。在第三個(gè)FC層上構(gòu)建循環(huán)殘差融合模塊，引入正向的殘差連接與反向的循環(huán)連接，并對循環(huán)中的每一次輸出融合，獲得更深入的更具有代表性的特征。此外，該模塊還附加有批量歸一化層(BN)[17]和整流線性單元(ReLU)層用于批規(guī)范化和緩解梯度彌散。

在目標(biāo)函數(shù)方面，一個(gè)好的損失函數(shù)可以使處理過的特征得到充分的計(jì)算，如歐幾里得函數(shù)[18]。本文采用的是基于余弦距離的雙向排序函數(shù)，可得到分離模態(tài)的相似度。

在航空安全事件信息管理與應(yīng)用領(lǐng)域，目前的研究方法主要以針對文本模態(tài)的數(shù)據(jù)處理為主[19-20]，而面向多模態(tài)數(shù)據(jù)特別是圖文關(guān)聯(lián)的分析研究甚少。為此，本文提出了HG-RRF(HGLMM+GMM+RRF)模型，將HGLMM+GMM與RRF相結(jié)合，在分別提取文本與圖像特征的基礎(chǔ)上，通過RRF嵌入進(jìn)行圖文關(guān)聯(lián)。該模型旨在利用混合分布特征提取的靈活性和深度特征嵌入的表現(xiàn)力，實(shí)現(xiàn)航空安全事件圖文關(guān)聯(lián)的方法研究。

1 研究思路

航空安全事件中圖文關(guān)聯(lián)的研究思路如圖1所示，其中：1)特征提取。考慮到圖像與文本作為兩種不同的模態(tài)擁有完全不同的特征，所以針對兩種模態(tài)先分別采用HGLMM+GMM與FCN方法進(jìn)行特征向量的提取。2)特征嵌入。將特征提取獲得的圖像特征向量和文本特征向量分別輸入到對應(yīng)的特征嵌入網(wǎng)絡(luò)中，進(jìn)行參數(shù)更新、非線性激活、RRF特征嵌入與批規(guī)范化，從而得到更深、更具有代表性的特征向量。3)特征融合。將已經(jīng)獲得的文本與圖像特征向量通過內(nèi)積計(jì)算映射到同一空間中，在這個(gè)空間內(nèi)通過基于余弦距離的雙向排序結(jié)果損失函數(shù)計(jì)算模態(tài)間的相似度。

圖1 研究思路

2 基于HG-RRF的模型構(gòu)建

2.1 特征提取

由于文本與圖像是兩種表征不同的模態(tài)，故分別對其使用相應(yīng)的特征提取方式。

2.1.1文本特征提取

對于文本信息，采用HGLMM與GMM的組合模型提取特征。令x為隨機(jī)變量，單變量情況下的HGLMM為：

h(x;μ,σ,m,s,b)=l(x;m,s)b·g(x;μ,σ)1-b

(1)

式中：l(x;m,s)是參數(shù)化的拉普拉斯分布，m為拉普拉斯分布的位置參數(shù)，s為尺度參數(shù)，g(x;μ,σ)是參數(shù)化的高斯分布，μ為平均差，σ為標(biāo)準(zhǔn)差，b為控制這兩個(gè)分布之間的加權(quán)幾何平均。將HGLMM與GMM組合，表示如下：

hg(x;μ,σ,m,s,b)=h(x;μ,σ,m,s,b)+g(x;μ,σ)

(2)

2.1.2圖像特征提取

對于圖像信息，采用FCN對其進(jìn)行特征提取。FCN是將像素級分類用于語義級別的圖像分割，可以接收任意大小的輸入圖像。FCN通過端到端訓(xùn)練，輸出融合了精細(xì)層與粗略層的全局結(jié)構(gòu)的局部預(yù)測。它的網(wǎng)絡(luò)層通常由三維數(shù)組表示：

slayer=h×w×d

(3)

式中：h和w是空間維度；d是特征或通道維數(shù)。卷積網(wǎng)絡(luò)的層是平行層，令x為網(wǎng)絡(luò)中的某一特定層，y為其后繼層，則y層在坐標(biāo)(i，j)的數(shù)據(jù)向量yij計(jì)算公式如下：

yij=fks({xsi+δi,sj+δj}0≤δi,δj≤k)

(4)

式中：k為卷積核尺寸；s為步長；fks決定層的類型(例如卷積或者池化);δ為步長內(nèi)的偏移量。該卷積網(wǎng)絡(luò)的損失函數(shù)為最后一層空間維度的總和，梯度也是每層空間梯度的總和。

2.2 特征嵌入

2.2.1循環(huán)連接

首先，在網(wǎng)絡(luò)每個(gè)分支的第三個(gè)FC層上添加一個(gè)循環(huán)連接，使網(wǎng)絡(luò)展開為多層。然后，將通過該FC層處理的特征返回輸入，進(jìn)行循環(huán)的特征處理，從而提取出更深層次的特征向量。特征模塊上的循環(huán)連接如圖2(a)和圖2(b)所示，T為循環(huán)次數(shù)。由經(jīng)驗(yàn)值得知，T取3時(shí)，可提取出最具有表現(xiàn)力的特征。

(a)循環(huán)連接層

2.2.2殘差連接

為這個(gè)特征嵌入模塊的輸入向量增添一個(gè)殘差連接，也稱一致性連接。該連接是由ResNet啟發(fā)得到的，其優(yōu)點(diǎn)是可以減小過擬合的風(fēng)險(xiǎn)。殘差學(xué)習(xí)的計(jì)算方式如下：

H(x)=F(x)+x

(5)

在ResNet中，F(xiàn)(x)是經(jīng)過一系列層級聯(lián)而成的學(xué)習(xí)模塊，再將它與原始的輸入特征x相加。同理，一致性連接將輸入的特征向量與經(jīng)過一次FC層、BN層和ReLU層計(jì)算得到的特征向量相加，得到新的特征向量。新的特征向量再通過循環(huán)連接返回到輸入，繼續(xù)重復(fù)這一步驟，直到循環(huán)次數(shù)結(jié)束。一致性連接與循環(huán)連接方向相反，前者用于加強(qiáng)特征，后者用于加深特征。殘差連接的學(xué)習(xí)方式如下：

h(x)=σ(f(x))+x

(6)

h(xt)=σ(f(xt))+xt

(7)

式中：f(x)表示FC層的輸出；σ(f(x))表示施加給FC層的ReLU函數(shù)。將殘差連接與之前的循環(huán)連接結(jié)合，循環(huán)第t次。圖3(a)是ResNet的示意圖，圖3(b)是本文使用的一致性連接。

(a)ResNet層圖示

2.2.3中間特征融合

一般情況下，特征流入部署在FC層的特征嵌入模塊后，經(jīng)過其中的一致性映射以及循環(huán)，將輸出一個(gè)最終的特征。為了增加中間輸出特征對最后輸出特征的影響，需要對循環(huán)中每一步輸出的特征向量通過卷積融合的方式整合到一起，該過程的計(jì)算公式如下：

Sconv=wf×S+bf

(8)

式中：wf和bf分別為權(quán)重和偏移量。

融合模塊如圖4所示。

圖4 嵌入模塊的特征融合

2.2.4嵌入分支

由于圖像和文本表征不同，因此采用不同的特征提取方式提取特征，所提出的特征在維度與其他特性上也有所差異。所以特征嵌入分別為它們布置了相同功能以用來處理不同特性特征的分支。分支示意圖如圖5所示，輸入可以是文本或者圖像的提取特征。

圖5 RRF特征嵌入分支圖

該分支有4個(gè)FC層。FC1的Dropout函數(shù)用于對輸入特征進(jìn)行參數(shù)更新，ReLU函數(shù)可以緩解梯度彌散和運(yùn)算效率的問題。FC2附帶的BN層則用于規(guī)范化數(shù)據(jù)，提高網(wǎng)絡(luò)泛化能力。FC3用作RRF特征嵌入。FC4對RRF的輸出特征再次進(jìn)行批規(guī)范化與歸一化。

2.3 特征融合

將文本特征與圖像特征映射到同一空間，其目的是衡量二者的相似性。將圖像x與文本y映射在同一空間的特征分別表示為f(x)與f(y)，使用余弦距離度量相似性，距離數(shù)值與相似性呈負(fù)相關(guān)，其公式如下：

(9)

式中：s(x,y)表示余弦距離度量的計(jì)算結(jié)果。通過這種方式進(jìn)行計(jì)算，可以使s(x,y)與相似度呈正相關(guān)。該損失函數(shù)由圖像到文本的排序損失與文本到圖像的排序損失構(gòu)成。

2.3.1圖像到文本的排序損失

(10)

式中：N為參與加權(quán)的單向損失數(shù)量總和;α1和α2表示權(quán)重；m為邊界參數(shù)。

2.3.2文本到圖像的排序損失

(11)

2.3.3雙向排序損失

本文在分析兩種模態(tài)間的單向等級損失之后，將2個(gè)損失函數(shù)整合到一起，同時(shí)考慮更為豐富的因素，生成雙向的等級損失函數(shù)。公式如下：

(12)

式中：β1、β2分別為衡量圖像-文本、文本-圖像2個(gè)單向等級損失的權(quán)重。

3 實(shí)驗(yàn)與效果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

分別在公共數(shù)據(jù)集Flickr30K和航空安全事件數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。公共數(shù)據(jù)集Flickr30K[21]共有31 783幅圖像，每一幅圖片都相應(yīng)地標(biāo)注有5個(gè)句子描述，參考Karpathy等的實(shí)驗(yàn)數(shù)據(jù)分布，令其中29 783幅圖像作為訓(xùn)練集，1 000幅作為驗(yàn)證集(驗(yàn)證與訓(xùn)練一同進(jìn)行)，1 000幅作為測試集。民航領(lǐng)域數(shù)據(jù)集是根據(jù)世界民航事故調(diào)查跟蹤信息手工組織得到的民航安全事件數(shù)據(jù)集。該數(shù)據(jù)集共有1 432幅圖像，參考公共數(shù)據(jù)集Flickr30K的形式，對每一幅圖片標(biāo)注了3個(gè)自然語言句子描述，選取了1 232幅圖像作為訓(xùn)練集與驗(yàn)證集的合集，200幅作為測試集。

3.2 參數(shù)設(shè)置與實(shí)驗(yàn)評價(jià)指標(biāo)

模型訓(xùn)練在目前流行的深度學(xué)習(xí)工具Caffe上進(jìn)行。模型的輸入是針對文本與圖像分別進(jìn)行特征提取過的特征向量，輸入后根據(jù)維度的不同區(qū)分其特征，進(jìn)入各自分支進(jìn)行訓(xùn)練。FC1輸出的特征通道為2 048，此后均縮小為512以精簡計(jì)算量。對于Flickr30K的訓(xùn)練驗(yàn)證集中的30 783個(gè)訓(xùn)練樣本，數(shù)據(jù)分1 000批次輸入訓(xùn)練(在民航安全事件數(shù)據(jù)集上的訓(xùn)練批次則按比例縮小)，將基礎(chǔ)學(xué)習(xí)率置為0.1，權(quán)重變化次數(shù)置為5 000，權(quán)重衰減項(xiàng)設(shè)為0.000 5，測試間隔為1 000。對于民航安全事件數(shù)據(jù)集的訓(xùn)練驗(yàn)證集中的1 232個(gè)訓(xùn)練樣本，數(shù)據(jù)分40批次輸入訓(xùn)練，學(xué)習(xí)率與權(quán)重衰減項(xiàng)仍為0.1和0.000 5，權(quán)重變化次數(shù)為200，測試間隔為200。

本文采用R@K作為對于所研究算法模型效率的評估指標(biāo)。R@K中R即召回率Recall，K是所取的排名個(gè)數(shù)。該指標(biāo)用來反映排名結(jié)果的前K個(gè)內(nèi)容中是與另一模態(tài)相匹配結(jié)果的召回率。

3.3 實(shí)驗(yàn)結(jié)果

首先對特征提取算法的效果進(jìn)行分析。本文使用了HGLMM+GMM作為圖像特征的提取算法。在文獻(xiàn)[13]所提出的2種改進(jìn)方法中，HGLMM的效果較好，根據(jù)Benjamin等所進(jìn)行的實(shí)驗(yàn)結(jié)果，使用HGLMM+GMM方法的特征提取效果優(yōu)于僅使用HGLMM方法進(jìn)行特征提取，R@K指標(biāo)在圖像到文本的檢索與文本到圖像的檢索下均有1%左右的提升。

此外，對于將RRF-NET的2個(gè)分支進(jìn)行融合這一部分，本文同樣選取了一種將兩種模態(tài)映射到同一隱藏空間方式計(jì)算相似度的融合方法——典型相關(guān)分析[22](Canonical Correlation Analysis,CCA)，K分別取1、3和5。

圖6中的R@K結(jié)果表明，基于相同的特征提取算法HGLMM+GMM，由于RRF-NET中結(jié)合一致性連接和循環(huán)連接對特征作出了深度嵌入，以及該網(wǎng)絡(luò)使用的雙向排序損失函數(shù)相對于傳統(tǒng)CCA，相似度計(jì)算精度更高，并且表現(xiàn)出在K取值增長時(shí)效果的優(yōu)越性，所以使用RRF-NET模型的跨模態(tài)融合結(jié)果明顯優(yōu)于傳統(tǒng)的CCA方法。

(a)從文本到圖像檢索的R@K結(jié)果

與RRF-NET網(wǎng)絡(luò)模型對比的基線模型(Baseline)通過如下方式設(shè)置：雙分支，但將RRF-NET模型中的RRF模塊替換為普通FC層，即在每條分支上部署4個(gè)FC層。使用上述的基線模型與將第三層部署為RRF模塊的RRF-NET網(wǎng)絡(luò)進(jìn)行比較。

另外，將本文方法與其他一些典型的面向圖像和文本雙模態(tài)的特征嵌入方法進(jìn)行對比，實(shí)驗(yàn)均在公共數(shù)據(jù)集Flickr30K上進(jìn)行，K取1和5，實(shí)驗(yàn)結(jié)果如表1所示。

表1 Flickr30K數(shù)據(jù)集下的各方法實(shí)驗(yàn)結(jié)果比較 %

由Baseline與RRF-NET的對比證實(shí)，在網(wǎng)絡(luò)架構(gòu)上使用RRF模塊進(jìn)行特征嵌入的效果顯著優(yōu)于沒有使用RRF模塊的基線模型。此外本文提出的HG-RRF模型與以往的一些方法相比，都具有表現(xiàn)力足夠強(qiáng)的結(jié)果。在K取比較大的數(shù)值時(shí)，相應(yīng)的召回率會有很大幅度的提高。由于特征提取方面做出的對HGLMM結(jié)合GMM這一改進(jìn)，實(shí)驗(yàn)效果相對于僅使用HGLMM提取特征的RRF-NET模型有接近1%的提升。

3.4 實(shí)驗(yàn)結(jié)果示例

民航安全事件數(shù)據(jù)集上的圖文關(guān)聯(lián)結(jié)果如圖7所示，在檢索出的相應(yīng)結(jié)果中尋找對應(yīng)的事件表示。對于圖像到文字的檢索，用加粗的字體來表示正確的關(guān)聯(lián)結(jié)果。對于文字到圖像的檢索，使用一個(gè)笑臉圖例來表示正確關(guān)聯(lián)的結(jié)果。

(a)由文本檢索圖像的結(jié)果

將本文提出的HG-RRF模型應(yīng)用在航空安全事件數(shù)據(jù)集上，反映實(shí)驗(yàn)效果的實(shí)驗(yàn)指標(biāo)R@K如表2所示。這里同樣使用了Baseline模型與HG-RRF模型比較，K取1和3。

表2 航空安全事件數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果比較

可以看出，在航空安全事件數(shù)據(jù)集上，將HGLMM+GMM特征提取與部署了RRF模塊的特征嵌入結(jié)合，比在不設(shè)置RRF模塊的Baseline網(wǎng)絡(luò)上進(jìn)行，前K個(gè)排名結(jié)果反映的召回率均得到了顯著的提高。

4 結(jié) 語

本文提出一種跨模態(tài)圖文關(guān)聯(lián)模型HG-RRF，并將它應(yīng)用在航空安全事件的數(shù)據(jù)管理上，對圖像與文本進(jìn)行關(guān)聯(lián)，實(shí)驗(yàn)表明該圖文關(guān)聯(lián)方法有較好的效果，為構(gòu)建大規(guī)模、多模態(tài)、多來源的航空安全事件信息庫提供方法支撐，同時(shí)也能使急需聚焦的安全事件相關(guān)信息實(shí)現(xiàn)半自動化關(guān)聯(lián)，提高了知識構(gòu)建的效率。如何將更多的跨模態(tài)信息(如視頻、音頻等)納入航空安全事件知識圖譜的構(gòu)建中，還有待進(jìn)一步研究。