田 鑫,季 怡,高海燕,林 欣,劉純平,2+
1.蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006
2.符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(吉林大學(xué)),長(zhǎng)春 130012
場(chǎng)景圖[1]是圖像中所包含信息的結(jié)構(gòu)化表示,不僅可以表示圖像中所有的實(shí)體,并且還可以表達(dá)不同實(shí)體之間存在的關(guān)系信息。對(duì)在圖像中檢測(cè)到的實(shí)體以及關(guān)系通常使用<主語(yǔ)-謂語(yǔ)-賓語(yǔ)>三元組的形式表示。廣泛應(yīng)用于圖像識(shí)別與檢測(cè)[2-3]圖像理解[4-5]等任務(wù)中。因此圖像的場(chǎng)景圖生成任務(wù)近年引起了越來(lái)越多的關(guān)注。
現(xiàn)存的場(chǎng)景圖生成方法通常依賴實(shí)體檢測(cè)模型,根據(jù)檢測(cè)得到的結(jié)果進(jìn)行進(jìn)一步的推理[6-7]。但由于場(chǎng)景圖的三元組表示由實(shí)體和關(guān)系構(gòu)成,假設(shè)有N個(gè)實(shí)體和M個(gè)關(guān)系,三元組所有可能組合數(shù)量為O(N2M),因此要生成一個(gè)高性能的場(chǎng)景圖,這些方法需要在大量實(shí)體關(guān)系數(shù)據(jù)集上進(jìn)行訓(xùn)練。然而現(xiàn)存的場(chǎng)景圖生成數(shù)據(jù)集關(guān)系數(shù)量分布十分不均衡,影響了模型最終的表現(xiàn)。
為了解決數(shù)據(jù)集偏置問(wèn)題,已經(jīng)開展了使用實(shí)體的位置、頻率分布等VG(visual genome)數(shù)據(jù)集內(nèi)部信息的研究。Chen 等人[8]挖掘數(shù)據(jù)集內(nèi)部信息,構(gòu)建了實(shí)體與關(guān)系之間的結(jié)構(gòu)化表示,使用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)實(shí)體與關(guān)系之間的相互作用以生成場(chǎng)景圖。Zhan 等人[9]基于檢測(cè)視覺(jué)、空間和語(yǔ)義三種不同的信息提出多模型特征學(xué)習(xí)網(wǎng)絡(luò),比較實(shí)體對(duì)與標(biāo)注,自動(dòng)生成未確定的關(guān)系。林欣等人[10]通過(guò)結(jié)合全局上下文、目標(biāo)解碼和位置嵌入的信息,減少數(shù)據(jù)集偏差影響。這些方法通過(guò)更好地利用圖像中的信息來(lái)改進(jìn)數(shù)據(jù)集中實(shí)體頻率較低的場(chǎng)景圖的生成,其整體方法的場(chǎng)景圖生成精度超過(guò)了現(xiàn)存?zhèn)鹘y(tǒng)的場(chǎng)景圖生成模型[6,11-12]。
鑒于人腦對(duì)圖像內(nèi)容場(chǎng)景圖的構(gòu)建往往不僅僅依賴于圖像所展示的特征,還依賴于圖像中的某些實(shí)體之間的強(qiáng)烈的相關(guān)性,根據(jù)常識(shí)知識(shí)推理規(guī)范語(yǔ)義預(yù)測(cè)空間,建立圖像中實(shí)體間的關(guān)系,如人與馬,根據(jù)常識(shí)知識(shí)推理,它們可能的關(guān)系是人騎馬而不是人站在馬上,有助于校準(zhǔn)現(xiàn)存數(shù)據(jù)集中的噪聲,緩解數(shù)據(jù)集不平衡的問(wèn)題。模擬人腦的場(chǎng)景圖構(gòu)建過(guò)程,融合提取的數(shù)據(jù)集中隱含信息以及數(shù)據(jù)集外部信息中的常識(shí)性知識(shí),成為當(dāng)前場(chǎng)景圖生成方法研究的主流趨勢(shì),并已有少量方法進(jìn)行了不同常識(shí)性知識(shí)的引入研究,如Zellers 等人[12]提取實(shí)體共同出現(xiàn)的頻率作為關(guān)系分類器的常識(shí)偏置,Chen 等人[8]將該頻率作為常識(shí)初始化圖神經(jīng)網(wǎng)絡(luò),而Gu 等人[13]將外部知識(shí)庫(kù)作為常識(shí)彌補(bǔ)數(shù)據(jù)集的錯(cuò)漏,并將其應(yīng)用于解決場(chǎng)景圖生成因數(shù)據(jù)集標(biāo)注失衡導(dǎo)致的偏置問(wèn)題,通過(guò)圖像重建方法正則化場(chǎng)景圖生成網(wǎng)絡(luò),規(guī)范模型的學(xué)習(xí)。
本文針對(duì)數(shù)據(jù)集偏置問(wèn)題,提出外部信息引導(dǎo)和殘差置亂的場(chǎng)景圖生成方法(scene graph generation method based on the combination of external information guidance and residual scrambling,EGRES)。該方法引入外部知識(shí)庫(kù)模擬人的常識(shí)性知識(shí),明確場(chǎng)景圖生成任務(wù)中不同實(shí)體之間的語(yǔ)義聯(lián)系,規(guī)范預(yù)測(cè)關(guān)系的語(yǔ)義空間;同時(shí)結(jié)合殘差置亂網(wǎng)絡(luò),將得到的語(yǔ)義特征與現(xiàn)有的視覺(jué)語(yǔ)義特征相結(jié)合,以亂序輸入進(jìn)行正則化,避免了模型在場(chǎng)景圖生成中過(guò)擬合高頻標(biāo)簽的問(wèn)題。在目前最廣泛使用的VG 數(shù)據(jù)集[14]上的實(shí)驗(yàn)證明,提出方法在不影響高頻標(biāo)簽表達(dá)能力的前提下,有效改善了對(duì)于低頻標(biāo)簽的理解,提高了場(chǎng)景圖生成的表現(xiàn)。
知識(shí)庫(kù)的構(gòu)建和應(yīng)用成為人工智能領(lǐng)域研究的一個(gè)熱點(diǎn)。現(xiàn)有不少人工構(gòu)造的自然語(yǔ)言方面的知識(shí)庫(kù),如DBpedia[15]根據(jù)維基百科構(gòu)造結(jié)構(gòu)化的數(shù)據(jù)。WordNet[16]根據(jù)單詞的詞義創(chuàng)建英語(yǔ)單詞之間的結(jié)構(gòu)化網(wǎng)絡(luò)。ConceptNet[17]以自然語(yǔ)言單詞或短語(yǔ)作為節(jié)點(diǎn),通過(guò)帶有標(biāo)簽和權(quán)重的邊相互連接形成語(yǔ)義網(wǎng)絡(luò)。過(guò)去數(shù)年有許多工作致力于將外部知識(shí)庫(kù)融入計(jì)算機(jī)視覺(jué)領(lǐng)域,如Marino 等人[2]將外部知識(shí)庫(kù)(WordNet[16])構(gòu)建為知識(shí)圖譜,并應(yīng)用于視覺(jué)分類任務(wù)中。Lee 等人[18]將外部知識(shí)庫(kù)作為模型訓(xùn)練的額外約束,進(jìn)一步將其推廣到了Zero-Shot 多標(biāo)簽學(xué)習(xí)之中。Deng 等人[19]引入互斥、重疊和包含三種語(yǔ)義關(guān)系作為損失函數(shù)的約束條件訓(xùn)練分類器。此外使用深度神經(jīng)網(wǎng)絡(luò)從外部知識(shí)庫(kù)中提取信息也成為熱點(diǎn),如Wu 等人[20]使用深度神經(jīng)網(wǎng)絡(luò)將從DBpedia[16]中發(fā)掘的信息編碼為向量,并與視覺(jué)特征相結(jié)合解決圖像描述和VQA(visual question answering)方向的問(wèn)題。
場(chǎng)景圖是由節(jié)點(diǎn)與連線構(gòu)成的數(shù)據(jù)結(jié)構(gòu)化表示。絕大多數(shù)場(chǎng)景圖生成方法基于對(duì)象檢測(cè)模型,檢測(cè)實(shí)體所在的區(qū)域并進(jìn)行分類,由實(shí)體作為節(jié)點(diǎn),關(guān)系作為邊構(gòu)造場(chǎng)景圖。Lu 等人[6]首先提出場(chǎng)景圖生成任務(wù),結(jié)合視覺(jué)信息和語(yǔ)義信息檢測(cè)實(shí)體對(duì)的關(guān)系。近年來(lái)一些方法利用信息傳遞并結(jié)合上下文信息生成場(chǎng)景圖,如Xu 等人[11]首先提出了基于RNN(recurrent neural network)[21]傳遞消息微調(diào)特征的端到端模型。Yang 等人[22]設(shè)計(jì)了Graph R-CNN 框架去除無(wú)關(guān)實(shí)體對(duì),通過(guò)注意力圖卷積網(wǎng)絡(luò)捕捉上下文信息,進(jìn)一步增強(qiáng)相關(guān)實(shí)體對(duì)之間的信息傳遞。Li等人[23]使用Bottom-up 的方式將整個(gè)圖分解為多個(gè)子圖,隔絕無(wú)關(guān)實(shí)體對(duì)之間的聯(lián)系,通過(guò)全連接子圖的拓?fù)浣Y(jié)構(gòu)簡(jiǎn)化了推理的復(fù)雜度,極大地提高了場(chǎng)景圖生成效率。針對(duì)消息傳遞機(jī)制一視同仁地對(duì)待圖像中的節(jié)點(diǎn)的問(wèn)題,Tang 等人[24]提出了動(dòng)態(tài)樹結(jié)構(gòu),通過(guò)動(dòng)態(tài)樹結(jié)構(gòu)傳遞消息,為每個(gè)實(shí)體提供了更相關(guān)的上下文信息,極大地提高了小樣本的學(xué)習(xí)能力。Lin 等人[25]提出GPS-Net(graph property sensing network),利用不同實(shí)體對(duì)應(yīng)的上下文增強(qiáng)特征,并通過(guò)節(jié)點(diǎn)優(yōu)先損失反映不同實(shí)體的有限度,促進(jìn)場(chǎng)景圖的生成。一些方法發(fā)掘數(shù)據(jù)集內(nèi)部關(guān)聯(lián)信息,如Dai等人[7]設(shè)計(jì)了深度網(wǎng)絡(luò)模型,借助統(tǒng)計(jì)信息,多次迭代條件隨機(jī)場(chǎng)(conditional random field,CRF)網(wǎng)絡(luò)解決關(guān)系分類的歧義問(wèn)題。Zellers 等人[12]統(tǒng)計(jì)實(shí)體對(duì)共同出現(xiàn)的頻率作為先驗(yàn)知識(shí),使用LSTM(long short term memory)作為編碼器,并傳遞上下文信息,改善了關(guān)系的特征表示。Chen 等人[8]統(tǒng)計(jì)數(shù)據(jù)集內(nèi)實(shí)體對(duì)和關(guān)系共同出現(xiàn)的頻率,使用圖神經(jīng)網(wǎng)絡(luò)取代LSTM 作為消息傳遞機(jī)制,傳遞先驗(yàn)統(tǒng)計(jì)信息。
近年來(lái)一些方法也開始使用外部知識(shí)庫(kù)解決對(duì)應(yīng)的問(wèn)題。由于外部知識(shí)庫(kù)對(duì)相同類不同實(shí)體有著相同的編碼,這類外部知識(shí)也被視作常識(shí)。Yu等人[26]從Wikipedia 中提取語(yǔ)義信息,利用語(yǔ)義信息規(guī)范網(wǎng)絡(luò)的學(xué)習(xí),借助教師學(xué)生框架,過(guò)濾掉數(shù)據(jù)中的噪聲,通過(guò)最小化KL-divergence(Kullback-Leibler divergence)得到外部知識(shí)庫(kù)的語(yǔ)義表示。不同于直接使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,Gu 等人[13]通過(guò)檢索外部知識(shí)庫(kù)查詢與實(shí)體最相關(guān)的知識(shí),并借助圖像重建規(guī)范場(chǎng)景圖生成網(wǎng)絡(luò)。上述這些方法大多是借助外部知識(shí),通過(guò)改進(jìn)圖像中的語(yǔ)義信息的描述來(lái)提升場(chǎng)景圖生成性能。Zareian 等人[27]將場(chǎng)景圖視為常識(shí)知識(shí)圖的圖像條件實(shí)例化,將圖像中的實(shí)體直接連接到外部知識(shí)庫(kù)對(duì)應(yīng)的實(shí)體,結(jié)合常識(shí)推理實(shí)體間的關(guān)系。
給定一幅圖像I,場(chǎng)景圖通過(guò)拓?fù)浣Y(jié)構(gòu)表示圖像中的信息。這種拓?fù)浣Y(jié)構(gòu)表示的關(guān)系圖G可定義為:

其中,實(shí)體O對(duì)應(yīng)節(jié)點(diǎn),實(shí)體之間的關(guān)系R對(duì)應(yīng)連線,B={b1,b2,…,bi,…,bn},bi∈R4表示第i個(gè)區(qū)域的邊界框,實(shí)體集合O={o1,o2,…,oi,…,on}表示bi區(qū)域?qū)?yīng)的實(shí)體oi,實(shí)體間關(guān)系的集合R={r1→2,r1→3,…,ri→j,…,rn→n-1},ri→j∈R表示(bi,oi)與(bj,oj)之間的關(guān)系。
因此根據(jù)式(1)可以將結(jié)合外部信息引導(dǎo)和殘差置亂的場(chǎng)景圖生成方法表示為一個(gè)概率模型P(G|I),具體描述為:

其中,候選區(qū)域的集合概率P(B|I)定位輸入圖像中實(shí)體的位置,預(yù)測(cè)實(shí)體的概率分布P(O|B,I)依賴檢測(cè)到的候選區(qū)域,預(yù)測(cè)實(shí)體關(guān)系的概率分布P(R|B,O,I)依賴實(shí)體部分預(yù)測(cè)得到的實(shí)體標(biāo)簽。
為了引導(dǎo)模型能夠?qū)W習(xí)到中低頻數(shù)據(jù)的特征,以P(O|B,I)預(yù)測(cè)的標(biāo)簽在外部知識(shí)庫(kù)中檢索,提取符合人腦認(rèn)知的合理的語(yǔ)義信息。由于數(shù)據(jù)集中高頻標(biāo)簽僅僅表達(dá)了少量的實(shí)體間關(guān)系種類,而不能較好地表達(dá)中低頻標(biāo)簽所代表的大量關(guān)系種類,為此提出殘差置亂方式,通過(guò)亂序輸入數(shù)據(jù),有效地避免模型過(guò)擬合于特定的數(shù)據(jù)順序,并且每一層殘差都用相同的外部信息引導(dǎo),保障了模型在保證高頻數(shù)據(jù)的表達(dá)能力的情況下強(qiáng)化了對(duì)中低頻數(shù)據(jù)的學(xué)習(xí),得到融合特征以更新式(2)中的P(R|B,O,I),從而得到最終場(chǎng)景圖概率P(G|I),圖1 給出了提出場(chǎng)景圖生成模型的整體結(jié)構(gòu)圖。
因此,從概率模型的表示可以看出,外部信息引入與殘差置亂相結(jié)合的場(chǎng)景圖生成方法的核心在于P(R|B,O,I)概率生成,其生成方式如下所示:

其中,Wr、Ws、Wo與bi,j是待學(xué)習(xí)的參數(shù),f′i是外部信息引導(dǎo)和殘差置亂融合后的實(shí)體i的視覺(jué)特征,fi,j表示Faster RCNN 提取的實(shí)體i與實(shí)體j并集區(qū)域的視覺(jué)特征。符號(hào)°表示矩陣中對(duì)應(yīng)元素相乘。
對(duì)于給定的圖像I,為了獲得邊界框生成模塊的候選框集合概率P(B|I),模型使用Faster RCNN[28]作為基本的檢測(cè)器生成候選框。基于Faster RCNN 模型獲取候選框的坐標(biāo)集合B={b1,b2,…,bi,…,bn},并提取候選框的特征向量。將Faster RCNN 提取的特征向量構(gòu)造為線性序列,通過(guò)BiLSTM[29]模型得到經(jīng)過(guò)上下文微調(diào)后的視覺(jué)特征表示F={f1,f2,…,fi,…,fn}。
外部知識(shí)庫(kù)中的語(yǔ)義關(guān)系可以提供常識(shí)性知識(shí),讓場(chǎng)景圖生成在一個(gè)規(guī)范的語(yǔ)義空間進(jìn)行推理,從而有效地緩解數(shù)據(jù)集標(biāo)注帶來(lái)的視覺(jué)關(guān)系標(biāo)簽分布不平衡的長(zhǎng)尾效應(yīng)問(wèn)題,改善場(chǎng)景圖生成質(zhì)量。因此借助多語(yǔ)言外部知識(shí)庫(kù)ConceptNet[17]中豐富的實(shí)體和關(guān)系的語(yǔ)義標(biāo)簽,獲得場(chǎng)景圖生成中關(guān)系表達(dá)的規(guī)范語(yǔ)義空間,并通過(guò)雙向GRU(gated recurrent unit)[30]獲得常識(shí)知識(shí)推理下視覺(jué)關(guān)系表示。
根據(jù)實(shí)體向量fi,在對(duì)象檢測(cè)模塊P(O|B,I)可以預(yù)測(cè)得到實(shí)體標(biāo)簽li。語(yǔ)義空間規(guī)范是將預(yù)測(cè)標(biāo)簽li,在外部知識(shí)庫(kù)ConceptNet 進(jìn)行的檢索和匹配,提取實(shí)體的標(biāo)簽集合達(dá)成,具體表示為:

其中,li表示圖像中檢索到的實(shí)體oi;lj表示外部知識(shí)庫(kù)中檢索到實(shí)體j的標(biāo)簽;表示匹配的關(guān)系標(biāo)簽;wi,j,d表示檢索到的三元組的相關(guān)度;D表示檢索和匹配的語(yǔ)義對(duì)個(gè)數(shù)。
基于相關(guān)度wi,j,d可以檢索得到相關(guān)度最高的D個(gè)三元組。將每一個(gè)三元組視作含有三個(gè)單詞的短句


根據(jù)外部信息集的檢索結(jié)果,每個(gè)實(shí)體都檢索到了D個(gè)三元組,每個(gè)實(shí)體最終對(duì)應(yīng)D個(gè)句子特征。因此最終的外部信息引入后的特征表示是通過(guò)融合D個(gè)全連接特征,作為圖像中實(shí)體oi的外部信息增強(qiáng)的語(yǔ)義特征描述:

其中,[;]表示拼接操作,We和be是待學(xué)習(xí)的參數(shù)。圖像I中實(shí)體的外部信息增強(qiáng)特征EI為:

由于數(shù)據(jù)集的長(zhǎng)尾問(wèn)題,單純使用LSTM 進(jìn)行融合很容易導(dǎo)致模型過(guò)擬合高頻類別。因此本文使用殘差網(wǎng)絡(luò)的結(jié)構(gòu),避免深層網(wǎng)絡(luò)難以訓(xùn)練的問(wèn)題,使外部信息可以在更深的網(wǎng)絡(luò)上進(jìn)行引導(dǎo)。使用亂序輸入的方法,極大地緩解了模型對(duì)特定順序輸入的過(guò)擬合問(wèn)題。殘差置亂融合是將圖像實(shí)體的外部信息EI與視覺(jué)特征F進(jìn)行融合,得到一個(gè)由外部信息規(guī)范語(yǔ)義空間后的語(yǔ)義視覺(jué)特征F′。

其中,C為殘差層數(shù)。在殘差網(wǎng)絡(luò)中的特征提取則是將實(shí)體的外部信息ei與視覺(jué)特征fi進(jìn)行逐層融合,每層融合后的特征表示如下:

每一層殘差使用相同的外部信息增強(qiáng)的語(yǔ)義特征描述ei引導(dǎo)模型的學(xué)習(xí)。為了避免過(guò)擬合固定的序列順序特征,在輸入殘差網(wǎng)絡(luò)之前會(huì)隨機(jī)打亂輸入的序列順序。
為了證明提出方法可以有效改善數(shù)據(jù)集中關(guān)系標(biāo)簽分布不平衡下的場(chǎng)景圖生成性能,在Visual Genome 數(shù)據(jù)集[14](簡(jiǎn)稱VG 數(shù)據(jù)集)上進(jìn)行了與現(xiàn)有方法的對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn),并分別從PredCls、SGCls 和SGGen 三個(gè)子任務(wù)的R@K(recall@K)指標(biāo)下進(jìn)行了結(jié)果分析。最后可視化了提出方法在關(guān)系標(biāo)簽分布不平衡數(shù)據(jù)集上的改善情況對(duì)比。
實(shí)驗(yàn)采用場(chǎng)景圖生成方法最廣泛使用的VG 基準(zhǔn)數(shù)據(jù)集[14],該數(shù)據(jù)集是目前最大的場(chǎng)景圖生成實(shí)驗(yàn)數(shù)據(jù)集,包含108 077 張圖像,平均每張圖有38 個(gè)物體和22 個(gè)關(guān)系的標(biāo)注,包含150 個(gè)實(shí)體標(biāo)簽和50 個(gè)關(guān)系標(biāo)簽(不包含背景標(biāo)簽)。其中出現(xiàn)頻率最高的10 類關(guān)系幾乎占據(jù)所有數(shù)據(jù)的90%,剩余40 類關(guān)系僅占10%,分布極為不平衡,如圖2 所示。

Fig.2 Proportion of each label on VG data set圖2 各標(biāo)簽在VG 數(shù)據(jù)集中的占比
場(chǎng)景圖生成任務(wù)最終的目的是預(yù)測(cè)<主語(yǔ)-謂語(yǔ)-賓語(yǔ)>三元組,因此分別從已知實(shí)體位置與標(biāo)簽標(biāo)注預(yù)測(cè)分類(PredCls)、已知實(shí)體位置預(yù)測(cè)實(shí)體標(biāo)簽和實(shí)體對(duì)關(guān)系的場(chǎng)景圖分類(SGCls)以及已知檢測(cè)器檢測(cè)到的實(shí)體和實(shí)體標(biāo)簽預(yù)測(cè)實(shí)體對(duì)關(guān)系的場(chǎng)景圖生成(SGGen)三個(gè)子任務(wù)進(jìn)行實(shí)驗(yàn)。并采用在場(chǎng)景圖生成任務(wù)中普遍采用的R@K作為以上三個(gè)任務(wù)中模型的評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)中使用R@20、R@50和R@100作為評(píng)價(jià)指標(biāo)。
鑒于提出方法需要相同大小的圖像作為輸入,因此將VG 數(shù)據(jù)集中的圖像通過(guò)縮放和填充0 的方式進(jìn)行圖像尺寸歸一化,統(tǒng)一大小為592×592。
實(shí)體檢測(cè)器采用Fast RCNN 模型,并將其設(shè)置為與YOLO-9000[31]相同的錨定比和尺寸比例,用SGD算法訓(xùn)練檢測(cè)器,其中參數(shù)設(shè)置如下:批次大小為18,對(duì)每個(gè)批次,每張圖采樣256 個(gè)RoIs(region of interest),其中75%為背景圖。動(dòng)量為0.9,權(quán)重衰減為0.000 1。初始學(xué)習(xí)率為0.001,每經(jīng)過(guò)一個(gè)批次學(xué)習(xí)率修改為原學(xué)習(xí)率的1/10。
外部信息引入部分的相關(guān)參數(shù),實(shí)驗(yàn)中設(shè)置D=10,并用GloVe 模型將檢索到的詞映射為向量。在殘差置亂模塊中,使用了層C=8 的殘差網(wǎng)絡(luò)融合視覺(jué)特征和檢索到的常識(shí)特征。
在視覺(jué)特征提取方面,采用與Zellers 等人[12]類似的方式提取細(xì)節(jié),以Faster RCNN 檢測(cè)器檢測(cè)的實(shí)體區(qū)域RoIs 的中心點(diǎn)坐標(biāo)由左至右、由上到下的Leftright 排序方式進(jìn)行排序。將兩個(gè)實(shí)體的RoIs 的并集區(qū)域作為這兩個(gè)實(shí)體的謂語(yǔ)視覺(jué)區(qū)域,將通過(guò)檢測(cè)器提取的該區(qū)域特征作為謂語(yǔ)視覺(jué)特征,其特征維度為7×7×256。最終使用在ImageNet[32]上預(yù)訓(xùn)練的VGG16[33]模型的全連接層4 096 維特征作為該區(qū)域的最終視覺(jué)特征表示。
從圖2 中可以看出,VG 數(shù)據(jù)集中存在不同關(guān)系標(biāo)簽及其對(duì)應(yīng)分布極度不平衡的嚴(yán)重長(zhǎng)尾效應(yīng),本文將占比高于1%的關(guān)系標(biāo)簽視為高頻標(biāo)簽,高于0.1%低于1%的關(guān)系標(biāo)簽視為中頻標(biāo)簽,而低于0.1%的關(guān)系標(biāo)簽視為低頻標(biāo)簽。
實(shí)驗(yàn)從場(chǎng)景圖生成的整體性能對(duì)比出發(fā),對(duì)比了現(xiàn)存的六種方法VRD[6]、IMP[11]、IMP+[11-12]、AE[34]、Mem[9]、SMN[12],三個(gè)子任務(wù)在R@20、R@50 和R@100三個(gè)評(píng)價(jià)指標(biāo)下的實(shí)驗(yàn)結(jié)果如表1 所示。
為了有效區(qū)分語(yǔ)義相近對(duì)場(chǎng)景圖生成的性能影響,采用文獻(xiàn)[11-12]的方式,根據(jù)生成場(chǎng)景圖關(guān)系是否是一對(duì)實(shí)體對(duì)對(duì)應(yīng)一個(gè)關(guān)系,將實(shí)驗(yàn)結(jié)果劃分為constraint(要求一對(duì)一)和unconstraint(不做要求)兩類。
在一對(duì)實(shí)體對(duì)只獲得一個(gè)關(guān)系的constraint 中,對(duì)比了六種模型。從表1 中可以看出,SMN 模型由于提取全局上下文信息,在SGGen、SGCls、PredCls三個(gè)子任務(wù)取得了顯著的進(jìn)步,但本文方法由于利用外部信息和殘差置亂緩解數(shù)據(jù)集偏置問(wèn)題,在三個(gè)子任務(wù)的各個(gè)評(píng)價(jià)指標(biāo)均高于現(xiàn)有的方法,其結(jié)果相較于SMN 模型平均提高了1%。
因?yàn)殛P(guān)系標(biāo)簽中存在一些語(yǔ)義相近的標(biāo)簽,如wears 和wearing,在constraint 條件下因要求每個(gè)三元組只能生成一個(gè)關(guān)系,所以一些數(shù)據(jù)量差距懸殊但是語(yǔ)義相近的標(biāo)簽的結(jié)果提高則會(huì)被constraint 的要求所掩蓋。為了充分展示提出方法可以較好地區(qū)分這些語(yǔ)義相近標(biāo)簽,在unconstraint 下,對(duì)比了三個(gè)子任務(wù)下的四種模型。從表1 中可以發(fā)現(xiàn),本文方法在三個(gè)子任務(wù)的三種評(píng)價(jià)指標(biāo)下,場(chǎng)景圖生成任務(wù)的提高更加明顯。尤其是在場(chǎng)景分類SGCls 子任務(wù)中的R@50 和R@100 兩個(gè)評(píng)價(jià)指標(biāo)上,相較SMN 模型均提高了1.6%。在預(yù)測(cè)關(guān)系PredCls 子任務(wù)中也提升了1.1%。
從constraint 和unconstraint 兩方面的實(shí)驗(yàn)結(jié)果分析可以發(fā)現(xiàn),由于提出方法利用外部知識(shí)庫(kù)中的常識(shí)性知識(shí)進(jìn)行語(yǔ)義空間的規(guī)范,以及采用殘差置亂策略引入更充分的信息表示,在場(chǎng)景圖生成的整體性能上有著較為顯著的提升。

Table 1 Experimental results of methods on VG data set表1 幾種方法在VG 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果 %
此外,鑒于場(chǎng)景圖生成任務(wù)常用R@K指標(biāo)進(jìn)行方法性能評(píng)價(jià),但這個(gè)指標(biāo)只關(guān)注圖像中的關(guān)系是否被完全預(yù)測(cè),不能關(guān)注不同關(guān)系標(biāo)簽的預(yù)測(cè)情況,本文還進(jìn)行了不同關(guān)系標(biāo)簽的R@K指標(biāo)比較實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3 所示。
從圖3 可以看出,SMN 模型在高頻標(biāo)簽,如on、has、wearing 等,取得了良好的結(jié)果,而對(duì)于中低頻標(biāo)簽,如painted on、growing on、playing 的結(jié)果則不盡如人意,R@K數(shù)值較低,模型幾乎不可避免地偏向了出現(xiàn)頻率更高的標(biāo)簽。與現(xiàn)有的方法不同,本文方法引入外部信息,引導(dǎo)模型更好地學(xué)習(xí)樣本數(shù)低的關(guān)系標(biāo)簽。從圖3(b)中可以看出,提出方法在高頻關(guān)系標(biāo)簽的預(yù)測(cè)結(jié)果基本與對(duì)比模型SMN 持平,僅在on、has、wearing 略微下降。但對(duì)于一些出現(xiàn)頻率較低而語(yǔ)義明確的標(biāo)簽的預(yù)測(cè)上取得了顯著的進(jìn)步,如中頻標(biāo)簽eating 和using 的結(jié)果提高了近20%。對(duì)于一些極度低頻標(biāo)簽,如mount on、from 和made of,由于這三個(gè)關(guān)系類在VG 數(shù)據(jù)集中出現(xiàn)次數(shù)均小于100 次,并且語(yǔ)義模糊,本文方法對(duì)于這種情況改善不明顯。總之,本文方法對(duì)于中低頻關(guān)系標(biāo)簽取得了良好的結(jié)果,一定程度上緩解了數(shù)據(jù)關(guān)系分布不平衡的問(wèn)題。
為了更深入分析提出方法中改進(jìn)模塊對(duì)解決數(shù)據(jù)集偏置的具體貢獻(xiàn),分別針對(duì)語(yǔ)義規(guī)范的外部知識(shí)庫(kù)信息引入和殘差置亂的語(yǔ)義增強(qiáng)設(shè)計(jì)了constraint和unconstraint條件下的詞向量消融(w/o e)和殘差消融(w/o r)實(shí)驗(yàn),消融實(shí)驗(yàn)結(jié)果如表2 所示。
為了驗(yàn)證外部知識(shí)庫(kù)的常識(shí)性知識(shí)引入對(duì)語(yǔ)義空間規(guī)范的作用,將殘差置亂替換為單層LSTM 網(wǎng)絡(luò)進(jìn)行殘差消融(w/o r)實(shí)驗(yàn),分析外部信息引入對(duì)場(chǎng)景圖生成的性能改進(jìn),實(shí)驗(yàn)結(jié)果見表2。在constraint條件下,相對(duì)基模型SMN,殘差消融模型在三個(gè)子任務(wù)上的性能均有所提升,其中在SGGen 子任務(wù)上平均提升了0.5%,在SGCls 子任務(wù)上平均提升1.0%,在PredCls 子任務(wù)上平均提升0.8%。在unconstraint 條件下,殘差消融模型在三個(gè)子任務(wù)上的性能相對(duì)于基模型SMN 也均有不同程度的提升,其中在SGGen子任務(wù)上平均提升了0.5%,在SGCls 子任務(wù)上平均提升了約1.0%,在PredCls 子任務(wù)上平均提升了約0.8%。實(shí)驗(yàn)證明了外部信息引導(dǎo)確實(shí)有效地規(guī)范了語(yǔ)義空間,可以更好地引導(dǎo)模型學(xué)習(xí)恰當(dāng)?shù)奶卣鳎岣吣P偷谋磉_(dá)能力。在unconstraint條件下SGGen 子任務(wù)中,由于沒(méi)有外部信息的引導(dǎo),模型過(guò)擬合高頻關(guān)系類別,反而導(dǎo)致詞向量消融(w/o e)較完整的方法提高了0.2%,但是總體而言引入外部信息有利于場(chǎng)景圖的生成。

Table 2 Ablation result表2 消融結(jié)果 %

Fig.3 Comparison of results under different labels圖3 不同標(biāo)簽下的結(jié)果比較
由于規(guī)范語(yǔ)義空間,對(duì)場(chǎng)景圖生成任務(wù)的性能改進(jìn)還受到外部信息量引入情況的影響,為此本文還進(jìn)行了不同檢索數(shù)量D對(duì)提出場(chǎng)景圖生成方法的性能比較分析實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。從檢索數(shù)量D取5、10 和20 在場(chǎng)景圖生成的實(shí)驗(yàn)結(jié)果可知,檢索數(shù)量D為10 時(shí),提出模型的場(chǎng)景圖生成性能最好。
對(duì)于殘差置亂策略融合外部信息并傳遞上下文信息以減輕場(chǎng)景圖生成受數(shù)據(jù)集偏置的影響,本文將外部信息的embedding 替換為實(shí)體預(yù)測(cè)得到的詞向量,進(jìn)行詞向量消融(w/o e)實(shí)驗(yàn)。從表2 可以看到,在constraint 條件下,詞向量消融模型在三個(gè)子任務(wù)上的性能相對(duì)于基模型SMN 均有不同程度的提升,其中在SGGen 子任務(wù)上平均提升了0.5%,在SGCls 子任務(wù)上平均提升0.8%,在PredCls 子任務(wù)上平均提升0.5%。在unconstraint 條件下,詞向量消融模型在三個(gè)子任務(wù)上的性能相對(duì)于基模型SMN 也均有不同程度的提升,其中在SGGen 子任務(wù)上平均提升了0.9%,在SGCls 子任務(wù)上平均提升了約1.3%,在PredCls 子任務(wù)上平均提升了約0.8%。實(shí)驗(yàn)證明了殘差置亂策略可以有效增強(qiáng)語(yǔ)義信息,緩解了數(shù)據(jù)偏置問(wèn)題。

Table 3 Influences of D on results表3 D 值對(duì)結(jié)果的影響 %
總之,消融實(shí)驗(yàn)證明,簡(jiǎn)單引入外部信息或者殘差置亂可以一定程度改善場(chǎng)景圖生成性能,但并不能得到理想的效果。基于外部信息和殘差置亂結(jié)合的場(chǎng)景圖生成方法可以根據(jù)外部信息引導(dǎo)模型學(xué)習(xí),避免模型過(guò)擬合,有效改善了場(chǎng)景圖生成。
數(shù)據(jù)集偏置嚴(yán)重影響場(chǎng)景圖在關(guān)系標(biāo)簽較少下的生成質(zhì)量,而外部知識(shí)庫(kù)提取的常識(shí)性知識(shí)可以有效地規(guī)范場(chǎng)景圖語(yǔ)義空間,殘差置亂可以增強(qiáng)關(guān)系標(biāo)簽的信息量,因此基于外部知識(shí)和殘差置亂結(jié)合的場(chǎng)景圖生成可以通過(guò)殘差置亂引導(dǎo)模型借助常識(shí)性知識(shí)進(jìn)行推理學(xué)習(xí),避免模型過(guò)擬合,從而有效地解決不同關(guān)系數(shù)據(jù)分布不平衡的問(wèn)題。在VG 數(shù)據(jù)集上的實(shí)驗(yàn)證明了使用外部信息引導(dǎo)和殘差置亂的方法代替人類的常識(shí)規(guī)范場(chǎng)景圖生成網(wǎng)絡(luò)的有效性,尤其有效地提高了數(shù)據(jù)集中低頻關(guān)系的場(chǎng)景圖生成的精度,緩解了數(shù)據(jù)長(zhǎng)尾問(wèn)題的影響。