999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種殘差置亂上下文信息的場景圖生成方法

2019-07-30 11:15:12徐云龍劉純平
計算機研究與發(fā)展 2019年8期
關鍵詞:分類方法模型

林 欣 田 鑫 季 怡 徐云龍 劉純平,3

1(蘇州大學計算機科學與技術學院 江蘇蘇州 215006)2(蘇州大學應用技術學院 江蘇蘇州 215300)3(符號計算與知識工程教育部重點實驗室(吉林大學) 長春 130012)

Fig. 1 A sample of a ground truth scene graph圖1 場景圖示意圖

場景圖[1]是真實圖像中目標和目標間關系的精細化語義抽取,通過對預定義的目標實例、目標屬性和目標對間關系進行預測來構建,常用三元組的結構化語言表示場景中目標間的交互.圖1給出了一幅圖像三元組關系表示的場景圖實例,如boy-wearing-shirt.在場景圖中,節(jié)點描述類別信息連同邊界盒表示的目標實體,有向邊則表示主、賓語間的關系類別.借助場景圖對一幅圖像可解釋結構化表示的描述,圖像被重構為連接圖結構而不是孤立的目標實體,可以支持高層視覺智能任務,如圖像檢索[2]、目標檢測[3-4]以及視覺問答[5-7]等視覺任務.由于手工標注海量圖像的三元組關系描述格外昂貴,因此訓練一個模型來自動生成高質量的場景圖是近年來視覺理解的一種重要方向,再加上場景圖表示需要推理復雜的依賴關系,高效準確地提取場景圖也是一個極具挑戰(zhàn)性的任務.

作為連接視覺與語言的橋梁,場景圖生成任務是盡可能生成一個精確映射真實視覺場景的圖表示.現(xiàn)有大多數(shù)基于目標的場景圖方法,主要有基于目標檢測和關系分類兩階段生成方法、基于目標和關系聯(lián)合推理兩大類.基于推理的場景圖生成方法又可細分為基于消息傳遞[1,8-10]和全局上下文[11-12]2類.為得到更精準的目標標簽,這類方法在候選場景圖上進行消息傳遞與推理.

基于消息傳遞的方法中,首先提取目標區(qū)域的局部特征輸入循環(huán)神經網絡學習,其次使用相鄰節(jié)點和邊的表示來生成消息,并在圖的拓撲結構中進行傳遞,最終獲得主語、賓語和關系的最終表示結果.常見的消息傳遞策略包括迭代消息傳遞[1]、并行和串行消息傳遞[9]、空間加權消息傳遞[10]等.Xu等人[1]最早提出基于迭代消息傳遞的場景圖生成方法IMP(iterative message passing).該方法首先通過ROI-pooling[13]從VGG-16卷積層[14]中提取目標和關系的特征,然后將視覺特征分別輸入節(jié)點和邊GRU(gated recurrent unit)[15]中,在之后的迭代過程中根據(jù)拓撲結構,利用相鄰節(jié)點或邊的隱藏狀態(tài)生成消息,獲取最終目標和關系表示.此外,還有一些改進的消息傳遞方法被提出,如并行和串行消息傳遞策略[9]可以更好地在目標和關系間傳遞信息;空間加權消息傳遞結構和空間敏感關系推理模塊機制下的基于子圖連接圖[10]可有效加速推理過程和提高場景圖生成效率.但是由于不完全的數(shù)據(jù)集標注,此類模型生成的消息受到局部上下文偏差的影響以及缺乏全局的視野.

基于視覺和語義特征候選場景圖中節(jié)點間上下文傳遞下更新節(jié)點和關系表示能更加有效地學習到可靠邊的位置,減少不可能邊的影響.NM(neural motifs)模型[11]是最具代表性的全局上下文方法,此外還有注意力圖卷積網絡[12]的場景圖生成方法.相對于局部上下文方法局限于關系三元組進行消息傳遞,全局上下文方法在全圖范圍內進行上下文更新,從而獲取更加全面的特征表示.在NM模型中,目標候選框的特征以一個固定的順序被輸入到雙向LSTM(long short-term memory)網絡[16]中,從而獲得圖像的全局上下文,并通過連接主、賓語的全局上下文表示,實現(xiàn)對關系的分類.由于該類方法將原始圖像中呈二維空間分布的目標排列成一個固定的從左至右的線性順序,全局上下文信息受到破壞,使模型更傾向于學習到數(shù)據(jù)集的偏差,而不是真正的視覺關系表示,同時損失了空間信息,無法獲得全面的全局上下文.

鑒于上述問題,本文以NM模型[11]為基礎,提出了殘差置亂上下文信息的場景圖生成模型(residual shuffle sequence model, RSSQ),其主要貢獻有3個方面:

1) 提出隨機置亂策略,將固定順序的隱藏狀態(tài)迭代打亂重組.該策略就像紙牌游戲中的洗牌操作,可以加強目標節(jié)點和其他所有相鄰節(jié)點的信息交換,提高模型的泛化能力,降低數(shù)據(jù)集偏差對場景圖生成的影響.

2) 構建不同雙向LSTM層之間的殘差連接,獲得不同層次的全局上下文信息,以形成更好的全局共享上下文表達,同時因殘差的引入解決梯度消失問題.

3) 提出顯式編碼目標對間的位置信息嵌入,以增強場景圖生成中的空間上下文,改善目標關系描述.

1 相關工作

場景圖生成是近幾年才發(fā)展起來的計算機視覺高級任務之一.與本文提出場景圖生成方法密切相關聯(lián)的工作主要有NM模型和殘差連接.下面分別介紹這2個方面.

NM模型[11]是一種代表性的全局上下文方法.該模型將場景圖生成分為候選目標邊界盒、區(qū)域標簽和關系預測3個階段.在候選目標邊界盒預測階段,計算邊界盒區(qū)域內的上下文信息并進行傳遞;然后將全局上下文用于預測邊界盒的標簽,并基于全局上下文進行邊預測;最后在融合上下文邊界盒區(qū)域信息的基礎上給邊分配標簽.具體實現(xiàn)中首先提取候選目標的局部特征,并以候選區(qū)域中心點在原圖上的位置從左至右的線性順序將局部特征輸入雙向LSTM;然后用一個單向LSTM來解碼目標類別,連同目標上下文輸入到邊上下文雙向LSTM網絡中;最后組合主、賓語特征,獲取關系的最終表示.通過序列學習,NM模型能夠學到視覺場景的強規(guī)則化信息,但是具有復雜空間分布和豐富語義信息的圖像被抽象為一個固定次序線性序列的簡單操作造成了重要信息損失,如場景中的空間位置信息丟失;再加上雙向LSTM的強記憶能力使得NM模型更容易學習到數(shù)據(jù)集的偏差.

與本文提出場景圖生成方法相關的另一個工作是殘差連接.殘差連接的關鍵思想是在網絡層之間增加短路連接,提供額外的梯度路徑[17].通過殘差連接,非常深的卷積網絡[17]被應用與圖像分類和檢測.殘差連接在深層卷積神經網絡中的應用,提高了模型的泛化能力,解決了模型的“退化”問題.最近,Kim等人[18]提出了在LSTM模型中增加殘差連接的方法,并將該方法應用于遠場語音識別,證明了殘差連接可以提供短路,解決梯度消失問題.鑒于深度學習中,不同的網絡層可以表示低/中/高不同層次的特征[19],因此,在不同層次的LSTM中建立殘差連接能夠更好地學習抽象視覺關系,減少梯度消失問題.NM模型在雙向LSTM中使用高速連接的設計,在時間維度上解決了梯度消失問題,但是隨著層數(shù)的增加,建立了高速連接的LSTM仍然存在退化問題[20],同時在空間維度上高速連接使得訓練過程更加困難,殘差連接解決了這個問題[18].

2 RSSQ方法

為了獲取更優(yōu)的關系表示以生成更精確的場景圖,提出了RSSQ方法.該方法主要由目標解碼模塊、殘差置亂模塊以及位置嵌入模塊3個部分組成,其整體框架如圖2所示.為了簡潔和方便,下文雙向LSTM隱藏狀態(tài)均表述為上下文信息.

Fig. 2 The framework of our Residual Shuffle Sequence Model (RSSQ)圖2 殘差置亂上下文信息場景圖生成方法框架

(1)

其中,fc(·)表示全連接,d表示目標解碼模塊.主語目標i和賓語目標j之間的謂詞表示由置亂殘差邊上下文表示pri,j以及位置嵌入向量psi,j的最大全連接獲得.謂詞表示為

reli,j=arg max(fc(pri,j,psi,j)).

(2)

2.1 目標解碼

目標解碼階段的主要目的是實現(xiàn)目標分類.該模塊首先使用Faster RCNN[21]來進行目標的預分類以及目標邊界盒的回歸.由于Faster RCNN中,目標分類是不考慮上下文信息的.為了引入上下文信息,采用NM模型[11]中的目標上下文模塊構建目標預測的上下文表示.

目標上下文信息hi,o提取是利用中心點偏移從左至右將其目標特征向量fi輸入到高速雙向LSTM[16]中獲得,即:

hi,o=biLSTM(fi).

(3)

目標的分類向量由目標上下文信息hi,o輸入目標解碼LSTM獲得,即:

hi,d=LSTM(hi,o).

(4)

2.2 殘差置亂

(5)

殘差置亂模塊的輸入由目標上下文編碼的隱藏狀態(tài)和詞向量編碼2部分拼接而成:

(6)

(7)

(8)

(9)

最終殘差邊上下文表示pri,j為

(10)

其中,⊙表示點乘運算.

2.3 位置嵌入

給定主語包圍盒boxi=(xi,yi,wi,hi),賓語包圍盒boxj=(xj,yj,wj,hj),主賓語間的相對幾何特征PE和區(qū)域比特征Aup,位置嵌入特征psi,j則可通過一個全連接層的融合得到:

psi,j=fc(PE,Aup).

(11)

主、賓語間的相對幾何特征PE是一個高維嵌入表示.為了獲取平移和尺度不變的相對幾何特征,對主賓語間的4維相對幾何特征進行對數(shù)轉換,轉換后的相對幾何特征為

(12)

在本文實驗中,根據(jù)文獻[22]的方法,通過正弦和余弦函數(shù)分別計算主、賓語間的相對幾何特征PE的奇數(shù)(2m+1)和偶數(shù)(2m)維度的變換特征,將4維相對幾何特征pos換為64維表示.變換公式分別為

PE(pos,2m)=sin(pos10002mdmod el),

(13)

PE(pos,2m+1)=cos(pos10002m+1dmod el).

(14)

除了相對幾何位置關系,目標對間的空間關系通過目標對之間面積關系和重疊關系來進一步增強[23].文獻[23]中,通過相對位置、面積、形狀等描述空間分布.受到該文獻啟發(fā),本文引入4維區(qū)域比特征Ai,j,并利用一個ReLu函數(shù)激活的全連接層將其轉換至64維:

Aup=ReLu(fc(Ai,j)).

(15)

區(qū)域比特征Ai,j=(Vi,j,Vo,i,Vo,j,Vo.u)由1個面積比Vi,j和3個重疊比Vo,i,Vo,j,Vo.u構成:

(16)

其中,A(bi)表示包圍盒boxi的面積,A(oi,j)表示包圍盒的重疊面積,A(ui,j)表示主賓語的外包圍盒面積.

3 實驗與結果分析

實驗在公開數(shù)據(jù)集Visual Genome(VG)[24]上展開.為了驗證提出RSSQ方法場景圖生成性能,進行了模型本身的消融分析,同時進一步在關系分類、場景圖分類和場景圖生成3個不同層次子任務上進行方法性能的評價.

3.1 數(shù)據(jù)集及評價指標

Visual Genome數(shù)據(jù)集是一個人工標注的視覺關系數(shù)據(jù)集.根據(jù)不同的數(shù)據(jù)預處理方式和數(shù)據(jù)劃分方法,存在多種不同的版本[8,11-12,25].在實驗中,使用最普遍使用的數(shù)據(jù)預處理和數(shù)據(jù)集劃分方法[1],其中訓練集和測試集分別有75 651圖像和32 422圖像.保留了最常見的150類目標以及50類關系,每張圖像平均有11.5個目標和6.2個關系.

場景圖生成任務的目的是定位預定義的目標以及預測目標對間的關系.整個任務被分成3個子任務:

1) 關系分類任務(predicate classification, PredCls).給定真實目標框以及真實標簽,需要預測目標對間關系;

2) 場景圖分類任務(scene graph classification, SGCls).給定真實的目標邊界盒,需要預測目標標簽和目標對間關系;

3) 場景圖生成任務(scene graph generation, SGGen).給定一張圖像,需要檢測其中的目標和關系.

實驗評價指標采用Recall@K,縮寫為R@K,是置信度最高的K個分類結果在關系真值中所占比例.本文根據(jù)在Visual Genome數(shù)據(jù)集中證明結論:隨機生成一個三元組關系Recall@100約為0.000 089[24],在實驗中將K取值為50和100.

3.2 RSSQ方法整體定量分析

實驗中,以場景圖中3個子任務為目標,將RSSQ方法與一些現(xiàn)存模型進行對比,包括Language Priors(LP)模型[26]、IMP模型[1]、Graph R-CNN(GR)模型[12]以及NM模型[11].實驗結果如表1所示:

Table 1 Comparison with Some Existing Works表1 RSSQ方法與現(xiàn)有方法對比實驗結果

IMP模型[1]主要針對局部關系上下文進行建模,丟失了全局上下文的視野.GR模型[12]使用特定線性變換方法根據(jù)相鄰節(jié)點進行節(jié)點表示更新,但是更新的策略相對簡單.NM模型[11]通過雙向LSTM網絡生成邊上下文,丟失了結構化信息.從表1中可以看出,提出的RSSQ方法在3個子任務中都超過了現(xiàn)有方法.相對于2018年CVPR的NM模型,在子任務SGCls上超過0.9%,在PredCls子任務上超過0.5%.在SGGen子任務上,提出方法超過GR模型12%.這表明提出RSSQ方法可以更加有效地生成場景圖.

Fig. 3 The accuracy of each relationship categories of SGCls of R@20 setting圖3 關系分類逐類分析

為了更進一步精確地對比提出地RSSQ方法和NM模型在分類性能上的改進.圖3給出了在SGCls子任務中Recall@20設置上進行的關系分類準確率統(tǒng)計分析.橫坐標上關系類別以出現(xiàn)頻率的降序排列,只有在關系三元組全部被預測正確,包括主賓語和關系,才會被統(tǒng)計.圖3給出了根據(jù)頻率將關系分為高頻(a)、中低頻(b)2個部分區(qū)段的實驗對比.在高頻段(圖3(a)),NM模型和RSSQ方法對關系頻率高的分類均表現(xiàn)良好,在部分關系類別中,提出的RSSQ方法相對于NM模型有微弱提升.

在中頻區(qū)域(如圖3(b)所示),NM模型的分類準確率較低,這是因為NM模型學到更多的數(shù)據(jù)集偏差而并非真正理解關系.提出的RSSQ方法在這個區(qū)間的關系分類精度有相對大的提升,比如of,holding,behind,above,riding,at,carrying,using以及covered in關系類別.受益于更好的全局上下文特征,提出的RSSQ方法在抽象關系分類精度方面有較明顯提升,如holding(+2.36%)、riding(+4.76%)、carrying(+9.75%)以及using(+6.79).基于位置嵌入對位置信息的增強,提出的RSSQ方法對位置關系分類精度也有較大提升,如of(+2.43%)、behind(+1.12%)、above(+1.55%)、at(+2.14%)以及covered in(+2.55%).在低頻段的分類識別,2個模型均沒什么表現(xiàn),這就需要更多研究,比如少量學習[27].

總之,由于Visual Genome是一個嚴重不均衡的數(shù)據(jù)集,使大多模型更容易學習數(shù)據(jù)集偏差.提出的RSSQ方法在中等頻率區(qū)間性能的明顯提升,表明提出的RSSQ方法更少地受數(shù)據(jù)集偏差的影響,在一定程度上較好地改善了數(shù)據(jù)偏差對關系分類的影響.

3.3 殘差置亂模塊評價

基于NM模型[10]中4層LSTM層組成的邊上下文模塊(如圖4(a)所示),本文通過置亂模塊和殘差連接基本架構單元來構成殘差置亂模塊.通過對圖4(a)分別插入1,2,4次置亂層和殘差連接構成3種殘差置亂模塊結構e1,e2和e4,如圖4(b)~4(d)所示.

Fig. 4 The initial edge context module in NM[10] and structures of residual shuffle module insertion圖4 殘差置亂模塊示意圖

由于NM模型[10]沒有給出未經微調的SGGen子任務的實驗結果,殘差置換模塊的實驗分析在PredCls和SGCls兩個子任務上進行.此外,也進行了LSTM層之間的原始設置以及殘差連接2種不同連接方式的實驗.如表2所示,通過置亂操作,在SGCls任務中有0.3%相對提升;通過殘差連接,在PredCls子任務和SGCls子任務分別有0.5%和0.7%的相對提升.在單純加入置亂操作的設置中,PredCls子任務中有些許性能下降,這是由于PredCls使用目標標簽真值,置亂破壞了關系的固定模式.從實驗結果來看,置亂操作不斷地打亂目標序列輸入次序,在訓練迭代過程中,即使是同一條訓練數(shù)據(jù)也會有不同的輸入次序,增加了模型的魯棒性,提高了模型的泛化能力.殘差連接融合了不同層次的邊上下文,在不同LSTM層間建立短路,從而減少梯度消失問題,獲取了更豐富語義的邊上下文.

Table 2 Evaluation of the Residual Shuffle Module表2 殘差置亂模塊分析

Note: “raw” means regular connection of LSTM layers, and “res” means residual connection.

3.4 消融實驗

為進一步分析提出的RSSQ方法中殘差置亂和位置嵌入2個模塊對場景圖生成的性能影響,表3給出了在3個子任務上的消融學習結果.這部分實驗以NM模型為基準模型,單純用殘差置亂模塊替換NM模型中的邊上下文提取模塊,在PredCls子任務和SGCls子任務中分別有0.5%和0.7% 的提升.單純將位置嵌入模塊添加到NM模型的邊上下文模塊中,在PredCls子任務和SGCls子任務中有些許提升.在SGGen子任務的實驗中,位置嵌入模塊與NM模型的結合是殘差置換與NM模型結合,是提出RSSQ方法中性能表現(xiàn)最好的組合.提出的RSSQ方法在2個子任務PredCls和SGCls是表現(xiàn)最好的.綜上分析,殘差置亂和位置嵌入2個模塊部分緩解了數(shù)據(jù)集偏差和全局上下文共享問題,完整的RSSQ方法在3個子任務中的綜合表現(xiàn)良好.

Table 3 Ablation Study表3 消融實驗結果

Fig. 5 Qualitative results of SGCls圖5 場景圖分類結果可視化結果

Fig. 6 Errors caused by tense disagreements圖6 時態(tài)不一致引起的錯誤示例

3.5 部分場景圖可視化結果

為了更直觀展示提出的RSSQ方法在場景圖生成的效果,圖5、圖6給出了場景圖可視化結果.其中圖像中給出的是真值標簽的邊界盒,場景圖給出了SGCls子任務中生成場景圖和真值場景圖的對比,方框表示目標實體,有向箭頭從主語指向賓語,橢圓形表示關系.每個給出的具體樣例中的完整場景圖是真值描述的場景圖,其中深色底紋表示正確預測,淺色底紋表示錯誤預測.圖5(a)是原始帶有目標真值標簽的原始圖像,圖5(b)給出的是RSSQ方法生成的場景圖,圖5(c)是NM模型[10]生成的場景圖.

圖6給出了由于謂詞的時態(tài)不一致性帶來的關系分類錯誤,如圖6(a)中wears和圖6(b)中的wearing.從圖5第1行樣例可以看出,RSSQ方法和NM模型[10]均能比較吻合地生成比較簡單的場景圖.從圖5第3行與第5行樣例可以看出,RSSQ方法相對于NM模型[10]改進了相對位置關系(near,under,in front of)的分類.從圖5第2行與第5行樣例可以看出,RSSQ方法在中頻區(qū)間的關系類別(carrying,in front of)有一定改進,緩解了數(shù)據(jù)集偏差問題.圖5第4行樣例說明,RSSQ方法對于高頻區(qū)間的關系分類(如of)也有改進.

4 總 結

鑒于場景圖生成方法更多的學習數(shù)據(jù)集偏差,本文從殘差置亂和位置嵌入角度改進NM模型,提出了一個新的基于殘差置亂上下文信息的場景圖生成方法(RSSQ).置亂策略有效地改善了數(shù)據(jù)集偏差對場景圖生成的影響,尤其是在中頻段的關系分類性能的提升比較明顯;殘差連接在不同LSTM層之間建立短路連接,完成不同層次的信息交換,較好解決了全局上下文信息共享,此外,殘差連接還解決了梯度消失問題.位置嵌入從面積比和重疊比角度整合目標位置信息,也有效地提升了提出的RSSQ方法對位置關系分類的性能.在Visual Genome數(shù)據(jù)集的實驗中驗證了提出的RSSQ方法可行且高效,可以更少地受到數(shù)據(jù)集偏差的影響.

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产黄网站在线观看| 欧美三级日韩三级| 日韩区欧美国产区在线观看| 99热这里只有精品国产99| 亚洲综合婷婷激情| 日韩AV无码一区| 国产色偷丝袜婷婷无码麻豆制服| 亚洲精品无码抽插日韩| 超清无码熟妇人妻AV在线绿巨人| 超碰色了色| 99久久精品免费观看国产| 成色7777精品在线| 97人人做人人爽香蕉精品| 成人另类稀缺在线观看| 欧美成人日韩| 波多野结衣无码视频在线观看| 福利在线一区| 91在线国内在线播放老师| 亚洲三级a| 福利片91| 国产麻豆精品在线观看| 日韩区欧美区| 欧类av怡春院| 91综合色区亚洲熟妇p| 91午夜福利在线观看精品| 亚洲a免费| 国产chinese男男gay视频网| 中文字幕亚洲精品2页| 国产精品丝袜视频| 亚洲另类国产欧美一区二区| 麻豆精品视频在线原创| 日韩人妻无码制服丝袜视频| 国产乱子伦视频在线播放| 久久免费精品琪琪| 欧美精品成人一区二区在线观看| 国产91精品久久| 九九香蕉视频| 青青草国产一区二区三区| 欧美精品1区2区| 在线免费看黄的网站| 久草视频中文| 在线精品自拍| 国产成人免费视频精品一区二区| 91在线精品免费免费播放| 国产农村妇女精品一二区| 国产精品一区在线观看你懂的| 五月天综合婷婷| 91青青草视频在线观看的| 久久亚洲国产最新网站| 国产成人8x视频一区二区| 亚洲最大福利网站| 视频国产精品丝袜第一页| 国产视频你懂得| 99re66精品视频在线观看| 精品视频在线观看你懂的一区| 欧美日韩综合网| 久久精品国产在热久久2019| 一级片免费网站| 一区二区三区国产| 中文字幕欧美日韩高清| 亚洲码在线中文在线观看| av尤物免费在线观看| 日韩资源站| 久草中文网| 日韩精品资源| 欧美综合成人| 精品国产99久久| 国产成人麻豆精品| 波多野结衣国产精品| 一级黄色欧美| 亚洲精品无码成人片在线观看| 91蝌蚪视频在线观看| 国产精品网址在线观看你懂的| 亚洲精品成人片在线播放| 试看120秒男女啪啪免费| 视频二区亚洲精品| 日韩欧美中文字幕在线韩免费| 日韩精品亚洲精品第一页| 国产精品无码久久久久AV| 国产SUV精品一区二区6| 国产成人调教在线视频| 国内精品免费|