999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用Transformer的行為及交互角色識別

2021-08-19 08:25:26鄒婷
現代計算機 2021年21期
關鍵詞:動作模型

鄒婷

(西南交通大學信息科學與技術學院,成都611756)

0 引言

圖像分類作問題是計算機視覺領域的一個基礎性課題,該問題伴隨著深度學習技術的進步已取得巨大進展,包括目標分類、動作分類甚至場景分類等問題的研究都已經進行很長一段時間,其中部分任務已經接近人類的水準。而在真實應用場景下,如智能機器人,則需要對場景進行更為詳細的理解,除了識別圖片顯然在發生的行為以外,我們還需要了解諸如“誰在進行活動”、“使用的工具”、“活動發生的場所”等信息用于更高層次的場景理解。

靜態圖像中的行為以及人物交互識別任務在過去的很長一段時間已經成為計算機視覺領域的研究熱點之一[4],早期的數據集和方法主要集中在識別較少數量的動作[5],近年來的相關數據集則開始關注人與人、人與物之間的交互[6-7],而最新的研究已有更為詳細的、結構化的數據集被提出,以便于解決更高層次的理解問題。Yatskar等人[8]利用自然語言資源提出的imSitu就是一個更大、信息更為全面的數據集,該數據集以一個三元組的形式描述靜態圖像的場景信息,與此同時,他們使用了一個CRF模型用于建模動作和交互角色-名詞實體之間的依賴關系。在本文的工作中,實驗使用Transformer模型來解決本任務,捕獲動作-交互角色-名詞實體之間的相關性關系。

Transformer[12]在自然語言處理中受到廣泛的應用,已經證實其結構可捕獲語法用于生成句子,近來也有部分工作將其用于圖像領域并取得較為不錯的效果[13-14],受啟發于以上兩點,本文將其運用于場景預測任務。場景預測包括預測一個動詞和一組與之相關聯的名詞實體,故可將其視為一個特定動作擁有著固定語法框架的結構化標題生成任務。具體實現上參照一般的圖像處理任務,首先通過CNN抽取圖像特征,進一步將特征送入Transformer模型,在輸出結點生成動作或名詞實體。與其他模型相比,本文提出的模型在公開的數據集imSitu上取得了更好的效果。

本文首先對當前的場景識別研究以及視覺Trans?former的相關工作進行簡要介紹,隨后詳細描述本文所使用的網絡結構和算法細節,最后對實驗結果進行對比分析。

1 相關工作

1.1 場景識別相關技術

Yatskar等人提出的imSitu數據集將場景識別的任務定義為預測一個結構化的三元組,具體而言,對于特定的行為,會涉及到特定的參與角色,如“參與主體”、“工具”以及“地點”等,任務需要為主體發生的行為所涉及到的交互角色分配對應的名詞實體。與前文對應,參與主體可能是人、狗等,工具則可能是刀、繩子等,地點則可能是森林、廚房等。對于同一個動作,其參與的語義角色固定,但根據該動作所表示的語義不同而對應著不同的名詞實體。我們從數據集里選取一組圖片如圖1所示。

圖1 數據集示例

可以看到,同樣是拖拽的動作,場景可被泛化的定義為“某人正在某個地方拖拽某物”,涉及到的角色(表格中藍色的一列)共有3個,agent指發生當前行為的主體,item則為被拖拽的物體,place即發生的地點。左右兩張圖像視覺上分別對應著拔河與遛狗兩種場景,即使是相同的動作拖拽,參與動作的角色的取值(右側綠色這一列)也不同,文中我們將其這些值稱為名詞實體,其取值更多的與當下的語義環境相關。我們的任務就是要在識別動作的同時,將參與的角色進行識別,以便于更高層次的理解當前畫面的信息。

Yatskar等人在提出數據集的同時也提出了利用神經網絡建模的CRF模型,利用CNN分別得到動詞和動詞-角色-名詞實體組合輸出的勢函數,聯合建模了動詞以及動詞-角色-名詞實體元組的預測。在他們接下來的工作中,考慮到了輸出空間的龐大(各種組合的可能性太多)以及訓練數據中的稀疏性可能會帶來的問題,進一步在其接下來的工作[9]中提出了一個張量合成函數來共享不同角色之間的名詞。同時作者還通過根據結構化情景構建的查詢短語搜索圖像來增強訓練數據以應對稀疏性問題。

不同于Yatskar等人的聯合預測verb-role-noun,Mallya A等人[10]考慮到對于特定的動作,其所涉及的參與角色是隱含且固定的,在此基礎上他們假定每個動作涉及到的角色有一個固定的順序,進而將問題轉變為先預測一個動詞,在確定動詞和角色之后,為每一個角色分配名詞實體。在這樣的定義下,考慮到大部分的行為都有人的參與,作者使用一個融合網絡,將原畫面與提前檢測到的人物框進行疊加來預測動作,另外再使用RNN模型預測固定角色順序的名詞實體。具體而言,在RNN的每一個時間步輸出一個名詞實體分類的結果,這大大的減小了分類的域,減少了內存消耗。

RNN的工作建模了同一個動詞的不同角色對應的名詞實體之間的關系,而忽略了角色與名詞實體以及動詞之間的關系,Ruiyu Li等人[11]利用圖結構,通過把動詞和參與角色定義為圖結構的結點,使用圖像特征和角色、動詞的詞嵌入聯合初始化這些結點,以圖的邊衡量其關系,利用圖網絡的結點聚合建模角色與角色,角色與動詞之間的關系。在經過有限次聚合迭代后,在每個結點處輸出名詞實體的分類結果。

1.2 視覺Transformer

Transformer是由Vaswani等人基于注意力機制提出來的一個序列模型[12],用于機器翻譯工作,注意力機制可選擇性的聚合來自整個輸入序列的信息,可捕獲到句子中的關鍵部分。Transformer引入了自注意力層,該結構掃描整個序列的每一個元素,通過聚合整個序列的信息來更新當前結點。目前Transformer在自然語言處理領域的許多問題上正在取代RNN,受啟發于此,已有許多工作將其結構應用到計算機視覺任務中[13-14],在不少視覺任務中,Transformer表現出比RNN甚至卷積神經網絡更有力的性能[18]。

本文結合圖網絡建模結點的思路[11]和DETR[13]將Transformer用于目標檢測的結構,通過CNN提取圖像特征,將其轉換為序列輸入Transformer中,建模verb與nouns的依賴關系,實驗證明本方法取得較之此前的工作更好的效果。

2 算法原理

對于任意一張靜態圖像,其場景所涉及到的動詞和與參與動作的角色之間存在著依賴關系[11],以前文“拖拽”這一動作為例,參與行為的主體(agent)就與發生的地點(place)存在相關性,出現在運動場的實體更可能是人而非狗。而“攜帶”這一動作,agent就與被拿的物體(item)相關,小件的物體拿在手上,大件的物體更可能是在背上,那么根據場景的不同,行為對應的agent取值則不同。前文提到的方法使用CRF、RNN及圖神經網絡來模擬這些隱含的依賴關系,考慮到Trans?former的注意力機制在更新結點時會綜合考量當前結點自身與其他結點的關系,本文使用Transformer結構來解決場景識別任務。具體地,實驗將Transformer結構的encoder用于特征編碼,decoder部分用于模擬verb結點與role結點,進一步計算動作與參與角色之間的重要程度。

Attention機制:Transformer的核心算法在于其自注意力機制,將輸入序列映射到三個分別稱為Q、K、V的矩陣,并進行如下公式所示的運算對結點與結點間的相關性建模,且這樣的方式是動態衡量結點間信息相關性,符合本任務場景語義的不同會帶來角色間依賴不同的特點。多頭注意力則將序列拆分后運算再進行拼接,以便于以不同的維度觀測序列的重要部分。

參考DETR的工作,本文使用CNN作為back?bone,提取圖像特征后將其展開為序列,結合位置編碼后作為Transformer的encoder部分的輸入。而在Transformer的decoder部分,不同于DETR的設置,對于每一張圖片,本文使用固定數量為7個的輸出,對verb結點和noun結點進行模擬,使用輸出序列的第一個結點作為動詞結點,而后6個結點作為角色結點,將其稱為role query。通過這樣的方式,利用Transformer的attention機制來衡量結點間的相關性。模型的大致流程如圖2所示。

圖2 模型流程

在輸出時,實驗取消了DETR模型末端的MLP頭,分別使用兩個線性映射后接softmax用于動詞和一組名詞實體的預測。

在訓練時,保留二分匹配的部分,用于名詞實體結點的匹配,實驗使用匈牙利匹配算法。定義當前圖像所涉及到的每一個角色對應的名詞實體為e,其真值的索引σ(e)以及softmax后對應的概率為pσ(e)(e),將這一組名詞實體的匹配cost矩陣設計為,經過匹配后,使用動詞verb和匹配后的noun聯合優化模型,loss設計為:

其中yv和ye分別為動詞和當前圖片s對應的一組角色的名詞實體的真實值(在數據集中的索引),Ef即當前圖片的所有角色,此外,imSitu數據集給每一組角色都提供了三組名詞實體的標注,我們對三組結果取均值,也就是loss公式的右半部分。

3 實驗設置與結果分析

3.1 數據集與評價指標

實驗將基于公開數據集imSitu進行,該數據集包含504個動作,190種語義角色,取使用頻率最高的2000種名詞實體。數據集中的每一張圖片對應著一個動詞verb,三組角色-名詞實體標注,這里的三組標注是源于不同的人對于畫面的不同理解,其中的語義上的詞定義來自FrameNet和WordNet。數據集的劃分上,訓練集、驗證集和測試集大小分別為75k、25k和25k,在imSitu訓練集的75k張圖片上進行模型的訓練,同時在驗證集上進行驗證并以此調整模型的訓練情況,以最好的模型在測試集進行測試。

沿用先前工作的評估方式,本文評估以下三個指標:①verb:指動詞識別正確的分類準確率。②value:每一個單獨的名詞實體分配正確的準確率。③valueall:當前動作所有名詞實體均分配正確的準確率。

3.2 實驗設置

實現上,訓練參數做如下設置,batchsize為取64,epoch為40,使用Adamw訓練策略,Transformer的初始學習率為10-4,backbone選取ResNet[15],加載torchvision在ImageNet上預訓練的模型參數進行finetune,初始學習率為10-5,權重衰減為10-4,分別在25、30、36次ep?och時將學習率縮小1/10。DETR中將Transformer的layer norm去掉了,這里我們恢復encoder結尾的layer norm,采取gelu作為激活函數。

3.3 結果分析

本文將實驗結果與本任務的其他方法分別在驗證集和測試集上進行了對比,實驗結果如表1所示,其中第5行(已加粗)是本文采用的方法的實驗結果,評價指標如3.2所述,與其他工作類似,我們也選取了動詞預測top-1和top-5的分類結果。可以看出,本文提出的方法在imSitu數據集上與其他方法相比均有所提升。

表1 本文方法與其他方法的實驗結果對比

受益于Transformer的self-attention機制,模型捕捉到名詞實體(即value/noun)之間的相關性,除此之外,相較圖網絡[11]和RNN[10]的方法都是基于角色建模依賴關系,我們在decoder處將動詞和參與角色同時作為結點,不僅考慮參與角色之間的關系,也考慮每一個參與角色與動作之間的聯系,故可以看到本文方法在verb預測上表現優越。同時attention機制使得模型更關注重要的角色,以及其重要程度,正如前文所討論的,特定行為的特定角色對區分畫面的貢獻度更高。role query的存在使得每一個參與的角色都會與verb進行結點間的信息聚合,故在給角色分配對應的名詞時也取得較好的效果。

此外,場景識別中,行為發生時的角色的相對位置理論上也對分類的結果有幫助,盡管此前的方法也用到了圖像特征,但并沒有顯式的將位置信息加入結點進行編碼,Transformer在其encoder與decoder部分均在每個結點上疊加位置編碼,本文認為這部分內容也有助于結果的提升。

同時我們也看到,value-all這一指標的準確率盡管高于基準方法,但相比其他方法而言效果不是很好,這里推測可能是由模型末端的二分匹配的不準確性帶來的誤判。

4 結語

本文提出了一種新的用于靜態圖像情景識別的方法,可同時預測正確的動詞以及參與當前行為的交互角色-名詞實體組合。本文使用的視覺Transformer方法明確地建模了行為和交互角色之間的依賴關系,使得動作與角色之間、角色與角色之間可互相感知相關關系。在本問題的標準數據集imSitu上,我們在評估的三個指標上均取得了超出baseline方法的效果,在動詞和value的識別上超出當前所有的其他方法,通過分析,表明了該方法對捕獲動詞與角色之間依賴關系的有效性。

猜你喜歡
動作模型
一半模型
下一個動作
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 啪啪永久免费av| 亚瑟天堂久久一区二区影院| 国产人在线成免费视频| 亚洲天堂日韩在线| 美女扒开下面流白浆在线试听| 在线欧美日韩| 狼友视频一区二区三区| 九色91在线视频| a级毛片免费看| 亚洲男人的天堂在线观看| 久久动漫精品| 99一级毛片| 99在线视频免费| 久久香蕉国产线| 亚洲综合在线网| 亚洲成人精品在线| 男人天堂伊人网| 91麻豆久久久| 精品伊人久久久香线蕉| 亚洲视频一区| 91精品视频在线播放| 韩日免费小视频| www.狠狠| 日韩免费毛片| 国产激情无码一区二区三区免费| a毛片基地免费大全| 免费中文字幕在在线不卡| 26uuu国产精品视频| 69av在线| 亚洲中文字幕久久无码精品A| 97视频在线精品国自产拍| 亚洲自偷自拍另类小说| 日本午夜网站| 天天综合亚洲| 亚洲大尺码专区影院| 亚洲一区二区三区国产精品 | 国产精品综合久久久| 亚洲欧洲国产成人综合不卡| 成人无码一区二区三区视频在线观看 | 91福利片| a欧美在线| 国产精品不卡永久免费| 国产精品私拍在线爆乳| 国产正在播放| 欧美午夜视频在线| 男人天堂亚洲天堂| 无码国内精品人妻少妇蜜桃视频| 国产亚洲精久久久久久无码AV| 欧美在线综合视频| 国产麻豆91网在线看| 日本日韩欧美| 自拍偷拍一区| 国产精品浪潮Av| 久久香蕉国产线看精品| aaa国产一级毛片| 欧类av怡春院| 高清无码不卡视频| 免费人成视网站在线不卡| 亚洲成人福利网站| 人妻精品全国免费视频| 国国产a国产片免费麻豆| 特级毛片免费视频| 欧美人与牲动交a欧美精品| 一级福利视频| 91精品综合| 狠狠色狠狠综合久久| 综合天天色| 91精品久久久无码中文字幕vr| 欧美自慰一级看片免费| 白浆视频在线观看| 国产精品99在线观看| 国产成人综合在线视频| 天天综合网色| 亚洲精品无码AⅤ片青青在线观看| 亚洲无码在线午夜电影| 狠狠色噜噜狠狠狠狠色综合久| 制服丝袜国产精品| 久久精品国产精品一区二区| 中国精品久久| 国产成人精品男人的天堂| 亚洲综合欧美在线一区在线播放| 67194成是人免费无码|