999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種弱監(jiān)督查詢圖像分割方法研究

2022-08-18 01:56:40
無線互聯(lián)科技 2022年11期
關(guān)鍵詞:區(qū)域

劉 富

(西華大學(xué),四川 成都 610039)

0 引言

給出查詢語句,查詢圖像分割(Referring Image Segmentation)要求分割出符合語句描述的目標。 如對于查詢語句“Person sitting on the chair”,該方法僅會分割出坐在椅子上的人,而將其余目標視為背景。 由于語言具有良好的交互性,該方法在監(jiān)控、機器人等領(lǐng)域具有較大的潛在應(yīng)用價值。

Hu 等[1]分別使用VGG,LSTM 網(wǎng)絡(luò)提取視覺與語言信息[2-3],并通過級聯(lián)完成跨模態(tài)信息融合后直接預(yù)測分割區(qū)域。 針對Hu 等[1]提出的不足,后續(xù)的研究大多從視覺、語言特征的提取以及二者的結(jié)合策略這三個角度探索更為準確的分割方法。 Liu 等[4]認為當查詢語句過長時,語言特征無法保留各個詞的信息,因此采用了逐詞的級聯(lián)策略。 在上述方法中,網(wǎng)絡(luò)為提取視覺信息會進行大尺度的下采樣,這會導(dǎo)致圖像中細節(jié)信息的丟失,因此Ye 等[5]在改進視覺、語言結(jié)合策略的同時提出了多級的方法。 不同于上述單階段的分割方法,Yu 等[6]使用注意力機制提取語句中的關(guān)鍵信息并將其與視覺信息級聯(lián)以進行對語言所描述目標的檢測。 檢測到目標后,便可在檢測框內(nèi)分割出語言所描述目標。

為了學(xué)習(xí)目標與語句的對應(yīng)關(guān)系,查詢圖像分割需要大量的訓(xùn)練數(shù)據(jù),然而像素級標簽的制作極為煩瑣。 為了解決該問題,本文提出了一種僅使用語言所描述目標中心點的分割方法。

在強監(jiān)督情形下,語言所描述目標區(qū)域與背景像素數(shù)量相當,因此可直接使用交叉熵損失。 然而在中心點監(jiān)督下,由于中心點所占像素過少,若直接使用交叉熵損失,網(wǎng)絡(luò)會將所有像素預(yù)測為背景,因此需考慮平衡前后景損失。 考慮到目標中心點與其周圍像素具有較高的特征相似性,那么網(wǎng)絡(luò)將周圍像素預(yù)測為前景的可能性較大,然而標簽卻將它們視為背景,因此,若是能降低周圍像素的損失,便能引導(dǎo)網(wǎng)絡(luò)分割出覆蓋整個目標的區(qū)域。 基于此,本文設(shè)計了自適應(yīng)目標損失衰減項,該項通過計算中心點與其周圍像素的余弦相似性以降低周圍像素損失。

引入自適應(yīng)目標損失衰減項后,網(wǎng)絡(luò)能夠預(yù)測出語言所描述目標的大致位置及形狀,然而對于彼此靠近的同類物體,所得分割區(qū)域趨向于覆蓋多個目標。為劃分毗鄰的目標,本文在圖像中語言所描述的不同目標間構(gòu)造了成對損失,其核心思想在于不同目標的分割區(qū)域不應(yīng)當重疊,網(wǎng)絡(luò)框架圖如圖1 所示,圖中Concat表示視覺特征X、語言特征ht及空間位置信息S的級聯(lián),L1表示含自適應(yīng)目標損失衰減項的分割損失,L2表示針對不同查詢目標的成對損失,用以阻止網(wǎng)絡(luò)將單一像素分配給多個目標。

圖1 網(wǎng)絡(luò)框架

1 弱監(jiān)督查詢圖像分割

1.1 自適應(yīng)目標損失衰減項

查詢圖像分割須同時處理視覺信息與語言信息。視覺部分,使用卷積神經(jīng)網(wǎng)絡(luò),如ResNet,提取特征X,X =Wθ(I),X∈?Cl×H×W,其中I表示輸入圖片,Wθ表示卷積網(wǎng)絡(luò)參數(shù),Cl,H,W分別表示特征通道數(shù)、高以及寬。 語言部分,對于語句S,使用LSTM 提取隱狀態(tài)(hidden state)H ={h1,h2,...,ht}[3],其中hi,i∈{1,2,...,t} 表示處理第i個詞后的隱狀態(tài),t表示詞的數(shù)量。 整條語句信息選擇LSTM 最終隱狀態(tài)ht,ht∈?Cl。 此外,查詢語句中的方位詞,如“l(fā)eft”“bottom”等為待分割目標提供了準確的位置信息,因此網(wǎng)絡(luò)需增加空間位置信息E,E∈?8×H×W,用以準確匹配語言。其以圖像中心為原點構(gòu)建坐標系并分配坐標,之后便可構(gòu)建分割損失。

式(1)中,yi^表示中心點標簽,yi表示網(wǎng)絡(luò)預(yù)測像素,i是語言查詢目標的概率。 (1- ai) 為自適應(yīng)目標損失衰減項,表示像素i與中心點像素視覺特征的余弦相似性,引入該項的原因是,對于中心點周圍像素,與中心點屬于同一個目標且位置相近,則其對應(yīng)視覺特征與中心點應(yīng)當具有較高的相似性,而對應(yīng)級聯(lián)的語言特征又完全相同。 在該條件下,網(wǎng)絡(luò)會將中心點周圍像素同樣預(yù)測為前景,但所給標簽卻將之視為背景,這不利于網(wǎng)絡(luò)的收斂同時也將導(dǎo)致預(yù)測區(qū)域僅覆蓋目標中心點。 引入該項后,對于中心點,分割損失保持不變,而對于非中心點,其分割損失為交叉熵損失與(1-ai) 的積。 該情況下,對于中心點周圍像素,與中心點的余弦相似性ai較大,則(1- ai) 值較小,即使網(wǎng)絡(luò)將這些像素預(yù)測為前景也不會產(chǎn)生較大的損失,有利于分割區(qū)域向中心點周圍擴散。 對于遠離中心點的像素,(1- ai) 值較大,不會影響背景的準確識別。 在中心點監(jiān)督下,背景像素遠遠多于中心點,會導(dǎo)致網(wǎng)絡(luò)將所有像素預(yù)測為背景。 因此,本文增加超參數(shù)λ用以降低背景損失在總體損失中的比重。 式(2) 中Xc,Xi分別表示目標中心點及第i個像素的視覺特征。 式(3)表示預(yù)測層,其中‖表示視覺特征X、語言特征ht及位置信息E的級聯(lián),Wc表示預(yù)測層參數(shù),σ表示sigmoid激活函數(shù),y表示分割區(qū)域,y∈?H×W。

自適應(yīng)目標損失衰減有利于預(yù)測區(qū)域由目標中心點向目標周圍擴散,然而,當多個同類別目標彼此靠近時,這樣的擴散會導(dǎo)致預(yù)測區(qū)域覆蓋其他目標。 因此,本文設(shè)計了成對損失用以輔助臨近目標的劃分,核心思想是針對不同目標的查詢分割區(qū)域不應(yīng)當產(chǎn)生重疊。

1.2 成對損失

記同一幅圖像中針對不同目標的查詢語句分別為Sa,Sb,其對應(yīng)的分割結(jié)果為ya,yb;記ya,yb中大于0.5(表示前景) 且重疊的區(qū)域為O,則成對損失可表述為:

式(4)中,| O|表示重疊前景區(qū)域的像素總數(shù);m表示成對損失懲罰系數(shù),用于控制成對損失比重。 該成對損失將迫使網(wǎng)絡(luò)僅能將單個像素視為某一個目標的區(qū)域,緩解區(qū)域不正常擴散的問題。

結(jié)合分割損失L1,成對損失L2便可構(gòu)造網(wǎng)絡(luò)總損失:

2 實驗結(jié)果及分析

本文在UNC 數(shù)據(jù)集上進行實驗,共包含19 994 幅圖片,對應(yīng)142 090 條查詢語句;其中120 624 條用于訓(xùn)練,10 834 條用于驗證(val),5 657 條用于測試集A(testA),5 059 條用于測試集B(testB)。 兩測試集的差別在于testB 中查詢語句不包含人,而testA 包含。 這樣的切分策略有助于準確評估查詢圖像分割方法在不同場景下的性能。 度量指標選擇IoU,該值越高表示分割性能越好。

2.1 實驗細節(jié)

本方法視覺特征提取網(wǎng)絡(luò)選擇ResNet,并且使用經(jīng)ImageNet 預(yù)訓(xùn)練后的參數(shù)。 語言特征提取選擇LSTM 并隨機初始化。 背景像素比重λ設(shè)置為0.05,該值由中心點像素在圖像中的比例所決定。 成對損失懲罰系數(shù)m設(shè)置為1。 優(yōu)化器選擇Adam Optimizer 并設(shè)置初始學(xué)習(xí)率為0.000 4,batch_size 設(shè)置為8。 網(wǎng)絡(luò)在訓(xùn)練集上共迭代10 次,并且每迭代3 次學(xué)習(xí)率降低為當前值的10%。 圖像在輸入網(wǎng)絡(luò)前調(diào)整為“320×320”大小并保留原圖像縱橫比。 測試時,與強監(jiān)督方法相同,使用條件隨機細化分割區(qū)域[4]。 特別注明的是本方法在測試時僅需要圖像及對應(yīng)查詢語句。

2.2 實驗結(jié)果

2.2.1 定量分析

UNC 數(shù)據(jù)集下的實驗結(jié)果如表1 所示,其中C 表示僅使用交叉熵損失及前后景平衡項λ;“C+S”表示在算法C 的基礎(chǔ)上引入自適應(yīng)目標損失衰減項,即公式(1);“C+S+P”則表示引入衰減項及成對損失,即公式(5)。 可以看出,相較于算法C,“C+S”在三個子集下的測試精度分割分別提高了2.17%,1.57%,2.34%,表明目標損失衰減能夠引導(dǎo)預(yù)測區(qū)域由目標中心點向整體擴散。 引入成對損失“C+S+P”,網(wǎng)絡(luò)能夠更為準確地劃分臨近目標,測試精度得到進一步提升。

表1 各方法在UNC 數(shù)據(jù)集下的分割性能(IoU)

2.2.2 定性分析

實驗主觀結(jié)果如圖2 所示, 圖像下方文字表示查詢語句,其中(b)(c)中白色區(qū)域分別表示算法C 及本文所提方法“C+S+P”所得分割區(qū)域;(d)表示測試標簽,分割區(qū)域與測試標簽的重合度越高表示分割性能越好。 可以看出,算法C 未分割出左側(cè)大象的嘴部,僅得到目標的大致方位。 而“C+S+P”通過自適應(yīng)地降低中心點周圍像素損失,有效地擴散了分割區(qū)域,因此覆蓋程度更高。 這表明本文所提方法能夠僅在語言所描述目標中心的監(jiān)督下得到較為準確的結(jié)果。

圖2 UNC 驗證集下測試結(jié)果

2.3 結(jié)論

本文提出了一種僅使用語言所描述目標中心點的弱監(jiān)督查詢圖像分割方法,通過引入自適應(yīng)目標損失衰減項及成對損失,能夠引導(dǎo)網(wǎng)絡(luò)分割區(qū)域由中心點至目標整體正確擴散,進而得到覆蓋度更高的預(yù)測區(qū)域。 考慮到視覺特征、語言特征直接級聯(lián)的方式無法充分評估二者關(guān)聯(lián),未來將在多模態(tài)信息的結(jié)合策略上做進一步改進。

猜你喜歡
區(qū)域
分割區(qū)域
探尋區(qū)域創(chuàng)新的密碼
科學(xué)(2020年5期)2020-11-26 08:19:22
基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
軟件(2020年3期)2020-04-20 01:45:18
小區(qū)域、大發(fā)展
商周刊(2018年15期)2018-07-27 01:41:20
論“戎”的活動區(qū)域
區(qū)域發(fā)展篇
區(qū)域經(jīng)濟
關(guān)于四色猜想
分區(qū)域
公司治理與技術(shù)創(chuàng)新:分區(qū)域比較
主站蜘蛛池模板: 欧美一区福利| 夜夜操天天摸| 欧美午夜网| 亚洲日本韩在线观看| 麻豆国产在线观看一区二区| 毛片国产精品完整版| 凹凸国产分类在线观看| 亚洲欧美综合另类图片小说区| 大香网伊人久久综合网2020| 亚洲成人福利网站| 成人综合久久综合| 国产精品手机在线播放| 日本不卡在线播放| 午夜欧美理论2019理论| 四虎影视永久在线精品| 久久精品国产999大香线焦| 99久久精品视香蕉蕉| 日本不卡在线播放| 激情国产精品一区| 四虎在线观看视频高清无码 | 麻豆国产原创视频在线播放 | 在线视频亚洲色图| 亚洲丝袜中文字幕| 国产极品粉嫩小泬免费看| 国产在线欧美| 国产一级无码不卡视频| 日韩不卡免费视频| 波多野结衣一二三| 特级精品毛片免费观看| 97在线碰| 免费又黄又爽又猛大片午夜| 制服丝袜在线视频香蕉| 亚洲一区二区日韩欧美gif| 天堂av综合网| 红杏AV在线无码| 欧美精品不卡| 激情视频综合网| 亚洲成人一区二区| 伊人无码视屏| www.91在线播放| 国产理论一区| 亚洲欧洲日韩综合| 亚洲中文制服丝袜欧美精品| 9久久伊人精品综合| 亚洲精品第一在线观看视频| 欧美一级夜夜爽| 精品国产成人国产在线| 亚洲人免费视频| 欧美成人综合视频| 国产在线精品人成导航| 在线国产综合一区二区三区| 特级毛片8级毛片免费观看| 精品国产99久久| 亚洲国产91人成在线| 亚洲AV无码精品无码久久蜜桃| 一级毛片免费播放视频| 欧美性天天| 国产91全国探花系列在线播放| 日韩无码真实干出血视频| 亚洲中文在线看视频一区| 97青青青国产在线播放| 亚洲日韩国产精品无码专区| 国产9191精品免费观看| 欧美不卡视频在线| 国产欧美又粗又猛又爽老| 一本大道AV人久久综合| 亚洲中文无码av永久伊人| 国产精品久久久久久久久久98| 日韩123欧美字幕| 日韩在线视频网站| 欧美人与动牲交a欧美精品| 免费精品一区二区h| 成人a免费α片在线视频网站| 欧美日韩国产一级| 精品国产www| 性激烈欧美三级在线播放| 欧美中文字幕在线视频 | 国产一级视频久久| 亚洲第一视频网| 亚洲成人www| 欧美亚洲另类在线观看| 欧美成人免费|