999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用可分離卷積和多級特征的實例分割*

2019-05-20 06:56:18王子愉黎健成
軟件學報 2019年4期
關鍵詞:語義特征實驗

王子愉,袁 春,黎健成

1(清華大學 計算機科學與技術系,北京 100084)

2(清華大學 深圳研究生院,廣東 深圳 518000)

1 介 紹

實例分割是計算機視覺中的一項具有挑戰性的任務,它結合了目標檢測[1,2]和語義分割[3-9]的任務.目標檢測要求在實例層級上進行分類和定位,而語義分割在像素層級上進行分類.實例分割不僅需要每個實例的邊界框,還需要精確的分割掩碼.

實例分割領域的早期方法,如Deepmask[10]、Sharpmask[11]和InstanceFCN[12],都使用了Faster R-CNN對實例進行分類和定位.它們在興趣區域(region of interest)的基礎上利用全卷積網絡生成分割掩碼.給定一個圖像片段,Deepmask做兩件事:生成一個可以分辨每個像素是否屬于某一個實例的掩碼;獲取表示此圖像片段中心是否包含實例的置信度的分數.Deepmask的關鍵是同時預測掩碼和實例的得分.Sharpmask通過生成具有不同深度的圖像特征的更高質量掩模來改進Deepmask.它首先從高層次特征生成實例的掩碼,并使用較低層次的特征逐步加以細化.InstanceFCN[12]提出了位置敏感評分圖,以保證分割任務的平移可變性.位置敏感評分圖被整合以生成每個實例的分割掩碼.另一種稱為多任務網絡級聯(MNC)的方法將實例劃分為3個階段:包圍盒提議、掩碼生成和實例分類.每個階段都以前一階段的結果作為輸入,整個網絡是端到端的.

上述方法的一個共同缺點是它們以類不可知的方式分割實例,這可能導致不準確的分割.為了解決上述問題,一種端到端的解決方案 FCIS[13]被提了出來.FCIS繼承使用了位置敏感評分圖的方法,將其擴展到內外位置敏感評分圖,充分利用了上下文信息.另一方面,它為分割子任務中的每個類生成掩碼候選項,以使最終掩碼更準確.基于FCIS,Biseg[14]利用語義分割的結果作為實例分割的先驗信息.多尺度的位置敏感評分圖在Biseg中也被證明是有效的.通過這兩項技巧,Biseg比FCIS有了顯著的提高.

最近,由何明凱提出的Mask R-CNN[15]是一種簡單、靈活、通用的對象實例分割框架.作者在Faster R-CNN中加入了一個分割分支,在檢測的同時對實例進行分割.Mask R-CNN改進了分割的損失函數,由原來常用的基于單像素softmax的多項式交叉熵變為了基于單像素sigmod二值交叉熵,二值交叉熵會使得每一類的掩碼不相互競爭,而不是與其他類別的掩碼比較.另外一點改進在于,作者加入了 RoIAlign層,利用雙線性插值使得興趣區域的池化結果更加接近未池化前的特征,從而降低了誤差.盡管結構簡單,但在 FPN[2]等一系列實用技術的幫助下,Mask R-CNN取得了良好的效果.Mask R-CNN需要在至少8個GPU的實驗環境下才能復現出與論文結果相近的表現,GPU的數量直接影響實驗中批處理的數量,而大的批量能夠帶來穩定的批量歸一化(batch normalization)效果,從而帶來好的實驗結果.受限于實驗環境,我們的 GPU 數量目前無法滿足要求,因此復現的Mask R-CNN效果與原論文相差較大,失去了比較的意義.出于這個原因,我們不能在Mask R-CNN上進行實驗,只能作為參考,相關實驗留待進一步研究.

本文繼承使用了位置敏感評分圖的思想,提出了一種比FCIS更復雜、更精確的模型.我們的方法充分利用了目標檢測和語義分割的最新進展,在檢測子任務中加入更有效的檢測框架,設計了一個具有邊界細化模塊和多級特征的復雜分割分支.最后,在 PASCAL VOC數據集上對該方法的性能進行了評價.我們在mAPr@0.5和mAPr@0.7中分別達到69.1%和54.9%,顯著高于我們的基準線方法FCIS.本文的主要貢獻總結如下.

(1) 利用具有大型卷積核的可分離卷積改進了檢測分支,得到了更精確的包圍盒.

(2) 利用可分離卷積和邊界細化操作改進了分割分支,得到了更精確的分割邊界.

(3) 我們的模型融合了Resnet-101的低、中、高3個層次的特征.實驗驗證了融合后特征的有效性.

2 相關工作

2.1 全卷積實例感知網絡(FCIS)

這項工作是以InstanceFCN為基礎的.InstanceFCN引入了位置敏感評分圖,在一定程度上保持了平移可變性.InstanceFCN主要用于生成掩碼,但也存在一些不足,如不能判斷語義類別,需要后續的網絡輔助判別,這意味著它不是端到端的結構.

基于InstanceFCN,全卷積實例感知網絡(FCIS)被提了出來,InstanceFCN只有單個對象輸出,沒有類別信息,需要單獨的網絡完成類別信息,FCIS一個網絡同時輸出實例掩碼和類別信息.FCIS的兩個子任務(目標檢測和分割)不僅共享卷積特征,而且共享位置敏感評分圖.

在實例分割中,相同像素可以是目標的前景或另一目標的背景.僅僅通過為每個類別輸出單個得分圖來區分這兩種情況是不夠的.因此,FCIS的主要創新之一就是提出了內外位置敏感評分圖.在FCIS中,對于一個類別,每個像素在每個分區中具有兩個分數,表示在目標邊界內部(或外部)的可能性.通過這種方法,FCIS中位置敏感得分圖記錄了更多的語義信息并生成了更精確的掩碼.輸入圖像,使用卷積神經網絡提取特征,用區域提議網絡(RPN)提取候選區域矩形框,計算這些矩形框的部件內外位置敏感評分圖,就是部件對象邊界內的概率圖和對象邊界外的概率圖.通過整合得到完整對象的對象邊界內的概率圖和對象邊界外的概率圖,通過逐像素的softmax操作得到實例掩碼,通過逐像素的max操作得到類別概率.

2.2 可分離卷積(seperable convolution)

Fig.1 Separable convolution圖1 可分離卷積

為了減小卷積運算中的參數,可分離卷積的概念被提了出來.利用可分離卷積,卷積運算可以分成多個步驟.假設卷積運算由y=conv(x,k)表示,其中,輸出圖像是y,輸入圖像是x,卷積核大小是k.接下來,假設k可以通過以下等式計算:k=k1.dot(k2).這實現了可分離的卷積運算,因為二維卷積運算不是由卷積核大小為k的一維卷積運算執行的,而是由卷積核大小為k1和k2的兩個一維卷積運算代替.這樣就減少了大量的參數,因為通常k1×k2比k1+k2大得多.可分離卷積如圖1所示.

在目標檢測和語義分割任務中,具有大型卷積核的卷積運算被證明是有效的,因為大的卷積核帶來了大而有效的感知域[7,16,17].對于目標檢測和語義分割任務,大的感知域能夠使得大物體的信息被完整地傳遞到更深層的網絡,對于目標包圍框的定位更加準確.例如,在后文所示的圖 5中,FCIS方法檢測出來的火車在車尾部分明顯丟失了一小段,這就是因為感受野不夠大而導致的.用具有大卷積核的可分離卷積擴大感受野后,目標包圍框明顯擴大,這部分缺失的內容被彌補了回來.

擴大感受野的效果是由進行大卷積核卷積帶來的,而大卷積核的卷積操作的問題在于參數會變得非常多,通常計算資源不能滿足.可分離卷積的目的在于大幅度減少參數,從而使得大卷積核的卷積操作能夠可行,利用可分離卷積,可以用較少的參數和較快的速度進行大型卷積核卷積運算.

2.3 Light-Head RCNN

在流行的兩階段檢測框架(如Faster R-CNN和R-FCN)中,第1步是生成足夠的候選對象,稱其為主體;第2步是識別候選框,即頭部.為了獲得最佳精度,頭部通常被設計得非常繁重,這需要大量的參數和復雜的計算.為了解決這個問題,使用具有大型卷積核的可分離卷積來生成一個較薄的分數圖,稱為輕頭部.為了減少信息丟失,Light-Head RCNN刪除了Faster R-CNN或R-FCN中的全局平均池化層.在這之后,就沒有辦法直接得到最終的結果.然而,通過添加一個全連接層則可以獲得分類和回歸的最終結果.實驗中,我們用 10代替了原本的類別數,因此降低了位置敏感的興趣區域池化層和全連接層的計算量.此外,我們使用了具有大卷積核的分離卷積代替1×1卷積,將k×k的卷積轉化為1×k和k×1,最后加上了一個全連接層作通道變換,再進行分類和回歸.通過實驗我們還發現,在通道數少的特征圖譜上作興趣區域的池化,不僅準確率提高,還會節約內存及計算量資源.通過這種方法,Light-Head R-CNN提高了檢測的速度和精度.

2.4 邊界細化(boundary refinement)

通常大量的物體會有復雜且不規則的邊界形狀,邊界形狀的精確預測對于整個實例的分割影響重大.在最近的語義分割工作中,為了提高邊緣的分割精度,有研究者提出一種帶殘差結構的邊界細化[7]模塊.這種邊界細化模塊在初步得到實例的分割掩碼之后使用,以進一步擬合實例邊界.由于實例分割的分割子分支中使用的方法與語義分割有大量的相似之處,這種方法在實例分割中也是有用的.該模型采用邊界細化模塊對生成的掩模進行細化.詳情如圖2和圖3所示.

Fig.2 Boundary refinement圖2 邊界細化

3 提出的方法

Fig.3 Segmentation module圖3 分割模塊

在該模型中,網絡輸入任意大小的圖像并輸出實例分割結果.該網絡具有多個子網絡,它們分享共同的卷積特征:區域提議、邊界框回歸、實例分割.區域建議子網絡根據區域建議網絡(RPN)[1]的工作生成興趣區域.邊界框回歸子網絡對初始輸入的興趣區域進行細化,以產生更精確的檢測結果.實例分割子網絡估計實例掩碼.我們的模型如圖4所示.

Fig.4 Network architecture圖4 網絡結構

3.1 Resnet-101特征融合

我們使用 ResNet-101[18]模型作為卷積主干結構進行特征提取.Resnet-101模型可分為 5個階段,每個階段產生不同深度的特征.特別地,在基準線方法FCIS的實現過程中,Resnet-101的第5級特征與第4級特征具有相同的大小輸出.在我們的模型中,第2層、第3層和第4層的特征通過1×1的卷積操作被下采樣到與第5層相同的大小,然后這些特征被組合成新的4層特征,具體的操作方法為,從第5層到第2層的特征逐層進行對應位置上的元素加法,4次操作得到 4層新的特征,這些特征圖有著相同的大小和深度,但是特征融合的信息由少到多.每個新的特征圖將作為實例分割子網絡的輸入.

3.2 檢測子分支

如上所述,采用Light Head R-CNN的結構作為我們的子網絡.在Resnet-101的conv5層特征圖上進行大型卷積核的分離卷積,得到輕頭部.我們將內核大小設置為15,這與原始Light Head R-CNN中的大小相同.在輕頭部中對于每個候選框進行位置敏感的興趣區域池化,這樣,每個候選框的特征就被提取出來.將結果通過一個全連接層轉化為4 096維的向量,通過全連接層進行分類和邊界框回歸.

3.3 實例分割子分支

對于第 3.1節中描述的每個新特征,我們都執行相同的一系列操作,這些操作可以歸納為一個分割模塊.分割模塊的細節如圖 4所示.與語義分割不同,我們發現具有大型卷積核的可分離卷積在實例分割中并不那么有效,原因是實例分割中每個實例在圖像中的面積不一定很大,這導致大的感受野只對大的物體具有積極效應,而對于小的物體無效甚至有負面效果.在我們的實驗中,通過多次的實驗驗證,最終把卷積核大小定為 3,得到了最好的結果.

3.4 損失函數

實驗使用的損失函數為實例分割任務中常用的聯合訓練損失函數:

其中,Lcls為目標檢測任務中對于興趣區域目標類別預測的交叉熵,Ldet為目標檢測中對于興趣區域的位置修正損失函數,Lmask為語義分割任務中預測的掩碼與實際掩碼的逐像素交叉熵之和.由于實驗采用的是端到端的訓練方式,因此這3種損失函數同步計算并回傳梯度,3種損失函數直接相加,不進行加權.

4 實 驗

我們在VOC 2012訓練集(5 623張圖片)上對模型進行了訓練,并對VOC 2012驗證集進行了評估(5 732張圖片).我們使用的評估度量是區域上的平均精度,稱為mAPr.使用0.5和0.7的交并比閾值下的mAPr指標,在預測區域和真實區域上計算交并比.

實驗環境:顯卡為2×Titan X(Pascal),訓練時的學習率設置為0.000 5,共訓練22次迭代,訓練時的批處理數量為1,其他實驗設置與官方開源的代碼相同.

FCIS*:此基準線方法基于FCIS的開源實現.由于實驗使用的代碼是在基于FCIS作者開源的官方代碼上修改實現的,在運行官方代碼時,原代碼使用了4個GPU運行,而我們的實驗環境只有2個GPU,前文在介紹中已經解釋了 GPU數量對于實驗結果的影響,使用較少的 GPU數量通常都會帶來結果上的略微下降.由于使用的VOC 2012數據集圖片數量較少,因此,雖然復現的結果略低于論文結果,但是差距較小,有一定的比較意義.實際上,在 Biseg[14]中,作者復現的實驗結果同樣略低于論文結果,這并不是由于實驗方法或者實驗設置上的錯誤造成的.參考 Biseg[14],我們將運行 FCIS的結果標記為 FCIS*,這個結果是由 5次運行官方代碼平均得到的結果,偶然性較小.我們的工作基于此.

我們的方法:與作為對照實驗的FCIS*相同,我們使用在ImageNet上預先訓練的ResNet-101模型,同時并不在我們的模型上應用在線硬示例挖掘(OHEM).將模型中的ROIPooling和位置敏感ROIPooling(PSROI Pooling)改為ROIAlign方法,取得了較好的效果,分別為64.8%和51.1%.多層次的特征幫助我們達到了65.9%和52.1%的效果.將Light Head R-CNN的結構改進到我們的模型中之后,結果分別為68.6%和53.8%.最后對網絡結構進行了調整,得到了最好的效果,分別為 69.1%和 54.9%.我們將本文模型與最近的方法進行了比較,結果顯示在表1中.這證明了我們模型的有效性和高效性.

圖 5展示了我們的一些結果.通過邊界細化和融合特征,我們的方法在邊界線處產生了高質量的掩碼.有了更好的檢測器,從而避免了一些丟失或冗余多余的部件.

Table 1 Comparison of results on PASCAL VOC2012表1 PASCAL VOC2012實例分割結果比較

Fig.5 FCIS(top) vs. Our Model(bottom). FCIS shows missing,redundancy and rough boundary圖5 FCIS(上)vs.我們的模型(下).FCIS表現出缺失、冗余和粗糙的邊界

5 結 論

實例分割是物體檢測+語義分割的綜合體.相對物體檢測的邊界框,實例分割可精確到物體的邊緣;相對語義分割,實例分割可以標注出圖上同一物體的不同個體.我們提出了一種有效且復雜的端到端全卷積解決方案以解決實例分割問題.該方法利用Light Head R-CNN方法對邊界盒進行檢測,并利用邊界細化模塊和多級特征來生成分割掩模.在PASCAL VOC數據集上取得了69.0%和54.9%的最佳結果,顯著高于FCIS上的結果.在以后的工作中,我們打算在檢測分支和分割分支之間建立一個直接的連接,以加強它們之間的交流,使共同的特征充分共享.

猜你喜歡
語義特征實驗
記一次有趣的實驗
語言與語義
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产福利影院在线观看| 成人福利一区二区视频在线| 第九色区aⅴ天堂久久香| 91在线精品免费免费播放| 久久精品亚洲中文字幕乱码| 国产在线第二页| 四虎免费视频网站| 国产91精品最新在线播放| 孕妇高潮太爽了在线观看免费| 国产成人精品一区二区免费看京| 成人另类稀缺在线观看| 国产日韩欧美视频| 啪啪啪亚洲无码| 视频一区亚洲| 国产91无码福利在线| 国产在线精彩视频论坛| 欧美日韩一区二区在线播放 | 亚洲三级电影在线播放| 国产在线一区二区视频| 首页亚洲国产丝袜长腿综合| 欧美成人午夜视频免看| 91久久国产热精品免费| 亚洲国产av无码综合原创国产| 国产成人在线小视频| 天天色天天操综合网| 国产在线观看一区二区三区| 狠狠亚洲婷婷综合色香| 永久在线精品免费视频观看| 99精品一区二区免费视频| 久久综合伊人77777| 男女精品视频| 男女性午夜福利网站| 欧美人与性动交a欧美精品| 欧美日韩v| 国产欧美日韩在线一区| 国产成人高清亚洲一区久久| 久久永久免费人妻精品| 国产成人精品无码一区二 | 日韩中文欧美| 亚洲欧美成人在线视频| 亚洲欧美日韩动漫| 免费高清a毛片| 亚洲国产精品一区二区高清无码久久| 欧美色99| yjizz国产在线视频网| 夜色爽爽影院18禁妓女影院| 成色7777精品在线| 国产成人91精品| 午夜在线不卡| 日韩欧美在线观看| 国产拍在线| 国产欧美视频在线| 玩两个丰满老熟女久久网| 无码免费的亚洲视频| 亚洲色图欧美在线| 国产91在线|日本| 亚洲 欧美 日韩综合一区| 黄片一区二区三区| 国产精品第页| 国内精自视频品线一二区| 亚洲成人黄色在线| 欧美曰批视频免费播放免费| 国产精品久线在线观看| 97se亚洲综合在线天天| 毛片在线播放网址| 色婷婷在线播放| 国产无码在线调教| 国产麻豆精品久久一二三| 国产成人免费| 成人av手机在线观看| 女人18毛片一级毛片在线 | 狠狠ⅴ日韩v欧美v天堂| 伊人久久大香线蕉aⅴ色| 亚洲成人精品在线| 91无码网站| 看你懂的巨臀中文字幕一区二区| 99久视频| 欧美第一页在线| 亚洲欧洲自拍拍偷午夜色| 国产精品一区不卡| 国产综合在线观看视频| 国产亚洲一区二区三区在线|