999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖像級標簽的弱監督圖像語義分割綜述

2021-11-25 12:47:46謝新林尹東旭續欣瑩劉曉芳羅臣彥
太原理工大學學報 2021年6期
關鍵詞:語義監督區域

謝新林,尹東旭,續欣瑩,劉曉芳,羅臣彥,謝 剛,

(1.太原科技大學 電子信息工程學院,太原 030024;2.先進控制與裝備智能化山西省重點實驗室,太原 030024;3.太原理工大學 電氣與動力工程學院,太原 030024)

圖像語義分割旨在自動識別圖像中每一個像素的類別標簽,是計算機視覺領域的一個基礎研究問題,具有非常重要的理論研究價值。相比于單一的圖像處理任務,圖像語義分割能夠同時實現對目標的分割和識別,可以為后續的圖像分析和理解等視覺任務提供細粒度和高層次的語義信息。作為近幾年計算機視覺領域的熱點研究問題之一,圖像語義分割還具有廣泛的應用前景和重大的社會意義,是自動駕駛、機器人感知、3D城市建模、無人機應用、智能交通、智能醫療和遙感影像分析等應用場景的核心技術[1-3]。

近年來,受益于像素級標簽標注的訓練數據和深度卷積神經網絡(deep convolutional neural network,DCNN)模型的廣泛應用,圖像語義分割方法的識別精度獲得了顯著的提高[4-5]。然而,基于深度卷積神經網絡的圖像語義分割方法依賴于大規模精細到像素粒度的訓練數據。這種費時費力和高代價的大規模像素級標簽標注工作嚴重制約了圖像語義分割性能的進一步提升和實際應用的可擴展性。為了解決上述不足和局限性,基于圖像級標簽的弱監督圖像語義分割受到了眾多研究人員的關注,并成為近幾年計算機視覺領域的一個熱點研究課題。

圖像級標簽標注僅需要給出場景圖像中存在的具體目標類別信息,并不需要指出目標類別在圖像中的位置信息。圖像級標簽標注與像素級標簽標注的對比示意圖如圖1所示。相比于像素級標簽,圖像級標簽可以被準確和高效標注,這極大地減少了數據標注的時間和代價。例如,高質量像素級標簽的人工標注大約需要幾分鐘或者十幾分鐘的時間,而圖像級標簽的時間標注代價僅需要幾秒或幾十秒[6]。此外,大規模基于圖像級標簽的訓練數據可以從在線的多媒體分享網站(Flickr,Picasa和Zooomr)中被快速和方便獲取,這極大地緩解了訓練數據規模不足的問題。例如,Flickr網站中存在大量帶有用戶提供標簽的社交圖像未被充分利用[7]。

圖1 圖像級標簽標注與像素級標簽標注對比示意圖Fig.1 Annotation comparison of image-level labels and pixel-level labels

盡管基于圖像級標簽的弱監督圖像語義分割在標注代價和訓練數據獲取方面具有優勢,但是圖像級標簽相比于像素級標簽或者其它形式的弱監督標注,其包含的有指導性和有監督的信息最少,面臨的挑戰和難度也最大。主要表現在:1) 圖像級標簽沒有提供標簽類別在圖像中的位置信息和邊界信息;2) 圖像級標簽無法提供適用于現有深度卷積神經網絡模型所需的像素級標簽標注數據。因此,如何從圖像級標簽推斷出高質量和稠密的位置信息,進而基于推斷的偽標簽數據構建圖像語義分割網絡是當前基于圖像級標簽的弱監督圖像語義分割面臨的關鍵和難點。此外,實際場景圖像往往包含多個目標類別和復雜背景,且各目標類別具有多樣性的外觀、姿態、視角、尺度和紋理等特征,進一步加劇了圖像級標簽位置推斷的難度。

根據標簽位置推斷方式的不同,現有基于圖像級標簽的弱監督圖像語義分割可以劃分為基于超像素的方法和基于分類網絡先驗的方法,如圖2所示。其中,基于超像素的方法主要是以超像素分割產生的超像素或者超像素合并產生的候選區域為處理單元進行圖像級標簽位置推斷,然后基于推斷的偽標簽數據構建分類模型。其原理依賴于多個圖像中具有相似視覺特征的超像素或者候選區域具有相同的類別標簽。該類方法以超像素或者候選區域為處理單元,能夠顯著提高算法的計算效率,并有助于提高圖像級標簽位置推斷的精度。但是,基于超像素的方法依賴于超像素分割和超像素合并產生的初始分割區域的精度,且易受噪聲標簽和背景復雜性的影響。

圖2 基于圖像級標簽的弱監督圖像語義分割方法Fig.2 Weakly-supervised image semantic segmentation method based on image-level labels

基于分類網絡先驗的方法主要是借助類激活圖(class activation maps,CAM)定位網絡[8]或者其它目標識別領域預訓練好的分類網絡來產生具有判別性的初始種子區域,然后通過擴張非判別區域的類別標簽來實現圖像級標簽位置推斷,并基于擴張后的偽標簽數據作為強監督信息訓練圖像語義分割網絡。該類方法的關鍵在于引入類激活圖定位網絡或者其它預訓練好的分類網絡(全卷積網絡、卷積神經網絡、顯著性檢測或者注意力機制等)等先驗信息來產生具有判別性的初始種子區域。然而,類激活圖定位網絡或者其它預訓練好的分類網絡僅能夠識別圖像中一些稀疏的高響應判別區域,且缺乏對目標區域所在邊界的精確描述。

1 基于超像素的弱監督圖像語義分割方法

基于超像素的弱監督圖像語義分割方法可以劃分為以超像素為處理單元的方法和以候選區域為處理單元的方法。基于超像素的弱監督圖像語義分割方法的核心環節包括:1) 超像素或者候選區域的高精度分割;2) 以超像素或者候選區域為處理單元的圖像級標簽位置推斷;3) 基于推斷的偽標簽數據進行分類模型的學習。相比于以像素為處理單元的推斷方式,基于超像素的弱監督圖像語義分割能夠以數量較少的超像素或者候選區域為處理單元進行圖像級標簽位置推斷,有助于提高算法的推斷效率和精度,并能減少噪聲像素對于圖像級標簽位置推斷的干擾。

1.1 以超像素為處理單元的方法

以超像素為處理單元的方法通過超像素分割來產生具有高邊緣貼合度的超像素,主要包括基于圖模型的方法和基于聚類的方法。其中,基于圖模型的方法主要是借助條件隨機場(conditional random fields,CRF)或者馬爾可夫隨機場等圖模型來構建分類模型。其中,在融合條件隨機場的方法中,VEZHNEVETS et al[9-10]分別采用TURBOPIXELS[11]和FH[12]超像素分割算法來產生超像素,并分別基于主動學習和貝葉斯優化來提高算法的分割精度;XING et al[13]采用SLIC[14]超像素分割來產生不同尺度的超像素塊,并利用超像素嵌入來構建條件隨機場的勢函數;韓錚等[15]利用樸素貝葉斯來估計超像素標簽的概率,提出了一種基于紋元森林和顯著性先驗的弱監督圖像語義分割方法;ZHANG et al[16]利用卷積神經網絡(convolutional neural network,CNN)提取多尺度的超像素特征,并利用條件隨機場來構建上下文信息。此外,SHI et al[17]面向基于目標和屬性的弱監督標注,構建了基于馬爾可夫隨機場的超像素之間的關聯性;VEZHNEVETS et al[18]基于超像素的外觀相似性,通過構建多圖模型來恢復訓練圖像的像素級標簽;ZHANG et al[19]由圖像級標簽構建超像素集的空間結構分布提出了一種基于圖割的方法;XU et al[20]利用圖模型來編碼類別的出現與缺失,并對超像素的語義標簽進行分配。

基于聚類的方法主要是基于超像素之間的特征相似性將不同圖像中具有相同視覺特征的超像素通過聚類的方式進行劃分,進而實現超像素級的標簽位置推斷。例如,LIU et al[21]利用譜聚類對過分割的超像素集進行聚類,提出一種基于線性變換的判別特征提取方式;LIU et al[22]還提出一種多示例多標簽學習用于劃分超像素到不同的聚類分組;YING et al[23]通過譜聚類和判別聚類構建以超像素為處理單元的子集,提出一種基于詞典學習的弱監督多元聚類方法;POURIAN et al[24]應用譜聚類的圖劃分方法分離出具有高相關性的超像素;ZHANG et al[25]利用稀疏重構來實現超像素集的劃分,并采用迭代合并更新的方式獲得分類模型的最佳參數。

然而,以超像素為處理單元的方法依賴于超像素分割算法的分割精度,且易受超像素特征表示能力的影響。此外,以超像素為處理單元的圖像表示和標簽位置推斷方式,依然存在大量具有相似特征的冗余超像素,這會干擾超像素標簽的位置推斷。相比于基于分類網絡先驗的方法,以超像素為處理單元的方法大都僅依賴圖像級標簽的弱監督指導信息,并未引入其它額外的先驗信息。因此,以超像素為處理單元的弱監督圖像語義分割方法的分割精度相對較低,且難于實現端到端的訓練。以超像素為處理單元的弱監督圖像語義分割方法的總結如表1所示。

表1 以超像素為處理單元的弱監督圖像語義分割方法Table 1 Weakly-supervised image semantic segmentation method using superpixel as processing units

1.2 以候選區域為處理單元的方法

以候選區域為處理單元的方法主要是通過超像素合并的方式來實現候選區域的分割,并以數量較少的候選區域塊為處理單元進行圖像級標簽位置推斷和分類模型學習。例如,LIU et al[30-31]合并FH[12]超像素分割產生的小圖像塊到候選區域,并利用稀疏編碼來推斷圖像級標簽的區域語義信息;LI et al[32]利用條件隨機場模型合并SLIC[14]超像素分割產生超像素,并基于候選區域庫來構建分類模型;XU et al[33]和LU et al[7]采用局部搜索算法對MCG[26]產生的超像素進行合并,分別構建了面向圖像級標簽、邊界框和部分標簽等弱監督標注形式的分割模型和標簽噪聲約簡模型。

以候選區域為處理單元的方法依賴超像素合并生成的候選區域的分割精度。相比于以超像素為處理單元的方法,以候選區域為處理單元的方法能夠進一步減少標簽位置推斷過程中的冗余信息和計算代價。然而,如何自動地確定超像素合并過程中的終止條件,進而自適應地確定候選區域的分割數量是以候選區域為處理單元的方法面臨的一個瓶頸問題。以候選區域為處理單元的弱監督圖像語義分割方法的總結如表2所示。

表2 以候選區域為處理單元的弱監督圖像語義分割方法Table 2 Weakly-supervised image semantic segmentation method using candidate region as processing units

2 基于分類網絡先驗的弱監督圖像語義分割方法

基于分類網絡先驗的弱監督圖像語義分割方法可以劃分為基于類激活圖(class activation maps,CAM)定位網絡[8]的方法和基于其它分類網絡的方法。基于分類網絡先驗的弱監督圖像語義分割方法的核心環節在于:1) 基于類激活圖定位網絡或其他分類網絡模型產生判別性稀疏種子區域;2) 判別種子區域到非判別種子區域的挖掘與擴張;3) 融合判別區域和非判別區域的偽標簽數據構建分割網絡模型。相比于基于超像素的弱監督圖像語義分割方法,基于分類網絡先驗的方法由于額外先驗信息的引入,能夠顯著提高當前基于圖像級標簽的弱監督圖像語義分割方法的精度和性能。

2.1 基于類激活圖定位網絡的方法

基于類激活圖定位網絡[8]的方法依賴類激活圖定位網絡來產生具有判別性的稀疏種子區域,進而以判別性的稀疏種子區域作為先驗信息指導圖像級標簽的定位,最后以種子區域擴張生成的偽標簽數據構建語義分割網絡模型。其中,ZHOU et al[8]提出的類激活圖定位網絡利用全局平均池化的方法來生成類激活映射圖,并根據類激活映射圖獲取對分類具有判別性的區域,該方法意在定位出圖像中具有判別力的深度特征區域。

在依賴類激活圖定位網絡[8]獲得種子區域的基礎上,依據種子區域生長方式的不同,基于類激活圖定位網絡的方法主要包括基于擴張網絡的方法和基于顯著性的方法。基于擴張網絡的方法主要是通過構建種子區域擴張網絡來高精度和稠密地擴張目標區域。例如,KOLESNIKOV et al[34]在種子、擴張和約束原則下提出了新的損失函數,并采用全局加權池化的方法來擴張種子區域,構建了基于全連接條件隨機場的邊界約束模型;ARASLANOV et al[35]同樣構建了歸一化全局加權池化來產生稠密的語義區域;SHEN et al[6]融合目標域和網絡域的指導信息來逐步地挖掘細粒度的區域語義信息;SALEH et al[36]采用高水平卷積層網絡來激活前景和背景標簽;FAN et al[37]利用類內判別器來區分前景和背景信息;CAROLINA et al[38]構建了兩個類激活圖模型來恢復覆蓋整個對象范圍的激活掩碼;WEI et al[39]通過設置不同的空洞卷積率轉移判別信息到非判別目標區域;LI et al[40]通過設置背景類中不同比例的背景信息和堆疊來實現目標區域的定位,并采用期望最大化的方法來優化分割網絡參數;ZHOU et al[41]構建了針對噪聲標簽的選擇損失函數和注意力損失函數來定位圖像級標簽位置和改正分類錯誤;CHANG et al[42]通過引入子類別信息來增強分類網絡的區域定位能力;WANG et al[43]利用成對的空間傳播網絡來細調單元勢網絡產生的每一個像素的類別標簽;AHN et al[44]提出一種基于深度神經網絡和隨機場的親和力網絡來擴張目標區域;LEE et al[45]利用FickleNet來同時識別目標的判別區域和非判別區域;ZHANG et al[46]構建了解耦空間神經注意網絡來同時識別目標區域和定位判別區域;LIU et al[47]構建了級聯語義擦除網絡來擴張種子區域到整個目標。基于顯著性的方法主要是通過引入顯著性機制來指導種子區域的擴張。例如,OH et al[48]利用顯著性作為先驗信息來指導種子區域的擴張;WANG et al[49]利用貝葉斯框架下的顯著性圖來細調目標區域,進而實現非判別區域的增補;SUN et al[50]利用自注意顯著性和種子區域增長法來擴展像素級標簽的范圍。在其它基于類激活圖定位網絡的方法中,HUANG et al[51]使用區域增長法來擴張種子區域并將其整合到深度分割網絡當中;WEI et al[52]提出一種對抗擦除的方法來逐步挖掘稠密和完備的目標區域;HONG et al[53]和LEE et al[54]利用網絡上抓取的視頻流信息來產生標簽的定位圖和偽標簽數據。

基于類激活圖定位網絡的方法能夠顯著提高圖像級標簽的定位能力,但是基于類激活圖的定位網絡起初并非應用于語義分割任務。因此,基于類激活圖定位網絡的方法僅能夠識別出圖像中一些稀疏和不完備的判別性區域,即只能獲得圖像中顯著目標的部分區域,這不能滿足圖像級標簽位置的稠密推斷和語義分割網絡構建所需的大規模標注數據。此外,基于類激活圖定位網絡的方法易于產生不精確的邊界和形狀描述,因此還需要引入后續的精煉或者平滑模塊來細調最終的分割結果。基于類激活圖定位網絡的弱監督圖像語義分割方法的總結如表3所示。

表3 基于類激活圖定位網絡的弱監督圖像語義分割方法Table 3 Weakly-supervised image semantic segmentation method based on localization network of class activation maps

2.2 基于其它分類網絡的方法

基于其它分類網絡的方法主要是通過引入全卷積網絡[4](fully convolutional network,FCN)、卷積神經網絡、顯著性檢測或者注意力機制等預訓練好的分類模型來指導種子區域的產生和擴張,然后基于擴張后的偽標簽數據進行分割網絡的學習。在基于全卷積網絡的方法中,PATHAK et al[55]利用全卷積網絡來預測輸入圖像的標簽類別信息,提出了一種基于約束卷積神經網絡的弱監督分割模型;QI et al[56]利用全卷積網絡來產生目標類的激活圖,并融合目標定位網絡和MCG[26]來產生像素水平的偽標簽數據;TOKMAKOV et al[57]從視頻水平的弱標注中學習運動信息來識別和擴張目標的區域及其邊界。在基于卷積神經網絡的方法中,PINHEIRO et al[58]利用預訓練好的卷積神經網絡來產生特征信息,并在訓練的過程中分配對于分類圖像具有重要作用的像素點更高的權重;ROY et al[59]利用卷積神經網絡來預測圖像級標簽的類別信息,并以條件隨機場為遞歸網絡來產生平滑的分割。在基于顯著性檢測(salient detection,SD)的方法中,WEI et al[60]利用顯著性目標檢測技術從簡單圖像中挖掘顯著性圖,并利用增強深度卷積神經網絡挖掘復雜圖像當中的像素級標簽;ZENG et al[61]構建了顯著性聚合模塊來聚合每個預測類別的分割掩碼,并提出一種融合顯著性檢測和分割網絡的聯合學習模型。在基于注意力機制的方法中,FAN et al[62]使用示例水平的顯著性目標檢測技術來自動產生候選區域,并采用圖劃分的方式來構建用于分割網絡的偽標簽數據;LI et al[2,63]融合具有類別信息的注意力圖和逐次擦除生成的顯著圖來生成用于訓練分割網絡的偽像素標簽;WANG et al[1]提出自監督等變注意力機制來產生稠密的類激活圖信息;XU et al[64]提出上下文傳播嵌入網絡來產生初始的視覺信息,該嵌入網絡聚焦于相鄰區域之間的語義關系學習。此外,WEI et al[65]利用Hypothesis-CNN-Pooling來預測目標類別的分類得分,并結合圖像之間的上下文細調來產生目標定位圖;JIN et al[66]利用網絡圖像中的上下文和先驗信息,構建了淺層神經網絡(shallow neural network,SNN)來獲得每一個類別的分割掩膜。

基于其它分類網絡先驗的方法大都用于解決初始種子區域面積小和稀疏的問題,進而通過引入全卷積網絡、卷積神經網絡、顯著性檢測或者注意力機制等先驗信息來挖掘更多具有判別性的目標區域。因此,該類方法能夠提高初始種子區域的定位和擴張精度,進而能夠獲得比較好的分割性能。但是,基于其它分類網絡先驗的方法依然依賴于預訓練好的分類網絡模型的泛化性和可擴展性,同樣需要增加后續的邊緣處理模塊來優化分割邊界。基于其它分類網絡的弱監督圖像語義分割方法的總結如表4所示。

表4 基于其它分類網絡的弱監督圖像語義分割方法Table 4 Weakly-supervised image semantic segmentation method based on other classification networks

3 常用數據集與評價指標

3.1 常用數據集

3.1.1MSRC(microsoft research cambridge)數據集

MSRC[68]是由微軟劍橋研究院建立的用于圖像場景理解和物體分割的自然場景圖像數據集,是最早被應用于驗證弱監督圖像語義分割方法性能的常用數據集之一。MSRC由591張320×213或者213×320像素的圖像組成,共包含21個目標類,圖像示例如圖3(a)所示。MSRC數據集中平均每張圖像包含3.5個目標類,且均對應有像素級標簽標注的真值數據。在具體的驗證過程中,通常將MSRC數據集劃分為由276張圖像組成的訓練集和256張圖像組成的測試集。此外,MSRC圖像中的目標類面積較大,易于構建不同目標類之間的共生和關聯關系。但是,MSRC數據集中的真值數據存在比較粗糙的邊緣標注。

3.1.2PASCAL VOC 2012數據集

PASCAL VOC 2012[69]是當前基于圖像級標簽的弱監督圖像語義分割領域使用最為廣泛的自然場景圖像數據集,該數據集極大地推動了圖像語義分割領域的發展。PASCAL VOC 2012數據集包含20個目標類和1個背景類,由訓練集(1 464張圖像)、驗證集(1 449張圖像)和測試集(1 456張圖像)三個圖像子集構成,對應的圖像示例如圖3(b)所示。目前,主要以HARIHARAN et al[70]擴增后的訓練集(10 582張圖像)進行分類或分割網絡的訓練。PASCAL VOC 2012數據集主要涉及日常生活中的常見物體目標,圖像中物體的尺度變化較大、背景復雜、圖像大小不固定,且同一圖片內的不同物體之間往往存在遮擋現象。

3.1.3MS COCO(microsoft common objects in context)數據集

MS COCO[71]數據集是當前弱監督圖像語義分割和目標檢測領域非常具有挑戰性的自然場景圖像數據集。其包含80個目標類和1個背景類,有123 287張用于測試和訓練的圖像(包含80 k訓練集和40 k驗證集),圖像示例如圖3(c)所示。MS COCO數據集主要是從復雜的日常場景中獲取,且圖像中的物體均具有精確的位置標注。

3.1.4Sift Flow數據集

Sift Flow[72]數據集是最早被應用于基于圖像級標簽的弱監督圖像語義分割的數據集之一,其是LabelMe數據集[73]中的一個子集。該數據集包含33個目標類和3個地理類別,共由2 688張256×256像素的圖像組成,圖像示例如圖3(d)所示。Sift Flow數據集共包含8種戶外場景,如街道、海灘、城市、山脈、建筑等,且每張圖像均有像素級標簽的真值標注。與MSRC數據集類似,Sift Flow數據集圖像中的目標類別具有比較大的面積,且易于構建不同目標類之間的共生和關聯。

3.1.5Cityspaces數據集

Cityspaces[74]數據集由50個不同背景和季節的歐洲城市街道場景圖像組成,是當前應用于交通場景圖像語義分割的重要數據集。該數據集含有不包括背景在內的30個目標類,共由24 998張城市街道場景圖像組成,圖像示例如圖3(e)所示。Cityspaces數據集約有5 000張精細標注的圖像、20 000張粗粒度標注的圖像,且每一張圖像均包含數量眾多的目標類和復雜的背景,并存在大量遠視角的小目標。

各數據集的特點對比如表5所示。

表5 不同數據集的特點對比Table 5 Comparison of characteristics of different datasets

圖3 常用數據集的圖像示例Fig.3 Image examples of commonly used datasets

3.2 評價指標

在基于圖像級標簽的弱監督圖像語義分割方法中,最為常用的評價指標為交并比IoU(intersection over union),即正確分割的正樣本與錯誤分割的正樣本、錯誤分割的負樣本、正確分割的正樣本之和的比值。評價指標IoU反映了算法正確分割的結果與圖像真值區域的重合程度。為了評價算法對所有目標類的整體分割精度,通常采用所有目標類的平均交并比MIoU來進行表示。其中,MIoU被定義為:

(1)

式中:N指圖像中的目標類別數;nii表示實際類別為i,預測類別為i的像素數量;ti表示類別i中包含的像素總數;nji表示實際類別為i,預測類別為j的像素數量。

其次,像素準確率PA(pixel accuracy)及平均像素準確率MPA也是弱監督圖像語義分割領域常用的評價指標。其中,PA指圖像中正確分割的像素數占總像素數的比例,MPA指所有目標類別像素準確率的平均值,被定義為:

(2)

式中:N指圖像中的目標類別數;nii表示實際類別為i,預測類別為i的像素數量;ti表示類別i中包含的像素總數。

4 基于圖像級標簽的弱監督圖像語義分割方法性能對比

為了對現有基于圖像級標簽的弱監督圖像語義分割方法進行全面和客觀的對比與分析,本文依據常用數據集的不同對各方法的性能進行了對比。其中,四個應用最廣泛的數據集被選擇,包括:MSRC、PASCAL VOC 2012、MS COCO和Sift Flow.

4.1 MSRC數據集上的性能對比

為了全面分析MSRC[68]數據集上各對比方法的性能,本文對基于圖像級標簽的弱監督圖像語義分割方法的性能進行了總結與對比,具體的性能指標如表6所示。

表6 MSRC數據集上的性能對比Table 6 Performance comparison on MSRC datasets

由表6可知,MSRC數據集被較早應用于基于圖像級標簽的弱監督圖像語義分割,所提方法主要以基于超像素的弱監督圖像語義分割方法為主,具體包括以超像素為處理單元的方法和以候選區域為處理單元的方法。相比于基于分類網絡先驗的弱監督圖像語義分割方法,基于超像素的方法更適用于具有干凈背景和顯著目標區域的MSRC自然場景圖像數據集。基于分類網絡先驗的弱監督圖像語義分割方法很少在MSRC數據集上進行驗證,原因在于MSRC數據集包含的數據量較小,很難利用這些少量的數據來訓練基于深度卷積神經網絡的復雜分割模型。此外,隨著時間的增長以及越來越多先進技術的引入,基于MSRC數據集的弱監督圖像語義分割精度呈現逐漸升高的趨勢,但是基于MSRC數據集驗證的弱監督圖像語義分割方法呈現減少的趨勢。主要原因在于MSRC數據集中的目標相對單一,仍然存在一些需要先驗信息指導才能高精度識別的目標區域,這限制了MSRC數據集上基于圖像級標簽的弱監督圖像語義分割方法性能的進一步提升。

4.2 PASCAL VOC 2012數據集上的性能對比

PASCAL VOC 2012[69]數據集作為當前基于圖像級標簽的弱監督圖像語義分割領域最為主流的圖像數據集,被廣泛應用于驗證所提方法的有效性。為此,本文在PASCAL VOC 2012測試集上來評估各對比方法的性能,具體的對比結果如表7所示。

表7 PASCAL VOC 2012測試集上的性能對比Table 7 Performance comparison on PASCAL VOC 2012 test sets

由表7可知,PASCAL VOC 2012數據集上的驗證主要以基于分類網絡先驗的方法為主。該類方法基于預訓練好的分類網絡來指導圖像級標簽位置推斷,能夠顯著提高所提方法的分割性能。相比于基于超像素的方法被較早提出,基于分類網絡先驗的方法從2015年開始才被顯著關注,并成為近5年基于圖像級標簽的弱監督圖像語義分割的主流方法。鑒于PASCAL VOC 2012數據集包含的目標類別較多且圖像中包含眾多復雜的小目標區域,基于分類網絡先驗的弱監督圖像語義分割方法更依賴于選擇PASCAL VOC 2012自然場景圖像數據集進行驗證。隨著時間的增長,面向PASCAL VOC 2012數據集驗證的弱監督圖像語義分割方法的性能也獲得了顯著的提升。原因在于更多有效的判別種子區域產生方式被提出以及更多有效的種子區域擴張方式和分割網絡被構建。在基于分類網絡先驗的方法中,基于類激活圖定位網絡的方法要比基于其它分類網絡的方法更受關注,但是基于類激活圖定位網絡的方法僅能識別出圖像中一些稀疏性的判別區域,這也成為該類方法精度進一步顯著提高的障礙。

4.3 MS COCO數據集上的性能對比

MS COCO[71]數據集作為當前基于圖像級標簽的弱監督圖像語義分割領域最為復雜的自然場景圖像數據集之一,近幾年也常被用于驗證所提方法的有效性。相比于PASCAL VOC 2012數據集,MS COCO被應用于驗證算法性能的文獻較少,具體的性能對比如表8所示。

表8 MS COCO數據集上的性能對比Table 8 Performance comparison on MS COCO datasets

由表8可知,MS COCO數據集上所提方法的數量較少,且所提方法的分割精度相對較低。主要的原因在于MS COCO數據集建立的時間較晚,其包含80個目標類和1個背景類,而所有方法均采用MIoU指標來驗證分割精度,更增加了MS COCO數據集上分割性能顯著提高的難度。相比于基于超像素的弱監督圖像語義分割方法,基于分類網絡先驗的方法更適合選擇大規模的MS COCO自然場景數據集來驗證方法的分割性能。因此,如何構建面向大規模復雜場景的弱監督圖像語義分割算法仍然是一個非常具有挑戰性的研究問題。

4.4 Sift Flow數據集上的性能對比

Sift Flow[72]數據集也是早期用于驗證基于圖像級標簽的弱監督圖像語義分割方法的常用數據集,各對比方法的性能指標如表9所示。

如表9所示,基于Sift Flow數據集的弱監督圖像語義分割方法主要包括以超像素為處理單元的方法和以候選區域為處理單元的方法。和MSRC數據集一樣,基于超像素的弱監督圖像語義分割方法同樣適用于包含干凈背景和顯著目標的Sift Flow數據集。該類方法主要集中在2013-2017年之間被廣泛提出,且分割精度隨著時間的增長成上升趨勢。相比于基于分類網絡先驗的方法,Sift Flow數據集上主要以未引入先驗信息的基于超像素的方法為主。因此,該類方法的分割精度相對較低,依然有比較大的提升空間。

表9 Sift Flow數據集上的性能對比Table 9 Performance comparison on Sift Flow datasets

5 總結與展望

基于圖像級標簽的弱監督圖像語義分割研究是近幾年計算機視覺領域的熱點研究問題,具有重要的理論研究價值和廣泛的應用前景。依據圖像級標簽位置推斷方式的不同,本文將基于圖像級標簽的弱監督圖像語義分割方法劃分為基于超像素的方法和基于分類網絡先驗的方法,并對各類方法的原理、優缺點、關鍵環節、主要技術、特征、超像素/候選區域分割方式、種子區域產生方式、網絡結構和數據集等進行了詳細的分析和總結。此外,本文對基于圖像級標簽的弱監督圖像語義分割方法常用的數據集和評價指標同樣進行了歸納和總結,并定量地對比了各方法的性能。最后,針對現有方法存在的挑戰和局限性,本文對基于圖像級標簽的弱監督圖像語義分割下一步的研究方向進行了展望與預測。

1) 面向大規模多媒體分享網站大數據的弱監督圖像語義分割。多媒體分享網站提供了大量帶有社會標簽的圖像/視頻數據,如何基于這些用戶貢獻的圖像/視頻數據挖掘弱監督標簽信息,進而搜集和構建大規模圖像級標簽標注的圖像數據集,并用于圖像級標簽位置推斷和分割網絡訓練是一個重要的研究方向。但是,基于多媒體分享網站構建的訓練數據往往包含比較嚴重的噪聲標簽。因此,如何減少噪聲標簽的影響也是該研究方向面臨的一個難題。

2) 特定應用場景下的弱監督圖像語義分割。圖像語義分割近幾年被廣泛關注的一個重要原因在于其不僅具有重要的理論研究意義,還可以為各種應用場景提供核心的技術支撐。例如,自動駕駛、智能監控、3D城市建模、遙感圖像分析、輔助醫療等應用場景均需要高精度的圖像語義分割。因此,如何基于弱監督標簽的標注,聚焦于交通、遙感、醫學等具體應用場景的關鍵技術和語義分割算法研究是一個重要的研究方向。

3) 高質量和稠密的圖像級標簽位置推斷策略。圖像級到像素級的標簽位置推斷依然是當前基于圖像級標簽的弱監督圖像語義分割面臨的最大挑戰。雖然現有的方法可以通過引入超像素或者額外的先驗信息來指導圖像級標簽的位置推斷,但是,當前基于圖像級標簽的弱監督圖像語義分割與基于像素級標簽的全監督圖像語義分割還存在比較大的差距。因此,如何構建更加有效的圖像級標簽位置推斷策略,進而高質量和稠密地定位圖像級標簽在圖像中的位置信息是一個重要的研究方向。

猜你喜歡
語義監督區域
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
語言與語義
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
認知范疇模糊與語義模糊
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 激情综合图区| 无码专区在线观看| 92午夜福利影院一区二区三区| 国产精品内射视频| 国产成人综合欧美精品久久| 亚洲伊人久久精品影院| 欧美性爱精品一区二区三区 | 精品综合久久久久久97超人| 伊人激情综合网| 玩两个丰满老熟女久久网| 日韩午夜福利在线观看| av无码一区二区三区在线| 国产玖玖玖精品视频| 丝袜久久剧情精品国产| 国产成人一二三| 国产成人综合日韩精品无码首页 | 亚洲视频欧美不卡| 国产又色又爽又黄| 欧美国产另类| 久久一本日韩精品中文字幕屁孩| 欧美在线观看不卡| 国产视频一区二区在线观看 | 中文字幕无码电影| 伊人久久久大香线蕉综合直播| 亚洲乱码精品久久久久..| 99在线视频免费观看| 国产极品美女在线观看| 久久这里只有精品国产99| 亚洲视频色图| 亚洲三级a| 亚洲无线国产观看| 色网站免费在线观看| 亚洲中文字幕日产无码2021| 国产在线精品人成导航| 日韩免费毛片| 久久精品一卡日本电影| 欧美日韩免费在线视频| 国产精品夜夜嗨视频免费视频| 波多野结衣爽到高潮漏水大喷| 日本www在线视频| 中文字幕亚洲综久久2021| 玖玖免费视频在线观看| 国产精品午夜福利麻豆| 欧美中文字幕一区| 中文字幕在线永久在线视频2020| 在线a网站| 中文字幕乱码二三区免费| 国产美女久久久久不卡| 日本欧美成人免费| 无码专区在线观看| 国产农村1级毛片| 国产在线91在线电影| 操操操综合网| 在线视频亚洲色图| 亚洲有无码中文网| 国产精品免费p区| 久久综合AV免费观看| 538国产在线| 欧美第一页在线| 一级毛片a女人刺激视频免费| 国产欧美视频综合二区| 国产成人亚洲综合a∨婷婷| 亚洲av片在线免费观看| 97se亚洲| 亚洲天堂免费在线视频| 青青网在线国产| 国产精品青青| 国产精品白浆无码流出在线看| 思思热精品在线8| 亚洲欧洲AV一区二区三区| 久久中文电影| 欧美精品不卡| 天天色综网| 99re在线免费视频| 日本一本在线视频| 人妻无码中文字幕一区二区三区| 国产原创第一页在线观看| 精品无码视频在线观看| 亚洲天堂在线免费| 成人综合在线观看| 日韩精品亚洲人旧成在线| 国产精品亚洲天堂|