999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的語義分割算法綜述

2019-10-26 01:33:22倪穎婷楊明川
上海航天 2019年5期
關鍵詞:語義特征信息

趙 霞,白 雨,倪穎婷,陳 萌,郭 松,楊明川,陳 鳳

(1.同濟大學 電子與信息工程學院,上海 200092; 2. 上海宇航系統工程研究所,上海 201109;3. 上海航天技術研究院,上海 201109)

0 引言

語義分割是將數字圖像分成多個集合(像素集)的過程,在分割圖中具有相同標簽的像素具有類似的特征。更確切地說,語義分割是為便于圖像分析而為圖像中的每個像素分配標簽的過程[1-2]。語義分割是空間機器人、自動駕駛、醫學圖像處理等視覺分析技術的基礎。這里主要分析空間機器人的應用需求。

地球外層空間是世界各國競相爭奪的領域,各國相繼發射了大量航天器。由于設計、制造等因素及空間環境的影響,航天器在軌運行過程中,各種故障及意外時有發生。以航天器維護維修、生命延長及太空垃圾清除等為目的的在軌服務技術十分重要。未來的空間探索任務,對太空組裝、星表基地建設等空間操作任務有著迫切的需求。空間機器人操作是在軌作業及空間任務的主要形式,圖1為空間機器人的工作示意圖。空間機器人試圖抓捕目標衛星,并分離螺栓孔和對接環,即空間機器人必須能找到其機器視野中哪些是螺栓孔、對接環,并進行準確定位,其中的識別和定位就要利用語義分割技術。可以說,語義分割技術是未來航天器實現全自動在軌服務的先決條件,對于高效率、高精度、成功執行各種空間任務,具有戰略意義。

圖1 服務衛星工作示意圖Fig.1 Schematic diagram of service satellite operation

在深度學習之前,語義分割領域主要采用Normalized Cut[3]、Grab Cut[4]、紋理基元森林(Texton Forest)[5]或是隨機森林(Random Forest)[6]等傳統方法,分割精度較低。

2012年,Hinton研究組使用AlexNet網絡在imagenet圖像分類競賽上以84.6%的top-5準確率取得了冠軍[7]。而傳統分類技術僅取得了73.8%的準確率,使得以卷積神經網絡為代表的深度學習得到了廣泛的關注。憑借對復雜特征強大的學習及提取能力,深度學習被廣泛用于圖像分類、目標識別、人臉識別、語音識別等任務,并取得了突破性的進展。

雖然卷積神經網絡已經被應用于圖像分類領域,但受到全連接層與池化層的限制,語義分割領域仍以傳統方法為主。2014年,加州大學伯克利分校的LONG等提出的全卷積網絡(fully convolutional network,FCN)[8],將傳統的卷積神經網絡(convolutional neutral network,CNN)末端的全連接層替換為卷積層,不再將神經網絡的輸出結果限制為一維數組,正式將卷積神經網絡引入語義分割領域。同時FCN不限制輸入圖像的尺寸,分割速度較傳統方法有很大提升。迄今為止,語義分割領域幾乎所有的先進方法都是由FCN擴展得到。

鑒于語義分割技術的重要意義與深度學習強大的學習能力,近年來新的語義分割方法不斷出現和發展。實踐證明,卷積神經網絡較傳統方法更適合于圖像特征的學習與表達[9-10]。文獻[11-12]也對圖像分割算法進行了綜述,文獻[11]將圖像分割分為基于圖論的方法、基于像素聚類的方法和語義分割方法, 尤其對利用深度網絡技術的語義分割方法的基本思想、優缺點進行了分析、對比和總結。文獻[12]將圖像語義分割分為基于區域分類的方法和基于像素分類的方法,又把基于像素分類的方法進一步細分為全監督學習和弱監督學習。本文只針對基于深度學習的語義分割方法,將其分為“基于編碼器-解碼器結構的算法”(如U-Net[13])和“基于整合上下文信息算法”(如DeepLab[14-16])。

1 語義分割常用數據集

深度學習在語義分割領域獲得巨大成功地離不開大規模圖像數據集的支持。豐富的數據集使大規模特征運算成為可能,同時也有效緩解了卷積神經網絡在訓練中的過擬合現象。

表1列出了語義分割領域最受歡迎的幾大數據集及其輸出類別數量,訓練、驗證及測試集數量。

表1 語義分割常用數據集

PASCAL視覺物體分類2012數據集(PASCAL-VOC 2012)[17]為一個標注過的圖像數據集,可用于五個不同的競賽:分類、檢測、分割、動作分類、人物布局,其中分割競賽的目標是預測圖像的每個像素在21個類別(20類物體+背景)中所屬的類別。該數據集經過增強,使得訓練集圖片數量達到10 582張[18]。目前該PASCAL-VOC 2012增強數據集是最受歡迎的語義分割數據集。

PASCAL 部分數據集(PASCAL-PART)[19]是對PASCAL-VOC 2010數據集的擴展,其中20類物體的每個部分都被標注。例如:飛機被分為機身、引擎、左機翼、右機翼、機尾、起落架等。該數據集包含了PASCAL VOC 2010的全部10 103張訓練、驗證圖像以及9 637張測試圖像。

PASCAL 語義數據集(PASCAL-CONTEXT)[20]也是對PASCAL-VOC 2010數據集的擴展,不同于PASCAL部分數據集,該數據集將原本的PASCAL語義分割任務拓展到整個場景中,并且將標簽數量提高到59種。該數據集也包含了PASCAL VOC 2010的全部訓練、驗證以及測試圖像。

微軟常見物體環境數據集(Microsoft COCO)[21]是微軟團隊提供的圖像識別、分割、標注數據集,包含了80個類別,提供了82 783張訓練圖片、40 504張驗證圖片以及40 775張測試圖片。該數據集的測試集分為4個子集:test-dev子集用于驗證及調試;test-standard子集是默認的測試集;test-challenge是競賽專用子集,用于評估提交的模型;test-reserve子集用于避免競賽中使用測試數據進行訓練的問題。由于規模巨大,Microsoft COCO數據集目前也很常用。

城市街景數據集(CITYSCAPES)[22]包含一系列由50個城市的街景視頻序列圖片,其提供了3 475張高品質的像素級標注圖像以及20 000張的粗略標注圖像。該數據集標注物體達到19類,包括道路、人行道、建筑、墻、柵欄、電線桿、交通燈、交通指示牌、植物、地面、天空、人、騎行者、轎車、卡車、公共汽車、火車、摩托車與自行車。城市街景數據集用于城市街景理解視覺算法的兩大性能評估: 像素級語義標注和實例級語義標注。該數據集被廣泛應用于無人駕駛算法性能的評估。

ADE20k數據集[23]包含了超過2萬張以場景為中心的圖像,并對對象和對象的部分進行了超過150類標簽的標注。具體包括了天空、道路、草地等無法進行部件分割的物體以及人、汽車、床等可以再進行部件分割的物體。該訓練集包含2萬余張圖像,驗證集包含2 000多張圖像,測試集圖像未被公開。

2 語義分割通用深度神經網絡

現有語義分割方法主要是將卷積神經網絡作為語義分割的基礎網絡,如VGG16、ResNet等預訓練基網絡。這些優秀的基礎網絡可對復雜信息建模,學習更有區分力的特征,更好地分類,提高預測準確率。以下介紹幾種常用的卷積神經網絡。

AlexNet[7]是取得2012年大規模視覺識別競賽(ILSVRC-2012)冠軍的網絡,它的top-5錯誤率比上一年的冠軍下降了10個百分點,而且遠遠超過當年的第二名。其使用ReLU做激活函數,而且網絡針對多GPU訓練進行了優化設計,從此開始了深度學習的黃金時代。

VGG-Net[24]是由牛津大學Visual Geometry Group提出的卷積神經網絡模型,獲得了2013年大規模視覺識別競賽(ILSVRC-2014)的亞軍。VGG-Net卷積層與全連接層的層數達到16層,因此也被稱為VGG-16,其結構如圖2所示。與AlexNet相比,VGG-Net用大量小感受野的卷積層替代了少量大感受野的卷積層,減少了參數數量,增強了模型的非線性,同時也使得模型更易訓練。

GoogLeNet[25]是由SZEGEDY等提出的在2014年大規模視覺識別競賽(ILSVRC-2014)中以 93.3% 的top-5準確率奪冠的卷積神經網絡模型。該模型通過在結構中嵌入Inception來聚合多種不同感受野上的特征,以提升分割精度。Inception可以看作是一個小網絡。如圖3所示,該模塊的核心部分由1個1×1的卷積層、1個3×3的卷積層、1個5×5的卷積層以及1個池化層組成,在多個尺度上進行卷積再進行聚合。同時,3×3卷積層與5×5卷積層前加入的1×1的卷積層對輸入進行降維,起到減少特征數、降低計算復雜度的作用,使GoogLeNet在存儲空間及耗時等方面均較VGG-16取得了進步。

圖2 VGG-Net結構圖Fig.2 VGG-Net architecture

圖3 GoogLeNet中的Inception模塊Fig.3 Inception module in GoogLeNet

微軟提出的ResNet[26]以96.4%的top-5準確率取得了2015年大規模視覺識別競賽(ILSVRC-2015)的冠軍。ResNet網絡的深度達到了152層,并引入了殘差單元(如圖4所示)。殘差模塊通過identity skip connection解決了訓練更深層網絡時出現的性能退化問題。同時,identity skip connection也解決了梯度消失的問題。

圖4 ResNet中的殘差單元Fig.4 Residual unit in ResNet

2017年大規模視覺識別競賽(ILSVRC-2017)由自動駕駛創業公司Momenta提出的SENet[27](Squeeze-and-Excitation Networks)以97.749% 的top-5準確率奪冠。為提升網絡性能,SENet考慮了特征通道之間的關系。該模型主要通過Squeeze(由圖5中Global pooling實現)、Excitation操作(由圖5中FC-FC-Sigmoid實現)自動獲取每個特征通道的重要程度,然后依照其重要程度完成在通道維度上對原始特征的重標定。通過向現有網絡中嵌入SE模塊可以得到不同的SENet,圖5展示了在Inception模塊和ResNet中嵌入SE模塊得到的SE-Inception模型和SE-ResNet模型。

圖5 SE-Inception模型(左)與SE-ResNet模型(右)Fig.5 SE-Inception module (left) and SE-ResNet module (right)

3 基于深度學習的語義分割算法

全卷積網絡(fully convolutional network,FCN)解決了卷積神經網絡中全連接層對語義分割的限制,因為全連接層輸出是1維的,而圖像分割要求2維平面每個像素的分類。同時,解決了輸入圖形尺寸受限的問題,全卷積網絡不限制輸入圖像的尺寸,可生成任意大小的圖像分割圖。

除了全連接層,池化層也是限制卷積神經網絡應用于語義分割的另一個因素。CNN靠池化層擴大感受野,以丟棄位置信息為代價聚合上下文信息。但是語義分割又要求將輸出特征圖恢復到原圖大小,因此需要恢復位置信息。在FCN中,通過上采樣恢復圖像尺寸的方法克服這一局限,在保留像素級別預測結果的同時,得到了與原圖大小相同的特征圖[28],但上采樣并不能將丟失的信息全部無損地找回來。為了更好地解決這一問題,自FCN之后出現的許多基于深度學習的語義分割算法,這些算法可以大致被分為基于編碼器-解碼器算法和基于整合上下文信息算法兩大類。

3.1 基于編碼器-解碼器的算法

該算法的基本思路是通過由一系列卷積-池化操作組成的編碼器結構,提取圖像的主要特征信息,再通過上采樣-轉置卷積組成的解碼器結構,逐步恢復圖像的空間維度。采用該算法的網絡通常選用一種卷積神經網絡,如VGG-Net,然后將其全連接層替換為解碼器結構。

BADRINARAYANAT等于2015年提出用于道路、車輛分割的SegNet模型[29]就是基于編碼器-解碼器算法的代表。如圖6所示,該網絡首先通過卷積層和池化層進行運算。不同于一般網絡的池化層,SegNet中的池化層不僅記錄最大值,還記錄池化層最大值在原圖中的空間位置。這就使得采用上采樣方法恢復圖像尺寸時,能夠將相關值精準地映射到對應的位置,提高了恢復圖像的精度。在解碼時,使用反卷積對未被選擇到池化層的像素的位置值進行填充。當被填充到與原圖尺寸相同時,特征映射被輸入到softmax分類器中得到最終的分割結果。SegNet記錄了空間位置,使得其在上采樣對圖像進行恢復時,能夠進行準確的恢復,然而,SegNet對于物體邊界的分割精度仍然有待提高。

圖6 SegNet結構圖Fig.6 SegNet architecture

弗萊堡大學的OLAF R等于2015年提出的U-Net[13],向編碼器到解碼器之間引入快捷連接(shortcut connections),以增強解碼器恢復局部細節的能力,其對生物醫學圖像的分割取得了很好效果。如圖7所示,U-Net網絡由一個收縮路徑(圖7左側)和一個擴張路徑(圖7右側)組成。其中,收縮路徑遵循典型的卷積網絡結構;擴張路徑的每一步都包含對特征圖進行上采樣(upsample),同時級聯收縮路徑中同尺度的特征圖信息,因此豐富了細節信息。

LIN等于2016年基于ResNet提出一種新的編碼器-解碼器架構RefineNet[30]。編碼器是ResNet-101模塊,解碼器為RefineNet block組成的,每一個block結構,如圖8所示,包含了殘差卷積單元(Residual convolution unit)、多尺度融合(Multi-resolution fusion)、鏈式殘差池化(Chained residual pooling)三部分,其連接/融合了編碼器的高分辨率特征和先前RefineNet塊中的低分辨率特征。RefineNet網絡如圖9所示,左側將ResNet的預訓練模型按特征圖分辨率分為4個block,然后將這4個block通過4個可以融合不同分辨率特征圖的RefineNet block 進行融合,得到融合后的特征圖。RefineNet在2017年PASCAL-VOC分割競賽上實現了83.4%的準確率。

圖7 U-Net結構圖Fig.7 U-Net architecture

圖8 RefineNet block結構圖Fig.8 RefineNet block architecture

圖9 RefineNet結構Fig.9 RefineNet architecture

3.2 基于整合上下文信息的算法

基于整合上下文信息算法的基本思路是整合不同尺度的特征以及在局部信息與全局信息之間尋求最優平衡。語義分割需要整合不同尺度的特征,也需要平衡局部信息與全局信息。一方面,局部信息對于提高像素級別的分類正確率很重要;另一方面,全局信息對于解決局部模糊性問題來說很關鍵。目前基于整合上下文信息的算法已經衍生出許多方法,例如:條件隨機場[31]、帶孔卷積[32]以及多尺度預測等。

(1)條件隨機場

條件隨機場(conditional random field,CRF)通常作為后處理的步驟單獨執行。條件隨機場在產生像素級標簽時考慮了底層圖像信息(如像素間關系),這對優化分割結果的局部細節非常重要。

CHEN等于2015年提出的DeepLab v1模型[14]使用了全連接的CRF模型作為其獨立的后端處理步驟,對分割結果進行優化。該模型將每個像素建模為區域中的一個節點,無論相距多遠,兩個像素間的關系都會影響到像素標簽的分類結果。這恢復了因CNN空間轉化不變性導致的局部細節缺失。盡管全連接模型有非常大的計算量,但DeepLab v1模型采用了近似算法,大大降低了計算成本。圖10展示了基于CRF后端處理對特征圖產生的影響。為更好地提升CRF的處理效果, ZHENG等將CRF集成到模型內構成end2end訓練[33],KOKKINOS將額外的信息(如圖像邊緣信息)合并到CRF內[34]。

圖10 不同迭代次數的CRF下的輸出Fig.10 Outputs under different interaions of CRF

(2)帶孔卷積

帶孔卷積又稱空洞卷積,最早是由HOLSCHNEIDER等提出的一種用于信號處理的技術[32]。在卷積神經網絡中,帶孔卷積可以在不引入額外參數的情況下成倍增大感受野,因此,卷積神經網絡不必采取大規模的池化操作以擴大感受野,避免了池化操作帶來的細粒度信息丟失。帶孔卷積通常與多尺度預測結合使用。

但是帶孔卷積存在“gridding issue”現象,即帶孔卷積在卷積核兩個采樣像素之間插入0值,如果擴張率過大,卷積會過于稀疏,捕獲信息能力差,因為對輸入的采樣將變得很稀疏;且不利于模型學習——因為一些局部信息丟失了,而長距離上的一些信息可能并不相關。如圖11(a)所示,通過3個3×3、擴張率為r=2的卷積核作用,對于中間像素點(紅色塊),其感受野為13×13,但是有貢獻的像素點(藍色塊)只有49個,丟失了局部信息,信息利用率低。對此, WANG等人提出了混合帶孔卷積架構(hybrid dilation convolution,HDC)[35]: 使用一組不同擴張率卷積串接構成一個block,即一個block由N個size為K×K的帶孔卷積組成,其對應的擴張率為[r1,…,ri,..,rn]。HDC的目標是讓最后的感受野全覆蓋整個區域(沒有任何空洞或丟失邊緣),在擴大感受野的同時減輕“gridding issue”現象。如圖11(b), 3個擴張率分別為1、2、3的3×3卷積核組成一組,在保持感受野大小不變的情況下提高信息利用率(圖11(b)中藍色標注區域大小和(a)相同,均為13×13,但貢獻的像素點遠遠大于49)。

圖11 Gridding issue示意圖Fig.11 Illustration of the gridding issue

(3)多尺度預測

多尺度預測也是整合上下文信息的一種方法。在CNN網絡中,特定尺寸的濾波器會檢測特定尺寸的特征。多尺度預測的主要思想是增加多分辨率的感受野,通過融合不同尺度的特征更加有效地學習目標的特征信息,從而進一步提高目標的分割精度。

具有代表性多尺度預測算法是Deeplab v2[15]在Deeplab v1的基礎之上提出的帶孔卷積的空間金字塔池化(atrous spatial pyramid pooling,ASPP)。如圖12所示。為了對中央的橙色像素進行分類,ASPP采用不同擴張率卷積核的帶孔卷積提取不同尺度的特征,最后將不同尺度的特征進行融合,提高預測的準確率;EIGEN等提出了multi-scale convolutional architecture[36]。

圖13所示的架構連接了三個不同scale的網絡,并將原圖作為其輸入。scale1網絡為粗特征提取網絡,其輸出與原圖進行拼接后作為細特征提取網絡scale2的輸入,提高了分割的精度。scale2網絡的輸出與原圖拼接后同樣作為scale3網絡的輸入,進一步提升輸出精度; ZHAO等于2016年提出了PSPNet[37]。它是在ResNet[26]基礎上進一步改進,引入了空間金字塔池化,如圖14所示。對于輸入圖像,首先通過ResNet網絡提取圖像特征(feature map)將得到的feature map輸出到一個全局pool層,再通過一個Pyramid Pooling Module獲得多個sub-region的特征表示,之后對不同維度的特征圖進行上采樣并拼接,得到特征表示向量,從而獲得圖像的局部和全局特征;最后將得到的特征表示向量輸入一個卷積層,得到最后的預測結果。由于不同層級的特征表達的差異性,使用簡單的疊加與連接操作進行特征融合,在分割精度提升方面的作用較小[38],因此,如何進行多尺度特征融合也是一個很有意義的研究方向。

圖12 DeepLab中的ASPPFig.12 ASPP in DeepLab

圖13 EIGEN等提出的一種多尺度預測CNNFig.13 Multi-scale CNN architecture proposed by EIGEN et al.

圖14 PSPNet結構圖Fig.14 PSPNet architecture

表2為本文提到的幾種語義分割算法的比較。

表2 語義分割算法比較

4 結束語

本文對基于深度學習的語義分割的常用網絡、數據集、語義分割算法進行了綜述。這里將語義分割算法分為兩大類:編碼器-解碼器算法、整合上下文信息算法。但目前出現了很多新的方法,對這兩種算法進行了各種方式的融合,如編碼器-解碼器架構中融入不同層級的特征,進行多尺度預測等。雖然語義分割的精度不斷提升,該領域仍存在一些局限性:(1)現有語義分割方法大多是針對物體整體進行分割,通常具有較大的感受野。而很多應用場景需要對物體的零部件進行分割,稱為部件分割,部件分割更關注局部細節,以獲得更精確的分割邊界。以在軌服務為例,要識別并定位航天器的局部部件,如螺栓孔、三角架等,直接使用已有的語義分割網絡進行部件分割,效果不理想?,F有的部件分割算法多數是針對人體進行設計的,在語義分割網絡的基礎上,借助人體姿勢信息[39]或部件檢測框[40]提升分割精度,網絡框架復雜,遷移性差。(2)實時分割。現有方法在不斷提升分割精度的同時,增大了模型的復雜度。如何降低模型的復雜度,將語義分割技術應用到對實時性有很高要求的任務中去,是未來的發展方向。(3)參數選取。選擇合適的參數對于提高分割精度具有重要的作用,然而現有的方法只是依靠人工經驗尋求較優參數,如何針對現有數據庫的特點,自動優化網絡參數,減少人為干預,也是未來的一個發展趨勢。

猜你喜歡
語義特征信息
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 国产精品3p视频| 亚洲中文字幕在线观看| 成人免费午夜视频| 日韩欧美在线观看| 成人亚洲视频| 国产一级无码不卡视频| 丰满人妻一区二区三区视频| 四虎成人精品在永久免费| 亚洲精品久综合蜜| 国产Av无码精品色午夜| 欧美成人午夜在线全部免费| 成人毛片免费观看| 亚洲精品日产精品乱码不卡| 国产尤物在线播放| 久久天天躁狠狠躁夜夜躁| 亚洲精品无码日韩国产不卡| 美女内射视频WWW网站午夜| 亚洲AV色香蕉一区二区| 自偷自拍三级全三级视频| 久久中文字幕不卡一二区| 亚洲丝袜第一页| 精品无码视频在线观看| 免费不卡视频| 国产国拍精品视频免费看| 亚洲无码高清免费视频亚洲| 欧美日韩国产在线人成app| 国模私拍一区二区| 久久久久国色AV免费观看性色| 日韩欧美高清视频| 国产激爽大片高清在线观看| 激情综合网激情综合| 精品视频福利| 亚州AV秘 一区二区三区 | 国产99视频精品免费视频7| 国产无码精品在线| 98超碰在线观看| 欧美翘臀一区二区三区| 综合社区亚洲熟妇p| 99热这里都是国产精品| 亚洲第一成年人网站| 国产激情无码一区二区APP| 国产a v无码专区亚洲av| 3p叠罗汉国产精品久久| 久久99精品国产麻豆宅宅| 欧美色图第一页| 日韩毛片免费观看| 婷婷在线网站| 亚洲天堂免费在线视频| 国产精品伦视频观看免费| 天天摸夜夜操| 黑人巨大精品欧美一区二区区| 色悠久久久| 在线欧美日韩国产| 免费一级全黄少妇性色生活片| 免费一级α片在线观看| 国产成人综合亚洲欧洲色就色| 国产99热| 99热最新在线| 国外欧美一区另类中文字幕| 亚洲国产精品久久久久秋霞影院| 亚洲欧美日本国产综合在线 | 久久精品无码中文字幕| 国产1区2区在线观看| 噜噜噜久久| 91国内外精品自在线播放| 成人久久精品一区二区三区| 亚洲国产第一区二区香蕉| 欧美在线综合视频| 国产在线自揄拍揄视频网站| 欧美日韩国产在线观看一区二区三区| 69视频国产| 伊人久久婷婷五月综合97色| 夜色爽爽影院18禁妓女影院| 在线无码九区| 久久这里只有精品8| 欧美一区二区丝袜高跟鞋| 2021最新国产精品网站| 欧美在线一二区| 看你懂的巨臀中文字幕一区二区 | 亚洲精品第一页不卡| 国产在线观看91精品| 香蕉eeww99国产在线观看|