羅暉 蘆春雨 鄭翔文



摘要:為了實現(xiàn)更精確的語義分割,提出了一種目標(biāo)全局解析網(wǎng)絡(luò)(object global parsingnetwork,OGPNeI)。首先,基于卷積特征金字塔構(gòu)造了一個多尺度角點檢測器,檢測不同尺度特征圖上目標(biāo)的關(guān)鍵點信息;其次,提出了一種多尺度聯(lián)合池算法將獲得的多尺度角點進(jìn)行融合;最后,將組歸一化(GrounpNormalization,GN)方法引入到該分割網(wǎng)絡(luò)訓(xùn)練中以提升網(wǎng)絡(luò)訓(xùn)練和收斂速度。OGPNet在Pascal VOC 2012數(shù)據(jù)集和Cityscapes數(shù)據(jù)集的分割結(jié)果的mIoU評價分別達(dá)到了78.5%和67.6%。且實驗證明,相對于現(xiàn)有的一些語義分割網(wǎng)絡(luò),由OGPNet分割出的目標(biāo)具有更完整的輪廓,且分割結(jié)果的視覺質(zhì)量更好。
關(guān)鍵詞:語義分割;多尺度;角點檢測;聯(lián)合池化;組歸一化
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)33-0206-05
在深度學(xué)習(xí)被應(yīng)用于語義分割之前,語義分割設(shè)計通常是以圖像像素的低層視覺線索作為分割特征依據(jù),如TextonFor-est和CRFst。然而在不提供人工輔助信息的情況下,這些語義分割方法對困難場景下的分割效果并不理想。隨著計算機(jī)硬件的不斷升級和深度學(xué)習(xí)的興起,卷積神經(jīng)網(wǎng)絡(luò)(convolu-fional Neural Network,CNN)在圖像識別、語義分割等領(lǐng)域研究中的優(yōu)越性逐漸體現(xiàn),研究者因而對基礎(chǔ)CNN框架的語義分割方法進(jìn)行了深人探索。Long等人用卷積替換將分類網(wǎng)絡(luò)中的全連接層進(jìn)而構(gòu)建了全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN),該網(wǎng)絡(luò)能夠?qū)崿F(xiàn)對任意大小輸入圖像進(jìn)行塊評估與分類。FCN證明了基于CNN的語義分割網(wǎng)絡(luò)的可行性,但分割結(jié)果較為粗糙。為提高網(wǎng)絡(luò)的分割精度,Badrinarayanan等人將更多的跳躍連接引入到FCN中,并提出了SegNet。該網(wǎng)絡(luò)由一個編碼器一解碼器組和像素級分類層組成,編碼器通過卷積和最大池化獲得輸入圖像的深層語義特征,解碼器則根據(jù)最大池化索引進(jìn)行上采樣,最后由分類器對其輸出的進(jìn)行像素級分類,最終實現(xiàn)對輸入圖像的語義分割。此外,Chen等人提出了DeepLabV1網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用FCN和插值得到的與輸入圖像大小相同的粗分割分?jǐn)?shù)圖(score map),然后采用全連接CRFs對其進(jìn)行細(xì)致修正。FCN和SegNet都是最早的編解碼器結(jié)構(gòu),相對FCN,SegNet更能夠節(jié)省運算內(nèi)存,但SegNet的基準(zhǔn)分值不夠好,因此不能繼續(xù)使用。
在基于卷積框架的語義分割網(wǎng)絡(luò)中,為獲得更大感受野、聚合語義上下文信息,需要對特征圖進(jìn)行池化操作。然而,池化也造成了圖像中目標(biāo)位置信息的丟失。為此,受kronecker分解卷積濾波器的啟發(fā),Koltun~將膨脹卷積(Dilated Convolu-tion)引入到語義分割網(wǎng)絡(luò),利用不同膨脹率獲得不同尺度的特征圖,并通過hole算法將多尺度背景聚合,改善分割結(jié)果。Chen等人嘲在DeepLabVl的基礎(chǔ)上結(jié)合所提出的膨脹空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)算法構(gòu)建了Dee-pLabV2網(wǎng)絡(luò),該網(wǎng)絡(luò)通過捕獲圖像中的目標(biāo)和多尺度特征圖中的上下文實現(xiàn)語義的魯棒分割。
由于基于膨脹卷積的聚合算法需要大量高分辨率特征圖作為輸入,而這些特征圖的獲取需要占用計算機(jī)大量內(nèi)存,且運算成本高昂。為解決這一問題,Lin等人提出了具有編碼器一解碼器結(jié)的RefineNet,該網(wǎng)絡(luò)中所有組件遵循殘差連接設(shè)計,其編碼器是ResNet-101模塊,解碼器是RefineNet模塊,該網(wǎng)絡(luò)融合了編碼器的高分辨率特征和解碼器的低分辨率特征,有效的較少了網(wǎng)絡(luò)運算量。之后,Chen等人重新考慮了膨脹卷積在語義分割網(wǎng)絡(luò)中的使用,通過級聯(lián)多個膨脹卷積層對ASPP進(jìn)行了改進(jìn),并提出DeepLebV3網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠獲得更廣泛的上下文信息,進(jìn)而獲得更好的語義分割效果。
基于以上研究基礎(chǔ),本文從獲取更豐富的圖像上下文信息的角度,提出了并提出了OPGNet。該網(wǎng)絡(luò)綜合考慮到圖像前景與背景關(guān)系,以及圖像中目標(biāo)的空間位置,在FCN的基礎(chǔ)上引人多尺度角點檢測器和聯(lián)合池化層,獲得豐富的上下文信息,進(jìn)而獲得較好的語義分割結(jié)果。OPGNet的主要特點如下:
1)OGPNet采用ResNet-1叭作為骨干網(wǎng),避免學(xué)習(xí)過程中由于卷積層過深而導(dǎo)致的梯度分散或梯度爆炸問題,提高圖像特征學(xué)習(xí)效果;
2)采用多尺度角點檢測器對特征圖中目標(biāo)輪廓的角點進(jìn)行檢測,深度解析目標(biāo)輪廓;
3)采用同階合并、鄰階交比的策略,對多尺度的角點進(jìn)行融合池化,以獲得精確的目標(biāo)輪廓信息;
4)使用GN方法替代批次歸一化(Batch Normalization,BN)方法,以提高OGPNet的訓(xùn)練速度。
1oGPNet語義分割
為了充分獲取并學(xué)習(xí)圖像中包含的上下文信息,提高語義分割精度,本文提出了OGPNet。利用ResNet-101特性,構(gòu)建由不同尺度特征圖組成的特征金字塔,然后利用多尺度角點檢測器獲得不同尺度特征圖上目標(biāo)的輪廓角點,獲得的角點經(jīng)過聯(lián)合池化后被融合到由上采樣得到的與輸入圖像大小相同的特征圖上,最后通過像素預(yù)測得到分割結(jié)果。OGPNet的主要結(jié)構(gòu)如圖1所示。
1.1多尺度角點檢測器
角點是圖像中領(lǐng)域內(nèi)具有主要方向的特征點,角點所在領(lǐng)域通常也是圖像中穩(wěn)定的、信息豐富的區(qū)域。OGPNet引人多尺度角點檢測器,檢測待分割目標(biāo)的關(guān)鍵點,使網(wǎng)絡(luò)能夠?qū)W習(xí)更多的上下文信息,進(jìn)而能夠提高分割結(jié)果中目標(biāo)的完整性和分割精度。多尺度角點檢測器的設(shè)計具體分以下幾個步驟:
3)角點檢測:基于構(gòu)建的差分特征金字塔,將每階中相鄰的三層差分特征圖做比較運算。如圖3(a)所示,就中間層特征圖中超像素點而言,若該點特征值大于其立體鄰域內(nèi)的26個點的特征值,則記錄該點的值與其位置。對于某階中最外層的差分特征圖,則先構(gòu)造一個與本階特征圖大小相同的全零特征圖,如圖3(b)所示,然后進(jìn)行比較算法。通過該操作能夠獲得每層差分特征圖各自的角點。這里考慮到不同階相鄰差分特征圖之間存在尺寸差異,比較運算只在同階差分特征圖內(nèi)執(zhí)行。
1.2多尺度聯(lián)合池化
該階段利用多尺度聯(lián)合池化操作,將1.1中所檢測到的不精確的多尺度角點進(jìn)行融合,生成具有精確角點信息的特征圖,以保證后續(xù)像素預(yù)測過程中特征圖中角點信息的準(zhǔn)確性。聯(lián)合池化的具體過程如下:
1)同階合并:對于同階角點特征圖,采用加權(quán)求和的方式將該階的中間三層的角點特征圖融合,如式(3)、(4)。最終可得到3張尺度不同的角點特征圖。
其中,Wδ為每層角度特征圖的求和權(quán)值,大小與該層的高斯尺度因子有關(guān);M為融合后形成的新的角點特征圖。
2)鄰階較比:
對1)生成的M中相鄰的兩張角點特征圖,用兩個尺度比為1:2的滑動窗口在相應(yīng)大小比的特征圖上分別以1和2為步長遍歷特征圖,并根據(jù)式(5)對較大尺度特征圖進(jìn)行更新,實現(xiàn)將小尺度特征圖上角點信息融合到較大尺度的特征圖上。最后生成一張具有豐富角點信息,且大小與輸入圖像大小相同的角點特征圖。
2OGPNet性能評價實驗
該部分首先介紹了用于實驗的數(shù)據(jù)集、實驗配置和設(shè)備配置以及用于評價語義分割網(wǎng)絡(luò)性能的評價指標(biāo)。然后,給出了兩個Pascal VOCl2和Cityscapes兩個數(shù)據(jù)及上OGPNet的測試結(jié)果。最后,將OGPNet同其他語義分割方法在以上幾個數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了實驗,并比較它們的分割性能。
2.1實驗數(shù)據(jù)集及硬件配置
Pascal VOC12是最流行的語義圖像分割基準(zhǔn)數(shù)據(jù)集之一。該數(shù)據(jù)集包含20個室內(nèi)和室外目標(biāo)類別和一個背景類別。實驗中采用了該數(shù)據(jù)集中10582幅圖像進(jìn)行訓(xùn)練,1449幅圖像進(jìn)行驗證,1456幅圖像進(jìn)行測試。
Cityscapes是一個通過車載攝像機(jī)采集的大型城市街道場景數(shù)據(jù)集。它包含5000張經(jīng)過精細(xì)注視的圖片。實驗中使用包含了19種目標(biāo)類別和一個背景類別的了2975張用于訓(xùn)練,500張圖像用于驗證,1525張圖像用于測試。
實驗在配有16GB內(nèi)存、Intel i5-7600處理器和兩張GTl080Ti GPU顯卡的圖形工作站上進(jìn)行。工作站同時安裝CUDA 9.0和CuDNN 7.0。
2.2性能評價指標(biāo)
為了深入分析語義分割模型的性能,除平均交并比(mIoU)之外,還引入了標(biāo)記精度(rrA)、定位精度(LA)和邊界精度(BA)三個指標(biāo)對實驗結(jié)果進(jìn)行了評價。這些評估指標(biāo)描述如下。
(1)TA用于評價預(yù)測的像素級標(biāo)簽與場景真實值標(biāo)簽之間的差異,能夠反映模型對包含多種語義類別圖像的分類準(zhǔn)確性;
(2)LA定義為目標(biāo)的預(yù)測邊界框與地面真實邊界框之間的交并比(Iou),用于估計模型對圖像中目標(biāo)定位的精度;
(3)利用BAt,31統(tǒng)計正確定位對象的預(yù)測語義邊界與實際語義邊界的差值,它能反映網(wǎng)絡(luò)的語義分割精度。
2.3實驗結(jié)果
首先,用MS-COCO對OGPNet進(jìn)行預(yù)訓(xùn)練,然后選擇VOCl2中20個目標(biāo)類別的圖像對OGPNet進(jìn)行訓(xùn)練和測試,預(yù)訓(xùn)練和訓(xùn)練的迭代次數(shù)分別為150k次和30k次。表1展示了OGPNet對20類目標(biāo)的分割結(jié)果的TA、LA和BA的性能比較。
表1中實驗評價結(jié)果表明所提出的OGPNet中多尺度角點檢測器對于精確的語義分割是有效的。另外,借助殘差網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)勢,本可以用更深層次的殘差網(wǎng)絡(luò)進(jìn)行特征提取,但是受實際實驗情況影響,本文將不再對不同深度的ResNet做相關(guān)的分割性能比較。
3結(jié)論
為了更準(zhǔn)確地描述對象的上下文信息,提高對象的語義分割精度,本文提出了一種全局解析網(wǎng)絡(luò)。該網(wǎng)絡(luò)存在以下幾個有點:第一,構(gòu)建了多尺度角點檢測器,能夠?qū)δ繕?biāo)輪廓特征進(jìn)行深度分析,獲取目標(biāo)角點信息;第二,采用了多尺度聯(lián)合池對多尺度角點特征圖進(jìn)行融合,能夠降低數(shù)據(jù)的維數(shù),同時精煉圖像角點特征;第三,采用組歸一化方法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,加速網(wǎng)絡(luò)訓(xùn)練過程。本文通過對OGPNet與其他幾種網(wǎng)絡(luò)在PAS-CAL VOCl2數(shù)據(jù)集和Cityscapes數(shù)據(jù)集的語義分割結(jié)果的性能評價的比較,證明了OGPNet在語義分割中能夠有效地保證分割目標(biāo)輪廓的完整性,進(jìn)而提高語義分割精度。在今后的工作中,我們將對弱監(jiān)督的語義分割網(wǎng)絡(luò)進(jìn)一步研究。