郭亞男
摘要:近年來,隨著信息技術(shù)的不斷發(fā)展,圖像越來越成為信息傳播的重要載體,對圖像的的分析處理技術(shù)更是飛速發(fā)展,影像設(shè)備的不斷更新使圖像不管是數(shù)量還是質(zhì)量都呈現(xiàn)上漲趨勢,這就需要我們快速且準(zhǔn)確的提取圖像中的有用信息,語義分割技術(shù)應(yīng)運(yùn)而生。本文主要論述了深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的理論模型及其衍生模型,介紹了不同模型在實(shí)際中的應(yīng)用及發(fā)展情況,并對未來圖像的語義分割領(lǐng)域發(fā)展進(jìn)行展望。
關(guān)鍵詞:深度學(xué)習(xí) 全卷積神經(jīng)網(wǎng)絡(luò)模型 圖像語義分割及應(yīng)用
引言
在近幾年深度學(xué)習(xí)的快速發(fā)展,使其在圖像的語義分割方面發(fā)展迅速,從而加快了語義分割在不同領(lǐng)域的實(shí)際應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的代表算法之一,自卷積神經(jīng)網(wǎng)絡(luò)問世以來,網(wǎng)絡(luò)深度越來越深,架構(gòu)越來越復(fù)雜,解決反向傳播時梯度消失的方法也越來越巧妙,在圖像的語義分割領(lǐng)域發(fā)揮著不可代替的作用。本文主要論述了深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的理論模型及其衍生模型、簡要說明數(shù)據(jù)在不同卷積神經(jīng)網(wǎng)絡(luò)中的訓(xùn)練過程、介紹了不同模型在實(shí)際中的應(yīng)用情況,并對未來圖像的語義分割領(lǐng)域發(fā)展進(jìn)行展望。
1 全卷積神經(jīng)網(wǎng)絡(luò)模型
1.1 模型架構(gòu)
全卷積神經(jīng)網(wǎng)絡(luò)自2015年提出以來,基本的架構(gòu)都是一致的:輸入、卷積、池化、輸出。在卷積層,利用不同尺寸的卷積核,以一定的步長進(jìn)行卷積,由淺到深提取出特征,經(jīng)過多層的池化,從而提取出不同深度的特征,完成最終的分割。
1.2 全卷積神經(jīng)網(wǎng)絡(luò)模型的發(fā)展過程
經(jīng)過卷積池化后,圖像的分辨率降低,從而影響分割結(jié)果的準(zhǔn)確性。在最近的幾年中,為了提高分割精度,恢復(fù)分割圖像的分辨率,許多學(xué)者基于全卷積神經(jīng)網(wǎng)絡(luò)提出不同的改善模型。
1.2.1 FCN模型
在2015年,UC Berkeley的Jonathan Long等人提出了全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[1],它與傳統(tǒng)的全卷積神經(jīng)網(wǎng)絡(luò)相比,優(yōu)點(diǎn)首先在于加入了上采樣的過程,其次引入了跳級結(jié)構(gòu),對圖像分割有精化作用。
原圖像經(jīng)過五次池化后,圖像尺寸變?yōu)樵瓐D像的1/32,將conv7后輸出的圖像32倍上采樣,得到原圖像相同尺寸的特征圖,F(xiàn)CN32的分割結(jié)果非常粗糙,作者為了改善結(jié)果,將此conv7后的圖像2倍上采樣與pool4后剪切的特征圖做融合,將融合后的圖像進(jìn)行16倍上采樣,得到FCN-16的分割結(jié)果,為了使結(jié)果更精細(xì),將conv7后輸出的圖像4倍上采樣,將pool4后輸出的圖像2倍上采樣,得到原圖像的1/8的圖像,將此圖像與經(jīng)pool3后剪切的特征圖做融合;這樣最終的特征圖FCN-8既包含了深層的高級別語義信息也包含了淺層的空間信息,提高分割結(jié)果的魯棒性和精確性。
1.2.2 U-net模型
在2015年,Philipp Fischer等人在Kaggle挑戰(zhàn)賽中第一次使用了U-net網(wǎng)絡(luò),U-net同樣只有卷積層和池化層,沒有全連接層,在卷積池化之后也有上采樣過程。與FCN網(wǎng)絡(luò)不同的是,U-net的卷積過程與反卷積過程采用了相同數(shù)量層次的卷積操作,且使用skip connection結(jié)構(gòu)將卷積池化層與反卷積層相連,使得下采樣提取到的特征可以直接傳遞到反卷積層,這使得U-net網(wǎng)絡(luò)的像素定位比起FCN網(wǎng)絡(luò)更加準(zhǔn)確,分割精度更高。
1.2.3其他模型
最近兩年,許多學(xué)者在FCN網(wǎng)絡(luò)和U-net網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改善,并實(shí)驗(yàn)后得到了更好的分割效果。在2018年,中國科學(xué)技術(shù)大學(xué)的張一恒等人提出了用于語義分割的全卷積自適應(yīng)網(wǎng)絡(luò),它將外觀自適應(yīng)網(wǎng)絡(luò)(AAN)和表達(dá)自適應(yīng)網(wǎng)絡(luò)(RAN)相結(jié)合,AAN模塊用來在像素空間里學(xué)習(xí)從一個域向另一個域的轉(zhuǎn)換,得到源域和目標(biāo)域相結(jié)合的自適應(yīng)圖像,RAN模塊以對抗性學(xué)習(xí)方式進(jìn)行優(yōu)化,最后用ASPP模塊并行提取不同尺度上的特征,最后得到分割結(jié)果。另外,今年提出的基于隨機(jī)推理的弱半監(jiān)督語義圖像分割、快速語義分割網(wǎng)絡(luò)在語義分割方面也有著不俗的表現(xiàn)。
2不同模型的實(shí)際應(yīng)用
2.1全卷積神經(jīng)網(wǎng)絡(luò)在地理信息系統(tǒng)的應(yīng)用
衛(wèi)星遙感技術(shù)的發(fā)展,使其逐漸深入到國民經(jīng)濟(jì)、社會生活與國家安全的各個方面,計(jì)算機(jī)輸入衛(wèi)星遙感影像,通過神經(jīng)網(wǎng)絡(luò)自動識別道路,河流,莊稼,建筑物等,并且對圖像中每個像素進(jìn)行標(biāo)注。憑借分割結(jié)果完成一系列分析工作極大的提高了工作人員的工作效率,且比傳統(tǒng)分割算法的準(zhǔn)確度高。在2017年ISPRS競賽中,ResNet的FCN模型被用來實(shí)現(xiàn)對航空圖像進(jìn)行分割并取得了不錯的成績。
o.o全卷積神經(jīng)網(wǎng)絡(luò)在智能交通領(lǐng)域的應(yīng)用
在智能交通領(lǐng)域,語義分割最突出的應(yīng)用是在無人駕駛技術(shù)當(dāng)中,它是無人駕駛眾多算法中的核心算法,車載攝像頭將街道的實(shí)時視頻分楨傳遞給神經(jīng)網(wǎng)絡(luò),后臺計(jì)算機(jī)可以自動將圖像分割歸類,以避讓行人和車輛等障礙。
LinkNet網(wǎng)絡(luò)在街道圖像中良好的分割能力可以輔助無人駕駛技術(shù),通過語義分割,開車過程中能夠自動且準(zhǔn)確的識別視線范圍能的目標(biāo),從而做出停車或繞過目標(biāo)的動作,在智能交通領(lǐng)域發(fā)揮作用。
2.j全卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)療影像分析領(lǐng)域的應(yīng)用
U-net網(wǎng)絡(luò)適于醫(yī)學(xué)圖像的分割。Wang等人提出一種傷口圖像分析系統(tǒng),先用U-net網(wǎng)絡(luò)對傷口圖像進(jìn)行分割,再用SVM分類器對分割出的傷口圖像進(jìn)行分類,判斷傷口是否感染,最后用GP回歸算法對傷口愈合時間進(jìn)行預(yù)測。Brosch等人使用U-net網(wǎng)絡(luò)對腦部MRI中的腦白質(zhì)病灶進(jìn)行分割,并在U-net網(wǎng)絡(luò)的第一層卷積和最后一層反卷積之間加入跳躍連接結(jié)構(gòu),使得該網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練數(shù)據(jù)較少的情況下仍得到了很好的分割結(jié)果。此外,語義分割還應(yīng)用在腫瘤圖像分割等。
2.4全卷積神經(jīng)網(wǎng)絡(luò)在智能機(jī)器人領(lǐng)域的應(yīng)用
全卷積神經(jīng)網(wǎng)絡(luò)在智能機(jī)器人領(lǐng)域的主要應(yīng)用是穿戴式機(jī)器人,如谷歌智能眼鏡,用眼鏡上的攝像機(jī)對視線中的物體拍照傳輸給計(jì)算機(jī),計(jì)算機(jī)通過全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語義分割,從而完成對不同目標(biāo)的自動識別,再將結(jié)果以不同形式輸出,若輸出形式是語音,就會對盲人買東西、逛街等提供實(shí)質(zhì)性幫助。
3結(jié)束與展望
全卷積神經(jīng)網(wǎng)絡(luò)憑借自身強(qiáng)大的特征提取能力和準(zhǔn)確的分割預(yù)測功能,在各個領(lǐng)域中得到越來越廣泛的應(yīng)用。但不同的神經(jīng)網(wǎng)絡(luò)適用的領(lǐng)域不同,如Deeplab網(wǎng)絡(luò)、Linknet網(wǎng)絡(luò)適用于街道交通圖像的分割,但U-net及其衍生網(wǎng)絡(luò)雖然也能實(shí)現(xiàn)多分類,但分割效果并不盡人意,它們更適用于醫(yī)療圖像的分割,因此設(shè)計(jì)一個通用的深度學(xué)習(xí)網(wǎng)絡(luò)使它能適應(yīng)所有類型的數(shù)據(jù)集訓(xùn)練,依舊是研究者們今后的研究重點(diǎn)。
參考文獻(xiàn)
[1]Jonathan Long, Evan Shelhamer. and Trevor Darrell. Fullyconvolutional networks for semantic segmentation. In Proceedingsof the IEEE conference on conLputer visionand patternrecognition, pages 3431 3440. 2015.
[2]Ronneberger O, Fischer P, Brox T. UNet: ConvolutionalNetworks for Bionledical Image Segnlentation[M]// Medical IiuageConLputing and ConlputerAssisted InterventionMICCAI 2015.Springer International Publishing,2015: 234241.
[3]Zongwei Zhou. Md Mahfuzur Rahman Siddiquee, NinLaTajbakhsh, and Jianming Liang.U-net++: A Nested UNetArchitecture for Medical Image Segnlentation. arXiv preprintarXiv:1807.10165.2018.