999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖像邊緣檢測綜述

2023-03-13 10:04:14揚,周
計算機工程與應用 2023年5期
關鍵詞:特征檢測方法

肖 揚,周 軍

遼寧工業大學 電子與信息工程學院,遼寧 錦州 121000

自然圖像中檢測邊緣與對象邊界一直都是計算機視覺中的一項基本問題,邊緣檢測在一些視覺領域,如圖像分割、物體檢測/識別、跟蹤和運動分析、醫學成像、3D重建等傳統任務,和現代應用自動駕駛中發揮著重要作用。多年來,許多研究者致力于提高邊緣檢測評估標準:單圖最佳閾值(optimal image scale,OIS)、全局最佳閾值(optimal dataset scale,ODS)、平均準確率(average precision,AP)。隨著神經網絡的快速發展,邊緣檢測分化為兩個陣營:傳統檢測方法和基于深度學習的檢測方法。圖1顯示了兩種方法執行邊緣檢測任務的一般流程。

圖1 兩種方法的一般流程對比Fig.1 Comparison of general process of two methods

一些邊緣檢測[1]方法僅基于顏色、文本或其他低級特征來預測邊界:(1)早期梯度算子方法,如一階邊緣檢測算子Sobel算子[2]、Robert算子[3],二階邊緣檢測算子Laplacian算子[4],還有工業界中常用的Canny算子[5]。(2)基于人工設計特征方法,如統計邊緣[6]、概率邊界(probability boundary,Pb)[7]、PMI(pointwise mutual information)[8],和結構化邊緣檢測算法,如SE(struc-tured forests edge detection)算法[9]等。傳統的邊緣檢測方法提取邊緣已經取得了相當大的進步,但是對噪聲抑制、邊緣定位和精細邊緣的處理仍得不到改善。

隨著近年硬件設備的更新,深度學習得到爆發式的發展,將卷積神經網絡(convolutional neural network,CNN)能提取低級圖像特征的優勢運用在邊緣檢測中,使得邊緣檢測的效率和精度得到巨大提升,解決了傳統檢測方法遺留的一些問題。現如今,全監督學習是邊緣檢測任務的主流方法,但是該方法也存在需要使用大量數據集進行神經網絡訓練的弊端。值得慶幸的是,近年相繼提出了一些新的數據集,如BSDS500[10]、NYUDv2[11]、PASCAL-VOC[12]。

傳統方法需要手工設計梯度算子或人工設計特征送入分類器網絡進行訓練,復雜的數學推導和分步驟的訓練方式極大限制其發展。直到Xie等[13]首次提出端到端網絡架構——整體嵌套邊緣檢測(holistically-nested edge detection,HED),才解決了上述的問題。HED模型具有架構緊湊、性能好且效率高的優點。其缺點也顯而易見,模型較為龐大,計算成本高導致GPU(graphics processing unit)占用資源過多。2021年,Su等[14]為了解決這些問題,將傳統的邊緣檢測算子采用像素差分卷積(pixel difference convolution,PDC)的方式集成到現代CNN中,提出PidiNe(tpixel difference networks)模型。該網絡使用大量可分離卷積、通道注意力和膨脹卷積,大大降低網絡模型的復雜度,提高預測階段的效率。在此期間,也出現了許多優秀的模型,如RDS(relaxed deep supervision)[15]、CED(crisp edge detector)[16]和DSCD(deep structural contour detection)[17]等,這些涉及的方法在后文中會詳細介紹并分析其局限性。

目前邊緣檢測中有一些方法與前沿技術相結合,傳統與深度學習的分類方法不足以歸納結合性質方法。由于前人的邊緣檢測綜述沒有對各類方法進行對比,僅僅將所使用方法進行羅列,讀者理解邊緣檢測任務技術的整體趨勢有一定困難。且近年來,也出現諸多新興方法,這些方法前人的任務中也并未提及。本文以此為出發點,將多年來提出的邊緣檢測方法進行梳理,對其中主流以及前沿技術的方法進行介紹,分析算法的創新點和局限性。

1 邊緣檢測的概念

邊緣檢測是一個經典的計算機視覺問題,需要識別圖像中的邊緣以建立對象邊界并分離感興趣的目標。一張M×N的灰度圖片表示為一個由二元函數組成的二維矩陣:

彩色圖像中,每一個像素點又包含RGB三個通道,其強度范圍都在0~255之間。把圖像某一行中的所有像素繪制成三條曲線,可以得到由像素強度繪制的波形圖,如圖2所示。

圖2 數字圖像與波形圖Fig.2 Digital images and waveforms

圖中曲線的波動幅度表示為顏色等特征的變化程度,采樣區域變化劇烈(如pixels坐標130處,圖2(a)中白色網格框所示)。這表明變化劇烈的波可能是包含邊緣的區域,也進一步說明波和圖像之間聯系緊密,圖像的本質就是各種色彩波的疊加。利用圖像濾波器將低頻過濾,保留變化劇烈的區域,即圖像中的邊緣。

邊緣一般是指在像素強度局部劇烈變化的區域。其強度變化主要有兩類:(1)階躍變化,表示強度由暗到亮漸變的過程;(2)屋頂變化,表示由暗到亮,再由亮到暗的過程。

把邊緣檢測的目標總結為找到具有階躍變化或屋頂變化像素點的集合。計算某像素點及其鄰域的微分找到變化劇烈的像素點,對于具有階躍變化的像素點,其一階微分最大或二階微分為0則為邊緣點;具有屋頂變化的像素點,其一階微分為0或二階微分最大則為邊緣點。繼而引出傳統邊緣檢測基于梯度(一階與二階微分)的方法,如Sobel[2]和Canny[5]等經典算法。

2 傳統方法

將基于深度學習方法出現之前的所有邊緣檢測方法歸類為傳統方法,這些方法在本質上是利用基礎或手工設計的特征訓練分類器檢測輪廓和邊緣,如紋理、顏色、梯度和一些其他圖像特征。邊緣檢測中常見的分類器有:線性分類器[18]以及支持向量機(support vector machine,SVM)[19]等。

2.1 基于梯度算子檢測方法

2.1.1 梯度算子提取特征的原理

數學中,微分表示當自變量的變化足夠小時,其函數值局部的變化。圖像處理結合微分的思想,通過計算x和y兩個方向的偏微分,可以得到(x,y)相鄰像素點在水平與垂直方向的梯度。

公式(2)表明像素點的梯度就是相鄰兩像素的差,計算每個像素點的梯度,可以得到所有像素組成的梯度矩陣。上文提到圖像邊緣處的像素變化劇烈,所以計算得到的梯度值比非邊緣的梯度值大。對梯度矩陣進行NMS處理后,保留梯度矩陣中大于預先設定閾值的梯度,即為邊緣。該方法需要人工設定閾值,閾值的好壞直接影響最終的結果,具有不穩定性。

2.1.2 一階梯度算子

Robert算子[3]首次使用2個2×2的方形算子計算圖像x和y方向的梯度,將對角線相鄰兩像素之差近似梯度幅值檢測邊緣,該方法設計的卷積核為后來新的算子奠定了基礎。

為了彌補上述方法對水平和斜方向檢測邊緣不足,Prewitt算子[20]將算子個數增加至4個,分別計算水平、垂直、斜方向的梯度。Sobel算子[2]結合高斯平滑抑制噪聲,對圖像灰度函數求近似梯度。高斯平滑對圖像處理后降低了提取邊緣的精度,Kirsch算子[21]類似Sobel算子,不同的是利用8個卷積核計算像素點8個方向的梯度幅值和方向,并取最大卷積值作為該點梯度。

2.1.3 二階梯度算子

二階梯度識別非線性強烈變化的灰度值,對邊緣的定位更精確。當輸入圖片發生旋轉時,通常一階算子每次計算出的結果都不同,針對這個問題,Lecun等[4]提出具有旋轉不變性的Laplacian算子。

雖然該方法解決了一階算子中如何確定閾值的問題,但是不能克服噪聲的干擾,Torre等[22]將Laplacian算子與高斯低通濾波相結合提出LOG(Laplacian of Gaussian)算子。該算子通過高斯濾波和Laplace算子處理,對輸出進行插值估計。依據簡化計算原則,可以使用DOG(difference of Gaussian)算子[23]近似替代LOG算子。

Canny等綜合考慮上述算子的優缺點,總結出算子類方法的共性:(1)好的檢測效果;(2)邊緣定位準確;(3)同一邊緣要有低的響應次數。結合這三個要求,繼而提出的Canny算法成為最常用也是當時最優秀的算子檢測方法。根據上文對算子類方法分析結果,在表1中從優勢、機制和局限性對這些方法進行對比分析。

表1 算子類方法優缺點對比Table 1 Comparison of advantages and disadvantages of operator class methods

2.2 基于人工特征提取的邊緣檢測

2.2.1 基于局部特征

為了提高提取圖像紋理、顏色的能力,繼而提出人工特征提取的檢測方法。通過結合像素之間的關系提取特征,并使用這些特征訓練邊緣分類器。

具有開創性研究的是Konishi等[6]提出使用統計和學習的方式,從預先分割的數據集(Sowerby和South Florida)中學習邊緣濾波器的概率分布,并結合Chernoff信息[24]和ROC曲線(receiver operating characteristic curve)[25]評估邊緣。

概率檢測器Pb[7]將不連續特征與顏色和紋理梯度結合降低噪聲對邊緣檢測的影響。Pb算法首次利用多特征梯度訓練回歸器。圖3表示梯度波形圖,圖部分截取文獻[7]。

圖3 邊界與非邊界的局部圖像特征Fig.3 Boundary and non-boundary local image features

圖中特征從左到右依次為:原始圖像強度、定向能量OE、局部能量、亮度梯度、顏色梯度、原始紋理梯度和局部紋理梯度。

2.2.2 基于多級特征

Arbeláez等[26]將多尺度Pb算法(multiscale probability boundary,mPb)和sPb(spectral detector Pb)結合提出gPb(global Pb)算法。該算法結合亮度、顏色和紋理信號等局部信息與從圖譜理論[27]獲得的全局特征。實驗結果表明,圖譜理論獲得全局信息可以減少生成邊緣圖的噪聲和提高邊緣圖線條的流暢性。在此之后,他們又提出了分水嶺變換(oriented watershed transform,OWT)算法[28],利用OWT構造超尺度輪廓圖(ultrametric contour map,UCM)[28],最后他們將這些方法整合成著名的gPb-owt-ucm方法[10]。一個突出的貢獻是,他們將BSDS300數據集[29]擴展為BSDS500[10]。實驗表明,此方法在數據集BSDS500上的ODS為0.71。

Isola等[8]首次將相鄰像素之間的PMI[30]引入邊緣提取中提出無監督學習方法,減少特征工程處理。

2.2.3 基于圖像塊方法

在計算機視覺中,中級特征介于基礎特征與高級特征(如對象信息)之間,提取中級特征的方法有手工設計[31-32]、監督學習[33-34]或無監督學習[35]等。為了彌補利用像素級特征提取邊緣性能的不足,一些基于學習的方法提出利用圖像塊來提取局部邊緣的中級特征。

2012年,Ren等[36]通過計算稀疏編碼梯度(SCG)以此來提高輪廓檢測精度。該方法在BSDS5000數據集上ODS為0.74。

Dollár等[9]提出結構化森林(SE)方法,通過將結構化標簽映射到離散空間構建決策樹。結果表明,SE能夠以30 Hz的幀速率運行,并且在BSDS500[10]和NYUDv2[11]數據集上達到了最先進的結果。

Zhang等[37]首次提出基于結構化隨機森林(SRF)的半監督學習(semi-supervised learning,SSL)學習方法。該方法通過無監督方式捕獲圖像塊的固有特征,其優勢在于僅使用少量圖片標注即可獲得較好的性能。

2.2.4 總結

人工特征的邊緣檢測發展趨勢是由單一特征變化為多特征聯合的過程:(1)手工設計特征方法對圖像梯度作概率統計,并訓練分類器;(2)后來的方法利用圖譜理論獲得全局特征,融合這些特征進行邊緣提取;(3)最后發展為捕獲圖像塊的中級特征,使用隨機森林分類器進行邊緣檢測。傳統方法逐漸由像素特征過渡到中級特征。

這類方法與利用梯度特征算子類方法相比已經取得非常不錯的效果,優勢在于人工設計多特征,提高特征利用率與分類精確率。但是仍存在一些問題:方法復雜、計算量大、無法實時檢測。小型訓練模型具有規模小和效率高等優點,若將特征分布移植到小型模型無疑會破壞固有結構,降低其性能;大型模型如多通道注意力機制與transformer等模型特征利用率高,能有效學習特征分布并增強特征,可移植性高。在表2中,對該類方法的優勢、機制和局限性進行對比分析,并列出方法在BSDS500上的分數。

表2 人工特征提取的邊緣檢測方法對比Table 2 Comparison of edge detection methods with manual feature extraction

3 深度學習方法

歸因于卷積神經網絡對提取圖像特征的優秀能力,深度學習方法在圖像處理領域取得了非凡的成就。深度學習的方法是邊緣檢測任務發展的分水嶺,解決了傳統方法的諸多問題,如連續性、抗噪聲能力,其方法不需要人工設計特征,所有特征均是神經網絡自動提取,方法簡單有效,進一步提高邊緣檢測的效率。為了讓文章的結構層次更簡潔清晰,將基于深度學習的方法分為非端到端與端到端方法,在本章最后會對兩類方法進行分析對比。

3.1 非端到端方法

3.1.1 圖像塊算法

SE[9]是一種學習局部圖像塊中邊緣的算法,Ganin和Lempitsky受到SE的啟發,提出N4-Fields算法[38]。該算法將圖像塊特征與最近鄰搜索(nearest neighbor search,NNS)結合,利用NNS對特征向量分類,獲得相似輪廓。

Shen等[39]提出了DeepContour算法,類似于Sketch-Tokens[40],將二元分類問題(輪廓與非輪廓)轉換為多類問題(圖像塊屬于某形狀類或背景類)。優點是能可視化CNN學習的邊緣形狀,如圖4所示。缺點是類別數量未知時,該如何設定類別數量。若類別過少,CNN提取形狀類減少,導致識別邊緣能力下降;若類別過多,CNN提取邊緣能力雖然提升,卻容易將非邊緣判為邊緣,造成誤判。實驗表明,將類別數量設定為50能取得最好結果,在BSDS500上的ODS為0.757,高于同比競爭方法。

圖4 部分形狀類的可視化Fig.4 Visualization of shape classes

另一個貢獻是提出了正共享損失的概念,即正類(形狀類)之間的誤差可以忽略,只計算正類與負類(背景類)的誤差;定義的損失函數為:

其中:

最終損失函數表示為:

后一項僅計算誤判正負類損失,當λ很小時,上式趨近于SoftMax函數;當λ很大時,區分形狀效果變弱,傾向于解決二元分類問題。

3.1.2 對象特征算法

Bertasius等發現以前的大多數工作都利用紋理或低級特征來檢測輪廓,然后將其用作對象檢測等高級任務;為了驗證高級特征檢測邊緣的可能性,他們利用對象相關特征訓練兩種對象分類神經網絡模型:KNet[41]、VGG16(visual geometry group 16)[42],相繼提出Deep-Edge[43]、HFL[44]算法。在兩種算法中都引入多尺度增加模型提取邊緣的能力,并結合圖像的局部和全局信息。結果表明,DeepEdge與HFL在BSDS500上的ODS分別為0.753、0.767。與KNet相比,預訓練的VGG16提取對象特征與整合特征能力更優秀,原因在于VGG16以順序的方式結合卷積塊與池化層提取特征圖不同尺寸特征,有效降低圖像在提取特征過程中損失。

3.1.3 方法對比

與手工設計特征相比,N4-Fields利用CNN提取特征的精度更高,但利用最近鄰搜索分類邊緣大大降低了分類準確率;DeepContour將CNN模型提取的特征進行分類,與N4-Fields方法不同的是利用CNN處理每個圖像塊對其進行分類處理,分類準確率明顯高于最近鄰搜索。如何確定類別數量是該方法的關鍵因素。

DeepEdge與HFL方法的優勢是利用對象與紋理特征結合預測。實驗結果表明利用對象特征進行邊界檢測產生的感知信息邊界優于同時期邊界檢測方法。該方法局限在于需要預先使用傳統檢測器獲得對象信息。

非端到端方法由局部特征逐步發展為對象與紋理特征融合檢測。優勢是可以對提取到的特征可視化。分步執行使得模型整體分工明確且簡單易懂;分步執行特征提取與分類的局限,給訓練模型帶來極大的不便,解決的方法是增加兩者的耦合,縮短人工處理步驟,提高訓練效率,可能是未來研究方向之一。

3.2 端到端方法

3.2.1 多尺度算法

最初CNN模型只能接受相同大小輸入,特征圖感受野固定。而多尺度算法能使模型獲得不同大小的感受野,捕獲不同尺度特征。最高層提取圖像基礎特征,隨著特征圖分辨率降低,特征圖往往提取對象特征。各級特征的融合使得模型獲得更豐富特征,能有效提高模型識別任務的精度。獲得多尺度特征的方法有:(1)改變下采樣步長;(2)池化層;(3)膨脹卷積等。

2015年,具有開創性方法的是Xie和Tu[13]首次提出端到端的神經網絡模型HED。該模型結合多尺度學習豐富的層次特征,以圖像到圖像的方式訓練和預測。根據其特點,后5年內出現了許多基于端到端和多尺度融合思想的網絡模型,在這里對HED網絡和損失函數進行介紹。HED架構,如圖5所示。

圖5 HED網絡結構圖Fig.5 HED network structure diagram

HED使用VGG16作為主干提取圖像特征,在每個卷積塊經過池化(pooling layer)之前將結果執行上采樣(upsampling)操作,將特征圖的大小恢復成原始圖像大小。其次介紹該算法的損失函數。整體的損失函數由兩部分構成,第一部分為五個側面損失;第二部分為融合損失。

作者發現在一幅圖片中,90%的真實標注是非邊緣,需要對交叉熵損失函數做特殊處理。引入類別平衡權重β自動平衡正/負類別損失。此方法確保數據平衡,減少對神經網絡收斂的影響。側輸出層損失表示為:

其中,和w(m)分別表示第m個側輸出層的樣本平衡交叉熵損失和權重。

為了直接利用融合輸出預測,需定義融合損失,公式(6)表示計算人工標注Y與模型預測的損失。

最終損失函數表示為:

HED作為首個整體網絡,多尺度和特征融合方法為其性能帶來巨大提升,端到端模式也極大簡化模型的訓練和預測。局限性在于模型由上至下逐步提取特征,單向過程中,會造成特征損失,且上采樣并未融合下采樣特征,特征損失進一步擴大。由上至下、由下至上混合架構作為當前分割領域主流研究模型,在HED骨干模型上增加金字塔特征融合或由下至上傳播路徑,具有移植到語義分割領域的可行性。

Maninis等[45]利用圖像多尺度信息,結合像素分類與輪廓方向,提出COB(convolutional oriented boundaries)算法。該算法網絡模型主干使用最先進的50層ResNet(residual network)模型[46],模型利用細尺度響應基礎特征,粗尺度提取對象輪廓并減少噪聲。他們將真實標注的輪廓全部擬合為神經網絡產生的K個方向邊緣,與DeepContour一樣,K值的好壞直接影響模型的性能。在BSDS500上的ODS為0.793。COB模型同時具有ResNet網絡提取基礎特征與識別邊緣方向特征的優秀能力。但是模型提取細尺度和粗尺度兩種特征圖需要額外進行多次計算,大大增加了訓練和預測時間。且方向邊緣特征也需要額外的存儲空間,雖然使用稀疏邊界降低空間復雜度,但是數據在CPU與GPU之間的來回切換也會增加系統讀寫負擔。K值設定與提取方向特征上的局限性導致COB無法輕易移植到別的領域中。

條件隨機場(conditional random field,CRF)[47]是一種傳統的分組模型,使用輪廓分段和條件隨機場獲得不同的連續性和頻率。Xu等將注意力機制[48]與CRF結合成注意門控條件隨機場(attention-gated CRFs,AG-CRF)[49],重新融合從CNN網絡中提取多尺度特征圖。實驗表明AMH-Net(attention-guided multi-scale hierarchical DeepNet)算法中引入注意力機制是有效的,在BSDS500上的ODS為0.798。

邊緣檢測中用于監督學習的數據集通常需要2人以上標注,最終標注存在差異,對訓練造成影響。Liu等[50]首先對標注進行處理:若沒有任何標注該像素為邊緣,將此像素點設置為0;全部標注該像素為邊緣,則設置為1;否則對該像素點標注取平均值yi。像素邊緣概率高于η為正樣本,概率為0視為負樣本,其余像素不計算損失。定義像素損失為:

公式(8)中,P(Xi;W)為模型對像素Xi的預測值,W表示模型參數;α、β表示類別平衡權重。

他們利用對象多尺度和多級信息,構成RCF(richer convolutional features)模型。在測試過程中引入圖像金字塔增強,利用雙線性插值還原特征圖。實驗結果表明,結合多尺度增強,RCF在BSDS500數據集上獲得ODS為0.81。與HED算法[13]相比,RCF利用卷積層更豐富的特征訓練;僅考慮多數標注標記為正樣本的邊緣像素,簡化神經網絡的訓練難度,但也可能造成丟失關鍵邊緣的問題。

語義分割和邊緣檢測兩者關系密切,為了滿足在邊緣檢測中獲得語義類別信息的需求,Ma等首次提出一種邊緣檢測融合語義分割的模型,MSCN(multi-scale spatial context-based network)[51]。該端到端模型利用低級、中級和高級特征提取邊緣、對象和分割信息。MSCN的提出,也進一步說明語義分割與邊沿檢測任務的可遷移性,兩者中的方法互相遷移度高。

2021年,Xuan等[52]將RNN模型中LSTM模塊移植到基于RCF的邊緣檢測中,提出FCL-Net(fine-scale corrective learning)。該模型利用BSDN中的SEM特征提取模塊,并結合LSTM對多個特征進行融合,提高小目標識別率,是一種增強多尺度模型。實驗結果表明,在BSDS500上的ODS為0.826。

為了彌補多尺度算法提取特征的不足,一些方法[53-61]也對側面特征提取塊進行創新。雖然多尺度算法提取特征能力較差,但是單向網絡使得模型的流程更清晰,模型訓練更快,在未來仍是熱門研究方向之一。圖6表示兩種多尺度特征模型。

圖6 多尺度分類器Fig.6 Multi-scale classifier

3.2.2 算子-卷積融合算法

Liu等[15]利用松弛深度監督(RDS)訓練神經網絡。這些松弛標簽被看作是難以辨別的假正邊界(即,標注中為非邊緣,但算子檢測器判別為邊緣)。

其中,C(k)表示Canny算法對側輸出層的第k層執行檢測操作得到的輸出;G表示人工標注的真值;D(k)表示側輸出層的第k層的假正邊界。

公式(9)表示Canny算子[5]誤判為正類的像素集合。和經典算法HED[13]一樣,RDS也需要計算側邊以及融合損失。實驗結果表明,該算法取得了當時最優的性能。松弛標簽的好壞完全取決于傳統算子對邊緣的提取能力,仍需要人工設定閾值,是該算法中的不穩定因素。

2021年,Su等[14]采用新穎的像素差分卷積(PDC),將傳統邊緣檢測算子與現代CNN模型集成,并提出PidiNe(tpixel difference networks)算法。

PidiNet模型使用可分離深度卷積結構進行快速預測和訓練。PidiNet結合PDC和簡化的網絡架構讓模型變得非常緊湊,僅有710 000參數,支持實時預測。實驗結果表明,該算法在BSDS500數據集上最優可取得215 FPS,并且達到HED相同ODS水平0.788。PidiNet中使用的分離式深度卷積結構可以降低模型參數規模,其思想可以移植到大型耦合度高的模型中。

3.2.3 雙向連接算法

在此之前的所有深度學習方法雖然取得可觀的ODS分數,但是輸出的邊緣都很模糊。首次獲得突破的是2017年Wang等[16]提出的CED算法。他們總結前人的工作后發現可能是以下兩點原因:(1)線性分類器在相鄰像素產生類似響應;(2)上采樣技術不能勝任生成精細邊緣的任務。

CED使用自上而下的反向細化方法,采用亞像素卷積(sub-pixel convolutional,SPC)[62]生成清晰的邊緣。該算法結合精細語義分割模型[63]和SPC,由前項傳播產生高維低分辨率特征圖;反向細化路徑將逆向特征圖與下采樣輸出融合,實驗結果表明,CED在BSDS500數據集上取得ODS為0.80,達到人類相同水平。該方法在一定程度上彌補了使用上采樣帶來的不利影響,大大減少下采樣不可逆的特征損失;反向路徑中大量的邊緣提取與特征融合無疑讓模型更難訓練。

He等[64]提出雙向級聯網絡(BDCN)結構,通過計算雙向特征圖損失實現雙向連接,根本上仍是單向模型。引入尺度增強模塊(scale enhancement module,SEM),利用擴張卷積來生成多尺度特征。實驗結果表明,結合圖像多尺度融合,該算法在BSDS500數據集上取得最優ODS為0.828。BDCN的分層計算損失的設計讓網絡能學習到對應尺度的特征,且SEM避免圖像金字塔的重復邊緣檢測。多損失的設計讓其訓練時,數據使用后不會立馬釋放空間,需要進行多次讀寫操作,大大降低GPU的利用率。

Deng等[65]考慮到基于深度卷積神經網絡(deep convolutional neural network,DCNN)的邊緣檢測方法預測的邊緣圖邊緣厚且需要執行后處理才能獲得清晰邊界,他們采用自下而上/自上而下的架構來處理任務,LPCB(learning to predict crisp boundaries)算法實驗結果表明,在BSDS500數據集上獲得ODS為0.815。

HED算法已經表明,使用預訓練分類網絡的特征來捕獲所需的圖像邊界并抑制不存在的邊緣是有益的。Kelm等[66]結合ResNet[46]和語義分割方法(RefineNet[67])提出RCN(refine contour net)算法。RCN引入三種不同的卷積塊:(1)多分辨率融合(multi-resolution fusion,MRF)。(2)殘差卷積單元(residual convolution unit,RCU)。(3)鏈式殘差池(chained residual pooling,CRP)。實驗結果表明,在BSDS500數據集上獲得ODS為0.823。圖7表示三種卷積增強塊。其功能分別為:調整和修改MRF的輸入、融合上采樣與特征圖、獲得更豐富的上下文信息。

圖7 細化過程操作塊Fig.7 Block diagrams of refinement path operations

Soria等[68]認為邊緣檢測中應該考慮邊緣的完整性,但是以前的工作忽略了圖像的薄弱邊緣。他們基于HED[13]和Xception模型[69],提出DexiNe(tdense extreme inception network)算法。在他們提出的數據集(BIPED)中,仔細標注了可能存在的邊緣。使用該數據集訓練可以生成人眼看到的不明顯薄弱邊緣。模型引入上采樣(upsampling)塊使得各輸出層能產生精細邊緣。

多尺度算法與相比雙向連接算法中,前者采用由上至下融合多尺度方法,該方法的卷積塊都存在側面特征提取塊;沒有額外增加反向融合特征,因此多尺度算法的訓練和預測效率要明顯高于雙向級聯算法。DexiNet的密集設計結構使得模型提取精細邊緣的能力比其他雙向連接算法更強,雖然在BSDS500上ODS僅為0.729,但是在BIPED中ODS為0.859,遠高于人類水平0.8。雙向連接算法由于增加由下至上反向融合特征模塊,模型能提取更豐富特征。但同時模型參數量幾乎增加一倍,不易訓練模型。BDPN(bi-directional pyramid network)[70]引入一種反向金字塔特征融合結構,一定程度上減少了模型所需參數量。也包括一些方法[71-72]引入更復雜的特征融合模塊,舍棄效率而追求更高的ODS分數。雖然雙向模型預測效率較低,但是精度更高,未來輕量級雙向模型也可能是熱點研究方向之一。

3.2.4 編碼器-解碼器算法

Deng等[17]提出新型卷積編碼器-解碼器網絡(DSCD)。該網絡逐步與低級特征融合;其次提出新型損失函數,解決生成邊緣定位和清晰度問題。

利用公式(10)可以計算兩個映射的相似度,其中μx、μy和σx、σy分別是預測邊緣圖x和真實標注邊緣圖y的平均值和標準方差。DSCD采用密集連接網絡(DenseNet[73])來增強分層特征之間的連接;實驗結果表明,結合多數集訓練后,在BSDS500數據集上獲得ODS為0.822,明顯高于人類水平0.8。

編碼器-解碼器方法最早被應用于語義分割領域,U-Net[74]是其經典算法之一。DSCD優勢在于提出新衡量相似度損失函數,模型僅需計算最終輸出與真值的損失,一定程度上減少工程訓練時間。

因為編-解碼器模型存在跳躍連接層,不會因為上采樣而導致特征損失,但是進行下采樣時,特征可能會因為多卷積而丟失。REDN(recursive encoder-decoder network)[75]通過對下采樣增加密集連接層從而降低下采樣特征損失,但模型存在難以收斂的問題。編-解碼器的固定設計結構也極大限制其移植可能性。

3.2.5 新興方法

近年的邊緣檢測任務大多為多尺度模型,以單向特征傳遞為主,通過加強特征融合達到增強模型提取能力。除了多尺度與雙向連接模型以外,近年也出現一些新興方法,但所取得的評分標準與端到端模型相比仍有較大差距,還需進一步研究。

(1)低復雜度模型。將模型移植到移動或微型設備須同時考慮處理效率以及處理性能。LDC(lightweight dense CNN)[76]通過對低通道卷積之間引入密集連接增強特征利用。缺點是提取對象高級特征能力明顯弱于多尺度模型。LRDNN(low-complexity residual deep neural network)[77]使用Fire模塊代替常規卷積,實驗結果表明,該模塊充分提取特征,能提高對特征的利用率。雖然無法大規模降低參數量,但其性能與原模型基本保持不變。模型大小、效率以及系統資源調用仍需進一步優化。

(2)仿生模型。脈沖神經網絡(pulse-coupled neural network,PCNN)[78]是一種基于貓視覺原理構建的簡化神經網絡模型,其特點是接收像素強度作為刺激并產生時間序列輸出,符合人類視覺神經系統機制,該項技術研究較少,PCNN在圖像處理領域仍處于發展階段。BFCN(bio-inspired feature cascade network)[79]為了解決模型特征提取能力弱、邊緣信息提取不足的問題,將視網膜的信息傳遞機制與邊緣檢測相結合,是一種利用仿生模型對特征提取增強的方法。實驗結果表明,該方法能有效提高多尺度模型中單向特征提取能力,在BSDS500中ODS為0.822。

(3)對抗模型。ContourGAN[80]基于GAN(generative adversarial network)[81]的方法,利用編碼器-解碼器模型,用生成器提取圖像輪廓,鑒別器區分真實標注和提取的圖像輪廓。Art2Contour[82]也基于GAN方法,引入多重回歸損失的組合,學習顯著性高輪廓。GAN模型目前在圖像生成、圖像修復等領域占據主流地位。邊緣檢測任務中僅有少量使用GAN模型的方法,但其性能與多尺度以及雙向模型有較大差距,仍需進一步研究。

(4)Transformer。該模型于2017年提出,其本質是編-解碼模型,在內部引入大量的自注意力機制,獲得局部與全局特征,在自然語言處理中取代循環神經網絡,成為主流模型。2022年,Pu等[83]首次將Transformer引入到邊緣檢測中提出ENTER模型,在BSDS500取得最高ODS為0.848,遠高于各類檢測方法。他們在第一階段利用編-解碼器提取全局特征;在第二階段利用局部細化獲得精細邊緣。歸因于Transformer的自注意力機制,在視覺領域已經取得了廣泛的應用,并能在各個領域取得更高性能提升。在未來的研究中,基于Transformer自注意力機制的邊緣檢測模型是熱門研究方向之一。

3.2.6 方法對比

將深度學習方法在邊緣檢測中取得優秀性能的原因歸結為五點:(1)多尺度;(2)多層特征融合;(3)上采樣;(4)精心設計的損失函數;(5)使用大量數據集訓練。

DCNN在圖像特征提取中極具優勢,與傳統邊緣檢測方法相比,基于深度學習方法不僅可以提取基礎特征,還包括對象特征,在圖像中表現為紋理、顏色以及對象輪廓等。非端到端模型是邊緣檢測任務引入深度學習的開端,提高特征檢測的同時,也存在特征利用率不足與步驟繁瑣的問題。端到端模型以圖像到圖像的模式訓練,圖像特征均是由模型自訓練提取,避免人為因素對模型訓練產生影響。

深度學習作為目前邊緣檢測的主流方法,取得優秀性能的同時,也伴隨一些新的問題:(1)神經網絡結構越發復雜;(2)訓練成本更高,時間更長;(3)更依賴數據集的數量和質量;(4)神經網絡的不可解釋性。圖8表示模型使用方法對比。

圖8 模型所使用方法的聯系與區別Fig.8 Connection and difference of methods used in model

在表3中,對深度學習方法的優勢、機制和局限性進行分析,并列出在BSDS500上的ODS。

表3 深度學習的邊緣檢測方法對比Table 3 Comparison of edge detection methods for deep learning

在表4中,為了更直觀評估其算法性能,列出一些方法在NYUDv2數據集[11]上的ODS以及模型的參數數量,最后一列表示在BSDS500數據集上的FPS。從表中可以看出,ENTER模型取得對比方法最優ODS,滿足工業領域中對邊緣精度較高的需求;LRDNN模型取得最優FPS,滿足在移動端或邊緣計算中對小體量模型的需求。

表4 深度學習方法性能定量對比Table 4 Quantitative comparison of performance of deep learning methods

4 數據集和評估標準

4.1 數據集

數據集一般分為圖像和真實標注兩部分,通常有2個及以上標注者對圖像進行標注。真實標注為二值圖像,即圖像中的每一個像素都只有兩種可能,通常由黑(0)白(255)來表示。邊緣檢測的結果通常是經過sigmoid函數處理后輸出每個像素點為邊緣的概率。

數據集分為人工標注和機器生成兩種,人工標注的優點是精度高,缺點是耗費人力、時間等資源,大多數據集都是采用這種方式,如BSDS500[10]與PASCAL[84]等。機器生成的數據集一般是指在網絡訓練過程中輸出的結果,對結果處理后,重新輸入網絡訓練。此方式具有不穩定因素,優點提高數據集利用率。在RDS[15]中就采用Canny算子對模型輸出進行采樣,再將采樣結果輸入網絡中增強訓練。

有監督學習任務中,數據集在其中扮演著重要角色。通常,監督學習需要使用數據集訓練神經網絡使其趨向于收斂。邊緣檢測任務數據集具有兩個重要作用:(1)訓練神經網絡模型;(2)評估網絡模型生成邊緣圖。邊緣檢測數據集大多為中小型數據集,是因為復雜的標注流程耗費大量人力和物力,限制數據集發展。在BSDS500中,訓練使用圖片僅有200張,為了降低數據集數量給模型訓練帶來的不利影響,在訓練過程中可以使用數據增強(旋轉、鏡像和剪切等)擴大數據集規模,還能有效避免模型過擬合。表5列舉出邊緣檢測常用數據集。

表5 邊緣檢測數據集Table 5 Edge detection dataset

BSDS300[29]與BSDS500[10]:Martin等使用300張規格為481×321的圖像進行邊緣標注。每張圖片都至少有4人標注,超過第5人標注時,就會出現圖片標注不全的問題。300張圖片中,使用200張圖片用作訓練,100張用作測試。Arbeláez等在BSDS300數據集的基礎上,將測試數據擴大至200張,新增100張圖片用作驗證數據集。

NYUDv2[11]:該數據集由1 449張室內場景圖片組成,原始數據包括894個類別,用于訓練語義分割任務時,可將其轉化為40個類別。其中795張圖片用于訓練,654張圖片進行測試。

PASCAL-VOC[12]:數據集包含20個對象類別,每張圖像都有分割注釋、邊界注釋以及對象注釋。共2 913張圖片,1 464張用于訓練,1 449張用于驗證。

PASCAL-Context[84]:包含10 103張圖像,共459個標注類別,常用類別僅為59類。其中4 998用于訓練集,5 105用于測試集。使用該數據集訓練時,可以利用數據增強擴大數據規模。

Multicue[85]:和其他數據集不同的是,該數據集是由相機構建的短雙目視頻序列組成的視頻數據集。雙目視頻序列是指,兩個不同位置攝像機同時拍攝同一場景獲得的圖像序列,在序列中包括灰度、紋理、顏色等信息。數據集中每幀分辨率為1 280×720像素。

BIPED[68]:包含250張1 280×720像素的圖片,200張用于訓練,50張用于測試。在該論文中,作者表明,此數據集的標注結果經過多次交叉檢查,篩選并糾正其中錯誤的標注邊緣。

PIOD[86]:Wang等將PASCAL VOC數據集構建為大規模實例遮擋邊界數據集,使用10 000張圖片用于訓練,使用BSDS500測試數據集用于測試。

4.2 評估標準

最初的邊緣檢測結果評測都是僅憑主觀意識。隨著技術的發展,出現一些的新的評估指標:(1)精確率(Precision),表示生成的邊界像素是真實邊界像素的概率;(2)召回率(Recall),測得真實邊界像素占所有真實邊界像素的概率;(3)F1-Score(F1值),綜合Precision與Recall的結果,輸出1表示模型結果最好,0表示模型結果最差;(4)平均精度(average precision),計算方式為P-R曲線下方的面積,范圍在0~1,值越大,則模型越好。精確率和召回率定義為:

其中,TP表示被模型預測為正類的正樣本;FP表示被模型預測為正類的負樣本;FN表示被模型預測為負類的正樣本。F1值定義為:

常用的F1值有兩種:(1)全局最優規模(ODS),整體數據達到最優時,F1值的平均值即為ODS;(2)圖像最佳規模(OIS),數據每張圖片最優時,F1值的平均值即為OIS。

訓練完模型后,將測試得到的圖片進行最終評估,會獲得該模型測試結果的ODS、OIS、AP以及生成的P-R曲線圖。圖9表示模型在BSDS500數據集上的性能。從中可以發現,近年深度學習模型的優勢更加明顯,未來的研究方向明顯更偏向于深度學習方法。圖中某些方法實現不同,可能與原方法結果存在誤差。

圖9 PR曲線Fig.9 Precision-Recall curve

5 總結與展望

邊緣檢測經過40多年的發展,誕生了許多有代表性的方法,如Canny算子[5]、HED[13]網絡架構等。尤其是近年提出的一些方法,如BDCN[64]在BSDS500數據集中取得ODS分數0.828,遠超人類視覺水平ODS分數0.8;PiDiNet[14]不僅達到人類視覺水平,還擁有150 FPS,支持實時預測。本文分析模型在BSDS500數據集取得ODS分數,深度學習模型憑借優秀的特征提取和融合特征能力往往能取得比傳統方法更優秀的性能,未來的發展中,深度學習仍然會占據邊緣檢測任務主流地位。

本文對歷年出現的大多數方法進行分類、介紹和總結,并且對一些經典算法進行研究,分析這些方法的優缺點和局限性。對目前仍存在的一些問題進行分析并提出一些有前景的方向,相信本文提出的建議能夠對以后邊緣檢測的發展起到促進作用。

(1)弱監督、無監督學習。雖然目前深度學習中全監督學習占據主流地位,但是弱監督、無監督學習方法也是研究的熱門方向。目前已經有一些方法[81-82]用于邊緣檢測,這是值得肯定的。弱監督、無監督能大大減輕人工標注的壓力,從而降低研究成本。這些方法的研究非常有意義,值得付出更多的精力去探索。

(2)多線索、上下文語義信息、反向傳播和多特征融合。上下文語義信息在語義分割任務中得到廣泛的使用,提高了語義分割的各項性能指標;在圖像的亮度、顏色、梯度、紋理和對象特征中包含大量的邊緣信息,提取更全面的基礎特征能提高邊緣的檢測精度;反向傳播是邊緣檢測技術必不可少的一環,可以通過設計更好的上采樣方法,不僅能減少生成邊緣的損失,還可以提升最終邊緣圖的清晰度;特征融合已經被證明在邊緣檢測任務中是有利的,結合多尺度、圖像金字塔結構獲得更多特征并融合特征增強網絡提取邊緣的能力。使用Transformer[87]提取全局與局部上下文信息和特征融合技術未來仍然是熱門方法,如ENTER[83]。

(3)圖譜理論與圖神經網絡。傳統的邊緣檢測方法引入圖譜理論[27]將圖信號變換的變換為拉普拉斯矩陣,獲得全局特征,減少噪聲的影響并且提高了提取邊緣的流暢性。在圖神經網絡[88]中對拉普拉斯矩陣進行特征分解得到對應的特征值,特征值的大小表示圖信號的頻率。傳統邊緣檢測中,利用算子檢測鄰近像素差異,表示為梯度變化。圖神經網絡節點表示該節點受周圍鄰居節點的影響,結合信號域變換構建濾波器可以實現圖卷積操作。認為圖神經網絡結合多種方式應用到邊緣檢測中:①利用圖卷積網絡代替傳統算子提取梯度特征;②利用節點信息表示相鄰像素的相似性,引入圖注意力網絡賦予重要節點更大權重。

(4)語義分割和對象特征。圖像分割的任務是將圖像劃分成若干個互不相交的小區域的過程,邊緣檢測的任務是將亮度變化明顯的像素點識別為邊緣。這些不相交的邊緣在圖像中表示不同對象的分界線,其像素差異變化明顯,兩者關系密切。一些方法通過預先訓練圖像分割訓練集初始化參數,獲得一些輪廓特征,提高模型收斂速度和提取邊緣性能。也有一些方法通過使用對象分類模型,獲得對象特征提高檢測邊緣能力。將語義分割與目標檢測模型結合應用到邊緣檢測任務中,仍是值得研究的方向之一。

猜你喜歡
特征檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 91福利片| 日本亚洲成高清一区二区三区| 国产打屁股免费区网站| 亚洲国产成人精品无码区性色| 久久精品国产精品青草app| 国产微拍精品| 国产XXXX做受性欧美88| 黄色a一级视频| 毛片大全免费观看| 国产区免费精品视频| 日本高清免费不卡视频| 国产成年女人特黄特色大片免费| 国产自在线拍| 国产麻豆另类AV| 无码高潮喷水专区久久| 国产视频大全| 欧美亚洲一区二区三区导航| 欧美精品成人| 人妻中文久热无码丝袜| 男女男免费视频网站国产| 91在线播放免费不卡无毒| 幺女国产一级毛片| 欧美一级专区免费大片| 国产大片喷水在线在线视频 | 激情乱人伦| 欧美综合激情| 无码一区中文字幕| 日本成人福利视频| 国产免费自拍视频| 在线看国产精品| 久久国产av麻豆| 日韩AV无码一区| 伊人久久大香线蕉影院| 国产激爽大片在线播放| 日本国产一区在线观看| 欧美午夜视频在线| 色男人的天堂久久综合| www.国产福利| 色网站在线免费观看| 亚洲一级毛片| 人人澡人人爽欧美一区| 欧美国产在线看| 91精品国产丝袜| 无码日韩人妻精品久久蜜桃| 97se亚洲综合| 911亚洲精品| 国产亚洲精品97AA片在线播放| 国产精品太粉嫩高中在线观看| 成年人久久黄色网站| 暴力调教一区二区三区| 少妇被粗大的猛烈进出免费视频| A级全黄试看30分钟小视频| 四虎AV麻豆| 国产av一码二码三码无码 | 666精品国产精品亚洲| 乱人伦中文视频在线观看免费| 欧美一区精品| 三级视频中文字幕| 国产高清精品在线91| 亚洲免费毛片| 亚洲中文字幕在线一区播放| 国产欧美网站| 麻豆精品久久久久久久99蜜桃| 久久久国产精品无码专区| 2020国产精品视频| 婷婷色婷婷| 欧美啪啪网| 久久情精品国产品免费| 久青草免费视频| 91小视频在线| 亚洲人精品亚洲人成在线| 国产激情无码一区二区APP| 久久精品国产在热久久2019 | 免费国产黄线在线观看| 欧美一区二区人人喊爽| 国产免费久久精品99re丫丫一| 国产成人精品视频一区二区电影| 国产成人无码Av在线播放无广告| 青青青视频91在线 | 青青草原国产| 欧美亚洲一区二区三区导航| 国产精品尤物铁牛tv|