陳彥彤,李雨陽,呂石立,王俊生*
(1.大連海事大學 信息科學技術學院,遼寧 大連 116026; 2.交通運輸部 搜救中心,北京 100736)
近年來,隨著世界各國對原油需求量不斷增加,海洋石油運輸業迅速發展,但國內外海面溢油污染事故卻頻繁發生。例如2010年,大連新港一艘外籍油輪在卸油時,導致陸地輸油管線發生爆炸,事故造成50平方公里的海域被污染。2018年,桑吉輪與貨船在長江口發生碰撞[1],事故造成大量石油泄漏溢入東海,對海洋生態環境造成巨大危害。當海面溢油事故發生后,能否準確地檢測溢油區域位置和面積信息,對后續采取防治措施至關重要。因此,開展海面溢油監測對于海洋環境保護具有重要意義。
傳統的海面溢油監測手段為航拍或實地調查,但是這種方法需要投入大量的人力物力,導致成本高、操作難度大。而遙感衛星[2]可以不受國界領空的限制,長期且有效地監測海面溢油的情況,是目前海面溢油監測的最佳手段。目前基于遙感衛星的海面溢油監測通常使用星載合成孔徑雷達[3](Synthetic Aperture Radar, SAR),其具有覆蓋范圍廣、全天候的優勢,能夠有效監測海面溢油位置,但SAR圖像溢油監測的研究主要集中在探測溢油的有無,對油污面積計算較少。而可見光遙感圖像[4]具有分辨率高、顏色豐富等特征,可以有效估計溢油區域面積,這對海洋生態破壞評估、后續溢油治理起到至關重要的作用。
對于多源遙感圖像海面溢油監測主要采用圖像分割的方法,其中傳統的海面溢油分割方法有:(1)基于閾值分割的方法[5],原理是將圖像像素點分為若干類。這種方法實現簡單且計算量小,但易受海面噪聲以及圖像灰度分布不均的影響,導致分割準確度低;(2)基于邊緣信息的檢測方法[6],結合溢油區域的形狀特征以及邊緣信息,來獲取溢油候選區域;(3)基于語義分割[7-9]的檢測方法,它是將圖像中屬于相同類別的像素聚類為一個區域。可以將溢油區域與海面進行明確的分類,語義分割對圖像有更加細致的了解。用于語義分割的傳統分類方法有:(1)隨機決策森林(Random Decision Forests,RDF)[10],利用多棵樹對樣本進行訓練并預測的一種分類方法;(2)馬爾科夫隨機場(Markov Random Fields,MRF)[11],它是一種無向圖模型,為每個像素分配定義標記的問題;(3)條件隨機場(Condition Random Field,CRF)[12-13],表示的是給定一組輸入隨機變量X的條件下另一組輸出隨機變量Y的馬爾可夫隨機場。其中全連接條件隨機場(Fully Connected Condition Random Field,FCCRF)克服了傳統CRF漏掉細小結構的缺點。但是這些傳統方法的分類效果依然較差。
近年來,深度學習已經廣泛應用于計算機視覺領域[14],尤其在圖像分類方面獲得了突破性的成功。LONG J等人提出了全卷積網絡[15](Fully Convolutional Networks,FCN),應用于語義分割中,取得了較高的準確率。Deeplab[16-17]模型是由Google團隊提出的一種用于語義分割的辦法,利用空洞卷積準確調節分辨率,擴大感受野,降低計算量,并用空洞卷積金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模塊進行多尺度特征提取,得到全局和局部特征。最后用全連接條件隨機場,優化邊緣效果,解決了因為傳統深度卷積神經網絡[18-20](Deep Convolutional Neural Network, DCNN)中連續的池化和降采樣導致空間分辨率明顯下降的問題,近一步提升分割效果。但是Deeplab模型依然存在一些問題,例如:(1)先用深度卷積神經網絡進行粗分割,再利用全連接條件隨機場進行細分割,無法實現端對端的訓練,導致分類精度低;(2)對海面溢油區域的精細細節提取較差且耗時長。
針對以上問題以及多源遙感圖像的特點,本文以Deeplab模型為基礎,提出一種新的卷積神經網絡形式的多源遙感圖像海面溢油語義分割模型,用于監測海面溢油區域,該模型將CRF與深度卷積神經網絡相結合,利用高斯成對勢和平均場近似定理,建立條件隨機場形成遞歸神經網絡(Recurrent Neural Networks, RNN)[21],并將它作為神經網絡的一部分,獲得一個兼具卷積神經網絡特性和CRF特性的深層端對端網絡,將其命名為深度語義分割(Deep Semantic Segmentation,DSS)。利用該模型監測SAR以及可見光遙感圖像的海面溢油區域,并用可見光遙感圖像有效估計溢油面積。
Deeplab模型利用空洞卷積代替了標準的網絡卷積操作,通過擴大感受野、縮小步幅對特征圖采樣。它調整了卷積濾波器的感受野來捕捉多尺度的上下文信息,輸出不同分辨率的特征。對于一維卷積結構,輸出特征圖y的每個位置i,卷積濾波器w,輸入特征圖x,空洞卷積計算如公式(1)所示。二維卷積結構原理如圖1所示。

(1)

圖1 空洞卷積原理Fig.1 Principle of atrous convolution
首先Deeplab改進了Resnet架構,將Resnet的全連接層轉化為卷積層,最后兩個池化層去掉了下采樣,且后續卷積層的卷積核改為了空洞卷積,并對Resnet的權重進行微調,這樣網絡最后

圖2 ASPP模塊原理Fig.2 Principle of Atrous Spatial Pyramid Pooling(ASPP)
輸出的特征圖分辨率提高,感受野變大。然后進行多尺度提取,ASPP模塊如圖2所示,在給定的輸入特征圖上以r=(6,12,18,24)的3×3空洞卷積并行采樣,最后通過ASPP各個空洞卷積分支采樣后結果融合到一起,得到最終預測結果。實際上就是通過不同的空洞卷積來對圖像進行不同程度的縮放,從而獲得了更好的分割效果。最后使用全連接條件隨機場細化圖片。
基于多源遙感圖像的海面溢油區域普遍存在斑噪聲和強度不均的現象。其中SAR圖像中許多暗區域會被分類成溢油區域,可見光遙感圖像中海雜波等會對目標檢測產生影響。首先本文以Deeplab模型為基礎,輸入的圖像經過深層卷積神經網絡對其進行粗略地分割,然后將全連接條件隨機場看做循環神經網絡作為輸出,再次對圖像細分割,實現了深層卷積神經網絡與全連接條件隨機場端對端的連接,將DCNN與改進的全連接CRF模型優勢結合在一個統一的端對端框架中。其次,本文在ASPP模塊中加入了BN層,加快網格訓練速度。最后,改進了基于平均場近似定理的全連接條件隨機場算法,與DCNN端對端連接。
傳統的條件隨機場用于平滑噪聲,將鄰近結點耦合,這樣空間上接近的像素會被分配相同標記的標簽。但是目前的深度卷積神經網絡架構,得分圖通常非常平滑。在這種情況下,使用傳統的條件隨機場模型會漏掉細小結構,目標恢復詳細的局部結構。而全連接條件隨機場可以克服這個缺點,捕獲精細細節。首先將像素標簽建模為隨機變量,在全局觀測條件下形成馬爾科夫隨機場,設圖片為I,xi為像素i的標注,從標簽Li中取值,X為隨機變量x1,x2,…,xN產生的向量,I和x的關系可以建模為條件隨機場,如公式(2)所示:
(2)
由此可定義吉布斯分布如公式(3)所示。
(3)
(4)

根據公式(3),最小化吉布斯分布E(x)就可以得到標注結果,但是過程相對復雜且算法比較耗時,因而本文引入了平均場近似最大后驗分布進行推理[22]。Q(x)為條件隨機場P(x)的近似,它作為RNN重構。平均場近似推理迭代算法具體步驟如表1所示。
五四時期,民國初建,民主共和流于形式,政府頻繁更迭,軍閥篡權當道,社會愈加黑暗,中國的志士仁人繼續探索救國救民之道,以期拯救黎民百姓于水火,建立一個真正美好公平的社會。各種政黨、社團興起,西方思潮紛紛涌入,馬克思主義在政黨林立、主義紛紜的多元化意識形態格局中脫穎而出,闡釋著對于公平社會的解析及改造社會的主張。
表1 平均場近似推理迭代算法
Tab.1 Mean field approximate reasoning iterative algorithm

算法:平均場定理用于將CRF分解為常見的CNN操作Qi(l)←1ziexp(Ui(l)) for all i初始化While not converged doQ(m)(l)←∑j≠ik(m)(fi,fj)Qj(l) for all m消息傳遞ˇQi(l)←∑mw(m)Q(m)i(l)權值調整^Qi(l)←∑l′∈Lμ(l,l′)ˇQi(l)兼容性轉換ˇQi(l)←Ui(l)-^Qi(l)傳遞誤差微分Qi←1ziexp(ˇQi(l))歸一化End while

本文對平均場近似推理迭代算法的第2步和第3步進行了改進,原始的高斯核為2,考慮了x,y的位置向量和顏色向量,實際上顏色向量在DCNN層中決定了分類的先驗概率,所以可以不考慮顏色向量的高斯距離,僅考慮位置差異,這樣高斯核為1,距離越遠差異就越小。并用全圖距離權重網絡代替傳統的高斯核距離,將距離權重置于全圖卷積網絡中,該網絡的權值由訓練樣本得到。第2步和第3步概率轉移和權值調整合并變為新的算法,相當于卷積運算,如公式(5)所示:
(5)
其中:ai為距離權重,l為類別,Qj(l)為每個點的類別概率。

圖3 平均場近似推理算法迭代過程 Fig.3 Mean field approximation reasoning algorithm iterative process
該算法的迭代過程可表示為多個卷積神經網絡層,如圖3所示,fθ表示迭代帶來的變化。多層平均場迭代可以重復上述過程實現,每一次迭代都來源于之前迭代的結果,這就相當于將迭代平均場視為一個循環神經網絡,網絡方程如式(6)~式(8)所示,T為平均場的迭代次數,H1(t)初始值為DCNN歸一化的結果、H2(t)為一次CRF過程。Y(t)是第T次迭代的輸出,當未達到迭代次數T時則繼續迭代。當t=T時,輸出H2(t)為最終迭代結果。
(6)
H2(t)={fθ(U,H1(t),I),0≤t≤T,
(7)
(8)
通過上述改進,模型整體流程圖如圖4所示,首先輸入圖片經過Resnet網絡,將Con3_x與Con4_x的中間層改為空洞卷積,然后經過多尺度ASPP模塊,通過不同的空洞卷積速率Rate=(6,12,18,24)得到不同大小的特征圖。其次經過多尺度ASPP模塊,加入BN層后,它可以加快訓練速度,提高網絡的泛化能力。其中ASPP模塊的卷積神經網絡可視化如圖5所示。當感受野較小的時候,提取到的是圖像的細節特征。當感受野越來越大時,提取到的是圖像的抽象特征。然后經過雙線性插值輸出特征圖,提供了CRF的一元電位,直接以端到端連接到循環神經網絡中。最后,進入循環卷積神經網絡后,需要迭代t次才能離開循環,使用反向傳播算法和隨機梯度下降方法進行端到端的培訓,一旦離開循環,Softmax層進行網絡的終止,輸出分類結果。該算法統一了卷積神經網絡與CRF的優勢,形成了端對端的連接,并細化了分割邊緣。

圖4 DSS流程圖Fig.4 DSS flow chart

圖5 ASPP模塊的多尺度可視化結果Fig.5 Multi scale visualization results of ASPP
(9)
其中:power為參數,值為0.9,iter表示迭代次數,max_iter表示最大迭代次數。
本實驗包括了海面溢油區域的分類結果、mIOU計算與損失函數、時間對比分析以及溢油面積計算。
本實驗分別對比了遙感可見光圖像與SAR圖像的海面溢油分割情況,如下圖所示,對比方法分別為CRF-RNN,SPNet,以及本文所提方法。
圖6~圖8為可見光遙感圖像的海面溢油分割結果,可見光遙感圖像的油污與海水具有不同的表現。其中圖6(a)為原圖,可以看出圖中溢油區域較明顯,但存在海雜波的干擾。圖6(b)為CRF-RNN模型檢測結果,它只是用傳統的卷積神經網絡進行粗分割,并且未對平均場定理進行改進,結果將部分海雜波錯誤分類為溢油區域。圖6(c)的SPNet模型基本正確分類了溢油區域,但是精確度較差。本文所提出的方法檢測結果如圖6(d)所示,與圖6(b)相比,本文模型可以精確的分類出海雜波與溢油區域,捕獲了目標精細細節。圖7(a)的溢油區域較分散且不明顯,CRF-RNN模型只正確分類了艦船,本文所提出的方法如圖7(d)所示,由圖可知本文方法分類效果最好,由于實現了端對端的連接分割精度近一步提升。由圖8所示,CRF-RNN模型將艦船錯誤分類為溢油區域,SPNet模型與本文模型都正確分類了艦船與溢油區域,但是本文模型對目標的精細分割能力較強,獲得了良好的效果。

圖6 可見光遙感圖像海面溢油分割結果Fig.6 Optical remote sensing image oil spill segmentation results

圖7 可見光遙感圖像海面溢油分割結果Fig.7 Optical remote sensing image oil spill segmentation results

圖8 可見光遙感圖像海面溢油分割結果Fig.8 Optical remote sensing image oil spill segmentation results

圖9 SAR圖像海面溢油分割結果Fig.9 SAR image oil spill segmentation results

圖10 SAR圖像海面溢油分割結果Fig.10 SAR image oil spill segmentation results

圖11 SAR圖像海面溢油分割結果Fig.11 SAR image oil spill segmentation results
圖9~圖11為SAR圖像的海面溢油分類結果。在SAR圖像中,存在固有的相干斑噪聲且不同區域特性不均勻,導致分類難度增加,由3幅圖可知,CRF-RNN模型只能正確分類嚴重溢油區域,即圖像中顏色較深的部分。SPNet模型雖然正確分類了部分溢油區域但是對目標邊緣比較模糊,本文所提出的方法分割結果均優于前兩種模型。通過實驗分析,無論是可見光遙感圖像還是SAR圖像,本文所提出的方法均適用且分割效果好。
將本文模型在所建立的數據集上與其他先進模型進行對比,評價指標為mIOU,稱為平均交并比,是語義分割的標準度量,具體如公式(10)所示。對比結果如表2所示。mIOU值最低的為FCN-8s,由于卷積網絡的層數較少,從而導致結果較差。Deeplab模型的值為76.5,SPNet模型的值僅次于本文所提出的模型,達到了78.9,CRF-RNN模型mIOU值為71.8。本文方法與其他先進方法相比效果較好,mIOU達到82.1。
(10)
其中:k為類別,i表示真實值,j表示預測值,pij表示將類i預測為類j。

表2 不同模型mIOU對比Tab.2 Comparison of different models mIOU
端對端模型迭代次數對實驗的影響如表3,由表可知,當迭代次數達到5以上,mIOU提高的不是很明顯,考慮迭代次數多所占用的時間,所以本文選用迭代次數為T=5。

表3 迭代次數對模型的影響Tab.3 Effect of number of iterations on model
本文利用了交叉熵損失函數(Cross Entropy Cost Function,CECF)來計算損失,其定義如公式(11)所示。交叉熵表示真實概率分布與預測概率分布之間的差異,在深度學習中,真實分布已經確定,交叉熵值越小,表示模型預測效果越好。損失函數收斂曲線如圖12所示。
(11)
其中:p(xi)表示真實概率分布,q(xi)表示預測概率分布。

圖12 損失函數曲線Fig.12 Loss function curve
在建立的數據集上與其它先進方法的時間對比,如表4所示。由表可知Deeplab模型耗時最長為1.4 s,是因為沒有實現深度卷積神經網絡與全連接條件隨機場端對端的連接。耗時最短的模型為FCN-8s,而本文所提出的DSS模型耗時相對較短,基本與FCN-8s模型處于同一個數量級上且保證了檢測精度。

表4 不同模型耗時分析Tab.4 Time-consuming analysis of different models
海面溢油面積的計算可以為海面污染程度以及未來可能污染的程度提供依據,具有重要的意義。本文通過可見光遙感衛星的分辨率以及溢油區域的像素點數來估計溢油面積,由于可見光遙感圖像分辨率高,通常1 m分辨率是指一個像素表示地面大約1×1 m的面積,因此利用溢油區域像素的數量乘以衛星分辨率的平方,即可求出海面溢油區域面積,具體如公式(12)所示:
Sos≈Nos×R2,
(12)
其中:Sos為海面溢油區域面積,Nos為溢油區域像素點數,R為衛星的分辨率。本文可見光遙感圖像的溢油面積如表5所示。

表5 可見光遙感圖像溢油面積Tab.5 Oil spill area of visible remote sensing image
本文以深層卷積神經網絡為基礎,空洞卷積代替最大池化層,并與全連接條件隨機場實現端對端的連接,獲得一個既有卷積神經網絡特性又具有條件隨機場特性的深層網絡。克服了衛星圖像對海面溢油監測的分類較差的問題,提升了捕獲目標精細細節的能力。通過SAR和可見光遙感圖像對海面溢油區域進行監測,在本文所建立的數據集上mIOU值達到了82.1,對于遙感圖像的分類效果均較好。并且利用可見光遙感圖像高分辨率的特點,有效估計了溢油區域的面積,對海洋環境修復及查看海面污染程度具有重要的意義。
本文是以弱監督學習為基礎的訓練模型,網絡的訓練依賴大量的標記圖像,這就需要大量的人力且會受到人為主觀因素的影響。因此,未來的研究重點會轉向非監督學習,提高算法的便利與可行性。