文莉莉,孫苗,鄔滿
(1.廣西壯族自治區(qū)藥用植物園 信息產(chǎn)業(yè)辦公室,廣西 南寧 530023;2.自然資源部 海洋信息技術(shù)創(chuàng)新中心,天津 300171;3.國家海洋信息中心,天津 300171;4.廣西壯族自治區(qū)海洋研究院,廣西 南寧 530022;5.廣西大學(xué) 電氣工程學(xué)院,廣西 南寧 530004;6.南寧師范大學(xué) 北部灣人工智能應(yīng)技術(shù)研究院,廣西 南寧 530001)
隨著中國經(jīng)濟(jì)社會的高速發(fā)展,沿海地區(qū)對于海洋資源的開發(fā)力度持續(xù)加大,中國海洋管理面臨著越來越嚴(yán)峻的挑戰(zhàn),受開發(fā)理念(重開發(fā)輕治理)、開發(fā)方式(粗放式開發(fā)為主)、監(jiān)管困難及利益驅(qū)動等多方面的影響,中國沿海違規(guī)開發(fā)(偷填、超填、閑置)、隨意圍墾、盜采海砂,以及非法挖礦采石、破壞紅樹林等生態(tài)環(huán)境、偷排與傾倒垃圾等行為頻發(fā),使中國的海洋資源與生態(tài)環(huán)境遭到嚴(yán)重破壞。
目前,常用的海洋監(jiān)管與執(zhí)法方式主要依賴于執(zhí)法船巡邏、群眾舉報、雷達(dá)監(jiān)測,前兩者成本高、效率低,且具有嚴(yán)重的滯后性和較高的漏檢率;后者則建設(shè)、維護(hù)成本巨大,且只能監(jiān)測近岸半徑約20公里區(qū)域。雖然近年來衛(wèi)星遙感與無人機(jī)的廣泛使用促進(jìn)了監(jiān)管手段的升級,但是對海量的影像數(shù)據(jù)進(jìn)行人工審核仍然是一項十分艱巨的工作。因此,采用目標(biāo)檢測方法實現(xiàn)從海量影像數(shù)據(jù)中自動提取海洋目標(biāo)信息,對于建立大范圍、智能、快速的海洋監(jiān)管機(jī)制具有十分重要的意義。
目前,基于人工智能技術(shù)的目標(biāo)檢測技術(shù)已在多個領(lǐng)域得到了較好的應(yīng)用。然而,將人工智能技術(shù)用于海上目標(biāo)檢測方面的研究和應(yīng)用還相對較少。主要原因包括:1)樣本集建立困難,目前尚無公開可用的海上目標(biāo)檢測數(shù)據(jù)集;2)傳統(tǒng)的目標(biāo)檢測方法大多需要人為設(shè)定目標(biāo)的特征,工作量大且難以選取出最優(yōu)特征;3)海洋目標(biāo)圖像場景復(fù)雜,具有多尺度、多樣性、形狀多變等特點,目前常用的圖像特征提取方法,如HOG(histogram of oriented gradient) + SVM(support vector machine)、DPM (deformable parts model)等,對光照、形態(tài)變化、遮擋等魯棒性不強[1],難以滿足復(fù)雜多變的海洋目標(biāo)檢測需求。近年來,深度學(xué)習(xí)技術(shù)在目標(biāo)檢測領(lǐng)域取得了較大成功,這為實現(xiàn)多尺度的復(fù)雜海洋目標(biāo)檢測提供了一種新的解決方案。
因此,國內(nèi)外學(xué)者開始研究基于深度學(xué)習(xí)模型的海洋目標(biāo)檢測方法,如袁明新等[2]提出一種基于深度學(xué)習(xí)的海上艦船目標(biāo)檢測方法,該方法利用卷積神經(jīng)網(wǎng)絡(luò)、區(qū)域建議網(wǎng)絡(luò)及Fast R-CNN檢測框架構(gòu)建了艦船檢測系統(tǒng),相比于傳統(tǒng)機(jī)器學(xué)習(xí)目標(biāo)檢測模型,該艦船檢測系統(tǒng)在檢測精度及速率上均有大幅提高。但是,該方法只嘗試了針對艦船這種特別明顯的目標(biāo)識別,并未對多尺度多類型的其他海上目標(biāo)(蠔排、紅樹林、海岸線、養(yǎng)殖池塘等)進(jìn)行識別,也未對識別后的目標(biāo)進(jìn)行行為活動分析。
本研究中,依托自有的無人機(jī)高清影像及91衛(wèi)圖助手影像等基礎(chǔ)數(shù)據(jù),以Faster R-CNN模型為技術(shù)框架,引入視覺注意力機(jī)制,改進(jìn)模型結(jié)構(gòu),使模型具有更強的復(fù)雜特征提取能力與魯棒性,實現(xiàn)對復(fù)雜海洋目標(biāo)的檢測與識別,并建立智能識別模型,以期用于海上目標(biāo)的智能識別、非法用海占海與破壞生態(tài)環(huán)境行為的自動判斷與預(yù)警。
為了增強卷積網(wǎng)絡(luò)的特征提取能力,越來越多的研究人員將神經(jīng)學(xué)的視覺注意力機(jī)制引入到深度學(xué)習(xí)模型中[3]。一般通過三大注意力域來研究軟注意力機(jī)制的網(wǎng)絡(luò)模型結(jié)構(gòu),即空間域、通道域和混合域[4]。通道域是相當(dāng)于在每個channel的信號上增加一個權(quán)重,用來代表此channel與關(guān)鍵信息的相關(guān)度,權(quán)重越大則相關(guān)性越高[5]。SENet(squeeze-and-excitation networks)是2017年ImageNet分類比賽的冠軍模型,也是通道域的代表網(wǎng)絡(luò)模型[6]。SKNet(selective kernel networks) 出自2019CVPR的一篇論文,是SENet的加強版[7]。SENet與SKNet在注意力機(jī)制中處于同等地位,均可方便地融入Faster R-CNN模型中,對分類問題中的特征提取能力有一定提升[8]。
將原圖經(jīng)過一系列的conv、pooling操作,得到一個C×H×W(C表示channel,H表示height,W表示width)大小的feature map。SENet模型是對feature map的通道注意力機(jī)制的實現(xiàn),而SKNet模型則是針對卷積核的注意力機(jī)制的實現(xiàn)[9]。不同大小的目標(biāo)會對不同大小的卷積核敏感程度不同[10]。因此,SKNet試圖針對不同的圖像找到最合適尺度的卷積核,即對不同的圖像動態(tài)生成卷積核。其本質(zhì)就是在網(wǎng)絡(luò)中使用多尺寸的卷積核[11],與Inception網(wǎng)絡(luò)中的多尺度不同,SKNet是讓網(wǎng)絡(luò)自己選擇合適的尺度[12]。SKNet結(jié)構(gòu)如圖1所示,其主要包括3部分操作:

圖1 SKNet模型結(jié)構(gòu)
1)Split處理。對輸入的feature map使用兩個大小不一樣的卷積核進(jìn)行g(shù)roup convolution(efficient grouped、depthwise convolutions、batch normalization、ReLU function)等操作,以提升精度。
2)Fuse處理。通過Split處理分成兩個分支以后,再將結(jié)果進(jìn)行融合,然后經(jīng)過Sequeeze和Excitation模塊處理。
3)Select操作。利用兩個softmax將上一步的結(jié)果回歸出channel間的權(quán)重信息,然后將兩個權(quán)重矩陣對兩路進(jìn)行加權(quán)處理,再求和得出輸出向量。因SKNetl采用不同的卷積核,可以自適應(yīng)地調(diào)整自身的感受野,故比SENet具有更高的精度。
Faster R-CNN模型是Girshick R在2015年提出的一個經(jīng)典的目標(biāo)檢測模型[13],它用網(wǎng)絡(luò)訓(xùn)練的方法實現(xiàn)目標(biāo)提取,在一個網(wǎng)絡(luò)中整合了特征抽取、proposal提取、邊框回歸、分類等操作,極大地提高了目標(biāo)檢測、分類的效率和性能[14]。傳統(tǒng)的目標(biāo)檢測模型是用Selective search方法提取候選框,該方法十分耗時,難以滿足高效、實時檢測的應(yīng)用需求[15]。因此,F(xiàn)aster R-CNN中引入了RPN(region proposal networks,區(qū)域候選網(wǎng)絡(luò))的概念,專門用于提取目標(biāo)候選框[16]。RPN方法檢測速度快,相對耗時少,且易于整合到Fast R-CNN模型中,故而Faster R-CNN = RPN + Fast R-CNN[17]。該模型在現(xiàn)在的目標(biāo)檢測系統(tǒng)中得到了廣泛應(yīng)用。
Faster R-CNN模型結(jié)構(gòu)如圖2所示,其主要包括6個步驟:1)通過卷積和池化操作,提取圖像特征;2)用RPN提取目標(biāo)候選區(qū)域;3)經(jīng)過后處理,確定更精確的位置;4)建立候選區(qū)域與特征圖的映射關(guān)系;5)根據(jù)前面確定的精確位置,從特征圖中摳出用于分類的目標(biāo)數(shù)據(jù),并池化成固定長度的數(shù)據(jù);6)利用softmax函數(shù)獲取最終分類并獲取最終的目標(biāo)檢測框位置。

圖2 Faster R-CNN模型整體結(jié)構(gòu)
RPN的作用是對要處理的圖片區(qū)域進(jìn)行預(yù)處理,以減少后續(xù)的計算量,主要包括兩部分操作:1)RPN classification,對feature map進(jìn)行區(qū)域分割,并從中分辨出前景和背景區(qū)域;2)RPN bounding box regression,提取前景區(qū)域的大概位置坐標(biāo)。RPN訓(xùn)練時需要將兩部分的loss加起來。
在海域監(jiān)管中通常關(guān)注的海洋目標(biāo)有紅樹林、船舶、養(yǎng)殖池塘、蠔排、挖掘機(jī)、養(yǎng)殖網(wǎng)箱、圍填海項目等,這些目標(biāo)具有以下幾個方面特點:1)多尺度,如塑料瓶、塑料袋等海洋垃圾類小目標(biāo),以及紅樹林、養(yǎng)殖池塘等海域利用大目標(biāo);2)多樣化,包括單純的個體目標(biāo)(如漁船)、復(fù)雜的集群目標(biāo)(如蠔排)、不確定的對象(如挖掘機(jī))及復(fù)雜的對象行為分析(如挖掘機(jī)施工、采砂船采砂等);3)背景場景復(fù)雜,如背景可能是海面、灘涂、海堤、碼頭、樹林、圍填海施工現(xiàn)場等,且干擾目標(biāo)多;4)時空關(guān)系復(fù)雜,如多目標(biāo)間的位置關(guān)系復(fù)雜、多張連續(xù)圖像間的位置相關(guān)聯(lián)。
此外,這些目標(biāo)根據(jù)其周邊環(huán)境存在一定的不確定性:1)對象的不確定性,如漁船與采砂船外觀相近,需結(jié)合其他特征來區(qū)分(如船運動軌跡上是否存在大量泥沙的痕跡);2)行為的不確定性,在海邊發(fā)現(xiàn)有挖掘機(jī)或貨車,不能確定其是否是在進(jìn)行圍填海施工活動,或者漁船在海上作業(yè)是否違法需結(jié)合禁漁期的時間設(shè)定。因此,找出一種適合復(fù)雜海洋場景識別和海洋目標(biāo)提取的模型對海域自動監(jiān)管的實現(xiàn)具有極大的現(xiàn)實意義。
由于本研究中是針對基于遙感影像的海域自動監(jiān)管需求,不同于對視頻流的實時識別,對計算速度要求相對較低,但對檢測率和準(zhǔn)確率的要求則較高,因此,本研究中選定綜合性能(檢測率、準(zhǔn)確率、計算速度)較好的Faster R-CNN模型作為基礎(chǔ)網(wǎng)絡(luò)模型框架。此外,F(xiàn)aster R-CNN模型具有較好的適配性,為其搭配不同的特征提取網(wǎng)絡(luò),其目標(biāo)檢測能力也不同,一個復(fù)雜強大的特征提取網(wǎng)絡(luò)能大幅提升Faster R-CNN的檢測能力和精度。
Faster R-CNN模型具有較好的檢測精度和速度,但其對目標(biāo)的邊界定位不夠精確,且當(dāng)原圖和特征圖較大時,不利于候選區(qū)域的尋找。本研究中在用Faster R-CNN模型進(jìn)行特征提取的時候,引入SKNet注意力機(jī)制,主要基于兩點考慮:一是可以對每次不同區(qū)域提取的特征加以權(quán)重區(qū)分,即在特征提取的時候標(biāo)注好每個區(qū)域的貢獻(xiàn)度,更好地利用待檢測目標(biāo)周邊的上下文信息;二是SKNet的本質(zhì)就是在網(wǎng)絡(luò)中使用多尺寸的卷積核,具有尺度自適應(yīng)能力,可以更好地適應(yīng)多尺度海洋目標(biāo)的檢測,實現(xiàn)一個模型對多個不同尺度(尺度跨度大)目標(biāo)的準(zhǔn)確檢測,增強模型的穩(wěn)定性。
改進(jìn)后的Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)主要包括3部分,即基于SKNet的特征提取網(wǎng)絡(luò)、RPN和Fast R-CNN(圖3)。本研究中使用ResNet101和SKNet相結(jié)合的方式進(jìn)行圖像特征提取,在每個ResNet101卷積模塊后加上一個SKNet處理,得到表達(dá)能力更強的feature map。其主要處理流程如下:

圖3 改進(jìn)后的Faster R-CNN網(wǎng)絡(luò)模型結(jié)構(gòu)圖
1)對輸入數(shù)據(jù)進(jìn)行卷積處理,得到初步的feature map。
2)對卷積層處理后的feature map分別用3×3、5×5、7×7的卷積核進(jìn)行卷積操作,得到輸出U1、U2、U3。
3)用element-wise summation來融合3個分支的結(jié)果,即U=U1+U2+U3,其中,U為一個C×H×W大小且融合了多個感受野信息的feature map。然后通過對H、W維度方向求平均值,得到一個C×1×1大小的向量,表示的是每個channel的重要程度。
channel-wise的統(tǒng)計信息用s(s∈RC)表示,sc表示s的第c個元素,其計算公式為
對C×1×1的向量用full connection層進(jìn)行一個線性變換,得到一個Z×1×1的信息z,然后分別使用3個線性變換,又從Z維恢復(fù)到C維向量,提取每個channel維度的信息。z的計算公式為
z=Ffc(s)=δ(B(Ws)) 。
(2)
其中:z∈Rd×1;δ為ReLU函數(shù);B為批量標(biāo)準(zhǔn)化;W∈Rd×C,d=max(C/r,L),r為reduction ratio,L為d的最小值;Ffc為對矩陣做全連接操作。
4)使用softmax進(jìn)行歸一化處理,得到表示每個channel重要程度的對應(yīng)分?jǐn)?shù),然后再分別乘以對應(yīng)的U1、U2、U3,得到A1、A2、A3。再將3個模塊相加進(jìn)行融合得到Y(jié),Y相對于U經(jīng)過了信息提煉,且融合了多個感受野信息。設(shè)a、b、c為Select的3個權(quán)重矩陣,A、B∈RC×d,Ai表示A的第i行,ai是a的第i個元素,Bi、bi與Ai、ai同理,且ai+bi+ci=1,最終的特征映射Y計算公式為
Yi=ai×A1+bi×A2+ci×A3,
(3)
5)將A作為輸入再進(jìn)行卷積層處理,然后再進(jìn)行SKNet處理,如此循環(huán)N次。
6)將最終得到的feature map作為輸入傳到RPN網(wǎng)絡(luò)中進(jìn)行處理。RPN將feature map經(jīng)sliding window處理,最后得到建議的候選位置信息。
7)將候選位置信息與feature map建立映射關(guān)系,并從中獲取用于分類的目標(biāo)數(shù)據(jù),最終得到分類信息與精確的位置信息。
基于遙感影像的復(fù)雜海洋目標(biāo)識別是指利用深度學(xué)習(xí)技術(shù),建立海洋目標(biāo)智能識別網(wǎng)絡(luò)模型,自動過濾掉圖像中無用的或干擾的信息,實現(xiàn)各類海上目標(biāo)的自動檢測與識別,為海洋管理與執(zhí)法提供一種快速、高效、低成本的技術(shù)手段。針對這些應(yīng)用需求,本文引入了SKNet對Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),改進(jìn)后的網(wǎng)絡(luò)模型主要包括3部分:1)特征提取,通過卷積核和SKNet的多重組合,進(jìn)行圖像特征提取,得到feature map,其中卷積網(wǎng)絡(luò)模型常用的有VGG16、ResNet、IncRes V2等,本研究中采用ResNet101網(wǎng)絡(luò);2)RPN檢測,通過RPN網(wǎng)絡(luò)處理,得到推薦目標(biāo)候選區(qū)域;3)Fast R-CNN目標(biāo)檢測與分類,對候選區(qū)域?qū)?yīng)的feature map數(shù)據(jù)進(jìn)行提取、處理,獲取目標(biāo)分類結(jié)果及更準(zhǔn)確的位置信息。本研究中改進(jìn)的Faster R-CNN模型比原模型增加了計算量。
改進(jìn)的網(wǎng)絡(luò)模型在海洋監(jiān)測中的應(yīng)用主要包括兩部分內(nèi)容。
1)遙感影像人工智能海上目標(biāo)及活動識別。利用高分辨率衛(wèi)星遙感影像,通過深度學(xué)習(xí)網(wǎng)絡(luò)模型及圖像處理方法,自動識別提取海上目標(biāo)及用海占海行為,如養(yǎng)殖蠔排、養(yǎng)殖網(wǎng)箱、采砂船等目標(biāo),以及圍填海、排污、溢油、垃圾傾倒等行為,以確定其用海類型。
基于改進(jìn)Faster R-CNN模型的遙感影像海上目標(biāo)識別方法,具體步驟如下:(1)收集高分辨率衛(wèi)星、無人機(jī)遙感影像數(shù)據(jù),針對典型的海洋目標(biāo)(船舶、蠔排、紅樹林、岸線)建立圖像樣本庫;(2)通過任意角度旋轉(zhuǎn)、隨意裁剪、加噪聲等方法,擴(kuò)充樣本量較少的樣本庫;(3)建立樣本類型對應(yīng)的數(shù)據(jù)標(biāo)簽;(4)設(shè)計基于改進(jìn)Faster R-CNN的網(wǎng)絡(luò)模型,利用SKNet+RPN實現(xiàn)對目標(biāo)候選區(qū)域的選取,并用卷積神經(jīng)網(wǎng)絡(luò)對樣本庫進(jìn)行識別訓(xùn)練,得到識別模型;(5)用未參與訓(xùn)練的樣本隨機(jī)對識別模型進(jìn)行測試;(6)增加網(wǎng)絡(luò)層數(shù)和樣本數(shù)量,優(yōu)化識別模型。Faster R-CNN中的RPN目標(biāo)候選區(qū)域選取如圖4所示。

圖4 海洋目標(biāo)RPN檢測示意圖
2)識別結(jié)果與基礎(chǔ)數(shù)據(jù)的比對分析,用海行為的合法性判斷。將識別結(jié)果、用海行為與該區(qū)域的信息綜合體進(jìn)行融合分析;對海洋災(zāi)害、資源盜采及生態(tài)破壞情況進(jìn)行預(yù)警,對疑似非法用海占海行為進(jìn)行取證、記錄,提交給海洋管理執(zhí)法部門進(jìn)行調(diào)查處理,并建立起“基礎(chǔ)信息全覆蓋、動態(tài)監(jiān)管全海域、業(yè)務(wù)運行全行業(yè)、決策評價全方位”的立體監(jiān)控體系。
本次試驗基于百度的PaddlePaddle深度學(xué)習(xí)框架,IDE工具采用pycharm,系統(tǒng)環(huán)境為Windows 10。利用自然資源部發(fā)布的衛(wèi)星遙感影像、大疆精靈4航飛的無人機(jī)高清影像(本單位已積累大量的無人機(jī)海域高清影像)及91衛(wèi)圖助手專業(yè)版提供的影像,進(jìn)行截圖獲取海洋目標(biāo)樣本,每張圖像分辨率為800×800像素,共建立訓(xùn)練樣本庫8 000張,其中,各類目標(biāo)(船舶、蠔排、紅樹林、岸線)2 000張,測試樣本庫4 000張。數(shù)據(jù)分布如表1所示。

表1 不同類別海洋目標(biāo)數(shù)據(jù)統(tǒng)計
由于數(shù)據(jù)集的像素維度各不相同,需要進(jìn)一步處理并對圖像進(jìn)行變換。本研究中先對圖像進(jìn)行crop修剪操作,輸出img的維度為(3,800,800);然后將img數(shù)組進(jìn)行歸一化處理,得到0到1間的數(shù)值。每個類別的樣本圖片均單獨存放在一個文件夾下。
針對歸一化后的數(shù)據(jù),設(shè)計深度學(xué)習(xí)的網(wǎng)絡(luò)模型,用于樣本訓(xùn)練與測試。本試驗中采取兩組對比試驗,將原模型和改進(jìn)后的模型在同等條件(同樣的樣本庫、同樣的網(wǎng)絡(luò)參數(shù))下進(jìn)行對比測試。根據(jù)經(jīng)驗值和調(diào)整模型設(shè)置參數(shù),本試驗中訓(xùn)練輪數(shù)為100,每批取樣本數(shù)為32(根據(jù)內(nèi)存大小設(shè)置,本試驗機(jī)器內(nèi)存為16 GB)。在設(shè)置學(xué)習(xí)率時,由于學(xué)習(xí)率較大時收斂會較快,因此,為了能快速找到收斂區(qū)間,學(xué)習(xí)率剛開始設(shè)置為0.01,但在接近收斂區(qū)間時,大的學(xué)習(xí)率會導(dǎo)致校驗誤差在一定范圍內(nèi)振蕩,此時再將學(xué)習(xí)率調(diào)整到0.002 5,有助于進(jìn)一步縮小收斂區(qū)間并降低誤差限。
由訓(xùn)練效果可知,新模型的收斂更快、整體穩(wěn)定性更好,為了對比模型的改進(jìn)效果,本試驗中將用同樣的訓(xùn)練和測試數(shù)據(jù)集,對改進(jìn)的Faster R-CNN模型與原Faster R-CNN模型進(jìn)行對比測試,兩者提取特征的卷積神經(jīng)網(wǎng)絡(luò)均用ResNet101網(wǎng)絡(luò)模型,另外還針對每類海洋目標(biāo)分別進(jìn)行了測試。每次測試均按需求從測試庫隨機(jī)抽取1 000張圖片,總體測試結(jié)果如表2、表3所示。

表2 對比測試結(jié)果

表3 改進(jìn)后模型分類測試結(jié)果
由測試結(jié)果可知,在同樣的訓(xùn)練及測試條件下,改進(jìn)后的Faster R-CNN模型雖然增加了計算量,檢測耗時也有所增加,但均在可接受范圍內(nèi),識別準(zhǔn)確率有明顯提升,整體識別準(zhǔn)確率達(dá)到87%左右。在4類海洋目標(biāo)分類測試中,船舶的特征最為明顯,因此,識別準(zhǔn)確率最高;紅樹林的特征最為復(fù)雜,其對圖像分辨率要求較高,本研究中使用的圖像分辨率較低,所以識別準(zhǔn)確率相對較低??傮w而言,模型具備實際應(yīng)用的穩(wěn)定性。但是針對海洋目標(biāo)違法行為的判定,還需要結(jié)合涉海規(guī)劃數(shù)據(jù)及目標(biāo)的類型、位置及周邊環(huán)境信息等進(jìn)行綜合判斷。識別效果如圖5所示。

圖5 海洋目標(biāo)RPN檢測示意圖
1)通過引入SKNet網(wǎng)絡(luò)模型,改進(jìn)了Faster R-CNN網(wǎng)絡(luò)模型的結(jié)構(gòu),改進(jìn)后的模型與原模型相比,增強了模型針對復(fù)雜場景圖像特征的提取能力,更適用于復(fù)雜海洋目標(biāo)的提取與識別。
2)改進(jìn)后的模型總體識別準(zhǔn)確率有了明顯提升,具有更強的穩(wěn)定性。該模型可用于海量海洋影像中海洋目標(biāo)的快速提取與預(yù)判,下一步應(yīng)結(jié)合涉海規(guī)劃數(shù)據(jù)、海域利用現(xiàn)狀數(shù)據(jù)等,綜合對海洋目標(biāo)及其海上活動進(jìn)行自動識別、判斷與預(yù)警,可大幅提高海洋監(jiān)管能力與效率。