劉偉 王源楠 江山 馬天 肖維



摘要:為及時發現并處理水面漂浮物,提高河湖監管水平,提出了一種基于Mask R-CNN模型的水面漂浮物識別方法。設計了一套漂浮物標簽分類規則,建立起河湖領域真實數據樣本集,然后構建以抓圖服務、AI分析和預警平臺為核心模塊的水面漂浮物識別方案。對比研究了基于Mask R-CNN模型與基于HOG特征的漂浮物識別方法,并采用不同特征提取網絡進行試驗。結果表明:所提出的方法顯著優于傳統的HOG特征方法,平均準確率提高16%,平均召回率提高13.8%;且基于ResNet的方法對于不規則漂浮物的識別能力更強。新方法成功應用于河湖監管系統,對常見目標的識別準確率達90%以上。
關鍵詞:水面漂浮物識別; Mask R-CNN; 深度學習; ResNet
中圖法分類號: TP391
文獻標志碼: A
DOI:10.16232/j.cnki.1001-4179.2021.11.037
0引 言
隨著社會經濟的發展,人們的生活越來越便捷,但環境保護意識還相對較弱。水環境作為人類賴以生存的重要保障也遭到破壞,突出表現在水面垃圾等漂浮物成為屢見不鮮的現象。水面漂浮物不僅影響美觀,更導致水污染、魚類死亡等各類問題,相關管理部門對其也越來越重視,及時發現并處理水面的垃圾漂浮物成為一項任務。依靠人工巡查來發現漂浮物的效率極低,迫切需要智能技術及時發現并預警。此外,隨著“金山銀山就是綠水青山”論斷的提出,政府部門也逐步提高了對水環境治理的認識,水利部在智慧水利總體方案中也提出了利用智能視頻分析技術發現和識別水面漂浮物的技術路線。
在視頻監控方面,隨著???、大華等國內廠商持續加大研發,視頻監控技術取得了長足的發展。視頻攝像頭的分辨率可以達到500萬像素(4K標準),云臺控制、視頻傳輸、視頻集成的技術也十分成熟,價格較為親民。目前水利及相關行業在河道、湖泊、水庫、渠道等附近已經建設了大量的攝像頭,為分析水面垃圾漂浮提供了數據支撐。另外,深度學習算法給目標檢測技術帶來了劃時代的進步,相對于傳統的背景差分、光流法等技術取得了顯著的進步,給水面垃圾漂浮物識別提供了技術支撐。
1研究現狀
傳統目標檢測算法一般基于圖像特征和級聯分類的算法,在運動目標檢測方面,有背景差分法、幀差法、光流法等。Navneet等首次提出以計算和統計圖像局部區域的梯度方向直方圖作為圖像特征,即HOG特征[1],此方法作為經典的人工設計特征而廣泛運用于圖像檢測領域[2]。王敏等[3]針對靜態水面的特性,提出了一種水上物體檢測分割算法,以水面具有較低飽和度的特征對水面區域進行提取,在此基礎上運用浮雕處理凸顯水面區域的邊緣灰度,利用區域一致性進行邊緣檢測分割出水面和水上物體,最后提取出目標物體的中心位置。但其不足也很明顯,由于采用的圖像相對簡單,對于噪聲污染以及水面存在波浪、陽光反射等問題時表現不穩定。
基于深度學習的檢測算法對圖像噪聲表現出了較強的魯棒性,主要分為兩類:二階段的目標檢測算法和一階段的目標檢測算法。前者是先由算法生成一系列作為樣本的候選框,再通過卷積神經網絡進行樣本分類;后者則不用產生候選框,直接將目標邊框定位的問題轉化為回歸問題處理。正是由于兩種方法的差異,在性能上也有不同,前者在檢測準確率和定位精度上占優,后者在算法速度上占優。二階段算法的代表就是FasterR-CNN[4],MaskR-CNN[5],一階段的算法的代表有SSD[6]、YOLOv1-v4[7-10]系列。
具體到水面漂浮物識別研究,國內外對此研究不多。國外因為人口密度低、水環境保護較好,這方面需求不多。國內有相關的一些研究,但總體偏少,主要原因是對水面漂浮物素材的采集十分不易,需到野外長期觀察和收集,耗費人力物力和時間較多。
李寧等[11]以塑料袋和塑料瓶為素材,訓練AlexNet網絡結構,利用梯度下降法對網絡進行了微調,并融合光照矯正法對待識別圖像進行預處理,最終對水面漂浮物的識別準確率比基于HOG特征的方法提高了15%。李昌龍[12]以接入一個攝像機的圖像為素材,基于R-CNN網絡進行網絡訓練,采用直方圖均衡化與對數變換對圖像進行預處理,并提出了智能識別流程,在其測試集上達到了96%的準確率。鄧磊等[13]為垃圾打撈設備提供視覺支持,采用了slic方法對圖像進行預處理,然后提取邊緣、紋理、灰度特征,利用BP神經網絡進行訓練,在實踐中取得較好的識別效果。雷李義等[14]以自己拍攝的廣西大學湖面垃圾照片為素材,提出了一個關于水面漂浮物的小型數據集,并分析了幾種目標檢測模型在數據集上的表現,Faster R-CNN,R-FCN和SSD。SSD目標檢測模型有著更高的精確度,Faster R-CNN 模型則能給出更詳細的預測,而同時擁有豐富結構特征和相當深度特征的模型對于困難目標有著更好的表現。Zhang等[15]基于Faster R-CNN將模型劃分為兩個模塊,分別融合低層和高層特征,在13FPS的速度下,MAP達到83.7%。
綜上所述,由于水面漂浮物的識別對準確率和定位精度要求較高,本文采用二階段的算法。
2方法理論
2.1數據集
近幾年隨著深度學習的飛速發展,神經網絡的層數不斷增加。相較于傳統模型,深度學習模型的表達能力越來越強,但同時也越容易犧牲對未知數據的泛化能力,而專注于解釋或記憶訓練數據,也就是出現所謂的過擬合現象。彌補這一缺陷的有效手段之一就是采用高質量、大規模的數據集進行訓練。
本文從湖北省荊州市、武漢市江夏區、重慶市石柱縣等真實監控場景中,抓拍河流、湖泊的照片,篩選出包含漂浮物的圖片12 782張,整理成數據集。大型公開數據集ImageNet在組織1 400萬圖片時,采用27個大類,21 841個小類[16]。李寧等[11]整理數據集僅包含常見的塑料袋和塑料瓶兩類,雷李義等[14]則主要對水面及岸邊植物細分為四小類。結合通用數據集分類方法及水面漂浮物的常見類型,并兼顧后續新數據的不斷并入,本文按兩級標簽對漂浮物類別進行分類,如表1所列。
本數據集共分成20大類,42小類,大類表示范圍包含了小類。由于人、車、船等目標在河湖監控視頻中經常出現,為了更有效地訓練模型,把這些目標也納入到漂浮物分類表中,并且進行單獨分類。大類對應一級標簽,小類對應二級標簽。一級標簽按照漂浮物對象劃分,二級按照材質來區分,沒有材質區分的一級,不細分二級,二級標簽同一級標簽。部分漂浮物由于數量太少,或者不典型,統一劃分到“其他”中。隨著漂浮服務數據量的積累,不屬于以上分類的漂浮物,統一放到其他中,當“其他”類別中某一類漂浮物的數量達到100個,則考慮增加標簽類別。如果能劃分到表1中的一級標簽下,則給該類別新增一個二級標簽。如果無法劃分到一級標簽下,則新增一級標簽,標簽序號在“42”之后繼續排序,這樣不改變之前已有的標簽序號,可以不用修改標注直接兼容新類別,一起參與訓練,便于模型識別能力的不斷擴充。
對于收集到的圖片,統一進行白化、降噪,盡可能提高圖片質量。本文使用開源的標注工具CVAT對數據集進行標注,標簽采用“一級標簽_二級標簽“的組合形式,標注示例如圖1所示。
標注策略采用“人工+模型”預標注方式,前期以人工標注為主,標注一定量的數據之后,開始訓練模型,使模型具備一定的識別能力,然后轉為以模型標注為主,人工標注為輔,數據集中的圖片樣本均先使用模型進行預標注,然后進行人工的確認。以此節約人工耗時,提高標注效率。
2.2網絡模型
Mask R-CNN[5]是Facebook AI Research(FAIR)于2018年提出的,繼承了之前所有R-CNN系列網絡的優點,并在Faster R-CNN[4]的基礎上加入了語義分割功能。相比傳統網絡VGG16[17],MaskR-CNN使用了ResNet[18]基礎網絡結構,使其能在更深的網絡層里提取有效的特征,所以提升了識別不規則或者是傳統網絡難以擬合的物體特征的概率。并且因為語義分割功能提取的是ROI網絡卷積層的結果,加以拓展得到物體輪廓,所以在計算效率上與FasterR-CNN保持幾乎不變。網絡流程大概可分為4步,如圖2所示。
首先,圖片經過預處理,將長或寬大于1 333像素的圖片按比例縮放,并使之縮放結果可以整除26,以確保在網絡結構中經過多次池化后保持整數。同時將小于分辨率的圖片各個顏色信道不足之處用像素0填充。并通過顏色正規化處理,然后,放入訓練網絡進行運算。為了加快訓練擬合速度,在不超過顯存容量的前提下盡量加大每次放入模型的圖片數量,將處理好的圖片集依照預設好的批量(batchsize)打包導入顯存。
圖2顯示卷積層(conv layers)為可變的基礎網絡結構。以常用的50層ResNet為例將圖片集以[批量,通道(channel),長,寬]4維數組形式傳入網絡,先經過一個步長(Stride)為2,7*7*64的卷積層和一個步長為2,3*3的池化層,將信道維度從3擴張到64,并將像素長寬壓縮到之前的1/4。再讓其進行49組處理,每一組為一次卷積、池化、激活函數操作,將特征寬度提升到最大1 024。然后按照ResNet預設,提取其第10,22,40,49層特征值,經過上采樣處理得到關聯性更高的5層特征,最后通過3*3*256的卷積層消除上采樣的混疊效應,得到最終特征圖集,在圖中顯示為特征圖(featuremaps)。
在區域生成網絡(Region Proposal Network)中,要通過上文生成的特征圖,并結合預設錨點(Anchor)得到目標物體的大概區域框,如圖3所示。
創建預設錨點時,根據目標物體尺寸,在預設參數中設定預設框大?。?2,64,128,256,512),每一個預設框有3個尺寸比例(2∶1,1∶1,1∶2),所以每個位置產生15個預設框。在區域生成網絡階段,首先特征圖通過1個3*3的卷積和兩個1*1的卷積,得到1個數量為2*15(長*寬)的特征圖和一個數量為4*15(長*寬)的特征圖。其中第一個特征圖為每個前景預設框與背景預設框的概率,并按照前景與背景1∶4的比例保留背景數量,第二個特征圖為每個預設框的左上頂點坐標和預設框的長寬邊長度與真實框的差值。
運用上文中得到的前景框與在第一步得到的特征圖裁剪出大小不等的小特征圖,在感興趣區域池化(Region of Interest pooling)中使用RoI Align,為每一個可能的目標物體輸出14*14*256大小的特征圖。裁剪之后,用2*2大小的最大池化來獲得最終的7*7*256特征圖。每個特征圖通過線性全連接層輸出目標種類和目標種類長度*4的邊界框(Bounding-box)。在Faster R-CNN訓練階段,計算真實框坐標與輸出邊界框坐標的距離差,得出Lbox和真實類別與輸出類別的概率差Lcls,以此反向傳播改進網絡。
2.3應用方案
本文構建以AI分析服務為核心,以數據為支撐,以預警平臺為重點的分布式監控方案,核心業務邏輯流程圖如圖5所示。
(1) 抓圖服務-數據。
抓圖服務模塊為整個流程提供數據來源。該模塊基于開源的輕量級框架SpringBoot開發,自動采集圖像數據,適配多家硬件廠商以及流媒體數據,動態配置頻率、時段,拓展性強,具體如圖6所示。
(2) 數據庫-存儲。
抓圖服務獲取的數據存儲于分布式文件存儲系統MongoDB,并通過GridFS來處理大文件的存儲。直接將圖片這種大文件存儲于數據庫十分有利于大量圖片文件的復制、刪除以及備份。同時由于其分片式存儲機制,實現分布式存儲的操作簡單,拓展性強,安全性高。
(3) 中間件-通信。
存儲模塊、展示模塊與AI模塊的通信均采用消息中間件RabbitMQ進行,其在整個分析流程中存儲、轉發消息,可用性高、拓展性強。
(4) AI-分析。
AI分析模塊以Mask R-CNN為核心算法模型,集成FackBook的開源框架Detectron 2,實現對數據的實時推理與分析。
(5) 預警平臺-展示。
預警平臺(WEB端)串接整個系統的各個模塊,從用戶在WEB端提交定期或即時的分析請求,請求進入到RabbitMQ消息隊列,然后轉發至AI分析模塊。收到分析請求后,AI分析模塊從存儲模塊提取MongoDB Grid FS文件進行智能分析,并將結果再次推送至Rabbit MQ消息隊列,最終WEB端收到AI分析模塊的分析結果,并進行展示和統計,同時即刻發送預警信息至相關工作人員的操作終端。
整個監控方案實現全流程自動化采集、存儲、分析、展示和推送,極大地提高對監控區域的監管質量和效率。
3試 驗
3.1試驗環境及參數
本文的模型訓練及測試均在Detectron 2平臺上進行。Detectron 2是繼Detectron目標檢測平臺之后,FAIR(Facebook AI Research)開發的下一代目標目標檢測和分割研究的平臺。它基于Pytorch框架,以Mask R-CNN基準測試作為起點,集成了最先進的目標檢測算法。服務器安裝Ubuntu 18.04系統,并配備了一張NVIDIA Tesla V100顯卡。結合漂浮物目標特點,設置Mask RCNN模型預設參數如下:
綜合考慮服務器性能,選擇超參數為:batch size,8;iteration,49 999;learning rate,0.000 25。
3.2評估標準
本文評估標準采用目前主流的目標檢測評價方法,即準確率和召回率。在計算這兩項指標時,以IoU=0.5作為基本閾值。
(1) IoU。
以IoU作為衡量預測目標的位置偏差指標,當識別出的類別正確且IoU達到規定的閾值,則表明該識別結果正確。IoU的定義如下:
IoU=P∩GP∪G(5)
式中:P表示預測樣本面積,G表示真實樣本面積,P∩G表示預測樣本與真實樣本的重疊面積,P∪G表示預測樣本與真實樣本原始樣本的并集面積。
傳統目標檢測以及深度學習目標檢測算法在計算IoU時,均只能從box的層面進行計算,不可避免地引入背景誤差,而Mask R-CNN是從像素層面計算,去除了計算IoU時的背景誤差,尤其當水面漂浮物的形狀極不規則時,對模型的識別效果評價更加準確。
(2) 準確率。
數據集中的水面漂浮物,一類是獨立存在的單個漂浮物,比如塑料瓶、塑料袋、魚等等,另一類是以水葫蘆為代表的聚集成一團的漂浮物,為統一評價標準,把成團的水葫蘆當作一個水葫蘆對象來處理。針對預測結果,統計準確識別漂浮物的數量與識別出的漂浮物總數量之比,稱為識別準確率,定義如下:
P=TPTP+FP(6)
式中:TP即True Positive,表示正樣本被正確識別為正樣本的數量,FP即False Positive,表示負樣本被錯誤識別正樣本的數量。TP與FP之和,表示所有被識別為正樣本的數量,在本文中則表示識別出的漂浮物總數量。
(3) 召回率。
準確率是針對預測結果而言的性能指標,召回率則是針對原始樣本而言,它表示的是原始樣本中正樣本被正確識別的比例,定義如下:
R=TPTP+FN(7)
式中:FN即False Negative,表示正樣本被錯誤識別為負樣本的數量,TP+FN即表示原始樣本中所有的正樣本數量,在本文中則表示漂浮物的總數量。
3.3試驗結果及分析
由于漂浮物數量分布極不均勻,本文以水面漂浮物中常見的水葫蘆、塑料袋、塑料瓶和魚為例,從訓練樣本數量、特征提取模型等方面對Mask RCNN在水面漂浮物場景下的識別性能進行研究。訓練集、驗證集、測試集按照8∶1∶1的數量比例進行劃分,在訓練集和驗證集上調試出最佳訓練參數后,把所有訓練集和驗證集的樣本共同作為訓練集,以最佳參數進行訓練,得到最終的模型,在測試集上測試模型性能。
3.3.1樣本數量
水葫蘆數據集一共有2 683個樣本,預留10%的樣本作為測試集,即268個,在剩余的樣本中隨機抽取不同數量的樣本作為訓練集和驗證集。不同訓練樣本總量下,模型性能如圖7所示。
從圖7可以看出:隨著樣本數量的增加,Mask R-CNN對水葫蘆的識別準確率和召回率顯著增加,當水葫蘆的數量達到2500左右時,模型的識別準確達到96.5%,召回率達到86.2%。但數量達到一定程度后,準確率和召回率的增張速度逐漸放緩。
3.3.2對比試驗
分別以塑料瓶、魚、塑料袋和水葫蘆數據集為對象,對比測試基于HOG特征的傳統目標檢測方法與Mask RCNN模型的性能,如表2所列。所有輸入圖像在輸入模型之前均只做縮放和歸一化處理,不做其他任何預處理操作。
從試驗結果中可以清晰地看到:Mask R-CNN模型在準確率和召回率上的均顯著由于傳統基于HOG特征的目標檢測方法,其中平均準確率提高16.0%,平均召回率提高13.8%。
基于HOG這一類手工設計的特征模式進行目標檢測的傳統漂浮物識別方法由于對圖像噪聲極為敏感,而真實河湖領域的圖像素材又復雜多樣,不僅場景豐富,而且由于圖像采集設備的不同,質量差別較大,因此性能不佳。Mask R-CNN基于神經網絡的特征提取方法能從數據集中學習并找到目標更本質的特征,識別準確率和召回率顯著高于傳統方法。
3.3.3特征提取網絡
相比于基礎的特征提取網絡VGG16,Mask R-CNN采用ResNet結構作為特征提取網絡,試驗對比研究了分別采用VGG16、ResNet50和ResNet101作為Mask R-CNN的特征提取網絡時模型對塑料瓶、魚、塑料袋與水葫蘆的識別性能,如圖8所示。
從圖8可以看出:以ResNet 50為特征提取模型時,Mask R-CNN對4種常見的水面垃圾漂浮物的識別準確率顯著高于VGG16,平均高出3.3%,而ResNet101性能更加優異,平均高出ResNet 50網絡1.5%。由此可見,ResNet的特征提取能力顯著強于VGG16,而且層數越多,提取能力越強。
詳細對比4種類別的性能,可以發現不論是ResNet系列還是VGG16,對于塑料瓶和魚的識別準確率均高于塑料袋和水葫蘆。塑料瓶和魚的形態特征相對固定,而塑料袋和水葫蘆的形態更加不規則,這對網絡擬合能力的挑戰更大。
ResNet 50相比于VGG16對塑料瓶和魚的準確率平均提升2個百分點,而對塑料袋和水葫蘆的準確率提升明顯,達到平均4.5%,ResNet 101則分別提升了3.1%和6.45%。不難發現,對于形態不規則的物體,ResNet的擬合效果更佳。
3.4應用效果
本文構建的深度學習預警方案已成功運用于某區河流監控系統。系統總計接入攝像頭30個,預置位100個,覆蓋區內的主要河流、湖泊和閘口,監控面積總計約25 km2,24 h不間斷進行自動監控。設置模型識別置信度閾值t=0.5,IoU閾值i=0.5,即當模型識別目標的置信度和重疊率同時超過0.5時,才判定為識別出漂浮物。
2020年第三季度初的預警信息統計如圖9所示,預警類型及數量分布如圖10所示,預警類型僅列出數量較多的類型。
經清漂工作人員抽樣驗證,船、工程車和人這3類目標平均識別準確率高達95%,水葫蘆、塑料袋以及樹葉的平均識別準確率達到90%。實際應用性能雖略低于試驗結果,但仍然能達到較高水平,顯著地提高了清漂工作效率。
4結 論
基于深度學習的相關技術現階段處于井噴發展狀態,大量成熟的目標檢測、分割算法紛紛落地于各行各業的實際應用場景。以Mask RCNN為代表的一些列優秀算法對于水環境污染防治發揮了重要作用。本文研究得到以下主要成果及結論。
(1) 構建了常見漂浮物類型分類體系,以目標對象為一級標簽,以對象的材質作為二級分類依據,并且與人、車、船等常見目標一起參與分類和訓練,實現了對河湖監控視頻信息的系統拆分與組織,為監管信息化提供數據支持。
(2) 數據量的提升能有效提高深度學習模型Mask R-CNN的性能,以水葫蘆為例,最終達到96.5%的識別準確率和86.2%的召回率。
(3) 基于Mask R-CNN的漂浮物識別方法在識別性能上顯著優于基于HOG特征的傳統漂浮物識別方法,平均準確率提高16%,平均召回率提高13.8%。
(4) 相比于VGG16網絡,分別以ResNet 50和ResNet 101作為Mask R-CNN的特征提取網絡時的識別準確率分別高出3.3%和4.8%,并且ResNet系列對于不規則的目標的擬合能力更強。
(5) 本文以Mask R-CNN為基礎,構建一套包含視頻接入、算法推理、前端展示、預警消息推送的全流程預警方案,為目前的河湖監管提供了有力技術支撐,有效提升了河湖監管的自動化和智能化水平。
參考文獻:
[1]DALALN,TRIGGSB.Histograms of oriented gradients for human detection[C]∥Computer Vision and Pattern Recognition,2005(1):886-893.
[2]蔡強,劉亞奇,曹健,等.圖像目標類別檢測綜述[J].計算機科學與探索,2015,9(3):257-265.
[3]王敏,周樹道.靜態水上物體檢測分割算法[J].實驗室研究與探索,2010,29(6):30-32.
[4]REN S Q,HE K M,ROSSG,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[5]HE K M,GKIOXARIG,Dollàr P,et al.Mask R-CNN[C]∥Computer vision and pattern recognition,2017:2961-2969.
[6]LIUW,ANGUELOVD,ERHAND,et al.SSD:Single shot multiBox detector[C]∥European Conference on Computer Vision,2016(2):21-37.
[7]REDMONJ,DIVVALAS,GIRSHICKR,et al.You only look once:unified,real-time object detection[C]∥Computer Vision and Pattern Recognition,2016(2):779-788.
[8]REDMON J,FARHADI A.YOLO9000:Better,Faster,Stronger[C]∥Computer Vision and Pattern Recognition,2017(2):7263-7271.
[9]REDMON J,FARHADI A.YOLOv3:An incremental improvement[J].arXiv,2018(4):1804.02767.
[10]BOCHKOVSKIYA,WANG CY,LIAOHY M.YOLOv4:Optimal speed and accuracy of object detection[J].arXiv,2020(3):2004.10934.
[11]李寧,王雨萱,徐守坤,等.基于AlexNet的小樣本水面漂浮物識別[J].計算機應用與軟件,2019,36(2):245-251.
[12]李昌龍.基于R-CNN訓練法的水面漂浮物智能識別技術探討[J].信息化技術研究與應用,2019(增1):18-21.
[13]鄧磊,嚴立甫,張詩晗,等.基于機器視覺的水面漂浮物智能識別判定系統[J].電子測試,2019(17):133-134.
[14]雷李義,艾矯燕,彭婧,等.基于深度學習的水面漂浮物目標檢測評估[J].環境與發展,2019(6):117-123.
[15]ZHANG L L,ZHANG Y,ZHANG Z,et al.Real-time water surface object detection based on improved Faster-RCNN[J].Sensors(Basel),2019(16):3523.
[16]DENG J,DONG W,SOCHERR,et al.ImageNet:A large-scale hierarchical image database[C]∥Computer Vision and Pattern Recognition,2009:248-255.
[17]SIMONYANK,ZISSERMANA.Verry deep convolutional networks for large-scale image recognition[C]∥International Conference on Learning Representations,2015.
[18]HE K M,ZHANGX Y,RENS P,et al.Deep Residual learning for image recognition[C]∥Computer Vision and Pattern Recognition,2016:770-778.
(編輯:鄭 毅)
Abstract:In order to detect and deal with floating objects on water surface in time and improve the supervision level of rivers and lakes,we proposed a method for recognition of floating objects on water surface based on Mask R-CNN algorithm.First,we designed a set of floating object label classification rules,and established a real data sample set in the field of rivers and lakes.Then we built a water surface floating object identification scheme with image capture service,AI analysis and early warning service platform as the core modules.We compared the floating object recognition method base on the Mask R-CNN model and the HOG feature,and conducted experiments with different feature extraction networks.The results showed that the proposed method was significantly better than the traditional HOG method,the average accuracy increased 16%,the average recall rate increased 13.8%,and the ResNet-based method was more capable of identifying irregular floating objects.This method was successfully applied to the river and lake supervision system,and the recognition accuracy of common targets was over 90%.
Key words:recognition of floating objects;Mask R-CNN;deep learning;ResNet