歐進永 楊淵 時磊 周振峰 邱實



摘? 要:為實現輸電線路桿塔中鳥窩的快速準確檢測,提出一種基于RetinaNet深度學習模型的鳥窩識別方法,利用ResNet-50進行前期特征提取,通過FPN網絡對前期標準特征進行加強,構建特征金字塔影像,以滿足不同尺度大小的鳥窩目標檢測,然后在特征金字塔的基礎上構建了一個分類子網和回歸子網,分別用于識別鳥窩和回歸鳥窩的具體位置。通過與經典目標檢測方法進行詳細對比分析,利用F1-Score精度指標和檢測速度指標對檢測效果進行了量化分析,實驗結果表明,所采用的鳥窩檢測模型F1-Score指標可達0.932,優于其他三種經典方法,并能充分應對拍攝角度、遮擋等各種復雜場景問題。
關鍵詞:深度學習;RetinaNet模型;特征提取;特征金字塔;鳥窩識別
0? ? 引言
輸電桿塔中鳥窩易引起線路跳閘、短路等。為有效解決該問題,多地電網公司采用無人機巡檢或監控攝像頭對鳥窩進行監測,這種方式主要依靠人工目視判讀,主觀性強、工作量大,易出現誤檢或漏檢情況。
目前,國內外對影像目標自動檢測做了大量研究。傳統目標檢測方法通過人工設計特征提取算子,如HOG等[1],然后利用SVM等分類器[1]根據所提取的圖像特征進行目標檢測,這種方法的檢測精度依賴于特征提取是否有效,較為局限,泛化能力也較差。近年來,深度學習技術興起,如RCNN模型[2]、YOLO模型[3]等。
本文選取RetinaNet模型[4]進行輸電桿塔鳥窩檢測,其由于具備獨特的“焦點損失”特性,既有較快的檢測速度,也有良好的檢測精度,對輸電桿塔中鳥窩有很好的檢測效果。
1? ? RetinaNet目標檢測模型
RetinaNet目標檢測模型結構如圖1所示,由ResNet特征提取網絡、FPN主干網絡、分類子網絡及回歸子網絡組成。其中,ResNet網絡用于前期特征提取;FPN主干網絡將ResNet前期提取特征進行多尺度整合,生成特征金字塔為后續分類和回歸做準備;分類子網絡用于對目標類別做判斷,回歸子網絡用于回歸檢測框位置。
1.1? ? ResNet特征提取網絡
在ResNet網絡中使用殘差網絡,可大大加深模型深度,提取更深層次特征,還能很好地防止模型過擬合、模型不收斂。ResNet應用了兩種殘差模塊,一種是兩個3×3卷積層相連的雙層殘差學習模塊;另一種是1個1×1卷積層接3×3卷積層,再接1×1卷積層的三層殘差學習模塊。
1.2? ? FPN主干網絡
FPN一共包括兩個部分,第一部分是圖像下采樣操作,第二部分是圖像上采樣和橫向連接操作。首先,對輸入的ResNet特征圖做5次連續卷積和池化操作,得到5幅尺寸大小遞減的特征圖C1、C2、C3、C4和C5,再對C5層做1×1卷積,得到M5特征圖,對M5特征圖進行反卷積上采樣操作,使特征圖尺寸變大,再加上C4經過1×1卷積后的特征圖,得到M4特征圖,以此類推,可得M3和M2,通過對M層所有特征圖進行3×3卷積操作,可得到P2、P3、P4和P5特征圖,這四幅特征圖合起來即構成了影像特征金字塔。這種多尺度的特性對于情況復雜的輸電線路鳥窩檢測非常適合。
1.3? ? Anchors機制
在影像特征金字塔的每一層,分別設置322、642、1282、2562和5122像素尺寸大小的anchor(即搜索框),如果一個anchor與某個真實標簽框的IOU大于0.5,則認為該anchor是正樣本;如果在0和0.4之間,則認為該anchor為背景;如果在0.4到0.5之間,則后續訓練時忽略該anchor。
1.4? ? 分類子網絡與回歸子網絡
(1)分類子網絡。從影像特征金字塔獲取W×H×256大小輸入特征圖,后接4個3×3尺寸大小卷積層,每個卷積層都用Relu激活函數進行激活,得到W×H×256大小特征圖;再接1個3×3×(A×K)卷積層,得到W×H×(KA)大小特征圖,其中K為類別數,A為anchor個數;最后利用sigmoid激活函數輸出每個anchor的類別預測結果。
(2)回歸子網絡。與分類子網絡同樣得到W×H×256大小特征圖;再接1個3×3×(A×4)卷積層,得到W×H×(4A)大小特征圖,其中4代表預測框的四個角點與真實標簽框間的相對偏移。
1.5? ? Focal loss損失函數
Focal loss損失函數通過重塑交叉熵損失,在原有交叉熵基礎上乘一個因子,減少易分類樣本權重,改善樣本不平衡問題。假設pt是模型預測的屬于目標的概率,其取值范圍為[0,1],y表示類別標簽:
pt=p? ? ? y=11-p? ?other? ? ? ? ? ? ? ? ? ? ? ? (1)
常規交叉熵損失函數如式(2)所示:
CE(p,y)=CE(pt)=-ln(pt)? ? ? ?(2)
Focal loss實質上是常規交叉熵損失的改進算法,在其基礎上乘一個因子,如式(3)所示:
FL(pt)=-∝t(1-p)γln(pt)? ? ?(3)
式中:∝t為平衡因子,取值為0~1;γ為調節因子,取值為0~5,通過改進,使模型可以更加專注于不易區分的樣本,改善整體性能。
2? ? 實驗與分析
2.1? ? 模型訓練
本文實驗所采用數據集來自無人機航拍和固定攝像頭監控,為了使模型更快更好地收斂,文中利用預訓練的ResNet50模型權重作為初始權重,學習率設置為0.000 01,批大小設置為2,一共訓練了50個epoch。
2.2? ? 模型測試
利用測試集對訓練好的鳥窩檢測模型進行測試,測試結果如圖2所示。
從圖2可知,不管是桿塔側身、頂端還是塔身位置的鳥窩,不管鳥窩是位于影像中間還是影像邊緣,不管是否有桿塔自身遮擋,本文模型都可準確、有效地檢測出鳥窩。
2.3? ? 算法性能分析
將本文輸電線路鳥窩檢測模型與經典的HOG+SVM算法、Faster-RCNN模型以及YOLO模型做了詳細實驗對比,利用F1-Score指標[5]及檢測速度作為模型精度評價指標,對比情況如表1所示。
3? ? 結語
本文利用RetinaNet深度學習模型對桿塔鳥窩進行檢測,前期特征提取用了ResNet-50,構建FPN特征金字塔影像,將其作為整個RetinaNet的主干結構。實驗結果表明,本文方法在測試集上的F1-Score精度指標優于HOG+SVM算法、Faster-
RCNN模型以及YOLO模型,且具有較快的檢測速度。本文方法可充分應對鳥窩位于桿塔及實際影像中不同位置、不同拍攝角度的情況以及桿塔本身對于鳥窩的遮擋情況。
[參考文獻]
[1] 徐淵,許曉亮,李才年,等.結合SVM分類器與HOG特征提取的行人檢測[J].計算機工程,2016,42(1):56-60.
[2] GIRSHICK R B,DONAHUE J,DARRELL T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition,2014: 580-587.
[3] REDMON J,DIVVALA S,GIRSHICK R B,et al.You Only Look Once:Unified,Real-Time Object Detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recogni-
tion (CVPR),2016:779-788.
[4] LIN T Y,GOYAL P,GIRSHICK R,et al.Focal Loss for Dense Object Detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017(99):2999-3007.
[5] 王朵.基于全卷積神經網絡的遙感圖像語義分割及變化檢測方法研究[D].西安:西安電子科技大學,2018.
收稿日期:2020-06-28
作者簡介:歐進永(1989—),男,貴州六盤水人,助理工程師,研究方向:輸電線路運維管理。