劉召,張黎明,耿美曉,么軍,張金祿,胡益菲
(1. 清研同創機器人(天津)有限公司,天津 300300; 2. 國網天津市電力公司,天津 300010)
隨著我國電力行業的升級改造,更加智能的帶電作業機器人成為當前的研究熱點。2009年我國進行了高壓帶電作業機器人產品化樣機的驗證[1],但現有高壓帶電作業機器人系統一般采用主從控制方式,依然是人工手動控制[2],需要借助人眼判斷目標的位置來進行操作。雖然在一定程度上提高了工作效率保護了作業人員,但在高空高壓環境下依然存在巨大的安全隱患,造成無法挽回的安全和財產損失。因此,利用當前性能優良的深度學習方法代替人眼對線纜目標進行自動識別檢測,研制更智能的帶電作業機器人成為亟待解決的問題。
傳統的目標檢測方法以圖像識別為基礎,主要包括4個步驟:提取候選框、對每個框提取特征、圖像特征分類、非極大值抑制完成框回歸[3-4]。一般對圖像使用窮舉法選出物體可能出現的區域框,對這些區域框提取特征并使用圖像識別方法分類,得到所有分類成功的區域后,通過非極大值抑制輸出結果。傳統方法中最成功的是基于多尺度形變部件模型(deformable part model,DPM)[5],它利用部件間的關系來描述物體,但該方法相對復雜,檢測速度也較慢。所以,人工提取的特征不能適應當今的海量數據,難以應用于背景復雜的高壓線纜圖像數據中,且不同場景的圖像往往要重新設計合適的特征,實際應用時也要依據具體情況而定,這些限制直接影響著最終的檢測效果及效率。
2006 年人工智能專家Hinton 提出深度學習(deep learning, DL)概念[6],開啟了人工智能領域研究深度學習的熱潮。深度學習具有很強的特征學習能力,它采用逐層訓練的方法緩解了傳統神經網絡算法在訓練多層神經網絡時出現的局部最優問題[7-8]。基于這些特征,深度學習在圖像識別、語音識別、自然語言處理、工業過程控制等方面已顯示出獨特的優勢。
近兩年深度學習技術在目標檢測領域也取得了長足的進展。與傳統依賴手工設計的特征提取算法不同,深度卷積神經網絡對幾何變換、形變、光照具有一定程度的不變性,可以有效克服復雜場景下目標檢測困難,并且可在訓練數據驅動下自適應地構建特征描述,具有更高的靈活性和泛化能力。基于深度學習的目標檢測主要分為基于區域建議方法和無區域建議的方法[3,9]。基于區域建議的方法是以R-CNN (Region-based convolutional neural networks)[10]為基礎,在PASCAL VOC2012數據集上的檢測平均精度mAP達到53.3%,較傳統方法有很大的提升。此后研究者在此基礎上提出了很多改進模型,如SPP-net(Spatial pyramid pooling networks)[11]、Fast R-CNN[12]等。而無區域建議的目標檢測方法主要是YOLO(You only look once)[13]及其改進模型。基于區域建議的方法在精度上更具優勢,而無區域建議的方法檢測速度更快。基于深度學習的目標檢測方法在低空目標、人體行為檢測、無人機圖像等領域已取得較好應用[14-16]。
本文針對帶電作業機器人在復雜背景環境中線纜目標的智能檢測問題,首次將Faster R-CNN模型引入到高壓線纜及相關物體的目標檢測任務中,根據高壓線纜的特點對原始Faster R-CNN進行了改進,引入跳轉連接使提取的特征更具表達能力,增加錨框數量使模型對不同尺寸目標都有較好的檢測性能,最終實現了高空高壓環境下各種線纜的目標檢測,在精度上取得了目前最好的檢測效果,并且檢測速度更快,為帶電作業機器人后續的操作提供了可靠的視覺支持。
根據高壓線纜目標檢測的實際需求,本文以Faster R-CNN[17]模型為基礎并提出了有效的改進策略,最終設計的模型原理框架如圖1所示。它主要分為4個主要的步驟來實現:1)將整幅高壓線纜圖像輸入深度卷積神經網絡生成特征圖譜;2)將特征圖譜輸入給區域候選網絡(region proposal network, RPN)生成目標候選區域,避免了使用選擇性搜索耗時長的問題,同時可以獲得更加準確的定位結果;3)采用感興趣區域池化層(region of interest, ROI)提取候選區域的特征,它可以將輸入的任意尺寸的特征圖譜轉化成統一維度的輸出向量,從而解決了卷積神經網絡輸入必須是固定尺寸的問題;4)利用一個多任務分類器做候選區域的位置回歸,目標類別的判定采用深度學習算法精確檢測出定位器的邊界框位置。其中本文的改進首先在特征提取部分,引入跳轉連接并調整激活層和卷積層的順序,提高了網絡提取圖像高級特征的能力;其次在目標候選區域生成階段增多錨框的種類和數量,提升對小目標檢測的性能。

圖 1 基于Faster R-CNN高壓線纜目標檢測框架Fig. 1 Object detection framework of high voltage cable based on Faster R-CNN
卷積神經網絡(convolutional neural networks,CNN)是一類包含卷積計算且具有深度結構的前饋神經網絡,是深度學習中最具代表性的網絡結構之一。傳統的CNN網絡一般包括卷積層、池化層和全連接層,隨著網絡層數的加深逐層提取圖像的特征。一個典型是CNN結構如圖2所示。

圖 2 CNN的一般結構框架Fig. 2 General structure of CNN
一般的目標檢測方法都是使用選擇性搜索來獲取候選區域,但這種方法不僅耗時且準確率不高,因此考慮用一個卷積神經網絡來進行候選區域的提取,這也就是RPN網絡的核心思想。
RPN的網絡結構如圖3所示。在RPN網絡之前會用一個卷積神經網絡對需要檢測的圖像進行特征提取,這個前置的CNN提取的特征維度為。對該特征圖譜再進行一次卷積操作,保持維度不變,同樣得到一個維度的特征圖譜。為了便于下文敘述,先定義一個“錨”的概念:對于這個維度為的卷積特征圖譜,認為其一共有個“錨”。讓該卷積特征圖譜的每個“錨”都對原圖中對應位置上9種尺寸的候選框進行檢測,檢測的目標是判斷候選框中是否包含一種物體,因此共有個候選檢測框。這每個“錨”對應的9個候選框的面積分別為。每種面積又分為3種長寬比,分別為

圖 3 RPN網絡結構Fig. 3 RPN networks structure

圖 4 “錨”與網絡輸出的對應關系Fig. 4 Corresponding relation between frame and network output
Fast R-CNN網絡將特征提取和區域分類兩個步驟融合在一個卷積神經網絡中,不同于之前的方法是提取完每個區域的特征之后,再以傳統的SVM作為分類器。這樣Fast R-CNN就可以同時進行特征提取網絡和分類網絡的訓練,從而獲得更高的準確度,其網絡結構如圖5。

圖 5 Fast R-CNN網絡結構Fig. 5 Fast R-CNN networks structure
對于待檢測圖像中的候選區域,將它映射到前置CNN所提取的卷積特征圖譜中對應的區域,即圖5中的感興趣區域映射,這樣操作是因為卷積特征圖譜實際上和原始圖像在位置上存在一定的對應關系,即待檢測圖像中的候選區域是對應在卷積特征圖譜中相同的位置。然后使用ROI池化層對該區域再進行特征提取,如圖6所示。ROI池化層對于不同尺寸大小的輸入圖像都能得到一個固定維度的輸出向量。一般的卷積神經網絡的輸入需要固定尺寸的圖像,而候選區域的尺寸是大小不一的。如果先將不同尺寸的區域縮放到統一大小再輸入卷積神經網絡提取特征,會降低后續的分類準確率,因此使用ROI池化層避免這個問題。

圖 6 ROI池化層Fig. 6 ROI pooling layer
為了具體闡述ROI池化層的作用,假設前置CNN輸出特征圖譜的寬度為,?高度為,通道為,其中是一個常數。首先,ROI池化層把特征圖譜劃分為的區域網格,這樣每個網格的維度變成:寬為、高為、通道為。對每個網格中的每個通道都取最大值作為該網格的輸出,這樣的網格最終形成了一個維的特征向量。然后,把特征圖譜劃分成和的網格,用同樣的方法提取每個網格的輸出特征,提取的特征的維度分別為和。最后,將得到的所有特征向量拼接起來,就得到了維的特征向量。顯而易見,這個輸出特征的維度與輸入特征圖譜的、均無關。因此ROI池化層可以把輸入的任意寬度、高度的卷積特征圖譜轉換為固定維度的向量。
得到ROI池化層的特征向量后,分成兩個分支分別送到全連接層進行分類和框回歸。對于分類,如果待檢測圖像中有類物體需要檢測,那么最終的輸出應該是個數,因為多包含了一類“背景類”,輸出中的每個數值都代表該區域為某類物體的類別概率。對于框回歸,其要做的是對RPN輸出的候選檢測框進行某種程度的細化。因為RPN網絡獲得的候選框有時存在一定偏差。認為通過RPN網絡得到的候選框的4個參數為,其中,表示候選框左上頂點的坐標;表示候選框的寬和高。而正確的目標框位置用表示,那么框回歸的作用就是學習參數。
1.4.1 特征提取部分的改進
傳統的卷積神經網絡大多是由卷積層、池化層和全連接層組成深層網絡,對于圖像分類等計算機視覺任務,不斷加深網絡層數一般可以提高性能,但當網絡加深到一定程度時,會導致梯度彌散或梯度消失,網絡變得難以訓練,同時導致提取的特征的語義屬性減弱,對類別的判別能力變差[18-19]。為了解決這個問題,引入跳轉連接,將卷積層的輸入特征圖譜加到輸出部分,使網絡具有能有效進行反傳的梯度信息。同時增加的卷積操作,在減少參數的同時使網絡具有更強的特征提取能力,多增加的激活層也使網絡具有更好的非線性表達能力。此外,調整模塊中各操作的順序為批標準化、ReLU,再進行卷積操作,這種完全預激活的方式可以起到更好正則化的作用,同時使梯度信息可以無障礙傳遞。本文改進的特征提取模塊如圖7。

圖 7 改進的深層網絡特征提取模塊Fig. 7 Improved deep network feature extraction module
改進的特征提取模塊降低參數的同時,也提高了網絡在推理時的速度,節省了測試時間,更有利于高壓線纜目標檢測實際應用的需求。當使用圖7的模塊時,參數量為,參數量的計算公式如式(1),其中輸入的通道數是 inc,輸出的通道數是 outc。使用傳統的兩層卷積核大小為的卷積層時,參數量為,參數量減少了,計算復雜度減少了。

1.4.2 區域候選框機制的改進
區域候選網絡中候選框的尺寸和長寬比是非常重要的超參數,它直接影響生成候選框的數量,也影響著網絡對不同尺寸目標的識別能力。原始Faster R-CNN針對特征圖譜上的每個“錨”,由3種長寬比和3種尺寸生成9個候選框,然后對獲得的原始圖片候選區域使用非極大值抑制算法刪除冗余的候選區域,其中最小的尺寸為。但是在高壓線纜識別中存在著連接點等尺寸較小的目標,為了提升網絡對小目標的檢測性能,本文增加了一組大小的候選框,其長寬比依然有3種。在訓練過程中,RPN部分使用的候選框尺寸則由9種變為12種,分別為,3個長寬比分別為和
在整個模型結構中,多任務分類器的損失函數定義為



為了驗證本文提出的基于Faster R-CNN的高壓線纜目標檢測方法的有效性和先進性,首先本文生成了具有大量高壓線纜圖片的數據集,并將數據處理成VOC2007數據形式,主要包括采集高壓線纜圖像數據和標注需檢測目標兩個部分。
2.1.1 采集高壓線纜圖像數據
本文使用高清攝像機采集了不同場景、天氣環境下的高壓線纜圖像,并對其中感興趣的目標進行了人工標簽。天氣環境主要分為晴天、陰天和強光3種情況,之所以將強光單獨作為一類是因為強光會導致拍攝的線纜圖像出現斷裂的情況。高壓線纜圖像中的桿塔結構較復雜,有單回路結構和多回路結構,上有瓷柱,有多根線纜,線纜有時會出現重疊現象;圖像背景一般都較為復雜,主要包含房屋、樹木等。
2.1.2 標注檢測目標
對采集到的線纜圖像中需要檢測的目標進行了人工標簽,使用LabelImg標注工具。圖像中需要檢測的目標有線纜與瓷柱的連接處(連接點,corner)、向右傾斜的線纜(右傾線, rline)、向左傾斜的線(左傾線, lline)和帶線夾的線(線夾線,clampline)。表1中所列的數據集Data1和Data4的場景近似,Data1中的連接點只有一種情況,即橫向連接;而數據集Data4中連接點有兩種情況,包括橫向連接和縱向連接,如圖8(a)和圖8(d)所示,圖8(d)展示了Data4中的兩種連接點。

表 1 不同場景的數據集Table 1 Test sets of five scenarios
所有場景的數據均訓練迭代10萬次,采用衰減學習率,前5萬代為0.001,后5萬代為0.000 1。為了對比本文所提方法的有效性,對比方法為原始的Faster R-CNN。高壓線纜圖像尺寸為
評價指標選擇目標檢測中常用的平均準確率(average precision, AP),其值為P-R曲線圍成的面積,其中P表示準確率、R表示召回率。P、R的計算方法如式(6)和式(7)所示:

式中:TP是被正確劃分為正例的個數,FP是被錯誤劃分為正例的個數, FN是被錯誤劃分為負例個數。mAP(mean average precision)即是所有類別的平均準確率的平均值。
實驗環境為Ubuntu16.04系統,Intel Core i7-8700K和英偉達GTX 1080Ti顯卡,使用Tensor-Flow框架進行提出算法的訓練和測試。
使用5種場景數據的訓練集分別訓練原始Faster R-CNN模型和提出的改進Faster R-CNN模型,然后在測試集上進行測試,得到各類別的平均準確率。原始Faster R-CNN的測試結果如表2所示,改進的Faster R-CNN的測試結果如表3所示。

表 2 原始Faster R-CNN在5種場景下測試結果Table 2 The test results average of original Faster R-CNN in the five scenarios

表 3 改進Faster R-CNN在5種場景下測試結果Table 3 The test results average of improved Faster RCNN in the five scenarios
從測試集的實驗結果可以看出,在不同天氣條件環境下,原始的Faster R-CNN模型對高壓線纜圖像中的各類別目標檢測的平均準確率均在80%以上,而mAP值均在84%以上。說明Faster R-CNN模型可以解決高壓線纜目標檢測任務。而改進的Faster R-CNN模型對高壓線纜目標具有更好的檢測性能,mAP值均在92%以上,相較原始的Faster R-CNN模型有明顯提升,說明提出改進方法的有效性,且在陰天、強光和晴天背景復雜的場景下都可以較好地完成高壓線纜目標檢測任務。如圖8是5種場景下,高壓線纜目標檢測結果的樣例。每種場景展示了兩張圖像,圖8(a)~(e)依次對應表1中的5種場景。
Data1、Data4和Data5數據集均為晴天下的場景中,且出現線纜重疊的情況較多,對比表2和表3中Data1、Data4兩個數據集的測試結果可以看出,改進的方法對線纜的檢測有較大的提升,mAP值分別提升了6%和8%,但在Data5數據集上,改進算法對左傾線的檢測AP值有些小的降低。說明改進的Faster R-CNN模型可以較好解決目標遮擋的檢測問題,但個別較嚴重的重疊情況可能無法檢測。結合帶電作業機器人的實際操作看,當發現重疊的線纜較多時,可以調節攝像頭的方位使拍攝的圖像中重疊的線纜盡量少,從而提升對線纜目標檢測準確率。而且在實際應用中帶電作業機器人每次總是處理單根線纜,所以重疊問題對實際操作的影響并不是很大。
在實際操作中更常見的場景是背景復雜的時候,如圖8中Data2和Data5所示的場景,背景中會有大面積的房屋、樹木等干擾識別的目標。但在這兩個場景下,改進的Faster R-CNN模型的mAP均值93%以上。說明改進的Faster R-CNN模型在進行高壓線纜目標檢測時,可以較好地克服背景中包含大面積的房屋、樹木等復雜場景。這一點在實際中的應用更有價值,提高了系統的適用范圍,同時也驗證了改進方法在進行高壓線纜目標檢測時的有效性。

圖 8 5種場景下測試集的目標檢測結果Fig. 8 Detection results of test sets in five scenarios
改進的Faster R-CNN模型進行高壓線纜目標檢測時的速度與使用的硬件環境密切相關,當使用高性能的GPU如1080Ti測試時,15 f/s 的處理速度,相較于未改進算法的 12 f/s 處理速度有提升,完全能夠滿足帶電作業機器人的實時性需求。
針對帶電作業機器人需要自動識別高空高壓線纜的實際課題需求,本文結合當前在視覺領域最有效的深度學習方法,實現了一種自動識別線纜目標的方法。首先引入了Faster R-CNN模型進行特征提取,針對高壓線纜圖像的特點提出了兩個方面的改進:在特征提取時引入跳轉連接并調整卷積層、激活層的順序,提升網絡對高層語義特征的提取能力,改進候選框生成策略提升網絡對連接點等小目標的檢測能力。本文改進的Faster R-CNN模型展現出了針對不同天氣環境、較復雜背景下的魯棒、實時、高精度檢測的優良性能,可以滿足帶電作業機器人視覺智能識別的技術指標。本文將深度學習方法應用于帶電作業機器人的視覺識別任務中,取得了較好的精度和實時的性能,具有很高的工程應用價值。