陳小龍
(廣州供電局有限公司,廣東廣州,510000)
目前的視頻監控系統并沒有自動分析功能,自動化程度低,運行人員不能利用這些監控系統及時發現問題,及時處理。為使監控系統功能更加智能化,需要利用圖像處理技術在視頻監控中自動識別異常事件及設備狀態,以機器的方式代替人力監控工作,對可能或已經發生的異?,F象及時告警并保存現場的圖像資料,便于及時發現危險隱患,保障安全生產,為無人值守模式提供更完備、可靠的保障。本項目主要研究內容為基于深度學習算法的變電站內鳥巢智能識別研究。
數字圖像處理和識別的研究開始于1965年。數字圖像與模擬圖像相比具有存儲,傳輸方便可壓縮、傳輸過程中不易失真、處理方便等巨大優勢,這些都為圖像識別技術的發展提供了強大的動力。現代圖像識別技術的一個不足就是自適應性能差,一旦目標圖像被較強的噪聲污染或是目標圖像有較大殘缺往往就得不出理想的結果。圖像識別問題的數學本質屬于模式空間到類別空間的映射問題。目前,在圖像識別的發展中,主要有三種識別方法:統計模式識別、結構模式識別、模糊模式識別[1]。
現有的深度學習模型屬于神經網絡。神經網絡的歷史可追述到上世紀四十年代,曾經在八九十年代流行。神經網絡試圖通過模擬大腦認知的機理,解決各種機器學習的問題。2006 年,Geoffrey Hinton 提出了深度學習。神經網絡再度成為熱門研究技術。其原因在于大數據在很大程度上緩解了訓練過擬合的問題。計算機硬件的飛速發展提供了強大的計算能力,使得訓練大規模神經網絡成為可能。此外神經網絡的模型設計和訓練方法都取得了長足的進步。非監督和逐層的預訓練使得在利用反向傳播對網絡進行全局優化之前,網絡參數能達到一個好的起始點,從而訓練完成時能達到一個較好的局部極小點。
2007 年人臉識別技術開始興起。Labeled Faces in the Wild (LFW)是當今最著名的人臉識別測試集,測試集包含了6000 對人臉圖像,隨機猜的準確率是50%。LFW 從互聯網收集了五千多個名人的人臉照片,用于評估人臉識別算法在非可控條件下的性能。在非深度學習的算法中,最好的識別率是96.33%。目前深度學習可以達到99.47%的識別率。
智能視頻監控系統的發展十分迅猛,國內外的許多學者對行人目標區域跟蹤方面的理論與技術做出了重要的貢獻。檢測的方法主要包括運動區域檢測,目標識別與分類,目標特征描述,目標跟蹤檢測,動作識別行為理解幾個部分。而目標的特征描述是識別目標的重要環節,國內多采用方向梯度直方圖HOG,SIFT特征描述子,Haar-like特征,LBP紋理特征等。模型訓練是分類的一個常用方法,SVM分類器,也叫作支持向量機,以及分類器Adaboost等都可以起到這個作用。在目標跟蹤方法上有Mean-Shift、對Mean-Shift的改良算法Camshift、粒子濾波、跟蹤-學習-檢測算法等。在人體動作識別方面,可以歸為兩類方法:單層模型和多層模型的方法。
關于區域跟蹤技術,有國內學者設計開發了基于OpenCV的校園智能視頻監控系統,另外采用分模塊設計智能監控系統,改進了前景提取的方法,將幀差法和背景差分法結合起來實現互補。在目標跟蹤模塊中使用卡爾曼濾波法,提取了目標特征,進行目標匹配。將HOG特征與LBP特征結合,再使用SVM分類器一起檢測行人。二且結合LBP特征提取圖像中小部分的紋理信息,使HOG算法更為準確。針對擁擠的人群,可以利用紋理特征提出一種新的判斷方法。再次在光流場的基礎上,在光流的算法中考慮會改變的亮度,建立新的模型并實施檢測。線性變化的亮度給光流計算提供新的約束,從而增強易于被亮度影響的光流的有效檢測。再有把金字塔光流和FAST角點作為特征點,利用金字塔光流追蹤。利用光流計算特征點的加速度,用于表示運動的加速度特性。在光流水平豎直兩個分量的基礎上進行研究,通過不同行為構建表征運動特征的模型。隨著時間的推進,把光流方向直方圖進行累加。
站內設備架構上存在鳥巢,而且鳥巢由樹枝疊成,遇到風雨天氣能造成設備短路,嚴重威脅變電站的安全可靠運行?,F階段監控攝像頭,對視頻及圖像還是通過現場人員進行肉眼識別,人工判斷,智能化程度極低。項目將對所有現場獲得的視頻或進行多源異構數據融合與清理,建立基于人工智能、深度學習的多輸入快速的鳥巢識別技術是本項目的技術關鍵點及難點之一[2]。
鳥類的筑巢行為也會影響變電站的安全運行,極易造成線路短路或跳閘。為了保證電網的正常運行,必須對鳥類在輸電線路上的筑巢行為進行監控、預警和防護。由于傳統識別算法的局限性及識別率隨樣本數量增大趨于飽和的特點,將深度學習方法應用到鳥巢識別技術中,設計出深度學習網絡對特征自動進行提取,成功避免了特征選擇的影響,隨著訓練樣本的增多以及網絡模型的強大,將取得最優的檢測結果。本研究選取變電站場地的構架作為監測試驗對象[3]。如圖1所示。

圖1 基于深度學習算法的變電站內鳥巢智能識別
深度學習源于大腦認知原理的研究,是一種能夠模擬出人腦的神經結構的機器學習方式,從而能夠讓計算機擁有人工智能,大家所熟知的 AlphaGo 就是深度學習典型的一個應用。深度學習的許多研究成果,離不開對大腦認知原理的研究,尤其是視覺原理的研究。人類識別氣球的視覺原理如下:從原始信號攝入開始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細胞發現邊緣和方向),然后抽象(大腦判定,眼前的物體的形狀是圓形的),然后進一步抽象(大腦進一步判定該物體是只氣球)。

圖2 深度學習與傳統目標檢測算法比較
使用深度學習方法進行分類能夠更好的提取特征,以及模型能夠具備更強大的描述能力;所以基本上對深度學習的使用也慢慢的從當成特征提取進步到特征提取與分類、回歸等問題結合起來的端到端(End-to-End)方式?;谏疃葘W習的目標檢測算法,主流的檢測方式有兩種:基于候選區域的,如 R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN;另一種是基于回歸方法的,端到端(End-to-End),無需候選區域的,如YOLO、SSD。
TensorFlow是一個采用數據流圖(data flow graphs),用于數值計算的開源軟件庫。TensorFlow 最初由Google Brain小組(隸屬于Google機器智能研究機構)的研究員和工程師們開發出來,用于機器學習和深度神經網絡方面的研究,TensorFlow計算框架可以很好地支持深度學習的各種算法,但這個系統的通用性使其也可廣泛用于其他計算領域。它靈活的架構讓你可以在多種平臺上展開計算。如圖3所示,TensorFlow與其他深度學習工具進行對比分析,該軟件效果更理想。

圖3 不同深度學習工具社區流行度指標比較(2016年11月17日GitHub)