國網天津城東供電公司 天津 300010
由于配電設備缺陷素材較少,利用傳統人工智能圖像識別技術,容易因樣本數據過少而導致容易出現過擬合的現象。為解決這個瓶頸,本文探索使用VGG遷移學習網絡作為訓練網絡。
深度學習的巨大成功可以認為是表征學習的巨大成功。但是,計算機圖像識別技術在應用過程中存在一些缺陷,在一定程度上阻礙了智能化技術的發展[1]。而通常當任務數據集上的數據不足以支持學習到足夠多樣化又有用的表征時,可以利用其他更大的數據集學到的表征并且視其為通用表征,使用這些表征并且使用任務數據集的數據來微調,可以減少對目標數據集數據量的要求。計算機圖像識別要求系統高效準確地進行圖像識別,智能化處理方法的應用可以顯著提升計算機圖像識別的性能,提升其識別的準確性及效率[2]。在這里,本文使用ImageNet數據集上訓練好的VGG網絡來當作初始表征提取器。
VGG模型可根據卷積核大小以及卷積層數目的不同,區分為A,ALRN,B,C,D,E共6個配置(ConvNet Configuration),其中以D,E兩種配置較為常用,分別稱為VGG16和VGG19。因卷積層和全連接曾具有權重系數,而VGG16具有13個卷積層和3個全連接層,這也正是VGG16名字的來源。在這里本文介紹一下VGG的網絡結構。VGG16網絡一共由16個可學習的網絡層組成。網絡的特征提取部分由13個堆疊而成的卷積層組成,在卷積層后接上3個全連接層。可以把卷積核數量相同的分為一個小模塊,那么整個網絡可以認為是5個模塊組成的,分別對應卷積核為64,128,256,512。注意最后兩個模塊的卷積核數量相同,是為維持計算量。VGG16的突出特點是簡單,體現在卷積核的尺寸小,卷積層均表示為conv3-XXX,其中conv3說明該卷積層采用的卷積核的尺寸(kernel size)是3,即寬(width)和高(height)均為3。
遷移學習一般有兩種模式。第一種是在網絡提取的特征空間之上直接訓練一個SVM分類器。這種訓練方法可以說是兩步走的訓練方法。另一種方法是使用finetune,即只改變Softmax層之前的全連接層數量,整個訓練方式仍然屬于神經網絡的訓練并且需要用到反向傳播。
3.1 采用SVM遷移學習的電網設備缺陷檢測 深度學習和傳統圖像識別最大的差異之一就是擺脫了人工設計特征的流程。在過去,人們使用人工設計的特征,即使取得不錯的表現,但是難以表達高級的特征和概念。在深度學習時代,特征由卷積層的初始化以及訓練過程共同決定,并且整個學習過程是自動的,也就是說人類不再需要設計特征。當圖片從像素空間映射到特征空間,可以多多少少認為特征之間已經先行可分,這個時候可以在特征空間使用傳統的算法比如SVM。
SVM是一種基于決策分類邊界距離最大化思想的分類器。最常見的應用問題是在解決線性可分的空間,并且主要支持一對一的分類器構成。根據此可以看出,SVM的效果很大程度上取決于特征空間是否接近線性可分。慣例上,遷移學習使用全連接層的某一層作為特征提取的起點。不同的任務通常伴隨著不同的選擇,在這里選擇第一個全連接層作為特征提取的起點。
3.2 端到端的Fine-tuning遷移學習 在介紹完基于SVM的遷移學習后,本文再介紹另一種端到端的遷移學習方法。在前文介紹了基于SVM的遷移學習需要分兩步走,并且對特征空間有一個線性可分的要求。而端到端的做法,也被稱為fine-tuning,是通過保留卷積層然后接入全新的全連接層。因為類別的數量變化,本文要求最后一層全連接層符合新任務的類別數量。
這種端到端的訓練仍然使用的是反向傳播。這里需要注意的是,本文不希望重新調整所有層,而僅限于新加入的全連接層,所以本文會將所有卷積層的權重設置成不可訓練狀態。當深度學習的框架檢測到這些設置,框架將會提前停止反向傳播,使得訓練速度能夠加快。但這種做法仍然存在缺陷,因為VGG網絡的全連接層占據網絡總參數量的一半以上,所以即便只更新全連接層,過程中需要儲存的中間變量仍然很大。這是比起SVM的方法的劣勢。
3.3 SVM使用VGG特征遷移學習的電網設備缺陷檢測結果

數據集 訓練集 測試集準確率 99% 88%
結果可以看出,使用遷移學習加上SVM分類器可以得到接近100%的訓練精度。這可以體現使用了ImageNet的特征并且遷移學習后的VGG網絡可以被很好的用來提取電網設備缺陷中關鍵的特征。

方法 經典卷積神經網絡SVM遷移學習方法Fine-tuning遷移學習訓練集正確率 0.96 0.99 0.98測試集正確率 0.82 0.88 0.90訓練模型收斂耗時 2.6h 5.2h 25h測試時間/張 0.15s 0.14 0.18
可以看出,如果不需要考慮訓練速度的話,使用ImageNet上預訓練的VGG網絡總是有更好的效果。相對而言,使用SVM作為分類器,比使用端到端的方法的訓練速度要更快一點。如果訓練速度是一個重要的指標,那么手工設計的神經網絡也是一種不錯的方法,只是限于訓練數據數量不足,會出現比較嚴重的過擬合現象。