高強,王明
(華北電力大學電氣與電子工程學院,河北保定071003)
機器學習作為人工智能技術的新發展,被廣泛應用于計算機視覺、語音識別[1]、手寫體識別[2]、人臉識別[3]和圖像處理等領域。其中,由Geoffrey Hinton[4]提出的深度信念網絡(Deep Belief Network,DBN)是機器學習中最重要的網絡結構之一,不同于支持向量機(Support Vector Machine,SVM)使用數學方法和優化技術來構造超平面進行分類,其使用大量的數據訓練提取特征,得到最終的模型來進行分類和識別。在實際的絕緣子故障識別應用中,具有較好分類能力的深度信念網絡是一個較好的檢測手段。數據是模型訓練的關鍵,數據量要足夠大,模型的泛化性才能好,否則得到的模型不能形成對整個數據的描述,存在過擬合現象。
目前人們對DBN的應用研究[5-9]已經非常多,但是DBN理論上的模型不夠清晰,實際應用中還存在很多小樣本問題。關于神經網絡中的小樣本問題,大部分的出發點都是擴充樣本數或者間接利用小樣本來輔助優化網絡模型,如文獻[10]中利用小樣本對神經網絡可能的組合參數進行模擬訓練和測試,選取最優化的一組神經網絡參數,進而提高對特定樣本的識別效果;文獻[11]中則是利用原始小樣本數據訓練神經網絡,得到與原始數據樣本規律相近的擴充數據樣本,利用擴充的數據樣本再來進行網絡運算;而文獻[12]則利用前期收集的系統的可靠性數據來對樣本進行擴充。或者利用小樣本數據來進行模型參數估計和預測[13-14],也是小樣本問題的主要方向,暫時還沒有還沒有應用在圖像分類上的相關算法。本文研究了深度信念網絡的等效模型,基于此模型提出了區間化擴展權值的方法,通過擴展權值,增大樣本和權值的匹配范圍,提高小樣本模型的分類性能,進而有效提升絕緣子的分類性能。
DBN具有多層結構,是一種能量模型,其可視層和隱含層的聯合組態能量表示為:

式中vi、hj分別是可視層和隱含層的節點狀態;ai、bj分別為可視層和隱含層節點對應的偏置值;wji為可視層與隱含層之間的連接權重值。隱含層節點的輸出為:

隱含層的輸出hio(n)=[h1h2...hM]T,權值wj(n)=[w1w2...wM]T,M是隱含層神經元的個數。對能量公式(1)進行整理。將式(2)代入式(1)中,得:

求解DBN收斂的結果,就是使式(4)達到最小。
為了看清楚DBN的行為,設輸入的樣本是一個已知的“信號”與噪聲的混合波形,即:

式中s(n)表示樣本中同類的相同部分;n(n)為隨機干擾;上標l表示樣本序號,共有L個樣本,信號與噪聲互不相關,即且


由于η(n)是任意函數,因此,要求:

即:

在多個樣本輸入的情況下,用 v(l)(n)表示不同的樣本,若共有L個樣本,可以得到由式(9)構成的方程組:

所有的樣本求和得:

可得:

將 a0(i)代入式(4),得:

同樣,采用求解ai的變分法對bj求解,同樣用序列形式 b(n),設 b(n)=b0(n)+εη(n),代入式(13)求解得:

將式(14)代入(13)得:

對于權值,采用同樣的推導方法,利用變分法求解權值 w1(n),設 w1(n)=w10(n)+εη(n)代入式(15),對其整理求解得:

其中,k3為常數,由以上推導可以看出當權值收斂于信號時,DBN網絡可以得到最優解。當樣本數量很大時,信噪比較大,噪聲趨近于0,權值收斂會很接近于信號,此時分類效果很好。
由于DBN是并行處理結構,即網絡在同時處理每一個數據,看上去比較復雜。如果采用串行結構表示,是非常簡單明確的。根據以上的參數推導過程,假定DBN網絡只有一個隱含層,且隱含層只有2個神經元,對兩類樣本進行分類,兩類樣本v1(l)(n)和v2(l)(n)分別為:

即每一類樣本中都有一個相同的本類信號s1和s2,權值 w1(n)和 w2(n)是提取的樣本特征,則 DBN的等效模型與通信系統的最佳接收機形式完全一致,如圖1所示。
對DBN的訓練是尋找最佳權值的過程,也就是尋找最匹配的“信號”,使分類效果最好。因此,找到的“信號”大致接近真實的信號時,就是一個解,但不一定是最優解。希望訓練模型得到的最優解,就是權值 w1(n)和 w2(n)分別收斂于信號 s1和 s2。
在實際應用中,隱含層神經元個數往往大于2,其等效模型為多個最佳接收機的并聯結構。此時,不再是一個權值對應一個信號,而是多個“部分信號”組合起來表達一個“信號”,訓練使系統的能量公式達到最小,權值收斂到各自的“部分信號”時,整個網絡達到收斂。多層DBN網絡基本重復前一層的結構。

圖1 基本DBN結構的等效模型Fig.1 Equivalentmodel of basic DBN structure
依據最佳接收機理論可知,DBN網絡的分類性能就是系統的抗噪聲性能。只有當樣本數量足夠大時,即噪聲服從正態分布時,才能得到最佳的性能;從權值的推導中也可看出,樣本數量足夠大,權值收斂會更接近于信號,獲得更好的分類效果。因此,在小樣本的情況下,信噪比小,權值很難收斂于信號,接收機一般得不到最佳性能。如何解決小樣本情況下的這些問題,需要進一步研究。
區間數是不確定性理論的延伸和發展,由于各種測量和運算的不精確所帶來的數據誤差,以及信息不完全所帶來的數據缺乏導致得到的結果是一個不確定的數[15]。實際存在各種不同的客觀情境以及人主觀思維的不確定性,對事物的屬性往往有著不確定性的判斷,所以只能給出一個大概的范圍,不能清楚地得到事物的屬性值,這就需要區間數來刻畫此類問題。因為它符合人類的思維特征,也符合現實情況。
基于此思想,針對小樣本情況下模型泛化性差問題,我們對權值中的每一個分量在一定的經驗值或理論值范圍內進行若干細分,進行區間化擴展,即原來權值每一個分量都被擴展成與其本身緊密相關的一個小區間內的多個數,以提取更多相似的樣本信息,來改善小樣本情況下訓練模型的泛化性。并對BP算法進行相應的區間化改進,擴大搜索范圍,以增加樣本與權值的匹配范圍,提高樣本識別率,改進模型性能。
設DBN網絡有m個顯層神經元,n個隱含層神經元,輸入的一個樣本為S=[s1s2s3...sm],權值矩陣為W,擴展后的權值矩陣為W′,即W1擴展后為 W1′=[W11W12W13...W1k],將每一個權值區間化擴展到k維,每一個區間化的權值中的分量都對應著一個隱層輸出,則隱層輸出擴展為k批,第j批DBN隱含層結點和輸出結點的操作特性為[16-17]:

其中,netlj為隱層輸出,Wlji為權值W的第l個分量的第j個擴展值的第i維,f仍為激活函數。網絡誤差定義為區間化后的所有擴展值的均值,即:

Elj是權值第l個分量第j個表征矢量的誤差,EK即為第j批擴展值的網絡誤差;yl是第l個輸出神經元的期望值;Vlj是輸出神經元的實際值。則誤差信號為:


在信號檢測與估值[18]理論中,圖1給出的DBN模型為最佳接收機模型,對樣本的分類問題與對確知信號進行檢測是完全一致的。在分析信號檢測性能時,與信噪比和互相關系數等緊密相關。因此,區間化權值處理,沒有改變模型結構,其性能是一致的。同樣,假定DBN網絡只有一個隱含層和2個隱層神經元,對兩類樣本進行分類。
設發送端發送的樣本y=s1+n1,即發送樣本為第一類;且W1和W2已訓練至收斂,即W1=s1,W2=s2,此時,最佳接收機正確判決時滿足:

設兩類樣本的數量相同,可不考慮偏置 K1、K2的影響,當信號與噪聲互不相關,即∑sini=0時,則上式轉化為:

在樣本功率歸一化的情況下,樣本與自身的相關性取得最大值,等于1;樣本與其他信號的相關性均小于1,故不等式必然成立,能實現正確判決。兩個數據大小差距為:

當權值進行區間化擴展后,網絡判決式修改為:

W11,W12,...,W1n均為 W1的區間化擴展值,與W1緊密相關,即擴展值與信號s1也緊密相關,同理,W2m與s1相關性小,即任意的∑s1W1m>∑s1W2m。則上式一定成立,并可寫為:

而區間化權值與標準權值緊密相關,所以W1m≈W1,同理 W2m≈W2,所以式(28)近似為:

兩數據的大小差距為:

由式(30)可知,在權值被擴展后,訓練過程中信號被重復提取,重復提取的部分其相關性累加,要大于信號和非本類信號相乘的累加結果,判決式兩端的數據差距會更大,更容易得到出二者之間的大小對比關系,其判決效果相較于單個權值時要更明顯,判決性能要更好。
為了驗證上述算法和推導的有效性,實驗選用MNIST和CIFAR-10數據庫以及自建的絕緣子庫來進行測試,因為暫時沒有用于圖像分類的小樣本相關算法,所以將結果與傳統DBN算法進行了比較,性能指標包括訓練樣本正確識別率和測試樣本正確識別率。
(1)MNIST數據庫測試
實驗以MNIST手寫體數據庫為例,MNIST手寫庫總共有10類手寫體數字,選取不同類別的圖像為實驗對象進行分類,分別測試不同樣本類別數和不同樣本數情況,權值區間化算法和傳統DBN網絡的分類性能對比如表1所示。
由表1可知,在不同的類別數情況下,權值區間化算法相比傳統DBN網絡,測試識別率均有提高,模型泛化性得到了一定提升,這是因為權值區間擴展后,樣本與匹配的范圍擴大,分類判決時的判決界限更清晰,能更好的對樣本進行分類。隨著樣本數的減少,整體識別率逐漸降低,這是由于樣本數不足,訓練模型提取特征不夠具有代表性引起的。隨著分類類別數的增加,表現出較差的結果,這可能是由淺層神經網絡自身的學習機制導致的。從表中也可看出,在樣本類別數增加時,區間擴展算法對提高模型測試識別率有著更好的效果。

表1 MNIST庫不同類別樣本實驗結果對比Tab.1 Experimental comparison results of different categories of MNIST
(2)CIFAR-10數據庫測試
實驗以CIFAR-10數據庫為例,選取汽車和船為實驗對象進行分類,每類圖片選取100張,DBN網絡采用三層隱含層,分別為60-200-200,實驗當隱元數減半的情況下權值區間化與傳統算法的結果對比如表2所示。

表2 CIFAR-10不同網絡隱元數實驗結果對比Tab.2 Experimental comparison results of CIFAR-10 in different hidden elements
從表2的測試結果可以看出,本文的權值區間擴展方法在CIFAR-10數據庫上同樣能對小樣本問題取得一定的改進效果,在隱元結構改變時,也能保持其提高性能。
(3)絕緣子數據庫測試
由于目前并沒有公開的絕緣子數據庫,本文采集了兩個類別的絕緣子,用于絕緣子故障識別。該數據庫中有900張絕緣子樣本圖像,其中包括600張正常的絕緣子,300張有故障的絕緣子,圖片分辨率都為4 096。實驗分別選取相同數量的正常和故障絕緣子圖片作為訓練集,再分別選取100張正常和故障絕緣子作為測試集,測試不同數量的訓練樣本情況下,不同網絡的分類識別情況如表3所示。

表3 絕緣子庫不同訓練樣本數實驗結果對比Tab.3 Experimental comparison resultswith the number of training samples in insulator
由表3的實驗結果可看出,對絕緣子故障識別的實驗,權值區間化的DBN網絡相比傳統DBN網絡有明顯的提升效果,特別是在樣本數較少,每類50張時,傳統模型泛化性很差,采用權值區間化算法能有效的提升故障絕緣子的正確識別率。
本文研究了深度信念網絡的等效模型,對DBN網絡的意義進行了更加明確地闡述,指出了DBN訓練需要大量數據樣本的原因;并基于此模型提出了一種區間化權值的DBN網絡算法,可以補償小樣本情況下,提取的特征不夠全面的缺點,進而提升DBN性能,提高圖像分類識別率;通過推理論證了算法的優越性。在MNIST和CIFAR-10數據庫中的實驗證明了這一結論的可靠性,并驗證了其在實際的絕緣子故障識別中有一定的應用前景。