摘 要:針對時變信號模式分類和未標記樣本信息的有效利用問題,提出了一種基于自組織過程神經網絡的動態樣本半監督學習算法。根據獲得的已標記和未標記的過程函數樣本信號,分別構建基于競爭學習規則和有教師示教方法的自組織過程神經網絡模型,利用該網絡的自組織特性,實現動態樣本的分類標識。文中分析了算法的信息處理機制,給出了具體的實現步驟。以油田開發水淹狀況判別為例,實驗結果驗證了方法的有效性。
關鍵詞:
中圖分類號: TP183 文獻標識碼: A 文章編號:2095-2163(2011)03-0085-03
A Semi-supervised Learning Algorithm of Dynamic Samples
based on Self-organizing Process Neural Networks
WANG Dandan, LIU XianDe
Abstract: Aiming at the problems of time-varying signal pattern classification and effective using of unmarked sample information, a semi-supervised learning algorithm of dynamic sample set based on self-organizing process neural networks is proposed in the paper. The self-organizing process neural network model based on competitive learning rule and supervised method are built respectively using acquired marked and unmarked process function sample signals, and it can label respective classes of dynamic samples through making use of the self- organizing characteristics. Information processing mechanism of the algorithm is analyzed and specific implementation steps are given in the paper. Taking identification of water flooded status in oil field development as example, experiment results prove the effectiveness of the method.
Key words:
0 引言
基于機器學習的信息處理技術是目前復雜系統數據分析和利用問題中一種有效的處理方法和工具。機器模型的建立一般需有足夠多的滿足系統狀態變化特征規律描述、高質量的樣本數據[1,2]。但在實際問題中,特別是在一些非線性動態系統的情況下,由于采樣條件的限制或代價高昂,往往難以得到足夠多的、有確定標識的樣本;而另一方面,在有些情況中,又可以獲得大量未標記的樣本數據。因此,如何利用標記及未標記的樣本信息、豐富學習樣本數量,是建立智能模型和提高模型泛化能力的關鍵問題之一[3]。
針對非線性動態系統未標記過程函數樣本的標記和信息的有效利用問題,本文提出了一種基于自組織過程神經網絡[4]的動態樣本半監督學習算法。首先,按照基于競爭學習規則和有教師示教方法,分別建立兩種信息處理機制的自組織過程神經網絡動態信號分類模型,實現對過程函數樣本集合的分類;然后,按照基于分類結果的標記策略,實現對未標記過程樣本的標識,達到增加樣本規模和多樣性的目標。以基于測井曲線的水淹層樣本分類標記和油層水淹狀態判別為例,實際應用結果驗證了算法的有效性。
1 自組織過程神經網絡
自組織過程神經網絡(Self-Organization Process Neural Network, SOPNN)是一種通過競爭學習機制實現對時變信號處理的動態神經網絡模型。SOPNN由時變信號輸入層和過程神經元組成的競爭層構成,網絡自適應提取輸入函數所隱含的模式特征,并對其進行自組織,在競爭層將作用結果表現出來。
設SOPNN輸入空間為(C[0,T])n,[0,T]為信號輸入過程區間;系統輸入函數為X(t)=(x1(t),x2(t),...,xn(t)),輸出為代表模式類別的數值量,網絡拓撲結構如圖1所示。
圖1中, wij(t) (i=1,2,...,nj=1,2,...,m)為連接權函數, yj(j=1,2,...,m)為網絡輸出。
1.1 競爭學習規則
設學習樣本集為X1(t),X2(t),...,Xk(t),Xk(t)∈(C[0,T])n。定義第k個輸入樣本向量Xk(t)與競爭層神經元節點的連接權函數向量Wj(t)的相似系數為:
式(1)中,W(t)=(w(t),w(t),...,w(t)),j=1,2,...,m。
設具有最大相似系數的節點j在競爭中獲勝,即j滿足:
r=r (2)
對于輸入樣本向量X(t),若節點j在競爭中獲勝,則調整w(t),使權函數W(t)通過算法調整向X(t)方向移動,最終使獲勝過程神經元j的輸出表示X(t)所代表的模式類別。
1.2 有監督的學習算法
當訓練集中各樣本的模式類別已知時,可采用有監督的學習算法。對樣本函數X(t),由式(1)計算r,按式(4)選擇獲勝的過程神經元j。如果獲勝過程神經元j是X(t)的恰當分類,其權值修正公式為:
2 基于SOPNN的動態樣本聚類
半監督學習是處理有大量無標記樣本和少量有標記樣本時的一種學習分類方法,適用于大量數據不斷產生、同時對這些數據不容易進行標記或若標記則花費代價很大的情形[5,6]。對于過程采樣函數樣本情況,基于半監督學習的動態函數樣本分類問題可描述如下:
設定動態函數樣本集S=L∪U,其中,L=(x1(t),y1),(x2(t),y2),...,(xl(t),yl)?奐X(t)×Y是有標記樣本集,U=xl+1(t),xl+2(t),...,xN(t)?奐X(t)是未標記樣本集,這里,xi(t)∈C[0,T],[0,T]為信號采樣區間,yi∈R。本文半監督學習的問題是基于有標記樣本集L,構造基于SOPNN的時變函數模式分類器。當樣本模式類別數已知時,樣本集經算法分類后,以標記樣本的類別代表分組類別,同組中的未標記樣本則與標記樣本的類別一致;如果所分的一類中包含兩個或兩個以上的不同類別標記樣本,則分類失敗。這樣,可通過每個分類中已標記的樣本信息實現對未標記樣本集U中的樣本的類別標識。
設在實際問題中獲得了系統在運行狀態下的N個時變采樣信號,其中,l個為有標記樣本,N-l個為未標記樣本。以下分三種情況討論:
(1)若已知確定的樣本類別數,且每個類別中均包含了已標記的樣本,則采用有教師示教的SOPNN算法對未標記樣本進行標識;
(2)若已知確定的類別數,但有類別中未包含已標記樣本,則采用競爭型SOPNN算法進行未標記樣本的標識;
(3)若樣本的類別數未知,則可基于樣本集S=L∪U,先采用近鄰傳播算法[7]確定樣本的類別數,然后再用有教師示教或競爭學習算法對未標記的樣本進行標識。
3 在測井水淹層判別中的應用
油層水淹狀況識別是油田開發過程中一項十分重要而又復雜的工作。水淹狀況判別依據的是一組反映地層地球物理性質隨深度變化的連續測井曲線的形態和幅值特征[8],而測井曲線可看作是隨深度變化的一個連續過程信號。傳統判別方法是在取心井資料分析基礎上,建立油層水淹知識庫,再通過人機交互對非取心井進行解釋。實際工作中,水淹層判別主要依據SP、Rt、Rmd等三條測井曲線和小層厚度h共4個變量;油層水淹程度分為未水淹、弱水淹、中水淹、強水淹4個等級。
在油田實際開發中,由于鉆井過程中獲取巖心技術要求高、費用昂貴,故每個油田區塊一般只有少量的取心井,但所有鉆井都進行了物理測井,即存在大量未標記的小層測井曲線樣本。本文研究的油田開發區塊有3口取心井,包括4類水淹狀況、共35個有標記水淹程度的測井曲線樣本,其中,14個為強水淹、9個為中水淹、7個為弱水淹、5個未水淹。在區塊中另選4口具有典型地質特征的非取心井,選擇出43個有代表性的未標記小層測井曲線樣本,并作歸一化處理[4]。選用取心井4類35個有標識的小層樣本組成訓練集。SOPNN的拓撲結構確定為:3個時變信號輸入節點,4個過程神經元競爭層節點,輸出為水淹程度,對應于0,1,2,3。本實例為有教師示教的情況,4個過程神經元節點的輸出分別對應4種水淹狀況。SOPNN迭代372次后收斂。用訓練完成的SOPNN對未標記的43個樣本進行類別標識,結果為17個標記為強水淹、14個為中水淹、9個為弱水淹、3個為未水淹,判對率為80.3%,較大提高了測井水淹層解釋精度。
4 結束語
本文針對非線性動態系統未標記時變信號樣本的標識問題,建立了基于自組織過程神經網絡的半監督分類標記算法。該方法利用已標記樣本構建自組織過程神經網絡分類模型,可自適應實現未標記樣本的分類標記,增加反映系統過程模態變化特征樣本的多樣性。文中提出的方法對其他機器模型學習算法和訓練樣本集的構建也具有一定的借鑒意義。
參考文獻:
[ 1 ] 馮乃勤,王芳,邱玉輝. 提高神經網絡泛化能力的研究[J]. 計算
機工程與應用, 2006, 4: 38-41.
[ 2 ] WAN W S,MABU S,SHIMADA K,et al. Enhancing the gen-
eralization ability of neural networks through controlling the h-
idden layers. Applied Soft Computing, In Press, Avaiable On-
line,2008.
[ 3 ] 江學軍,唐煥文. 前饋神經網絡泛化性能力的系統分析[J]. 系統
工程理論與實踐,2000,8:36-40.
[ 4 ] 許少華,何新貴,李盼池. 自組織過程神經網絡及其應用研究[J].
計算機研究與發展,2003,40(11):1612-1615.
[ 5 ] 羅進,周學君. 半監督學習中非標記數據的利用[J]. 湖北大學學
報,2008,30(1): 8-11.
[ 6 ] BELKIN M,NIYOGI P. Semi-supervised learning on riemanni-
an manifolds[J]. Machine Learning , 2004,56:209-239.
[ 7 ] 肖宇, 于劍. 基于近鄰傳播算法的半監督聚類[J]. 軟件學報, 2- 008,19(11):2803-2813.
[ 8 ] 曾文沖. 油氣藏儲集層測井評價技術[M]. 北京: 石油工業出版
社, 2003-01.