趙萬平
(東北石油大學計算機與信息技術學院大慶163318)
一種基于半監督流形學習的抽油機故障診斷方法
趙萬平
(東北石油大學計算機與信息技術學院大慶163318)
針對油田實際生產中示功圖已知識別樣本匱乏的情況,提出一種基于半監督流形學習的識別方法,利用標識和未標識的樣本數據通過流形學習算法對采集的樣本數據進行特征提取獲得低維特征空間,并在低維特征空間進行故障模式分類以達到故障診斷的目的,取得了很好的實際應用效果。
示功圖;半監督;流形學習;識別
Class NumberTP391
在油田開發過程中隨著地層能量的不斷消耗,自噴開采技術已不能滿足油田開發的需求,故多數油田已采用有桿泵采油技術。而工作在地下幾百米到數千米的抽油泵不但受到機、桿、泵等設備的影響,還受砂、蠟、氣、水的影響,工況復雜且環境惡劣,出現故障的情況復雜多樣,因此嚴重影響了油田的生產。如何正確識別各種故障類型有利于有針對性的制定各種油井調整方案,提高油井的采收率。經過多年的研究,抽油井故障的分析與診斷技術積累了很多的研究成果[1],其中多數是利用示功圖作為分析油井各種工況的出發點,多數都是基于示功圖本身的特征識別(面積法和矢量法等)[2~3],或利用神經網絡[4]或是支持向量機[5]等根據從圖形中提取的特征向量進行判別。其中便涉及到數據降維問題,且為了獲取更高的識別率需要大量的學習樣本。而抽油機采油過程中產生的故障數據中準確標記樣本較少,大都是沒有標記的故障數據,半監督學習可以利用少量的故障標記數據訓練識別器,并利用大量的非標記故障數據來提升識別器的性能和精確性。本文提出一種基于半監督流形學習的示功圖識別方法,在部分有標簽信息的示功圖數據的情況下,通過利用示功圖本身的非線性流形結構信息和部分標簽信息來提取低維鑒別特征用于示功圖識別。
抽油機在采油過程中做上下往復運動,將從一個下底端向上至上頂端,再由上頂端向下回到下底端的過程稱為一個沖程。對于一個沖程,將抽油機相對下底端的位移S作為橫軸,抽油機向上的拉力F作為縱軸繪制關于F,S的閉合曲線定義為示功圖。實際油井生產過程中,由于油田各種生產環境的特殊性將會導致抽油設備發生阻尼運動,所以油井實測的示功圖會有一定程度的變形但仍呈現對稱性,如圖1所示。

圖1 采油井示功圖
復雜多變的工作環境中可能會給同一故障類型的示功圖帶來很多非線性變形,致使傳統的降維方法如PCA等不能夠揭示圖形空間的內蘊結構,使得傳統識別方法的性能可能會下降很多。流形學習理論作為數據降維和特征提取的重要方法卻能很好的解決這樣的問題。從拓撲學的角度看,流形是嵌入于高維空間中的低維數據集[6],流形學習的目地就是從高維數據集中獲得其低維描述,即尋找高維數據集的內在特征進而實現特征提取。經典的非線性流形學習算法包括等距映射(Isomap)[7],拉普拉斯特征映射(Laplacian eigenmaps,LE)[8],局部線性嵌入(Locally-linear embedding,LLE)[9],其中LLE算法具有每個點的近鄰權重在平移、旋轉、及縮放下保持不變,算法有解析的整體解,不需要迭代運算、計算復雜度相對較小且易執行的優點。
3.1 流形學習算法原理[10]
局部線性嵌入算法假定各點數據的局部區域為近似平面,故所有數據樣本都可以利用其線性組合各自鄰域內的樣本數據來逼近。對于樣本中的各點xi和它的鄰域{xi,j∈Ji},通過最小化式(1)的值來求解出重構權值ωji(表示xj重構xi的權重):

其中求解ωji需要遵循以下規則:1)如果xj不屬于xi的鄰域,則ωji=0;2)對于所有的i,將這些權重組成稀疏矩陣W,體現出各數據點xi和它的鄰點間的局部特性,由此也表明通過式(1)求得的權重能夠發掘數據樣本及其鄰域之間的幾何特性。因為規則,則式(1)可以改寫為根據Lagrange乘子法,則求解式(2)的最優解應滿足如下條件:GiTGiwi-λI=0,ITωi=0,當Gi列滿秩時,利用式(3)來求解重構權重:


局部線性嵌入算法通過求解正則化的線性系統(Gi
TGi+γ‖‖Gi2I)yi=I來求解ωi=yi/ITyi。
低維嵌入τi∈Rd要表現出高維數據樣本空間中的重構關系,則最小化式(4):

令
其中T[τ1,τ2,…,τN],為保證式(4)求解結果的唯一性,則T滿足以下兩個約束:1)T為標準正交矩陣,即TTT=I;2)中心化T,即TIN=0。則式(4)可以改寫成:E(T)=Tr(T(I=W)T(I-W))。通過求解?=(I-W)T(I-W)的最小d+1個特征向量u1,u2,…,ud+1便可得到高維樣本數據的低維嵌入T=[u1,u2,…,ud+1]T。
3.2 流形學習算法流程
1)選取數據點的鄰域
求取高維數據樣本中xi的鄰域,k=|Ji|表示xi的鄰域個體數,Ji代表xi鄰域結點下標集。
2)求解重構權重
對于每個數據點,令Gi=[…,xi-xj,…]j∈J,再
i求解(Gi+γ‖GiI)yi=Ik,初始化權重矩陣W=0,再設W(Ji,i)=ωi,i=1,…,N,求得W。
3)求解高維數據空間的d維嵌入數據
求解?=(I-W)T(I-W)的d+1個最小的特征向量u1,u2,…,ud+1,進而獲得高維數據的低維嵌入T=[u1,u2,…,ud+1]T。
3.3 半監督局部線性嵌入算法
給定示功圖數據集X={(x1,c1),(x2,c2),…,(xl,cl),xl+1,xl+2,…,xl+u}∈Rn×m,包含l個標記樣本和u個無標記樣本,ci是xi的故障類別標記,Y∈Rn×m,Y為嵌入于高維空間的流形,d≤m。半監督局部線性嵌入算法具體步驟如下:
1)求Xi的K個近鄰域,定義距離公式是數據點Xi和Xj間的歐式距離,M(i)是Xi和Xj的平均距離。
2)改進距離度量公式:

β為控制參數,α為調整參數
3)按照上面公式重新計算Xi的K個近鄰域,計算重構權Wij。求Xi重構誤差的最小值,得到最優的重構權。

圖2 示功圖樣本數據
4)根據上述3.2節的流形學習算法求解低維嵌入Y,通過重構權重保留高維數據的局部幾何特征。
3.4 示功圖識別步驟
1)通過遠程采集設備將示功圖數據傳遞到識別器并進行圖像預處理;
2)采用半監督局部線性嵌入算法對待識別的示功圖數據利用流形算法把原有的高維數據集映射到低維特征空間;
3)利用KNN分類器對特征空間的樣本進行模式分類進而識別示功圖類型。
常見的抽油機故障類型主要有抽油桿斷脫、油井結蠟、供液不足、固定凡爾漏失、稠油、游動凡爾漏失、油井出砂、泵上碰、活塞遇卡、泵下碰和氣鎖等,下面給出其中6種故障類型的示功圖,如圖2所示。
考慮到LLE僅保持樣本局部特征而不計算任意兩數據點的測地線距離,因此反映局部特征的K值對LLE影響更為顯著。均勻設計是一種試驗設計方法,它舍棄了正交設計的整齊可比性,只考慮試驗點的均勻分布,能用較少的試驗點獲得最好的均勻性[11~12],通過均勻設計設計K=6。總共對80口井,每口井8張示功圖共640張示功圖,共包含12種故障類型進行識別,并對比BP神經網絡和支持向量機的判別結果如表1所示。

表1 判別結果對比
在數據樣本選擇中,人為地增加了一些額外的故障樣本,由于BP神經網絡和支持向量機這種識別模型需先學習后再識別,通過實驗可以看出這兩個模型對于未訓練過的樣本識別效果不是很理想,而本文的半監督流形學習則是充分利用示功圖數據本身的結構信息和已知的樣本標簽,使得具有相同標簽樣本信息的樣本之間的距離最小化,不同類別樣本數據之間的距離最大化,進而有效地提取高維樣本數據的低維特征流形來提升識別性能。
針對目前機械采油設備工作環境復雜多變,多數故障類型難以識別的情況,本文提出一種基于半監督流形學習的識別方法,該方法計算量小且無需事先學習,可以通過流形學習算法對高維數據進行約減,提前低維特征數據,再通過已知的標簽樣本數據指導分類,有效地解決了在缺少樣本數據的情況下對未知數據進行分類,在實際應用中取得了很好的識別效果。
[1]黃鸝,凌建軍.有桿泵抽油井故障診斷智能系統進展[J].石油鉆探技術,1995,23(2):64-66.
HUANG Li,LING Jianjun.Advances in fault dianosis intelligence system for sucker-rod pumping wells[J].Petroleum Drilling Techniques,1995,23(2):64-66.
[2]李正勤,黎洪生.基于示功圖面積變化的抽油機故障診斷模型[J].油氣田地面工程,2008,27(9):3-4.
LI Zhengqin,LI Hongsheng.Fault diagnosis model of oil pumping unit based on area variation of indicator diagram[J].Oil-Gasfield Surface Engineering,2008,27(9):3-4.
[3]王洪巖,喬磊,樊瑞筱.基于不變矩的示功圖故障診斷方法研究[J].科學技術與工程,2012,12(17):4308-4310.
WANG Hongyan,QIAO Lei,FAN Ruixiao.Fault diagnosis method research based on invariant moment of indicator diagram[J].Science Technology and Engineering,2012,12(17):4308-4310.
[4]吳偉,陳國定,何焱.基于人工神經網絡和灰度矩陣的泵功圖診斷[J].西安石油大學學報(自然科學版),2007,22(3):119-121.
WU Wei,CHEN Guoding,HE Yan.Fault diagnosis system for pump work indicating diagram based on neural network and gray-level matrix[J].Journal of Xi'an Shiyou University(Natural Science Edition),2007,22(3):119-121.
[5]朱春梅,陜梅辰,智玉杰,等.支持向量機的無桿抽油機示功圖自動識別技術[J].北京信息科技大學學報(自然科學版),2014,29(1):16-20.
ZHU Chunmei,SHAN Meichen,ZHI Yujie,et al.Study on automatic recognition of indicator diagram of rod-less pumping unit based on support vector machine[J].Journal of Beijing Information Science&Technology University,2014,29(1):16-20.
[6]宋濤,湯寶平,李鋒.基于流形學習和K-最近鄰分類器的旋轉機械故障診斷方法[J].振動與沖擊,2013,32(5):149-153.
SONG Tao,TANG Baoping,LI Feng.Fault diagnosis method for rotating machinery based on manifold learning and K-nearest neighbor classifier[J].Journal of Vibration and Shock,2013,32(5):149-153.
[7]Roweis S T,Saul L K.Nonlinear dimensionality reduction by Locally Linear Embedding[J].Science,2000,290(5500):2323-2326.
[8]Belkin M,Niyogi P.Laplacian Eigenmaps and spectral techniques for embedding and clustering[C]//Advances in Neural Information Processing Systems.Cambridge,MA,USA:The MIT Press,2002,14:585-591.
[9]Tenenbaum J B,Silva V D,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J]. Science,2000,290(5500):2319-2323.
[10]王自強,錢旭,孔敏.流形學習算法綜述[J].計算機工程與應用,2008,44(35):9-12.
WANG Ziqiang,QIAN Xu,KONG Min.Survey on manifold learning algorithms[J].Computer Engineering and Applications,2008,44(35):9-12.
[11]王元,方開泰.均勻分布與試驗設計(數論方法)[J].科學通報,1981,26(2):65-70.
WANG Yuan,FANG Kaitai.Uniform distribution and experimental design(number theoretic method)[J].Chinese Science Bulletin,1981,26(2):65-70.
[12]梁昌勇,陸青,張恩橋,等.基于均勻設計的多智能體遺傳算法研究[J].系統工程學報,2009,24(1):109-113.
LIANG Changyong,LU Qing,ZHANG Enqiao.Research on multi-agent genetic algorithm based on uniform design[J].Ournalof Systems Engineering,2009,24(1):109-113.
Pumping Unit Fault Diagnosis Method Based on Semi-supervised Manifold Learning
ZHAO Wanping
(School of Computer and Information Technology,Northeast Petroleum University,Daqing163318)
According to indicator diagram of known samples in actual production of oil is deficient,A semi supervised recognition method based on manifold learning is proposed.Low-dimensional feature space can be obtained using manifold learning algorithm by labeled and unlabeled sample data to the data collected for feature extraction.It can achieve the purpose of fault diagnosis in the low-dimensional feature space for fault pattern classification,and achieve good effect in practical application.
indicator diagram,semi-supervised,manifold learning,distinguish
TP391
10.3969/j.issn.1672-9722.2017.06.003
2016年12月13日,
2017年1月24日
國家自然科學基金項目“基于集成學習的生物醫學文本信息抽取方法研究”(編號:61402099)資助。
趙萬平,女,副研究員,研究方向:模式識別、智能算法。