999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

抽油機故障診斷的分布驅動主動學習算法

2022-06-30 06:57:02沈佳園
南京航空航天大學學報 2022年3期
關鍵詞:抽油機故障診斷分類

汪 敏,周 磊,閔 帆,張 響,沈佳園,韓 菲

(1.西南石油大學電氣信息學院,成都 610500;2.西南石油大學計算機科學學院,成都 610500;3.浙江浙能天然氣運行有限公司,杭州 310052;4.新疆油田公司風城油田,克拉瑪依 834000)

抽油機井一直都是石油開采中的重要組成部分,為了更好地了解抽油機井的工作狀況,就必須對其工作時產生的一系列數據進行分析,從而判斷抽油機井是否正常工作。通過測量抽油機往復一周所產生的載荷、位移系列數據來繪制地面示功圖[1],由不同因素導致的抽油機故障會形成不同形狀的示功圖。及時準確地對示功圖進行診斷,得出抽油機的故障原因,可以減少財產損失和延長零部件的使用壽命。目前以示功圖為研究對象對抽油機進行故障診斷是最常見的方法。常見的有BP神經網絡[2]、主成分分析方法[3]以及支持向量機(Support vector machine,SVM)[4]等。田增國等[5]提出了一種基于主成分分析的示功圖故障診斷系統。該方法是利用降維技術保留大量信息的情況下將原始數據進行壓縮,將大量的線性相關屬性變量轉化成幾個相互獨立或者不相關的變量。通過計算示功圖經過主成分分析后的數據之間的相關系數來判定不同故障。施海青等[6]提出了一種基于支持向量機的抽油機故障診斷方法。該方法采用矢量曲線對數據進行壓縮,從而提取井下示功圖特征點。采用“一對一”的方式構建多分類支持向量機分類器,能夠對多個故障做出識別。杜娟等[7]提出了一種基于卷積神經網絡的抽油機工況識別方法。該方法在原有神經網絡基礎上增添了兩個注意力機制模塊,能夠很好地調節原有模型的過擬合情況,使模型更能關注小類別工況。在工況復雜的抽油機故障診斷實驗中,該模型具有良好的泛化能力。文獻[8]提出了一種基于稀疏多圖正則化極限學習機的抽油機故障診斷方法。該方法通過快速離散曲波變換提取示功圖特征,利用圖表示學習方法構建類內圖和類間圖來表示同類數據間的關系以及不同類別數據間的關系。通過稀疏表示,可以使同一類數據的結果輸出盡可能相同,不同類別的數據的結果輸出盡可能分開。示功圖故障診斷測試表明,該模型在抽油機工況識別上有很好的表現。文獻[9]采用了適應噪聲因子的濾波器以及使用基函數來與之結合的方法。使用近似多邊形的傅里葉描述符方法來提取示功圖特征,采用徑向基函數(Radial basis function,RBF)神經網絡,利用指標圖數據和生產數據建立故障診斷模型,使用自適應噪聲因子來解決模型中的自適應濾波問題。實驗表明,模型在示功圖故障診斷方面取得不錯的表現。

現階段常用深度學習方法進行故障診斷測試,Peng 等[10]開發了一種新型雙向門控循環單元(Bidirectional gated recurrent unit,BGRU),在訓練階段對每個訓練樣本進行加權,以減少類不平衡的影響,然后利用成本敏感的主動學習來選擇候選樣本。在實際等離子體蝕刻工藝數據集上評估了所提出方法的有效性。Jin 等[11]提出一種用于復合故障診斷的新型解耦注意力殘差網絡,應用在軸承數據集,獲得了優越的精度,大大減少了領域專家的標記工作量。Zhang 等[12]引入概率主動支持向量機(Probabilistic active support vector machine,Pro-ASVM)的學習方法,根據樣本點的概率選擇點作為支持向量。應用于軸承振動信號的分類,獲得了優異的分類效果。Jian 等[13]針對實際工業故障診斷訓練集規模較小的問題,提出了一種基于主動和半監督學習的故障診斷新方法。應用于實際的智能維護系統數據,為小訓練集下的故障診斷提供了一種有前途且有用的方法。Chen 等[14]針對自組織蜂窩網絡(Self-organizing cellular networks,SONs)中的故障診斷的多分類問題,提出了一種新的基于主動學習的故障診斷方案。該方案只需很少的標記訓練實例即可實現高診斷性能,從而顯著降低成本。Pun?ochá? 等[15]提出了主動故障診斷(Active fault diagnosis,AFD)領域的基本分類方法。由于實際油田生產過程中存在抽油機井下的故障種類數量多且不同故障類別的數據量不平衡、人為標注的樣本少且費時費力等問題,常用的深度學習工況識別模型難以在實際工作中落地。同時,主成分分析方法、支持向量機等傳統的方法無法很好的處理不平衡數據分類問題。針對以上方法存在的不足,本文提出一種基于分布驅動的多類別長尾數據代價敏感主動學習算法(Cost-sensitive active learning algorithm based on distribution-driven multi-class long-tailed data,CALA)來解決這一困難且非常有意義的問題。

1 特征提取

本節主要介紹本文示功圖的特征提取方法,結合灰度矩陣的知識,提取示功圖灰度矩陣的6 個特征作為統計特征。

1.1 網格法提取灰度矩陣

本文采用網格法[16]對示功圖進行灰度矩陣提取,網格法構建示功圖的灰度矩陣主要包含如下步驟:

(1)標準化示功圖

為了更好地比較不同工況下的抽油機示功圖,消除示功圖量綱對收集到的數據的影響,將采集到的示功圖數據進行標準歸一化。為符合石油工業的習慣,將示功圖放進一個長寬比為2∶1 的矩形中,滿足繪制的地面示功圖被矩形內切這一條件。

(2)網格化示功圖

將長方形分成多個網格,本文將之劃分為20×10 大小的網格個數,并將所有網格的初始灰度賦值“0”;若網格內含有示功圖曲線,其灰度值賦值為“1”;邊界內部網格的灰度值往矩形中心依次遞增;邊界外部網格的灰度值以矩形邊界依次遞減。邊界搜索方式按列進行。

1.2 特征向量提取

通過對構建好的示功圖灰度矩陣[17]進行數理統計,計算灰度均值gˉ、方差σ2、偏度ε、峰度P、能量E和熵ξ這6 個統計特征作為示功圖特征值。

假設灰度矩陣大小為G(A,B),矩陣中任意位置的值gab(1 ≤a≤A,1 ≤b≤B)表示示功圖網格化后對應位置的灰度。設灰度矩陣中灰度級數為R,設某一灰度級數r的數量為T(r),則該灰度級數在灰度矩陣中出現的概率可表示為p(r)=T(r)/(A×B)。

以統計的6 個特征值{d1,d2,d3,d4,d5,d6}作為最終的分類特征向量。

2 算法設計

本文的數據模型是教師和誤分類代價決策系統(TMC-DS)[18],該決策系統定義成1 個四元組

式中:X代表一個數據集向量;y代表數據真實標簽向量;M代表誤分類代價矩陣;t代表專家代價為1。CALA 算法過程框圖如圖1 所示。

圖1 CALA 算法流程框圖Fig.1 CALA algorithm flow chart

2.1 獲取數據最佳分布

本節設計了一種基于誤差統計函數探索數據最佳聚類簇數的方法。依據“物以類聚”的原則,樣本間距離越接近,它們的標簽就越可能一致的假設[19]。通過對多個結構化數據集進行分析測驗,得到擬合誤差曲線。其具體步驟如下:

(1)距離閾值實例對

依據距離閾值λ的相鄰實例對(xi,xj)定義為

式中:dist(xi,xj)代表數據樣本xi和xj間的歐式距離;λ為設定歸一化距離閾值;Nλ為滿足條件的實例對個數。

(2)實例對標簽統計誤差

根據式(8)得到的實例對個數,依據不同的距離閾值定義實例對標簽統計誤差函數

式中:|Nλ|為滿足閾值λ下實例對數量;yi和yj為樣本xi和xj對應的真實標簽。

(3)獲取經驗誤差函數

首先選取30 個不同樣本個數,不同特征個數以及不同類別數量的公開數據集,其次通過式(8)計算不同閾值λ下的實例對個數,然后通過式(9)統計不同閾值λ 下的標簽統計誤差e(λ),最后通過多項式擬合得到經驗誤差函數,即

擬合曲線相關系數達到0.999 9,符合工程實際。

(4)優化目標函數

式中:n為數據樣本總數,ni為對應第i簇的樣本個數,λi為第i簇的最遠兩樣本距離與數據集最遠兩樣本距離的比值。

2.2 預分類

利用預分類修正基于統計策略得到的最佳簇數。將統計策略得到的最佳聚類簇數中每一簇通過主動學習方法[20]選擇最具代表性的樣本作為訓練集,通過概率預測模型得到樣本預分類標簽。訓練集的選取方式為

式中:ci為第Ci簇的聚類中心;s*為該簇交由專家標注的樣本。

通過Softmax 回歸[21],輸入任意樣本xi,屬于樣本對應的預測概率為

其預測標簽為

式中:l為樣本類別數量;θ為Softmax 目標函數訓練得到的最佳參數。通常通過梯度下降法[22]求解。

2.3 更新最佳聚類分布

通過Softmax 回歸模型進行預分類,測試樣本會得到一個相應的預測標簽。將數據再次進行聚類,依照得到的樣本預測標簽和經驗誤差曲線構建新的聚類優化目標函數,有

式中:?1和?2為權重系數;pu(Ci)為第Ci簇的預測標簽純度,定義如下

2.4 集成分類

根據找到的最佳聚類簇數,將數據進行聚類,選取每一簇離中心點最近的樣本作為訓練集,通過Softmax 回歸得到測試集的預測標簽。并且將該訓練集同時作為K最近鄰算法(K-nearest neighbor,KNN)預測分類模型的訓練集,得到測試集的KNN 預測標簽集合j'。結合二者的預測標簽構建決策函數

2.5 偽代碼及時間復雜度分析

(1)算法偽代碼

算法 CALA

輸入決策信息系統S=(X,y,M,t)

輸出預測標簽集合Y=[y]n×1

步驟1~5 為賦值和通過聚類得到數據初始分布信息階段,計算量主要在于聚類算法,時間復雜度為O(kdn)。步驟6~8 為選取訓練樣本和Softmax 預分類過程,選取訓練樣本階段時間復雜度為O(n2),Softmax 預分類過程時間復雜度為O(n'2),n'為預分類樣本數量,為原始樣本總數減去訓練樣本后的樣本個數。n'<n,這階段總的時間復雜度為O(n2)+O(n'2)=O(n2)。步驟9~25 為更新最佳聚類分布和集成分類過程,更新最佳聚類分布與初始聚類階段時間復雜度一致為O(kdn),集成分類過程中,Softmax 分類階段時間復雜度為O(n2),KNN 分類階段時間復雜度為O(n),考慮while 循環過程,則這階段總的時間復雜度為O(kdn·log2n)+O(n2log2n)+O(nlog2)=O(n2log2n)。其中特征數d<n,聚類簇數k<n,時間復雜度為

O(kdn)+O(n2)+O(n2log2n)=O(n2log2n)。

3 算法驗證

3.1 數據集描述

實驗采用來自新疆風城油田4 個作業區不同抽油機示功圖數據對本文算法進行驗證分析。其具體信息如表1 所示。這些數據包含多個類別且都是不平衡數據。其中A01 是抽油機作業一區常規油井采集的示功圖數據,A02 是抽油機作業二區稠油油井采集的示功圖數據,A03 是抽油機作業三區超稠油油井采集的示功圖數據,A04 是抽油機作業四區SAGD 油井采集的示功圖數據。4 個油田示功圖數據包含有正常工作、供液不足、氣體影響、氣鎖、上碰泵、下碰泵、游動閥關閉遲緩、柱塞脫出泵工作筒、游動閥漏、固定閥漏、砂影響+供液不足和慣性影響這12 種常見抽油機工況。其中,大部分為正常工作,氣體影響工況為最小類別故障工況。A01 中正常工況樣本有4 474 個,氣體影響工況有300 個,不平衡比例為14.91;A02 中正常工況樣本有4 974 個,氣體影響工況有300 個,不平衡比例為16.58;A03 中正常工況樣本有5 374 個,氣體影響工況有300 個,不平衡比例為17.91;A04 中正常工況樣本有5 845 個,氣體影響工況樣本有300個,不平衡比例為19.48。實際油田工作環境下,抽油機示功圖中氣體影響這一類工況數據稀少。當發生氣體影響時,抽油機泵腔內壓力不能正常下降,使得加載速度變慢,采油效率降低。對小類別工況進行準確識別能夠及時對故障機械進行維修,減少損失、延長機器設備的使用壽命。

表1 數據集信息Table 1 Information of datasets

3.2 評價指標

本文實驗采用精度、平均代價F-Measure 作為評估算法性能的指標,其精度定義為

式中:|Xt|為測試集的樣本數量,error 為誤分類樣本數量。

對于不平衡抽油機故障工況數據而言,刻畫不同工況具有不同的誤分類代價是很有必要的。對于稀少工況類別數據在實際場景下樣本數稀少,誤分類的代價應遠大于常見工況類別數據誤分類代價。本文設定的代價矩陣[23]為

式中:ni和nj分別表示測試集中屬于第i類和第j類的樣本數量。平均代價為

式中:Aij為將第i類誤分類為第j類的樣本數量;|Xr|為交由專家標注的樣本個數;t為查詢標簽代價,實驗中設置為1。

為驗證模型在不平衡數據分類上的性能,從準確率(Precision)和召回率(Recall)和F-measure 分數[24]這3 個評價指標對模型性能進行綜合評判。這3 種評價指標可以由表2 的混淆矩陣計算得出。

式中:TP 和TN 分別表示真實標簽與預測標簽全部為正,全部為負的樣本數量;FP 表示真實標簽為負,預測標簽為正的樣本數量,而FN 相反。準確率是針對模型測試結果,表示預測為正實例中有多少真正的正實例;召回率是針對于原始樣本具體標簽,表示原始樣本的正實例有多少被模型預測正確。F-measure 綜合兼顧這兩個評判標注,是評價算法性能最常用的指標。

表2 混淆矩陣Table 2 Confusion matrix

3.3 實驗設計

為驗證提出的算法模型性能的優越性,將本文提出的CALA 算法與基于欠采樣技術的代價敏感學習算法(Under-sampling,US)[25]、基于閾值移動調整類別閾值算法(Threshold-moving,TM)[26]、基于過采樣技術的代價敏感學習算法(Over-sampling,OS)[27]、增強的自動雙支持向量機算法(Enhanced automatic twin support vector machine,EATWSVM)[28]、基于邊距的非定性采樣主動學習算法(Uncertainty sampling with margin,UM)[29]、基于熵的不確定性采樣主動學習算法(Uncertainty sampling with entropy,UE)[30]和基于成本嵌入的主動學習算法(Active learning with cost embedding,ALCE)[31]以及卷積神經網絡(Convolutional neural network,CNN)這8 種算法進行比較。US、TM、OS 和EATWSVM 是4 種代價敏感不平衡數據處理方法,UM、UE 和ALCE 是3 種代價敏感主動學習算法。

4 實驗結果及分析

4.1 與代價敏感不平衡數據處理方法比較

本節實驗中,將真實采集到的4 個油田的抽油機示功圖數據用于模型性能驗證。每個數據集選取30%的樣本交由專家標注標簽進行模型訓練,其余樣本作為測試集。同樣條件下,隨機10 次重復實驗,統計各評價指標結果。結果取均值和標準差如表3 所示。

表3 與代價敏感不平衡數據處理方法對比實驗結果(均值±方差)Table 3 Comparison of experimental results with cost?sensitive imbalanced data processing methods(mean±std)

從表3 可以看出,在A01、A02、A03 和A04 數據集中,本文所提出的CALA 算法在精度、召回率和F-measure 這3 種評價指標上展現的性能都優于其余4 種對比算法。在代價性能測試上,過采樣算法OS 表現最好,CALA 在4 個數據集上的代價排名分別為第二、第四、第四和第二。

為驗證本文提出的CALA 算法在不同查詢比率下的性能,圖2 顯示了CALA 與4 種代價敏感不平衡數據處理方法在查詢比率為30%、35%、40%、45%和50%下的F-measure 對比,對于4 個真實油井數據集,CALA 算法的平均F-measure 明顯高于其余算法。

圖2 CALA 算法與4 種不平衡數據處理算法在不同查詢比率下的F-measure 比較Fig.2 Comparison of F-measure between CALA algorithm and four imbalanced data processing algorithms under different query ratios

4.2 與代價敏感主動學習算法比較

本節實驗中,將真實采集到的4個油田的抽油機示功圖數據用于模型性能驗證。每個數據集選取30%的樣本交由專家標注標簽進行模型訓練,其余樣本作為測試集。同樣條件下,隨機10次重復實驗,統計各評價指標結果。結果取均值和標準差如表4所示。

表4 與代價敏感主動學習算法對比實驗結果(均值±方差)Table 4 Comparison of experimental results with cost sensitive active learning algorithms(mean±std)

從表4 可以看出,在A01、A02 和A04 數據集中,本文所提出的CALA 算法在精度、召回率和F-measure 這3 種評價指標上展現的性能都優于其余4 種對比算法。A03 數據集上,提出的CALA 算法在召回率和F-measure 評價上優于其余對比算法。在代價性能測試上,深度學習算法CNN 表現最好,CALA 在4 個數據集上的代價排名分別為第三、第二、第五和第二。

為驗證算法在不同查詢比率下的性能,圖3 分別顯示了與3 種代價敏感主動學習算法以及深度學習算法在查詢比率為30%、35%、40%、45%和50%下的F-measure 對比,對于4 個真實油井數據集,CALA 算法的平均F-measure 明顯高于其余算法。

圖3 CALA 算法與代價敏感主動學習算法以及CNN 算法在不同查詢比率下的F-measure 比較Fig.3 Comparison of F-measure between CALA algorithm and cost-sensitive active learning algorithm and CNN algoithm under different query ratios

4.3 小類別工況下的模型性能測試

為驗證本文算法在小類別上的識別性能,氣體影響工況為最小類別工況。其中A01、A02、A03和A04 數據集中氣體影響工況占比分別為2.85%、2.72%、2.60% 和2.38%。表5 和表6 分別列出CALA 算法和8 種對比算法在氣體影響工況上的性能。表5 和表6 可以得出,CALA 算法在小類別識別方面的準確度和F-Measure 優于其余對比算法;在召回率方面,US、TM 和UM 算法表現較好。

表5 小類別工況下與代價敏感不平衡數據處理方法的對比實驗結果(均值±方差)Table 5 Experimental results compared with cost?sensitive imbalanced data processing methods under small category conditions(mean±std)

4.4 模型變換測試

本文算法的核心在于提出的主動查詢策略以及基于代價優化目標實現分布優化。因此,本文將KNN 算法替換成樸素貝葉斯(Na?ve Bayes,NB)算法即CALA_NB。表7 為CALA_NB 在查詢比率為30%下重復10 次實驗得到的結果。結果表明,將KNN 替換成NB 之后,算法的效果相差不大,說明本文算法性能適用性能較好。

表6 小類別工況下與代價敏感主動學習算法的對比實驗結果(均值±方差)Table 6 Experimental results compared with cost?sensitive active learning algorithms under small category conditions(mean±std)

4.5 算法適用性分析

為驗證算法在12 種常見抽油機工況下的不同性能,圖4 分別顯示了CALA 在A01、A02、A03 以及A04 四個數據集用30%查詢比例情況下12 種工況的精度。其中橫坐標1~12 分別對應12 種抽油機工況。從圖中可以看出CALA 在各種工況下的識別精度表現都較好。

4.6 模型時間開銷對比測試

表8 為本文提出算法CALA 與其余9 種模型在4 個實際抽油機數據集上運行的時間開銷。本文提出的算法CALA 均排名第4,由于使用了集成好的US、TM 和OS 算法,這3 種算法運行速度更快。

圖4 CALA 算法在4 個油田數據集上的12 種工況精度Fig.4 Accuracy of CALA algorithm for 12 working conditions on four oil field datasets

5 結論

針對抽油機井下工況復雜、種類繁多的特點,本文提出一種抽油機故障診斷的分布驅動主動學習算法。該算法首先利用大量結構化數據構造經驗誤差函數,結合主動學習查詢少量關鍵樣本,通過代價敏感方法優化算法模型,得到工況數據最佳聚類簇數來改善數據分布。有效利用迭代過程中的代價優化函數,使得該算法在抽油機示功圖故障診斷方面較對比算法在精度上有較大提高。在小類別工況識別中,本文提出的算法在準確度和F-measure 分數上明顯優于其余對比算法。針對實際工程環境下未知工況的識別和診斷是下一步將要研究的內容。

猜你喜歡
抽油機故障診斷分類
抽油機井泵效影響因素的確定方法*
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
因果圖定性分析法及其在故障診斷中的應用
沁水盆地南部煤層氣井抽油機偏磨防治分析
中國煤層氣(2014年6期)2014-08-07 03:07:05
基于LCD和排列熵的滾動軸承故障診斷
基于WPD-HHT的滾動軸承故障診斷
機械與電子(2014年1期)2014-02-28 02:07:31
基于MATLAB的抽油機減速器優化設計
河南科技(2014年16期)2014-02-27 14:13:19
主站蜘蛛池模板: 亚洲第一成年网| 天天干天天色综合网| 被公侵犯人妻少妇一区二区三区| 老司机精品久久| 色九九视频| 五月丁香在线视频| 中文天堂在线视频| 国产亚洲精品无码专| 91在线视频福利| 欧美成人A视频| 久久综合九色综合97婷婷| 高清乱码精品福利在线视频| 在线欧美一区| 亚洲国产欧美中日韩成人综合视频| 97在线公开视频| 国产导航在线| 欧美亚洲欧美| 国产精品久久久久婷婷五月| 97色伦色在线综合视频| 五月婷婷导航| 天堂中文在线资源| 高清无码不卡视频| 色135综合网| 69国产精品视频免费| 天堂岛国av无码免费无禁网站| 国产不卡一级毛片视频| 91破解版在线亚洲| 精品无码视频在线观看| 中文字幕中文字字幕码一二区| 久久黄色小视频| 国产99热| 2022精品国偷自产免费观看| 日韩性网站| 91小视频在线观看| 日韩欧美中文在线| 四虎免费视频网站| 亚洲精品午夜天堂网页| 三上悠亚一区二区| 青青国产在线| 中国黄色一级视频| 国产国产人在线成免费视频狼人色| 亚洲伦理一区二区| 亚洲精品动漫| 日韩成人在线一区二区| 青青青伊人色综合久久| 一本久道久综合久久鬼色| 国产精品美女免费视频大全| 国产欧美视频综合二区 | 精品一区二区三区视频免费观看| 国产成人综合网| 熟妇丰满人妻av无码区| 国产精品女在线观看| 午夜毛片福利| 伊人天堂网| 色妞www精品视频一级下载| 女人18一级毛片免费观看| 一级毛片基地| 久久青草精品一区二区三区| 国产欧美又粗又猛又爽老| 亚洲综合色在线| 精品国产乱码久久久久久一区二区| 18禁影院亚洲专区| 国产男女免费视频| 国产成人亚洲精品无码电影| 婷婷伊人久久| 婷婷午夜影院| 日本国产在线| 国产亚洲视频免费播放| 久久精品国产在热久久2019| 国产免费黄| 制服丝袜亚洲| 91精品啪在线观看国产91九色| 国产a v无码专区亚洲av| 日韩午夜伦| 看国产一级毛片| 91免费片| 一级毛片在线免费看| 日韩视频免费| 日本一区二区不卡视频| 久久 午夜福利 张柏芝| 国产综合欧美| 91成人免费观看在线观看|