李春生,邸京華,李少龍,張可佳,王 梅
(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)
時序化生產預警有效影響因子的獲取方法研究
李春生,邸京華,李少龍,張可佳,王 梅
(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)
在生產預警有效影響因子的篩選過程中,為了達到降低維度,增強影響因子集的有效性,從而提高生產異常預警準確率的目的,選取和分析所有原始項目,應用模糊綜合評價法量化模糊限制語,采用TRIMMEAN內均法排除極端評估值。運用特征選擇技術發現敏感特征因子,借鑒混合智能方法定義影響因子集的邏輯表達結構,基于粒度分析處理時序化數據,同時利用激劇判定函數摒棄無效元素完成對數據的降維以及篩選,得到高精細化的有效影響因子集。以此達到輔助深度挖掘數據內部潛在規律,解決信息雜亂等現象,運用于生產異常分析,提高預警準確率的目的。最后針對大慶油田某采油廠生產歷史數據,完成時序化生產預警有效影響因子的獲取。
生產異常預警;模糊綜合評價法;特征選擇;時序化數據;激劇函數
經過數十年的研究發展,針對生產異常的預警手段已經在大規模生產領域中得到廣泛應用,并發揮著極大的作用。在數字化生產普及初期,各類數據尚不完善,預警過程完全依據專業技術人員感官評估和預測,對預警信息僅作驗證測試,實為滯后預警。隨著傳感器技術及各種監測、測試手段的逐步普及,以數據處理、數據建模方法為依托,結合人工經驗實現預警模式的探測式與監測式異常預警系統開始得到推廣應用。例如M600系統、TSE/TEM系統(用于發電預警監測)[1]。這類系統提供可以信任的推理依據,適用于生產模式變化不強,規律性明顯,監控范圍廣泛的工業生產領域,但實際推理過程需要借助人工輔助分析,智能化推理支持度不高。隨著數字化生產的進步以及與日俱增的數據量[2],挖掘數據內部存在規律成為智能化預警的關鍵。時序化數據處理方法的提出降低了大數據量分析過程中的耦合度,提高了數據處理的精細化,對于數據挖掘的有效性意義重大[3]。
探測監測手段以及數據處理方法對于生產異常預警領域至關重要。雖然通過工作人員和專家的豐富經驗積累可以很好地推理業務領域內生產異常的影響因素,但仍然存在以下缺陷:
(1)多數異常間相互級聯度較高,易并發,針對生產異常預警形成的實踐經驗和理論體系的通用性不強,經驗和知識的松散度和針對性較高,不同專家對于異常的描述以及閾值的定義不同,存在無法融合的情況,針對生產異常情況缺少統一標準的影響因子集。
(2)異常預警所涉及的影響因子繁多,且樣本具有不確定性,描述異常樣本的特征維數高。
(3)針對生產早期微弱異常以及數據缺失狀況,非敏感影響因子的隱蔽性較強[4],異常表征不明顯,為推理可持續性采用預測數據填補,使得影響因子集存在不準確性。
針對上述問題,研究時序化生產預警有效影響因子的獲取方法。下文將首先針對預警目標獲取相應粗糙原始數據,應用模糊綜合評價法量化專家對影響因子的模糊語義描述,采用TRIMMEAN內均法排除極端數據點。運用特征選擇技術從特征相關性和冗余性出發,通過CF-ISF權重計算方法發現敏感特征因子,剔除冗余數據。其次,定義影響因子集的邏輯表達結構,通過提出ND模型建立影響因子與粗糙原始項目的映射關系。引入時間序列,結合業務數據的特點與同一模式多重粒度的思想,選取最佳數據粒度進行數據處理。最后,利用激劇判定函數對數據進行降維以及有效化篩選,得到高精細化的有效影響因子集,完成對時序化生產預警有效影響因子的獲取。
流程如圖1所示。

圖1 有效影響因子集的獲取
原始項目組是數據有序化構成的信息項集合,是影響因子集的構建基礎。對原始數據的合理化處理是實現有效數據項獲取的前提。因此,文中針對某異常預警目標進行粗糙原始項目選定,定義影響因子的表達結構,建立影響因子與粗糙原始項目的映射關系,完成原始影響因子集的組織和獲取,為生產原始數據抽象化打下重要基礎。
2.1 粗糙原始項目的選定
為降低原始項目分析的難度,在全域內剔除完全無關的原始項目。針對某異常預警目標,選定粗糙原始項目,應用模糊綜合評價法,通過對領域內專家組語義傾向性評價確定隸屬度以及權重,并對自然語言的語義限制詞(模糊限制語)進行定量化描述[5],如表1所示。
表1 模糊限制語的數學和圖例表示

通過表1內圖例中虛線與實線間的面積可以比較出不同模糊限制語的隸屬度大小,面積越大則隸屬度越高。
設定領域內某異常預警目標W,于是?與W相關的所有原始項目集合U為:
U={op1,op2,…,opn}
其中,op包括對原始項目的基本屬性描述和領域內專家組對于該原始項目有效性的語義傾向描述;n表示原始項目數量。
利用模糊綜合評價法基于模糊數學的隸屬度理論通過對語義限制詞的定量化映射可得專家組對于集合U的量化結果:
Q=
其中,ξ表示項目的權重系數;m表示專家組專家數量。
則某opn的量化結果為:
Qr={v1,v2,…,vm|m>2}
為避免極端評估降低評價準確性,采用TRIMMEAN內均法進行op評估,取剔除數據點的比例為20%,則評估結果opv -可表示為:
于是,W的原始項目集合U的評價結果可進行如下描述:
利用特征選擇技術發現敏感特征影響因子,剔除評估結果完全無關項,獲得最能代表問題空間的特征子集。從特征相關性和冗余性定義出發[6],采用CF-ISF(CharacteristicFrequency,InverseSampleFrequency)權重計算方法,則某影響因子的權重為:

其中,opfk為特征項opk在樣本集中出現的次數;N為全部訓練集的樣本數;nk為訓練樣本中出現特征項opk的次數。
考慮到樣本長度對權值的影響,對ξk做歸一化處理,將各項的權值規范到[0,1]之間:
(1)
于是,在剔除評估結果完全無關項以后,得到異常預警目標W的粗糙原始項目:
Urough={opr1,opr2,…,oprk|k 2.2 影響因子的邏輯轉化 定義影響因子的邏輯表達結構,是影響因子進行抽象描述和符號轉換,以及后續數據處理的重要步驟,也是特征模式提取、數據挖掘和應用推理的必備過程。結合混合智能方法的提出思想,影響因子的表達不僅需要包括支持知識推理、迭代學習的相關主要屬性,同時也要考慮保證在Hebbian學習、置信危機消解過程中的副屬性描述[7]。定義C-E結構,具體描述如下: 定義影響因子可由表示直接支持其有效化計算及特征提取的屬性和方法的集合C(核心集)與具有其他表征意義或具有輔助作用的屬性和方法的集合E(擴展集)表示。其一般形式:R={C,E|C≠?}。其中核心集C可表示為: 擴展集E可表示為:E={Dop}。其中,Dop表示該影響因子的項目集合所包含的數據信息。由業務數據特點可知,原始數據多數以不同粒度的時間序列進行存儲,這一特點是選擇原始項目數據處理方法μc的重要依據。 由此完成對C-E結構的設計和描述。C-E結構不僅實現將離散的、模糊的信息抽象化和結構化,同時,結構松散的設計思路滿足了混合智能方法的需要。 2.3 建立影響因子與粗糙原始項目的映射關系 在完成獲取粗糙原始項目集,并定義C-E結構描述影響因子后,需要獲取與生產異常相關的全部原始影響因子。于是,依據業務要求和生產異常預警理論,為實現建立自然語言描述的影響因子與數據體內數據實體的映射關系,引入ND模型。具體定義如下: 定義1:包含影響因子的自然語言形式op,直接描述op的數據實體du及映射關系函數F的閉包結構成為ND模型。其一般表示形式為: ND={op,du,F|du≠?,op∈Uc} 其中,du為數據實體,實例化后為數據體內的數據單項;Uc為由專家組提供的原始影響因子集;F為映射關系函數,在op可直述時,F可為空,當op不可直述時,du由F進行計算獲得。 ND模型建立了自然語言與邏輯語言間的映射關系,并將因子間相互獨立,可以清晰地描述其抽象結構,提高Uc集的松散度,易于分析和計算。 以ND模型進行Uc集的邏輯轉化,得到原始閉包集FUc。其一般表述形式為: FUc={FC1,FC2,…,FCn|n=len(Uc)} 其中,FUc集維度與Uc集維度相同,并存在一一對應關系。 受到專家不確定性經驗及定性化知識的影響,FUc集往往包含真實集Rs,即Rs?FUc。為了進一步提高FUc集的有效性,提出一種基于粒度分析的數據處理和清洗方法,去除FUc集內無效元素,降低模式維度,防止維災。 數據粒度是數據倉庫中數據的細化和綜合程度。一般情況下,根據數據粒度劃分標準,可以將數據倉庫中的數據劃分為:詳細數據、輕度總結、高度總結。數據信息細化程度越高,粒度越小;細化程度越低,粒度越大。粒度的選取原則是使其處于一個合適的級別,既不能太高也不能太低。低的粒度級別能提供詳盡的數據信息,但要占用較多的存儲空間和需要較長的查詢時間。高的粒度級別能快速方便地進行查詢,但不能提供過細的數據信息。 數據粒度的確定實質上是業務決策分析、硬件、軟件和數據倉庫使用方法的綜合考慮。從生產異常動態分析需求的角度看,希望數據能以最原始的、細節化的狀態保存,使得分析的結論最可靠[9]。但是,過低的粒度、過大的數據規模,在分析過程中給系統的CPU和I/O通道增加過大的負擔,從而降低了系統效率。同時根據業務特點可知,研究異常事件周期時間內影響因子數據變化規律是發現異常特征的最優方法。由于影響因子存在連續性、周期性和時序性等特點,并且影響因子的時間粒度受關注度影響,因此,結合業務數據的特點[10],借鑒同一模式多重粒度的思想[11],通過以下方式確定合理的粒度值。 引入時間序列,使用低粒度數據保存近期的生產數據和匯總數據,對時間較久遠的生產數據只保留粒度較大的匯總數據。這樣既可以對生產異常近況進行細節分析,又可以利用匯總數據對生產異常規律進行分析。數據處理具體算法如下: Start:生產異常預警目標W觸發。 Step3:若dm原始數據長度s>0,計算dm原始數據均值。 (2) Step4:將dm原始數據處理為局部距離數據。 Step5:取局部距離的標準差,得到數據集dm的離散程度。 (3) Step6:FCn的數據處理結果為: D={T,σ},T={t1,t2,…,tm},σ={σ1,σ2,…,σm} End FCn數據處理結果D={T,σ}結合Carlson定理(柯西定理針對m×n矩陣的一般推廣形式)及切比雪夫變形[12]得到激劇判定函數: 其中,dms為分段內原始數據;s為分段內數據長度;m為分段量。 將函數整理得: (4) 借鑒特征選擇方法的思想給出全局閾值系數ξ作為有效權重[13],于是得到閾值函數: μr(σ)=ξμ(σ) 取μ(σ)=max(σ)-min(σ),根據激劇判定函數F(σ),閾值函數μr(σ),給出如下判定方法。 定義2:在FUc集內元素FCn,以原始數據作為計算樣本,當F(σ)>μr(σ),則認為FCn發生了激劇變化,且判定元素FCn是FUc集的有效元素。 利用閾值函數μr(σ)控制數據實體對特定指標的影響程度,通過對FUc集內元素的判定,逐一認定數據實體FCn的有效化,去除無效元素,過濾噪聲數據,降低FUc集的維度,減少輸入變量,簡化網絡結構,達到在有限數據下縮短訓練周期,提高泛化能力的目的。最終得到有效FUc集。 在油田生產領域,影響因子的有效性越高,異常預警的準確率就越高,這為安全生產以及生產效率提供了保障。在對油田生產開發的現有數據組成和特點分析后發現,故障發生的歷史數據與生產數據的原始項目基數極大,全域內所有原始項目分析難度極大。為了提高實例效果的直觀性和分析效率,縮小專家組的界定范圍,通過與8位聚驅區塊壓裂作業工程師及2位石油勘探領域專家組成的專家小組的交流,選定生產異常預警目標W為壓裂增油量[14]。大慶油田某采油廠所處聚驅區塊為具體樣本采集區塊,界定針對W的粗糙原始項目集U,并對U中元素進行評價,得到原始項目的打分(0-1)情況,如表2所示。 表2 粗糙原始項目專家打分情況 通過模糊限制詞的定量化映射,得到專家小組對于U的量化結果: Q= 表3 粗糙原始項目集的影響因子選定 圖2和圖3分別為壓裂層段砂巖厚度以及含水分級對預警目標W的影響關系圖。 圖2 油井壓裂厚度增油與壓裂層段厚度關系曲線 由圖2可以看出,壓裂井的平均每米壓裂砂巖厚度的增油量隨組成壓裂層段厚度的減少而增加,當砂巖厚度在2~6m時對壓裂增油量的影響程度非常大。 由圖3可以看出,在油井自噴開采條件下不可忽視壓裂井含水的高低(即層間干擾的作用)對壓裂效果的影響。一般說來,油井含水低有利于壓裂效果的發揮[15],但是在油井轉抽以后,油井含水對壓裂效果的影響程度相對減小。 圖3 壓裂增油量與含水關系曲線 經過上述步驟,最終得到針對生產異常預警目標W(壓裂增油量)的包含12項有效影響因子的數據集: FUc={壓裂井點所處砂體部位,儲油砂體的沉積環境,液量含水比,壓裂液類型,支撐劑粒度,破裂壓力,壓裂時間,砂巖厚度,壓裂有效厚度,層措施位平均滲透率,措施層位有效滲透率,壓裂層平均加砂比} 文中提出了時序化生產預警有效影響因子的獲取方法。通過建立自然語言描述的影響因子與數據體內數據實體的映射關系,結合模糊綜合評價法量化專家對影響因子的模糊語義描述,構建影響因子邏輯表達結構。采用CF-ISF權重算法基于特征選擇技術挖掘時序化數據的敏感特征因子,利用TRIMMEAN內均法及均方差收斂計算等方法過濾噪聲數據,同時根據激劇判定函數實現對數據的有效化判定,從而獲取時序化生產預警的有效影響因子,以達到輔助生產異常動態分析、提高異常預警準確率的目的。 [1]ZhangJian,HuangKun.Researchonearly-warningmethodanditsapplicationofcomplexsystemofcirculareconomyforoilandgasexploitation[J].EnergyProcedia,2011,5:2040-2047. [2] 王 添,姜 麟,米允龍.海量數據下不完備信息系統的知識約簡算法[J].計算機技術與發展,2015,25(1):137-142. [3] 蘇新寧,楊建林,江念南,等.數據倉庫和數據挖掘[M].北京:清華大學出版社,2006. [4] 王 虹,張文修,李鴻儒.粗糙模糊集的不確定性度量[J].計算機工程與應用,2005,41(2):51-52. [5] Negnevitsky M.人工智能:智能系統指南[M].北京:機械工業出版社,2012. [6] 王美方,劉培玉,朱振方.一種基于TFIDF的特征選擇方法[J].計算機工程與設計,2007,28(23):5795-5796. [7] 張可佳,李春生,姜海英,等.時間序列下模式挖掘模型設計[J].計算機工程與應用,2015,51(19):146-151. [8] Yang Y,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proceedings of 14th international conference on machine learning.Nashville,US:[s.n.],2007:412-420. [9] 呂海燕,車曉偉.數據倉庫中數據粒度的劃分[J].計算機工程與設計,2009,30(9):2323-2325. [10] 王曉鵬,武 彤.生產質量控制數據倉庫模型設計與實現[J].計算機技術與發展,2015,25(6):181-184. [11] 王 虎,丁世飛.序列模式挖掘研究與發展[J].計算機科學,2009,36(12):14-17. [12] 卓書月.柯西不等式及其變式的應用[J].民營科技,2011(9):78-78. [13] Duda R O,Hart P E,Stock D G.模式分類[M].北京:機械工業出版社,2000:36-39. [14] 高 建,侯加根,王 軍,等.聚合物驅后砂巖儲層巖石物理特征變化機制[J].中國石油大學學報:自然科學版,2009,33(3):22-26. [15] 徐松遼.影響二類聚驅油層壓裂效果的原因分析[J].黑龍江科技信息,2012(11):63-63. Research on Acquisition Method of Effective Impact Factors in Production Early Warning by Time Series LI Chun-sheng,DI Jing-hua,LI Shao-long,ZHANG Ke-jia,WANG Mei (College of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China) In the screening process of effective impact factors for early warning,in order to reduce dimension,enhance the effectiveness of the impact factor set and improve accuracy in early warning of abnormal production,all original items are selected and analyzed,and fuzzy constraints is quantified based on fuzzy comprehensive evaluation method,using TRIMMEAN to eliminate extreme values.Then,sensitive feature factors are determined by using feature selection techniques.At the same time,the logical expression structure of the influence factor set is defined via the hybrid intelligent method,and the time sequence data is manipulated based on granularity analysis.Next,it finishes dimensionality reduction and selection of data through the dramatic function to achieve the effective impact factors of high precision.To reach the purpose that excavates potential law in the data deeply,and solves the phenomenon of information clutter,using the method in the production of abnormal analysis to improve accuracy in early warning.Finally,in combination with the history data of an oil production plant in Daqing Oilfield,the effective impact factors acquisition of the production early warning by time series is achieved. early warning of abnormal production;fuzzy comprehensive evaluation method;feature selection;time series data;dramatic function 2015-09-08 2015-12-11 時間:2016-05-25 黑龍江省科學基金項目(F2015020);東北石油大學校培育基金項目(XN2014102) 李春生(1960-),男,博士,教授,博士生導師,研究方向為人工智能及其應用、數據挖掘與智能系統;邸京華(1990-),女,碩士研究生,研究方向為數據庫與數據挖掘技術。 http://www.cnki.net/kcms/detail/61.1450.TP.20160525.1706.028.html TP312 A 1673-629X(2016)07-0122-05 10.3969/j.issn.1673-629X.2016.07.026
3 基于粒度分析的數據處理


4 影響因子的有效化
5 油田生產異常預警有效影響因子的獲取






6 結束語