閔 超,代博仁,石詠衡,楊兆中,李小剛,張馨慧
(1.西南石油大學理學院,四川 成都 610500;2.西南石油大學人工智能研究院,四川 成都 610500;3.西南石油大學油氣藏地質及開發工程國家重點實驗室,四川 成都 610500;4.國家管網集團油氣調控中心,北京 100022)
煤層氣是一種重要的非常規油氣資源,但其儲層物性較差,需要采用水力壓裂技術進行儲層改造來獲得工業產能[1]。煤層氣壓裂效果受地質條件和壓裂施工等諸多復雜因素的影響,客觀準確地從中篩選影響壓裂效果的主控因素,對優化壓裂設計、提高產能具有重要的研究意義。目前,國內外學者圍繞煤層氣的壓裂效果評價[2-4]與主控因素分析[5-6]等問題做了大量的研究。王玉海等[7]利用壓降曲線的形態特征對壓裂效果進行了評價分級。計勇等[8]將影響因素與產氣指標的數據關系進行可視化處理,更直觀地分析了兩者之間的關系。李玉偉等[9]應用模糊綜合評判和灰色關聯度分析相結合的方法,對多級壓裂水平井的壓裂效果進行了評價。謝詩章[10]利用統計分析、數值模擬方法對煤層氣儲層日產水量進行了分類與成因分析。Wu等[11]基于數據挖掘和滲流理論,提出了一種改進的煤層氣井分類評價方法。檀朝東等[12]采用主成分分析法研究壓裂效果的主要影響因素。然而,上述方法均存在局限性,一方面,這些方法多以定性分析為基礎來評價壓裂效果,閾值的設定方法帶有一定的主觀性;另一方面,以單變量分析方法來篩選主控因素,沒有系統地考慮各影響因素的冗余性,難以挖掘影響因素與壓裂效果之間潛在的非線性關系。為此,提出了一種基于聚類匹配的主控因素識別方法,以挖掘影響因素之間的內在聯系。首先,采用凝聚聚類方法對樣本井壓裂后的產氣效果進行分類評級;然后,對潛在的壓裂效果影響因素進行聚類篩選;最后,基于聚類匹配的思想,將壓裂效果分類與基于主控因素的樣本聚類結果做匹配,檢驗篩選出的影響因素和壓裂效果之間的吻合程度。該方法可有效減少人為主觀判斷帶來的干擾,克服隨機森林等有監督學習方法只考慮因素與標簽之間的重要性而忽視因素間冗余性的缺點,減少基于樹的分類算法的初始輸入數據量。
利用無監督學習的聚類技術對壓裂后產能數據進行劃分,得到的簇類按照平均日產氣量進行分級,并以此作為樣本井壓裂效果的標簽,其目的是與后文基于主控因素的聚類結果作對應匹配?;诰垲惣夹g的評價分級方法,可以根據相似性度量或鄰近性標準,按壓裂后產能數據的內在聯系對樣本井進行自然劃分,避免了采用單一產能指標按閾值劃分范圍的主觀性和片面性。
選取中國某煤層氣田某區塊196口井的壓裂施工相關數據為研究對象,基礎數據包括23個影響壓裂效果的因素(包括地層因素數據和施工因素數據)與2個壓裂后的產量評價指標。為了便于數據分析,對其進行編號,其變量符號與屬性名對應關系如表1所示。

表1 壓裂井基礎數據
現場采集的196口井的數據中存在缺失和異?,F象,故需對數據進行處理以提高其可用性。首先將缺失率較高的樣本數據刪去,部分缺失的數據則采用插值法進行填補;然后利用Epanechnikov密度估計法對數據進行異常值檢測[13],剔除閾值以下的異常點;最后,對數據進行標準化處理,最終得到167口井的壓裂數據作為有效樣本。
為綜合分析樣本井壓裂后的產氣能力與排液效果,根據統計的累計產氣10 000 m3的時間和累計產水量,可以計算出日均產氣量和日均產水量,進而推導出平均日產氣水比、日產氣貢獻率,以便后續壓裂效果的評價分級。
平均日產氣量:
Q=10000/t
(1)
平均日產水量:
W=Qw/t
(2)
平均日產氣水比:
(3)
日產氣貢獻率:
(4)
式中:Q為平均日產氣量,m3/d;W為平均日產水量,m3/d;T為平均日產氣水比,%;C為日產氣貢獻率,%;Qi為第i個樣本井的日均產氣量,m3/d。
整理得到的壓裂后產能數據共包含6個指標:t、Qw、Q、W、T、C,作為壓裂效果評價的有效數據屬性集合。
由于產能指標數據具有一定的層次結構,故選用凝聚聚類法,根據指標t、Qw、Q、W、T、C對樣本井進行分類。凝聚聚類法屬于層次聚類的一種,該算法將每個樣本初始歸為單獨簇類,再在每個步驟中合并2個簇類,直至生成一個包含所有數據集的單塊[14]。首先,采用歐氏距離作為樣本間差異的距離度量;然后,綜合考慮壓裂后產能數據在不同聚類下4種鏈方法的同表型相關性系數和輪廓系數,確定利用平均鏈將樣本井聚類為4個簇類。同時,為了對樣本井的壓裂效果進行評價分級,根據凝聚聚類的結果分別統計了各簇類樣本井的平均日產氣量(圖1)。
由圖1可知:4類樣本井的平均日產氣量以60 m3/d為界呈現明顯的兩級區分,其中1、2簇類共101口樣本井,3、4簇類共66口樣本井;1、2簇類樣本井的產氣量明顯低于3、4簇類樣本井的產氣量。為消除隨機性造成的干擾,分別對1、2簇類樣本井與3、4簇類樣本井進行合并,實現信息粒度的粗化。將各簇類的平均日產氣量從低到高排序,產能較低的第1、2簇類樣本井標記為“0”,第3、4簇類樣本井則標記為“1”,并將167口煤層氣井的壓裂效果對應分為4級(表2)。

圖1 各簇類平均日產氣

表2 壓裂效果分類
為檢驗上述壓裂效果分級標簽的有效性,采用t-SNE算法對167口井的其他因素數據進行可視化處理,如圖2所示。每口樣本井的23個地層、施工因素數據可看作一個23維行向量,利用t-SNE算法向二維平面投影過程中,各樣本之間的相對距離保持不變;然后再根據壓裂效果標簽,將投影后的點以不同的顏色標記。
由圖2可知:大部分效果類標簽為1的樣本均位于y>0的半平面內,標簽為0的則位于y<0的半平面內,說明基于壓裂效果的類標簽可以將表1中樣本井的地層、施工因素數據分離,間接證明了根據壓裂效果指標進行聚類分級的方法的可靠性。

圖2 帶類標簽的壓裂影響因素數據集的t-SNE圖
根據表1中的23個地層、施工因素對167口樣本井的基礎數據進行聚類和相關性分析,實現對煤層氣壓裂效果影響因素的初步篩選,步驟如下:①對樣本的23個地層、施工數據進行因素聚類。②計算不同簇類中各個因素的信息增益,以此衡量其對類標簽的重要程度,并設置閾值,去除重要性較低的因素。③對每個簇類中余下的因素做相關性分析,去除與其他因素相關性高、與類標簽相關性低的因素。
通過比較K-means算法、層次聚類算法和DBSCAN算法(具有噪聲的基于密度的聚類方法)對167口樣本井的23個因素數據的聚類結果及評估指標,選取效果最佳的K-means算法對數據進行聚類。
首先,輸入歸一化處理后的地層、施工數據,利用手肘法確定因素聚類的最優k(分類數目)值為4。再利用K-means算法進行聚類,得到的4個簇類包含的因素個數分別為6、3、8、6。具體聚類結果如表3所示。

表3 基于K-means算法的因素聚類結果
利用輪廓系數對因素聚類的結果進行評估,繪制出相應的輪廓圖,如圖3所示。由圖3可知,當k=4時,每類因素的分布較為均勻,表明簇內間距較接近其平均值,而相鄰簇類間又有明顯的分離。

圖3 因素聚類的輪廓系數
為了對因素做進一步篩選,需要對各簇類中包含的因素進行重要性衡量與相關性分析,去除與壓裂效果標簽關聯性低、與同類其他因素相關性高的因素。
在因素選擇中,信息增益常用來衡量因素帶給分類標簽的信息量,其值越大,代表該特征越重要。為了衡量各類因素對壓裂效果類標簽的重要程度,分別計算因素xi的信息增益:
G(D,xi)=H(D)-H(D|xi)
(5)
式中:G(D,xi)為信息增益;D為23列地層、施工數據加上類標簽組成的數據集;H(D)為數據集D的經驗熵;H(D|xi)為因素xi對數據集D的經驗條件熵。
將壓裂效果類標簽集表示為Y={0,1},pj表示第j類樣本所占比例,則:
(6)
設因素xi有n個不同的可能取值{ai1,ai2,…,ail,ain},則p(ail)表示因素xi取值為ail的樣本占總樣本的比例;pj(ail)表示第j類樣本中因素xi取值為ail的樣本所占比例,于是:

(7)
通過計算得到每個因素對應的信息增益,設置適當的閾值,對聚類后的每類因素進行初篩選,留下對標簽重要性較大的因素。此處根據總體因素數量以及其對應的信息增益取值,將閾值設為0.7,剔除閾值以下的因素,如圖4所示。

圖4 各聚類中因素的信息增益分布圖
由于簇類2中各因素的信息增益均低于0.7,故全部移除。最后,簇類1、簇類3、簇類4共剩余13個因素。簇類1對應的因素為:壓裂液用量、前置液用量、攜砂液用量、破裂壓力、最小主水平應力;簇類3對應的因素為:支撐劑用量、最高砂比、垂直應力、最大主水平應力;簇類4對應的因素為:加砂強度、含氣飽和度、含氣量、儲層壓力。
將余下的13個因素按類別分別進行相關性分析,以消除簇內因素間的冗余性,進一步提煉影響煤層氣壓裂效果的主控因素。
簇類1余下的因素為:壓裂液用量(x2)、前置液用量(x3)、攜砂液用量(x4)、破裂壓力(x7)、最小主水平應力(x16)。首先利用python對這5個因素進行相關性分析,得到各因素間的相關系數(表4)。由表4可知:有2組因素的相關系數值較高:corr(x2,x3)=0.68,corr(x2,x4)=0.78。其中,壓裂液用量x2等于前置用量x3與攜砂液用量x4之和,即因素x2可由因素x3與因素x4綜合體現,故剔除因素x2。

表4 因素間的相關性系數
結合類標簽,對各因素本身以及因素之間的分布關系進行可視化處理(圖5)。其中,圖5a—d和圖5f—i表示因素x4和x16與同簇類其他因素之間關于類標簽的散點分布關系,圖5e、j表示因素x4和x16自身關于類標簽的概率分布(2個曲線分別對應類標簽0和類標簽1)。由圖5可知,因素x4與其他因素在類標簽0/1下具有明顯的區分度,且該因素的密度分布無明顯重合現象(圖5a—e);而因素x16與其他因素在類標簽0/1下的散點分布重疊率高,區分度較差,且在類標簽0/1下的密度分布較為相近(圖5f—j),說明該因素的取值對產能影響較小,故剔除因素x16。利用該分析方法,最終可以確定簇類1中的3個因素為x3、x4、x7。

圖5 各因素間的相關性散點分布圖
對其他簇類進行類似分析,簇類3的最終因素有2個:支撐劑用量(x6)、垂直應力(x14);簇類4的最終因素有3個:加砂強度(x12)、含氣飽和度(x17)、含氣量(x18)。
綜上,篩選得到8個影響壓裂效果的因素,按重要程度降序排列依次為:前置液用量(0.91)、攜砂液用量(0.91)、含氣飽和度(0.83)、含氣量(0.82)、垂直應力(0.81)、支撐劑用量(0.80)、破裂壓力(0.80)、加砂強度(0.72)。
第1節中基于壓裂后產能數據的分級與第2節中基于影響因素的聚類,這二者計算過程是相互獨立的。按照圖6所示的聚類匹配方法的思路,在“背靠背”的情況下,如果這2種分類結果之間存在對應關系,則可以認為篩選出的因素與產能效果之間具有潛在的非線性關系。

圖6 聚類匹配方法的示意圖
以篩選出的8個因素對應的樣本數據為輸入,對167口井進行重新聚類。由于得到的分類結果需要與樣本井的壓裂效果類標簽相對應,故確定聚類數為2。其聚類效果如圖7所示。

圖7 基于主控因素數據集的樣本聚類可視化
由圖7可知,基于這8個因素得到的樣本井聚類效果較好,可以很好地區分簇類。同時,基于主控因素的聚類結果與基于壓裂后指標的效果分類進行匹配統計(表5)。其匹配度達到79.7%,查準率為81.9%,查全率為85.1%。說明該特征識別方法有效可行,所選出的8個因素確定為影響壓裂效果的主控因素。

表5 樣本井類別的匹配矩陣
此外,選取的8個主控因素與其他特征選擇方法進行主控因素識別的結果進行對比,如表6所示。由表6可知,基于聚類匹配的特征識別方法與隨機森林、遞歸特征選擇法所選的因素有6個重合,與Apriori關聯分析法[15]所選的因素有5個重合。其中,4種方法共有的主控因素有5個,分別為:x3(前置液用量)、x4(攜砂液用量)、x6(支撐劑用量)、x14(垂直應力)、x18(含氣量)。

表6 不同方法的主控因素識別結果對比
基于聚類匹配的方法所選的主控因素與其他特征選擇方法的結果重合率較高,個別的差異主要源于該方法去除了相關性較高的因素,降低了因素間的冗余性,保證了所選因素具有獨立性和代表性。篩選出的主控因素中:①含氣飽和度和含氣量直接反應了煤儲層的含氣性;②垂直應力則與裂縫的形態有關(是否為水平縫、是否穿層);③破裂壓力反應了施工的難易程度;④前置液用量、攜砂液用量、支撐劑用量、加砂強度則一定程度上反映了壓裂后的改造體積。
(1) 利用聚類算法對某區塊196口井壓裂效果進行了評價分級,考慮壓裂施工條件的復雜性,研究了各因素對壓裂效果的影響程度。對壓裂后指標和地層-施工因素分別獨立地進行聚類,并根據聚類結果的匹配,篩選出8個主控因素:前置液用量、攜砂液用量、含氣飽和度、含氣量、垂直應力、支撐劑用量、破裂壓力、加砂強度。
(2) 基于聚類匹配的主控因素識別方法避免了因素選取的主觀性,克服了常規方法只考慮變量對分類的重要性而忽視變量間冗余性的缺點,可以為重復壓裂施工設計優化提供參考依據。