






關(guān)鍵詞: 煤層氣產(chǎn)量 DBSCAN 聚類 FP-Growth 關(guān)聯(lián)度分析算法 頻繁項(xiàng)集 措施選井
中圖分類號: TE-9 文獻(xiàn)標(biāo)識碼: A 文章編號: 1672-3791(2023)16-0181-04
目前,傳統(tǒng)能源日益緊缺引發(fā)了全世界的能源競爭,加快能源發(fā)展已經(jīng)成為世界各國共識。煤層氣作為非常規(guī)天然氣之一,其發(fā)展受到全世界各個(gè)國家的高度重視[1]。我國的煤層氣地質(zhì)資源量排名在美國與俄羅斯之后,約占全球的1/7,但我國煤田地質(zhì)條件復(fù)雜,治理和利用瓦斯難度大,在理論和技術(shù)方面都存在許多關(guān)鍵性難題,基礎(chǔ)理論研究和技術(shù)創(chuàng)新仍然存在短板[2]。為了促進(jìn)我國的生態(tài)文明建設(shè),使生態(tài)能源朝著綠色、環(huán)保、安全的標(biāo)準(zhǔn)發(fā)展,近年來,國家對煤層氣的勘探開發(fā)高度重視,通過科學(xué)手段歸納總結(jié)煤層氣產(chǎn)氣規(guī)律為創(chuàng)新煤層氣開采方式,提升煤層氣開采效率,對推動(dòng)能源高質(zhì)量發(fā)展有積極影響[3]。本文基于現(xiàn)有的機(jī)器學(xué)習(xí)方法,在現(xiàn)有方法的基礎(chǔ)上加以改進(jìn),結(jié)合煤層氣測井、壓裂、排采等真實(shí)資料對煤層氣的產(chǎn)量值,找出影響高、中、低這3種類別產(chǎn)能對應(yīng)的參數(shù)范圍[4]。本文的主要貢獻(xiàn)為提出了基于密度聚類算法(Density-Based Spatial Clustering of Application with Noise,DBSCAN)的頻繁模式增長算法(Frequent-Pattern Growth,F(xiàn)P-Growth)煤層氣產(chǎn)能分析模型,使用DBSCAN 基于密度的聚類算法篩選出重要特征,將聚類的結(jié)果做一標(biāo)記,最終使用FP-Growth關(guān)聯(lián)度分析算法完成產(chǎn)能影響因素的評價(jià)[5]。
1 應(yīng)用方法分析
1.1 DBSCAN 算法
DBSCAN 是以密度作為評價(jià)標(biāo)準(zhǔn)的空間聚類。該算法有效地規(guī)避了數(shù)據(jù)中的噪聲,并且將密度值大于某一閾值的數(shù)據(jù)自動(dòng)聚為一類,DBSCAN 算法可以聚成任意形狀的簇,其中簇指的是密度相連的最大點(diǎn)的集合[6]。DBSCAN 算法實(shí)現(xiàn)過程中用到兩個(gè)參數(shù),分別為掃描半徑(eps)和最小包含點(diǎn)數(shù)(minPts),通常在二維空間聚類中,minPts 的取值為4,本次實(shí)驗(yàn)minPts 的取值亦為4[7]。
1.2 FP-Growth 算法
關(guān)聯(lián)分析,又被稱作關(guān)聯(lián)規(guī)則挖掘,是指從看似毫無關(guān)聯(lián)的數(shù)據(jù)中挖掘出其相關(guān)聯(lián)的規(guī)則信息。該算法最早是在20 世紀(jì)90 年代初由AGRAWAL R 等學(xué)者提出[8],關(guān)聯(lián)分析的主要任務(wù)是在大規(guī)模數(shù)據(jù)集中尋找關(guān)聯(lián)關(guān)系。
支持度(support):定量評估頻繁項(xiàng)集(k-項(xiàng)集)頻繁共現(xiàn)度(即覆蓋度)的統(tǒng)計(jì)量。關(guān)聯(lián)規(guī)則支持度的定義為:
sup port(A→B) = P(A∪B) (1)
置信度(confidence):用具體的數(shù)值來評估一個(gè)頻繁項(xiàng)集的準(zhǔn)確度的值。關(guān)聯(lián)規(guī)則用表達(dá)式來具象地表示,其中A 和B 是兩個(gè)互不相交的項(xiàng)集,即A⌒B =Φ。
關(guān)聯(lián)規(guī)則的置信度定義如下
FP-Growth 算法是對Apriori 算法的優(yōu)化[9],F(xiàn)PGrowth算法與Apriori算法的不同是FP-Growth算法使用了特殊的數(shù)據(jù)結(jié)構(gòu),這樣可以降低對數(shù)據(jù)庫掃描的次數(shù)從而減少了一定程度的浪費(fèi),加快了算法運(yùn)行的速度。
(1)通過掃描表1,可以得到一個(gè)頻繁項(xiàng)集及其支持度的數(shù)目。接下來,將得到的頻繁項(xiàng)集按照從大到小排列如下式的集合L 所示,設(shè)支持度為2,則有
L =M2:7,M1:6,M3:6,M4:2,M5:2 (3)
(2)建立FP-Tree[10],基于此,以1 為根節(jié)點(diǎn)創(chuàng)建一條路徑,第二次掃描表1,以TID 為001 的事物為例,共包含3 項(xiàng),根據(jù)L 的排列順序,得到一條路徑。
(3)遍歷表中的項(xiàng),得到所有事務(wù)的路徑。若路徑的節(jié)點(diǎn)相同,那么將相同節(jié)點(diǎn)的計(jì)數(shù)加1,創(chuàng)建頻繁項(xiàng)頭表。
(4)挖掘FP-Tree,對頻繁項(xiàng)頭表以降序排列,通過由小及大遍歷頻繁項(xiàng)頭表得到條件模式基,并獲得最終的頻繁項(xiàng)集[11-12]。
綜上,F(xiàn)P-Growth 算法主要為以上4 個(gè)步驟,即創(chuàng)建FP-Tree 和挖掘條件FP-Tree。從上述步驟可以看出FP-Growth 算法只需兩次掃描數(shù)據(jù)庫,不但提升了算法的效率,并且不產(chǎn)生候選項(xiàng)集。
1.3 基于DBSCAN的FP-Growth煤層氣分析評價(jià)方法
在論文《A Novel Multi-Input AlexNet Prediction Modelfor Oil and Gas Production》[13]的多輸入AlexNet產(chǎn)量預(yù)測模型中,對產(chǎn)量值進(jìn)行了高、中、低的聚類,在此實(shí)驗(yàn)基礎(chǔ)上首先將測井、壓裂數(shù)據(jù)同高、中、低產(chǎn)量數(shù)據(jù)進(jìn)行相關(guān)性分析,主要使用皮爾遜相關(guān)性分析的方法[14]。經(jīng)過皮爾遜相關(guān)系數(shù)計(jì)算后,通過將產(chǎn)能類別與特征經(jīng)過皮爾遜相關(guān)性分析,從中篩選出若干個(gè)特征,為接下來模型的輸入做準(zhǔn)備。
由于關(guān)聯(lián)性分析算法的輸入為事物集,所以需要將篩選出的特征轉(zhuǎn)變?yōu)槭挛锛鳛镕P-Growth 算法的輸入,假設(shè)有m 個(gè)特征符合上述篩選條件,那么接下來對篩選出的m 個(gè)特征每個(gè)分別做DBSCAN 聚類運(yùn)算,因?yàn)镈BSCAN 聚類運(yùn)算無須指定聚類的簇的個(gè)數(shù)K,如若特征A 經(jīng)過DBSCAN 運(yùn)算后,輸出C 個(gè)類別,那么將特征A 的每個(gè)數(shù)據(jù)標(biāo)記為Ai,其中i∈{1,2,3,…,C},以此類推,標(biāo)記完m 個(gè)特征的所有數(shù)據(jù)后,將產(chǎn)能的高、中、低分別標(biāo)記為數(shù)字{0,1,2}。接下來,根據(jù)標(biāo)記過的數(shù)據(jù)建立煤層氣關(guān)鍵參數(shù)的FP-Growth 模型同時(shí)輸入事物數(shù)據(jù)庫,計(jì)算各個(gè)項(xiàng)集的支持度,依次構(gòu)建節(jié)點(diǎn)表與FP 樹,從FP 樹中找出頻繁項(xiàng),最終找到每個(gè)條件模式下的頻繁項(xiàng)集。綜合測井和壓裂相關(guān)資料,通過皮爾遜相關(guān)系數(shù)計(jì)算,篩選出絕對值大于0.5 的特征有6個(gè),相關(guān)參數(shù)與產(chǎn)氣量的相關(guān)性分析表如表2所示。
基于DBSCAN 的FP-Growth 關(guān)聯(lián)度分析評價(jià)模型的步驟如下:首先,對所有特征關(guān)于煤層氣產(chǎn)能高中低的值做相關(guān)性分析,計(jì)算出皮爾遜相關(guān)系數(shù),若相關(guān)系數(shù)大于0.5,則保留該特征,若小于0.5,則舍棄;其次,對保留下來的每個(gè)特征做DBSCAN 聚類,并將其聚類的結(jié)果進(jìn)行標(biāo)記;接下來根據(jù)標(biāo)記完成的結(jié)果,構(gòu)建FP-Growth 事物數(shù)據(jù)庫;再次,計(jì)算每個(gè)項(xiàng)集的支持度,并且構(gòu)建節(jié)點(diǎn)表與FP 樹;最后,由條件模式樹挖掘頻繁模式,挖掘出的頻繁模式就是對高、中、低這3 個(gè)產(chǎn)能類別的分類規(guī)則,基于DBSCAN 的FP-Growth 關(guān)聯(lián)度分析評價(jià)模型的流程圖如圖1 所示。
2 實(shí)驗(yàn)結(jié)果分析
2.1 實(shí)驗(yàn)數(shù)據(jù)
此次實(shí)驗(yàn)使用的數(shù)據(jù)來源于新疆地區(qū)煤層氣開發(fā)的真實(shí)數(shù)據(jù),一共含有156 口煤層氣井,每口井有其對應(yīng)的測井和壓裂以及排采資料,在測井資料的特征包括DEPTH(深度)、SP(自然電位)、GR(自然伽馬)、LLS(淺側(cè)向)、LLD(深側(cè)向)等,測井資料中的數(shù)據(jù)較為復(fù)雜,還有多個(gè)特征此處不再一一列出。在壓裂資料中,共有砂比、排出排量、排出累計(jì)、沙量累計(jì)、套壓等5 個(gè)特征。
2.2 基于DBSCAN的FP-Growth關(guān)聯(lián)度分析評價(jià)模型實(shí)驗(yàn)結(jié)果
將皮爾遜相關(guān)系數(shù)大于0.5的特征分別用DBSCAN算法聚類,其聚類后的結(jié)果的標(biāo)記如表3所示。
另外,將煤層氣井產(chǎn)量的低產(chǎn)、中產(chǎn)、高產(chǎn)分別標(biāo)記為0、1、2,生成的事物數(shù)據(jù)庫見表4。通過FP-Growth算法得出的關(guān)聯(lián)規(guī)則能夠幫助分析各個(gè)因素之間的關(guān)聯(lián)程度,以及特定因素在一定的范圍內(nèi)分別對高、中、低這3 種類別的產(chǎn)能的影響最大。對事物數(shù)據(jù)表進(jìn)行進(jìn)一步的分析,根據(jù)FP-Growth 算法的挖掘結(jié)果,篩選出與產(chǎn)能相關(guān)的挖掘結(jié)果(即挖掘結(jié)果中有字母O 的項(xiàng)集),共挖掘出21 個(gè)頻繁項(xiàng)集,11 條關(guān)聯(lián)規(guī)則。因篇幅有限,僅給出部分結(jié)果進(jìn)行展示,F(xiàn)P-Growth 算法挖掘得出的一些頻繁項(xiàng)集見表5。
3 結(jié)語
本文圍繞煤層氣產(chǎn)能評價(jià)體系的總結(jié),通過將聚類算法與關(guān)聯(lián)度分析結(jié)合,找出影響產(chǎn)能的重點(diǎn)因素與它們的參數(shù)范圍。本文中對所有的算法性能和實(shí)驗(yàn)結(jié)果進(jìn)行了詳細(xì)分析,實(shí)驗(yàn)過程中使用煤層氣開發(fā)中的真實(shí)數(shù)據(jù)。本文是機(jī)器學(xué)習(xí)與煤層氣開發(fā)領(lǐng)域的一次全新結(jié)合。
本文介紹了DBSCAN 算法、FP-Growth 算法,以及本文創(chuàng)新提出的基于DBSCAN 的FP-Growth 煤層氣產(chǎn)能分析算法。DBSCAN 算法是基于密度聚類的聚類算法,F(xiàn)P-Growth 是數(shù)據(jù)挖掘的算法,本文首次提出的基于DBSCAN 的FP-Growth 算法模型,首次將兩種算法巧妙結(jié)合:首先通過皮爾遜相關(guān)性分析,得到影響產(chǎn)量類別的決定性因素;其次經(jīng)過DBSCAN 算法對篩選出的每個(gè)因素進(jìn)行聚類;最后通過FP-Growth 算法模型構(gòu)建產(chǎn)量分析評價(jià)體系,最終找到影響產(chǎn)量類別的相關(guān)因素及其范圍。