






關(guān)鍵詞/主題詞:油氣資源;勘探開發(fā);工程技術(shù);石油工程;大數(shù)據(jù);數(shù)字轉(zhuǎn)型;機(jī)器學(xué)習(xí);算法
0引言
全球數(shù)字化轉(zhuǎn)型已經(jīng)成為提高生產(chǎn)效率、實(shí)現(xiàn)高質(zhì)量可持續(xù)發(fā)展的技術(shù)保障。同時(shí),數(shù)字化轉(zhuǎn)型也促進(jìn)了大數(shù)據(jù)算法在石油工程領(lǐng)域的應(yīng)用。隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,各類大數(shù)據(jù)算法不斷涌現(xiàn),然而,究竟哪些算法更適合石油工程數(shù)據(jù)的特點(diǎn),以及如何迅速找到最為合適的大數(shù)據(jù)算法,成為石油領(lǐng)域數(shù)字化轉(zhuǎn)型過程中亟待解決的關(guān)鍵問題。
1980年,阿爾文·托夫勒(AlvinToffler)在《第三次浪潮》中預(yù)言大數(shù)據(jù)時(shí)代到來。2008年,《Nature》推出了“大數(shù)據(jù)”專刊,進(jìn)一步推動(dòng)了大數(shù)據(jù)技術(shù)的廣泛應(yīng)用。國際數(shù)據(jù)公司、麥肯錫咨詢、美國國家標(biāo)準(zhǔn)和技術(shù)研究院等產(chǎn)業(yè)和學(xué)術(shù)機(jī)構(gòu)從不同的角度給出了大數(shù)據(jù)的定義[1],綜合來看,是指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)信息技術(shù)和軟硬件工具對(duì)其進(jìn)行獲取、管理和處理的巨量數(shù)據(jù)集合[2]。
大數(shù)據(jù)技術(shù)離不開算法。算法是一種通過有限步驟解決問題的方法,它能夠接收輸入、處理數(shù)據(jù)并產(chǎn)生輸出。在大數(shù)據(jù)分析中,算法能夠從海量數(shù)據(jù)中提取有價(jià)值的信息,進(jìn)行模式識(shí)別、預(yù)測分析和方案選優(yōu),大幅降低人工分析的成本。從2014年開始,隨著MongoDB、Cassandra等NoSQL數(shù)據(jù)庫開始能夠支持大規(guī)模數(shù)據(jù)的存儲(chǔ)和高效查詢,亞馬遜、谷歌和微軟等公司的云服務(wù)大幅降低數(shù)據(jù)存儲(chǔ)和計(jì)算成本,使得大數(shù)據(jù)技術(shù)更加普及。大數(shù)據(jù)應(yīng)用開始逐步覆蓋了電力、交通、金融、醫(yī)療、互聯(lián)網(wǎng)和制造業(yè)等領(lǐng)域,石油工程領(lǐng)域也不例外。為了全面了解石油工程領(lǐng)域大數(shù)據(jù)算法的應(yīng)用發(fā)展趨勢,筆者通過中國知網(wǎng)、谷粉學(xué)術(shù)和百度學(xué)術(shù)等文獻(xiàn)數(shù)據(jù)庫,調(diào)研了自2014年起10年內(nèi)國內(nèi)外石油工程領(lǐng)域涉及大數(shù)據(jù)算法研究和應(yīng)用的核心期刊文獻(xiàn)。
2014年,李明鑫等基于蟻群算法構(gòu)建了油氣管道系統(tǒng)設(shè)備故障概率預(yù)測模型,實(shí)現(xiàn)了管道系統(tǒng)投資的最小化和系統(tǒng)可靠性的最大化[3]。錢慧芳等采用BP(BackPropagation)神經(jīng)網(wǎng)絡(luò)對(duì)一種新型雙遠(yuǎn)場電磁聚焦測厚儀的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理,實(shí)現(xiàn)了石油套管破損的實(shí)時(shí)監(jiān)測[4]。
2015年,馬林茂等將遺傳算法與BP神經(jīng)網(wǎng)絡(luò)結(jié)合,優(yōu)化了BP神經(jīng)網(wǎng)絡(luò)的連接權(quán)值和閾值,并應(yīng)用于大慶油田高含水階段的油田產(chǎn)量預(yù)測,提升了復(fù)雜地質(zhì)條件下的預(yù)測精度[5]。
2016年,田亞鵬等采用遺傳算法對(duì)BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行改進(jìn),實(shí)現(xiàn)了頁巖氣產(chǎn)量遞減的精確預(yù)測[6]。
2017年,Li等基于核主成分分析和支持向量機(jī)構(gòu)建了天然氣管道中閥門的泄漏檢測方案,實(shí)現(xiàn)天然氣管道中閥門的泄漏檢測[7]。劉佳佳等采用遺傳算法對(duì)二氧化碳管道運(yùn)輸進(jìn)行了優(yōu)化設(shè)計(jì),實(shí)現(xiàn)了遺傳算法在管輸系統(tǒng)方案優(yōu)化的有效應(yīng)用[8]。
2018年,陳一諾等結(jié)合GIS系統(tǒng)的監(jiān)測數(shù)據(jù),利用隨機(jī)森林模型對(duì)管道缺陷進(jìn)行分級(jí)預(yù)測,證明了隨機(jī)森林模型不僅能準(zhǔn)確評(píng)估管道缺陷的風(fēng)險(xiǎn)等級(jí),還可以通過重要性分析識(shí)別影響管道安全的關(guān)鍵因素[9]。
2019年,劉勝娃等基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)開發(fā)了定向井機(jī)械鉆速的預(yù)測模型[10]。周游等使用核主成分分析法識(shí)別了濁積巖巖性,識(shí)別準(zhǔn)確率達(dá)到90%[11]。陳小龍等采用遺傳算法和粒子群算法優(yōu)化神經(jīng)網(wǎng)絡(luò)模型,有效預(yù)測了氣體輔助重力泄油非混相開發(fā)油藏的采收率[12]。劉彪等采用支持向量機(jī)對(duì)鉆井過程中的井漏參數(shù)進(jìn)行主控因素尋優(yōu),實(shí)現(xiàn)井漏預(yù)警和井漏風(fēng)險(xiǎn)評(píng)估,有效降低了鉆井成本,提高了鉆井效率[13]。
黃知娟等利用剝繭尋根算法,無人為干預(yù)地確定了12項(xiàng)影響產(chǎn)量因素之間的定量關(guān)系,找出了順北油田SHB-X井試采產(chǎn)液量驟降原因[14]。
2020年,徐磊等提出了一種將改進(jìn)粒子群算法與BP神經(jīng)網(wǎng)絡(luò)結(jié)合的模型,針對(duì)我國3條原油管道進(jìn)行了準(zhǔn)確性評(píng)估,平均絕對(duì)百分誤差分別為4.02%、3.58%和3.88%[15]。Kim等使用對(duì)抗神經(jīng)網(wǎng)絡(luò)法構(gòu)建了地震波速預(yù)測模型,斷層識(shí)別的準(zhǔn)確度達(dá)到了92%[16]。Chen等結(jié)合隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò),建立了多層記憶網(wǎng)絡(luò)模型,實(shí)現(xiàn)了對(duì)致密砂巖孔隙度的高精度預(yù)測[17]。賈德利等使用隨機(jī)森林算法,構(gòu)建定性分析注水調(diào)整方向模型,實(shí)現(xiàn)了老油田的精細(xì)注水優(yōu)化,精準(zhǔn)預(yù)測了目標(biāo)區(qū)塊的產(chǎn)量遞減率和含水上升率[18]。王洪亮等提出綜合循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)和長短時(shí)記憶網(wǎng)絡(luò)(LongShortTermMemory,LSTM)算法的特高含水期產(chǎn)量預(yù)測模型,產(chǎn)量預(yù)測準(zhǔn)確度達(dá)92.3%[19]。張軍華等采用支持向量機(jī)結(jié)合交叉驗(yàn)證的方法,解決東營凹陷深部儲(chǔ)層埋深大,儲(chǔ)層預(yù)測困難的問題[20]。Wang等提出了一種基于無監(jiān)督的聚類和統(tǒng)計(jì)檢驗(yàn)的方法,實(shí)現(xiàn)了完全數(shù)據(jù)驅(qū)動(dòng)的管道集群高風(fēng)險(xiǎn)管道和低風(fēng)險(xiǎn)管道的事故率風(fēng)險(xiǎn)定量評(píng)估[21]。
2021年,楊午陽等基于U-Net深度學(xué)習(xí)網(wǎng)絡(luò)模型,有效解決了不規(guī)則數(shù)據(jù)體環(huán)境下的斷層識(shí)別問題[22]。鄭力會(huì)等通過剝繭算法篩選出影響平均漏失速率的17個(gè)主要因素,為理想控漏提供數(shù)據(jù)支撐[23]。田高鵬等應(yīng)用自組織神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了地震油氣藏分布預(yù)測,其結(jié)果與實(shí)際吻合度高達(dá)94.1%[24]。谷宇峰等將GSLightGBM機(jī)器學(xué)習(xí)模型應(yīng)用于姬塬油田致密砂巖巖性識(shí)別中,算法的識(shí)別精準(zhǔn)度超90%[25]。Pirizadeh等研發(fā)了一種綜合隨機(jī)森林與決策樹兩種算法優(yōu)勢的采收率預(yù)測模型,規(guī)避大數(shù)據(jù)處理中的局部最優(yōu)解問題[26]。Cheraghi等采用遺傳算法、人工神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)等算法對(duì)提高采收率技術(shù)進(jìn)行篩選,得出人工神經(jīng)網(wǎng)絡(luò)效果最優(yōu),準(zhǔn)確度超92%[27]。Wang等基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別模型識(shí)別三維屬性建模下的剩余油宏觀分布和微觀富集狀態(tài),解決了常規(guī)測井交會(huì)圖無法在致密砂巖儲(chǔ)層識(shí)別中應(yīng)用的難題[28]。何佑偉等采用聚類分析法、隨機(jī)森林算法預(yù)測不同頁巖氣井產(chǎn)量,實(shí)現(xiàn)了頁巖氣井產(chǎn)量的精準(zhǔn)預(yù)測[29]。李謙等使用BP神經(jīng)網(wǎng)絡(luò)結(jié)合10折交叉驗(yàn)證法,分別就低、中、高相關(guān)性參數(shù)建立了不同的鉆速預(yù)測模型,預(yù)測精度較高[30]。陶杉等利用剝繭尋根算法,通過多元回歸和削元法找出了順北碳酸鹽巖儲(chǔ)層開采過程中井壁坍塌主控因素,為深層油氣開發(fā)過程中控制井壁穩(wěn)定提供了解決辦法[31]。曹繼飛等利用主成分分析法,通過對(duì)聲波測井?dāng)?shù)據(jù)的降維處理,消除了不同裂縫識(shí)別方法之間的偏差,建立了碳酸鹽巖裂縫識(shí)別模型,提高了裂縫預(yù)測的準(zhǔn)確性[32]。
2022年,F(xiàn)ang等引入貝葉斯分類器和自適應(yīng)雙鏈量子遺傳算法,優(yōu)化了BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,提高了巖石可鉆性預(yù)測的精度[33]。Wei等將生成對(duì)抗網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)與決策樹算法結(jié)合,形成了一個(gè)三維地震油藏預(yù)測模型,極大減少了人工解釋的反演計(jì)算時(shí)間[34]。王澤龍等提出了基于反向神經(jīng)網(wǎng)絡(luò)的采收率預(yù)測模型,并成功應(yīng)用于蓬萊油田600余口注水井的采收率預(yù)測[35]。Loomba等使用基于遺傳算法優(yōu)化的聚類學(xué)習(xí)算法,對(duì)閉環(huán)油田開發(fā)工作流程進(jìn)行優(yōu)化,優(yōu)化方案時(shí)效性遠(yuǎn)勝于傳統(tǒng)油田開發(fā)方案[36]。侯亞偉等建立了反向傳播神經(jīng)網(wǎng)絡(luò)采收率預(yù)測模型,針對(duì)蓬萊19-3油田625組數(shù)據(jù)建立采收率預(yù)測人工神經(jīng)網(wǎng)絡(luò)模型,發(fā)現(xiàn)125組測試數(shù)據(jù)平均相對(duì)誤差為0.16%[37]。肖陽等創(chuàng)新運(yùn)用了皮爾遜和斯皮爾曼大數(shù)據(jù)相關(guān)性分析方法,完成了區(qū)塊產(chǎn)量差異性研究[38]。薛永超等以深度隨機(jī)森林算法為基礎(chǔ)構(gòu)建了油井產(chǎn)量預(yù)測模型,產(chǎn)量預(yù)測準(zhǔn)確度達(dá)92.31%[39]。王兵等采用支持度矩陣Apriori算法對(duì)鉆井作業(yè)事故隱患進(jìn)行識(shí)別,實(shí)現(xiàn)了對(duì)鉆井事故的風(fēng)險(xiǎn)控制[40]。肖榮鴿等通過灰色關(guān)聯(lián)分析確定主要影響因素,構(gòu)建了適用于管道腐蝕速率預(yù)測的灰色模型,模型精度較高[41]。姜雪等結(jié)合沉積微相、粗粒相帶及成巖相分布特征,基于灰色預(yù)測模型建立了儲(chǔ)層構(gòu)型預(yù)測模型,儲(chǔ)層識(shí)別準(zhǔn)確率較高[42]。
2023年,孔令維等使用K近鄰算法處理缺失數(shù)據(jù),并通過長短時(shí)記憶網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)油井產(chǎn)量的預(yù)測,提升了油田經(jīng)濟(jì)效益[43]。蒲堡萍等構(gòu)建了14種機(jī)器學(xué)習(xí)基礎(chǔ)模型,并以此預(yù)測低滲透砂巖聚合物驅(qū)油實(shí)驗(yàn)的效率,結(jié)果表明,多層感知機(jī)(multi-layerperception,MLP)、隨機(jī)樹(randomforest,RF)和極限梯度上升(extremegradientboosting,XGB)模型表現(xiàn)最佳[44]。羅雙平等利用Pearson相關(guān)系數(shù)定性分析法研究了影響鉆井提速的關(guān)鍵因素,該方法有效指導(dǎo)了鉆井提速[45]。郭秋麟等提出基于貝葉斯網(wǎng)絡(luò)的油氣勘探風(fēng)險(xiǎn)預(yù)測方法,準(zhǔn)確率達(dá)到85.22%[46]。鄧增利等利用深度學(xué)習(xí)圖像識(shí)別算法對(duì)海上平臺(tái)工作人員安全帽佩戴及不安全行為進(jìn)行識(shí)別,實(shí)現(xiàn)了井口平臺(tái)無人駐守、遠(yuǎn)程操作[47]。盛科鳴等采用隨機(jī)森林算法建立了油氣層的敏感性損害預(yù)測模型,預(yù)測精度高達(dá)95.68%[48]。李常友采用改進(jìn)遺傳算法建立天然氣集輸管網(wǎng)的參數(shù)優(yōu)化設(shè)計(jì)模型,有效提高了案例工程項(xiàng)目管網(wǎng)的運(yùn)行效率[49]。
2024年,柴天祥等運(yùn)用Apriori算法對(duì)油氣勘探事故發(fā)生階段、事故類型和事故后果展開了關(guān)聯(lián)規(guī)則分析,構(gòu)建了事故致因復(fù)雜網(wǎng)絡(luò)模型,為油氣勘探風(fēng)險(xiǎn)評(píng)估提供支持[50]。楊子杰等采用多層感知器神經(jīng)網(wǎng)絡(luò)方法對(duì)油氣資源豐度進(jìn)行定量預(yù)測,有效識(shí)別了影響油氣資源豐度主要地質(zhì)因素[51]。田龍等提出了基于測井大數(shù)據(jù)和無監(jiān)督聚類算法的連續(xù)地層可鉆性評(píng)估方法,實(shí)現(xiàn)了對(duì)地層可鉆性的有效評(píng)估[52]。白生勇運(yùn)用BP神經(jīng)網(wǎng)絡(luò)優(yōu)選單井硬件設(shè)備匹配方案,使電動(dòng)機(jī)平均裝機(jī)功率下降了13.29%,降低了抽油機(jī)井的維修維護(hù)性成本[53]。何旭晟等采用剝繭算法從138項(xiàng)工程數(shù)據(jù)中篩選出影響漏失的主控因素16項(xiàng),二次井漏點(diǎn)預(yù)測符合率達(dá)到80%[54]。王東海等利用遺傳算法,創(chuàng)建了便于尋優(yōu)的不規(guī)則管道系統(tǒng)避振優(yōu)化模型,從而有效避開激振源頻率實(shí)現(xiàn)避振優(yōu)化[55]。柏躍屹等基于YOLOV7及改進(jìn)的卷積算法,建立井下高壓場景安全識(shí)別模型,提高了傳統(tǒng)模型在遮擋或者缺失畫面的魯邦性,識(shí)別精度可達(dá)97.3%[56]。對(duì)近10年石油工程領(lǐng)域大數(shù)據(jù)算法應(yīng)用文章發(fā)布時(shí)間及數(shù)量進(jìn)行統(tǒng)計(jì)分析,如圖1所示。
從圖1可以看出,近10年大數(shù)據(jù)算法在石油工程領(lǐng)域的應(yīng)用研究文獻(xiàn)數(shù)量呈現(xiàn)出逐年增長的趨勢,尤其是2021年達(dá)到高峰。2014—2018年屬于大數(shù)據(jù)的啟萌階段,該領(lǐng)域在這幾年研究活動(dòng)相對(duì)較少。從2019年開始,文獻(xiàn)數(shù)量顯著增加,2020至今,每年都有較多相關(guān)文章發(fā)布。這一趨勢表明,隨著時(shí)間的推移,大數(shù)據(jù)算法在石油工程中的應(yīng)用越來越受到關(guān)注和研究,尤其是在2020年之后,研究活動(dòng)顯著增加。近十年來,尤其是機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和數(shù)據(jù)挖掘等大數(shù)據(jù)算法迅速發(fā)展,研究人員和工程師們能夠更好地利用這些工具來解決復(fù)雜的問題。
大數(shù)據(jù)技術(shù)的迅猛發(fā)展帶動(dòng)了大數(shù)據(jù)算法的發(fā)展,據(jù)統(tǒng)計(jì),目前常用的大數(shù)據(jù)核心算法超30多種。從文獻(xiàn)統(tǒng)計(jì)數(shù)據(jù)來看,收集的近10年涉及石油領(lǐng)域大數(shù)據(jù)算法應(yīng)用的53篇文獻(xiàn)中,包含了14種大數(shù)據(jù)算法。層出不窮的大數(shù)據(jù)算法使得很多學(xué)者在選擇大數(shù)據(jù)算法解決具體問題時(shí),由于范圍太大,面臨算法選擇相關(guān)性不好、花費(fèi)時(shí)間長、算法試錯(cuò)時(shí)間成本高等問題。因此,進(jìn)行系統(tǒng)的算法分類顯得尤為必要。
目前,關(guān)于大數(shù)據(jù)算法的分類有兩種。一種是依據(jù)模型訓(xùn)練方式,將算法分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。另一種是依據(jù)算法所解決的任務(wù)類型,將其分為分類算法、回歸算法、聚類算法和異常檢測算法。這些分類方法雖然幫助應(yīng)用者區(qū)分了算法的訓(xùn)練方式和任務(wù)類型,但在具體的石油工程應(yīng)用中,仍未能有效解決如何選擇合適算法的難題。在選擇大數(shù)據(jù)算法時(shí),傳統(tǒng)的分類方法有兩種,見表1。
從表1中可以看出,按模型訓(xùn)練方式分類,主要關(guān)注算法的訓(xùn)練機(jī)制,而非其實(shí)際應(yīng)用場景。在石油工程領(lǐng)域,不同的應(yīng)用場景具有非常具體的需求,例如勘探階段需要處理地質(zhì)數(shù)據(jù),而開發(fā)階段則需要優(yōu)化生產(chǎn)參數(shù)。僅僅根據(jù)訓(xùn)練方式進(jìn)行分類,難以幫助研究人員快速匹配算法與具體應(yīng)用場景。這種分類方式的局限在于,研究人員根據(jù)理論適用于特定的數(shù)據(jù)類型或任務(wù)而選擇的某種算法,但在實(shí)際應(yīng)用中并不適用該領(lǐng)域的具體問題。按照算法解決任務(wù)的類型進(jìn)行分類的方式,主要基于算法的輸出形式,而沒有考慮到石油工程領(lǐng)域的復(fù)雜性和多樣性,不符合石油工程中實(shí)際操作的復(fù)雜背景。另外,在傳統(tǒng)分類方法下,研究人員在查找和篩選相關(guān)文獻(xiàn)時(shí),往往需要瀏覽大量與其研究方向不相關(guān)的內(nèi)容,導(dǎo)致效率低下。這種情況下,文獻(xiàn)的相關(guān)性較低,增加了研究人員選擇合適算法的難度。按照應(yīng)用領(lǐng)域?qū)Υ髷?shù)據(jù)算法進(jìn)行分類,分類標(biāo)準(zhǔn)和分類內(nèi)容更符合石油工程具體需求和應(yīng)用場景,因此能更好地滿足石油工程算法檢索的需求。
根據(jù)石油工程的具體應(yīng)用需求,本文提出了一種基于應(yīng)用領(lǐng)域的大數(shù)據(jù)算法分類方法,將石油工程大數(shù)據(jù)算法按勘探、開發(fā)、生產(chǎn)及儲(chǔ)運(yùn)四大領(lǐng)域進(jìn)行分類。這種分類方法不僅能夠幫助科研工作者高效且準(zhǔn)確地找到適用的算法,還為大數(shù)據(jù)算法在石油領(lǐng)域的廣泛應(yīng)用提供了方法借鑒。
1方法過程
1.1室內(nèi)研究
為了實(shí)現(xiàn)對(duì)石油工程大數(shù)據(jù)算法的分類,首先通過文獻(xiàn)調(diào)研,結(jié)合石油工程廣泛認(rèn)可的勘探、開發(fā)、生產(chǎn)和儲(chǔ)運(yùn)四個(gè)領(lǐng)域,將石油工程領(lǐng)域大數(shù)據(jù)算法分為勘探領(lǐng)域算法、開發(fā)領(lǐng)域算法、生產(chǎn)領(lǐng)域算法和儲(chǔ)運(yùn)領(lǐng)域算法四類,并依據(jù)各領(lǐng)域的定義及其主要工作內(nèi)容,明確了四類算法的概念和內(nèi)涵。在此分類標(biāo)準(zhǔn)的基礎(chǔ)上,對(duì)收集到的石油工程大數(shù)據(jù)算法應(yīng)用文獻(xiàn)進(jìn)行了歸類。通過分析文獻(xiàn)的標(biāo)題、摘要、關(guān)鍵詞及主要內(nèi)容,匹配符合分類標(biāo)準(zhǔn)的關(guān)鍵內(nèi)容,將文獻(xiàn)劃入相應(yīng)的領(lǐng)域算法類別,并進(jìn)一步整理涉及的大數(shù)據(jù)算法,最終形成了基于應(yīng)用領(lǐng)域的石油工程大數(shù)據(jù)算法分類方法。
1.1.1油氣勘探領(lǐng)域大數(shù)據(jù)算法分類
油氣勘探旨在識(shí)別勘探區(qū)域并確定油氣儲(chǔ)量,涉及地質(zhì)調(diào)查、地球物理勘探、鉆探等活動(dòng)。勘探領(lǐng)域常用的原理包括地震地層學(xué)和數(shù)值模擬技術(shù),主要方法有地震勘探和重力勘探等。該領(lǐng)域的研究內(nèi)容主要涵蓋地質(zhì)勘查、地球物理勘探、地球化學(xué)勘探、試井及采樣。
因此,勘探領(lǐng)域大數(shù)據(jù)算法主要是指利用勘探活動(dòng)中產(chǎn)生的多類型、高維度和高復(fù)雜性數(shù)據(jù)(地震數(shù)據(jù)、地質(zhì)數(shù)據(jù)、測井?dāng)?shù)據(jù)等),通過噪聲去除、數(shù)據(jù)標(biāo)準(zhǔn)化等方法,識(shí)別和提取有用地質(zhì)特征,解決勘探領(lǐng)域工程問題的過程。目前,勘探領(lǐng)域常用的大數(shù)據(jù)算法包括主成分分析、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等7種算法,分布于10篇相關(guān)文獻(xiàn)。
(1)主成分分析。主要用于巖性識(shí)別。在地質(zhì)勘探中,主成分分析通過減少數(shù)據(jù)維度,提取出對(duì)巖性分類最有影響的變量,幫助地質(zhì)學(xué)家識(shí)別不同的巖石類型,如周游等發(fā)表的文獻(xiàn)。
(2)神經(jīng)網(wǎng)絡(luò)。應(yīng)用于波速預(yù)測、斷層檢測、儲(chǔ)層預(yù)測和油氣資源豐度預(yù)測。神經(jīng)網(wǎng)絡(luò)能夠通過學(xué)習(xí)復(fù)雜的非線性關(guān)系,對(duì)地震數(shù)據(jù)進(jìn)行處理,預(yù)測地層的物理屬性,從而提高勘探精度。例如,深度神經(jīng)網(wǎng)絡(luò)被用于斷層檢測和儲(chǔ)層預(yù)測,顯著提高了識(shí)別的準(zhǔn)確性,如Kim、楊午陽、田高鵬、楊子杰等發(fā)表的文獻(xiàn)。
(3)支持向量機(jī)。用于儲(chǔ)層預(yù)測。支持向量機(jī)能夠在高維空間中找到最佳的分類邊界,幫助識(shí)別地下儲(chǔ)層的分布情況,特別是在數(shù)據(jù)稀疏或存在噪聲的情況下表現(xiàn)出色,如張軍華等發(fā)表的文獻(xiàn)。
(4)粒子群算法。應(yīng)用于巖性識(shí)別。粒子群算法通過模擬鳥群覓食的行為,尋找最優(yōu)解,幫助識(shí)別復(fù)雜地質(zhì)環(huán)境下的巖性,如谷宇峰等發(fā)表的文獻(xiàn)。
(5)決策樹算法。用于地震油藏預(yù)測。決策樹通過遞歸地分割數(shù)據(jù),建立簡單的決策規(guī)則,幫助預(yù)測地震數(shù)據(jù)中的油藏分布,如Wei等發(fā)表的文獻(xiàn)。
(6)貝葉斯網(wǎng)絡(luò)。用于油氣勘探風(fēng)險(xiǎn)預(yù)測。貝葉斯網(wǎng)絡(luò)通過結(jié)合先驗(yàn)知識(shí)與數(shù)據(jù)觀測,量化勘探過程中的風(fēng)險(xiǎn),為決策提供科學(xué)依據(jù),如郭秋麟等發(fā)表的文獻(xiàn)。
(7)關(guān)聯(lián)規(guī)則算法。用于油氣勘探開發(fā)事故分析。關(guān)聯(lián)規(guī)則分析能夠識(shí)別出勘探開發(fā)過程中不同事故因素之間的關(guān)聯(lián)關(guān)系,幫助改進(jìn)安全管理,如柴天祥等發(fā)表的文獻(xiàn)。
1.1.2油氣開發(fā)領(lǐng)域大數(shù)據(jù)算法分類
油氣開發(fā)是指在確認(rèn)油氣田后,進(jìn)行井位設(shè)計(jì)、鉆井和完井等準(zhǔn)備工作,以便將油氣資源從地下儲(chǔ)層中有效地開采出來。其基本內(nèi)容是在油藏描述建立地質(zhì)模型和油藏工程模型的基礎(chǔ)上,研究有效的驅(qū)油機(jī)制及驅(qū)動(dòng)方式,預(yù)測未來動(dòng)態(tài),提出改善開發(fā)效果的方法和技術(shù),以達(dá)到提高采收率的目的。該領(lǐng)域的研究內(nèi)容主要涵蓋鉆井、完井、壓裂、提高采收率等。
因此,開發(fā)領(lǐng)域大數(shù)據(jù)算法是指利用油氣田開發(fā)過程中產(chǎn)生的高實(shí)時(shí)、多來源數(shù)據(jù)(鉆井參數(shù)、地層壓力、溫度數(shù)據(jù)等),通過精確的實(shí)時(shí)或近實(shí)時(shí)方式處理數(shù)據(jù),解決與油氣資源開采效率、井位設(shè)計(jì)、鉆井完井和壓裂等相關(guān)的工程問題的過程。開發(fā)領(lǐng)域大數(shù)據(jù)算法主要包括神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、遺傳算法、關(guān)聯(lián)規(guī)則算法、圖像識(shí)別等5種算法,分布于15篇相關(guān)文獻(xiàn)。
(1)神經(jīng)網(wǎng)絡(luò)。廣泛應(yīng)用于鉆井機(jī)械鉆速預(yù)測、油藏采收率預(yù)測等。神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)復(fù)雜的非線性關(guān)系,在鉆井和油藏開發(fā)的動(dòng)態(tài)預(yù)測中表現(xiàn)出色。例如,BP神經(jīng)網(wǎng)絡(luò)被用于石油套管破損檢測和鉆井機(jī)械鉆速預(yù)測,有效提高了預(yù)測精度,如錢慧芳、劉勝娃、陳小龍等發(fā)表的文獻(xiàn)。
(2)隨機(jī)森林。用于孔隙度預(yù)測和頁巖氣井產(chǎn)量評(píng)價(jià)、巖相測井識(shí)別等。隨機(jī)森林算法通過集成多棵決策樹,增強(qiáng)了模型的穩(wěn)定性和預(yù)測準(zhǔn)確性,特別是在復(fù)雜地質(zhì)條件下表現(xiàn)突出,如Chen、薛永超等發(fā)表的文獻(xiàn)。
(3)遺傳算法。應(yīng)用于開發(fā)流程優(yōu)化和井位及注采參數(shù)聯(lián)合優(yōu)化。遺傳算法通過模擬自然進(jìn)化過程,優(yōu)化開發(fā)方案和采收率預(yù)測,幫助工程師在多種可能方案中找到最優(yōu)解,如Fang、LOOMBAAK等發(fā)表的文獻(xiàn)。
(4)關(guān)聯(lián)規(guī)則算法。用于鉆井隱患關(guān)聯(lián)挖掘和鉆速預(yù)測。關(guān)聯(lián)規(guī)則分析幫助識(shí)別開發(fā)過程中潛在的風(fēng)險(xiǎn)因素,并提供改進(jìn)建議,如王兵、羅雙平等發(fā)表的文獻(xiàn)。
(5)圖像識(shí)別。主要用于電成像測井圖像修復(fù)和生產(chǎn)過程中的視覺識(shí)別。通過圖像識(shí)別技術(shù),工程師可以快速識(shí)別和分析地下結(jié)構(gòu)和井壁情況,提高了開發(fā)過程的可視化管理水平,如柏躍屹等發(fā)表的文獻(xiàn)。
1.1.3油氣生產(chǎn)領(lǐng)域大數(shù)據(jù)算法分類
油氣生產(chǎn)是指油氣從地下儲(chǔ)層通過井筒采集到地面的過程,這一階段涉及采油、采氣、井口管理等活動(dòng)。生產(chǎn)涉及油氣資源的實(shí)際采集和管理,包括重復(fù)壓裂、二次完井、采油和采氣技術(shù)等。
因此,油氣生產(chǎn)領(lǐng)域大數(shù)據(jù)算法是指利用油氣生產(chǎn)過程中產(chǎn)生的高頻率、多來源、小條目數(shù)據(jù)進(jìn)行歷史關(guān)聯(lián)和預(yù)測,解決與生產(chǎn)過程控制、產(chǎn)量預(yù)測、風(fēng)險(xiǎn)管理等相關(guān)的工程問題的過程。油氣生產(chǎn)領(lǐng)域所使用的大數(shù)據(jù)算法包括進(jìn)化算法、灰色理論預(yù)測算法、主成分分析等8種算法,分布于19篇相關(guān)文獻(xiàn)。
(1)遺傳算法。主要用于原油產(chǎn)量預(yù)測和生產(chǎn)過程優(yōu)化。遺傳算法通過模擬自然選擇過程,優(yōu)化油田生產(chǎn)參數(shù),提升產(chǎn)量預(yù)測的準(zhǔn)確性和生產(chǎn)過程的穩(wěn)定性。例如,遺傳算法被用于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行產(chǎn)量預(yù)測,成功提升了預(yù)測精度,如馬林茂、田亞鵬、龍文等發(fā)表的文獻(xiàn)。
(2)支持向量機(jī)。用于井漏預(yù)測和鉆井作業(yè)中的風(fēng)險(xiǎn)評(píng)估。支持向量機(jī)能夠在高維空間中尋找最佳分類邊界,有效用于井漏等關(guān)鍵生產(chǎn)風(fēng)險(xiǎn)的識(shí)別和預(yù)警,如劉彪等發(fā)表的文獻(xiàn)。
(3)剝繭算法。應(yīng)用于油井產(chǎn)量下降原因分析和井眼穩(wěn)定性預(yù)測等。剝繭算法通過層層分析復(fù)雜的數(shù)據(jù)關(guān)系,幫助工程師識(shí)別生產(chǎn)中的潛在問題,并制定針對(duì)性的解決方案,如鄭力會(huì)、魏攀峰、陶杉等發(fā)表的文獻(xiàn)。
(4)隨機(jī)森林。可以用于預(yù)測油井或氣井的生產(chǎn)率、油井工作狀態(tài)監(jiān)測、多相流動(dòng)監(jiān)控與優(yōu)化、油氣層敏感性損害預(yù)測、老油田精細(xì)注水優(yōu)化等。隨機(jī)森林算法基于歷史生產(chǎn)數(shù)據(jù)、壓力、溫度等參數(shù),能夠識(shí)別影響生產(chǎn)的關(guān)鍵因素,幫助優(yōu)化生產(chǎn)計(jì)劃和資源配置。如賈德利、盛科鳴等發(fā)表的文獻(xiàn)。
(5)神經(jīng)網(wǎng)絡(luò)。用于油氣產(chǎn)量預(yù)測、儲(chǔ)層特性預(yù)測、生產(chǎn)參數(shù)優(yōu)化、油井含水率預(yù)測等。神經(jīng)網(wǎng)絡(luò)算法可以利用油井歷史生產(chǎn)數(shù)據(jù)進(jìn)行油氣產(chǎn)量的預(yù)測,尤其是在存在多個(gè)非線性影響因素的情況下表現(xiàn)出色。通過訓(xùn)練網(wǎng)絡(luò)模型,算法能夠在復(fù)雜的生產(chǎn)環(huán)境中實(shí)現(xiàn)油田采收率快速預(yù)測。如Wang、侯亞偉等發(fā)表的文獻(xiàn)。
(6)進(jìn)化算法。用于油藏歷史擬合。進(jìn)化算法模擬生物進(jìn)化過程中的變異和選擇,優(yōu)化油藏管理方案,如王澤龍等發(fā)表的文獻(xiàn)。
(7)灰色理論預(yù)測算法。用于解決數(shù)據(jù)不足的情況下的預(yù)測問題,在油氣生產(chǎn)中,可以利用灰色理論對(duì)儲(chǔ)層的含油程度、分布狀況、物性、產(chǎn)能大小及非均質(zhì)性作出全面的綜合評(píng)價(jià)。如姜雪等發(fā)表的文獻(xiàn)。
(8)主成分分析。主要用于數(shù)據(jù)降維、特征提取和去噪方面,能夠幫助處理復(fù)雜的多變量數(shù)據(jù)集。油氣生產(chǎn)中往往會(huì)產(chǎn)生大量的多維數(shù)據(jù),主成分分析能提取代表性重要成分,可用于儲(chǔ)層特征分析、鉆井參數(shù)優(yōu)化、壓裂參數(shù)優(yōu)化等,如曹繼飛、肖陽等發(fā)表的文獻(xiàn)。
1.1.4油氣儲(chǔ)運(yùn)領(lǐng)域大數(shù)據(jù)算法分類
油氣儲(chǔ)運(yùn)涉及將開采出的油氣進(jìn)行儲(chǔ)存和運(yùn)輸,確保油氣能夠安全、高效地輸送至煉油廠或終端用戶。儲(chǔ)運(yùn)領(lǐng)域包括儲(chǔ)罐管理、管道運(yùn)輸和物流調(diào)度等環(huán)節(jié)。
因此,油氣儲(chǔ)運(yùn)領(lǐng)域大數(shù)據(jù)算法是指對(duì)儲(chǔ)罐管理、管道運(yùn)輸和物流調(diào)度等環(huán)節(jié)產(chǎn)生的高安全性、長周期連續(xù)性數(shù)據(jù)進(jìn)行歷史追溯和實(shí)時(shí)分析,解決與油氣安全高效運(yùn)輸、能耗管理、風(fēng)險(xiǎn)預(yù)測等相關(guān)的工程問題的過程。油氣儲(chǔ)運(yùn)領(lǐng)域大數(shù)據(jù)算法主要包括蟻群算法、遺傳算法、神經(jīng)網(wǎng)絡(luò)算法7種算法,分布于9篇相關(guān)文獻(xiàn)。
(1)蟻群算法。用于油氣管道預(yù)警系統(tǒng)優(yōu)化。蟻群算法通過模擬螞蟻在覓食過程中尋找最短路徑的行為,優(yōu)化管道運(yùn)輸路徑,提高了油氣管道運(yùn)輸?shù)陌踩院托剩缋蠲黯蔚劝l(fā)表的文獻(xiàn)。
(2)遺傳算法。廣泛應(yīng)用于管道運(yùn)輸優(yōu)化設(shè)計(jì)、天然氣管道避振優(yōu)化和流量分配。遺傳算法通過模擬自然進(jìn)化過程,優(yōu)化管道系統(tǒng)的設(shè)計(jì)和運(yùn)行參數(shù),確保油氣運(yùn)輸?shù)母咝院桶踩裕鐒⒓鸭选⒑涡耜伞⑼鯑|海、李常友等發(fā)表的文獻(xiàn)。
(3)神經(jīng)網(wǎng)絡(luò)。用于原油管輸能耗預(yù)測,管道腐蝕速度預(yù)測。神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)大量的歷史數(shù)據(jù),能夠精確預(yù)測管道運(yùn)輸中的能耗,幫助制定節(jié)能策略,如徐磊等發(fā)表的文獻(xiàn)。
(4)貝葉斯網(wǎng)絡(luò)。應(yīng)用于管道事故風(fēng)險(xiǎn)評(píng)估。貝葉斯網(wǎng)絡(luò)通過概率推理,量化管道事故的發(fā)生概率和影響范圍,為管道安全管理提供科學(xué)依據(jù),如Wang等發(fā)表的文獻(xiàn)。
(5)主成分分析。用于天然氣管道閥門泄漏檢測和成品油管道缺陷綜合分析。主成分分析幫助識(shí)別管道系統(tǒng)中潛在的故障點(diǎn),建立多個(gè)因素之間的復(fù)雜關(guān)系,提供全面的風(fēng)險(xiǎn)評(píng)估,如Li等發(fā)表的文獻(xiàn)。
(6)隨機(jī)森林。用于分析各指標(biāo)對(duì)管道缺陷的影響程度,具有指標(biāo)重要度評(píng)估功能,模型的評(píng)判精度、分級(jí)結(jié)果準(zhǔn)確,數(shù)據(jù)挖掘能力很強(qiáng)。將隨機(jī)森林模型與GIS技術(shù)結(jié)合,能更好地預(yù)測管道缺陷,從而采取相應(yīng)的控制措施,如陳一諾等發(fā)表的文獻(xiàn)。
(7)灰色理論預(yù)測算法。用于管道腐蝕預(yù)測、油氣儲(chǔ)存罐壽命預(yù)測等。灰色理論可以通過歷史監(jiān)測數(shù)據(jù)(如壓力、溫度、應(yīng)力、腐蝕、介質(zhì)組成、變形數(shù)據(jù))分析其衰退速度和管道腐蝕趨勢,進(jìn)而制定合理的維修或更換計(jì)劃。如肖榮鴿等發(fā)表的文獻(xiàn)。
綜上所述,通過將石油大數(shù)據(jù)算法按領(lǐng)域分類,不但可以從需求出發(fā)尋找合適的算法,也可以從算法出發(fā)了解其適用范圍,很大程度上方便了科研人員檢索算法。
1.2現(xiàn)場應(yīng)用
在對(duì)過去十年石油工程領(lǐng)域的大數(shù)據(jù)算法相關(guān)文獻(xiàn)進(jìn)行系統(tǒng)收集與分析的基礎(chǔ)上,共收集了53篇文獻(xiàn),依據(jù)1.1節(jié)所述的分類方法,將這些文獻(xiàn)分為勘探、開發(fā)、生產(chǎn)和儲(chǔ)運(yùn)四大類。其中,涉及勘探領(lǐng)域的文獻(xiàn)數(shù)量為10篇,開發(fā)領(lǐng)域15篇,生產(chǎn)領(lǐng)域19篇,儲(chǔ)運(yùn)領(lǐng)域9篇。
四類文獻(xiàn)中,生產(chǎn)領(lǐng)域的文獻(xiàn)數(shù)量最多,達(dá)到19篇,占總文獻(xiàn)的36%。這表明在石油生產(chǎn)環(huán)節(jié)中,大數(shù)據(jù)算法的應(yīng)用研究最為活躍,因?yàn)樯a(chǎn)階段涉及的數(shù)據(jù)量大且復(fù)雜,需要更為先進(jìn)的算法來處理和優(yōu)化生產(chǎn)流程。開發(fā)領(lǐng)域的文獻(xiàn)數(shù)量為15篇,占總文獻(xiàn)的28%,僅次于生產(chǎn)領(lǐng)域。這表明在油田開發(fā)的各個(gè)階段,大數(shù)據(jù)算法被廣泛應(yīng)用于決策支持和流程優(yōu)化。相對(duì)而言,勘探和儲(chǔ)運(yùn)領(lǐng)域的文獻(xiàn)數(shù)量較少,分別為10篇(占19%)和9篇(占17%),但大數(shù)據(jù)算法在這兩個(gè)領(lǐng)域的應(yīng)用也在逐漸增加。
陳緣博等對(duì)49篇煤巖儲(chǔ)層鉆開流體相關(guān)文獻(xiàn)按報(bào)告內(nèi)容進(jìn)行分類,大幅提高了搜索文獻(xiàn)的相關(guān)性,并提出選擇研究方向的相關(guān)率(相關(guān)性較強(qiáng)的文獻(xiàn)占搜索文獻(xiàn)的百分比)用于評(píng)價(jià)文獻(xiàn)分類的效果[57]。將53篇石油大數(shù)據(jù)算法應(yīng)用文獻(xiàn)按應(yīng)用領(lǐng)域細(xì)分為勘探、開發(fā)、生產(chǎn)和儲(chǔ)運(yùn)四類。分類后,每篇文獻(xiàn)依據(jù)內(nèi)容劃入與之對(duì)應(yīng)的領(lǐng)域分類,內(nèi)容具備高度相關(guān)性,選擇研究方向的相關(guān)率均提升為100%。
從算法選擇準(zhǔn)確率來看,53篇文獻(xiàn)共涵蓋大數(shù)據(jù)算法14種。分類后,勘探領(lǐng)域涉及7種算法,開發(fā)領(lǐng)域涉及5種算法,生產(chǎn)領(lǐng)域涉及8種算法,儲(chǔ)運(yùn)領(lǐng)域涉及7種算法,每種算法均按其引用場景被劃分到具體領(lǐng)域,算法選擇準(zhǔn)確率也均提升為100%。
2結(jié)果現(xiàn)象討論
隨著石油工程領(lǐng)域大數(shù)據(jù)算法研究的快速發(fā)展,相關(guān)研究文獻(xiàn)數(shù)量不斷增加,文獻(xiàn)檢索效率的提升已成為研究人員和工程技術(shù)人員亟待解決的問題。有效的文獻(xiàn)分類是提升文獻(xiàn)檢索效率的關(guān)鍵手段之一。通過合理的分類,能夠快速篩選出與研究目標(biāo)最相關(guān)的文獻(xiàn),為研究領(lǐng)域選擇合適的算法,避免誤用或低效使用,確保算法能夠最大化發(fā)揮作用。同時(shí),通過對(duì)現(xiàn)有文獻(xiàn)進(jìn)行分析和分類,不僅能夠總結(jié)出不同算法的優(yōu)缺點(diǎn),還能預(yù)測未來算法的趨勢和應(yīng)用前景。這為石油企業(yè)在技術(shù)選擇和研發(fā)投入上提供了理論依據(jù),減少了不必要的資源浪費(fèi)。
然而,隨著文獻(xiàn)數(shù)量的增加,分類數(shù)量也在持續(xù)增長,大量分類會(huì)導(dǎo)致文獻(xiàn)分類的復(fù)雜度隨之增加。同時(shí),分類也不能是對(duì)文獻(xiàn)進(jìn)行簡單的歸類,更要考慮分類后檢索的有效性。文獻(xiàn)分類的過程不能脫離實(shí)際應(yīng)用需求。比如,勘探階段注重地質(zhì)數(shù)據(jù)分析與預(yù)測,而鉆井和開發(fā)階段則需要處理實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)、設(shè)備故障診斷等信息,儲(chǔ)運(yùn)階段則側(cè)重于物流、供應(yīng)鏈管理等。
另外,分類應(yīng)更加注重算法的實(shí)際應(yīng)用效果和性能。如,機(jī)器學(xué)習(xí)算法在數(shù)據(jù)量大、非線性關(guān)系明顯的情況下表現(xiàn)出色,而回歸分析則更適用于簡單的線性模型。因此,石油工程大數(shù)據(jù)算法的分類必須綜合考慮文獻(xiàn)算法研究的應(yīng)用效果、讀者閱讀文獻(xiàn)所消耗的時(shí)間,以及作者對(duì)文獻(xiàn)分類所需的時(shí)間,以確保算法選擇的準(zhǔn)確性。
2.1分類提高選擇準(zhǔn)確率討論
石油工程領(lǐng)域面臨的挑戰(zhàn)包括數(shù)據(jù)量巨大、環(huán)境復(fù)雜以及多樣化的應(yīng)用需求。這為不同大數(shù)據(jù)算法在石油工程領(lǐng)域探索應(yīng)用開辟土壤。從油藏勘探中的地質(zhì)建模,到石油開采過程中的生產(chǎn)優(yōu)化,再到管道運(yùn)輸?shù)陌踩O(jiān)測等各個(gè)環(huán)節(jié),都離不開數(shù)據(jù)算法的支持。大量的研究成果通過學(xué)術(shù)文章的形式得以展現(xiàn),使得石油工程大數(shù)據(jù)算法應(yīng)用類文章數(shù)量急劇攀升。研究人員和工程技術(shù)人員在實(shí)際應(yīng)用中選擇合適算法時(shí)將會(huì)面臨巨大的困難,需要在眾多不同類型、不同功能的算法中進(jìn)行篩選,這無疑是一項(xiàng)耗時(shí)耗力的工作。由于無法快速定位到符合特定需求的算法,導(dǎo)致算法選擇的效率極為低下。同時(shí),由于缺乏明確的分類引導(dǎo),選擇的算法往往與實(shí)際應(yīng)用場景的契合度不高,進(jìn)而難以保證算法的選擇準(zhǔn)確率。
為了應(yīng)對(duì)這一挑戰(zhàn),根據(jù)算法的應(yīng)用領(lǐng)域?qū)ζ溥M(jìn)行分類是一種行之有效的方法。通過將石油工程領(lǐng)域細(xì)分為多個(gè)具體的應(yīng)用領(lǐng)域,并把相應(yīng)的算法歸類到這些領(lǐng)域之下,可以顯著縮小檢索范圍,從而提高算法選擇準(zhǔn)確率。針對(duì)搜集到的石油領(lǐng)域大數(shù)據(jù)算法應(yīng)用的53篇文獻(xiàn),按應(yīng)用領(lǐng)域?qū)⑵浞譃?類,并分別對(duì)比分類前后選擇研究方向的相關(guān)率,如圖2所示。
從圖2中可以看出,如果不對(duì)算法進(jìn)行分類,那么尋找適合勘探、開發(fā)、生產(chǎn)和儲(chǔ)運(yùn)四個(gè)領(lǐng)域算法的文獻(xiàn)選擇研究方向的相關(guān)率分別為19%(10/53),28%(15/53),36%(19/53)和17%(9/53),分類后,四個(gè)領(lǐng)域的文獻(xiàn)選擇研究方向的相關(guān)率達(dá)到100%,分別提升81個(gè)百分點(diǎn),72個(gè)百分點(diǎn),64個(gè)百分點(diǎn)和83個(gè)百分點(diǎn),平均提升75個(gè)百分點(diǎn)。
按應(yīng)用領(lǐng)域分類的方法將算法直接與石油工程的具體應(yīng)用場景相關(guān)聯(lián),不僅考慮了算法的技術(shù)特性,還結(jié)合了實(shí)際的工程需求,使得算法的選擇更加具有針對(duì)性。這種方法能夠顯著提高選擇的準(zhǔn)確性。通過將算法與特定的應(yīng)用場景進(jìn)行匹配,研究人員可以更準(zhǔn)確地選擇那些已經(jīng)被證明在類似場景中有效的算法,避免了不必要的試錯(cuò)和算法誤選。例如,在油氣勘探領(lǐng)域,研究人員可以直接選擇基于地質(zhì)數(shù)據(jù)分析的主成分分析算法,而不必在一堆與地質(zhì)無關(guān)的算法中進(jìn)行篩選。
在進(jìn)行算法選擇時(shí),研究人員往往需要查閱大量文獻(xiàn)以了解不同算法的應(yīng)用效果。傳統(tǒng)分類方法由于沒有與具體應(yīng)用場景直接關(guān)聯(lián),導(dǎo)致查找相關(guān)文獻(xiàn)的效率較低。分類前后文獻(xiàn)查找相關(guān)率的變化,分類后文獻(xiàn)相關(guān)率提升至100%,而分類前僅為平均20%左右。這一變化表明,分類不僅優(yōu)化了算法選擇的準(zhǔn)確性,還極大地提高了文獻(xiàn)查找的效率。這種提高文獻(xiàn)查找效率的優(yōu)勢不僅節(jié)省了時(shí)間,還確保了研究人員能夠基于最相關(guān)的文獻(xiàn)進(jìn)行研究,進(jìn)一步提高了算法選擇的科學(xué)性和合理性。
另外,按應(yīng)用領(lǐng)域分類后,由于4個(gè)領(lǐng)域文獻(xiàn)已自然劃分,應(yīng)用范圍縮小,算法種類也減少,分類后,勘探、開發(fā)、生產(chǎn)、儲(chǔ)運(yùn)四個(gè)領(lǐng)域算法包含算法個(gè)數(shù)分別為7、5、8、7。由此可計(jì)算四個(gè)領(lǐng)域分類前后算法選擇準(zhǔn)確率,如圖3所示。
從圖3中可以看出,如果不對(duì)算法進(jìn)行分類,勘探、開發(fā)、生產(chǎn)、儲(chǔ)運(yùn)四個(gè)領(lǐng)域的算法選擇準(zhǔn)確率分別為50%(7/14),36%(5/14),57%(8/14),50%(7/14)。分類后,四個(gè)領(lǐng)域的算法選擇準(zhǔn)確率均提升為100%,提升幅度分別為50個(gè)百分點(diǎn)、64個(gè)百分點(diǎn)、43個(gè)百分點(diǎn)和50個(gè)百分點(diǎn),平均算法準(zhǔn)確率提高52個(gè)百分點(diǎn)。
按領(lǐng)域分類方法將復(fù)雜的算法選擇問題簡化為明確的場景決策。通過將算法分類到特定領(lǐng)域,可以確保所選的算法已經(jīng)被證明在該領(lǐng)域有效,減少了因算法和應(yīng)用場景不匹配而導(dǎo)致的選擇錯(cuò)誤。例如,勘探領(lǐng)域主要處理地質(zhì)數(shù)據(jù),需要的是能夠處理地震波速、巖性識(shí)別等任務(wù)的算法;而生產(chǎn)領(lǐng)域則更關(guān)注油田產(chǎn)量預(yù)測和提高采收率的算法。研究人員在面對(duì)不同應(yīng)用場景時(shí),可以根據(jù)已經(jīng)分類的算法直接做出決策,從而避免了在不確定的條件下做出錯(cuò)誤選擇。這種分類方法在決策支持方面表現(xiàn)出色,尤其是對(duì)于新進(jìn)入石油工程領(lǐng)域的研究人員或工程師,他們可能對(duì)各種算法的特性和應(yīng)用場景不夠熟悉。領(lǐng)域分類提供了一個(gè)清晰的指引,使他們能夠在短時(shí)間內(nèi)做出合適的算法選擇。
2.2分類節(jié)約時(shí)間討論
為了深入探究將石油工程大數(shù)據(jù)算法按領(lǐng)域劃分為四類這一舉措是否能夠切實(shí)有助于實(shí)際應(yīng)用過程中,快速找到研究算法的文章和相關(guān)技術(shù),以減少閱讀時(shí)間。
對(duì)收集的53篇涵蓋了石油工程的各個(gè)環(huán)節(jié)大數(shù)據(jù)算法應(yīng)用,且對(duì)有較高的代表性和研究價(jià)值的文獻(xiàn)進(jìn)行分類實(shí)驗(yàn)。為了確保分類的準(zhǔn)確性和客觀性,實(shí)驗(yàn)由10位在石油工程領(lǐng)域有著深厚的學(xué)術(shù)功底和豐富的研究經(jīng)驗(yàn)、對(duì)石油工程大數(shù)據(jù)算法有著較為全面和深入的理解的博士參與完成。
實(shí)驗(yàn)前,先由10位博士通過大量調(diào)研和研討,依據(jù)石油工程不同作業(yè)環(huán)節(jié),得出10種不同分類的內(nèi)容及標(biāo)準(zhǔn)。實(shí)驗(yàn)過程中,每位博士研究生分別對(duì)這53篇文獻(xiàn)進(jìn)行了細(xì)致的閱讀與歸納,并依據(jù)自身的專業(yè)知識(shí)和對(duì)石油工程大數(shù)據(jù)算法的認(rèn)知,將這些文獻(xiàn)劃分到1至10個(gè)不同的類別之中。
這一過程不僅要求他們對(duì)每篇文獻(xiàn)的核心內(nèi)容、所涉及的算法及其在石油工程中的應(yīng)用場景有精準(zhǔn)的把握,還需要他們具備較強(qiáng)的分類邏輯和歸納能力,以確保分類結(jié)果的科學(xué)性和合理性。并詳細(xì)記錄不同分類情況下,每人閱讀文獻(xiàn)時(shí)間和分類所需時(shí)間,見表2。
從表2中可以看出,分成1類、2類和10類閱讀53篇文獻(xiàn)和分類所花費(fèi)的時(shí)間,都大致呈現(xiàn)先減少或者增加的趨勢。以分類所需時(shí)間為目標(biāo)函數(shù)Y,分類數(shù)量為自變量X,利用表2數(shù)據(jù)擬合可得在2~10類范圍內(nèi),Y與X的函數(shù)關(guān)系,如圖4所示。
從圖4可以看出,隨著分類數(shù)量的增加,分類的復(fù)雜性和難度不斷增加,分類所需時(shí)間隨著分類數(shù)量的增加呈指數(shù)增長趨勢。
對(duì)文獻(xiàn)分類的意義在于提高文獻(xiàn)檢索閱讀效率。根據(jù)10人閱讀53篇文獻(xiàn)所用時(shí)間求平均可得一人平均閱讀一篇文獻(xiàn)大概需1.2h。假設(shè)對(duì)文獻(xiàn)進(jìn)行1~10類分類后,每一種分類方法中,53篇文獻(xiàn)被平均分在不同的類中,則不進(jìn)行分類時(shí)(分1類),在尋找合適的大數(shù)據(jù)算法時(shí)需要閱讀53篇文獻(xiàn),需用時(shí)間63.6h(53×1.2h),分兩類時(shí),需閱讀文獻(xiàn)數(shù)量減少為26.5篇(53/2),閱讀文獻(xiàn)所需時(shí)間31.8h(26.5×1.2h),以此類推。將53篇文章進(jìn)行1~10類分類后,將不同分類數(shù)量下閱讀文獻(xiàn)所需時(shí)間與分類文獻(xiàn)所需時(shí)間的關(guān)系繪圖,如圖5所示。
從圖5中可以看出,隨著分類數(shù)量的增加,閱讀相關(guān)文獻(xiàn)所需的時(shí)間逐漸減少,當(dāng)分類數(shù)量達(dá)到10類時(shí),閱讀文獻(xiàn)所需時(shí)間最少。這表明,增加分類的細(xì)致程度有助于縮短讀者查找文獻(xiàn)的時(shí)間。然而,隨著分類數(shù)量的增加,對(duì)文獻(xiàn)進(jìn)行分類所消耗的時(shí)間也從最初的1.5h(分1類)增加到最后的120h(分10類)。由此也可以看出,分類數(shù)量的增加會(huì)使得作者在進(jìn)行分類時(shí)的時(shí)間消耗不斷增長。將閱讀文獻(xiàn)所需時(shí)間和分類文獻(xiàn)所需時(shí)間疊加發(fā)現(xiàn),當(dāng)分類數(shù)量小于4類時(shí),閱讀和分類所需要的總時(shí)間逐漸減少,從65.1h(1類)降低到了27.9h(4類)。當(dāng)分類數(shù)量大于4時(shí),閱讀和分類需要的總時(shí)間開使逐漸增加。可見,當(dāng)分類數(shù)量達(dá)到一定規(guī)模后,繼續(xù)增加分類所帶來的時(shí)間節(jié)省效果逐漸減弱。同時(shí),隨著分類數(shù)量的增加,總時(shí)間經(jīng)歷了先減少后增加的趨勢。初期更多的分類有助于減少閱讀時(shí)間,但過多的分類帶來的額外分類時(shí)間消耗最終會(huì)超過其帶來的益處,從而導(dǎo)致總時(shí)間的增加。分類的目的是提高效率,而所謂效率高,就是在單位時(shí)間里實(shí)際完成的工作量多,選擇研究方向的相關(guān)率在一定程度上評(píng)價(jià)了文獻(xiàn)分類的準(zhǔn)確性。為了探討文獻(xiàn)分類后的效率,結(jié)合效率的定義及計(jì)算公式,將算法分類效率計(jì)算公式定義為
式中:c為算法分類效率,pi為第i個(gè)分類中單篇文獻(xiàn)擇研究方向的相關(guān)率,n為分類數(shù)量,Rt為檢索閱讀第i個(gè)分類中全部文獻(xiàn)所用時(shí)間,Ut為將文獻(xiàn)分類所消耗的時(shí)間。
可見,文獻(xiàn)選擇研究方向的相關(guān)率越高,閱讀文獻(xiàn)所需時(shí)間和算法分類所需時(shí)間越短,則算法的應(yīng)用效果越高,說明算法分類的應(yīng)用效果越好。
根據(jù)算法分類效率計(jì)算公式,對(duì)10種分類方案的算法分類效率進(jìn)行繪圖分析,如圖6所示。
從圖6中可以看出,算法分類效率隨著分類數(shù)量的增加而呈現(xiàn)先上升后下降的趨勢。在分類數(shù)量較少時(shí),增加分類可以顯著提高效率。然而,當(dāng)分類數(shù)量達(dá)到一定閾值后,過細(xì)的分類導(dǎo)致分類消耗的時(shí)間大幅增加,反而降低了效率。
將53篇石油領(lǐng)域大數(shù)據(jù)算法應(yīng)用文獻(xiàn)按領(lǐng)域分為勘探(10篇)、開發(fā)(15篇)、生產(chǎn)(19篇)和儲(chǔ)運(yùn)(9篇)4類時(shí)效率最高。分類后,查閱勘探領(lǐng)域類文獻(xiàn)所用時(shí)間為12h(10×1.2h),相比不分類的63.6h,節(jié)省51.6h,效率提高81%。查閱鉆井領(lǐng)域類文獻(xiàn)所用時(shí)間為18h(15×1.2h),節(jié)省45.6h,效率提高72%。查閱開發(fā)領(lǐng)域類文獻(xiàn)所用時(shí)間為22.8h(19×1.2h),節(jié)省40.8h,效率提高64%。查閱儲(chǔ)運(yùn)領(lǐng)域類文獻(xiàn)所用時(shí)間為10.8h(9×1.2h),節(jié)省52.8h,效率提高83%。四個(gè)領(lǐng)域平均查閱文獻(xiàn)所用時(shí)間為15.9h,效率平均提升75%。
3結(jié)論建議
(1)從近10年核心期刊文獻(xiàn)數(shù)據(jù)庫整理涉及油氣大數(shù)據(jù)算法且相關(guān)性較強(qiáng)文獻(xiàn)53篇,按應(yīng)用領(lǐng)域?qū)⑹凸こ檀髷?shù)據(jù)算法分為勘探領(lǐng)域算法、開發(fā)領(lǐng)域算法、生產(chǎn)領(lǐng)域算法和儲(chǔ)運(yùn)領(lǐng)域算法,解決了石油領(lǐng)域科研工作者在選擇大數(shù)據(jù)算法時(shí),不知道如何選、選不準(zhǔn)、選不快的問題。
(2)盡管53篇代表性文獻(xiàn)反映了近10年石油工程大數(shù)據(jù)算法應(yīng)用的發(fā)展趨勢,也為研究提供了很好的數(shù)據(jù)支撐,但在收集文獻(xiàn)的數(shù)量和國際重要期刊數(shù)據(jù)庫搜集方面仍有不足,部分優(yōu)秀文獻(xiàn)可能沒有被采集到,四大領(lǐng)域算法可能還存在遺漏的情況,有待繼續(xù)完善。
(3)為了更加明確各類算法應(yīng)用場景和要求,建議未來應(yīng)繼續(xù)研究細(xì)化算法分類,結(jié)合石油工程領(lǐng)域大數(shù)據(jù)特點(diǎn)和具體算法適合的數(shù)據(jù)集特點(diǎn),對(duì)應(yīng)用場景及優(yōu)缺點(diǎn)進(jìn)行細(xì)化總結(jié),以提高大數(shù)據(jù)算法在石油工程領(lǐng)域的應(yīng)用效果。