999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成遷移學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)①

2022-11-07 09:08:04楊順輝郭珍珍張洪寶高明亮
關(guān)鍵詞:方法模型

楊順輝,郭珍珍,張洪寶,高明亮

1(中國(guó)石油化工股份有限公司 石油工程技術(shù)研究院,北京 100101)

2(西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610500)

3(西北民族大學(xué) 電氣工程學(xué)院,蘭州 730124)

近代工業(yè)革命后,能源成為了人類社會(huì)生活中賴以生存生活的重要構(gòu)成部分.石油資源被稱為“工業(yè)的血液”[1],不僅是一種不可再生的資源,更是國(guó)家生存和發(fā)展不可或缺的戰(zhàn)略資源,是當(dāng)今世界各國(guó)的經(jīng)濟(jì)命脈.石油的形成過(guò)程極其復(fù)雜緩慢,不可再生的石油資源就變得十分關(guān)鍵.伴隨著經(jīng)濟(jì)社會(huì)的快速發(fā)展,帶動(dòng)著自然資源的消耗也逐年增大,對(duì)石油、天然氣等自然資源的使用急劇增長(zhǎng)[2].全球從陸地到海洋,從淺層到中層、再到深層的勘探來(lái)滿足日常的生活需求.經(jīng)過(guò)長(zhǎng)達(dá)多年來(lái)的石油勘探,我國(guó)在淺層和中層的石油儲(chǔ)量已經(jīng)基本勘探清楚,剩下不多井正在開采.然而,這已遠(yuǎn)遠(yuǎn)無(wú)法滿足社會(huì)需要[3].同時(shí),由于實(shí)際鉆井過(guò)程施工情況復(fù)雜,工況變化多樣,獲取的錄井參數(shù)環(huán)境呈現(xiàn)出明顯的非平穩(wěn)性,并且采用人為的方式獲取錄井參數(shù)成本昂貴,影響因素極多難以考慮完全,鉆井效率受到嚴(yán)重的影響.因此,如何提高鉆井效率、提升鉆井速度是當(dāng)今國(guó)內(nèi)外研究的熱點(diǎn)課題[4].

在鉆井工程中,鉆頭鉆破巖石加深鉆孔的速度稱為機(jī)械鉆速.機(jī)械鉆速是反映鉆井效率的一個(gè)關(guān)鍵指標(biāo),受到鉆頭尺寸、鉆井參數(shù)、巖石巖性等諸多因素的影響和制約[5],它與開采成本、開采時(shí)間有著直接關(guān)聯(lián)[4].鉆速預(yù)測(cè)對(duì)于鉆井參數(shù)的確定和鉆井成本的優(yōu)化是必要的.鉆井機(jī)械鉆速的準(zhǔn)確預(yù)測(cè),能夠有效地估算鉆井周期,從而根據(jù)預(yù)測(cè)結(jié)果優(yōu)化配置資源,可以減少鉆井開采成本、增大石油產(chǎn)量,這對(duì)于企業(yè)降低鉆井施工成本、減少鉆井風(fēng)險(xiǎn),對(duì)于國(guó)家能夠解決能源緊缺問題等有著重大意義.

隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展以及數(shù)據(jù)規(guī)模的急速增長(zhǎng),采用機(jī)器學(xué)習(xí)的方法對(duì)數(shù)據(jù)進(jìn)行挖掘并應(yīng)用到鉆井過(guò)程當(dāng)中,與基于物理模型的方法相比,機(jī)械鉆速的預(yù)測(cè)精度有著顯著的提高.傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常建立于數(shù)據(jù)獨(dú)立同分布這一假設(shè)之上[6],然而在實(shí)際鉆井過(guò)程中,不同的油田信息具有明顯不同的模式,現(xiàn)有的機(jī)器學(xué)習(xí)方法使用已鉆井?dāng)?shù)據(jù)預(yù)測(cè)新油田時(shí),預(yù)測(cè)精度顯著下降,如何高效地進(jìn)行機(jī)械鉆速預(yù)測(cè)并將其應(yīng)用于后續(xù)各種油田處理在石油領(lǐng)域中面臨著長(zhǎng)期的挑戰(zhàn).優(yōu)秀的網(wǎng)絡(luò)模型皆是基于大量標(biāo)注數(shù)據(jù)集(如COCO、ImageNet)訓(xùn)練得到,然而實(shí)際應(yīng)用中高質(zhì)量且具有標(biāo)簽的大型井下數(shù)據(jù)集資源匱乏,難以支撐優(yōu)秀網(wǎng)絡(luò)模型,可能產(chǎn)生嚴(yán)重的過(guò)擬合問題.遷移學(xué)習(xí)不受訓(xùn)練數(shù)據(jù)集與目標(biāo)數(shù)據(jù)之間關(guān)系的約束,能夠根據(jù)不同任務(wù)之間的相似性,實(shí)現(xiàn)源域的已有知識(shí)遷移,可有效解決過(guò)擬合問題.目前,遷移學(xué)習(xí)方法已經(jīng)在鉆井工程中的巖性識(shí)別、鉆頭選擇、異常工況檢測(cè)等多種場(chǎng)景得到了廣泛的應(yīng)用[7].針對(duì)鉆井過(guò)程中機(jī)械鉆速預(yù)測(cè)這一回歸問題,本文以真實(shí)歷史鉆井?dāng)?shù)據(jù)鉆頭尺寸、鉆壓等字段為特征,以機(jī)械鉆速為標(biāo)簽,采用將遷移學(xué)習(xí)與物理模型相結(jié)合的方法,提出一種基于集成遷移學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)模型.實(shí)踐中,采用真實(shí)鉆井?dāng)?shù)據(jù),嘗試了包括linear regression (線性回歸)[8]、傳統(tǒng)的AdaBoost 回歸、只有目標(biāo)域數(shù)據(jù)進(jìn)行訓(xùn)練和幾種先進(jìn)的基于特征與基于實(shí)例的遷移學(xué)習(xí)方法[9]等建模方法,采用多種回歸評(píng)價(jià)指標(biāo)衡量模型的性能,證明了本文提出的方法進(jìn)行跨領(lǐng)域機(jī)械鉆速預(yù)測(cè)的有效性,鉆速預(yù)測(cè)精度也得到顯著提高.

1 相關(guān)工作

在鉆井過(guò)程中,提速提效是永恒不變的追求目標(biāo).機(jī)械鉆速(ROP)的準(zhǔn)確預(yù)測(cè)可顯著縮短鉆井作業(yè)時(shí)間,節(jié)約鉆井成本.機(jī)械鉆速受到多種因素的影響和制約,有可控因素和不可控因素[10].可控因素是指通過(guò)一定的設(shè)備和技術(shù)手段可進(jìn)行人為調(diào)節(jié)的因素,如地面機(jī)泵設(shè)備、鉆頭尺寸、鉆井液性質(zhì)、鉆壓、轉(zhuǎn)速.不可控因素是指客觀存在的因素,如所鉆的地層巖性、儲(chǔ)層埋藏深度以及地層壓力等.針對(duì)機(jī)械鉆速預(yù)測(cè),其研究進(jìn)展大體可以分為3 個(gè)階段: 用現(xiàn)場(chǎng)數(shù)據(jù)直接統(tǒng)計(jì)出鉆速方程,考慮所鉆地層性質(zhì)和鉆頭結(jié)構(gòu)的鉆速方程,用計(jì)算機(jī)仿真方法來(lái)預(yù)測(cè)機(jī)械鉆速.

1.1 傳統(tǒng)方法

國(guó)內(nèi)外學(xué)者都提出了各自與地層特性和鉆頭結(jié)構(gòu)性質(zhì)相關(guān)的鉆速方程.1974年,Bourgoyne 等[11]將機(jī)械鉆速視為鉆頭壓力、轉(zhuǎn)速等8 個(gè)參數(shù)的函數(shù),但該方法存在局限性,只適用于牙輪鉆頭情況.2008年,Rastegar 等[12]在前人的基礎(chǔ)上提出改進(jìn)的ROP 預(yù)測(cè)模型,同時(shí)考慮了鉆頭水力參數(shù)、鉆頭的磨損情況和巖石強(qiáng)度等因素的影響.傳統(tǒng)的物理建模方法給機(jī)械鉆速預(yù)測(cè)帶來(lái)了可見的影響,但方法大多根據(jù)專業(yè)知識(shí)經(jīng)驗(yàn),建模方法高度依賴于巖石巖性,模型泛化性能不佳.且由于校準(zhǔn)需要進(jìn)行不斷變化,從而限制了其函數(shù)的形式.隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)的迅速發(fā)展,很多學(xué)者開始將機(jī)器學(xué)習(xí)方法應(yīng)用到機(jī)械鉆速預(yù)測(cè)方面.2004年,Rommetveit 等[13]提出了一種新型的鉆井自動(dòng)化模擬系統(tǒng),通過(guò)對(duì)比實(shí)測(cè)數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)得到鉆井過(guò)程中的實(shí)時(shí)診斷結(jié)果,但是該系統(tǒng)還處在功能設(shè)想階段,目前尚未實(shí)現(xiàn)全部功能,且考慮的ROP 影響因素較少; 2008年,Bahari 等[14]基于文獻(xiàn)[11]提出的模型井結(jié)合遺傳算法計(jì)算了機(jī)械鉆速預(yù)測(cè)模型參數(shù),但該研究只對(duì)ROP 進(jìn)行了計(jì)算預(yù)測(cè),并沒有作進(jìn)一步的優(yōu)化分析.在數(shù)據(jù)量較充足、數(shù)據(jù)質(zhì)量較高的條件下,采用多元回歸[15]等機(jī)器學(xué)習(xí)方法構(gòu)建的預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確度較高,能夠在當(dāng)前設(shè)備和資源條件下準(zhǔn)確找尋影響機(jī)械鉆速的若干個(gè)核心因素.

傳統(tǒng)的機(jī)器學(xué)習(xí)方法大多借助監(jiān)督學(xué)習(xí)的推動(dòng),依賴于已有數(shù)據(jù),即需要足夠多的標(biāo)注好的訓(xùn)練樣本進(jìn)行學(xué)習(xí),在數(shù)據(jù)樣本稀少的場(chǎng)景下,性能會(huì)顯著下降.對(duì)新領(lǐng)域執(zhí)行機(jī)器學(xué)習(xí)常遇到標(biāo)注稀缺問題,獲取大量標(biāo)注數(shù)據(jù)成本較高且耗時(shí),嚴(yán)重制約了經(jīng)典監(jiān)督學(xué)習(xí)方法的效果.同時(shí),伴隨著多領(lǐng)域、多媒體大數(shù)據(jù)的不斷涌現(xiàn),如何研究自動(dòng)方法對(duì)其進(jìn)行跨領(lǐng)域分類和組織變得愈加重要[16].在機(jī)器學(xué)習(xí)的領(lǐng)域中,已經(jīng)開發(fā)了許多用于遷移學(xué)習(xí)的方法,通過(guò)將在源數(shù)據(jù)上的預(yù)訓(xùn)練模型遷移到感興趣的目標(biāo)數(shù)據(jù)上,遷移學(xué)習(xí)思想被證明是更具有普遍有用的.遷移學(xué)習(xí)放寬了經(jīng)典監(jiān)督學(xué)習(xí)中關(guān)于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)服從獨(dú)立同分布這一基本假設(shè),將相似但具有不同分布的源域和目標(biāo)域數(shù)據(jù)映射到同一個(gè)特征空間,盡可能地保留映射后數(shù)據(jù)的屬性同時(shí)縮小數(shù)據(jù)的維度,最小化兩個(gè)領(lǐng)域的概率分布差異.當(dāng)源域和目標(biāo)域數(shù)據(jù)來(lái)自不同的分布時(shí),通常采用領(lǐng)域分布自適應(yīng)(domain adaptive,DA)算法[17]來(lái)彌補(bǔ)分布差異.

1.2 深度學(xué)習(xí)

近年來(lái),深度學(xué)習(xí)方法在計(jì)算機(jī)視覺中取得了令人矚目的成功.劉勝娃等[18]結(jié)合人工神經(jīng)網(wǎng)絡(luò)技術(shù)領(lǐng)域知識(shí),提出一種基于人工神經(jīng)網(wǎng)絡(luò)的定向井機(jī)械鉆速預(yù)測(cè)模型,該模型在數(shù)據(jù)量充足的情況下,預(yù)測(cè)準(zhǔn)確性較高.文獻(xiàn)[19]通過(guò)建立渤中區(qū)域深層機(jī)械鉆速預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)模型,能夠在當(dāng)前特定區(qū)域條件下準(zhǔn)確找尋影響機(jī)械鉆速的若干個(gè)核心因素.目前使用的深度網(wǎng)絡(luò)模型假設(shè)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)為相同的分布,然而在實(shí)際鉆井過(guò)程中,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的分布往往并不相同,高質(zhì)量且具有標(biāo)簽的大型井下數(shù)據(jù)集資源匱乏,難以支撐優(yōu)秀的深度網(wǎng)絡(luò)模型,這導(dǎo)致訓(xùn)練得到的模型魯棒性能較差.遷移學(xué)習(xí)不受源域數(shù)據(jù)與目標(biāo)數(shù)據(jù)之間關(guān)系的約束[9],對(duì)于缺乏標(biāo)記數(shù)據(jù)的目標(biāo)任務(wù),有很強(qiáng)的動(dòng)機(jī)來(lái)構(gòu)建有效的學(xué)習(xí)者,利用來(lái)自相關(guān)源域的豐富標(biāo)記數(shù)據(jù),將已訓(xùn)練好的模型參數(shù)遷移到新模型進(jìn)行訓(xùn)練.研究表明,先前對(duì)象的認(rèn)識(shí)與新對(duì)象的相似性和聯(lián)系,有助于新對(duì)象的學(xué)習(xí).在特定數(shù)據(jù)集或任務(wù)上訓(xùn)練的CNN 模型可以針對(duì)不同領(lǐng)域的新任務(wù)進(jìn)行微調(diào).

隨著深度學(xué)習(xí)在各個(gè)領(lǐng)域的廣泛應(yīng)用,大量的深度遷移學(xué)習(xí)[20]方法被提出.深度遷移學(xué)習(xí)(deep transfer learning,DTL)通過(guò)將深度學(xué)習(xí)與遷移學(xué)習(xí)相結(jié)合,將輔助領(lǐng)域訓(xùn)練的深度模型重用于目標(biāo)領(lǐng)域,能夠有效地降低模型的訓(xùn)練時(shí)間,使現(xiàn)有數(shù)據(jù)得到更充分的利用,提高深度網(wǎng)絡(luò)在實(shí)際應(yīng)用中的泛化能力.對(duì)比傳統(tǒng)的非深度遷移學(xué)習(xí)方法,深度遷移學(xué)習(xí)方法在不同的學(xué)習(xí)任務(wù)上得到一定的提升.神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)基于豐富標(biāo)記的源域數(shù)據(jù)和標(biāo)注缺失的目標(biāo)域數(shù)據(jù)進(jìn)行訓(xùn)練,根據(jù)目標(biāo)任務(wù)進(jìn)行結(jié)構(gòu)調(diào)整,經(jīng)過(guò)目標(biāo)數(shù)據(jù)的再次訓(xùn)練,形成最終的目標(biāo)網(wǎng)絡(luò),能夠有效地促進(jìn)特征的出現(xiàn).若此目標(biāo)網(wǎng)絡(luò)優(yōu)于未經(jīng)遷移的網(wǎng)絡(luò),則該遷移為正遷移,反之則為負(fù)遷移[7].

2 基于集成遷移學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)方法

2.1 問題定義

在遷移學(xué)習(xí)當(dāng)中,包含兩個(gè)基本的概念,分別是領(lǐng)域(domain)和任務(wù)(task).領(lǐng)域D是進(jìn)行知識(shí)學(xué)習(xí)的主體,主要有數(shù)據(jù)以及生成這些數(shù)據(jù)的概率分布P所組成[21].在遷移學(xué)習(xí)中對(duì)應(yīng)兩個(gè)基本的領(lǐng)域,分別是源領(lǐng)域(source domain,Ds)和目標(biāo)領(lǐng)域(target domain,DT).源領(lǐng)域是指有知識(shí)、有豐富數(shù)據(jù)標(biāo)注的領(lǐng)域,屬于遷移對(duì)象.目標(biāo)領(lǐng)域就是需要最終賦予知識(shí)的對(duì)象,一般來(lái)說(shuō),目標(biāo)領(lǐng)域當(dāng)中大部分都是未標(biāo)注數(shù)據(jù).任務(wù)T指的是學(xué)習(xí)的目標(biāo),由標(biāo)簽和標(biāo)簽對(duì)應(yīng)的函數(shù)組成.遷移學(xué)習(xí)旨在從一個(gè)或多個(gè)源領(lǐng)域中提取知識(shí),并將知識(shí)應(yīng)用于目標(biāo)任務(wù)當(dāng)中.

給定一個(gè)有標(biāo)簽的源域數(shù)據(jù)Ds=和一個(gè)無(wú)標(biāo)簽的目標(biāo)域DT=.兩個(gè)領(lǐng)域的數(shù)據(jù)概率分布P(xs)和P(xt)不同,即P(xs)≠P(xt).遷移學(xué)習(xí)的目標(biāo)就是要借助源域DS的先驗(yàn)知識(shí)來(lái)學(xué)習(xí)目標(biāo)領(lǐng)域DT的知識(shí)(標(biāo)簽)[22].

假定源域和目標(biāo)域的特征空間和樣本空間分別相同,即XS=XT且YS=YT,但兩個(gè)領(lǐng)域的特征分布不同,即存在條件概率分布不同QS(ys|xs)≠Q(mào)T(yt|xt)或者邊緣分布不同PS(xs)≠PT(xt).領(lǐng)域自適應(yīng)就是源域和目標(biāo)域不一樣,具體來(lái)說(shuō),兩個(gè)領(lǐng)域的數(shù)據(jù)概率分布不同,但是兩個(gè)領(lǐng)域共享相同的特征和類別,其維度是一致的[17].此刻,遷移學(xué)習(xí)的目標(biāo)就是利用有標(biāo)記的數(shù)據(jù)來(lái)學(xué)習(xí)一個(gè)分類器f來(lái)預(yù)測(cè)目標(biāo)領(lǐng)域xt.

2.2 鉆前機(jī)械鉆速預(yù)測(cè)模型簡(jiǎn)介

集成學(xué)習(xí)是通過(guò)將許多弱分類器進(jìn)行集成提升為強(qiáng)學(xué)習(xí)器的過(guò)程[23].一般來(lái)說(shuō),用得比較多的是同質(zhì)學(xué)習(xí)器,即同質(zhì)集成中的個(gè)體學(xué)習(xí)器屬于同種類型.同質(zhì)學(xué)習(xí)器根據(jù)基學(xué)習(xí)器之間是否存在依賴關(guān)系分為Boosting 系列算法[24]和隨機(jī)森林系列算法.AdaBoost 作為提升算法(Boosting)的一種,根據(jù)基學(xué)習(xí)器的學(xué)習(xí)誤差率來(lái)更新訓(xùn)練樣本的權(quán)重值,增加學(xué)習(xí)誤差率高的訓(xùn)練樣本權(quán)重,再基于調(diào)整樣本權(quán)重后的訓(xùn)練集訓(xùn)練基學(xué)習(xí)器,不斷調(diào)整基學(xué)習(xí)器的權(quán)重,將這些弱學(xué)習(xí)器進(jìn)行線性組合形成一個(gè)強(qiáng)學(xué)習(xí)器,進(jìn)而達(dá)到提升整體準(zhǔn)確率的效果.算法的性能通過(guò)“少數(shù)服從多數(shù)”這一方法進(jìn)行投票決出結(jié)果.隨著集成中基學(xué)習(xí)器數(shù)目的不斷增加,集成的錯(cuò)誤率將指數(shù)級(jí)下降,最終將趨于0.

基于Boosting 的遷移學(xué)習(xí)算法,也稱為TrAdaBoost算法,是由Dai 等[25]提出的一種典型遷移學(xué)習(xí)算法.TrAda-Boost 算法假設(shè)源領(lǐng)域和目標(biāo)域數(shù)據(jù)具有完全相同的特征與標(biāo)簽空間,但兩者的數(shù)據(jù)分布不同.將源域數(shù)據(jù)與部分目標(biāo)域數(shù)據(jù)整合得到訓(xùn)練實(shí)例,由于源域與目標(biāo)域之間的分布差異,源域數(shù)據(jù)樣本可能會(huì)對(duì)目標(biāo)任務(wù)的學(xué)習(xí)有利,有可能沒有,甚至有可能有害.TrAdaBoost 算法通過(guò)對(duì)訓(xùn)練實(shí)例賦予權(quán)重,增加被錯(cuò)誤分類的目標(biāo)實(shí)例的相對(duì)權(quán)重[26].當(dāng)源實(shí)例被錯(cuò)誤分類時(shí),降低其權(quán)重值,具體來(lái)說(shuō),就是給數(shù)據(jù)乘上一個(gè)0 到1 的值.在下一次分類,被錯(cuò)誤分類的樣本對(duì)分類模型的影響就會(huì)比上一次迭代小一些.通過(guò)這種方式,TrAdaBoost 旨在識(shí)別和利用與目標(biāo)數(shù)據(jù)最相似的源實(shí)例,而忽略那些不相似的實(shí)例.TrAdaBoost 算法模型具體描述如圖1.

圖1 TrAdaBoost 模型架構(gòu)圖

2.3 帶物理模型約束的集成機(jī)械鉆速回歸模型

將鉆井?dāng)?shù)據(jù)看作連續(xù)的,在統(tǒng)計(jì)學(xué)上稱為回歸問題.結(jié)合TrAdaBoost 的原理與傳統(tǒng)的回歸算法產(chǎn)生了新的回歸算法TrAdaBoostR2[27].作為一種基于樣本實(shí)例的遷移學(xué)習(xí)方法,TrAdaBoostR2 對(duì)每個(gè)訓(xùn)練實(shí)例進(jìn)行加權(quán),確保遷移的源域知識(shí)與目標(biāo)任務(wù)相關(guān).然而,當(dāng)源域樣本數(shù)遠(yuǎn)大于目標(biāo)域時(shí),目標(biāo)實(shí)例的總權(quán)重可能需要多次迭代才能接近源實(shí)例的總權(quán)重,此時(shí)目標(biāo)數(shù)據(jù)的權(quán)重可能會(huì)嚴(yán)重偏斜,那些異常值或與源數(shù)據(jù)最不相似的目標(biāo)實(shí)例可能會(huì)代表大部分權(quán)重[28].其次,即使是那些代表目標(biāo)概念的源實(shí)例,它們的權(quán)重最終也趨于零.

基于Bingham (1965)提出的基本ROP 模型[29],已知轉(zhuǎn)速(ROP)、鉆頭壓力(RPM)和鉆頭直徑(Db)等參數(shù),可以通過(guò)式(1)計(jì)算得到機(jī)械鉆速的預(yù)測(cè)值.其中,α 和γ 為巖性模型的經(jīng)驗(yàn)參數(shù):

物理模型雖然源自鉆井物理原理,但是涉及經(jīng)驗(yàn)參數(shù)和擬合函數(shù)的約束,這常常會(huì)導(dǎo)致較差的結(jié)果.為了克服上述缺點(diǎn),選擇基于樣本實(shí)例遷移方法TrAda-Boost.R2 作為基礎(chǔ),提出一種帶物理模型約束的集成遷移學(xué)習(xí)方法,分兩個(gè)階段對(duì)樣本實(shí)例進(jìn)行調(diào)整.算法在第一階段,源實(shí)例的權(quán)重逐漸向下調(diào)整,直到達(dá)到某一個(gè)值(該值采用交叉驗(yàn)證確定得到); 在第二階段,首先對(duì)所有源實(shí)例的權(quán)重凍結(jié),而目標(biāo)實(shí)例的權(quán)重在Ada-Boost.R2 中被正常更新,只有在第2 階段生成的假設(shè)被存儲(chǔ)并用于確定結(jié)果模型的輸出.

假定存在n個(gè)源域訓(xùn)練數(shù)據(jù)DS1,···,DSn,m個(gè)用于訓(xùn)練的目標(biāo)域數(shù)據(jù)DT1,···,DTm,遷移學(xué)習(xí)的目的就是充分利用有標(biāo)記的源域數(shù)據(jù)來(lái)提高目標(biāo)分類器fT的學(xué)習(xí)效率.首先,定義第h次迭代訓(xùn)練實(shí)例的權(quán)重向量,其中,wS表示源域數(shù)據(jù)樣本實(shí)例的權(quán)重,表示目標(biāo)域數(shù)據(jù)用來(lái)訓(xùn)練的m個(gè)樣本權(quán)重向量.初始化權(quán)重為:

清空候選基學(xué)習(xí)器并對(duì)現(xiàn)有的權(quán)重進(jìn)行規(guī)范化,選擇基學(xué)習(xí)器ft對(duì)訓(xùn)練集Dtrain=DS∪DT-train進(jìn)行訓(xùn)練.為了保證模型不會(huì)因?yàn)槟繕?biāo)實(shí)例劃分成訓(xùn)練集和測(cè)試集而造成誤差,采用十折交叉驗(yàn)證.將目標(biāo)領(lǐng)域數(shù)據(jù)集隨機(jī)劃分10 份,隨機(jī)選擇其中一份作為測(cè)試集,剩下的9 份與源實(shí)例進(jìn)行整合作為訓(xùn)練集進(jìn)行實(shí)驗(yàn),依次進(jìn)行10 組實(shí)驗(yàn).同時(shí),采用Bingham 提出的基本ROP 模型對(duì)算法進(jìn)行物理約束,采用式(3)計(jì)算基學(xué)習(xí)器ft在DT-test上的誤差值,選取平均絕對(duì)誤差最小的用于后續(xù)模型.

其中,(ytp)j表示采用物理模型(即式(1))計(jì)算得到的ROP值,ytj表示目標(biāo)域數(shù)據(jù)的真實(shí)標(biāo)簽值,(fti)k表示第i個(gè)基分類器進(jìn)行k折交叉驗(yàn)證預(yù)測(cè)得到的ROP值.根據(jù)誤差估計(jì)來(lái)更新訓(xùn)練樣本實(shí)例的權(quán)重值,誤差越大,其權(quán)重設(shè)置越小.對(duì)其進(jìn)行S次迭代,并對(duì)權(quán)重進(jìn)行更新,Zt是一個(gè)歸一化的常量,使得最終目標(biāo)實(shí)例的權(quán)重為

對(duì)源實(shí)例的權(quán)重更新采用加權(quán)多數(shù)算法(即WMA[27])機(jī)制,第2 階段首先對(duì)所有源實(shí)例的權(quán)重凍結(jié),采用Bootstrap 對(duì)觀測(cè)信息進(jìn)行多次重復(fù)抽樣,建立起充足的樣本,采用基學(xué)習(xí)器對(duì)取樣的樣本進(jìn)行預(yù)測(cè),并計(jì)算損失函數(shù),采用TrAdaBoostR2 來(lái)更新目標(biāo)實(shí)例的權(quán)重向量,最后對(duì)權(quán)重進(jìn)行規(guī)范化處理,生成的模型被存儲(chǔ)并用于確定結(jié)果模型的輸出.

本文選用決策樹回歸(decision tree regressor)算法[30]作為基學(xué)習(xí)器進(jìn)行集成遷移回歸,對(duì)模型參數(shù)進(jìn)行調(diào)整,不斷更新模型權(quán)重.在模型優(yōu)化問題中,通過(guò)計(jì)算真實(shí)值與預(yù)測(cè)值的平均絕對(duì)誤差(mean absolute error,MAE)作為模型性能的一個(gè)衡量指標(biāo).平均絕對(duì)誤差作為回歸損失函數(shù)中常用的誤差計(jì)算,通過(guò)計(jì)算預(yù)測(cè)值與真實(shí)值之間差值絕對(duì)值和的均值,可以有效地避免誤差相互抵消,因而可以較準(zhǔn)確地反應(yīng)實(shí)際預(yù)測(cè)誤差的大小.其中,ypred表示模型最終的預(yù)測(cè)值,yi表示相應(yīng)的實(shí)際值.

本文提出了一種帶物理模型約束的集成遷移回歸模型來(lái)對(duì)鉆前機(jī)械鉆速進(jìn)行預(yù)測(cè),算法具體描述如算法1.

算法1.基于集成遷移回歸的機(jī)械鉆速預(yù)測(cè)算法輸入: : 源域數(shù)據(jù)集; : 目標(biāo)域數(shù)據(jù)集err DsDT輸出: : 平均絕對(duì)誤差MAE 值1. 初始化源域數(shù)據(jù)集,目標(biāo)域數(shù)據(jù)集;fT Ds=[ns×ms]DT=[nT×mT]2. 確定基學(xué)習(xí)器 為決策樹回歸算法;feature=D[:,1:m-1] label=D[:,-1]3. ;4. 采用One-Hot 和Z-score 標(biāo)準(zhǔn)化對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理;Dtrain Dtest 5. 將目標(biāo)域劃分為訓(xùn)練集和測(cè)試集: 和;nestimatorS K=10 6. 確定最大估計(jì)次數(shù),步驟數(shù),;W1i =1/(n+m)7. 初始化權(quán)重為;8. for do D←(Dtrain+Ds)i=1→S 9.10. 清空候選基學(xué)習(xí)器,對(duì)現(xiàn)有權(quán)重進(jìn)行規(guī)范化;model 11. 采用TrAdaBoostR2 進(jìn)行訓(xùn)練得到模型;j=1→K 12. for do Dj train=(DS+DT-train)13.14. //對(duì)用于訓(xùn)練的目標(biāo)實(shí)例進(jìn)行權(quán)重更新Dj trainDT-test 15. 采用TrAdaBoostR2 對(duì)進(jìn)行訓(xùn)練并計(jì)算的預(yù)測(cè)值;16. 采用式(3)計(jì)算誤差估計(jì);Wi(j+1)17. 采用式(4)更新權(quán)重;18. 確保目標(biāo)實(shí)例總權(quán)重不隨交叉分割而改變;19. end for X 20. 采用Bootstrap 對(duì) 進(jìn)行多次重復(fù)采樣;21. 使用基學(xué)習(xí)器更新目標(biāo)實(shí)例的權(quán)重向量;Wi 22. 返回樣本權(quán)重 ;23. end for W*24. 得到最優(yōu)的樣本權(quán)重 ;ypred=model(fT,W*)25. 計(jì)算目標(biāo)域數(shù)據(jù)的預(yù)測(cè)值;26. 采用式(5)計(jì)算預(yù)測(cè)值與真實(shí)值的誤差值 ;err err 27. 返回 .

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)設(shè)置

本論文采用的數(shù)據(jù)集共包括156 次測(cè)量,這些測(cè)量是從特定區(qū)塊的26 口S 井和3 口WD 井收集得到的歷史鉆井?dāng)?shù)據(jù).實(shí)驗(yàn)數(shù)據(jù)具體描述如表1,每個(gè)樣本數(shù)據(jù)包含斜深(depth)、鉆壓(wob)、大鉤載荷(hook_load)、泵壓(spp)、轉(zhuǎn)盤轉(zhuǎn)速(bit_rpm)、泵排量(flow_rate)、扭矩(torque)、地層類型(formation)、鉆頭類型(bit_type)、鉆頭尺寸(bit_size)、巖性類型(lith)等51 個(gè)特征參數(shù)和1 個(gè)機(jī)械鉆速(ROP)樣本標(biāo)簽.通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作,有效保留數(shù)據(jù)樣本在各個(gè)維度上的信息分布.同一口井有多次測(cè)量,其測(cè)量結(jié)果是連續(xù)的,為了保證井口數(shù)據(jù)的完整性和獨(dú)立性,將同一鉆井?dāng)?shù)據(jù)作為一個(gè)整體,目標(biāo)域共有3 口井?dāng)?shù)據(jù),分別是WD1、WD2 和WD3,采用交叉驗(yàn)證進(jìn)行模型預(yù)測(cè),通過(guò)隨機(jī)選擇目標(biāo)域數(shù)據(jù)將其與源域數(shù)據(jù)整合作為訓(xùn)練集,剩下的鉆井?dāng)?shù)據(jù)作為測(cè)試集樣本.

表1 實(shí)驗(yàn)數(shù)據(jù)介紹

本文使用51 個(gè)特征參數(shù)作為機(jī)械鉆速預(yù)測(cè)模型的輸入,由于數(shù)據(jù)集中的字符類型特征無(wú)法被機(jī)器模型學(xué)習(xí),因此在建模時(shí)需要將其轉(zhuǎn)化成易于機(jī)器利用的數(shù)值型特征.獨(dú)熱編碼(one-hot)用N位狀態(tài)寄存器來(lái)對(duì)N個(gè)狀態(tài)進(jìn)行編碼,從而將類別變量轉(zhuǎn)換為數(shù)值變量,由于one-hot 編碼后的特征值只有0 或1,因此采用該方法不會(huì)影響原類別特征在模型中的權(quán)重比例.采用獨(dú)熱編碼進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換會(huì)將數(shù)據(jù)維度擴(kuò)大,為了進(jìn)一步排除數(shù)據(jù)集維度擴(kuò)大對(duì)實(shí)驗(yàn)的影響,再對(duì)其采用主成分分析[31]對(duì)數(shù)據(jù)維度進(jìn)行降維.同時(shí),利用原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差對(duì)其進(jìn)行標(biāo)準(zhǔn)化,使處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布.數(shù)據(jù)的標(biāo)準(zhǔn)化處理能夠有效地提升模型精度,加快訓(xùn)練網(wǎng)絡(luò)的收斂性.Z-Score標(biāo)準(zhǔn)化對(duì)樣本數(shù)據(jù)在不同特征維度進(jìn)行伸縮變換,使得不同度量之間的特征具有可比性,并且不會(huì)改變?cè)紨?shù)據(jù)的分布,通過(guò)將不同量級(jí)的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一量級(jí)的Z-Score 分值進(jìn)行比較,能夠在特征提取時(shí)有效保留樣本各維度上的信息分布.Z-Score 標(biāo)準(zhǔn)化的數(shù)學(xué)表達(dá)如下,其中 μ,σ表示原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差.

采用決策樹回歸模型作為該模型的弱學(xué)習(xí)器,同時(shí)對(duì)模型參數(shù)進(jìn)行調(diào)整,得到具體參數(shù)設(shè)置如表2,其中,n_estimators 表示的是迭代次數(shù),也就是本次實(shí)驗(yàn)中采用弱學(xué)習(xí)器的個(gè)數(shù); learning_rate 表示學(xué)習(xí)率;steps 表示的是步驟數(shù); folds 表示的是交叉驗(yàn)證的折疊次數(shù); max_depth 表示的是每一個(gè)學(xué)習(xí)器的最大深度,用于限制回歸樹的節(jié)點(diǎn)數(shù)目.

表2 模型參數(shù)的選擇

3.2 結(jié)果分析

對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行模型訓(xùn)練與驗(yàn)證.根據(jù)領(lǐng)域特點(diǎn),采用交叉驗(yàn)證對(duì)模型進(jìn)行訓(xùn)練與預(yù)測(cè),通過(guò)對(duì)目標(biāo)域WD 數(shù)據(jù)中隨機(jī)選擇一份作為測(cè)試集,剩下兩口井與源域數(shù)據(jù)整合用于模型訓(xùn)練,使用線性回歸、物理模型作為基線方法,同時(shí),為了驗(yàn)證該模型的有效性并保證實(shí)驗(yàn)的嚴(yán)謹(jǐn)性,采用傳統(tǒng)的AdaBoostR2 (即沒有采用遷移學(xué)習(xí))模型與基于集成遷移學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)方法進(jìn)行實(shí)驗(yàn)對(duì)比.通過(guò)對(duì)模型參數(shù)的不斷調(diào)節(jié),得到WD1、WD2 和WD3 作為測(cè)試集下基于集成遷移學(xué)習(xí)的機(jī)械鉆速方法的MAE 值分別為1.476 04、0.826 26 和0.857 51.本文模型算法的性能在表3 以數(shù)字方式進(jìn)行描述,在圖2 中以圖形方式展示.

表3 該模型算法的性能對(duì)比

以WD3 作為測(cè)試集為例,得到該實(shí)驗(yàn)設(shè)置下線性回歸、物理模型、AdaBoostR2 和本文提出算法預(yù)測(cè)值與真實(shí)ROP 值的對(duì)比圖.很明顯,從圖2 中可以看到,基于集成遷移學(xué)習(xí)的機(jī)械鉆速模型大大降低了模型的誤差值.與傳統(tǒng)的AdaBoostR2 方法相比,基于集成遷移學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)方法在對(duì)峰值進(jìn)行預(yù)測(cè)時(shí)更接近真實(shí)值.具體來(lái)說(shuō),本文方法在3 種實(shí)驗(yàn)設(shè)置下的性能分別提升0.877 36、-0.077 11 和0.040 2.同時(shí),該模型下的MSE 值也得到了提升,較傳統(tǒng)的Ada-BoostR2 模型MSE 值降低了3.003 6.

圖2 WD3 做測(cè)試集下預(yù)測(cè)值與真實(shí)值對(duì)比圖

3.3 對(duì)比實(shí)驗(yàn)

對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行同類型操作處理,設(shè)計(jì)并進(jìn)行對(duì)比實(shí)驗(yàn).本文選擇了6 種先進(jìn)的機(jī)器學(xué)習(xí)方法用于驗(yàn)證本模型方法的有效性.領(lǐng)域自適應(yīng)(DA)方法通過(guò)在一個(gè)領(lǐng)域上學(xué)習(xí)的知識(shí)遷移到另一個(gè)領(lǐng)域上,自適應(yīng)方法分為基于特征的自適應(yīng)、基于實(shí)例的自適應(yīng)和基于參數(shù)的自適應(yīng)方法.本文分別選用3 種基于實(shí)例的方法(KMM[32]、KLIEP[33]、TrAdaBoostR2[27])和3 種基于特征遷移的方法(DANN[34]、DeepCORAL[35]、MDD[36])用于進(jìn)行實(shí)驗(yàn)對(duì)比.同時(shí),添加直接采用目標(biāo)域數(shù)據(jù)進(jìn)行訓(xùn)練(即TgtOnly)作為基線方法.

在實(shí)驗(yàn)設(shè)置上,為了保證井口數(shù)據(jù)的完整性和獨(dú)立性,以井為單位選取部分目標(biāo)域數(shù)據(jù)與源域數(shù)據(jù)合并一起進(jìn)行訓(xùn)練,剩下的目標(biāo)域作為測(cè)試集,這樣達(dá)到交叉驗(yàn)證的效果.將本文提出的基于集成遷移學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)方法與其他方法進(jìn)行性能對(duì)比,得到實(shí)驗(yàn)結(jié)果如表4.采用TgtOnly 分別對(duì)WD1、WD2、WD3 進(jìn)行機(jī)械鉆速預(yù)測(cè),計(jì)算預(yù)測(cè)值與真實(shí)值的最大均值誤差MAE 值分別為9.341 4、3.739 9 和6.632 3.領(lǐng)域自適應(yīng)方法通過(guò)將一個(gè)領(lǐng)域上學(xué)習(xí)的知識(shí)遷移到另一個(gè)領(lǐng)域上,其性能遠(yuǎn)遠(yuǎn)好于TgtOnly.同時(shí),采用傳統(tǒng)的TrAdaBoostR2 進(jìn)行對(duì)比驗(yàn)證,得到本文提出的模型效果明顯改善.實(shí)驗(yàn)表明,本文提出的基于集成遷移學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)模型擬合效果最佳,算法的性能遠(yuǎn)遠(yuǎn)好于其他幾種先進(jìn)的領(lǐng)域自適應(yīng)方法,具有較好的魯棒性能.在以WD2 作為測(cè)試集中,MAE 值減小到0.826 3,相較于這里面最優(yōu)的方法KMM 誤差減小了1.387 2,性能提升了1.68 倍.

表4 本文方法與其他方法的性能對(duì)比

在以WD2 為測(cè)試集中,得到本文方法與其他幾種主流機(jī)械鉆速預(yù)測(cè)方法在目標(biāo)域數(shù)據(jù)預(yù)測(cè)的機(jī)械鉆速值與真實(shí)ROP 的對(duì)比圖(圖3),從圖中可以清晰地看到,本文算法預(yù)測(cè)得到的機(jī)械鉆速值與真實(shí)標(biāo)簽值具有良好的一致性,誤差值遠(yuǎn)遠(yuǎn)小于其他幾種主流的機(jī)械鉆速預(yù)測(cè)方法,能夠?yàn)槟P吞峁┫鄬?duì)穩(wěn)定的效果.

圖3 本文方法與其他機(jī)械鉆速預(yù)測(cè)方法在WD2 上預(yù)測(cè)值與真實(shí)值對(duì)比圖

為了更直觀進(jìn)行實(shí)驗(yàn)對(duì)比,分別計(jì)算本文方法與其他幾種機(jī)械鉆速預(yù)測(cè)方法的決定系數(shù)(R2)、均方根誤差(RMSE)、均方根相對(duì)誤差(RMSRE)和平均絕對(duì)百分比誤差(MAPE),多種回歸評(píng)價(jià)指標(biāo)的對(duì)比結(jié)果如圖4 所示.圖4 的結(jié)果表明,本文方法的R2值為0.868 6,RMSE 值為0.999 7,RMSRE 值為0.291 1,MAPE 值為17.67%,在多種評(píng)價(jià)指標(biāo)中性能最優(yōu).同時(shí)圖4 也顯示結(jié)合遷移學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)方法相較于不使用遷移學(xué)習(xí)的方法(TgtOnly)性能有明顯的提升.

圖4 WD2 數(shù)據(jù)集上各種方法多種回歸評(píng)價(jià)指標(biāo)圖

4 結(jié)論與展望

本文提出了一種結(jié)合物理模型和遷移學(xué)習(xí)的鉆前機(jī)械鉆速預(yù)測(cè)方法,能夠在目標(biāo)油田數(shù)據(jù)樣本缺失或標(biāo)注的數(shù)據(jù)樣本較少的情形下更準(zhǔn)確地預(yù)測(cè)機(jī)械鉆速.本文方法結(jié)合機(jī)械鉆速物理模型,通過(guò)遷移學(xué)習(xí)識(shí)別并利用與目標(biāo)數(shù)據(jù)相似的源實(shí)例,確保遷移的知識(shí)與目標(biāo)任務(wù)相關(guān).實(shí)驗(yàn)表明,本文方法機(jī)械鉆速預(yù)測(cè)值與實(shí)際值之間具有良好的一致性,與幾種主流機(jī)械鉆速預(yù)測(cè)方法相比,在多種回歸評(píng)價(jià)指標(biāo)中性能最優(yōu).鉆前機(jī)械鉆速的準(zhǔn)確預(yù)測(cè)能給施工現(xiàn)場(chǎng)提供高效有力指導(dǎo)依據(jù),為進(jìn)一步有效地提高鉆井效率提供可靠的保障.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
學(xué)習(xí)方法
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产剧情无码视频在线观看| 国内精品小视频在线| 国产在线麻豆波多野结衣| 五月婷婷综合网| 91尤物国产尤物福利在线| 天天做天天爱夜夜爽毛片毛片| 三级欧美在线| 国产成人精彩在线视频50| 久久久久国产一区二区| 欧美另类视频一区二区三区| 免费一级成人毛片| 国产麻豆精品手机在线观看| 99热国产在线精品99| 日韩成人午夜| 激情六月丁香婷婷| 色精品视频| 99久久精品国产综合婷婷| 欧洲成人在线观看| 免费观看精品视频999| 亚洲精品视频免费看| 国产污视频在线观看| 亚洲av无码成人专区| 久久一本精品久久久ー99| 色婷婷国产精品视频| 国产成人综合网| 99精品免费在线| 欧美日韩中文国产va另类| 欧美成人免费一区在线播放| 片在线无码观看| 国产丝袜一区二区三区视频免下载| 久草视频中文| 亚洲精品桃花岛av在线| 99热国产这里只有精品无卡顿"| 69av免费视频| 国产女人在线| 中国一级特黄大片在线观看| 国产偷倩视频| 国产美女无遮挡免费视频| 亚洲欧美自拍视频| 亚洲无码在线午夜电影| 日韩高清无码免费| 五月婷婷综合网| 亚洲国产日韩欧美在线| 色播五月婷婷| 久久综合亚洲鲁鲁九月天| 日本爱爱精品一区二区| 黄色三级网站免费| 亚洲性色永久网址| 在线观看国产精品一区| 久久99精品久久久大学生| 亚洲伊人久久精品影院| 黄色网页在线观看| 成人一级黄色毛片| 国产本道久久一区二区三区| 久久国产精品娇妻素人| 国产午夜一级淫片| 99青青青精品视频在线| aaa国产一级毛片| 人妻少妇乱子伦精品无码专区毛片| 再看日本中文字幕在线观看| 无码av免费不卡在线观看| 久久久受www免费人成| 精品偷拍一区二区| 美女毛片在线| 欧美日韩国产综合视频在线观看 | 久久精品无码一区二区日韩免费| 午夜福利网址| 色婷婷丁香| 国产精品香蕉在线| 日韩a在线观看免费观看| 素人激情视频福利| 亚洲男女在线| 日韩欧美高清视频| 欧美在线视频不卡第一页| 中文精品久久久久国产网址| 国产1区2区在线观看| 亚洲成网777777国产精品| 国产女人在线| 国产麻豆aⅴ精品无码| 国产大片黄在线观看| 青草视频久久| 婷婷五月在线|