999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

LDA和KNN算法在隨鉆測井火成巖分類的應(yīng)用

2024-04-24 06:33:32方全全曹軍張國強許吉俊任宏
關(guān)鍵詞:分類方法模型

方全全,曹軍,張國強,許吉俊,任宏

1.中海油能源發(fā)展股份有限公司工程技術(shù)分公司(天津 300451)

2.中海石油(中國)有限公司天津分公司工程技術(shù)作業(yè)中心(天津 300451)

0 引言

渤中34-9油田表現(xiàn)為一個復(fù)雜斷塊構(gòu)造,位于黃河口凹陷中洼南部斜坡帶上,在明化鎮(zhèn)組、東營組和沙河街組形成了大型復(fù)雜斷塊圈閉群。已鉆井揭示了在沙河街組與東營組存在多期火山活動,該區(qū)鉆遇的火成巖分布廣泛但不連續(xù),巖石類型多樣。其中又以玄武巖、安山巖、沉凝灰?guī)r等中-基性火成巖與火山碎屑巖最為典型。此外,在油田開發(fā)過程中廣泛采取隨鉆4 條線(自然伽馬、電阻率、中子、密度)的測井方式錄取測井資料[1-2],實現(xiàn)了全區(qū)測井數(shù)據(jù)的可對比性與標準化。常規(guī)任取2條測井曲線(如伽馬、密度)進行兩兩交會的方式劃分火成巖巖性精度較差,故有必要對該區(qū)進行多參數(shù)綜合分析巖性評價。

線性判別分析(LDA)與K最近鄰(KNN)方法是當前比較流行的監(jiān)督式機器學(xué)習(xí)方法[3-4]。劉得芳等應(yīng)用決策樹方法提高了利用單一信息判別的準確性[5],張銀德等結(jié)合測井資料和試采資料利用支持向量機方法準確識別了油、氣、水層[6],展示了機器學(xué)習(xí)方法在油氣勘探的巨大潛力。通過對目標區(qū)5口評價井的隨鉆測井數(shù)據(jù)進行多元線性判別分析,4條測井曲線降維至平面坐標系,建立了二維可視化巖性識別圖版。另外通過與KNN 分類模型的結(jié)合,減少了歐式距離計算量并提高了分類模型的準確性,取得了良好的應(yīng)用效果。

1 LDA和KNN分類方法原理

線性判別分析(LDA)是一種常用的判別、分類的多元統(tǒng)計方法,其基本原理是使用統(tǒng)計學(xué)及機器學(xué)習(xí)方法,在多維特征空間中尋找物體或事件特征的最佳線性組合,即空間投影向量[7]。該投影向量能夠特征化或區(qū)分樣本數(shù)據(jù),作為一個線性分類器將待分類的對象與已知類型的對象進行對比,根據(jù)最大隸屬原則劃分待判對象的歸屬。

KNN方法的基本思路是:事先給定常數(shù)K(通常為奇數(shù)),在特征空間中如果距離待分類樣本最近的K個樣本中的大多數(shù)屬于某一個類別,則該待分類樣本也屬于這個類別[8]。

1.1 數(shù)據(jù)收集與預(yù)處理

通過前期研究,收集BZ34-9區(qū)塊5口評價井并統(tǒng)計了鉆遇的厚層、典型的與火山成因相關(guān)的巖層如下:沉凝灰?guī)r、玄武巖、安山巖、凝灰質(zhì)砂巖、凝灰質(zhì)泥巖、玄武質(zhì)泥巖。對于后3種砂泥巖,結(jié)合常規(guī)巖屑錄井與測井響應(yīng)特征區(qū)分度高,能夠很好識別。故篩選出沉凝灰?guī)r、玄武巖、安山巖共計3 258個數(shù)據(jù)樣本(其中1 927個沉凝灰?guī)r樣本,1 100個玄武巖樣本,232 個安山巖樣本),將每個樣本寫成向量形式x=[x1,x2,x3,x4],x1~x4分別表示樣本的4個特征,(自然伽馬、電阻率、中子、密度),樣本數(shù)據(jù)見表1。預(yù)處理階段對原始4 條線的測井數(shù)據(jù)做歸一化處理,歸一化公式見式(1)[9]。歸一化前、后的樣本數(shù)據(jù)統(tǒng)計指標見表2。

表1 基于隨鉆4條線測井數(shù)據(jù)構(gòu)建的樣本數(shù)據(jù)集

表2 樣本數(shù)據(jù)基本統(tǒng)計指標

1.2 線性判別分析與KNN處理過程

線性判別分析的目標是在特征空間中尋找最能把各類樣本區(qū)分開的投影向量,這要求投影后的同類樣本簇更聚集和緊湊,且不同類別的樣本簇之間盡可能遠離。統(tǒng)計學(xué)中用類間散度(Sb)描述不同類別樣本簇之間的遠離或區(qū)分程度,用類內(nèi)散度(Sw)描述同類別樣本簇之間的聚集程度。根據(jù)樣本類間散度和樣本類內(nèi)散度的比值(Sw-1×Sb)最大的目標選擇線性變換矩陣W[10]。對目標矩陣Sw-1×Sb進行特征值分解,選取較大的特征值對應(yīng)的特征向量即為做投影的線性變換矩陣W。以常見的c分類問題(c≥2)定義Sb、Si和Sw矩陣分別為:

式中:N表示總樣本數(shù);μi表示第i類樣本的均值,μ為總樣本均值;Ni為第i類的樣本數(shù);xik為第i類的第k個樣本;c表示類別數(shù);Si為第i類樣本的類內(nèi)散度。從公式上看散度的定義與協(xié)方差矩陣的效果一致:協(xié)方差越大表明樣本越分散,類間或類內(nèi)散度也越大。

KNN 所選擇的距離最近樣本是已經(jīng)正確分類的對象,根據(jù)最鄰近的K個樣本的類別來決定待分樣本所屬的類別,這是一種多數(shù)表決的分類決策規(guī)則,在最優(yōu)化理論中多數(shù)表決規(guī)則等價于經(jīng)驗風(fēng)險最小化,也即模型的誤分類率最小[11]。通常使用歐幾里得距離作為樣本之間距離的衡量指標,n維空間中樣本xi到樣本xj的歐式距離定義如下:

式中:xik指樣本xi的第k個維度(特征)。實踐中K取奇數(shù),避免出現(xiàn)K個樣本中恰有的樣本隸屬于不同類別而無法分類決策。由于KNN 方法主要依賴周圍有限的K個鄰近的樣本,避免了依靠判別類域的方法來確定所屬類別,因此對于類域的交叉或重疊較多的待分樣本集,KNN方法效率更高。KNN主要步驟如下:

1)將總體樣本劃分為訓(xùn)練樣本(帶類標簽)與測試樣本(未知所屬類別)。

2)對于每個待測試樣本,根據(jù)式(5)計算其到每個訓(xùn)練樣本的距離。

3)選擇距離最近的K個訓(xùn)練樣本,并分別統(tǒng)計K個樣本中屬于各類的個數(shù)。

4)K個樣本中出現(xiàn)最多的類別決定了該測試樣本所屬類別。

2 應(yīng)用實例

使用開源軟件python的numpy庫和pandas庫對3 258 個樣本歸一化后的數(shù)據(jù)樣本進行判別分析。總樣本具有4 個維度(每條測井曲線看作一個維度)。由線性判別分析的基本原理可知:對于劃分N類的情況,線性判別分析處理之后可將數(shù)據(jù)降至N-1維度。本文區(qū)分3類巖性,因此經(jīng)線性判別分析處理后樣本數(shù)據(jù)呈現(xiàn)2 維特征,可以利用交會圖的形式呈現(xiàn)分類效果。

使用numpy 包的np.linalg.svd 函數(shù)對目標矩陣Sw-1×Sb做特征值分解,取非零特征值對應(yīng)的特征向量組成投影向量記作B,將沉凝灰?guī)r、玄武巖、安山巖對應(yīng)的歸一化后的測井數(shù)據(jù)以此投影向量做線性變換(X×B,X為3 258 行/4 列,B為2 行/4 列),原始的4維測井數(shù)據(jù)降至2維,記為B1,B2,見表3。其中GR,RT,CN,DEN 分別表示預(yù)處理后的自然伽馬、電阻率、中子與密度值。

表3 線性判別降維結(jié)果

以B1,B2 分別作為橫、縱坐標繪制2 維可視化解釋圖版(圖1)。在圖1 中,3 類巖性區(qū)分度很高,安山巖最易于區(qū)分開來,玄武巖與沉凝灰?guī)r利用設(shè)定B2閾值的方式也能很好區(qū)分,但閾值兩側(cè)仍存在一些誤分類點,這是由于在巖性界面測井曲線突變或劇烈波動造成的,針對這種現(xiàn)象,有必要通過KNN方法將分類距離定量化,消除閾值設(shè)置的主觀性與不確定性。

圖1 線性判別二維可視化圖版

K 近鄰方法需要對樣本數(shù)據(jù)做貼標簽處理:首先將樣本數(shù)據(jù)劃分為訓(xùn)練集與測試集,見表4。在給定的訓(xùn)練數(shù)據(jù)集(已知類標簽),對于新輸入的實例(測試樣本,待分類)在數(shù)據(jù)集中找到與該實例最近鄰的K個實例,以K個實例中的多數(shù)類別賦予待分類實例。對于歐式距離的計算,分別在兩種空間維度上進行:方式1,4 維空間上使用原始4 條線測井數(shù)據(jù)(預(yù)處理后);方式2,2 維空間上使用判別分析投影后的B1 和B2。相較于前者,后者的距離計算能節(jié)省一半的計算量,這也體現(xiàn)了將線性判別分析與KNN方法融合的一項優(yōu)勢。

表4 數(shù)據(jù)集構(gòu)建方式

將兩種維度空間上的距離計算分別代入KNN原理步驟1,綜合考慮計算時效與精度實踐,取K=5(即只觀察距離待分類樣本最近的5個樣本),3種巖性類別分別賦予類別標簽:“1=玄武巖,2=沉凝灰?guī)r,3=安山巖”,最后畫出桿狀圖顯示分類結(jié)果,如圖2所示。

圖2 兩種方式KNN分類結(jié)果對比

由圖2 可見,KNN 分類模型在類1、類3 識別準確率很高,即可以較好地區(qū)分玄武巖與安山巖,錯誤分類主要集中在類2(沉凝灰?guī)r)的識別上,具體分類結(jié)果與分類評價指標見表5。

表5 兩種方式分類效果

對比兩種方式下模型分類能力的主要評價指標,結(jié)果顯示,以自然伽馬、電阻率、中子、密度4 條線預(yù)處理的測井數(shù)據(jù)作為KNN模型的輸入(方式1)其分類正確率為90.36%;而以線性判別分析后的數(shù)據(jù)B1,B2作為KNN模型輸入(方式2)其分類正確率為92.50%。綜合分類正確率與召回率兩個評價指標,方式2 的分類模型優(yōu)于方式1,且方式2 的分類模型減少了歐式距離的計算量。

3 結(jié)論

1)多元線性判別方法克服了常規(guī)多參數(shù)火成巖巖性識別的局限性與多解性。本文建立的基于線性判斷分析火成巖分類交會圖版有助于現(xiàn)場利用隨鉆測井數(shù)據(jù)快速、準確識別巖性。

2)融合LDA 與KNN 技術(shù)建立了區(qū)塊火成巖的分類模型,模型分類正確率達到92.50%,在降低原始KNN 模型距離計算量的同時提高了巖性分類準確率。

3)KNN模型中的K值選取則依賴經(jīng)驗。K值很大會增加計算量同時造成模型的欠擬合;K值太小會造成模型的過擬合。最后,不同機器學(xué)習(xí)方法的適用環(huán)境與應(yīng)用目的側(cè)重不同,需要結(jié)合問題有針對性地設(shè)計模型,通過有機地融合機器學(xué)習(xí)的不同方法建立高效、穩(wěn)定、泛化能力強的模型是今后應(yīng)用的一個重要方向。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 啦啦啦网站在线观看a毛片| 国产精品成| 一边摸一边做爽的视频17国产| 国产成人欧美| 在线观看欧美精品二区| 国产一级做美女做受视频| 久青草免费在线视频| 日本午夜影院| 成人免费黄色小视频| 色精品视频| 成人福利在线视频| 日韩视频免费| 美女被躁出白浆视频播放| 亚洲一区二区约美女探花| 91网址在线播放| 青青草原国产一区二区| 在线不卡免费视频| 亚欧美国产综合| 国产免费网址| 露脸一二三区国语对白| 欧美精品亚洲精品日韩专区va| 九色综合视频网| 欧美日韩在线亚洲国产人| 国产福利免费在线观看| 精品福利视频导航| 高清无码一本到东京热| 精品视频在线一区| 久青草网站| 全部毛片免费看| 欧美啪啪网| 国产美女叼嘿视频免费看| 伊人色天堂| 在线网站18禁| 亚洲久悠悠色悠在线播放| 亚洲午夜久久久精品电影院| 国产剧情伊人| 国产成人高精品免费视频| 日韩少妇激情一区二区| 国产乱人视频免费观看| 国产欧美综合在线观看第七页| 欧美亚洲日韩中文| 亚洲精品国产自在现线最新| 欧美日韩精品在线播放| 青青草国产一区二区三区| 亚洲一区二区三区国产精品 | 欧美精品1区| 日韩123欧美字幕| 国产一区在线观看无码| 综合人妻久久一区二区精品 | 国产毛片片精品天天看视频| 男人的天堂久久精品激情| 日韩福利在线观看| 欧美国产精品不卡在线观看| 白丝美女办公室高潮喷水视频| 少妇露出福利视频| 亚洲精品不卡午夜精品| 最新国产精品第1页| 亚洲国产成人久久精品软件| 免费看av在线网站网址| 亚洲va在线∨a天堂va欧美va| 国产成a人片在线播放| 亚洲欧美日韩另类在线一| 亚洲精品无码不卡在线播放| 婷婷色中文| AV不卡国产在线观看| 91原创视频在线| 国产剧情国内精品原创| 91成人免费观看| 精品亚洲欧美中文字幕在线看| 亚洲一区二区三区麻豆| 免费看美女毛片| 69视频国产| 国产成人免费手机在线观看视频| 人人爽人人爽人人片| 午夜一级做a爰片久久毛片| 国产黄色免费看| 一区二区欧美日韩高清免费| 亚洲精品在线91| 亚洲天堂视频网站| 久久久久亚洲精品无码网站| 亚洲一区色| 青青久久91|