續(xù)晉
(湖北省荊州市四機(jī)賽瓦石油鉆采設(shè)備有限公司 湖北省荊州市 434022)
油田生產(chǎn)數(shù)據(jù)蘊(yùn)含大量有價(jià)值信息,但由于數(shù)據(jù)接口不統(tǒng)一、數(shù)據(jù)采集不完善、數(shù)據(jù)傳輸不到位與數(shù)據(jù)分析不合理等因素的影響,導(dǎo)致數(shù)據(jù)未得到合理應(yīng)用,阻礙油田開發(fā)的進(jìn)一步發(fā)展。就此,在油田開發(fā)中引入數(shù)據(jù)挖掘技術(shù)是很有必要的。
數(shù)據(jù)挖掘技術(shù)是指通過數(shù)據(jù)統(tǒng)計(jì)、模式識別、機(jī)器學(xué)習(xí)、專家系統(tǒng)與數(shù)據(jù)分析等方法,在海量數(shù)據(jù)中挖掘有價(jià)值信息的技術(shù)。目前數(shù)據(jù)挖掘技術(shù)的應(yīng)用已趨于成熟,相關(guān)技術(shù)較完善,可將其用于數(shù)量處理要求較高的油田開發(fā)工作中。在油田開發(fā)的數(shù)據(jù)挖掘中,應(yīng)用流程包括資料收集、數(shù)據(jù)預(yù)處理、算法選擇、模型選擇。其中,資料收集是指根據(jù)油田開發(fā)問題,全面整合相關(guān)數(shù)據(jù)資料,為數(shù)據(jù)采集提供條件;數(shù)據(jù)預(yù)處理是指對異常數(shù)據(jù)或缺失數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,保障數(shù)據(jù)挖掘的質(zhì)量;算法與模型選擇是指根據(jù)油田開發(fā)問題分析的要求,選擇相應(yīng)的算法與計(jì)量模型,合理處理數(shù)據(jù),獲得權(quán)威且穩(wěn)健的結(jié)論,為油田開發(fā)提供幫助[1]。
基于油田開發(fā)的現(xiàn)狀,數(shù)據(jù)挖掘技術(shù)常用于生產(chǎn)數(shù)據(jù)預(yù)處理、數(shù)據(jù)分類與數(shù)據(jù)預(yù)測三個(gè)領(lǐng)域。
常用粗糙集理論,對油田生產(chǎn)開發(fā)數(shù)據(jù)進(jìn)行屬性約簡處理,為數(shù)據(jù)挖掘與分析提供條件。具體的數(shù)據(jù)預(yù)處理算法包括粒子群算法、細(xì)菌覓食算法等,技術(shù)人員可根據(jù)數(shù)據(jù)特征,選擇獨(dú)立使用一種算法或配合使用多種算法。其中,粒子群算法是指利用個(gè)體與群體的飛行經(jīng)歷,獲取群體的最佳位置,完成最優(yōu)解的尋找,屬于全局優(yōu)化算法,具有算法簡單,運(yùn)行效率高等優(yōu)勢;細(xì)菌覓食算法是指模擬人體腸道內(nèi)大腸桿菌的覓食流程提出的優(yōu)化算法,可用于問題最優(yōu)解的尋找。大量工程實(shí)踐表明,多種算法的配合應(yīng)用,獲得的數(shù)據(jù)預(yù)處理效果更優(yōu)。
就此,本文以粒子群算法與細(xì)菌覓食算法的配合應(yīng)用技術(shù)為基礎(chǔ),分析數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)預(yù)處理中的應(yīng)用。整合算法的原理在于應(yīng)用粒子群算法對群體信息進(jìn)行初始化迭代處理,獲得數(shù)據(jù)預(yù)處理的初步最優(yōu)解,再應(yīng)用細(xì)菌覓食算法的遷移趨化操作,獲得全新的最優(yōu)解,可提高數(shù)據(jù)預(yù)處理效率,減少預(yù)處理的隨機(jī)性,具體實(shí)施流程如下:
2.1.1 明確編碼方式
在數(shù)據(jù)預(yù)處理中,粒子群算法不能直接處理解數(shù)據(jù),需將原始數(shù)據(jù)轉(zhuǎn)變?yōu)槎M(jìn)制數(shù)據(jù)結(jié)構(gòu),轉(zhuǎn)變方法的選擇,會影響轉(zhuǎn)變效果。目前常用的數(shù)據(jù)編碼方式為基于{0,1}符號集的二進(jìn)制一維編碼。
2.1.2 設(shè)置初始群體規(guī)模
在粒子群算法應(yīng)用中,技術(shù)人員需合理設(shè)置初始群體規(guī)模,保障算法的搜尋質(zhì)量與效率。初始群體規(guī)模由核屬性決定,技術(shù)人員首先計(jì)算原始數(shù)據(jù)的核屬性,再將其從粒子表達(dá)中剔除,剩余屬性映射于[0,1]之間,即完成初始群體規(guī)模設(shè)置。
2.1.3 選擇適應(yīng)度值函數(shù)
在通過屬性約簡進(jìn)行數(shù)據(jù)預(yù)處理時(shí),技術(shù)人員需確保所得的集合為約簡,且包括最少屬性個(gè)數(shù)的狀態(tài)。針對該要求,常用的適應(yīng)度值函數(shù)為:

2.1.4 粒子更新
在數(shù)據(jù)預(yù)處理中,技術(shù)人員需設(shè)定粒子更新速度,并應(yīng)用sigmiod 函數(shù)將速度對應(yīng)的值映射于[0,1]的區(qū)間內(nèi),準(zhǔn)確定位粒子群中的個(gè)體最優(yōu)值,完成數(shù)據(jù)預(yù)處理。
2.1.5 設(shè)置算法終止條件
由于數(shù)據(jù)預(yù)處理中的屬性約簡并未有規(guī)范的終止條件,技術(shù)人員需根據(jù)個(gè)人經(jīng)驗(yàn),合理設(shè)置算法終止條件,可通過可接受迭代次數(shù)的設(shè)計(jì),根據(jù)適應(yīng)度值的變化狀況,選擇算法是否終止[2]。
在數(shù)據(jù)預(yù)處理中,可去除原始數(shù)據(jù)中的冗余數(shù)據(jù)或異常數(shù)據(jù),為保障數(shù)據(jù)的有效應(yīng)用,技術(shù)人員還需應(yīng)用合理數(shù)據(jù)挖掘技術(shù),進(jìn)行數(shù)據(jù)分類。常用的數(shù)據(jù)分類技術(shù)為決策樹分類算法,可根據(jù)挖掘分類原則,實(shí)現(xiàn)數(shù)據(jù)額的高效準(zhǔn)確分類。但決策樹分類算法將機(jī)器為核心,步驟較為繁瑣,且在數(shù)據(jù)處理數(shù)量方面稍顯不足,難以對海量數(shù)據(jù)進(jìn)行分類。技術(shù)人員可利用C#的嵌入式SQL 語言,提高算法的執(zhí)行效率,實(shí)現(xiàn)海量數(shù)據(jù)的高效準(zhǔn)確分類。優(yōu)化后的分類算法可通過信息增益率屬性制定最優(yōu)數(shù)據(jù)分類規(guī)則,算法執(zhí)行中信息熵變化最大,就表明該屬性數(shù)據(jù)承載的信息越重要。嵌入式SQL語言對數(shù)據(jù)的信息增益率屬性進(jìn)行排序,明確信息熵變化,將其存儲于數(shù)據(jù)信息庫中,并在非樹葉結(jié)點(diǎn)處分裂,直到數(shù)據(jù)分類滿足終止條件。具體而言,基于決策樹分類算法的數(shù)據(jù)分類流程如下:
(1)整合生產(chǎn)數(shù)據(jù),構(gòu)建生產(chǎn)樣本數(shù)據(jù)表,并應(yīng)用嵌入式SQL 語句遍歷所有數(shù)據(jù),將查詢結(jié)果傳輸?shù)剿拗髡Z言C#中,明確不同類別的比例與等變量。
(2)基于比例與比例等變量,編寫求最優(yōu)分割閾值函數(shù)及信息增益率計(jì)算函數(shù),并執(zhí)行設(shè)計(jì)函數(shù),獲得每個(gè)數(shù)據(jù)的信息增益率,存儲于相應(yīng)數(shù)據(jù)庫中。
(3)在數(shù)據(jù)庫中對信息增益率進(jìn)行排序,明確每個(gè)數(shù)據(jù)含有重要信息的個(gè)數(shù),并將計(jì)算結(jié)果存儲于個(gè)數(shù)數(shù)組中,將數(shù)組中的第m 個(gè)屬性標(biāo)注為CountA[m]。
(4)選擇Find Rules 函數(shù)處理個(gè)數(shù)數(shù)組中的各個(gè)屬性數(shù)據(jù),生成數(shù)據(jù)分類規(guī)則,并將其存儲于分類規(guī)則數(shù)據(jù)庫中。如果屬性存在葉結(jié)點(diǎn),需將其樣本數(shù)據(jù)取值為0,將CountA[]的數(shù)值清空,避免樣本數(shù)據(jù)對后續(xù)規(guī)則生成造成影響,反之則將CountA[]的數(shù)值清空,將空值NULL 剔除。
(5)整合應(yīng)生成分類規(guī)則的屬性數(shù)據(jù),如果存在剩余屬性信息,則需重復(fù)上述步驟,反之則結(jié)束算法。
某技術(shù)人員將上述算法用于數(shù)據(jù)分類處理中,正確分類次數(shù)達(dá)30 次,僅出現(xiàn)一次錯(cuò)誤分類,正確率高達(dá)96.8%。可見,優(yōu)化后的決策樹分類算法可精準(zhǔn)高效進(jìn)行數(shù)據(jù)的處理,強(qiáng)化數(shù)據(jù)挖掘技術(shù)的應(yīng)用效果。
基于油田開發(fā)的海量數(shù)據(jù),技術(shù)人員可通過數(shù)據(jù)挖掘技術(shù)預(yù)測油田數(shù)據(jù),明確油田產(chǎn)油量的影響因素,為油田生產(chǎn)開發(fā)提供決策參考。在油田生產(chǎn)開發(fā)中,技術(shù)人員可通過數(shù)據(jù)挖掘技術(shù)預(yù)測大量相關(guān)數(shù)據(jù)。影響要素較少的數(shù)據(jù)類型,可通過多元回歸分析、人工神經(jīng)網(wǎng)絡(luò)等單一分析方法準(zhǔn)確預(yù)測,明確其發(fā)展趨勢;影響因素較多的數(shù)據(jù)類型,需整合多種數(shù)據(jù)挖掘技術(shù),目前常用的組合預(yù)測方法包括多元回歸分析、ARMA 時(shí)間序列分析、神經(jīng)網(wǎng)絡(luò)三項(xiàng)。
多元回歸分析用于挖掘油田數(shù)據(jù)的主要影響因素。在數(shù)據(jù)預(yù)測中,影響因素較多,可將其作為因變量,將預(yù)測數(shù)據(jù)為變量,采集生產(chǎn)數(shù)據(jù)作為樣本,利用多元回歸分析模型進(jìn)行顯著性檢驗(yàn),選出顯著水平≤0.05 的因變量,即為數(shù)據(jù)的主要影響因素。
ARMA 時(shí)間序列分析用于預(yù)測基本數(shù)據(jù)信息,在開展數(shù)據(jù)分析前,需對顯著影響變量的數(shù)據(jù)進(jìn)行預(yù)處理,通過0-1 均值化處理獲得平穩(wěn)時(shí)間序列后,明確序列的自相關(guān)系數(shù)與偏相關(guān)系數(shù),通過AIC 準(zhǔn)則對時(shí)間序列進(jìn)行定階處理,選擇合適的自回歸模型,并通過模型檢驗(yàn),分析其 是否平穩(wěn)白噪聲,不是則需改進(jìn)模型;反之則表明模型可投入使用。在保障模型質(zhì)量后,可輸入歷年變量數(shù)據(jù),分析其模型預(yù)測數(shù)據(jù)與實(shí)際數(shù)據(jù)的差異,二者偏差低于1%,就表明預(yù)測結(jié)果準(zhǔn)確。
神經(jīng)網(wǎng)絡(luò)用于構(gòu)建數(shù)據(jù)綜合預(yù)測模型,其輸出值為最終的預(yù)測結(jié)果。技術(shù)人員需將上述預(yù)測的結(jié)果為樣本數(shù)據(jù),構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,具體流程如下:構(gòu)建輸入輸出層→構(gòu)建隱含層→選擇激勵(lì)函數(shù)→構(gòu)建預(yù)測模型。在上述過程中,隱含層常用函數(shù)為tansig 函數(shù);輸出層常用函數(shù)為logsig 函數(shù)。為保障預(yù)測模型的結(jié)果準(zhǔn)確性與計(jì)算高效性,需將模型的期望誤差設(shè)置為0.00001,將學(xué)習(xí)速率設(shè)置為0.01。
總的來說,在油田數(shù)據(jù)預(yù)測中,技術(shù)人員需將歷史油田開發(fā)數(shù)據(jù)為基礎(chǔ),調(diào)節(jié)不同數(shù)據(jù)挖掘技術(shù)的參數(shù)與模型,并將預(yù)測結(jié)果與生產(chǎn)實(shí)踐對比,獲得最優(yōu)的數(shù)據(jù)預(yù)測模型;再將待開發(fā)油田的相關(guān)參數(shù)輸入到模型中,得出最終的數(shù)據(jù)預(yù)測結(jié)果,為油田開發(fā)生產(chǎn)提供指導(dǎo)[3]。
基于數(shù)據(jù)挖掘技術(shù)的多樣功能,油田開發(fā)單位可構(gòu)建油田開發(fā)決策系統(tǒng),整合油田數(shù)據(jù)采集、組合預(yù)測分析與決策等流程,提高油田開發(fā)的效率與質(zhì)量,實(shí)現(xiàn)其現(xiàn)代化與智能化發(fā)展。
決策系統(tǒng)需將數(shù)據(jù)挖掘技術(shù)在油田開發(fā)中的應(yīng)用為基礎(chǔ),設(shè)計(jì)生產(chǎn)數(shù)據(jù)管理(包括數(shù)據(jù)采集、數(shù)據(jù)存儲、日志管理與操作用戶管理)、分類規(guī)則挖掘(包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析與挖掘、結(jié)果分析評價(jià))、數(shù)據(jù)預(yù)測(包括預(yù)測模型構(gòu)建、預(yù)測結(jié)果輸出與評價(jià))與決策方案展示(包括綜合分析評價(jià)、分析結(jié)果輸出、輔助決策供給)四項(xiàng)功能,整合油田開發(fā)的各個(gè)環(huán)節(jié)。
在明確決策系統(tǒng)的功能后,技術(shù)人員需明確系統(tǒng)架構(gòu),為系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)提供條件。基于油田開發(fā)數(shù)據(jù)的特征,可選用C/S 架構(gòu),將該架構(gòu)的客戶端與服務(wù)器為基礎(chǔ),增加系統(tǒng)層級,發(fā)揮C/S 架構(gòu)高效、安全、便捷優(yōu)勢的同時(shí),彌補(bǔ)其推廣運(yùn)維的不足。優(yōu)化后的三層系統(tǒng)架構(gòu)更具靈活性、穩(wěn)定性與抗干擾能力,支持?jǐn)?shù)據(jù)共享,減少系統(tǒng)操作誤差,為油田開發(fā)提供便利[4]。
以C/S 架構(gòu)為基礎(chǔ)三層系統(tǒng)架構(gòu)包括操作層、邏輯層與訪問層。其中,操作層是指客戶操作,用戶可通過數(shù)據(jù)輸入與功能操作,獲取所需的結(jié)果,該層也用于展示最終的決策方案與數(shù)據(jù)挖掘結(jié)果;邏輯層是指業(yè)務(wù)邏輯,用于連接操作層與訪問層,需在內(nèi)部配置應(yīng)用模型,用于實(shí)現(xiàn)上述功能;訪問層是指數(shù)據(jù)訪問,用于管理數(shù)據(jù)庫和接收業(yè)務(wù)邏輯層的數(shù)據(jù)庫訪問請求。三個(gè)層級間的協(xié)調(diào)配合,是保障油田開發(fā)決策的關(guān)鍵。
在明確決策系統(tǒng)的功能與架構(gòu)后,技術(shù)人員需采用合理措施,優(yōu)化決策系統(tǒng)的設(shè)計(jì),實(shí)現(xiàn)上述功能與流程要求。決策系統(tǒng)設(shè)計(jì)的關(guān)鍵在于數(shù)據(jù)庫設(shè)計(jì)與決策生成[5]。技術(shù)人員可選擇Oracle 10g 數(shù)據(jù)庫為核心,設(shè)計(jì)生產(chǎn)數(shù)據(jù)、樣本數(shù)據(jù)、分類規(guī)則與預(yù)測結(jié)果等多項(xiàng)數(shù)據(jù)庫,為系統(tǒng)的運(yùn)行提供支持。
在生產(chǎn)數(shù)據(jù)庫中,技術(shù)人員需實(shí)時(shí)采集生產(chǎn)數(shù)據(jù),存儲于數(shù)據(jù)庫中,整合歷年油田生產(chǎn)數(shù)據(jù),為后續(xù)決策分析提供參考;在樣本數(shù)據(jù)庫中,技術(shù)人員通過生產(chǎn)表征屬性與決策屬性,在生產(chǎn)數(shù)據(jù)庫中選擇樣本數(shù)據(jù),存儲于樣本數(shù)據(jù)庫中,用于油田開發(fā)分析;在分類規(guī)則數(shù)據(jù)庫中,技術(shù)人員需存儲大量數(shù)據(jù)范圍分類規(guī)則,為決策提供輔助參考,即決策樹生成的多元分類規(guī)則,其表字段選取樣本數(shù)據(jù)表征屬性與決策屬性約簡后的內(nèi)容;在預(yù)測結(jié)果數(shù)據(jù)庫中,用于存儲樣本數(shù)據(jù)組合預(yù)測后的某時(shí)間段油田數(shù)據(jù),該數(shù)據(jù)庫需配置觸發(fā)器,在檢測到生產(chǎn)數(shù)據(jù)更新后,立即驅(qū)動(dòng)預(yù)測流程,將全新預(yù)測結(jié)果存儲與數(shù)據(jù)庫中;在決策方案數(shù)據(jù)庫中,涵蓋多種決策方案,可根據(jù)數(shù)據(jù)范圍、預(yù)測結(jié)果描述等信息,輸出相應(yīng)的決策方案,為決策人員提供幫助,在用戶信息數(shù)據(jù)庫中,涵蓋用戶名、密碼、用戶權(quán)限等信息。
決策生成是決策系統(tǒng)提供油田開發(fā)決策的關(guān)鍵機(jī)制,技術(shù)人員可通過三條件并行驗(yàn)證機(jī)制的應(yīng)用,保障決策方案生成的合理性,優(yōu)化油田開發(fā)決策流程。其一是基于數(shù)據(jù)分類規(guī)則驗(yàn)證,在嵌入式SQL 語句中依次輸入分類規(guī)則,計(jì)算其準(zhǔn)確率,如果高于97%,則驗(yàn)證成功,反之則需重新執(zhí)行分類規(guī)則系統(tǒng);其二是基于數(shù)據(jù)預(yù)測結(jié)果驗(yàn)證,整合多次預(yù)測結(jié)果,計(jì)算其相對誤差的平均值、最大值與最小值,如果數(shù)值處于規(guī)定范圍內(nèi),驗(yàn)證成功,預(yù)測結(jié)果準(zhǔn)確性較高,可用于輔助決策,反之則需重新執(zhí)行預(yù)測流程;其三是基于生產(chǎn)數(shù)據(jù)驗(yàn)證,可將生產(chǎn)數(shù)據(jù)輸入到數(shù)據(jù)分類決策樹中,明確數(shù)據(jù)范圍,并將預(yù)測結(jié)果與其對比,二者相符則驗(yàn)證成功,反之則表明數(shù)據(jù)存在偏差,找出偏差數(shù)據(jù)后,修整系統(tǒng)數(shù)據(jù)庫,重新進(jìn)行預(yù)測與決策。
某技術(shù)人員根據(jù)上述方法與流程,成功設(shè)計(jì)油田開發(fā)決策系統(tǒng),并將其投入應(yīng)用。系統(tǒng)的初始界面為登錄界面,用戶需輸入用戶名與密碼,方可使用系統(tǒng);系統(tǒng)功能界面包括用戶管理、分類規(guī)則挖掘、數(shù)據(jù)預(yù)測、數(shù)據(jù)管理、決策展示、返回登錄界面六項(xiàng),用戶可根據(jù)需求點(diǎn)擊,獲取所需信息。在決策系統(tǒng)運(yùn)行后,技術(shù)人員應(yīng)用其對2018年數(shù)據(jù)進(jìn)行預(yù)測,決策系統(tǒng)的數(shù)據(jù)預(yù)測誤差為0.45%,表明決策方案有效。可見,本文構(gòu)建的決策系統(tǒng)具有可行性,可推廣應(yīng)用。
綜上所述,數(shù)據(jù)挖掘技術(shù)可用于油田開發(fā)數(shù)據(jù)處理的全過程,即數(shù)據(jù)預(yù)處理、數(shù)據(jù)分類與數(shù)據(jù)預(yù)測,提高油田生產(chǎn)質(zhì)量,需推廣普及。通過本文的分析可知,相關(guān)單位可將數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),構(gòu)建油田開發(fā)決策系統(tǒng),提高油田開發(fā)決策的合理性,保障油田開發(fā)的質(zhì)量,推動(dòng)油田產(chǎn)業(yè)的可持續(xù)發(fā)展。