楊傳書,李昌盛,孫旭東,黃歷銘,張好林
(中國石化石油工程技術研究院,北京102206)
近年來,新一代人工智能技術快速發展,在智慧安防、智慧金融、智慧零售等領域取得了良好的應用效果。因此,全社會掀起了“人工智能+”的研究熱潮,石油行業也不例外,盡管一些報道稱在某些場景取得了很好的應用結果,但總體來說,人工智能技術在石油行業的應用研究仍處在探索階段,在鉆井領域尚未取得工業應用的實質進展。從現有文獻報道看,人工智能的應用場景很多,人工智能算法也很多,需要采用科學的方法加快人工智能應用技術研發。筆者從方法論入手,闡述了一條將人工智能技術應用到鉆井領域的技術路徑,并提出了鉆井人工智能技術的發展建議。
人工智能(簡稱AI)是計算機科學的一個分支,是一門認知學科,它試圖了解智能的實質,并生產出一種新的、能以人類智能相似的方式做出反應的智能機器。AI包括機器人、計算機視覺、自然語言處理、認知與推理、機器學習和博弈與倫理等6大方面[1],廣泛應用于社交、醫療和商業等領域。支撐AI崛起的3大支柱條件是數據、算力和算法。
BP公司與IBM公司聯合研發了下套管卡管智能預測系統,準確率達到了85%。沙特阿美公司利用決策樹和k-鄰近算法預測井涌,準確率達到了90%以上[2]。Oceanit和Shell公司合作研發了智能定向鉆井系統,利用14口井的定向鉆井數據進行強化學習訓練,基于當前施工參數預測未來的壓差和扭矩,誤差分別為0.21%和2.72%,可以實現高效定向鉆進[3]。Aramco公司利用人工智能方法計算基于時間的鉆井液安全密度窗口,計算速度與傳統的物理解析算法相比大幅提高[4]。管志川等人[5]采用神經網絡方法,研究了鉆井過程中的井下復雜情況,并對漏、涌、卡等風險進行識別和預測。殷志明等人[6]采用機器學習的方式研究了鉆速預測過程中的離群點問題,提出了一種融合離群點的檢測算法。Yin Qishuai等人[7]利用大數據挖掘技術研究實時錄井數據、識別鉆井狀態,分析了鉆井非生產時間,形成了提高鉆井效率的方案。
近年來,國外油公司或油服公司紛紛與人工智能研究機構進行聯合,加快了油氣領域人工智能應用的研究;同時,各大公司認識到數據共享平臺及開放性人工智能創新環境的重要性,斯倫貝謝公司推出的DELFI云平臺和哈里伯頓公司推出的DecisionSpace?365云平臺,都是具備全業務鏈數據管理、大數據及支撐人工智能研究的開放式云平臺。國內中國石油集團發布了“夢想云”,包括云平臺、數據湖、數據中臺、應用商店和人工智能應用等關鍵技術,為加快包括鉆井在內的油氣人工智能技術研究奠定了基礎[8]。中國石化也著手打造石化智云平臺,并開展了智能油氣田試點建設,但支撐鉆井大數據及人工智能研究的基礎仍然薄弱。
工業界AI不同于人機博弈和商業營銷,僅僅靠簡單的數據驅動是行不通的,必須從實際問題出發,用領域知識來約束人工智能建模[9]。鉆井是一項復雜的工程,必須找到合適的場景、合適的數據,并將行業知識與AI算法相融合,才能將AI技術真正應用于鉆井領域。
大數據是AI的基石,進行AI建模,必須確保有可用的數據。可用的數據應包含3大特征:數據量要大,只有原始數據量大,才有可能構建足夠多的訓練樣本;數據要準確,利用錯誤數據和假數據無法構建正確的關聯關系;數據維度全面,即數據項必須涵蓋應用場景所需的主要特征量。
鉆井領域的AI技術不僅依賴于各類工程數據,還依賴于井下環境數據,即巖石與地層特征數據。工程類數據包括井眼軌跡、井身結構、鉆具組合、鉆頭、鉆井液體系、鉆井液性能、實時綜合錄井(包括工程參數、鉆井液參數、氣測參數)、巖屑錄井、測井、故障復雜情況記錄和鉆時等數據,上述部分數據為時間序列,部分為深度序列,部分兼而有之,不同場合都可以用。此外,還包括一些計算數據,如環空壓力、摩阻扭矩、機械比能等。巖石與地層特征數據包括巖石力學參數、巖石產狀、巖石物理性質、地層三壓力和地層巖性等,這些參數大多是基于測錄井數據計算或解釋,進而通過試驗或實測校驗得到的,而測錄井數據的解釋可以利用AI技術。
李杰等人[10]提出,需要從以下3個方向開展智能制造系統研究:1)在解決可見問題的過程中積累經驗和知識,從而規避這些問題;2)需要根據數據去分析產生問題的隱性線索、關聯性和根本原因,將不可見問題顯性化,進而解決不可見問題;3)通過深度挖掘知識,建立知識和問題之間的相關性,從舊知識中產生新知識,并利用新知識精確建模,從設計層面避免可見和不可見問題的發生。參考這一思路,結合鉆井領域的業務特點,大致可以梳理出鉆井領域AI應用場景(見表1)。

表1 鉆井領域AI應用場景及解決的問題Table1 AI application scenarios and problemsto be solved in drilling engineering
2.3.1 大數據支撐平臺
機器學習是基于數據的科學方法,因此首先要把各類數據、海量數據組織起來,并轉換成AI算法可直接調用的數據集,常規數據管理系統無法完成這一工作。大數據支撐平臺主要實現的功能包括:異構數據存儲、數據預處理、數據聚合、數據過濾、數據變換、特征提取、特征衍生、特征降維、樣本標記和數據服務等。由于涉及異構數據,數據體量大,必須使用ETL數據提取工具、Hadoop分布式存儲與計算工具、Spark大數據計算引擎等流行工具。
2.3.2 AI建模算法及工具庫
成熟的AI算法非常多,且還在不斷研發出新的AI算法。表2列舉了鉆井程領域可能用到的算法及其適用場景[11-12]。

表2 常用AI算法及其適用場景Table 2 Common AI algorithms and their applicable scenarios
我國在AI基礎方面的研究比較薄弱,尚未形成可用的算法平臺。目前,國內研究人員主要使用國外開源的算法庫(已經把一些算法進行了程序封裝,可直接調用),包括TensorFlow、Apache System ML、Caff e、Apache Mahout、Open NN、Py Torch、Neuroph、Deeplearning4j、Mycroft、OpenCog等,每個算法庫都有其優缺點,需要甄別選用或組合使用[13]。
鉆井領域AI項目成功的關鍵在于3個條件:有實際需求的業務場景、有滿足條件的數據、有適用的技術工具(即AI工具)。業務、數據、技術三者欠缺任何一項,都不可能獲得理想的結果,好比三輪車的3個輪子,任何1個輪子有缺陷,都影響行車速度和平穩性。確立AI項目時應遵循“三輪驅動”方法(見圖1),優先選擇三者交集中心區的項目。
實際研究工作中,分別從業務、數據、技術3個方面進行現狀梳理,針對每種組合情形,分別歸入圖1的7個區:0區代表三者兼備,具備開展AI建模的條件,可啟動應用研究工作;1區、2區和3區代表具備了其中2項條件,可進一步探索另一條件的可行性,比如搜集必須的數據、挖掘業務需求,或者尋找適合的AI方法,這些情形可通過努力逐漸向0區過渡;4區、5區和6區是極不成熟的情形,建議暫時放棄。

圖1 “三輪驅動”方法論Fig.1"Three-wheel drive"methodology
對于0區的情形,還可對每個條件進行評估:業務場景方面,可從需求迫切程度、預期應用廣度、潛在社會經濟效益等方面進行量化評價;數據基礎方面,可從數據完整性、數據量、準確率、可標記率等維度進行量化評價;技術工具方面,可從算法豐富程度、算法在其他行業應用成熟度、樣本需求量、可遷移性、算法工具獲取難易程度等角度進行量化評價。最終從中選出三者均為高分的項目開展研究,并快速應用研究成果。
以表1所列的業務場景為綱,以“三輪驅動”方法為指導,根據筆者所在團隊的技術現狀,分別從3個方面進行評估,開展了項目優選,限于篇幅,表3僅列出了部分項目的評估情況(業務需求已在表1闡述,此處不再贅述)。
由表3可知,模型訓練主要使用歷史數據,而模型應用必須使用實際數據作為入口參數,模型訓練和實際應用場景下的數據滿足程度可能有差異,某些情況下即便模型可以訓練出來,實際場景應用時也存在很大難度,比如隨鉆機械鉆速的預測和監測。

表3 鉆井領域AI技術部分應用項目評價Table 3 Project evaluation (example)of AI application in drilling engineering
鉆井領域亟待解決且適合應用人工智能技術的問題,包括地層特征識別、鉆井參數優化、井眼軌道優化、井下故障診斷預警等。下面以鉆井井下風險實時識別為例,簡要闡述人工智能建模及試驗驗證情況。
3.2.1 數據提取與預處理
從實時分析數據集和復雜情況案例知識庫中自動提取鉆井復雜情況樣本,包括復雜情況類型、發生時間、井深和錄井參數等。由于錄井實時數據存在空值、異常、重復、噪聲等情況,如不處理將對模型產生影響,因此對數據進行預處理,選取多種數據處理方法,開發數據提取和預處理模塊。以鉆井實時數據為例,最常見的問題是數據項值缺失和數據項值異常(如超出正常值范圍)、數據記錄重復,對于這些異常,一般采取數據項整列刪除、數據記錄整條刪除、利用本列均值替換等方式進行處理,通過開發數據預處理模塊,預先設置每種異常的處理方式,軟件即可自動批量處理數據,得到正常可用的數據;亦可在隨鉆過程中對動態采集的數據進行實時處理,以滿足實時智能預測的應用需求。
3.2.2 業務標簽
基于業務專家理論及油田歷史井實鉆經驗,按照正常作業、故障征兆、故障發生等作業狀態,對實鉆錄井時間域原始數據劃分時間段,如以3 min為時間窗格,通過專家分析對井漏前、井漏時和井漏后的錄井數據打標簽,分別定義為非井漏樣本、井漏樣本和非井漏樣本(見圖2)。

圖2 專家業務標簽邏輯Fig.2 Expert businesstag logic
3.2.3 特征選取
根據數據相關性分析結果,確定不同鉆井復雜情況的特征參數。以井漏為例,提取參數(入口流量、出口流量、鉆井液池內鉆井液體積、立管壓力等)的絕對值、變化率、偏度、峰度和相關性等特征量,找到井漏與非井漏樣本之間數據變化的差異性,利用斯皮爾曼相關性分析方法分析特征參數與井漏的相關性,形成訓練井漏識別模型特征參數的選取邏輯(見圖3),最終確定9個特征參數,即工況、入口流量、出口流量、計量罐內鉆井液體積變化、鉆井液體積變化、立管壓力、立管壓力變化率、套管壓力和套管壓力變化率。

圖3 井漏特征選取邏輯Fig.3 Lost circulation featureselection logic
以卡鉆為例進行分析。卡鉆發生前大鉤載荷、立壓、扭矩及轉速等參數異常波動,大量卡鉆實例分析結果表明,卡鉆發生時參數呈現隨時間變化的規律,因此引入了平均值和峰值作為新的特征參數。由于每個參數都存在正常的波動,相鄰2組數據(一般相隔5~10 s)的變化不能準確體現參數真正的變化趨勢,于是將數據按連續時間窗劃分為處理單元,最終確定了14個特征參數(每3 min一個數據窗格作為計算單元):工況、大鉤載荷、過去30 min大鉤載荷的平均值、大鉤載荷變化率峰值、立壓、過去30 min立壓的平均值、立壓變化率峰值、扭矩、過去30 min扭矩的平均值、扭矩變化率峰值、鉆壓、入口流量和轉速。
3.2.4 算法選取與模型構建
根據復雜情況的特征參數,將鉆井復雜情況識別問題處理為二分類問題,即井漏和非井漏、溢流和非溢流、卡鉆和非卡鉆。大數據分類算法豐富,典型算法包括決策樹、隨機森林和支持向量機等,目前應用較多的是以決策樹為基礎的集成算法,XGBoost是應用效果較好的一種集成算法。XGBoost算法由GBDT(梯度提升迭代決策樹)改進而來,是由多個基學習器共同構成的整體模型,既可以用于分類問題,也可以用于回歸問題。依據混淆矩陣,利用XGBoost算法進行推算,驗證模型的準確率和召回率,通過反復調整模型的框架參數(比如調整最大迭代次數n、迭代步長l等),逐步得到最優模型。
鉆井井下故障智能識別建模過程中,首先提取80%的案例數據集加載到算法中進行訓練,用剩余的20%案例數據集進行驗證;然后局部更換數據集中的案例,重復上述過程,通過驗證識別結果與實際案例的吻合度,促進模型通過學習提高準確率。以某地區57口井的114個井下故障案例作為基本數據樣本集,附加100個正常鉆進的數據樣本,共同構建了模型訓練樣本集。研究發現,基于XGBoost算法訓練的模型,井漏識別準確率80%,溢流識別準確率82.7%,卡鉆識別準確率71.2%,識別準確率和計算速度與經典GBDT相比明顯提高。此外,該結果也比筆者此前基于傳統方法建模的識別準確率有所提高,今后隨著案例樣本不斷積累和增加,該模型識別井下故障的準確率會進一步提高。
1)鉆井領域AI應用場景很多,但國內石油企業“數據孤島”問題較嚴重,而且鉆井歷史數據的標準化、完整性、正確性欠缺,數據的自動化采集程度較低(數據頻度、準確性和時效性不足),較難構建出針對每個應用場景的高質量訓練樣本。
2)大數據及人工智能應用研究離不開大數據相關技術的支撐,傳統技術手段難以支撐海量數據的抽取、處理、轉換、服務,而針對鉆井工程大數據的支撐平臺剛剛起步。
1)建立集團級數據共享中心,加快數據治理,打破油田分公司之間、專業板塊之間的信息壁壘,提高數據質量,將科研單位的研發能力同生產單位的數據優勢結合起來,共同促成企業數字轉型和鉆井的智能化。
2)借鑒國外經驗,同知名的AI專業研究機構合作,首先構建一體化大數據及人工智能研究支撐平臺,針對鉆速預測及參數優化、井眼軌道優化、地層特征識別等場景,優選或自研人工智能算法,選擇復雜疑難的鉆井工區,加強工程特征研究及模型驗證,注重現場的可實施性。
3)進行井場設備的數字化升級換代,大幅提高現場數據的自動化采集程度,為鉆井AI技術發展積累高質量的“原材料”,促進鉆井技術自動化、智能化的快速發展。
隨著人工智能算法的不斷豐富和鉆井領域數據的積累,人工智能方法將為鉆井技術提供新的途徑和重要補充,特別是在利用傳統試驗方法難以構建準確物理模型的場景,人工智能技術將大有作為。在大數據及人工智能技術的推動下,鉆井工程正在經歷一場數字化轉型革命。鉆井人工智能應用場景很多,每個場景所需要的基礎條件和算法各不相同,“三輪驅動”的方法論可在一定程度上幫助研究者走出“無從下手”的困境,能夠快速評估優選出應用人工智能技術的場景,按照規范的步驟構建人工智能模型,并進行現場試驗,從而促進鉆井技術的升級轉型。