徐寶昌 尤鵬翔 陳貽祺 孟卓然 劉偉



摘 要 控壓鉆井是一種復雜的鉆井工藝,自動節流管匯上節流閥的控制是實現井底壓力精確控制的關鍵技術。首先,建立控壓鉆井裝置中液動節流閥的動態模型,該節流閥采用比例伺服閥作為液壓調節元件,采用控制器控制比例伺服閥的閥芯移動改變液動節流閥液壓缸中液壓油的流入量,進而實現對液動節流閥閥位的控制。其次,提出一種基于深度強化學習的液動節流閥閥位控制策略,該策略利用DQN(Deep Q-Network)算法,通過液動節流閥和智能體相互交換過程中學習比例伺服閥對液動節流閥閥位的控制。最后,通過仿真和現場試驗驗證了閥位控制策略的有效性,為成功實施控壓鉆井提供了保障。
關鍵詞 液動節流閥 閥位控制 控壓鉆井 強化學習 DQN算法 比例伺服閥
中圖分類號 TP273? ?文獻標識碼 A? ?文章編號 1000-3932(2023)04-0419-10
石油資源的開發和利用正逐步走向深部復雜地層[1],為了解決井下壓力窗口過窄的安全問題,國內外學者對控壓鉆井技術(Managed Pressure Drilling,MPD)中的井筒壓力控制方法進行了廣泛的研究。隨著控壓鉆井技術的發展,不僅可以準確地控制井筒環空壓力分布,還可以清晰地分析井下壓力環境的時空變化,實時科學地管理環空壓力分布,保障控壓鉆井的作業安全[2~4]。控壓鉆井是一種過平衡鉆井技術,通過改變自動節流管匯上的節流閥閥門開度控制鉆井液回流到井口的壓力,以保持井口套管壓力的可控性[5,6],進而將井底壓力的變化控制在小范圍內,大幅提高鉆井速度,縮短鉆井周期,使鉆井作業更加安全,同時有效解決井涌、漏氣、有害氣體泄漏等問題。由于節流閥長時間工作在高壓環境中,其工作特性和可靠性將直接影響MPD實施的成功率[7]。目前,控壓鉆井技術對井口壓力的控制要求正逐漸由高壓差控制轉向高精度控制,因此對節流壓力和節流閥閥位的控制成為核心問題。
現有的用于控壓鉆井的節流閥產品比較成熟,Weatherford、At Balance和Halliburton所生產的鉆井節流閥已成功服務于數百口井,并且取得了良好的應用效果[8]。T3公司所設計的各種新型閥芯結構的執行機構(既包括了傳統節流閥的液動執行機構和手動執行機構,又包括了節流閥的電磁閥執行機構、活塞執行機構、渦輪執行機構、提升執行機構、電動執行機構和徑向手動執行機構[9])也得到了鉆井行業的認可。控壓節流閥采用電液比例控制技術,是指實現液壓控制元件被控量和控制量之間線性轉換關系的技術[10~12]。在鉆井作業過程中,精準的節流閥閥位控制是保證精確的井口回壓的前提,可以有效消除井口安全隱患,避免引發井涌、漏液等復雜事故。
隨著伺服技術的興起,常見的液動節流閥閥位控制技術是利用比例伺服閥來控制液動節流閥閥位的[10~12]。由于比例伺服閥閥門開度對節流閥的閥位控制具有典型的非線性特征,因此在現場應用中,常規PID算法難以滿足閥位無超調且跟蹤速度快的要求。為此,筆者采用提出智能控制算法來解決該問題。強化學習作為人工智能的熱點之一,已經在自控領域得到了廣泛的研究和應用。強化學習可以像人一樣進行自我調整、自我學習,在未知環境中通過不斷試錯,積極主動地完成目標。隨著智能控制理論的深入發展,越來越多的領域向著智能化方向發展。文獻[13]介紹了深度強化學習控制方法,將設計的DQN算法應用于熱過程控制,提出獎勵函數設計原則,經驗回放更新Q網絡的方法以及控制器的實現方法。文獻[14]設計了一種利用DQN開發的用于自動駕駛系統的智能動力控制器,仿真結果表明該控制器具有從駕駛經驗中學習制定合理控制策略的能力,能夠適應不同的駕駛條件和環境變化。
筆者基于深度學習和強化學習相結合的深度Q網絡,給定控壓節流閥閥位控制策略。DQN算法的特點是以值為基礎,可單步更新,只需輸入狀態信息,輸出為所有對應動作的Q值,適用于動作空間不大的情況。筆者設計的動作空間為比例伺服閥的控制指令,動作空間小,可直觀反映液動節流閥閥位的變化情況,獎勵函數是根據精準控制節流閥閥位的變化過程所設計的。最后通過對節流閥閥位控制的仿真和現場試驗,驗證了閥位控制策略的有效性。
1 液動節流閥工作原理
為了保證穩定、連續的控壓鉆井工作,筆者研發了一套液動節流閥自控系統,系統采用比例伺服閥作為電動調節機構(T3公司的API 6A液動節流閥作為執行機構),從而實現對液動節流閥的閥位控制,提高液動節流閥閥位控制的安全性和高效性。
液動節流閥的工作原理如圖1所示。當電磁鐵A、B接收到來自控制器的電流信號時,比例伺服閥的閥芯將以不同的速度移動,利用閥口開度變化改變液動節流閥液壓缸中液壓油的流入量,從而控制液動節流閥的閥位。其中,液壓油增壓動力來源于電動液壓泵或手動液壓泵[15]。
2 控壓節流閥的動態模型
3 DQN控制算法
3.1 DQN算法
3.2 閥位控制算法的深度強化學習
在本課題中,液動節流閥的模型僅用于模擬鉆井現場液動節流閥的動態變化,即作為強化學習的環境使用。對于節流閥的控制問題,強化學習的基本內容主要體現在液動節流閥從一個狀態轉移到另一個狀態,以及狀態轉移時環境給出的獎勵。因此,基于強化學習的節流閥閥位控制策略主要包括狀態空間、動作空間、獎勵函數和訓練過程。
3.2.1 狀態空間
3.2.3 獎勵函數
3.2.4 訓練過程
4 試驗與分析
仿真訓練過程中設置的液動節流閥動態模型參數見表1。
4.1 訓練結果
在DQN訓練過程中,算法對超參數的變化十分敏感,因此通常情況下需要對超參數進行優化,選擇一組最優超參數,以提高深度強化學習的性能。本研究仿真實驗設定的超參數見表2。
4.2 仿真試驗控制結果
為了驗算DQN算法的泛化能力,選取初始時刻節流閥閥門開度為60%,前70 s設置液動節流閥閥門開度設定值為55%,后70 s設置液動節流閥閥門開度設定值為70%。智能體經過強化學習得到最優控制策略,得到的比例伺服閥控制策略如圖4a所示,液動節流閥控制效果如圖4b所示。
由圖4b可知,前70 s節流閥閥門開度設定值小于節流閥閥門開度測量值,此時由圖4a可知智能體采取的控制策略是比例伺服閥閥門開度小于50%,且隨著節流閥閥門開度差值的變小,比例伺服閥閥門開度逐漸趨向于50%,待節流閥閥門開度測量值在節流閥閥門開度設定值的允許誤差范圍內時,比例伺服閥閥門保持50%的開度。后70 s節流閥閥門開度設定值大于節流閥閥門開度測量值,此時智能體采取的控制策略是比例伺服閥閥門開度大于50%,且隨著節流閥閥門開度差值的變小,比例伺服閥閥門開度逐漸趨向于50%,待節流閥閥門開度測量值在節流閥閥門開度設定值的允許誤差范圍內時,比例伺服閥閥門保持50%的開度。
4.3 現場工況測試
在某控壓鉆井現場,為保證井口回壓的穩定性,通過節流管匯系統上的自控系統對節流閥閥位進行精準控制從而保證井口壓力的穩定。
控壓鉆井現場控制架構如圖5所示。
在上位機監控界面上設置井口壓力設定值,采用強化學習控制策略實現對液動節流閥的閥位控制,并在上位機監控界面上觀察井口壓力的控制效果,從而判斷策略的有效性和可靠性。現場出口流量穩定在13 L/s,泥漿密度1.2 g/cm3。為了驗證控制算法的有效性,對井底壓力分別進行追壓和降壓試驗,進而全面測試節流閥閥位的控制效果。
首先進行井口回壓的追壓試驗。井口壓力變化幅度1 MPa,初始時刻井口壓力值1 MPa,分別設置井口壓力設定值為2、3、4、5 MPa。追壓效果如圖6所示。
之后進行井口回壓的降壓試驗。此時初始井口壓力值5 MPa,分別設置井口壓力設定值為3、2、1 MPa,降壓效果如圖7所示。
最后,為了充分試驗節流閥閥位的控制效果,調整井口壓力變化幅度為2 MPa,當初始時刻井口壓力值為2 MPa時,設置井口壓力設定值為
4 MPa,控制效果如圖8a所示;當初始時刻井口壓力值為4 MPa時,設置井口壓力設定值為2 MPa,控制效果如圖8b所示。
綜合以上現場測試結果可知,在規定時間內,通過智能體調節節流閥閥位,將井口壓力控制在目標壓力值的±0.15 MPa范圍內,滿足不同工況下給定井口壓力范圍時節流閥閥位的控制,驗證了智能體控制器能夠學習到最優的節流閥閥位控制策略,完成不同工況下的井口壓力控制任務。
5 結束語
針對節流閥閥位精準控制的問題,提出基于深度強化學習的智能控制策略。首先建立液動節流閥的動態模型,通過改變比例伺服閥的閥芯位移進而對自動節流管匯中液動節流閥的開大或關小的速度及位置進行控制。其次將液動節流閥閥位控制代入到強化學習框架中,采用DQN算法求解該問題。構建智能體進行大量的強化學習訓練,通過Q值網絡的更新調整控制策略,提高算法的穩定性。最后在多種工況下對智能體控制器進行現場試驗,結果表明閥位控制策略所具有的控制精度和響應速度能夠滿足控壓鉆井過程的需求。
參 考 文 獻
[1]? ?李根生,吳文,陳勉,等.深井復雜地層安全高效鉆井基礎研究[J].中國科技成果,2014(13):21-22.
[2]? ?XIAO C,NI H,SHI X.Unsteady model for wellbore pressure transmission of carbon dioxide fracturing considering limited-flow outlet[J].Energy,2022,239:122289.
[3]? ?SULE I,KHAN F,BUTT S,et al.Kick control reliabi-lity analysis of managed pressure drilling operation[J].Journal of Loss Prevention in the Process Industries,2018,52:7-20.
[4]? ?ZHANG Z,XIONG Y,GAO Y,et al.Wellbore tempe-rature distribution during circulation stage when well-kick occurs in a continuous formation from the bottom-hole[J].Energy,2018,164:964-977.
[5]? ?BREYHOLTZ O,NYGAARD G,GODHAVN J M,et al.Evaluating control designs for co-ordinating pumpr ates and choke valve during managed pressure drilling ope-rations[C]//2009 IEEE Control Applications,(CCA) & Intelligent Control,(ISIC).IEEE,2009:731-738.
[6]? ?FU Y K,LIU Q Y,WANG G R,et al.Mathematical modeling and validation on a new valve core of the throttle valve in MPD[J].Advances in Mechanical Engineering,2013(5):125936.
[7]? ?HANNEGAN, DON M.Managed pressure drilling in marine environments-case studies[C]//Proceedings of SPE/IADC Drilling Conference.Amsterdam,Netherla-nds,2005:1-5.
[8]? ?叔貴欣,范振忠,劉慶旺.污油泥調剖劑的研制與應用[J].科學技術與工程,2009(9):2437-2439.
[9]? ?谷經緯.鉆井節流閥的生產和使用概況研究[J].內江科技,2015,36(3):112;75.
[10]? ?薛桂娥.基于電液比例閥的阻力加載系統研究[D].西安:長安大學,2007.
[11]? ?路甬祥,胡大.電液比例控制技術[M].北京:機械工業出版社,1988.
[12]? ?韓波,王慶豐.電液比例位置同步控制系統的控制結構研究[J].機床與液壓,1997(1):7-10.
[13]? ?AO T,SHEN J,LIU X.The Application of DQN in Thermal Process Control[C]//2019 Chinese Control Conference(CCC).IEEE,2019:2840-2845.
[14]? ?CHEN I M,ZHAO C,CHAN C Y.A Deep Reinforce-ment Learning-Based Approach to Intelligent Powert-rain Control for Automated Vehicles[C]//2019 IEEE Intelligent Transportation Systems Conference(ITSC).IEEE,2019:2620-2625.
[15]? ?楊旭,楊曉華.基于FluidSim可調節流閥性能的研究[J].寧波職業技術學院學報,2018,22(2):85-87.
[16]? ?梁利華.液壓傳動與電液伺服系統[M].哈爾濱:哈爾濱工程大學出版社,2005.
[17]? ?吳振順.液壓控制系統[M].北京:高等教育出版社,2008.
[18]? ?SUTTON R S,BARTO A G.Reinforcement Learning:An Introduction[M].Cambridge,MA:MIT Press,1998.
[19]? ?SU J J,MA C H,LI S,et al.An AGC dynamic control method based on DQN algorithm [J].IOP Conference Series:Materials Science and Engineering,2020,729(1):012009.
(收稿日期:2023-01-20,修回日期:2023-03-10)
Hydraulic Choke Valve Position Control Strategy Based on Reinforcement Learning
XU Bao-chang YOU Peng xiangCHEN Yi-qi MENG Zhuo-ran LIU Wei
(1.College of Information Science and Engineering, China University of Petroleum(Beijing);
2.PetroChina Engineering Technology Institute Co.,Ltd. )
Abstract? ?Managed pressure drilling(MPD) is a complicated drilling technology. The control of choke valve on automatic choke manifold is key to realizing accurate control of bottom hole pressure. Firstly, having the hydraulic choke valves dynamic model in the MPD device established and the proportional servo valve selected as valve position control systems actuator. Through controlling the spool movement of proportional servo valve, the hydraulic oils inflow in hydraulic choke valves hydraulic cylinder was changed and the position of hydraulic choke valve was controlled; secondly, having a hydraulic choke valves position control strategy based on deep reinforcement learning proposed, through the exchange between the hydraulic choke valve and the intelligent agent, this strategy has the deep Q-network(DQN)? algorithm adopted to make proportional servo valve control hydraulic choke valve position; finally, both simulation and field test verified the effectiveness of the valve position control strategy to provide a guarantee for the successful implementation of MPD.
Key words? ? hydraulic choke valve, valve position control, MPD, reinforcement learning, DQN algorithm, proportional servo valve