0 引言
在石油化工行業,泵是關鍵的流體輸送設備。密封腔壓力作為泵的重要參數,極大影響著密封系統的設計、沖洗方案的確定和沖洗壓力的計算,精準預測密封腔壓力不僅對泵的密封效果、效率和壽命有著重要意義,還能防止泄漏和設備故障,從而提高整個系統的安全性和經濟效益。密封腔壓力的影響因素多,且種類復雜,如何計算和預測泵密封腔壓力一直是相關領域專家研究的重點課題。
API682標準最早提出了針對離心泵和回轉泵密封系統的密封腔壓力經驗公式;隨著泵設計和運行條件的復雜化,單靠經驗公式已不再足夠,P.Geiger和H.Fiedler等人通過CFD技術,模擬密封腔內的流體流動,提供壓力分布預測[2];A.Khonsari和E.Booser基于現代密封設計理論提出先進的設計和材料可以顯著減小密封腔內的壓力波動,增強密封的可靠性[3]。近年來,人工智能(AD技術,特別是機器學習和深度學習,在處理復雜數據和預測模型方面展現出了強大的能力。通過學習大量的歷史運行數據,機器學習能夠捕捉到傳統物理模型難以表達的復雜模式和關系。在工業領域,機器學習已經在許多應用場景中取得了成功,例如設備故障預測、生產優化和流程控制。然而,石油化工行業由于其工藝流程的復雜性和風險性,對AI技術的應用還處于探索階段。
高速離心泵作為的明星產品之一,因具有流量小、揚程高、結構緊湊、轉速高、可靠性好等特點,被廣泛應用于石油化工領域。以高速泵為研究對象具備現實意義,其每年近300臺的出廠量也為研究提供了充分的數據支撐。本文旨在開發一種基于機器學習的泵密封腔壓力預測方法,以高速泵的密封腔壓力數據為載體,結合數據預處理、特征工程和模型優化,形成一套完整的預測解決方案。本研究不僅在理論上驗證了機器學習在工業參數預測中的可行性,還在實際應用中展示了其顯著的優勢。
1數據收集與預處理
1.1 系統流程圖
機器學習的主要要素包含數據、算法和訓練優化過程,通過對已知數據的智能學習,獲得對未知數據決策的泛化能力是智能學習的關鍵。機器學習模型在學習數據的過程中,逐步由高誤差模型向低誤差模型迭代,這不僅依賴于算法本身,更是由梯度下降優化器決定的,這種函數作用于真實值與預測值之間誤差的導數,實現對算法參數的更新,進而提高模型準確度。本文針對密封腔壓力的研究,對關鍵步驟進行流程設計,如圖1所示。
1.2 數據收集
在任何基于人工智能的項目中,數據都是至關重要的,高質量的數據是訓練高性能模型的基礎。為確保預測模型的有效性和穩定性,數據庫包含了115組泵的實驗數據,每組數據的特征都具備獨特性,覆蓋了泵的設計參數、性能參數、操作環境和密封效果等多個維度,具體包括泵型號、轉速、入口壓力、誘導輪參數、平衡孔參數及密封方案等13個特征項。

為了確保數據的質量,對收集到的數據進行了清洗和處理。數據清洗包括缺失值處理、異常值檢測等步驟,確保數據的完整性,并對不同格式的數據進行處理,使其具備Python程序可識別的數字、文本格式,統一數據的度量單位和表示方式,最終得到如表1所示形式的數據。

1.3 數據標準化
通過對收集數據的觀察,明確了數據形式多樣、數值量級不同的特點。機器學習對不同特征采取無差別學習,為了進一步消除特征間的量級差異,適配數學模型,對數據進行了歸一化和標準化處理,將數值數據縮放到[0,1]區間內,均值為0,標準差為1。這些處理使得所有的特征數值范圍相近,從而提高了模型的訓練效率,改善了梯度下降的優化過程和預測性能。
2 數據的特征工程
2.1 特征提取
為了讓Python編程語言識別數據內容,使得模型能夠更好地理解和利用這些數據,所有特征需以數值的形式體現,因此對高速泵的性能、結構、運行數據進行了詳細的特征提取。
1)泵模型分解:例如,“GSB-L1-8/1303\"字段中的信息分解為型號L1、流量8和揚程1303。
②誘導輪參數處理:汽蝕余量為高速泵設計中重要的性能指標,為了防止汽蝕發生,部分高速泵需配備誘導輪增強汽蝕性能,通過數據輸入,可以自動識別是否需要配備誘導輪并獲取誘導輪信息,誘導輪特征提取函數如圖2所示。例如,“ ?30/?19 \"字段中的信息分解為誘導輪外徑30和輪轂尺寸19。
3)葉輪平衡孔參數提取:例如,“ ?55×12×?8 ”字段中的多個數值分別表示平衡孔的位置、數量和尺寸。
2.2 特征編碼
除了特征提取外,一些字符類數據無法直接用數字表示,例如密封類型有串聯、單端面、雙端面多種文字描述。鑒于數據要參與數學模型的運算,機器學習模型可能會錯誤地認為這些值之間存在某種大小或順序關系,進而在模型中會引入錯誤的假設,因而此類無實際意義的數值無法直接用數字0,1,2,表達。

為了讓模型理解和處理分類特征,對這些特征進行了One-Hot編碼處理,將其轉換為二進制向量,以數組的形式擴展這類特征的空間域。其數學表達如下:假設有一個分類變量 X ,其可能取值有 n 種:
,如果 X=xi, 那么One-Hot編碼后向量為[0,0,…,1,0] ,其中第i位是1,其余為0。
例如,密封形式中的串聯可表示為[1,0,0],單端面為 [0,1,0] ,雙端面為 [0,0,1] 。采用One-Hot編碼避免了序列性假設,消除了對類別間的任何順序或大小關系的錯誤假設,也對不同機器學習模型具備極強的兼容性,拓展的特征空間也提升了模型準確度上限。
3模型選擇與優化
3.1 模型選擇
在選擇模型時,首先對機器學習算法大類進行劃分,預測密封腔壓力輸出為連續數值,而非離散數值,明確研究課題為回歸問題。另外,考慮了數據的特性、任務的復雜度和計算資源的限制,對于密封腔壓力的預測,對不同理論下產生的算法模型利弊分析如下:
1)多層感知器(MLP):能夠處理非線性關系,并且適合高維特征的回歸問題,模型復雜度設置靈活,可解釋性好。
2線性回歸:適用于簡單的線性關系預測,但在處理復雜的非線性關系時,性能受到限制。
3)決策樹和隨機森林:這些模型能夠處理復雜的特征交互,在高維數據中表現良好。但對數據量規模小、特征空間大的數據庫,可能會面臨過擬合的問題。
4支持向量機(SVM:SVM在處理高維空間的分類和回歸任務時表現出色,但對于數據集的計算開銷較大,且對于存在壞點、異常點的數據存在較大方差。
基于初步分析,最終選定MLP作為本次研究的主要模型。
3.2 模型訓練與優化
模型的訓練過程包括數據分割、前向傳播、損失
計算和反向傳播等步驟,每一步驟的程序設計都影響著模型預測密封腔壓力學習的準確度。
3.2.1 數據分割
鑒于數據庫體量適中,將數據集分為含數據量為 90% 的訓練集和含數據量為 10% 的測試集,并進一步在訓練集中進行交叉驗證,排除極端訓練的情況,評估模型的平均泛化能力。
3.2.2 前向傳播
MLP由無數個神經元組成,在前向傳播過程中,輸入數據通過神經元的層層傳遞,經過一系列的加權和激活函數的處理,生成最終的輸出預測值。本次采用relu激活函數,實現非線性計算。
3.2.3 損失計算
實驗中使用均方誤差(MSE)作為損失函數,計算模型預測值與真實值之間的差異,通過差值可以計算模型預測的準確度,為后續模型優化提供評判依據。損失函數的公式為:

式中: n 是樣本的數量; yi 是第i個樣本的真實值;
是模型對第i個樣本的預測值。
3.2.4 反向傳播
根據損失函數的值,計算模型參數的梯度,并使用梯度下降的優化算法更新模型參數,以最小化損失量。模型的反向傳播通過優化器實現,例如實驗中采用的Adam優化器,具備自適應學習率、對導數的偏差糾正、訓練過程穩定、收斂速度快等特點,可實現在迭代過程中逐漸優化參數的作用,宏觀上體現為模型準確度提高。
3.2.5 超參數優化
通過網格搜索和交叉驗證的方法實現了優化模型的超參數調節,包括學習率、批量大小、訓練輪數等。通過遍歷不同的超參數組合,選擇出最佳配置,以提高模型的性能。
4模型評估與驗證
4.1 交叉驗證
為了更全面地評估模型的泛化能力,采用了交叉驗證的方法。交叉驗證將數據分為多個子集,進行多次訓練和評估,最終計算出模型的平均性能。這種方法有效減少了模型性能受數據分割方式影響的風險,提高了評估的穩定性。
4.2 實驗結果
實驗對優化器學習率(lr)、數據批次(batch_size)、訓練輪數(epoch)這三個超參數采用控制變量法進行了設置,得到18組不同配置的模型,實驗參數如表2所示。

通過對比18組數據的MSE值可以得出誤差最小的參數組合,即最優解。最優解下的實驗結果如圖3所示。

4.3 結果分析
通過實驗結果發現,經過100輪的模型迭代訓練,損失量Loss總體呈下降趨勢,由最初的0.0110下降到0.0012;MSE僅為0.0003,遠低于類似應用的經驗誤差值0.01,證明實驗模型已具備良好的泛化能力,用于解決高速泵密封腔壓力預測問題時精度高。最優解結果如表3所示。

進一步分析各超參數對預測密封腔壓力問題的影響:
1優化器學習率lr為0.001雖然比較常見,但在本次實驗中效果不如0.0005,表明較低的學習率在高速泵密封腔壓力的數據集上能更好地優化模型,避免過大的梯度更新導致的訓練不穩定。
2)當訓練輪數epoch過低時,模型訓練不充分,無法捕捉到數據中的復雜模式,導致預測性能不佳;隨著epoch的增加,為100時訓練效果有顯著提高;當epoch為200時,模型過度擬合訓練數據,反而降低了對測試集的泛化能力。
3)較大的批量大小batchsize可以加快模型訓練的收斂速度,但由于本次研究數據體量有限,當批量大小為12時,誤差反而增加,因此8是更加合適的批量大小,兼顧了訓練的穩定性和收斂速度。
研究中以MSE為模型誤差的標準,為了更直觀地識別密封腔壓力預測的準確度,特列舉12項測試數據的預測值與真實值如表4所示。

通過計算誤差,發現大多數誤差范圍都在 4% 以內,表明用機器學習的方法不僅可以預測泵密封腔壓力,預測精度也很高,完全具備了工程應用的條件。
5 結論與展望
5.1 結論
1本文提出了一種應用機器學習的高速泵密封腔壓力預測方法,通過全流程的研究,系統地開展特征工程和超參數調優,形成了基于人工智能的新解決方案。
2)探索了針對密封腔壓力預測問題的數據特征空間及參數優化方向,優化后的MLP模型在測試集上的均方誤差MSE僅為0.0003,表明了該方法在實際工程應用中的高精度和可靠性。
3傳統的泵密封腔壓力預測主要依賴于實際運轉實驗,過程煩瑣且成本高昂。該模型的成功證明了機器學習在處理復雜非線性關系方面的強大能力,為實驗方法的更新提供了新思路,研究結果也對石油化工領域的設備維護和操作優化具有重要意義。
5.2 展望
盡管本研究的模型已展現出較高的精度和可靠性,但其未來仍有提升空間,包括對數據集規模和多樣性的補充,對特征選擇的研究;對模型架構的探索和改進提升;還有基于物理引導的機器學習技術。因此,將工程設計與人工智能結合,是值得挖掘的一個提高設計水平的方向。
[參考文獻]
[1]NG K B,DIAKOW S J.Pumps-Shaft Sealing Systems for Centrifugal and Rotary Pumps:API STD 682[S]. American Petroleum Institute,2014.
[2] GEIGER P,FIEDLER H.Numerical Simulationand Experimental Validation of Mechanical Seals[J]. Tribology International,2017(115):1-10.
[3]KHONSARI A,BOOSER E.Advances in Mechanical Seals Design and Operation[J].Springer,2019.
收稿日期:2025-05-14
作者簡介:何慕 (1998-) ,男,北京人,哥倫比亞大學理學碩士,助理工程師,研究方向:流體與旋轉機械研發設計、自動化機電技術、人工智能技術。
通信作者:陳乃鏑(1995一),女,遼寧大連人,中國運載火箭技術研究院工學碩士,工程師,研究方向:流體與旋轉機械設計研發。