李 雨,侯 磊,徐 磊,白小眾,劉金海,孫 欣,谷文淵
(1.中國石油大學(北京)石油工程教育部重點實驗室,北京 102200; 2.中國石油天然氣集團公司油氣儲運重點實驗室,北京 102200; 3.國家管網集團北方管道有限責任公司錦州輸油氣分公司,遼寧 錦州 121000)
自上世紀起,我國學者開始進行輸油管道運行電耗的相關研究并分析影響管道電耗的重要因素。管道周轉量、進出站壓力、進出站溫度和土壤溫度等特征都被認為是影響管道電耗的重要因素[1-5]。由于每條管線運行工況不同,不同因素影響管道電耗的程度亦不同。有的僅利用日輸量便可比較準確地預測管道運行電耗[6],也有的需要同時考慮多個特征才能實現管道電耗的準確預測[7]。針對第二種情況,不但需要生成一些設備無法直接測量的特征,以擴大待選特征范圍,還需要利用合理的算法來確定更適合被用來預測管道電耗的特征。為確定一個能夠最精確預測管道電耗的小特征集合,需要對全部待選特征進行相關性分析。進行相關性分析的方法有皮爾遜系數法[8]和互信息法[9-10]。但是皮爾遜系數在評價兩個正態分布特征之間的線性關系時才會有很好的效果,而對非線性關系不敏感[11]?;バ畔㈦m然沒有上述問題,但需要計算特征的概率密度函數[12-13]。管道運行特征間非線性強,且多為離散數據,不宜計算概率密度函數,直接使用上述兩種方法效果不好,需要進行改進。Kraskov[14]提出基于K近鄰的互信息估計方法,一定程度上解決了互信息過度依賴特征分布規律的缺陷。K近鄰互信息估計不需要計算概率密度函數,只需要計算不同特征之間的歐氏距離便能估算出兩個特征之間的互信息值。本研究利用原油管道輸送相關公式擴充原始數據集,將K近鄰互信息估計和BPNN結合,提出一種原油管道電耗預測模型,并利用某原油管道三年運行數據驗證該模型預測效果。
全部數據由原始數據和生成數據兩部分組成,共包括管道運行、油品物性、環境狀況、設備工況四個方面。其中擴充數據由原始數據通過管道輸送理論公式計算得來。
該類數據源于某段原油管道2016年至2019年運行報表,共911組數據。每組數據包括日輸量、出站壓力、出站溫度以及地溫等21個特征。該段管道尺寸為φ508×7.1,全長為55.2 km,年設計輸量為107t,設計壓力為5 MPa,中間無其他站場。
原始數據并未覆蓋可能與管道電耗相關的全部特征,因此需要對原始數據進行擴充。同時,新生成的強相關性特征也可以被認為是學習任務的中間概念,這種中間概念越多,往往越有利于建立精確的管道電耗預測模型[15]。利用已有管道輸送理論公式計算出多個與原油輸送相關的特征,如表征流體流動情況的雷諾數Re、衡量換熱情況的傳熱系數K、蘇霍夫溫降公式中的參數a以及進出站壓差等特征。在式(1)、(2)中分別列出雷諾數Re和蘇霍夫溫降公式中參數a的計算公式
Re=ρvd/μ
(1)
(2)
式中ρ——油品密度/kg·m-3;
v——油品流速/m·s-1;
d——管道內徑/m;
μ——油品動力黏度/Pa·s;
K——傳熱系數/W·(m2·℃)-1;
D——管道外徑/m;
G——管道輸送油品的質量流量/t·d-1;
C——油品熱容/J·(kg·℃)-1。
共得到31個特征見表1。按照訓練集和測試集比例為4∶1對911組數據進行劃分,得到訓練集數據728個,測試集數據183個。

表1 31個特征名稱表
引入K近鄰互信息估計(K-EMI)[14]計算特征間的相關性。K-EMI在評價復雜非線性關系時有較好的效果,并且不需要計算離散數據的概率密度。
管道運行數據集共含911組數據,每組數據擁有31個特征。數據集用D={X1,X2,X3,……,X31}來代表,Xi={xi1,xi2,xi3,……,xi911}。令管道電耗為特征Y,則每個特征Xi和管道電耗Y張成一組向量空間。設Zij為特征Xi和Y空間中的第j個點,則有Zij=(xij,Y)。某點Z和其他點Z′之間的距離d的計算公式為[15]
d=||Z-Z′||=max{||x-x′||,||Y-Y′||}
(3)
其中,||Y-Y′||和||x-x′||是同階范數。手動確定K值后,點Zij到其最近的第K個點的歐式距離記作ε(i,j)/2,投影到X和Y的子平面上的距離分別為εx(i,j)/2和εy(i,j)/2。根據式(3),有ε(i,j)=max(εx(i,j),εy(i,j))。統計出在X和Y方向上到Z點歐氏距離小于ε(i,j)/2的點的個數,分別記為nx和ny。圖1展示處于特征空間X和Y中的點如何確定nx和ny。其中深色點有nx=5,ny=4。

圖1 K近鄰互信息估計示意圖
利用式(4)和式(5)計算特征Xi和Y之間的互信息
I(i)(Xi,Y)=ψ(K)-<ψ(nx+1)+
ψ(ny+1)>+ψ(N)
(4)
(5)
ψ是伽瑪函數,滿足ψ(x+1)=ψ(x)+1/x,ψ(1)=-0.577 216。特征間K-EMI結果的集合可表示為I={I(1)(X1,Y),I(2)(X2,Y),……,I(31)(X31,Y)}。K-EMI值越高,表示相關性越強。
BPNN能夠以任意精度逼近某一非線性函數,被廣泛應用于建立預測模型。BPNN拓撲結構如圖2所示,其中輸入層和隱含層可包含多個神經元,不同層的神經元間利用權值W連接激活函數h為relu函數。神經網絡通過修正權值來使模型平均均方誤差(MSE)達到最小,達到提高模型預測精度的目的。本研究將不同特征作為BPNN輸入,將電耗作為輸出,建立單隱含層的電耗預測模型。

圖2 單隱含層神經網絡示意圖
為評價模型訓練速度和預測精度,本研究采用建模時間作為評價模型訓練速度的指標,采用均方根誤差(RMSE)、決定系數(R2)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)作為衡量模型精度的指標,其計算公式如下
(6)
(7)
(8)
(9)

采用Windows10系統,處理工具為Spyder軟件,BPNN基于Keras第三方庫建立。
第一步利用原油加熱輸送和等溫輸送相關公式橫向拓展數據集;第二步利用K-EMI選出與電耗相關性強的特征;第三步將選出的不同特征喂入BPNN以建立原油管道電耗預測模型;第四步利用3.3提到的四個誤差指標驗證神經網絡模型的預測精度。圖3展示了構建原油管道電耗預測模型的完整過程。

圖3 方法概覽
K-EMI的計算需要提前設定K值,當K值不同時,計算結果略有差異。本研究計算不同K值時模型的K-EMI結果以作對比,結果如表2所示。
觀察表2能夠發現,K取不同值時,特征T1~T6的K-EMI數值排位靠前且名次固定。選取T1~T6作為模型的備選輸入特征。

表2 不同K值時的K-EMI結果
為更直觀地展示每個特征和管道電耗的分布規律,將縱坐標設為管道電耗,橫坐標分別為不同特征,繪制特征T1~T8與電耗分布關系圖,如圖4所示,其中各點為數據實際位置分布,曲線為拋物線擬合結果。

圖4 電耗與部分特征分布關系圖
分析表2和圖4發現:進出站壓差、進出站溫差和雷諾數等生成特征與管道電耗存在明顯的非線性關系,說明在預測前先擴充數據集有利于找到更多與管道電耗存在強相關性的特征;衡量流動狀況的雷諾數與運行電耗的相關性很強,衡量傳熱能力的傳熱系數卻未出現在圖表中,說明在很大程度上決定該管道電耗水平的是原油流動狀況,而對流換熱過程對管道電耗水平不起決定作用;壓差與管道電耗的相關性強于進站壓力、出站壓力等壓力參數,證明在輸油過程中管道電耗主要用來通過離心泵給油品增加壓頭,增大外輸壓力;溫度特征和油品運動黏度都未表現出與電耗的強相關性,這是由于溫度特征不能直接影響管道電耗,只能通過改變油品黏度間接影響管道電耗。油品的運動黏度本身波動范圍小且存在其他因素干擾,不能決定管道運行電耗,因此這些特征與電耗的相關性都很弱。
綜上所述,通過相關性分析不但能夠確定與電耗相關的特征,還能通過分析不同特征間相關性差異解釋輸油管道運行電耗變化。
共建立9個BPNN模型,將K-EMI計算出的前1~6個與電耗相關性最強的特征作為輸入得到1#~6#模型;將全部特征作為模型輸入得到7#模型;將互信息計算出的前5個特征作為輸入得到8#模型,將皮爾遜系數計算出的前5個特征作為輸入得到9#模型。對比模型1#~7#以確定用來建模的最優特征數量,對比模型5#、8#和9#以分析不同相關性分析方法提取相同數量特征的效果。三種相關性分析方法提取出的特征集合如表3所示。

表3 不同相關性分析方法提取的特征集合
神經網絡模型參數、30次重復實驗的平均誤差和平均訓練時間如表4所示。根據模型的均方根誤差(RMSE)、決定系數(R2)、平均絕對誤差(MAE)和平均相對百分比誤差(MAPE)結果繪制圖5所示誤差分布圖。

表4 模型參數、平均誤差值與平均訓練時間

圖5 模型誤差分布圖
分析1#~7#模型能夠發現,模型預測誤差隨輸入特征的增加呈現先降低后略微升高的特點,5#模型預測誤差最小。說明利用K-EMI計算得到的5個特征已經包含了能夠精確反映管道電耗變化的信息,其余特征多屬于噪聲特征,不利于提高模型預測效果。對比5#、8#和9#模型能夠發現,提取5個特征時,通過K-EMI選出的特征能夠建立更準確的電耗預測模型,這證明使用K-EMI計算該管線中不同特征與電耗相關性的效果優于使用互信息和皮爾遜系數計算的效果。7#模型比5#模型的隱含層神經元數量增加了10個,平均訓練時間也增長了22.49%,這是由于輸入特征數量增加,BP神經網絡隱含層需要加入更多的神經元以學習不同特征間的規律,因此增加了模型訓練時間。
對比基于不同輸入特征建立的神經網絡預測模型的預測效果能夠得到以下結論:
(1)在相關性分析前先利用相關公式對原始數據進行擴充能得到更多與電耗相關性強的特征。
(2)K-EMI能有效評價不同特征與電耗的相關性,且效果明顯好于互信息和皮爾遜系數的效果。
(3)5#預測模型具有最高的預測精度和較短的模型訓練時間,證明本研究提出方法建立的BPNN模型能夠很好地預測管道電耗。