李翔宇, 程坤, 黃濤, 余霖, 譚思超
(1.黑龍江省核動力裝置性能與設備重點實驗室,黑龍江 哈爾濱 150001; 2.哈爾濱工程大學 核科學與技術學院,黑龍江 哈爾濱 150001; 3.核反應堆系統設計技術重點實驗室,四川 成都 610213)
特征工程是一種工程化方法[1],該方法可以從原始數據集選擇一組具有明顯物理或統計意義的數據子集,并將該數據子集作為后續算法或模型的經驗數據,為建立自動化的數據分析方法提供數據支持[2]。通常特征工程方法利用機器學習、隨機信號、小波分析等算法最大限度的增強原始數據集中的有效數據特征,弱化或簡化冗余的數據信息[3-5]。經該方法預處理后的數據集,可從源數據的角度優化和精簡后續算法或模型的結構,提高算法或模型訓練以及分析效率。
在核電站運行狀態分析與預測方面,為準確判斷核電站運行狀態以及發生故障時診斷故障類型,核電站布置了大量的傳感器實時監測各項瞬態運行參數。而種類多、總量大的瞬態運行參數在網絡傳輸、數據存儲和算法訓練過程中,將導致數據傳輸速度慢,占據存儲空間大,以及算法拓撲結構復雜、訓練速度慢等問題。因此可利用特征工程技術壓縮瞬態運行參數,提取數據特征并精簡數據集。特征工程包括特征構建、特征提取和特征選擇3個部分[6],但在數據分析過程中,可根據實際需求自由選擇或組合的3種方法搭建特征工程分析模型。特征構建是指通過人工手段,利用物理、自然規律,人類知識和經驗,從數據集中構建數據特征[7]。Zhang等[8]設計了一種蒙特卡洛與點核法耦合的計算模型,用于快速估計核電站退役設備的輻射劑量。該方法可平衡蒙特卡洛算法和點核法的計算結果,避免點核法對相鄰源的計算缺陷;特征提取是指利用統計學習、時頻分析等方法計算一組物理或統計意義明顯,且數據非冗余的數據特征[9]。Wang等[10]利用卷積自編碼器和長短期記憶神經網絡設計了一種可用于預測核電站電動閥門剩余壽命的聯合算法模型,該算法模型進一步提高了對電動閥門故障預測的準確率,從而有效減低核電系統運行成本和減少停機維護時間;特征選擇是指剔除原始數據集中與目標問題不相關或冗余的數據特征[11]。Peng等[12]設計了一種核電站混合智能狀態檢測方法,該方法利用稀疏自編碼器對運行數據進行降維和特征提取,利用孤立森林方法檢測核電站異常運行狀態,并通過對比實驗證明混合智能狀態檢測方法可以有效提升核電站故障檢測能力,進一步提升核電站的安全性。
綜上所述,特征工程方法的應用目前主要集中在核電站事故分析與故障診斷領域,在數值分析的基礎上配合特征工程方法,可有效提高核電站控制系統對設備狀態和故障類型的感知能力,合理區分算法本身未知事故類型,進而保證核電站安全運行。
為了實現壓縮和復原瞬態運行參數,本文基于特征工程方法建立了一種核電站瞬態運行參數數據壓縮和數據復原方法。該方法利用主成分分析方法提取瞬態運行參數的特征向量,可最大限度保留原有數據特征,減少瞬態運行參數的數據維度;同時配合高斯過程回歸方法可對降維后的瞬態運行數據實現高精度的復原。
特征工程由數據壓縮和數據復原2個模塊組成。數據壓縮模塊基于主成分分析(principal component analysis,PCA)方法,該方法通過提取瞬態運行數據中的特征向量組成新的數據組,從而可以最大限度保留瞬態運行數據中的數據特征。數據復原模塊基于高斯過程回歸(Gaussian process regression,GPR)方法,該方法利用壓縮數據集中的數據特征復原核電站瞬態運行參數。
令D為核電站正常運行時的瞬態運行參數數據集(以下簡稱運行數據集),D={Y,X}。其中Y為待分析的目標參數,X為目標參數對應的瞬態運行參數的參數矩陣。Y=[yi],且yi∈R;i=1,2,…,M。M為運行數據集D的瞬態運行參數的數據總量,且M∈N。X=[xij],且xij∈R;i=1,2,…,M;j=1,2,…,P。P為一組瞬態運行參數包含的核電站運行參數的種類數,P也為X的維度。
假設運行數據集降維后的維度為P′,PCA數據降維方法要求降維后的數據集D′和原運行數據集D2個數據集之間,應當具有最大投影方差和最小重構代價。因此假設W為空間內的一組標準正交基向量,且S=[w1w2…wP′]T,‖S‖2=1;Z為運行參數矩陣X在P′維空間中的投影,且Z=[zij]。其中i=1,2,…,M;j=1,2,…,P′。則運行數據集D中的運行參數xi與其在P′維空間的投影x′i·之間的歐拉距離,以及D和D′之間的最大投影方差和最小重構代價的目標優化函數[13]為:

(1)
利用等式(1)構造拉格朗日函數L(X,S,λ)=tr(STXXTS)-λ(I-STS)并求導可得:

(2)


GPR是利用高斯過程擬合目標參數的機器學習算法。其本質是在連續域上利用無限多個高斯分布組成目標參數。高斯過程回歸可分別從權重空間角度和函數空間角度進行推導,本節從權重空間角度說明GPR的原理。則計算GPR算法權值矩陣W=[wij]的概率表達式為[14]:

(3)



(4)

根據核函數定義κ(X,X*)=σ-2φ(X)Tφ(X*),等式(4)可改寫為:
p(Y*|X,Y,X*,σ2)=N(k(X*,X)(K+
σ2I)-1Y,cov(Y*))
(5)

綜上所述,可利用PCA和GPR算法建立核電站瞬態運行參數數據壓縮與復原模型。其中PCA方法用于數據壓縮,提取運行數據集D中的有效數據特征,減少運行數據集D中的參數總量。GPR算法用于數據復原,即利用現有的數據特征計算各項瞬態運行參數,從而復原運行數據集D。
通過本文對PCA和GPR算法的理論分析,建立了可用于壓縮和復原核電站瞬態運行參數的算法模型,并利用核電站瞬態運行參數對算法模型進行驗證。
本文所采用的瞬態運行參數運行數據集來源于秦山300 MWe全范圍仿真機,該仿真機主要用于模擬正常運行或事故工況下核電站的運行狀態,并計算各個時刻各項瞬態運行參數[15]。若利用機器學習方法分析核電站穩態運行的測量數據時,模型的泛化性能較弱。因此本文運行數據集D所采用的數據來源于核電站降功率工況的瞬態運行參數。
瞬態運行數據集D降功率工況最終的目標功率和降功率速率劃分為22個子數據集,每個子數據集的瞬態運行參數都是從降功率工況開始時刻起300 s內,仿真機計算的瞬態運行參數,且仿真機數據采樣時間間隔為1 s。因此每個子數據集包括300組降功率工況的瞬態運行參數,而且每組瞬態運行參數包括反應堆堆芯功率、一回路冷卻劑流量等25種參數值。運行數據集D共包括6 600組降功率工況的瞬態運行參數,其中5 000組運行參數作為訓練樣本,1 600組參數作為測試樣本。對于超大瞬態運行參數的數據集而言,若對每組瞬態運行參數都進行數據壓縮和復原的驗證,工作量較大。因此,可通過計算運行數據集D中的協方差矩陣,選擇協方差平均值最大和最小的瞬態運行參數作為驗證對象。若PCA和GPR算法對上述2組瞬態參數的數據壓縮和復原效果都較好,則可說明特征工程技術對數據集中其他瞬態運行參數進行壓縮和復原同樣有效。運行數據集D中第i個參數和第j個參數的協方差cij可表示為:

(6)

圖1為運行數據集D歸一化后的協方差矩陣的熱力圖。圖1中顏色越深代表2組瞬態運行參數相關性越強,顏色越淺代表相關性越弱。圖中編號17對應蒸汽發生器主蒸汽管道蒸汽出口質量流速(以下簡稱蒸汽出口流速),其在25組瞬態運行參數中協方差的平均值最大,為0.625 2;編號25對應穩壓器底部水溫,其在25組瞬態運行參數中協方差的平均值最小,為0.002 3。因此選擇蒸汽出口流速和穩壓器底部水溫作為數據壓縮和復原的驗證參數。

圖1 運行數據集D協方差矩陣的熱力圖Fig.1 The heat map of the covariance matrix of the operation data set D
由2.1節可知,利用主成分分析對運行數據集D數據壓縮的實質是通過選擇運行數據集D前P′個較大的特征值對應的特征向量,并組成P′維的運行數據集D′。通過對比等度量映射、自編碼器等其他幾個常用的數據降維方法,證明了主成分分析方法對運行數據集D的有效性。
圖2為當驗證參數為蒸汽出口流速時,利用5種不同數據降維方法,先將運行數據集D降低到不同維度,再利用降維后的運行數據集D′訓練4種機器學習回歸算法模型,算法模型計算的蒸汽出口流速和原運行數據集D中蒸汽出口流速的均方根誤差(mean square error,MSE)的對數值log(MSE)。
在圖2和圖3中,4種回歸算法包括高斯過程回歸、前饋神經網絡(deep feedforward neural network,DNN)、支持向量回歸(support vector regression,SVR)和循環神經網絡(recurrent neural network,RNN)。5種數據降維方法包括主成分分析(principal component analysis,PCA)、等度量映射(isometric mapping,Isomap)、局部線性嵌入(locally linear embedding,LLE)、自編碼器(auto encoder,AE)和變分自編碼器(variational auto encoder,VAE)。

圖2 4種回歸模型對蒸汽出口流速的計算誤差曲線Fig.2 The calculation error curves of the steam mass flow rate by four regression models
圖3為當驗證參數為穩壓器底部水溫時,4種回歸模型在利用不同方法降維后的運行數據集訓練時,算法模型計算的穩壓器底部水溫和原運行數據集D中穩壓器底部水溫的MSE的對數值log(MSE)。

圖3 4種回歸模型對穩壓器底部水溫的計算誤差曲線Fig.3 The calculation error curves of the water temperature at the bottom of the pressurizer by four regression models
通過將圖2(a)和圖3(a)與其他圖進行對比可知,先利用PCA算法對運行數據集D進行降維,然后利用降維后的運行數據集D′訓練GPR算法模型對運行數據集D進行數據復原的方法,蒸汽出口流速和穩壓器水空間溫度的計算值與運行數據集D中原值的MSE最小。當將運行數據集D的維度降低到20維時,GPR算法模型對蒸汽出口流速的計算誤差與原數據集訓練GPR算法模型的計算誤差大致相同,降維后的運行數據集D′訓練的GPR算法模型的計算值和原值MSE的對數值大約為-7,即計算值和原值的計算誤差大約為10-9。而且即使PCA算法將運行數據集D的維度降低至4維時,計算值和原值MSE的對數值仍在-1左右,計算誤差大約為0.1%。因此可以證明,PCA和GPR算法可以有效的對運行數據集D降維并復原,且復原后的瞬態運行參數和原數據之間的誤差較小。
圖4和圖5分別為當利用PCA算法將運行數據集D降低到20維,運行數據集D中蒸汽出口流速和穩壓器水空間溫度的原值,GPR算法的復原值,以及二者之間的計算誤差隨時間變化曲線圖。

圖4 高斯過程回歸模型計算蒸汽出口流速的復原值隨時間變化曲線Fig.4 The changing curves of the restored values of the steam mass flow rate calculated by Gaussian process regression

圖5 高斯過程回歸算法計算穩壓器水空間溫度的復原值隨時間變化曲線Fig.5 The changing curves of the restored values of the water temperature of the pressurizer calculated by Gaussian process regression
圖4和圖5中,實際值為運行數據集D中蒸汽出口流速和穩壓器底部水溫隨時間變化曲線;復原值為GPR算法復原的蒸汽出口流速和穩壓器底部水溫隨時間變化曲線。誤差為復原值和運行數據集D中原值的誤差曲線。
由圖4和圖5可知,GPR算法對蒸汽出口流速和穩壓器水空間溫度在各個時刻的復原值和原值的最大誤差不超過0.000 002。因此可說明當利用PCA算法將運行數據集D的維度降低到20維后,GPR算法可有效的復原蒸汽出口流速和穩壓器水空間溫度。然后通過圖1和式(6)可知,在瞬態運行數據集D中,可利用PCA算法對瞬態運行參數進行壓縮,減少數據體積;也可利用GPR算法對壓縮后的數據進行復原,且復原值和原值的計算誤差不超0.000 002。
綜上所述,由PCA和GPR算法組成的算法組合,可實現對核電站瞬態運行參數數據集的數據壓縮和數據復原,從而減少數據大小,提高數據傳輸效率,減少存儲空間。同時PCA算法提取的數據特征可作為數據特征項加速各類機器學習算法模型訓練速度,減少算法模型復雜度。
1)當將具有25種瞬態運行參數的運行數據集的維度降低至20維和4維時,高斯過程回歸算法對各項瞬態運行參數的復原值和運行數據集中原始值的誤差分別不超過0.002%和0.1%。特征工況技術可有效降低核電站瞬態運行參數數據集的維度,并實現高精度的數據復原。
2)在數據傳輸和存儲過程中,計算機只需要傳送和存儲壓縮后的數據,從而降低數據傳輸和存儲量,提高數據傳輸效率,節約存儲空間。
3)當使用各瞬態運行參數時,可對壓縮后的數據進行復原。同時主成分分析算法壓縮后的數據也可作為數據特征補充核電站瞬態運行數據集,從而進一步增強數據集,為后續核電站故障診斷算法提供判斷依據,提高故障診斷算法對故障的識別類型精度,從而進一步提升核電站運行的安全和可靠性。