郭 久 俊
(廣東工業大學 廣東 廣州 510006)
硅材料是電子產業,太陽能光伏電池等產業的最重要的材料,從某種意義上來說,硅材料是影響國家未來在新能源領域的利益和地位的戰略資源。以太陽能產業為例,多晶硅生產為該產業鏈中的關鍵,其能耗占整個產業鏈的35%左右,而多晶硅的生產過程中,還原爐的能耗占到了70%。多晶硅生產過程的能源是按需供給,如果出現能源泄露或者設備異常,會造成生產中斷和能源浪費,影響企業的利益,甚至會造成安全事故,因此對于還原爐的能耗預測有很大的研究價值。
關于多晶硅生產過程中還原爐能耗的研究只是從技術上提高工藝水平,改進設備,并進行模擬仿真。聶陟楓[1]采用了計算流體力學和計算傳熱學方面比較權威和廣泛應用的ANSYS Fluent軟件對改良西門子法多晶硅還原過程的輻射傳熱過程進行模擬計算,對多晶硅生產的還原過程的降耗有一定的參考意義。李國棟等[2]利用Gibbs自由能最小原理,對SiHC13法生產電子級多晶硅的過程進行模擬,提出用Cl2部分氧化使體系能量耦合的新工藝,優化了操作參數,很大程度上降低了能耗。呂鵬飛等[3]也對SiHC13還原體系進行模擬分析。這些研究為三氯氫硅還原過程的優化和節能研究提供了參考。楊志國[4]通過對多晶硅還原工藝設計要點進行分析,闡述了多晶硅還原各生產操作單元的最優化的控制參數以及控制方式。同時還一并提出了利用多晶硅還原沉積反應多余的熱能副產工業級飽和蒸汽,供給多晶硅生產裝置的其他單元使用,最大限度地降低能耗的一種途徑,減少生產成本。梁志武等[5]基于 Gibbs 最小自由能[6]原理,考慮到生產成本和副產物的處理,利用 Aspen Plus 軟件中的Gibbs 反應器,對西門子法工藝中還原工序的反應條件及加入二氯二氫硅進行模擬優化,與傳統工藝相比,提高了產率,降低了能耗。
基于前面的研究可知,盡管目前對多晶硅生產工藝中還原工序的節能優化的研究已取得一定的研究成果,但是國內外的學者大都從還原爐系統、化學、熱力學等角度對還原工序的節能優化進行研究分析,而并沒有從還原工序能耗預測的角度進行節能研究。由于多晶硅生產的影響因素不僅與相關的工藝參數有關,還與時間序列有關系,因此本文采用改進的長短期循環神經網絡LSTM(Long Short-Term Memory)作為預測模型,LSTM模型不僅很大程度上改善了RNN的梯度消失和爆炸問題[7-8],而且在時間序列的研究領域取得了很大的進步。文獻[9]基于LSTM的發電機組污染物排放預測研究取得了不錯的效果,文獻[10]基于LSTM-RNN模型預測鐵水硅含量預測取得了不錯的效果,文獻[11]基于LSMT-GARCH混合模型來預測股票價格,但是目前尚未發現將LSTM用于多晶硅生產能耗預測研究。本文提出了LSTM-Adaboost模型,結合某企業還原工序的實際能耗數據建立預測模型,并完成了能耗預測。
首先要對能耗影響因素進行主成分分析,減少影響因素之間的多重共線問題,本文采用PCA降維技術進行主成分分析,其核心思想是在信息保存最完整的情況下對高維變量進行降維,即把輸入的一組特征重新組合成新的無關的特征來代替原來的特征,經過PCA降維后,保留了大部分原來的信息,而且維度減少[12-13]。PCA主要步驟如下:
假設有n個樣本,每個樣本有m個特征,則原始數據用矩陣表示為:
(1)
(1) 當處理不同取值范圍的特征值時,通常將數值歸一化,消除因為數值差別過大帶來的影響,將原始數據的矩陣形式X歸一化,如下:
(2)

(2) 建立相關矩陣R,計算特征值和特征向量,即:
R=(X*)TX*/(n-1)
(3)
(3) 根據式(3)可求得矩陣R的特征值,并根據其特征值確定主成分的個數k:
(4)
式中:取η=0.9,則k個主成分中包含了絕大部分信息。
機器學習研究中的一個新的方向是深度學習,是一種建立、模擬人類思維,通過分析學習的神經網絡,模仿人類大腦的機制來分析和解釋數據。LSTM[14]是一種特殊的RNN網絡[15-16],增加了長短記憶功能,即當前隱藏層的狀態通過前一時刻的隱藏層的狀態來更新,因而保持了模型的持久性。如圖1所示,在某一時刻t,它的隱藏層ht的輸入除了包含當前的輸入xt之外,還有來自(t-1)時刻的信息ht-1,同理ht對(t+1)時刻的隱藏層產生影響,這是因為這種機制,LSTM可以有效的解決長期依賴問題。

圖1 LSTM網絡結構圖
1.2.1 LSTM核心算法
在神經網絡中,每一個遞歸神經網絡中都有重復模塊鏈。標準RNN網絡中的結構很簡單,其模塊鏈只有一個tanh層。LSTM模型在RNN模型的基礎上加入了“記憶細胞”,使得LSTM模型可以在很長的時間內存儲訪問信息,因而可以緩解梯度消失問題。LSTM模型包括三個門和一個記憶單元,如圖2所示,分別是輸入門、輸出門、遺忘門和Cell。這三個門采用sigmoid函數來保證得到最佳參數。通過不同的函數來計算某一時刻隱藏層的狀態。

圖2 LSTM神經元結構
設輸入的序列為(x1,x2,…,xt),隱藏層狀態為(h1,h2,…,ht),則在t時刻有:
ft=f(Whfht-1+Wxfxt+bf)
(5)
it=f(Whiht-1+Wxixt+bi)
(6)
ot=f(Whoht-1+Wxoxt+bo)
(7)
ht=ot⊙tanh(ct)
(8)
ct=ft⊙ct-1+i⊙f(Whcht-1+Wxcxt+bc)
(9)
式中:it、ft、ot分別代表input門、forget門和output門,⊙表示矩陣點乘,ct代表cell單元的狀態,xt表示輸入層的輸入向量,b表示各層的偏差向量,W代表對應的連接權重,f(*) 表示激活函數,有sigmoid和tanh兩種激活函數。
進一步推廣得到t時刻input門、forget門、output門的輸入向量以及輸出向量:
(10)
(11)
(12)

1.2.2 引入正則化項
正則化[17]項是一種懲罰函數,為了防止避免過擬合,對模型向量進行“懲罰”。正則化本質上是一種先驗信息。比較常見的有L1、L2正則,當正則取不同的范數,模型則有不同的泛化能力,其中L1正則有助于生成一個稀疏的權值矩陣,L2正則會針對被估計的參數進行壓縮,但是并不能將其壓縮到零,因此不會產生稀疏的矩陣,可以防止過擬合。
本文引入L2正則,對LSTM網絡中的權重進行正則化處理,提升模型的泛化能力。模型如下:
(13)

1.2.3Adaboost算法
Adaboost算法[18]通過綜合多個弱預測算法來構建精度較高的強學習算法,從而提高泛化能力。Adaboost算法對于預測誤差比較大的樣本和預測性能好的預測器更加重視,并提高訓練效果強的預測器的權重,此外,降低訓練效果差的預測器的權重。算法初始化時,每個樣本有相同的權重。具體步驟如下:
1) 初始化權值:
(14)
并訓練弱預測器zt(x),其中Xt(i)表示在第t次迭代中樣本的權重,n為樣本總數。
2) 計算該預測器在樣本下的誤差:
(15)
3) 更新樣本權重:
(16)
分類器權重:
Wt=ln(1/βt)
(17)
式中:βt=εt/(1-εt),Qt是歸一化因子。
4) 重復迭代,直到迭代次數為M結束。
5) 得到強預測器:
(18)
本文將LSTM神經網絡作為弱預測器,使用Adaboost算法對若預測器組合得到強預測器,并構建LSTM-Adaboost預測模型對還原爐能耗進行預測。
預測模型如圖3所示,主要包括數據預處理和LSTM-Adabosst模型建立兩個部分。

圖3 主成分碎石圖
實驗使用Python 3.6編程語言,LSTM模型由Keras框架實現,實驗環境為Linux。LSTM-Adaboost構建步驟如下:
1) 查閱相關資料分析還原爐工藝,通過PCA主成分分析,獲得還原工序影響因素的主要因素,由圖3可知,當主成分的個數為7時,η≥0.9。因此將這7個因素歸一化后作為特征輸入到預測模型。影響因素如下:生產周期、產品規格、氣流速度、H2的摩爾分數、硅表面溫度、還原尾氣溫度、還原爐年限等。
2) 確定輸入層、輸出層。X={xi|i=1,2,…,n},其中xi為多晶硅生產的能耗影響因素,輸出為未來某一時間段的能耗預測值。
3) LSTM模型設置2層隱藏層,1層輸入層,其中隱藏層每層有300個神經元,激活函數為tanh函數和sigmoid函數,初始學習率為1/1 000。
4) 根據損失函數獲得輸出誤差,通過隨機梯度下降法尋找最小值,結合Adaboost算法調節樣本權重,并不斷更新LSTM中的參數,直到收斂。
5) 得到LSTM強預測模型,完成預測。
6) 采用RMSE和MRE進行誤差判定,RMSE的值越小說明模型的泛化能力越強。
(19)
LSTM-Adaboost模型的構建流程如圖4所示。

圖4 基于LSTM-Adaboost的能耗預測模型流程圖
實驗數據來源于某多晶硅企業的實際能耗數據,該企業opc采集程序每30 s采集一次數據,每日的能耗總和數據可以通過opc采集程序得知。本文從能耗樣本中去除異常點后得到510組能耗數據,其中420組能耗數據作為訓練樣本,剩余的90組作為測試樣本,用于驗證模型的精度。部分能耗數據如表1所示。

表1 部分能耗數據
表2給出了部分的實驗數據,以及不同對比模型的預測結果和誤差。本文采用的對比模型為能耗預測中常用的BP模型和LSTM模型,通過表2可以看出,LSTM-Adaboost模型的預測誤差均小于LSTM和BP網絡的誤差,結果更接近真實數據,相對誤差較小。

表2 不同模型預測結果及誤差比較
圖5是分別采用BP模型、LSTM模型和提出的LSTM-Adaboost模型對還原工序能耗預測的曲線圖。由圖5可以看到,BP模型和LSTM模型對實際能耗曲線擬合得并不是很好,相反LSTM-Adaboost可以很好地擬合能耗變化曲線,實現準確預測。可以初步得出結論,改進的LSTM網絡模型能有效降低誤差,提高能耗預測的準確性。三種模型的預測結果對比如表3所示。

圖5 預測結果對比圖

模型RMSE平均誤差LSTM-Adabooost3.851.39%LSTM模型11.562.67%BP模型26.525.53%
由表3可知,LSTM-Adaboost模型預測的平均誤差為1.39%,低于LSTM模型和BP模型。為了進一步比較BP模型、LSTM模型、LSTM-Adaboost模型的效果,給出各個模型的誤差曲線,如圖 6所示。通過對比可以得出,LSTM-Adaboost模型預測值的誤差均小于另外兩種模型。通過分析可知,Adaboos算法對LSTM模型進行訓練,得到了預測效果更好的預測器,一方面保留了LSTM模型的非線性映射和時間序列依賴的問題,另一方面Adaboost算法根據錯誤率來調節權值,增強了LSTM的泛化能力,提高了預測的準確率。

圖6 誤差對比圖
針對多晶硅生產過程中還原工序能耗問題,本文首先通過PCA算法,根據多晶硅能耗數據的特性,對影響特征進行主成分分析,提取出要的影響因素。然后結合LSTM算法,提出了LSTM-Adaboost網絡模型,提高了多經過生產過程中還原過程能耗預測的精度,并結合企業的能耗數據,對模型進行驗證。實驗結果表明,該模型有效降低了預測的誤差。但是相較于另外兩種模型,該模型的訓練耗時較多。