賀許龍,張 蕾,周 涵,王鑫磊,苗 準(zhǔn)
(中國(guó)石化石油化工科學(xué)研究院,北京 100083)
隨著煉油廠智能化轉(zhuǎn)型,利用數(shù)據(jù)挖掘技術(shù)對(duì)裝置生產(chǎn)數(shù)據(jù)進(jìn)行分析處理與建模,并用于對(duì)實(shí)際裝置的模擬與優(yōu)化,成為很多煉油廠提高經(jīng)濟(jì)效益的有效手段[1-2]。但是,由于工業(yè)裝置長(zhǎng)期處于穩(wěn)定生產(chǎn)狀態(tài)或加工的原料相對(duì)固定,使工業(yè)數(shù)據(jù)存在重復(fù)性高、多樣性低和分布不均衡等特點(diǎn),學(xué)術(shù)上普遍將其稱為小樣本問(wèn)題。若使用這種信息不完整的小樣本建立數(shù)據(jù)驅(qū)動(dòng)模型,將難以實(shí)現(xiàn)對(duì)特征空間分布規(guī)律的有效學(xué)習(xí),造成模型存在檢驗(yàn)誤差較大和適用性較差等問(wèn)題[3]。
虛擬樣本生成方法可以有效解決上述小樣本問(wèn)題[4]。常用的虛擬樣本生成方法包括:基于先驗(yàn)知識(shí)的生成方法和基于某種概率分布的方法[5-7]。前者主要是根據(jù)特定領(lǐng)域的先驗(yàn)知識(shí),在模型中加入適當(dāng)約束條件,將模型的求解問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題,使得產(chǎn)生更適合于問(wèn)題的解(虛擬樣本),但該方法要求研究者對(duì)特定領(lǐng)域有深入且全面的認(rèn)識(shí),否則會(huì)因添加的約束條件不當(dāng)而導(dǎo)致虛擬樣本的合理性差;后者是在真實(shí)樣本的概率分布模型的基礎(chǔ)上,通過(guò)選取合適的樣本概率分布,建立問(wèn)題的近似概率模型,然后抽樣得到虛擬樣本。該方法合理性基本滿足要求,且不需要充分了解特定領(lǐng)域的經(jīng)驗(yàn)知識(shí),具有較強(qiáng)的適應(yīng)性。
在綜合分析重整原料油數(shù)據(jù)的基礎(chǔ)上,以重整原料按碳數(shù)分布的烴族組成(PNA×Cn)為輸入特征,產(chǎn)品中的芳烴收率為輸出特征,建立決策樹(shù)回歸模型,并采用流程模擬軟件Aspen HYSYS對(duì)該裝置反應(yīng)過(guò)程進(jìn)行模擬。……