999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林和貝葉斯優化的TiO2光催化污染物降解速率預測模型研究

2021-09-10 12:21:36劉海軍劉韻鋒劉小玲郭柏帆趙文鋒通訊作者
信息記錄材料 2021年8期
關鍵詞:優化模型

劉海軍,劉韻鋒,陳 僑,劉小玲,郭柏帆,趙文鋒(通訊作者)

(華南農業大學電子工程學院<華南農業大學人工智能學院> 廣東 廣州 510642)

1 引言

水污染處理是當今全球性問題,由于水體污染物中包含重金屬、有毒有害易長期積累的有機物、放射性污染物等,對用水安全產生了極大地威脅。1972年以來,研究人員開展了大量光催化降解污染物的實驗,由于化學反應的發生與結果往往取決于反應物與實驗環境,具有高度的不確定性,需要反復地實驗,不斷地試錯以獲取期望的結果,顯然這種方法在資源消耗與取得成果上不具備優勢。

隨著數據科學的興起,各種機器學習模型也被用到化學反應的預測工作。在多種機器學習模型中,人工神經網絡(Artificial Neural Network,ANN)對水污染處理效果的預測模型受到越來越多研究人員的關注。張浩等[1]為獲取高效的甲醛氣體去除率,運用正交實驗設計結合反向傳播(Back Propagation,BP)神經網絡優化TiO2的改性方案,并通過該模型進行預測和優選,得到了最佳的活性炭改性方案。袁軍座等[2]以BP神經網絡作為模型的主體結構,指數平滑法作為預測模型的輸入,利用網絡自學習獲取模型輸入權重,建立Cu-Ce/TiO2光催化性能組合預測模型。

但是,傳統ANN算法是基于漸近理論,模型的準確預測建立在大量數據支撐的基礎上,同時容易陷入局部最值,以及對樣本的依賴性和初始權重的敏感度較高等因素,使得模型的處理精度和速度達不到預期。進而有研究人員開始利用集成學習(Ensemble Learning)方法去搭建預測模型。鄭偉達等[3]建立隨機森林、嶺回歸、基于徑向基核函數和線性核函數的支持向量回歸等4種機器學習算法的預測模型,對鈣鈦礦材料數據集中的密度、形成能、帶隙、晶體體積等4種性能參數進行預測。SUUO J等[4]利用隨機森林算法實現了不對稱催化氫化反應對映選擇性的預測。

在本項工作中,我們提出基于隨機森林(Random Forest,RF)與貝葉斯優化的高精度預測模型,闡述了模型的基本原理及實現過程,并與ANN搭建的模型進行對比分析,驗證了該模型的可行性和可靠性。

2 材料與方法

2.1 數據準備

數據集包含408個數據點,來自于公開發表的論文報告[5-7]。每個數據點包含6個輸入變量,分別是有機污染物類型(OC)、污染物初始濃度(Co)、紫外光強度(I,mWcm-2)、實驗溫度(T,℃)、TiO2用量(D,gL-1)和溶液初始pH(pH),輸出為光降解速率常數(k,min-1),將其轉換為以10為底的對數-log(k),以便更好地可視化小數據。

除了有機污染物類型外,其他5個變量和1個響應都是數值數據,對于計算機語言來說是直接可讀的。為了使污染物類型對于模型可讀,需要使用分子指紋將它們轉換成一個二元矢量,如(000101…0)。分子指紋將化合物的化學結構特征編碼成只含有0和1的二元載體,0表示化合物中沒有一定的化學結構,而1表示其存在,可以作為機器學習模型的輸入,能夠直接鏈接到化學特征。向量的長度是可調的,長度越長,就會存儲越多的結構特征,因此不同化合物的特征重疊的可能性就越小。這對模型的可靠性有很大的影響,可通過后續的研究內容進行確定。

在本工作中,我們將數據集按照4:1的比例隨機劃分為訓練集和測試集,其中訓練集樣本326份,測試集樣本82份。利用均方根誤差(RMSE,公式1)和決定系數(R2,公式2)來評估所開發模型的性能。RMSE是殘差的標準偏差,即預測值與真實值的誤差,其值越低越好。當決定系數(R2)應用于測試集時,其值等于外部解釋的方差,可用于判斷模型的好壞。一般來說,RMSE越低,R2值越高,說明模型擬合效果越好。

2.2 模型比較

2.2.1 人工神經網絡模型(Artificial Neural Network)

ANN是由大量神經元互相連接而形成的復雜網絡結構,以類似于人類神經系統的方式學習輸入到神經網絡的數據,是一種具有分布式并行信息處理的特征抽象數學模型[8]。

典型的神經網絡由幾到數百萬個神經元組成,他們排列在一系列的層中。輸入層用于接收外部的數據,輸入層的神經元數目正好是我們輸入變量的數目,例如本工作中的CO、I、T、D、Co、pH。最后一層為輸出層,輸出層的神經元數目等于響應的數目,例如本工作中的-logk。在輸入層和輸出層之間,存在著一系列的隱藏層,通過激活函數連接從輸入到輸出層的信息,層與層之間的任意兩個神經元都通過權重連接起來,這些權重表示這兩個神經元之間信息的強度。

過擬合是調試ANN經常遇到的問題,其外部表現為模型在訓練集的準確率很高而在測試集的準確率很低,內部表現為模型泛化能力差,參數過多擬合某一個或多個方向。在本項工作中,我們使用Dropout方法防止過擬合,Dropout是一種在正向訓練階段隨機讓某一個神經元暫時退出或者丟棄,從而降低模型的復雜度,防止訓練數據的過匹配的方法,這可能會導致訓練時間上升,但能夠抑制過擬合的可能性,提高神經網絡模型泛化力。

一般認為,ANN模型的質量極大地取決于它的超參數。因此,要獲得一個可靠的ANN模型,就必須對網絡的超參數進行優化,找到最佳參數,這將在后面的研究內容中提到。

2.2.2 隨機森林模型(Random Forest)

隨機森林是一種基于分類樹的高效集成學習算法,它通過隨機選擇訓練樣本和特征的子集來構建眾多獨立的決策樹,然后收集這些決策樹的結果。對于新的輸入進行預測,需要遍歷每顆決策樹,將每棵樹的結果取平均作為最終結果,這使得模型具有更穩定的預測能力。

該算法的優點體現在學習過程較快,對于大規模數據集,是一種高效的處理算法,且對數據集中的噪聲有較強的魯棒性。與傳統的機器學習方法相比,RF不需要顧慮一般回歸分析面臨的多元共線性的問題,便于非線性數據處理,算法具有預測精度高、收斂速度快、調節參數少以及能有效避免“過擬合”風險等優點,適用于超高維特征向量空間,因此在眾多領域中得到了廣泛應用。

RF的參數中,n_estimators為決策樹的數目,太少容易欠擬合,通常決策樹的數目越多,算法效果越好,但是計算時間也會隨之增加,當樹的數量超過一個臨界值,算法的效果并不會顯著變好;max_features為最大特征數,即構建決策樹最優模型時考慮的最大特征數,是分割節點時考慮特征隨機子集的大小,這個值越低,方差減小得越多,但是偏差的增大也越多;min_samples_split為節點可分的最小樣本數;max_depth為決策樹最大深度。同樣地,我們需要對RF的參數進行調優,以便獲得最佳參數,這將在后面的研究內容中提到。

2.2.3 貝葉斯優化

針對機器學習超參數進行優化的算法有很多,常用的有網格搜索、隨機搜索和貝葉斯優化。相比于網格搜索和隨機搜索,貝葉斯優化能夠以更少的迭代次數獲得更優的結果,快速而準確地尋找超參數的最優解,因此在參數組合尋優問題上被廣泛應用。

使用貝葉斯方法優化ANN的超參數,所使用的激活函數是ReLU,優化器是Adam,每個batch大小為64,周期為500,通過5倍交叉驗證的方法對ANN模型進行訓練,該方法將數據隨機分成5個近似大小相等的子組。每次保留一個數據組用于驗證,其他4個數據組用于訓練,這個過程重復5次,計算結果可以使用每次的模型評估分數取平均,用RMSE和R2對ANN模型的性能進行評估。

同樣地,使用貝葉斯優化RF的超參數,通過5倍交叉驗證方法對RF模型進行訓練,用RMSE和R2對RF模型的性能進行評估。

3 結果與討論

3.1 貝葉斯優化人工神經網絡

采用貝葉斯優化方法對ANN模型參數進行優化,在本項工作中,ANN模型參數包括隱藏層的數量、每個神經元的數量、Dropout率以及分子指紋的半徑和長度。

隨著貝葉斯迭代的進行,RMSE就會收斂。優化后的對應模型參數如下,網絡層數為8層,其中隱藏層7層,輸出層1層,每個隱藏層中的神經元數為512,Dropout率為0.2,分子半徑為1.0,分子指紋長度為128,使用貝葉斯優化后的參數作為ANN模型的初始超參數進行訓練。此外,我們還使用測試集對模型的性能進行評估,結果為:RMSE為0.21,R2為0.86,預測值和真實值的對比折線圖和散點圖見圖1。

圖1 ANN的預測值和真實值對比圖

3.2 貝葉斯優化隨機森林

采用貝葉斯優化方法進行了RF模型參數的優化,模型參數如下:決策樹數目為387,最大特征數為0.703,最小樣本數為2,最大深度為84,分子半徑為1.0,分子指紋長度為128。使用測試集對模型的性能進行評估,結果為:RMSE為0.16,R2為0.92,預測值和真實值的對比折線圖和散點圖見圖2。

圖2 RF的預測值和真實值對比圖

3.3 對比分析

通過對比兩個模型預測值和真實值對比圖(圖1和圖2),可知RF模型預測值和真實值的折線圖重疊程度更高,預測值和真實值的散點更緊密分布于直線的兩側,具有較小的方差和偏差,充分證明了RF模型的準確率更高,可靠性更強,擬合和泛化能力也更強。

ANN模型和RF模型性能指標對比,見表1,使用相同的數據集進行訓練和測試,結果表明:RF模型的RMSE更小,R2更高,RF模型性能明顯優于ANN模型。

表1 ANN和RF模型性能對比

4 結語

在本項工作中,我們提出了ANN和RF兩個模型,用于水污染物光降解速率常數的預測。模型的輸入特征基本上涵蓋了光催化降解過程的大部分實驗條件,輸出為光降解速率常數。以均方根誤差(RMSE)和決定系數(R2)作為模型的評測指標,結果表明,相比于ANN模型,本工作提出的基于隨機森林和貝葉斯優化的光降解速率常數預測的建模方法避免了冗余信息和干擾噪聲等因素對模型準確率的不利影響,在具有較高的預測精度和可靠性的同時,增強了模型的泛化能力和魯棒性。

猜你喜歡
優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 99九九成人免费视频精品| 久无码久无码av无码| 精品国产网| 国产亚洲精品97在线观看| 久久久黄色片| 97视频在线观看免费视频| 88国产经典欧美一区二区三区| 亚洲av无码人妻| 亚洲AV无码乱码在线观看代蜜桃 | 精品撒尿视频一区二区三区| 福利在线免费视频| 国产情侣一区二区三区| 免费A级毛片无码免费视频| 国产精品主播| 亚洲欧美日韩中文字幕一区二区三区| 精品久久久无码专区中文字幕| 伊人天堂网| 亚洲精品福利视频| 欧美日韩国产在线人成app| 最近最新中文字幕在线第一页| 亚洲国产精品人久久电影| 真人免费一级毛片一区二区| 久久精品电影| 麻豆国产原创视频在线播放| 欧美一区二区啪啪| 亚洲中文字幕无码爆乳| 国产高清在线观看91精品| 亚洲免费三区| 婷婷伊人五月| 亚洲三级a| 99视频精品在线观看| 亚洲综合第一页| 久久9966精品国产免费| 亚洲综合欧美在线一区在线播放| 午夜电影在线观看国产1区| 亚洲男人的天堂久久香蕉| 久久国产乱子| 99热6这里只有精品| 亚洲欧美成人影院| 国产乱人伦AV在线A| 91青青草视频| 成人在线综合| 国产精品无码久久久久AV| 日韩高清在线观看不卡一区二区| 色噜噜狠狠狠综合曰曰曰| 亚洲a级在线观看| 青青青国产视频手机| 免费毛片视频| 国产无遮挡裸体免费视频| 国产一级二级三级毛片| 亚洲欧洲日韩综合| 亚洲精品国产精品乱码不卞| 狠狠做深爱婷婷久久一区| 新SSS无码手机在线观看| 亚洲精品图区| 伊人福利视频| 国产美女叼嘿视频免费看| 内射人妻无码色AV天堂| 亚洲天堂网视频| 9cao视频精品| 114级毛片免费观看| 又爽又大又黄a级毛片在线视频 | 国产精品美人久久久久久AV| 91丝袜在线观看| 成人午夜久久| 国产va视频| 欧美一区二区三区不卡免费| 欧美中文字幕一区| 91色爱欧美精品www| 青青久视频| 精品少妇人妻无码久久| 呦女亚洲一区精品| 精品国产美女福到在线直播| 国产99视频在线| 国产成人一区| 麻豆AV网站免费进入| 伦精品一区二区三区视频| 免费无码AV片在线观看国产| 国产在线观看一区精品| 在线看AV天堂| 一级成人a做片免费| 欧美啪啪一区|