999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粒子群算法優化的乳腺癌化合物活性預測研究

2023-08-24 06:47:50王江翔肖清泉
智能計算機與應用 2023年7期
關鍵詞:優化模型

王江翔, 肖清泉

(貴州大學大數據與信息工程學院, 貴陽 550025)

0 引 言

國內人口的乳腺癌發病率不容小覷,平均每年有大約30 萬的女性乳腺癌患者和少數男性患者[1]。乳腺癌是乳腺上皮細胞在多種因素作用下,發生增殖失控的現象。 患者早期的癥狀為乳房腫塊、乳頭溢液、腋窩淋巴結腫大等癥狀,晚期可能發生癌細胞擴散轉移,感染其他器官,直接威脅患者的生命。 隨著醫療新興技術的出現與發展,全球乳腺癌的發病率得到了初步的控制,但是乳腺癌發病機制和抗乳腺癌藥物的關系依然是近年來研究的重點和難題。目前,在藥物研發中,為了節約時間和成本,通常采用建立化合物活性預測模型的方法來篩選潛在活性化合物。

本文針對傳統的回歸預測模型對化合物活性預測的效果較差的問題,采用粒子群算法分別對4 種傳統預測模型進行優化。 通過對比分析模型優化前后的均方誤差、平均絕對誤差等指標,驗證了粒子群算法帶來的模型預測性能的提升,可為回歸預測模型的優化提供思路。

1 整體設計流程

本文采用粒子群算法分別改進了SVR 算法、Random Forest 算法、XGBoost 算法和LightGBM 模型,用于構建生物活性的定量預測模型。 同時,以驗證集MSE、MAE、擬合度作為評價指標,對比分析各個模型的預測效果,以驗證所改進模型的性能。 具體流程如圖1 所示。

圖1 整體設計流程圖Fig. 1 Overall design flow chart

2 基于粒子群算法優化的預測模型

2.1 粒子群算法

粒子群算法[2]來自對鳥群捕食行為的研究,通過群體中個體之間的協作和信息共享來尋找最優解,該方法簡單、且易于實現。 粒子群算法中每個粒子都關注2 個點—位置和速度,在尋找到自己的最優位置和速度時,將其與種群中的其它粒子進行信息共享,其它粒子共享到信息后會以此調整自身的最優位置與速度。 這樣隨著越來越多的位置與速度信息的出現,就能通過計算得到一個全局最優解。

其中,相較于位置屬性,粒子對速度屬性更加依賴,粒子根據自身前一時刻的速度來思考自身能夠到達的位置,c1就是調節此次位移的步長,c2調節粒子靠近群體的位置的步長。

2.2 粒子群算法優化的SVR 模型設計

支持向量回歸(SVR)模型[3]是以支持向量機(SVM)為基礎的,兩者間的區別在于SVR 是使得最遠距離的樣本點盡量靠近擬合線,SVM 是使得最近距離的樣本點盡量疏遠擬合線。 SVR 和SVM 對比示意如圖2 所示。

圖2 SVR 與SVM 對比示意圖Fig. 2 Schematic diagram of the comparison between SVR and SVM

SVR 模型將變量的輸入映射到特征空間,使得非線性的數據可以通過回歸進行線性擬合,以此得到的構造決策函數如下:

SVR 在SVM 的中心線性函數設置了一個寬度為ε的容忍偏差,落到這個寬度內的樣本不做損失計算。ε的損失函數計算公式如下:

此外,引入松弛變量ε、?以適應數據在容忍偏差之外的松弛程度不同的需求,公式如下:

其中,C表示懲罰因子。 引入拉格朗日函數,將一般問題轉化為對偶問題,公式如下:

對于非線性回歸問題需要對映射空間進行一個轉換,轉化為一個可以進行線性回歸的更高維度的特征空間,這個過程主要依賴于核函數,其高斯核函數公式如下:

映射到高維度的空間以后就能使用回歸函數進行回歸,回歸函數如下:

粒子群算法的引入主要是為了對SVR 模型中懲罰參數C和高斯核函數的寬度系數g進行優化,尋找C、g的最優解。 SVR 對樣本數據采用懲罰機制,懲罰力度的大小就由參數C控制,在容忍偏差之外的懲罰力度要適當,因為懲罰力度過大,會使得模型泛化能力較弱,而懲罰力度過小,會使得模型誤差大,精度不高。高斯核函數的寬度系數g的大小表示樣本之間的相關程度,g的值越大、樣本的相關性就越大,g的值越小、樣本的相關性就越小。g的值如果太大、模型精度會被影響,g的值如果太小、模型泛化性能力就不足。

因此,優化后的SVR 模型通過使用粒子群算法對懲罰參數C和高斯核函數的寬度系數g進行算法尋優,找到最優解,以此大幅度增加模型的精度以及泛化能力。

2.3 粒子群算法優化的Random Forest 預測模型設計

Random Forest 算法[4]是為了整合多種決策樹算法而提出來的一種集成學習算法,其中的每棵決策樹都是使用bootstrap 技術隨機抽取樣本構建的,每棵決策樹的分裂點是從隨機特征子空間中隨機選擇而來。 這樣,每棵決策樹都是隨機生成,涵蓋多種可能性,Random Forest 算法在其中通過投票的方式選擇最好的預測結果。

決策樹是一種分類器,通過模仿樹木枝干分枝,從樹的根部進行分裂,選取適當的分裂準則,在滿足條件時進行分裂,直至生成一顆完整的樹狀,多個分枝就代表了多個路徑規則,在預測數據時,依靠這些規則對數據進行分類和預測。 決策樹的生成算法常見的有ID3、C4.5、CART,其中ID3、C4.5 基于香農熵進行分裂,CART 是基于基尼系數分裂。 香農熵的公式表達式如下:

香農熵可以用來計算信息增益的大小,ID3 算法就是通過選擇信息增益最大的屬性進行決策樹生成的。 信息增益的計算公式如下:

但是,ID3 算法對于連續變量的選擇性很差,C4.5 算法針對這一算法缺陷引入分裂信息比率因子,數學公式如下:

引入分裂信息比率因子后的分裂準則公式如下:

這一準則計算方法將連續變量進行離散化處理,使得決策樹對連續變量的選擇性變好。 而CART 采用一種全新的方法,把基尼系數衡量的信息純度作為分裂準則,基尼系數公式如下:

決策樹在建樹時根據基尼系數最小進行分裂。

2.4 粒子群算法優化的XGBoost 預測模型設計

XGBoost 算法[5]是通過串聯不同的知識點,合理高效地解決回歸、排序等復雜問題,是近年來機器學習領域應用最廣泛的算法之一。 boosting 是數學建模中運用最廣泛的方法,就是通過集成不同的模型來得到一個高精度的模型,但是boosting 每次計算需要迭代幾千上萬次,因此效率低下。 XGBoost是在boosting 的基礎上進行改進,XGBoost 是一種向前特征的算法,其模型公式為:

其中,k為樹的棵樹;f表示回歸樹,并且f(x)=wq(x),q:Rm→T,w∈RT;q為每一顆樹的結構;T表示樹中的葉子樹;一個q對應一個葉子權重w;τ表示全部回歸樹組成的函數空間。 在實際計算當中,將規則安排到葉子里,然后由w進行求和, 得到最終的預測值。XGBoost的整個建模過程如下:

設定要預測模型:

設置目標函數為:

每個樣本落在葉子節點上:

其中,T為t棵樹葉子節點的的總數,mj是j個葉子的權重。

進一步,得到新的目標函數:

令:

對函數進行優化:

增加的切分點的增益:

2.5 粒子群算法優化的LightGBM 預測模型設計

LightGBM[6]是以GBTD 為基礎的一種算法,而GBTD(Gradient Boosting Decision Tree)是一種通過迭代構建模型的算法,GBDT 具有梯度提升和決策樹的特點,具有精度高、速度快、不容易過擬合的優點。 LightGBM 彌補了GBDT 處理海量數據時速度較慢的問題。 LightGBM 是一種以直方圖決策樹為基礎的算法,其基本過程是:將特征劃分成s個整數,然后生成一個寬度為s的直方圖,在輸入數據時,離散值被累積起來作為直方圖的索引,在遍歷一次數據后,所有累計的量全被直方圖統計起來,然后根據生成的索引值進行遍歷找到最佳的切分點。 這個算法的優點在于減小了存儲量,使得運算速度加快,并且降低了運算成本,XGBoost 需要計算一次效益后,再遍歷每一個特征,然而采用直方圖算法的LightGBM只需要計算s次。 直方圖算法如圖3 所示。

圖3 直方圖算法Fig. 3 Histogram algorithm

迄今為止,LightGBM 已經普遍用于機器學習領域。 大量的數據表明,LightGBM 已比目前應用的Boosting 工具擁有更高的準確率和計算效率,LightGBM 比XGBoost 的計算速度更快,效率和精度也更高,LightGBM 采用直方圖算法可以有效地解決XGBoost 算法把所有特征加入內存進行排序所造成的內存消耗。

3 實驗結果分析

3.1 數據處理

本文數據主要源于第十八屆華為杯數學建模D題,數據包括1 974 個化合物對ERα 的生物活性數據,以及729 個分子描述符信息(變量)。 由于數據中存在部分對生物活性影響不大的變量,本文通過相關性分析篩選出20 個對生物活性最具有顯著影響的變量。 20 個變量之間相關度分布圖如圖4(a)所示。 由圖4(a)可見,20 個主要變量的相關系數矩陣中,有部分變量的相關性過高,對模型的預測效果具有一定的影響。 因此,為了使得模型預測性能更佳,本文進一步研究了變量之間是否具有高度的線性關系或者非線性關系,去除了部分相關系數較大的變量,最后得到14 個變量,如圖4(b)所示。 這14 個變量之間的整體獨立性更高,對模型預測更加有利,故將這14 個變量的值作為建立生物活性定量預測模型。

圖4 變量間的相關度分布圖Fig. 4 Correlation distribution between variables

3.2 評估指標

3.2.1 均方誤差

均方誤差(MSE) 是觀測值與真值偏差的平方和觀測次數n比值的平方根,當對某一變量進行多次的測量時,取這一測量結果誤差的均方誤差,稱均方誤差,公式如下:

3.2.2 平均絕對誤差

平均絕對誤差(MAE),又叫平均絕對離差,是所有單個觀測值與算術平均值的偏差的絕對值的平均。 平均絕對誤差可以避免誤差相互抵消的問題,因而可以準確反映實際預測誤差的大小。 絕對誤差的平均值公式如下:

3.2.3 擬合優度

擬合優度(R2) 是指回歸線對預測值的擬合程度。 度量擬合優度的統計量是可決系數(亦稱確定系數)R2。R2最大值為1。R2的值越接近1,說明回歸直線對觀測值的擬合程度越好。 反之越差。

3.3 四種粒子群算法優化的預測模型

本文首先對1 974 個化合物進行樣本劃分,為了在保證精度的同時讓模型具有更好的泛化能力,采用隨機抽取樣本的方法對數據進行劃分,其中以90%的化合物為訓練集,10%的化合物為驗證集。構建了4 種算法模型,分別是SVR 算法、Random Forest 算法、XGBoost 算法、LightGBM 算法[6]。 對這4 種算法模型采用粒子群算法進行優化,對比分析各模型的最終實驗結果,選擇預測性能最好的模型作為本文的最終預測模型進行測試集的預測。

3.3.1 模型預測值對比分析

將劃分好的訓練集樣本數據送入優化模型進行訓練回歸,得到訓練好參數的優化模型,使用驗證集對模型進行驗證。 為了驗證粒子群算法給各個原始模型帶來的性能提升效果,本文對原始模型進行相同的訓練與驗證,將得到的預測值與樣本真實值做對比,如圖5 所示。

圖5 4 個模型優化前后的預測結果與真實值對比Fig. 5 Comparison of the prediction results with the actual value before and after optimization of the four models

從圖5(a)中可以看到,原始SVR 模型的預測結果擬合準確度并不高,預測值與真實值的誤差較大。 這在很大程度上是由于懲罰參數C和高斯核函數的寬度系數g的優化程度不高所導致。 而用粒子群算法改進后的SVR 模型,C和g數值經過優化后,將明顯提升模型預測準確率。 優化后SVR 模型的預測值與樣本真實值對比如圖5(b)所示。 由圖5(b)可看出,粒子群算法優化后的SVR 模型的預測結果與真實值擬合程度更高,這也表明優化后的SVR 模型性能更好,誤差更小。 同時,圖5(c)至圖5(h)也表明了經過粒子群算法優化后的模型預測效果更好,整體性能更佳。

3.3.2 擬合度對比分析

本文對模型擬合度進行了可視化分析,如圖6所示。 從圖6 中可以看出,優化后SVR 模型的預測擬合度在迭代回歸5 次以后基本收斂,預測值與真實值的擬合度維持在79.52%。 而優化后的Random Forest 模型的誤差較小,預測值擬合度穩定在81.29%。同時,優化后XGBoost 模型在訓練過程中出現“局部最優”現象,擬合度維持在了77.20%,通過粒子群算法對參數進行尋優,使其訓練能夠自主跳出局部最優,擬合度最終達到84.52%。

圖6 各個模型優化后的擬合度Fig. 6 Fitting degree of each model after optimization

相比之下,優化后的LightGBM 模型擬合誤差更小,不斷通過參數優化參數,跳出局部最優,擬合度最終穩定在84.68%。

3.3.3 預測誤差對比分析

為了進一步驗證粒子群算法給預測模型帶來的影響,本文分別繪制了4 個優化后的模型的預測值與真實值的誤差曲線圖,如圖7 所示。 由圖7 可見,優化后的模型預測誤差大多數都低于改進前的模型,預測效果得到了較好的改善。 其中,SVR 模型和XGBoost 模型的性能提升較大,整體誤差基本都有所降低。 而相比之下,LightGBM 模型的整體預測誤差更低,預測效果更好。

圖7 各個模型的預測值與真實值的誤差曲線Fig. 7 The error curve between the predicted value and the true value of each model

3.3.4 評價指標對比分析

本文給出了4 個模型評價指標MSE(均方誤差)、MAE(平均絕對誤差)、R2(擬合度),見表1。 由表1 可看到,優化后LightGBM 模型的MSE和MAE值分別為0.283 3和0.334 9,均低于其它3 個模型。 同時,優化后LightGBM 模型的R2值達到了最高的84.68%。

表1 優化后的模型的評價指標Tab. 1 Evaluation indicators of the optimized model

4 結束語

本文針對傳統回歸預測模型對化合物活性預測的效果較差的問題,分別采用粒子群算法優化了SVR 模型、Random Forest 模型、XGBoost 模型和LightGBM 模型。 對比分析各個模型的擬合度、MSE、MAE等評價指標的結果表明,優化后的LightGBM 模型對化合物活性的預測效果更好。 同時,通過可視化優化前后模型的預測結果和預測誤差,直觀地展示了粒子群算法優化帶來的模型效果的提升,可為回歸預測模型的優化方法提供思路。

猜你喜歡
優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 成年女人a毛片免费视频| 国产成人av一区二区三区| 国产午夜无码片在线观看网站 | 亚洲精品人成网线在线| 91丝袜在线观看| 暴力调教一区二区三区| 国产精品区网红主播在线观看| 国产欧美成人不卡视频| 在线观看免费黄色网址| 午夜福利视频一区| 亚洲爱婷婷色69堂| 有专无码视频| 国产极品美女在线| 成年人国产视频| 国产精品综合久久久| 亚洲中久无码永久在线观看软件| 亚洲欧美日韩成人高清在线一区| 成人一级免费视频| 国产自无码视频在线观看| 亚洲成a∧人片在线观看无码| 在线观看欧美精品二区| 日韩无码黄色网站| 国产导航在线| 国产一级裸网站| 精品一区二区三区水蜜桃| 亚洲美女一级毛片| 亚洲无码视频喷水| 超级碰免费视频91| 国产精品99一区不卡| 国产国产人免费视频成18| 国产好痛疼轻点好爽的视频| 国产精品青青| 波多野结衣一二三| 国产精品亚洲欧美日韩久久| 69免费在线视频| 欧亚日韩Av| 亚洲国产日韩一区| 亚洲国产成人久久精品软件| 99久久精品国产自免费| 国产嫩草在线观看| 国产亚洲精| 国产久操视频| 99热最新在线| 91精品久久久无码中文字幕vr| 91福利国产成人精品导航| 在线播放91| 麻豆国产原创视频在线播放| 亚洲视频色图| 亚洲视频在线网| 亚洲人成网站观看在线观看| 这里只有精品在线播放| 91久久偷偷做嫩草影院电| www.亚洲国产| 日韩在线成年视频人网站观看| 亚洲精品中文字幕无乱码| 成人福利在线看| 国产成人成人一区二区| 国产精品高清国产三级囯产AV| 国产AV毛片| 尤物在线观看乱码| 18禁黄无遮挡免费动漫网站| 国产丝袜啪啪| 欧美国产综合视频| 国产视频久久久久| 成人日韩视频| 欧美性天天| 久久精品日日躁夜夜躁欧美| 亚洲色无码专线精品观看| 国产精品极品美女自在线网站| 国产精品亚洲精品爽爽| 日韩a级毛片| 97青青青国产在线播放| 成人午夜福利视频| 91精品国产91欠久久久久| 天堂成人av| 无码AV日韩一二三区| 欧美一级专区免费大片| 亚洲高清资源| 国内精品视频在线| 不卡视频国产| 99久久精品视香蕉蕉| 最新国语自产精品视频在|