999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于嵌入式特征選擇算法下的抗乳腺癌藥物分子活性預(yù)測(cè)

2022-02-20 00:19:40葉丹胡二琴
電腦知識(shí)與技術(shù) 2022年34期

葉丹 胡二琴

摘要:文章提出在嵌入式特征選擇算法背景下,通過(guò)對(duì)比正則化模型和樹(shù)模型兩種篩選方法下的重要性權(quán)重選取出對(duì)生物活性最具有顯著影響的20個(gè)分子描述符,并分別建立預(yù)測(cè)模型。結(jié)果表明樹(shù)模型下的隨機(jī)森林方法真實(shí)值與預(yù)測(cè)值相對(duì)平均誤為0.0167,相較于正則化方法和樹(shù)模型方法下的梯度提升決策樹(shù)更優(yōu),證實(shí)基于該方法下篩選的模型具有預(yù)測(cè)誤差小、預(yù)測(cè)精度更高的優(yōu)點(diǎn)。

關(guān)鍵詞:抗乳腺癌;嵌入式特征選擇;重要性權(quán)重選擇特征;生物活性預(yù)測(cè)

中圖分類(lèi)號(hào):TP301? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2022)34-0008-03

1 引言

乳腺癌是目前世界上最常見(jiàn),致死率較高的癌癥之一。世界衛(wèi)生組織國(guó)際癌癥研究機(jī)構(gòu)(IARC) 發(fā)布的2020年全球最新癌癥負(fù)擔(dān)數(shù)據(jù)顯示,2020年全球新增癌癥病人約1930萬(wàn)人,其中女性乳腺癌占11.7%,在數(shù)量上已經(jīng)超越了肺癌(11.4%) ,成為全球新診斷人數(shù)最多的癌癥。乳腺癌確診病人超過(guò)226萬(wàn)[1],其中僅中國(guó)就超過(guò)41萬(wàn)人,占比9.1%。其發(fā)病率和死亡率分別位列我國(guó)女性惡性腫瘤的第1位和第4位[2]。雖然乳腺癌發(fā)病率高,但致死率相較于肺癌、腸癌這些常見(jiàn)癌癥要稍低。提高早期乳腺癌及其癌前病變的檢出率并進(jìn)行及時(shí)有效的治療是提高乳腺癌預(yù)后、降低乳腺癌死亡率的重要措施[3]。

近年來(lái),國(guó)內(nèi)外研究發(fā)現(xiàn)雌激素受體α亞型(Estrogen receptors alpha, ERα) 在乳腺發(fā)育過(guò)程中扮演了十分重要的角色[4-5]。在惡性乳腺癌組織中的雌激素受體的濃度一般較高,而大部分良性腫瘤和正常組織都不含雌激素受體[6],因此ERα被認(rèn)為是治療乳腺癌的重要靶標(biāo)。能夠拮抗ERα活性的化合物可能是治療乳腺癌的候選藥物。

不斷地尋找新的手段來(lái)改進(jìn)藥物以最大化藥物的治療效果是科學(xué)制藥發(fā)展的趨勢(shì)。因此,尋找新的抗乳腺癌候選藥物尤為關(guān)鍵,對(duì)于乳腺癌患者精確治療具有積極而重大意義,可以降低乳腺癌患者死亡率。本文提出在嵌入式特征篩選背景下,通過(guò)對(duì)比正則化模型和樹(shù)模型下不同方法的特征選擇,對(duì)1974個(gè)化合物所對(duì)應(yīng)的ERα生物活性數(shù)據(jù)進(jìn)行特征篩選,并利用不同篩選辦法選取的前20個(gè)對(duì)生物活性具有顯著性影響的化合物分子式分別構(gòu)建預(yù)測(cè)模型并對(duì)模型進(jìn)行評(píng)估。

2 數(shù)據(jù)處理及變量篩選

本文數(shù)據(jù)來(lái)源于2021年中國(guó)研究生數(shù)學(xué)建模競(jìng)賽數(shù)據(jù),數(shù)據(jù)包含1974個(gè)化合物的729個(gè)分子描述符信息(自變量)和化合物對(duì)應(yīng)ERα的生物活性值PIC50。PIC50值越大表明生物活性越高,對(duì)抑制ERα活性越有效。本文設(shè)定PIC50為因變量。利用Python、R編程完成對(duì)集中數(shù)據(jù)的預(yù)處理。

2.1 數(shù)據(jù)預(yù)處理

1) 刪除原始數(shù)據(jù)中化合物分子式中缺失值。原始數(shù)據(jù)中有225個(gè)分子描述符取值全部為零,刪除全部為零的分子描述符后剩余504個(gè)分子描述符(自變量)。

2) 進(jìn)行化合物分子的相關(guān)性分析。去除冗余的化合物分子式,防止過(guò)度擬合。結(jié)合熱力圖1可發(fā)現(xiàn)部分變量相關(guān)系數(shù)絕對(duì)值接近1,此類(lèi)變量的信息高度重疊(本文選取絕對(duì)值大于0.9) 。為解決模型建立復(fù)雜問(wèn)題,本文將信息高度重疊的部分變量進(jìn)行剔除。

經(jīng)過(guò)剔除后還剩222個(gè)有化合物分子,顯然直接應(yīng)用這些化合物分子式不僅浪費(fèi)時(shí)間還可能會(huì)導(dǎo)致模型的過(guò)度擬合,因此還需要篩選出與因變量PIC50具有一定相關(guān)性的自變量。

3) 相關(guān)性顯著性檢驗(yàn)。計(jì)算化合物分子式與藥物分子活性PIC50之間的Pearson相關(guān)系數(shù)并進(jìn)行假設(shè)檢驗(yàn)得到對(duì)應(yīng)的t值,發(fā)現(xiàn)部分化合物分子式與PIC50之間的相關(guān)性較弱。為使數(shù)據(jù)降維,減少原始數(shù)據(jù)對(duì)預(yù)測(cè)模型準(zhǔn)確性的干擾,對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)。運(yùn)用 Python語(yǔ)言計(jì)算出相關(guān)系數(shù)檢驗(yàn)統(tǒng)計(jì)量t值為1.9612,依次求出每個(gè)化合物與藥物分子活性之間的相關(guān)系數(shù)及對(duì)應(yīng)的檢驗(yàn)統(tǒng)計(jì)量。選出t值>1.9612的統(tǒng)計(jì)量,表示拒絕原假設(shè)H0,說(shuō)明該分子化合物與PIC50之間存在顯著的相關(guān)關(guān)系。經(jīng)篩選后還剩169個(gè)變量下進(jìn)行特征篩選。

3 特征選擇

變量篩選是高維數(shù)據(jù)分析中的重要環(huán)節(jié),其目的是從眾多變量中識(shí)別少數(shù)與結(jié)局相關(guān)的變量。Embedded類(lèi)特征算法結(jié)合了Filter和Wrapper類(lèi)的優(yōu)點(diǎn)[7],利用估計(jì)器內(nèi)部的參數(shù)對(duì)特征進(jìn)行排序,在選擇特征的同時(shí)訓(xùn)練了模型這樣就有效地提高了運(yùn)算效率。嵌入式算法有樹(shù)結(jié)構(gòu)模型、正則化方法。據(jù)此,本文特征選擇階段是對(duì)上述預(yù)處理剔除后的169個(gè)分子描述符數(shù)據(jù),在嵌入式算法背景下利用正則化和樹(shù)模型特征選擇算法。正則化方法下分別使用內(nèi)置交叉驗(yàn)證的嶺回歸、Lasso和彈性網(wǎng)絡(luò)估計(jì)器;樹(shù)模型方法下使用隨機(jī)森林方法和GBDT模型進(jìn)行對(duì)比,篩選出前20個(gè)對(duì)生物活性具有顯著影響的分子描述符。

3.1 基于正則化模型的特征選擇

1) 基于嶺回歸的重要性權(quán)重選擇特征

2) 基于Lasso的重要性權(quán)重選擇特征

3) 基于ElasticNet的重要性權(quán)重選擇特征

3.2 基于樹(shù)模型的重要性權(quán)重選擇特征

1) 基于隨機(jī)森林的重要性權(quán)重選擇特征

隨機(jī)森林(Random Forest, RF)的基本原理[11]是建立起大量的決策樹(shù),然后把它們?nèi)诤显谝黄穑@樣能夠建立起一個(gè)更為精準(zhǔn)且穩(wěn)定性更高的模型。其工作流程為:首先,運(yùn)用 bootstrap 重抽樣方法從原始的訓(xùn)練集當(dāng)中隨機(jī)取出大量的樣本子集,對(duì)每個(gè)bootstrap樣本構(gòu)建決策樹(shù)模型,然后組合多棵決策樹(shù)的預(yù)測(cè),并將預(yù)測(cè)結(jié)果以投票法的方式,從所有的預(yù)測(cè)結(jié)果之中選擇出來(lái)最終的結(jié)果。簡(jiǎn)單來(lái)說(shuō),RF是由多個(gè)弱學(xué)習(xí)器(決策樹(shù))所集成的強(qiáng)學(xué)習(xí)器。是一種有效的預(yù)測(cè)工具。基于隨機(jī)森林篩選的前20個(gè)對(duì)生物活性最具顯著影響的分子描述符如圖5所示。

2) 基于GBDT模型的重要性權(quán)重選擇特征

梯度提升決策樹(shù)[12](GBDT)是以分類(lèi)回歸樹(shù)為基學(xué)習(xí)器Boosting集成學(xué)習(xí)算法。在GBDT的每次迭代中都在殘差減少的梯度方向新建一棵CART決策樹(shù),經(jīng)多次迭代最后的殘差趨近0,最后將所有決策樹(shù)的結(jié)果累加獲得最終的預(yù)測(cè)結(jié)果。基于隨機(jī)森林篩選的前20個(gè)對(duì)生物活性最具顯著影響的分子描述符如圖6所示。

通過(guò)查閱藥物分子研究文獻(xiàn)發(fā)現(xiàn):1) 高效率結(jié)合靶標(biāo)的小分子配體具有更強(qiáng)的疏水性,藥物分子可以通過(guò)其疏水基團(tuán)與機(jī)體內(nèi)的靶標(biāo)相結(jié)合,發(fā)揮藥理活性[13];2) 化合物的親脂性對(duì)化合物的藥理學(xué)活性有重大影響[14];3) 氫鍵作用是藥物與生物靶標(biāo)之間非共價(jià)相互作用中作用力較強(qiáng)的形式之一,往往對(duì)藥效的強(qiáng)弱產(chǎn)生重要影響[15]。本文中篩選的部分變量與藥物分子研究理論吻合,如:XLogp、LipoaffinityIndex、nHBAcc。體現(xiàn)出上述使用正則化方法和樹(shù)模型方法篩選出的分子描述符較為合理,具有可信度。

4 生物活性預(yù)測(cè)模型構(gòu)建與評(píng)價(jià)

構(gòu)建預(yù)測(cè)模型的整體思想:結(jié)合三種特征篩選方法下分子描述符的數(shù)據(jù)作為模型樣本集。正則化篩選變量分別建立嶺回歸、Lasso和ElasticNet彈性網(wǎng)絡(luò)預(yù)測(cè)模型;樹(shù)模型篩選變量分別建立隨機(jī)森林回歸和梯度提升決策樹(shù)回歸模型。模型評(píng)估時(shí)選用相對(duì)平均誤差(MSRE) 作為評(píng)價(jià)模型的指標(biāo)。相對(duì)平均誤差(MSRE) 的定義如下:

從上述分析可以看出基于嵌入式算法下建立的預(yù)測(cè)模型都保持了較高的預(yù)測(cè)精度,而其中所有的樹(shù)模型預(yù)測(cè)結(jié)果較正則化方法下的結(jié)果更優(yōu)。在樹(shù)模型下方法下,隨機(jī)森林方法預(yù)測(cè)結(jié)果優(yōu)于GBDT模型。

5 結(jié)束語(yǔ)

本文從嵌入式特征選擇方法出發(fā),通過(guò)化合物對(duì)ERα的生物活性數(shù)據(jù)進(jìn)行分析,采用特征重要性排序方法進(jìn)行特征選擇建立不同預(yù)測(cè)模型,結(jié)果表明隨機(jī)森林方法在生物活性預(yù)測(cè)方面具有精度更高的優(yōu)點(diǎn)。此外,通過(guò)特征選擇方法篩選出的部分化合物分子式與藥物分子研究吻合,有望成為抗乳腺癌藥物研究的可選標(biāo)志物。嵌入式方法下的特征篩選方法具有可拓展性,未來(lái)可以將該算法推廣到其他類(lèi)型癌癥的藥物篩選上,推動(dòng)未來(lái)不同癌癥的靶細(xì)胞篩選不同的化合物分子事業(yè)發(fā)展。

參考文獻(xiàn):

[1] Sung H,F(xiàn)erlay J,Siegel R L,et al.Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA:a Cancer Journal for Clinicians,2021,71(3):209-249.

[2] 赫捷,陳萬(wàn)青,李霓,等.中國(guó)女性乳腺癌篩查與早診早治指南(2021,北京)[J].中國(guó)腫瘤,2021,30(3):357-382.

[3] 中華預(yù)防醫(yī)學(xué)會(huì),赫捷.中國(guó)女性乳腺癌篩查標(biāo)準(zhǔn)(T/CPMA 014-2020)[J].中華腫瘤雜志,2021,43(1):8-15.

[4] Fuqua S A,Wiltschke C,Zhang Q X,et al.A hypersensitive estrogen receptor-alpha mutation in premalignant breast lesions[J].Cancer Research,2000,60(15):4026-9.

[5] 張桂香,趙學(xué)東.雌激素受體亞型的研究現(xiàn)狀[J].國(guó)外醫(yī)學(xué) 婦產(chǎn)科學(xué)分冊(cè),2002,29(6):352-355.

[6] 趙曉民,徐小明.雌激素受體及其作用機(jī)制[J].西北農(nóng)林科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,32(12):154-158.

[7] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.

[8] Liu J,Ji S W,Ye J P.Multi-task feature learning via efficient l2,1-norm minimization[J].Uncertainty in Artificial Intelligence,2009:339-348.

[9] Keerthi S S,Shevade S.A fast tracking algorithm for generalized LARS/LASSO[J].IEEE Transactions on Neural Networks,2007,18(6):1826-1830.

[10] Zou H,Hastie T.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society:Series B (Statistical Methodology),2005,67(2):301-320.

[11] 方匡南,吳見(jiàn)彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(3):32-38.

[12] Friedman J H.Greedy function approximation:a gradient boosting machine[J].The Annals of Statistics,2001,29(5): 1189-1232.

[13] Ferreira de Freitas R,Schapira M.A systematic analysis of atomic protein-ligand interactions in the PDB[J].MedChemComm,2017,8(10):1970-1981.

[14] 王佩利.新型抗腫瘤活性小分子化合物的類(lèi)藥性質(zhì)研究[D].上海:華東師范大學(xué),2018.

[15] 盛春泉.藥物結(jié)構(gòu)優(yōu)化——設(shè)計(jì)策略和經(jīng)驗(yàn)規(guī)則[M].北京:化學(xué)工業(yè)出版社,2018.

【通聯(lián)編輯:王力】

主站蜘蛛池模板: 久久久亚洲色| 精品久久久久成人码免费动漫| 国产成人超碰无码| 青青网在线国产| 亚洲综合久久成人AV| 久久黄色影院| 97成人在线视频| 免费无码在线观看| 99久久精品无码专区免费| 日韩精品亚洲精品第一页| 精品午夜国产福利观看| 999精品视频在线| 啪啪免费视频一区二区| 99久久99这里只有免费的精品| 三级视频中文字幕| 亚洲黄色视频在线观看一区| 欧美精品二区| 一级一级一片免费| 亚洲六月丁香六月婷婷蜜芽| 成色7777精品在线| 亚洲bt欧美bt精品| 欧美区一区| 少妇精品网站| 一本一道波多野结衣一区二区 | 亚洲一区二区三区香蕉| 国产精品亚欧美一区二区三区| 毛片视频网址| 99热这里只有精品免费| 亚洲色无码专线精品观看| 手机在线国产精品| 欧美黄网在线| 欧美日韩中文国产va另类| 精品久久蜜桃| 久久国产精品麻豆系列| 精品国产Av电影无码久久久| 激情无码字幕综合| 欧美激情二区三区| 在线观看免费人成视频色快速| 亚洲精品午夜天堂网页| 女高中生自慰污污网站| 久青草国产高清在线视频| 欧美 亚洲 日韩 国产| 国产清纯在线一区二区WWW| 一级毛片视频免费| 欧美午夜视频| 日韩无码黄色网站| 精品亚洲麻豆1区2区3区 | 亚洲日韩高清在线亚洲专区| 污网站免费在线观看| 日韩精品资源| 欧美视频在线观看第一页| 99精品这里只有精品高清视频| 亚洲午夜国产片在线观看| 中文字幕1区2区| 成人午夜免费视频| 亚洲人成色77777在线观看| 九九热这里只有国产精品| 丁香亚洲综合五月天婷婷| 58av国产精品| 一级福利视频| 激情无码字幕综合| 狠狠色狠狠综合久久| 国产熟睡乱子伦视频网站| 99ri精品视频在线观看播放| 老司国产精品视频| 人妻21p大胆| 91精品视频播放| 福利国产在线| 四虎在线观看视频高清无码| 久久91精品牛牛| 国产免费福利网站| 激情综合网址| 亚洲人成网站观看在线观看| 中文字幕天无码久久精品视频免费| 亚洲第一国产综合| 国产18在线播放| 成人免费午间影院在线观看| 在线国产91| 国产小视频a在线观看| 国产91av在线| 久久久久人妻一区精品| 午夜视频免费试看|