999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于平均影響值的SVM在遺傳數(shù)據(jù)疾病分類和特征提取中的應(yīng)用*

2019-07-10 07:01:26山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室030001
關(guān)鍵詞:分類高血壓模型

山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室(030001)

張陽(yáng)陽(yáng) 曹紅艷 武淑琴△

【提 要】 目的 探討基于平均影響值(MIV)的支持向量機(jī)(SVM)在遺傳數(shù)據(jù)疾病分類預(yù)測(cè)和變量篩選中的應(yīng)用,為遺傳數(shù)據(jù)的疾病分類與特征提取方面提供方法學(xué)參考。方法 以 GAW18(genetic analysis workshop 18)數(shù)據(jù)為例,采用基于MIV的SVM建立預(yù)測(cè)模型,并和logistic回歸模型、SVM、多層感知機(jī)和決策樹分類模型進(jìn)行比較分析,評(píng)價(jià)基于MIV的SVM預(yù)測(cè)分類和變量篩選效果。結(jié)果 經(jīng)過(guò)平均影響值的支持向量機(jī)算法處理后,六個(gè)SNPs位點(diǎn)(13_28567172、3_127394820、1_1658093、9_123969834、1_174996637、17_17498492)組合的變量子集,獲得78.125%的分類準(zhǔn)確率,明顯優(yōu)于其他分類模型。結(jié)論 基于MIV的SVM能比較有效的在實(shí)現(xiàn)遺傳數(shù)據(jù)變量篩選的同時(shí)提高分類預(yù)測(cè)能力,避免了變量間的交互作用,為探索各種疾病發(fā)病機(jī)制和尋找易感SNPs位點(diǎn)提供線索,具有一定的研究和應(yīng)用價(jià)值。

隨著DNA測(cè)序技術(shù)的發(fā)展和高通量測(cè)序的出現(xiàn),后續(xù)產(chǎn)生的大量遺傳數(shù)據(jù)對(duì)統(tǒng)計(jì)分析方法提出新的要求。單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)[1]是基因組水平上單個(gè)核苷酸變異所引起的DNA序列多態(tài)性,在人類基因組中廣泛存在,估計(jì)其總數(shù)可達(dá)到300萬(wàn)個(gè)甚至更多[2]。本文擬采用遺傳分析工作組18(genetic analysis workshop 18,GAW18)中134個(gè)相互獨(dú)立個(gè)體的全基因組測(cè)序數(shù)據(jù),每個(gè)樣本擁有較多SNPs,高維度和較小的樣本量給疾病分類和特征提取帶來(lái)了極大的挑戰(zhàn)。而變量降維和篩選常見的方法有主成分分析、Wrapper法[3]、filter法[3]、逐步多元線性回歸[4]和隨機(jī)森林[5]等。本文采用Wrapper法的思想以分類的精度為指標(biāo),在完成變量篩選的同時(shí)獲得較高的分類準(zhǔn)確率。由于該方法的特征尋找依賴于分類器的性能,所以合適分類模型的選擇尤為重要。

針對(duì)分類模型的選擇問(wèn)題,最初采用由Vapnik于1968年提出的支持向量機(jī)(support vector machine,SVM)[6]。支持向量是一種機(jī)器學(xué)習(xí)算法,廣泛應(yīng)用于數(shù)據(jù)挖掘、文本分類和圖像識(shí)別等多個(gè)方面。該算法以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則,既考慮漸進(jìn)性能的要求,又在有限的信息條件下追求最優(yōu)的結(jié)果,是一種具有堅(jiān)實(shí)理論基礎(chǔ)的小樣本學(xué)習(xí)方法[7]。該算法的判別函數(shù)最終由少數(shù)幾個(gè)支持向量所決定,在某種意義上避免了“維數(shù)災(zāi)難”。所以SVM在面對(duì)小樣本和高維度數(shù)據(jù)時(shí)有較好的優(yōu)越性。其理論基礎(chǔ)和算法本質(zhì)決定了該算法在生物遺傳數(shù)據(jù)上良好的適應(yīng)性。但由于SVM是一種將全部變量納入模型進(jìn)行訓(xùn)練和預(yù)測(cè)的機(jī)器學(xué)習(xí)方法,無(wú)法對(duì)變量進(jìn)行特征篩選。因此需要尋找合適的方法來(lái)解決該問(wèn)題。平均影響值(mean impact value,MIV)被認(rèn)為是神經(jīng)網(wǎng)絡(luò)中評(píng)價(jià)變量相關(guān)性最好的指標(biāo)之一[8]。故考慮將SVM和MIV結(jié)合起來(lái),通過(guò)評(píng)價(jià)各個(gè)變量相對(duì)結(jié)局變量的影響程度,找到對(duì)結(jié)果有較大影響的自變量,繼而實(shí)現(xiàn)使用SVM進(jìn)行變量篩選的過(guò)程。因此,本文提出一種基于平均影響值的支持向量機(jī)的方法,能相對(duì)有效的解決生物遺傳數(shù)據(jù)的特征提取問(wèn)題。使用較少的變量構(gòu)建更好的分類預(yù)測(cè)模型,在提高分類預(yù)測(cè)模型準(zhǔn)確率的同時(shí)實(shí)現(xiàn)了變量篩選。本文以GAW18數(shù)據(jù)為例,采用基于平均影響值的支持向量機(jī)進(jìn)行分析,一方面為遺傳數(shù)據(jù)的分析和處理提供方法學(xué)參考。另一方面,對(duì)特征變量的提取有助于使人們的注意力集中到少數(shù)的變量上,使得實(shí)驗(yàn)研究更具有針對(duì)性。

原理與方法

圖1 支持向量機(jī)原理示意圖

平均影響值(mean impact value,MIV)是評(píng)價(jià)各變量對(duì)結(jié)局變量影響程度的重要指標(biāo),其符號(hào)代表相關(guān)的方向,絕對(duì)值大小代表影響的程度[12]。MIV的具體做法為:構(gòu)建一個(gè)SVM模型,再將SNPs的訓(xùn)練樣本p的每個(gè)變量在原來(lái)的基礎(chǔ)上分別加或減某個(gè)值構(gòu)成兩個(gè)新的訓(xùn)練樣本P1、P2,將P1、P2作為測(cè)試集帶入訓(xùn)練好的模型進(jìn)行預(yù)測(cè),得到兩個(gè)結(jié)果A1、A2,兩者的差值就是該變量變動(dòng)后對(duì)輸出產(chǎn)生的影響變化值(impact value,IV)。再將IV按照例數(shù)進(jìn)行平均得到該自變量SNP相對(duì)于因變量高血壓的MIV。計(jì)算出每一個(gè)SNPs變量相對(duì)高血壓的MIV,按照絕對(duì)值降序排列,然后依次去除對(duì)結(jié)局變量影響最小的若干個(gè)SNPs變量,剩下的變量作為SNPs變量子集,分析其對(duì)樣本的分類能力,從中尋找具有最小SNPs數(shù)和最高分類率的候選子集。

實(shí)例分析

本研究通過(guò)對(duì)GAW18數(shù)據(jù)進(jìn)行分析和研究,探尋高血壓發(fā)生和SNPs位點(diǎn)間的關(guān)系,將有助于利用遺傳數(shù)據(jù)從SNPs的角度對(duì)高血壓患者進(jìn)行篩查和預(yù)測(cè)。并提供一些可能與高血壓發(fā)生相關(guān)的候選SNPs位點(diǎn)。

1.變量選擇和樣本確定

本次研究采用的數(shù)據(jù)源于GAW18,一個(gè)國(guó)際上公開的用于研究稀有變異關(guān)聯(lián)方法的模擬數(shù)據(jù)平臺(tái),研究者針對(duì)GAW的組織者所發(fā)布的遺傳數(shù)據(jù)進(jìn)行分析。該數(shù)據(jù)包括20個(gè)墨西哥裔美國(guó)家庭的1043個(gè)個(gè)體的全基因組測(cè)序數(shù)據(jù)(whole genome sequencing data,WGS)及其相對(duì)應(yīng)的縱向血壓表型數(shù)據(jù)。

GAW18數(shù)據(jù)僅提供了奇數(shù)染色體遺傳數(shù)據(jù),包括四種數(shù)據(jù)類型:基因型數(shù)據(jù)(chrN-geno.csv.gz),GWAS數(shù)據(jù)(chrN-geno.csv.gz),原始測(cè)序數(shù)據(jù)(chrN-seq.vcf.gz)以及變異劑量數(shù)據(jù)(chrN-dose.csv.gz)。本文針對(duì)變異劑量數(shù)據(jù)(chrN-dose.csv.gz)進(jìn)行分析。GAW18的表型數(shù)據(jù)包括真實(shí)測(cè)量數(shù)據(jù)和模擬數(shù)據(jù)。GAW18的“GAW18-TheAnswers”中提供了具體的模擬研究設(shè)置情況,包括主要的效應(yīng)基因和功能SNPs。本研究將信息完整的134個(gè)無(wú)親緣關(guān)系、互不相關(guān)的個(gè)體作為研究對(duì)象。高血壓的診斷標(biāo)準(zhǔn)為收縮壓(SBP)>140mmHg,舒張壓(DBP)>90mmHg,測(cè)量期間使用高血壓藥物也診斷為高血壓。

由于四次血壓測(cè)量中第一次測(cè)量缺失最少,因此選擇第一次測(cè)量結(jié)果作為結(jié)局變量。自變量則選擇影響SBP和DBP的SNPs位點(diǎn)。前十五個(gè)分別影響收縮壓和舒張壓的SNPs位點(diǎn)中共有7個(gè)SNPs的位點(diǎn)同時(shí)影響SBP和DBP。將其合并后總共23個(gè)SNPs位點(diǎn)作為自變量。利用MATLAB軟件實(shí)現(xiàn),采用基于平均影響值的支持向量機(jī)對(duì)該高血壓數(shù)據(jù)進(jìn)行分析。(表1)

表1 影響SBP和DBP的23個(gè)SNPs位點(diǎn)

2.建立模型和變量篩選

針對(duì)與高血壓相關(guān)性較強(qiáng)的23個(gè)SNP位點(diǎn)進(jìn)行進(jìn)一步篩選以獲得更好的自變量期望維數(shù)。采用MIV與SVM相結(jié)合的方法來(lái)進(jìn)一步的篩選SNPs信息。

從樣本集中隨機(jī)抽取70個(gè)高血壓患者和30個(gè)非高血壓患者作為訓(xùn)練集,剩余樣本作為測(cè)試集。訓(xùn)練集和測(cè)試集樣本量的比例約為3∶1。使用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練和預(yù)測(cè),并記錄測(cè)試集的分類準(zhǔn)確率。把所有的SNPs納入作為自變量,高血壓結(jié)局作為因變量進(jìn)行模型訓(xùn)練,使用10-折交叉驗(yàn)證進(jìn)行模型尋優(yōu),尋找到最佳參數(shù),使用訓(xùn)練好的模型對(duì)預(yù)測(cè)樣本進(jìn)行預(yù)測(cè),記錄分類準(zhǔn)確率。按照變量的重要程度進(jìn)行排序,得到結(jié)果見表2。

表2 不同SNPs組合情況下基于MIV的SVM方法的實(shí)驗(yàn)結(jié)果

從表2中可以看到,當(dāng)變量個(gè)數(shù)為6時(shí),預(yù)測(cè)樣本的分類準(zhǔn)確率最高為78.125%,高于其他自變量組合的分類準(zhǔn)確率。這6個(gè)SNPs可能與高血壓疾病相關(guān),它們的信息如表3所示。

表3 最優(yōu)的基因組合的SNPs位點(diǎn)

logistic回歸模型采用二分類非條件logistic回歸建立模型,進(jìn)入變量的方法為逐步篩選。支持向量機(jī)的方法,將樣本劃分為訓(xùn)練集和測(cè)試集,經(jīng)驗(yàn)證核函數(shù)選擇RBF時(shí)分類準(zhǔn)確率最高,為71.88%。神經(jīng)網(wǎng)絡(luò)采用多層感知機(jī),其識(shí)別精度為68.00%。決策樹模型采用常用的C4.5建立模型,建立好的模型精度為34.37%。表4給出了針對(duì)高血壓的SNP表達(dá)數(shù)據(jù)采用不用方法進(jìn)行比較的結(jié)果。

表4 針對(duì)高血壓SNP數(shù)據(jù)的不同分類方法的結(jié)果比較

比較發(fā)現(xiàn),基于平均影響值的支持向量機(jī)相較傳統(tǒng)的logistic回歸能更好的篩選變量并有更高的識(shí)別精度。相比其他機(jī)器學(xué)習(xí)算法在分類準(zhǔn)確率上也有較大提高。本文提出的基于MIV的SVM方法與其他方法相比,具有較好的變量篩選能力和預(yù)測(cè)效果。

討 論

基于MIV的SVM方法通過(guò)考慮不同變量的改變對(duì)結(jié)局變量的影響,同時(shí)實(shí)現(xiàn)了對(duì)遺傳數(shù)據(jù)的特征提取和模型構(gòu)建。本文以高血壓遺傳數(shù)據(jù)的SNPs位點(diǎn)分析為例,識(shí)別了與高血壓的發(fā)生可能相關(guān)的SNPs位點(diǎn),并與其他方法進(jìn)行了比較,說(shuō)明基于MIV的SVM在生物遺傳數(shù)據(jù)的分析中有較好的變量篩選和預(yù)測(cè)能力。

本文通過(guò)基于平均影響值的支持向量機(jī)的機(jī)器學(xué)習(xí)算法,構(gòu)建不同的SNPs集合,避免了SNPs位點(diǎn)間的交互作用。該算法在構(gòu)建了一個(gè)利用SNP信息數(shù)據(jù)對(duì)遺傳數(shù)據(jù)進(jìn)行預(yù)測(cè)分類模型的同時(shí)實(shí)現(xiàn)了變量的篩選,即為疾病的發(fā)病機(jī)制提供線索,又為疾病易感SNPs的研究提供了候選位點(diǎn)。此外,通過(guò)相關(guān)生物醫(yī)學(xué)方面的文獻(xiàn)發(fā)現(xiàn)本文獲得特征SNP突變位點(diǎn)與高血壓存在一定聯(lián)系:基因RAI1(retinoic acid induced 1)在基因的表達(dá)和轉(zhuǎn)錄過(guò)程中起著重要作用[13],與體內(nèi)所有的生物化學(xué)功能相關(guān);基因TNN(tenascin N)與細(xì)胞的生長(zhǎng)、移行相關(guān);基因GSN(gelsolin)與肌動(dòng)蛋白的相關(guān)活動(dòng)有關(guān)[14],通過(guò)切斷和封蓋調(diào)節(jié)動(dòng)態(tài)肌動(dòng)蛋白絲組織,而肌動(dòng)蛋白與血管收縮的功能密切相關(guān);基因SLC35E2(solute carrier family35,memberE2)與離子的跨膜運(yùn)輸有關(guān),鈉離子和鉀離子對(duì)高血壓的影響廣為人知;基因FLT3(fms-related tyrosine kinase3)與細(xì)胞的增殖和凋亡有關(guān)。以上結(jié)果均顯示篩選出的SNPs位點(diǎn)與高血壓有一定的相關(guān)性,有可能是高血壓發(fā)生的中間環(huán)節(jié)。需要指出的是,基于MIV的SVM篩選出的位點(diǎn),仍然需要進(jìn)一步的生物學(xué)方面的實(shí)驗(yàn)驗(yàn)證。

總之,基于平均影響值的支持向量機(jī)不但考慮到生物遺傳數(shù)據(jù)的分析難點(diǎn),而且對(duì)高維變量進(jìn)行了降維,在較低的維度內(nèi)獲得了分類準(zhǔn)確率更高的分類預(yù)測(cè)模型,是一種針對(duì)遺傳數(shù)據(jù)比較有力的分析方法。一方面實(shí)現(xiàn)了疾病在SNPs層面的預(yù)測(cè)和分類模型的構(gòu)建;另一方面,將人們的注意力從大量的遺傳變量轉(zhuǎn)移到較少的變量上,為科學(xué)研究提供方向。基于MIV的SVM為探索疾病發(fā)生時(shí)體內(nèi)的生物學(xué)過(guò)程和病理機(jī)制提供遺傳方面的線索,將有可能在日益繁復(fù)的遺傳數(shù)據(jù)分析中發(fā)揮重要作用。

猜你喜歡
分類高血壓模型
一半模型
全國(guó)高血壓日
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
如何把高血壓“吃”回去?
高血壓,并非一降了之
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 日韩不卡免费视频| 国产亚洲现在一区二区中文| 精品国产91爱| 亚洲娇小与黑人巨大交| 超清人妻系列无码专区| 成人午夜免费视频| 日韩精品专区免费无码aⅴ| 欧美日韩中文国产va另类| 996免费视频国产在线播放| 美女视频黄又黄又免费高清| 91亚洲精品国产自在现线| 久久免费视频6| 久久青草热| 国产精品蜜臀| 色综合天天综合| 国产日韩精品一区在线不卡| 亚洲精品成人7777在线观看| 国产综合网站| 久青草国产高清在线视频| 欧美性猛交一区二区三区| 18禁高潮出水呻吟娇喘蜜芽| 永久天堂网Av| 99精品热视频这里只有精品7| 婷婷丁香在线观看| 91色国产在线| 亚洲一区国色天香| 久久夜色精品| 国产69精品久久久久妇女| 9999在线视频| 亚洲日韩在线满18点击进入| 最新国产高清在线| 久综合日韩| 色悠久久久| 亚洲视频一区在线| 永久免费无码日韩视频| 黄色国产在线| 成人精品在线观看| 青青国产成人免费精品视频| 91小视频版在线观看www| 亚洲第一色视频| 91免费国产高清观看| 精品国产Av电影无码久久久| 欧美激情福利| 欧美激情二区三区| 欧美日韩中文国产| 亚洲精品无码久久久久苍井空| 亚州AV秘 一区二区三区 | 久久精品人人做人人爽| 一本大道香蕉高清久久| 久久精品人人做人人爽| 国产特一级毛片| www欧美在线观看| 日韩久草视频| 另类欧美日韩| 久久激情影院| 国产三级国产精品国产普男人 | 永久成人无码激情视频免费| 亚欧成人无码AV在线播放| 亚洲中文在线看视频一区| 日韩精品少妇无码受不了| 88av在线| 91久久夜色精品| 91精品国产福利| 日韩免费视频播播| 日本三级精品| 中文字幕在线观看日本| 国产波多野结衣中文在线播放| 亚洲国产精品久久久久秋霞影院| 国产麻豆永久视频| 青青草久久伊人| 奇米精品一区二区三区在线观看| 91精选国产大片| 精品人妻一区无码视频| 色窝窝免费一区二区三区 | 国产成人艳妇AA视频在线| 91无码网站| 91麻豆精品国产高清在线 | 免费高清自慰一区二区三区| 自慰网址在线观看| 婷婷伊人五月| 丝袜国产一区| 成年A级毛片|