999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因變異鑒定的深度學習方法與研究展望

2021-04-25 05:24:12張倩
現代計算機 2021年6期
關鍵詞:深度特征

張倩

(四川大學計算機學院,成都610065)

0 引言

作為一種重要的生物實驗技術手段,DNA 測序(DNA sequencing)在生物學研究中有著廣泛的應用,伴隨著第二代測序技術的日趨完善,許多物種已經完成了全基因組的從頭測序。并且近年來,單分子測序(SMS)技術已經出現了各種重要的應用。這些技術也被稱為第三代測序技術,產生的測序讀數比Illumina的讀數長2 到3 個數量級(10-100kbp 對100-250bp)。較長的讀數長度使得包括Pacific Biosciences(PacBio)和Oxford Nanopore Technology(ONT)在內的新的SMS 技術在解決復雜的基因組組裝問題和檢測大型結構變異方面具有前所未有的強大功能。

常用的群體遺傳變異鑒定工具有DNSTAR、GATK、samtools、freebayes、SOAPsnp、Varscan2、sambam?ba 等軟件。其中最常用的為GATK、samtools、sambam?ba 和freebayes。這四個工具中,sambamba 軟件在單樣本數據以及多樣本數據中,在速度方面均具備顯著優勢。而gatk 軟件只在多樣本數據分析上有一定的檢測速度優勢。而在變異鑒定結果準確性方面,samtools 和sambamba 軟件傾向于尋找比較全面的變異,而gatk 和freebayes 軟件則更傾向于尋找準確性較高的變異[1]。

現在在基因組數據中有兩個比較具體的挑戰:新型測序技術產生基因數據的高特異性和高靈敏度的SNPs 鑒定及indels 鑒定。這兩項任務對研究罕見變異、等位基因特異性轉錄和翻譯以及剪接位點突變至關重要。目前的方法對于Illumina 短read 數據中的SNPs 和indel 的精度均在99%以上,然而這些方法會留下大量潛在的假陽性和假陰性。這些方法都依靠專家建立可靠的將信號與噪聲分開的概率模型,這個過程是很耗時的,從本質上講是受限于我們對于導致噪聲的因素的理解與建模能力。

所以在傳統基因鑒定工具愈發成熟的加持下,研究人員將目光投向了近些年大展身手的深度學習之上,利用深度學習來構造由數據驅動的無偏噪聲模型。

1 核心思想

深度學習是一種機器學習技術,深度學習受到了越來越多研究者的關注,它在特征提取和建模上都有著相較于淺層模型顯然的優勢。深度學習善于從原始輸入數據中挖掘越來越抽象的特征表示,而這些表示具有良好的泛化能力。它克服了過去人工智能中被認為難以解決的一些問題。且隨著訓練數據集數量的顯著增長以及芯片處理能力的劇增[2]。它應用于多種領域,包括圖像分類、翻譯、游戲和生命科學。

深層神經網絡是目前的主要形式,其神經元間的連接模式受啟發于動物視覺皮層組織,而卷積神經網絡則是其中一種經典而廣泛應用的結構卷積神經網絡的局部連接、權值共享及池化操作等特性使之可以有效地降低網絡的復雜度,減少訓練參數的數目,使模型對平移、扭曲、縮放具有一定程度的不變性,并具有強魯棒性和容錯能力,且也易于訓練和優化。基于這些優越的特性,它在各種信號和信息處理任務中的性能優于標準的全連接神經網絡。

采用深度學習的算法來處理基因數據并用于基因變異鑒定的核心思想是:基因變異鑒定問題也可以轉換為分類問題,對于一個變異候選位點來說,其variant call 就是在對這個數據進行分類;因此從基因數據中訓練出概率模型,再用概率模型去判斷后續數據。

本文中介紹這一核心思想下的兩種深度學習使用方法,第一種將格式為bam 的變異基因數據和格式為fa 文件的參考序列轉換為堆積張量,將堆積張量用于神經網絡的訓練和測試。第二種采用工具尋找基因數據中的特征,并將這些特征矢量化為適合訓練網絡的特征,再用于概率模型的訓練。

2 DeepVariant

2016 年12 月Google 旗下的子公司Verily 發了一篇文章描述了一個針對全基因組測序變異位點(SNP和small indel)檢測的新算法,這個算法不同于一般基于統計方法的軟件,而是利用了卷積神經網絡識別變異位點[3]。DeepVariant 利用谷歌大腦為圖像分類而訓練的神經網絡架構Inception v2,將候選SNP 周圍的reads 編碼為221×100 位圖圖像,其中每列是一個核苷酸,每行是一個從樣本庫中讀取的reads 序列。前五行代表參考序列,后95 行代表隨機抽樣覆蓋了這個變異候選位點的reads 序列。每個RGBA 類型的圖像像素將堿基A、C、G、T 編碼為不同的紅色值,質量分數編碼為綠色值,正負鏈信息編碼為藍色值,與參考序列的變異編碼為alpha 值。

堆積圖選取的編碼信息如下:

(1)base:序列堿基

(2)base quality:堿基質量分數

(3)mapping quality:序列比對質量

(4)strand 正反向鏈

(5)supports variant:是否支持alternative allele

(6)supports reference:是否支持reference allele

帶有明確變異位點標簽的編碼堆積圖放入13 層網絡中進行訓練,此網絡采用Inception v2 網絡架構。訓練好網絡之后,將沒有標簽的變異候選位點堆積圖放入網絡中,即可進行變異鑒定。

神經網絡輸出的結果為每個變異候選位點的基因型概率。

圖1 DeepVariant整體過程

3 Matcha

同樣是使用深度學習來處理基因變異鑒定,Remi Torracinta[4]的方法與DeepVariant 卻不一樣。Remi Tor?racinta 設計的方法采用Goby 框架來找到reads 比對序列和參考序列的特征,并且將這些特征矢量化為適合訓練前饋神經網絡的特征和標簽。

Matcha 的神經網絡中最核心的是特征映射器,特征映射器將樣本中的對齊序列轉換為一組適合訓練神經網絡的固定特征集。不論在基因組上有多少對齊的reads 序列,映射器都會產生一個固定長度的輸出,這些輸出可以一致性的轉換為一個固定長度的用于神經網絡訓練的輸入向量。再每個基因組位點,映射器都會生成每種基因型的reads 序列的讀數和reads 序列中支持這個基因型的不同位置的數量。每一個基因組位點會衍生出數百個特征。

對于標簽映射器來說,有兩種不同的方法,一種是單獨調用等位基因,并對等位基因的數量進行編碼,另一種類似于DeepVariant。這兩種方法分別適用于任意倍體基因組和二倍體基因組。

模型采用DeepLearning4 框架,并于Goby 框架進行集成,網絡結構為五層網絡。將對齊后的基因文件輸入特征和標簽映射器,選擇特征映射器,會在訓練集上產生用映射器訓練的模型,這個模型可以用于在測試集上的基因變異鑒定。

4 對比分析

通過現在出現的兩種不同的用深度學習方法來進行基因變異鑒定方法的介紹,筆者對他們在變異鑒定效果和范圍上的優缺點做出如表1 對比分析。

表1 兩種深度學習應用方法的比較

5 深度學習下基因變異鑒定方法分析研究

兩種方式使用了不同的思路來使用深度學習對基因數據進行變異鑒定。兩者既有相似之處也有不同之處。兩個方法最核心的思想是一樣的:從數據中訓練概率模型,并用這個概率模型進行后續判斷。不同之處在于:DeepVariant 是將基因數據經過編碼轉換為堆積圖,再將堆積圖用圖像分類網絡進行訓練和鑒定;Matcha 是利用Goby 框架從數據中尋找特征,然后手動將特征放入網絡。

DeepVariant 只適用于二倍體生物,而Matcha 可以用于任意倍體生物的基因變異鑒定;DeepVariant 能夠尋找變異類型中的SNPs 和INDEL,而Matcha 專門用于尋找SNPs。

同時計算效率上兩者也有較大差異。將數據轉換為堆積圖,DeepVariant 至少需要使用300 萬像素,而Matcha 使用了642 個浮點表示特征與標簽,所以Mat?cha 的數量級較小,對硬件的要求也比較低。

6 結語

隨著深度學習的火熱,基因數據研究者也將自己的目光放在了深度學習之上。本文對兩種不同類型的采用深度學習進行基因變異鑒定的方法進行了介紹與對比,深度學習算法有時是比GTAK 等工具性能更好的。結合發展趨勢與需求,未來研究工作地重點可能主要包括:

(1)Matcha 類似的需要手動尋找特征的方法,雖然有著更廣闊的應用范圍,但由于這個特征集在開發期間至少要經過15 次的迭代微調,所以這個模型并不會泛化。是否有更好地尋找特征集的方法,能夠減少微調過程及次數,使這個模型能夠泛化。

(2)DeepVariant 對Illumina 數據的效果較好,但對于PacBio 等reads 序列較長的數據來說,DeepVariant不是最佳選擇。下一步研究工作,可以著重考慮修改網絡,使其能夠對第三代基因數據和PacBio 等基因數據有較好的效果。

(3)DeepVariant 所使用網絡較大,這導致計算效率較低,計算成本較大。今后的研究可以考慮使用不同大小的網絡,使得計算效率能夠得到較大的提升。

(4)DeepVariant 因為其編碼信息較多,導致堆積圖像素較大,DeepVariant 的堆積圖是一個七通道圖像。今后的研究可以考慮選擇編碼哪些關鍵信息來更改堆積圖的大小,使得其計算效率提升的同時準確率不會大幅下降。

利用深度學習方法來進行基因變異鑒定仍處于發展階段,其中還有很多問題等待研究者們解決。

猜你喜歡
深度特征
抓住特征巧觀察
深度理解一元一次方程
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 日本手机在线视频| 在线观看国产精品第一区免费| 99激情网| 成人a免费α片在线视频网站| 狠狠五月天中文字幕| 91视频99| 97无码免费人妻超级碰碰碰| 国产一级在线观看www色| 久久综合色视频| 99热国产在线精品99| 九九九久久国产精品| 国产va免费精品观看| 国产精品香蕉在线观看不卡| 高清无码不卡视频| 亚洲精品色AV无码看| 国产极品美女在线播放| 国产在线观看91精品亚瑟| 久久综合久久鬼| 亚洲色图欧美激情| 无码av免费不卡在线观看| 国产成人1024精品| 国产成人乱无码视频| 国产又色又爽又黄| 国内黄色精品| 欧美一区二区三区香蕉视| 91久久国产成人免费观看| 成人在线综合| 亚洲成A人V欧美综合天堂| 国产成人AV男人的天堂| 亚洲三级色| 青青草国产在线视频| 一区二区影院| 国产精欧美一区二区三区| 久久久久久国产精品mv| 久久成人国产精品免费软件| 日韩精品毛片| 久久男人视频| 久久久久久久蜜桃| 亚洲无码日韩一区| 中文字幕人成乱码熟女免费| 成人午夜视频网站| 一区二区午夜| 无码'专区第一页| 天天爽免费视频| 狠狠做深爱婷婷综合一区| 福利视频99| 久久美女精品| 免费一级毛片在线播放傲雪网 | 人妻中文字幕无码久久一区| 久久精品国产免费观看频道| 国产区精品高清在线观看| 国产性生大片免费观看性欧美| 欧美α片免费观看| 麻豆精品视频在线原创| 综合色亚洲| 国产v精品成人免费视频71pao| 99精品视频九九精品| 伊人天堂网| 国产第二十一页| 欧美国产日韩在线| 久久性视频| 在线精品欧美日韩| 国产美女91视频| 99热这里只有免费国产精品 | 99国产精品免费观看视频| 激情综合图区| 亚洲国产系列| 亚洲黄网在线| 国产www网站| 欧美成人怡春院在线激情| a色毛片免费视频| 亚洲精品国产首次亮相| 高清免费毛片| 一级毛片不卡片免费观看| 中文字幕免费播放| 天堂网亚洲系列亚洲系列| 国产手机在线小视频免费观看| 亚洲成人免费在线| 伊人久久大香线蕉影院| 亚洲女人在线| 精品欧美一区二区三区久久久| 九九九精品成人免费视频7|