999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于腸道菌群多模態信息融合的疾病檢測方法

2024-07-05 10:59:12劉暢吳舜堯
青島大學學報(自然科學版) 2024年2期

劉暢 吳舜堯

摘要:利用可操作分類單元(Operational Taxonomical Units,OTU)或擴增子序列變體(Amplicon Sequence Variants,ASV)推斷下游信息時,現有擴增子測序數據分析可能丟失不同物種譜構建法的多模態信息,為此,詳細分析了4種疾病的OTU和ASV數據集在腸道群落多樣性和群落結構方面的差異,提出了一種有效整合OTU與ASV用于疾病表征預測的方法:MDDMI(Microbiome-based Disease Detection with Multimodal Information)。實驗結果表明,MDDMI優于單模態數據分析法。

關鍵詞:圖卷積神經網絡;疾病預測;多模態;腸道菌群

中圖分類號:TP183

文獻標志碼:A

腸道菌群是人體內最大的微生物群落,與人體健康息息相關[1],同時與多種疾病亦有緊密關聯,例如炎癥性腸病、肥胖、糖尿病、心血管疾病、神經系統疾病等。研究腸道菌群變化能夠預測相關疾病的發生,改善治療效果。利用微生物組學數據檢測疾病已成為生物醫學領域的研究熱門,例如將深度學習應用于人類腸道微生物組豐度表進行疾病預測[2-3];利用自助法對16S rRNA序列進行子采樣,計算子采樣序列的k-mer并利用其多態性預測疾病[4];將微生物系統發育樹和微生物分類群的相對豐度表示在單個矩陣中,使用卷積神經網絡(Convolutional Neural Networks,CNN)解決疾病預測問題[5]。這些預測方法只使用了單一模態數據,并未有效利用不同測序分析方法的多模態信息。從使用可操作分類單元(Operational Taxonomic Units,OTU)法轉為使用擴增子序列變體(Amplicon Sequence Variants,ASV)法進行微生物組學分析是近年來的發展趨勢[6-7]。OTU分析方法是將序列按照一個相似性閾值(通常為97%)使用匹配算法進行聚類[8-9],無法考慮到較小生物學變異信息。最近相關研究通過ASV法克服這一缺點,與OTU聚類方法不同,ASV是基于序列的變異體(即序列的不同形式)進行聚類,在一定程度上減少了假陽性序列[10]。OTU或ASV法得出的生物學解釋和結論存在差異[11-15],因此考慮將兩種方法得到的數據有效整合。已有研究融合腸道微生物多模態數據預測疾病,例如使用變分自編碼器融合宏基因組測序得到腸道微生物物種豐度和菌株標記物,在6種疾病的5個隊列中,AUC值比使用單一模態數據高[16]。本文提出了一種使用圖卷積神經網絡(Graph Convolutional Networks,GCN)融合OTU與ASV的方法,分別對美國腸道計劃(American Gut Project,AGP)[17]的4種疾病數據集的多模態數據進行融合驗證,并使用不同方法對4種疾病數據集得到的群落多樣性以及屬水平菌群結構差異進行分析。

1 AGP數據集中OTU與ASV法的差異

AGP數據集中共有21種疾病,選取其中患病樣本量較多且較為常見的4種疾病(Autoimmune、Cancer、Lung Disease、IBS)進行分析。

1.1 Autoimmune數據集中OTU與ASV法的差異

4種疾病中Autoimmune患病樣本量最多,且患病率最高,對比使用OTU與ASV法對該疾病得到的群落多樣性以及屬水平菌群結構差異。初步過濾后(去除所有樣本中都沒出現過的OTU和ASV),ASV數量比OTU少。隨后應用技術過濾去除偽序列(序列至少在3個獨立樣本中出現且每個樣本中至少有2個計數),ASV減少數量低于OTU,表明低豐度OTU占比較大(表1)。

隨機選取16個樣本對OTU與ASV數據集(下文記為o與a數據集)進行群落多樣性分析,a數據集的Shannon指數[18]低于o數據集,表明OTU法精確度有待進一步探究(圖1(a))。在測序深度達到15 000個序列后,a數據集的物種豐富度達到平臺期,而o數據集的物種豐富度繼續增加(圖2(a))。基于相同的測序深度, ASV法比OTU法得到的曲線收斂更快,表明ASV法在識別微生物群落時具有更高的分辨率和準確性,能夠高效識別原始測序數據中微生物的物種或亞物種。

使用OTU與ASV法分析Autoimmune數據集屬水平菌群,ASV法共獲得716個屬,OTU法共獲得893個屬,有670個重疊屬(圖3(a))。其中只存在于OTU法的223個屬豐度均較低,細菌群落中RA(Rel. Abundance)均小于0.5%,且RA小于0.1%的占多數,只存在于ASV法得到的屬的情況與之相似,在細菌群落中RA均較低。

對o與a數據集分別進行顯著性分析,ASV法得到的顯著屬數量較多(ASV:29,OTU:8),其中只有兩個與OTU法得到的顯著屬重疊,且OTU法得到的顯著屬大多豐度較低(RA<0.1%)。

由于兩種方法的差異主要來源于低豐度屬,對RA高于0.1%的屬進行重分析。應用0.1%閾值過濾后,OTU與ASV法分別得到4個和3個顯著屬,其中沒有顯著屬重疊。表明OTU與ASV法得到的生物學結論確實存在差異,與兩者原理本質不同有關。

1.2 其余3種數據集中OTU與ASV法的差異

為驗證Autoimmune數據集中得到的結論,使用OTU與ASV法對其余3種疾病得到的群落多樣性以及屬水平菌群結構差異進行分析。同Autoimmune數據集分析方法,初步過濾后,ASV數量均少于OTU。過濾偽序列后,ASV數量也均少于OTU(表1)。3種疾病的a數據集Shannon指數和豐富度均低于o數據集(圖1),豐度曲線收斂均快于o數據集(圖2)。3種疾病數據集中,使用OTU法檢測到的屬數量均多于ASV法,其中只存在于ASV法得到的屬與只存在于OTU法得到的屬RA均較低。OTU與ASV法對高豐度屬的檢測能力相近,例如對Cancer數據集進行過濾(RA<0.1%),使用OTU法得到79個屬,使用ASV法得到74個屬,其中66個重疊(圖3)。可知,不同方法產生的差異主要源于RA水平較低(<0.1%)的屬。

OTU或ASV法會得到不同的微生物多樣性、豐富度、組成結構和差異豐度,從而影響生物學結論。顯著性分析時,相較于OTU法,過濾RA低于0.1%和0.5%的屬后,ASV法得到的顯著屬數量仍較少。因此,對OTU法得到的數據集進行分析時建議嚴格過濾。兩種方法的差異主要源于低豐度屬,因此分析低豐度屬或種時需謹慎。AGP的4種疾病數據集中,a數據集的多樣性和物種豐富度均低于o數據集,這與高比例(約39.7%±6.1%)的ASV未能被準確注釋有關,這些未分配的ASV可能為新微生物變異體,或是數據庫中尚未記錄的微生物序列,而OTU法在全部序列聚類時,納入了數據庫中未包含的非生物序列或與目標微生物無關的序列。同時,使用ASV法得到的數據集豐富度-測序深度曲線收斂比OTU法快,因為ASV法能更好地捕獲物種信息,這也是a數據集α多樣性較低的原因。

同一數據集使用OTU與ASV法會得到不同群落組成,產生不同生物學結論,ASV法可以更準確地識別和分類微觀生物變異體,OTU法則可以更有效地識別和分類相似微生物種類,通過多模態融合,結合兩種方法的優勢,從而更準確地識別和分類樣本中的微生物群落,提高疾病預測效果。

2 MDDMI模型

2.1 模型輸入層

分別獲取OTU與ASV法得到的微生物轉移網絡中的所有樣本生物分類單元組成,使用parallel-meta[19]工具對OTU法得到的生物分類單元組成樣本及豐度進行整合,生成包含所有樣本OTU豐度信息的豐度矩陣。由于OTU與ASV豐度矩陣中存在大量豐度值為0的向量,直接用作節點特征可能影響預測結果,通過計算所有矩陣向量與節點標簽之間的相關性,剔除相關性較低的向量,獲取顯著節點并降維初始特征。

2.2 模型框架層

構建OTU與ASV微生物轉移網絡系統發育樹模型,記為G=(V,E),其中V表示節點,E表示節點之間的連邊,代表節點之間的相關性。

MDDMI按照屬信息構造OTU與ASV連邊,使用GCN獲取相關性。GCN是CNN的變形,可以解決CNN無法處理的非結構化數據。在GCN中,節點通過聚合其鄰居節點特征信息更新自身節點特征信息,通過損失函數,反向傳播更新所有網絡中的可學習參數,并以此學習節點的嵌入向量表示。GCN的原理為

H(l+1)=σ(D-12A~D-12H(l)W(l)+bl)(1)

其中,H(l)為圖內節點第l層的向量表示,D為圖的度矩陣,A~為圖的鄰接矩陣,W(l)為可訓練的線性變換權重參數,bl為偏置項,σ為非線性激活函數,例如ReLU,H(l+1)由H(l)計算。

將GCN學習到的圖嵌入向量與顯著屬信息(累加所有出現在顯著屬列表的特征豐度)添加至o與a數據集中,使用深度神經網絡(Deep Neural Networks,DNN)[2]進行疾病預測(圖4)。

2.3 預測層

DNN輸出的二維特征中第一維度特征值作為預測得分,使用binary_cross_entropy作為目標損失函數進行訓練

Loss=-1N∑Ni=1yi×log(p(yi))+(1-yi)×log(1-p(yi))(2)

其中,y為正負樣本標簽0或1,代表樣本是否患病,p(y)為輸出屬于y標簽的概率。預測得分越高,節點標簽為正樣本的概率越大,即該樣本為患病樣本的可能性越大。

3 實驗設置與結果討論

3.1 數據獲取與預處理

本文使用AGP調查問卷中29 346個樣本的表型數據作為標準判斷樣本是否患病,并處理調查問卷中的微生物樣本采集信息,使用Vsearch[20]獲取其中26 970個樣本的OTU組成信息,使用parallel-meta自動分析流程進行處理,生成包含26 970個樣本在內的OTU相對豐度表;同時使用Deblur[21]獲取樣本的ASV組成信息。

Autoimmune、Cancer、Lung Disease和IBS 4種疾病數據集創建方式如下:從表型數據中分別得到“Autoimmune”、“Cancer”、“Lung Disease”和“IBS”列中“被專家確診”的樣本作為患病樣本;在IBS、Autoimmune、Thyroid等二十余種疾病上都表現為健康表型的樣本作為健康樣本。將所有健康樣本分別與4種疾病數據集的患病樣本合并,得到4種疾病的初始樣本。由于不同居住環境會導致人體內菌群產生較大差異,為避免居住地等因素對樣本菌群組成產生影響,對4種疾病的樣本分別進行預處理,只保留居住地為“USA”的樣本以保證菌群組成整體相似性。篩選后的4種疾病樣本中,只保留健康樣本中1 500個作為最終健康樣本,以避免數據集不平衡。根據得到的4種疾病樣本編號從OTU、ASV組成信息中提取4種疾病數據集的o、a數據集。

3.2 實驗參數與比較模型

將MDDMI與兩種基礎方法(RF(Random Forest)[2]、DNN)進行比較。RF處理高維數據時性能良好,處理非線性關系的能力也較強,能夠自動處理特征選擇和數據平衡問題,具有較好魯棒性。DNN在各種任務中表現出色,能夠學習多個層次的抽象特征表示,具有較強建模能力,可以自動學習輸入數據中的復雜模式和關系,適用于處理大規模高維數據。

3.3 評估指標

評估指標反映模型對樣本數據的處理效果,通過對比模型預測結果與真實標簽,計算模型的預測準確率等指標,衡量模型解決問題的能力。接受者操作特征曲線是一種有效的二分類模型性能評估方法,通過設置閾值,將樣本分為患病和健康兩類,利用ROC曲線和AUC值衡量模型預測精度。采用五折交叉驗證法,使用sklearn中的StratifiedKFold包保證數據均勻分布和結果準確性。通過比較各個模型的AUC值評估疾病檢測模型性能表現。

3.4 結果對比與討論

Autoimmune數據集運行結果表明,兩種基礎模型預測得到的AUC值相當。為驗證物種注釋覆蓋率對使用a數據集訓練效果的影響(僅有60%的ASV被正確物種注釋),使用所有的ASV訓練兩種基礎模型,發現物種注釋覆蓋率對預測結果影響較小。此外,使用o數據集訓練基礎模型,預測得到的AUC值高于a數據集,使用MDDMI得到的AUC值高于使用任一單一模態數據集,提升至0.768(圖5(a))。上述AUC值為五次五折交叉驗證結果的均值。

為驗證模型泛化能力,繼續對AGP數據集的Cancer、Lung Disease和IBS進行預測(圖5(b)-(d))。僅在Lung Disease預測時,MDDMI效果低于單一使用o數據集效果,但與訓練效果相當。其余3種疾病中,MDDMI預測效果優于使用單一模態數據。

4 結論

對同一數據集使用不同方法得到的菌群結構以及多樣性存在差異,這與OTU、ASV工作原理的不同以及ASV法物種注釋覆蓋率低有關。數據分析結果表明,雖然ASV法更加精確,但相比OTU法,無法有效識別和分類相似微生物種類,影響低豐度物種分類結果,α多樣性較低;疾病預測結果表明,使用OTU數據集訓練兩種基礎模型,在4種疾病數據集中AUC值均高于ASV數據集,表明低豐度屬對疾病預測效果的影響較大。通過多模態融合,可得到更全面的視角,提高疾病預測效果。本文提出了一種使用圖卷積神經網絡融合OTU、ASV以獲取物種信息的方法:MDDMI,使用系統發育樹構造OTU與ASV異構網絡,利用圖卷積神經網絡獲取相關性,考慮顯著性分析結果,融合AGP中4種疾病的OTU與ASV數據集進行疾病預測,AUC值普遍高于單模態數據疾病預測結果。

參考文獻

[1]TAMBOLI C P, NEUT C, DESREUMAUX P, et al. Dysbiosis ininflammatory bowel disease[J]. Gut, 2004, 53(1): 1-4.

[2]NGUYEN T H, CHEVALEYRE Y, PRIFTI E, et al. Deep learning for metagenomic data: using 2D embeddings and convolutional neural networks[DB/OL]. [2023-08-02]. https://arxiv.org/abs/1712.00244.

[3]NGUYEN T H, PRIFTI E, CHEVALEYRE Y, et al. Disease classification in metagenomics with 2Dembeddings and deep learning[DB/OL]. [2023-08-02]. https://arxiv.org/abs/1806.09046.

[4]ASGARI E, GARAKANI K, MCHARDY A C, et al.MicroPheno: Predicting environments and host phenotypes from 16S rRNA gene sequencing using a k-mer based representation of shallow sub-samples[J]. Bioinformatics, 2018, 34(13): 32-42.

[5]REIMAN D, METWALLY A, SUN J, et al.PopPhy-CNN: A phylogenetic tree embedded architecture for convolutional neural networks to predict host phenotype from metagenomic data[J]. IEEE Journal of Biomedical and Health Informatics, 2020, 24(10): 2993-3001.

[6]NEARING J T, DOUGLAS G M, COMEAU A M, et al. Denoising the denoisers:An independent evaluation of microbiome sequence error-correction approaches[J]. PeerJ, 2018, 6: e5364

[7]CALLAHAN B J, MCMURDIE P J, ROSEN M J, et al. DADA2: High-resolution sample inference from Illumina amplicon data[J]. Nature Methods, 2016, 13(7): 581-583.

[8]BLAXTER M, MANN J, CHAPMAN T, et al. Defining operational taxonomic units using DNA barcode data[J]. Philosophical Transactions of the Royal Society of London, 2005, 360(1462): 1935-1943.

[9]KNIGHT R, VRBANAC A, TAYLOR B C, et al. Best practices foranalysing microbiomes: Nature reviews[J]. Microbiology, 2018, 16(7): 410-422.

[10] PRODAN A, TREMAROLI V, BROLIN H, et al. Comparing bioinformatic pipelines for microbial 16S rRNA amplicon sequencing[J]. PLoS ONE, 2020, 15(1): e0227434.

[11] CARUSO V, SONG X, ASQUITH M, et al. Performance of microbiome sequence inference methods in environments with varying biomass[J]. mSystems, 2019, 4(1): e00163-18.

[12] FORSTER D, LENTENDU G, FILKER S, et al. Improving eDNA-based protist diversity assessments using networks of amplicon sequence variants[J]. Environmental Microbiology, 2019, 21(11): 4109-4124.

[13] MILANESE A, MENDE D R, PAOLI L, et al. Microbial abundance, activity and population genomic profiling with mOTUs2[J]. Nature Communications, 2019, 10(1): 1014.

[14] PRODAN A, TREMAROLI V, BROLIN H, et al. Comparing bioinformatic pipelines for microbial 16S rRNA amplicon sequencing[J]. PLoS ONE, 2020, 15(1): e0227434.

[15] PAUVERT C, BUE M, LAVAL V, et al. Bioinformatics matters: The accuracy of plant and soil fungal community data is highly dependent on the metabarcoding pipeline[J]. Fungal Ecology, 2019, 12(5): 1064.

[16] GRAZIOLI F, SIARHEYEU R, ALQASSEM I, et al. Microbiome-based disease prediction with multimodal variational information bottlenecks[J]. PLoS Computational Biology, 2020, 18(4): e1010050.

[17] MCDONALD D, HYDE E, DEBELIUS J W, et al. Americangut: An open platform for citizen science microbiome research[J]. mSystems, 2018, 3(3): e00031-18.

[18] SHADE A. Diversity is the question, not the answer[J]. The ISME Journal, 2017, 11(1): 1-6.

[19] SU X, XU J, NING K. Parallel-META:Efficient metagenomic data analysis based on high-performance computation[J]. BMC Syst Biol 6 (Suppl 1), 2012, 16(1): 4-8.

[20] ROGNES T, FLOURI T, NICHOLS B, et al. VSEARCH:A versatile open source tool for metagenomics[J]. PeerJ, 2016, 4: e2584.

[21] 鐘輝, 劉亞軍, 王濱花, 等. 分析方法對細菌群落16S rRNA基因擴增測序分析結果的影響[J]. 生物技術通報, 2022, 38(6): 81-92.

Multimodal Information Fusion of Gut Microbiome for Disease Detection Method

LIU Chang, WU Shun-yao

(College of Computer Science & Technology, Qingdao University, Qingdao 266071, China)

Abstract:

Current methods for analyzing amplicon sequencing data that utilize Operational Taxonomic Units (OTU) or Amplicon Sequence Variants (ASV) can lose multimodal information from various species spectrum construction methods. An analysis was conducted on the differences in community diversity and structure between OTU and ASV datasets across four diseases. An effective approach to integrate OTU and ASV for disease characterization prediction was proposed: MDDMI (Microbiome-based Disease Detection with Multimodal Information). The results indicate that MDDMI is superior to the single-mode data analysis method.

Keywords:

graph convolutional networks; disease prediction; multimodal; gut microbiome

主站蜘蛛池模板: 亚洲国产成人麻豆精品| 老司机午夜精品网站在线观看| 国产香蕉在线视频| 3D动漫精品啪啪一区二区下载| 97亚洲色综久久精品| 激情无码字幕综合| 久久久久免费看成人影片 | 99热国产这里只有精品无卡顿"| 99国产精品免费观看视频| 久久夜色撩人精品国产| 伊大人香蕉久久网欧美| 99999久久久久久亚洲| 伊人激情久久综合中文字幕| 91精品在线视频观看| 国产丝袜无码精品| 91久久天天躁狠狠躁夜夜| 欧美激情综合一区二区| 91精品aⅴ无码中文字字幕蜜桃| 亚洲va视频| 国产AV毛片| 色欲国产一区二区日韩欧美| 亚洲一欧洲中文字幕在线| 国内精品91| 美女内射视频WWW网站午夜| 少妇被粗大的猛烈进出免费视频| 高清无码手机在线观看| 亚洲av中文无码乱人伦在线r| 无码一区二区波多野结衣播放搜索| 动漫精品啪啪一区二区三区| 国内精品免费| 91免费精品国偷自产在线在线| 尤物精品视频一区二区三区| 国产在线一区视频| 久久96热在精品国产高清| 国产三级a| 尤物精品国产福利网站| 日韩在线1| 国产精品私拍99pans大尺度| 色哟哟色院91精品网站| 爱爱影院18禁免费| 亚洲不卡无码av中文字幕| 久久这里只有精品8| 日韩无码视频网站| 很黄的网站在线观看| 2021精品国产自在现线看| 波多野结衣第一页| 青青热久免费精品视频6| 亚洲人成网站在线播放2019| 97精品国产高清久久久久蜜芽| 91系列在线观看| 一本久道热中字伊人| 国产麻豆福利av在线播放 | 国产成人1024精品下载| 久久网欧美| 国产91成人| 国产亚洲精品自在线| 亚洲天堂久久| av天堂最新版在线| 一级毛片基地| 国产成人精品亚洲日本对白优播| 欧美日韩在线亚洲国产人| 激情无码视频在线看| 国产精品片在线观看手机版 | 91热爆在线| 国产欧美日韩综合一区在线播放| 性网站在线观看| 欧美成人区| 欧美精品综合视频一区二区| 欧美在线国产| 成人亚洲视频| 国产精品美女免费视频大全| 亚洲久悠悠色悠在线播放| 国产国产人免费视频成18| 亚洲国产成人自拍| 日本福利视频网站| 国产网友愉拍精品| 午夜久久影院| 国产亚洲欧美另类一区二区| 国产流白浆视频| 久久午夜夜伦鲁鲁片不卡 | 免费看的一级毛片| 亚洲系列中文字幕一区二区|