999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

4種相關分析方法在菌群和代謝物相關研究中的初步比較

2018-04-23 08:15:15游懿君梁丹丹陳天璐
轉化醫學雜志 2018年2期
關鍵詞:分析方法研究

游懿君,梁丹丹,陳天璐

系統生物學是在細胞、組織、器官和生物體整體水平上研究結構和功能各異的生物分子及其相互作用,并通過計算生物學來定量闡明和預測生物功能、表型和行為的科學[1]。基因、蛋白、轉錄、代謝及元基因等多組學整合研究是系統生物學中常用的研究手段??缃M學研究不僅可了解機體的基因構成,而且對于下游表達產物如蛋白、代謝物也有了一個充分的了解[1-2]。代謝組學是系統生物學領域一門新興的學科,是利用各儀器平臺(氣相/液相-色譜聯用和核磁共振等)和大數據信息挖掘策略觀察生物體系中的大量代謝產物在不同狀態下變化規律的科學[3]。元基因組學通過直接從環境樣品中提取全部微生物的DNA,構建宏基因組文庫,利用基因組學的研究策略研究環境樣本所包含的全部微生物的遺傳組成及其群落功能。越來越多的研究表明,人體內的代謝物水平波動與腸道內菌群的變化間存在著一定的關聯[4-5]。由于人體是一個系統整體,系統性的研究顯得尤為必要[2],而代謝組學和元基因組學2大組學平臺滿足了整體系統性分析的需求,越來越多的應用到了菌群和代謝物的相關研究中。

相關性分析是指對2個或多個具備相關性的變量元素進行分析,從而衡量2個變量因素的相關密切程度[6]。利用相關性分析進行關聯變量的篩選是一種常用的科學研究策略。Pearson積相關[7]和Spearman秩相關[8]是2種經典的相關性分析方法。隨著相關分析的廣泛應用,在經典的相關性方法基礎上發展延伸出了很多的適用于不同數據類型的方法。比如,SparCC[9]和CCLasso[10]是針對組分數據內部變量的相關性研究而產生的方法,能夠更加精準的在該類數據集中找到關聯對。元基因組數據屬于組分數據的一種[11-12],反映的是物質的相對豐度信息而非絕對豐度信息,具有稀疏性和內部關聯度高等特征。Friedman[9]和Fang等[10]指出,采用經典相關分析(Pearson,Spearman)方法對其進行研究常常產生不合理甚至錯誤的結果。此外,尚未見有報道嘗試采用SparCC和CCLasso對非組分數據進行分析。代謝組學數據和元基因組學數據的數據特點和結構也不盡相同。代謝組學數據是基于“質譜”生成的信息,其變量是連續的且與具體的代謝物的濃度成比例;元基因組學數據是一種基于“計數”的信息,變量是離散的且與基因片段存在的數量成比例。2種不同特性組學數據的相關分析對方法的選擇提出了新的要求。

我們以代謝組學和元基因組學間的關聯研究為目標,選用4種典型的相關分析方法(Pearson,Spea-rman,SparCC和CCLasso),采用仿真數據集和真實數據集,對這4種相關分析方法進行檢測和對比,研究了他們的相似性和獨特性,為跨組學數據相關分析方面提供方法學支持。

1 方法

1.1 仿真數據集建立 利用R軟件“MASS”包中的“mvrnorm”函數,生成2個含有21個變量(V),200個樣本量(S)的數據矩陣A(a1-a21)和B(b1-b21)。其中代表代謝物的矩陣A服從正態分布,代表菌群的矩陣B服從對數正態分布。指定矩陣A與矩陣B中的21個相關對(a1-b1,a2-b2,a3-b3,…,a21-b21)的相關系數分別為-1,-0.9,-0.8,…,0.8,0.9,1。統計學上通常認為相關系數小于0.3是不存在相關或相關程度較弱,易產生不符合真實情況的結果,所以我們將相關系數大于或等于0.3的16個相關對作為有效相關對(編號第1~8和第14~21的相關對)。

1.2 腦代謝組研究數據 由于“菌群-腸-腦軸”的研究逐漸成為新的研究熱點,諸多研究證實腦中的代謝物與腸道菌群間存在著密切的相關性[13-15]。我們以42只Wistar大鼠腦組織代謝物的代謝組學數據和大鼠小腸內容物中腸道菌群的元基因組學數據(16SrRNA)為例進行研究。所有的動物實驗都在上海交通大學實驗動物中心進行。原始的代謝組學數據包含了359個代謝物,原始的元基因組學數據包含了3 421個操作分類單元。我們對原始數據進行進一步的優化:將代謝組學數據按照代謝物的種類進行合并,元基因組學數據操作分類單元表按分類學“門”水平進行合并。最終,得到30種代謝物和18個門的數據。

1.3 相關分析方法

1.3.1 Pearson積相關與Spearman秩相關 Pearson積相關是Pearson[7]在1896年創立的一種經典相關分析方法(公式1)。在此基礎上后續延伸出了Spearman秩相關[8]。Spearman從公式上來看是一種非參的Pearson相關,在計算相關系數時,不體現計算的具體數值,而是將具體數值按秩次進行排序,利用秩次進行相關系數的計算。2種方法皆在R中調用“cor”函數實現,選擇method=“pearson”或“spearman”。

(1)

1.3.2 SparCC與CCLasso SparCC和CCLasso是主要用于分析組分數據間相關關系的一種非參的相關分析方法,是前期經典相關分析方法的延伸。SparCC方法的大體思路是:將組分數據進行Aitchison對數轉換,計算轉換后的線性Pearson相關并得到相關系數[9]。CCLasso則是在對數轉換后對組分進行基于罰函數的最小二乘法(即Lasso)從而得到相關系數[10]。SparCC和CCLasso方法均可在R軟件中實現,方法代碼可從https://github.com/huayingfang/CCLasso中獲得[10]。

抗胃癌植物類中藥藥味以苦、甘、辛為主,豐度分別為0.612、0.518、0.271;主要涉及品種包括白花蛇舌草、丹參、纈草、柴胡等,詳見表3。臨床在選擇組方入藥時應結合患者臨床癥狀及個體特征充分考慮上述藥味特點。

本研究的所有相關方法的實現皆在R軟件中進行。

2 結果與討論

將4種相關方法對仿真數據集和腦代謝組真實數據集進行相關分析,并將結果進行統計分析和可視化處理,用以從不同角度衡量對比各方法的性能。

從圖1A中可以得出,16個指定相關對經4種相關方法計算得到的r值(-1~-0.3,0.3~1)大體一致。圖1B中可以得出CCLasso的誤差百分比大于其他3種方法(22.95%)。Pearson和Spearman方法得出的誤差百分比較小(Pearson:6.23%;Spearman:5.14%)。圖1的結果說明了CCLasso方法存在較大的誤差,計算出的相關系數與真實值差距較大。這可能是由于CCLasso算法復雜度高,對數據結構要求較嚴格。另一個原因可能是由于前期仿真數據集的構建是根據Pearson系數來設計的(協方差矩陣公式是Pearson相關的一種變換),所以Pearson和Spearman相對來說得到的結果誤差百分比偏小,結果偏好。盡管如此,相比之下CCLasso的準確度比SparCC稍差。

A:不同方法對指定r值的16個相關對進行分析得到的相關系數(r) 所有P值均小于0.05

B:4種相關方法所計算出的相關系數的誤差百分比(均值±標準誤)。 誤差百分比=100%×|計算值-設定值|/設定值。4組間ANOVA的P<0.001, *表示兩兩比較時(Tukey’s方法),該方法與CCLasso比較的P<0.05圖1 4種相關方法基于仿真數據集中指定了相關系數 的16個變量對的計算結果

進一步采用4種相關方法對矩陣A、B中未指定相關系數的變量對(變量如a1與b2,b3,…,b21等)進行分析,其相關結果如圖2所示。由r值聚類熱圖(聚類分析中使用歐幾里得距離計算變量之間的距離)(圖2A)可得,Pearson與Spearman聚為一類,SparCC與CCLasso聚為一類。該結果表明方法Pearson與Spearman得到的結果更為相似,SparCC與CCLasso的結果更為相似。而從數學公式上比較,這2組方法計算相關系數的公式也更為相近。圖2B顯示的是各種方法找到的顯著相關對的數目。我們發現,CCLasso找到的相關對(P<0.05)數目最少(2),SparCC最多(23),Spearman(21)和Pearson(18)居中。這些未指定相關系數的變量對可相當于隨機變量,理論上這些變量間不存在相關性。該結果說明CCLasso最為保守,經典方法的性能居中,而采用SparCC的假陽性風險相對較高。在必要時,可采用各種方法對P值進行適當校正或采用更嚴格的閾值,以降低假陽性。

A:基于相關系數r值的層次聚類結果

B:顯著相關(P<0.05)的個數圖2 4種相關方法對仿真數據集中未指定相關系數的 變量對(21×20=420個)的計算結果

最后,采用真實數據對各種方法的性能進行進一步比較和評估。根據圖3A所示,對于同樣的數據集,CCLasso計算得到的相關系數r值相對最小,SparCC計算所得的r值最高,Spearman和Pearson介于兩者之間。圖3C顯示的是顯著(P<0.05)相關對數目。與仿真數據集和圖3A結果一致的是,CCLasso找到的相關對數目最少,SparCC最多,Spearman和Pearson結果介于兩者之間。由此我們判斷CCLasso方法相對保守,對數據的要求比較嚴格。此外,該方法的計算耗時也較其他方法長。這可能是因為其內部算法比較復雜引起的[10]。再次采用相關系數r進行的層次聚類分析(圖3B)表明,方法Pearson與Spearman得到的結果更為相似,方法SparCC與CCLasso的結果更為相似。該結果與仿真數據集聚類結果一致。

從仿真數據集和真實數據集的實驗結果來看,我們認為傳統的相關分析方法在跨組學之間的相關分析中更具有優勢。而Spearman由于適合非線性相關,建議其為首選方法。

A:相關系數r值的范圍。橫坐標為4種相關方法, 縱坐標為相關系數r值(均值±標準差)。 4組間ANOVA的P<0.001。兩兩比較(Tukey’s)的所有P<0.05

B:基于相關系數r值的層次聚類和熱圖

C:顯著(P<0.05)相關對數目圖3 4種相關方法基于真實數據集的計算結果

3 總結與展望

基于以上仿真和真實數據集的結果,可以發現4種相關分析方法計算得到的r值和顯著相關對的數量都存在類似的規律:SparCC>Spearman和Pearson>CCLasso。CCLasso誤差百分比較大,而得到的顯著相關對的數目最少。相比較來說,該方法的結果更容易出現假陰性(即具有相關關系的2個變量關系,在CCLasso較為嚴格的算法下,結果往往是不具有相關性)。相反的,SparCC更傾向于給出假陽性結果(即不具有相關關系的2個變量關系,在SparCC較為寬松的算法下,結果往往是具有相關性);經典相關方法(Pearson和Spearman)的表現較為穩定平和,Spearman結果稍優于Pearson。部分原因可能是其更適合于分析非線性相關關系。本研究結論仍需要更多實驗數據的進一步驗證。

【參考文獻】

[1]楊勝利.系統生物學研究進展[J].中國科學院院刊,2004,19(1):31-34.

[2]Kitano H.Systems biology:a brief overview[J].Science,2002,295(5560):1662-1664.

[3]Bujak R,Struck-Lewicka W,Markuszewski MJ,et al.Metabolomics for laboratory diagnostics[J].J Pharm Biomed Anal,2015,113:108-120.

[4]Liu R,Hong J,Xu X,et al.Gut microbiome and serum metabolome alterations in obesity and after weight-loss intervention[J].Nat Med,2017,23(7):859-868.

[5]Zheng X,Xie G,Zhao A,et al.The footprints of gut microbial-mammalian co-metabolism[J].J Proteome Res,2011,10(12):5512-5522.

[6]Hauke J,Kossowski T.Comparison of values of Pearson’s and Spearman’s correlation coefficients on the same sets of data[J].Quaest Geo,2011,30(2):87-93.

[7]Pearson K.Mathematical contributions to the theory of evolution.III.Regression, heredity,and panmixia[J].Philos T Roy Soc A,1896,187:253-318.

[8]Spearman C.The proof and measurement of association between two things[J].Am J Psychol,1904,15(1):72-101.

[9]Friedman J,Alm EJ.Inferring correlation networks from genomic survey data[J].Plos Comput Biol,2012,8(9):e1002687.

[10]Fang H,Huang C,Zhao H,et al.CCLasso: correlation inference for compositional data through Lasso[J].Bioinformatics,2015,31(19):3172-3180.

[11]Tsilimigras MC,Fodor AA.Compositional data analysis of the microbiome:fundamentals,tools,and challenges[J].Ann Epidemiol,2016,26(5):330-335.

[12]Weiss S,Van Treuren W,Lozupone C,et al.Correlation detection strategies in microbial data sets vary widely in sensitivity and precision[J].ISME J,2016,10(7):1669-1681.

[13]Zheng X,Chen T,Zhao A,et al.The brain metabolome of male rats across the lifespan[J].Sci Rep,2016,6:24125.

[14]Mayer EA.Gut feelings:the emerging biology of gut-brain communication[J].Nat Rev Neurosci,2011,12(8):453-466.

[15]Ridaura V,Belkaid Y.Gut microbiota:the link to your second brain[J].Cell,2015,161(2):193-194.

猜你喜歡
分析方法研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲国产精品日韩av专区| 伊人激情久久综合中文字幕| 四虎精品国产AV二区| 伊人成人在线视频| 亚洲色大成网站www国产| 老司国产精品视频91| 无码免费的亚洲视频| 亚洲欧美日韩精品专区| 国产亚洲精品97AA片在线播放| 国产香蕉97碰碰视频VA碰碰看| A级毛片高清免费视频就| 真人高潮娇喘嗯啊在线观看| 欧美精品xx| 亚洲成人网在线播放| 欧美色综合网站| 青青草国产一区二区三区| 中文字幕乱码二三区免费| 国产日韩丝袜一二三区| 91精品国产自产在线老师啪l| 日本精品视频| 国产男女免费视频| 亚洲天堂网在线观看视频| 国产综合另类小说色区色噜噜 | 亚洲天堂网视频| 免费国产一级 片内射老| 香蕉久久永久视频| 青青青国产精品国产精品美女| 午夜福利免费视频| 国产综合色在线视频播放线视| 亚洲天堂网在线播放| 茄子视频毛片免费观看| 波多野结衣爽到高潮漏水大喷| 欧美一级特黄aaaaaa在线看片| 国产永久免费视频m3u8| 九九线精品视频在线观看| 免费全部高H视频无码无遮掩| 久久精品只有这里有| 色婷婷综合激情视频免费看 | 国产免费一级精品视频 | 国产精品无码翘臀在线看纯欲| 久久久久国产一级毛片高清板| 99无码中文字幕视频| AⅤ色综合久久天堂AV色综合| 亚洲伦理一区二区| 一级一级一片免费| 2021国产v亚洲v天堂无码| AV不卡在线永久免费观看| 国产无套粉嫩白浆| 福利一区三区| 中文字幕色在线| 国产成人无码AV在线播放动漫| 青青草欧美| 日韩 欧美 小说 综合网 另类| 国产尤物在线播放| 国产亚洲欧美在线专区| 日韩精品高清自在线| 免费人成又黄又爽的视频网站| 欧美国产日韩在线| 欧美精品v欧洲精品| 欧美成人在线免费| 久久精品中文字幕免费| 亚洲香蕉在线| 久久久久久午夜精品| 欧美性精品不卡在线观看| 国产拍揄自揄精品视频网站| 性视频一区| 亚洲日本精品一区二区| 国产一区二区三区在线观看免费| 中文字幕无码电影| 久久91精品牛牛| 极品私人尤物在线精品首页 | 91成人免费观看| 亚洲制服中文字幕一区二区| 老熟妇喷水一区二区三区| 2021国产精品自产拍在线| 97视频免费在线观看| 操操操综合网| 四虎永久在线精品影院| 黄色三级网站免费| 无码国产偷倩在线播放老年人| 久久精品人人做人人| 狂欢视频在线观看不卡|