田學梅,王慧,梁靜宣,王耘(北京中醫(yī)藥大學中藥信息工程研究中心,北京 102488)
人類腸道內(nèi)存在大量的微生物,在參與維持正常生理過程的同時,與疾病的發(fā)生發(fā)展也息息相關[1]。腸道微生物不僅可以調(diào)控肥胖[2],干預多糖和纖維素在體內(nèi)消化吸收[3],還影響胃腸道疾病如炎癥性腸病、心血管疾病如高血壓、代謝類疾病如肥胖、自身免疫性疾病等[4-6]。微生物組菌群結(jié)構(gòu)的變化與人類健康和疾病的發(fā)生發(fā)展密切相關,利用腸道菌群的分布差異進行個體疾病、健康等的相關研究已逐漸增多。例如2型糖尿病患者與健康個體相比,其腸道內(nèi)雙歧桿菌數(shù)量減少[7],膽汁淤積性肝病患者與健康對照者相比,腸道菌群存在特征性改變,韋榮氏球菌屬(Veillonella)相對高豐度表達與膽汁淤積性肝病強相關[8]等。腸道菌群的狀態(tài)會以各種方式反饋給宿主[9],健康個體在不同生活方式、藥物、飲食、疾病狀態(tài)、地域以及年齡階段,其腸道菌群的分布存在很大差異[10-11]。通過研究不同健康人的腸道菌群的分布特征,調(diào)理腸道菌群的狀態(tài)以改善健康狀況。因此是否可以利用不同健康人群間腸道菌群的分布差異對健康人群進行分類,以此來評價個體健康狀態(tài)并對個體健康進行有效精準的健康管理呢?基于以上思考,本研究利用16S rRNA技術[12]獲得的腸道菌群種層面相對豐度數(shù)據(jù)并轉(zhuǎn)換為定性數(shù)據(jù),聚類分析將健康青年人群進行分類,根據(jù)不同分類的健康青年人群間的差異菌通過數(shù)據(jù)挖掘方法[13-14],建立以不同健康青年人分類間腸道菌群的分布差異為指標的健康青年人群分類模型,并探討不同分類的健康青年人腸道菌群分布特征。以期為青年個性化的健康管理研究奠定基礎。
選擇就讀于北京中醫(yī)藥大學大一、大二的本科生4000人,隨機抽樣后共納入研究對象114人,男女性別比例1∶1,年齡18~22歲。研究經(jīng)學校倫理委員會批準通過,所有研究對象均了解并簽署項目知情同意書。
納入標準:健康大學生且正常飲食無明顯飲食偏頗情況。排除標準:① 患有潰瘍性結(jié)腸炎、克羅恩病等炎癥性腸病及慢性便秘、慢性腹瀉等其他腸道疾病患者;② 使用抗菌藥物、進行闌尾手術等的患者;③ 合并急性冠脈綜合征、急性腦血管意外等危急重癥者;④ 有嚴重情緒或精神異常而無法配合者;⑤ 重大疾病患者。
受試者均無嚴重疾病,入組后前一個月避免抗菌藥物、胃腸道藥物等使用并正常飲食,取受試者的早餐前糞樣,通過16S rRNA 測序[15]技術進行腸道微生物菌種的組成測定,獲得研究樣本腸道菌群種層面相對豐度數(shù)據(jù)。將腸道菌群種層面相對豐度數(shù)據(jù)轉(zhuǎn)變?yōu)槎ㄐ詳?shù)據(jù)(相對豐度>0即定為含有這種菌,用1表示;沒有相對豐度即定為不含這種菌,用0表示)。
聚類分析(clustering analysis)[13]是數(shù)據(jù)挖掘中的一個重要部分,屬于無監(jiān)督的學習方法。根據(jù)研究目的,本文所選用的是凝聚聚類算法中的離差平方和法[16],采用歐氏距離作為聚類分析的指標,對“1.3”項下腸道菌群種層面定性數(shù)據(jù)進行聚類分析,聚類分析工作基于軟件Orange 2.7實現(xiàn)。
離差平方和方法:如果有兩個樣本類G1、G2,n1、n2分別為G1、G2樣本個數(shù)

若G1,G2內(nèi)部點與點距離很小,則它們能很好地各自聚為一類,并且這兩類又能充分分離(D12很大),這時D就很大。
基于“2.1”項下的結(jié)果發(fā)現(xiàn),114名樣本的腸道菌群種層面組成個體間有顯著差異。為了提高后續(xù)人群分類模型構(gòu)建時建模數(shù)據(jù)的質(zhì)量,加快挖掘速度并且使挖掘出的規(guī)則更準確易懂,本研究分析了受試樣本在不同分類時組間的差異菌,并對其進行初步篩選得到人群分類的屬性指標。
利用腸道菌群種層面相對豐度數(shù)據(jù)對不同組間進行差異菌分析。當聚類數(shù)為2,通過Welch’st-test統(tǒng)計分析方法進行兩組差異菌的分析(P<0.05);當聚類數(shù)為3~5時,通過方差分析進行多組間差異菌的分析(P<0.05)。不同分類間差異菌的篩選通過STAMP軟件進行[17]。
首先將聚類后每類樣本差異菌的定性數(shù)據(jù)及屬性指標分別作為模型輸入指標,再分別利用樸素貝葉斯(NB)算法[18]、K最近鄰(IBK)算法[19]、決策樹(J48)算法[20]、隨機森林(RF)算法[21]進行模型的構(gòu)建,并依據(jù)曲線下面積(AUC)選出優(yōu)的算法及分類,為后續(xù)模型的優(yōu)化奠定基礎。將各分類樣本集隨機劃分70%作為訓練集,30%作為測試集。訓練集用于構(gòu)建模型,同時運用Cor(Correlation-based Attribute Evaluation)[22]屬性篩選算法進行篩選,優(yōu)化訓練模型;測試集用于驗證模型,最終得到基于腸道菌群的人群分類模型,具體模型構(gòu)建思路如圖1所示。

圖1 基于腸道菌群的人群分類模型構(gòu)建方法Fig 1 Construction of population classification models based on the intestinal flora
本文中涉及分類算法和特征屬性選擇算法均在10折交叉的環(huán)境下運行,交叉驗證是數(shù)據(jù)建模中常用且有效的一種內(nèi)部驗證方法,常用來測試模型或算法的準確性[23-24]。所有操作均通過數(shù)據(jù)挖掘平臺軟件Weka 3.8實現(xiàn);運行過程中所有參數(shù)均采用平臺默認的參數(shù)設置。
在本文中使用ROC的AUC,為ROC曲線提供了量化值,可以通過比較AUC值的大小來評估分類模型的性能[25-27]。
在門水平上,研究對象的微生物含量組成如圖2所示:最終將所有的序列鑒定為22個門,其中擬桿菌門(Bacteroidetes)、硬壁菌門(Firmicutes)、變形菌門(Proteobacteria)、放線菌門(Actinobacteria)的含量較高,占測序序列總數(shù)的97%以上,其他菌門如梭桿菌門(Fusobacteria)、疣微菌門(Verrucomicrobia)、無壁菌門(Tenericutes)、TM7、黏膠球形菌門(Lentisphaerae)等的含量較低。

圖2 門水平微生物含量組成Fig 2 Composition of microbial content at the phylum level
個體腸道菌群的組成在種水平上具有很大的差異,研究中的種水平的腸道菌群組分構(gòu)成,最終將序列鑒定為257個種,相對豐度比例最高的前50個種構(gòu)成的組分柱狀圖見如圖3。

圖3 受試者在種水平微生物相對豐度組成Fig 3 Relative abundance composition of subjects at the species level
目前的聚類算法大多數(shù)需要預先給定聚類數(shù),再對樣本進行聚類分析。確定最佳聚類數(shù)是聚類分析中的關鍵步驟。因此為了確定最佳的聚類數(shù),保證數(shù)據(jù)集的劃分和評判結(jié)果是有效正確的,本研究依據(jù)腸道菌群種層面定性數(shù)據(jù)將受試人群劃分為2~5類的結(jié)果,通過后續(xù)建立人群分類模型的結(jié)果選擇最終的聚類數(shù)。聚類結(jié)果見表1。

表1 樣本分為兩至五類時聚類結(jié)果 Tab 1 Clustering of categories when divided into two to five categories
針對“3.2”項下不同分類人群差異菌的分析,以P<0.05為檢驗水平,發(fā)現(xiàn)當數(shù)據(jù)樣本分為兩類時,組間差異菌有50個;當分為三類時,組間差異菌有68個;當分為四類時,組間差異菌有67個;當分為五類時,組間差異菌有73個,如表2。可以看出不同的人群其差異菌的類別與其分類程度成正相關。

表2 聚類數(shù)為兩至五類時組間差異菌 Tab 2 Differences in bacteria between groups when divided into two to five categories
為了進一步說明可以依據(jù)差異性的腸道菌群對人群分類的可行性,基于前面試驗結(jié)果將聚類后的每類樣本的差異菌的定性數(shù)據(jù)分別作為模型輸入指標,再分別利用NB、IBK、J48、RF四種算法進行模型的構(gòu)建。并篩選出不同人群分類模型中AUC值最高的算法及分類,所建模型的應用算法及構(gòu)成模型的腸道菌屬性集結(jié)果見表3。

表3 聚類結(jié)果為兩至五類時人群分類模型 Tab 3 Crowd classification model when the clustering results are two to five types
基于不同分類人群間差異菌所建各類模型的評價指標如表4所示,ROC曲線圖見圖4。所建模型的訓練集和測試集,各個指標結(jié)果都趨近,這表明在應用未知數(shù)據(jù)時,所建模型不會發(fā)生故障。

圖4 受試者工作特征曲線 Fig 4 Receiver operating characteristic curve

表4 聚類結(jié)果為兩至五類時模型各項指標 Tab 4 Indicators of the model when the clustering results in two to five types
通過綜合比較每種模型的ROC曲線圖、準確性、SE、SP、BACC選擇最優(yōu)模型。最終,基于腸道菌群分為四類時,所建模型為最優(yōu)。對于最優(yōu)模型的選取,與各模型性能相關的多項評價指標,及各模型的ROC曲線圖進行了分析。最優(yōu)模型的性能是從訓練集和測試集兩個角度進行評價的。模型10折交叉驗證測試的準確性在82.50%~100%,平衡精度在0.672~1.000,受試者工作特征AUC在0.842~1.000。測試集的準確性在85.29%~94.12%,平衡精度在0.808~0.904,受試者工作特征AUC在0.990~0.971。

續(xù)表2

續(xù)表3
由以上結(jié)果最終可將受試者分為四類,通過各評價指標的數(shù)據(jù)表明,本文建立的基于腸道菌群建立的受試人群分類模型有較高的可靠性,而且還說明了通過腸道菌群建立健康青年人群分類模型是可行的。對于每一類人群其優(yōu)勢菌群在一定程度上影響人體健康,同時宿主也會影響腸道菌群。① 第一類人群以Mitsuokai、Dolichum、Citroniae等為主要的優(yōu)勢菌群,高脂飲食會導致其豐度增加腹部內(nèi)臟脂肪區(qū)[28],腸道中短鏈脂肪酸的缺乏會影響宿主健康,常常與缺乏可發(fā)酵纖維有關,因此這類人群應多食用膳食纖維,不僅可以促進有益菌代謝產(chǎn)生人體所需的短鏈脂肪酸,還可以降低這類人群的優(yōu)勢菌群豐度[29]。② 第二類人群主要以intestinihominis、eggerthii、onderdonkii、indistinctus等為主要優(yōu)勢菌群,其中intestinihominis過度擴張是微生態(tài)失衡的標志[30],其定植可降低血漿中具有抗炎作用的皮質(zhì)酮的水平,從而促進腸道中的炎癥應答[31];eggerthii可以合成短鏈脂肪酸,食用高脂低碳水使得eggerthii增多導致棕櫚酸和硬脂酸等增加;onderdonkii、indistinctus菌群失調(diào)與炎癥、癌癥以及心理健康具有很高的相關性[32]。③ 第三類人群主要以longicatena、lactaris、johnsonii、putredinis等為主要優(yōu)勢菌群,longicatena屬于Dorea屬,是潛在等有益菌[33],在帕金森患者中其豐度降低[34],經(jīng)常使用小麥、黑麥、大麥、燕麥會使其豐度會增加[35];此外lactaris具有降脂應用效果[36];Johnsonii是腸道中的有益菌,能提高血液中的還原型谷胱甘肽水平,從而改善肝臟的線粒體形態(tài)和功能,減少肝臟脂質(zhì)、改善系統(tǒng)性的糖代謝[37];高鹽飲食通過改變腸道菌群的組成及代謝,減少Putredinis,從而提升皮質(zhì)酮水平以促進高血壓,而Putredinis可通過其代謝產(chǎn)物花生四烯酸抑制皮質(zhì)酮的產(chǎn)生[38]。④ 第四類人群以lenta、symbiosum、cateniformis為主要優(yōu)勢菌群,lenta被認為是潰瘍性結(jié)腸炎、肝臟和肛門膿腫以及全身性菌血癥的原因[39];高脂飲食會導致symbiosum豐度增加[28];經(jīng)常食用土豆抗性淀粉、玉米抗性淀粉,腸道中的有益益生菌Clostridioforme顯著增加,菌群產(chǎn)生丁酸能力更強[40]。總之,不同的人群其優(yōu)勢菌群不僅影響人體腸道微環(huán)境,還會間接或直接影響人體的消化、免疫以及情緒等,針對不同人群優(yōu)勢菌群作出不同的飲食管理、生活方式改變將有益于我們對健康管理,為個體化食療、醫(yī)療提供新的方向。
本研究闡釋了基于腸道菌群分類的健康青年人群分類模型的構(gòu)建的方法及原理。基于腸道菌群種層面數(shù)據(jù),通過聚類分析獲得基于腸道菌群定性數(shù)據(jù)的健康青年人群分類,再依據(jù)分類的組間差異菌,運用數(shù)據(jù)挖掘算法構(gòu)建了健康青年人群分類模型。構(gòu)建模型的準確性、靈敏度、特異性、平衡精度、AUC值等幾個指標驗證了所建模型的可靠性。
人體的腸道微生物與宿主是共同生長的,人體不同狀態(tài)呈現(xiàn)不同的菌群特征。曾有研究通過隨機森林算法,構(gòu)建了基于腸道菌群區(qū)分酒精性脂肪肝的模型[41]。這為本文通過數(shù)據(jù)挖掘的方法進行基于腸道菌群分類探討健康青年人群分類的研究提供佐證,進一步證明了以腸道菌群分布差異作為客觀指標對健康青年人群進行分類的可能性。不僅為處理微生物數(shù)據(jù)提供了一種新的策略,而且為未來深入研究腸道菌群與人體健康關系提供了參考。