張 凱 張 峻 李詩(shī)琴 蔣 煒 王 超▲
1.復(fù)旦大學(xué)附屬中山醫(yī)院廈門(mén)醫(yī)院消化科,福建廈門(mén) 361015;2.復(fù)旦大學(xué)附屬中山醫(yī)院消化科,上海 200032
2020國(guó)際專家小組新命名代謝相關(guān)脂肪性肝病(metabolic associated fatty liver disease,MAFLD)替代非酒精性脂肪性肝病,亞太肝臟研究協(xié)會(huì)也頒布了MAFLD相關(guān)診療指南[1-2]。目前MAFLD已成為全球最常見(jiàn)的慢性肝臟疾病,其對(duì)患者生活造成的影響與疾病負(fù)擔(dān)也高于其他肝損疾病[3]。生物鐘是機(jī)體維持正常生理和行為節(jié)律的調(diào)控機(jī)制,它由一系列生物鐘相關(guān)基因所調(diào)節(jié)[4-5]。研究發(fā)現(xiàn)睡眠時(shí)間縮短會(huì)增加MAFLD的發(fā)病風(fēng)險(xiǎn),這與晝夜節(jié)律紊亂有關(guān)[6-7]。生物鐘參與調(diào)節(jié)糖脂代謝、炎癥及氧化應(yīng)激等過(guò)程,提示其可能在分子水平參與MAFLD的發(fā)病[8]。本研究通過(guò)生物信息學(xué)和機(jī)器學(xué)習(xí)方法進(jìn)一步探究生物鐘相關(guān)基因在MAFLD中的潛在關(guān)系。
數(shù)據(jù)集來(lái)自美國(guó)國(guó)立的生物信息中心GEO數(shù)據(jù)庫(kù)。根據(jù)MAFLD的診斷標(biāo)準(zhǔn)[2],獲得GSE89632數(shù)據(jù)集與GSE48452數(shù)據(jù)集。通過(guò)對(duì)目前發(fā)現(xiàn)的和人體生物節(jié)律調(diào)節(jié)有關(guān)的51個(gè)生物鐘基因進(jìn)行探究[9-10]。
將數(shù)據(jù)集51個(gè)生物鐘基因的表達(dá)情況進(jìn)行篩選重組并制成表達(dá)矩陣,按照|log2 FC|>1和P< 0.05作為篩選標(biāo)準(zhǔn),對(duì)表達(dá)數(shù)據(jù)進(jìn)行差異性分析。通過(guò)R軟件對(duì)篩選出生物鐘相關(guān)差異性基因,進(jìn)行京都的基因和基因組百科全書(shū)(Kyoto encyclopedia of genes and genomes,KEGG)的信號(hào)通路及基因本體論(gene ontology,GO)分析。
本研究分別進(jìn)行最小絕對(duì)收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)分析和隨機(jī)森林分析,對(duì)兩種算法結(jié)果取交集,獲得特征基因;通過(guò)logistic算法構(gòu)建基于特征基因的診斷模型。通過(guò)繪制受試者工作特征(receiver operator characteristic,ROC)曲線并計(jì)算曲線下面積(area under the curve,AUC)評(píng)價(jià)基因的診斷性能。最后通過(guò)GSE48452來(lái)驗(yàn)證篩選出的特征基因在MAFLD與健康對(duì)照組的差異及對(duì)疾病的潛在診斷價(jià)值。
使用R4.1.3版本進(jìn)行所有數(shù)據(jù)分析和可視化。使用t檢驗(yàn)計(jì)算MAFLD和健康對(duì)照組中特征基因表達(dá)的差異。P< 0.05為差異有統(tǒng)計(jì)學(xué)意義。
數(shù)據(jù)集GSE89632共有63個(gè)數(shù)據(jù)被納入研究,包括20例單純性脂肪性肝病患者(simple fatty liver disease,SS),19例脂肪性肝炎患者(non-alcoholic steatohepatitis,NASH),24名健康對(duì)照組(health comparison,HC)。51個(gè)生物鐘基因中,兩組共同上調(diào)的基因有8個(gè),分別是DBP、NR1D2、TEF、PPP1CA、CSE1L、RORC、PPP1CC、BTRC;共同下調(diào)的基因有8個(gè),分別是NFIL3、CSNK1E、PER2、CRY1、AHR、CSNK1D、NR1D1、CREB1(圖1A),其差異基因表達(dá)熱圖(圖1B)。

圖1 生物鐘相關(guān)基因在MAFLD中的差異表達(dá)基因韋恩圖及表達(dá)熱圖
GO富集通路情況:在生物學(xué)過(guò)程主要富集在調(diào)節(jié)晝夜節(jié)律及細(xì)胞糖類代謝等過(guò)程;在細(xì)胞組分過(guò)程主要富集在樹(shù)突棘、蛋白磷酸酶復(fù)合體等;在分子功能上主要富集在核受體活性、轉(zhuǎn)錄共調(diào)節(jié)因子結(jié)合等過(guò)程(圖2A)。

圖2 生物鐘相關(guān)基因GO、KEGG富集氣泡圖
KEGG富集通路情況:主要富集于晝夜節(jié)律、Hippo信號(hào)通路及Hedgehog信號(hào)通路等通路(圖2B)。
構(gòu)建LASSO回歸模型并進(jìn)行交叉驗(yàn)證,誤差最小值對(duì)應(yīng)5個(gè)特征基因(DBP、CSE1L、NFIL3、CSNK1E、PER2)(圖3A~B);隨機(jī)森林分析通過(guò)對(duì)每個(gè)基因的重要性進(jìn)行排序,選擇前5個(gè)重要基因(NFIL3、PER2、CRY1、TEF、PPP1CA)(圖3C)。取交集得到NFIL3、PER2 2個(gè)特征基因(圖3D)。
分析特征基因診斷價(jià)值:ROC結(jié)果表明2個(gè)特征基因NFIL3、PER2的AUC>0.85,具有較高的診斷價(jià)值(圖3E)。基于logistic算法構(gòu)建NFIL3、PER2的診斷模型,結(jié)果表明模型AUC為0.973,具有較高的診斷效能(圖3F)。
在數(shù)據(jù)集GSE48452對(duì)NFIL3、PER2進(jìn)行外部驗(yàn)證,結(jié)果發(fā)現(xiàn)健康對(duì)照組和MAFLD組NFIL3、PER2的表達(dá)量比較,差異有統(tǒng)計(jì)學(xué)意義(P< 0.05)(圖4A)。模型ROC曲線顯示基于NFIL3、PER2構(gòu)建的模型在驗(yàn)證數(shù)據(jù)集的AUC>0.85(圖4B)。

圖4 特征基因NFIL3、PER2及其診斷模型在驗(yàn)證集的分析
MAFLD是當(dāng)今全球最主要慢性肝病之一[2]。深入研究MAFLD的發(fā)病機(jī)制,對(duì)減少M(fèi)AFLD發(fā)病率,延緩疾病的進(jìn)展具有重大意義。研究通過(guò)GEO數(shù)據(jù)庫(kù)分析了51個(gè)生物鐘相關(guān)基因在MAFLD的表達(dá)情況。結(jié)果共有8個(gè)生物鐘基因上調(diào),8個(gè)生物鐘基因下調(diào),主要富集于晝夜節(jié)律、Hippo信號(hào)通路及Hedgehog信號(hào)通路等通路。通過(guò)機(jī)器學(xué)習(xí)篩選的NFIL3、PER2基因及通過(guò)特征基因構(gòu)建的模型對(duì)MAFLD的診斷具有較高的診斷效能。
生物鐘廣泛存在于哺乳動(dòng)物中,對(duì)生命活動(dòng)進(jìn)行調(diào)控,使復(fù)雜的生命活動(dòng)有序進(jìn)行。本研究中生物鐘差異表達(dá)基因富集于Circadian rhythm通路,主要調(diào)節(jié)晝夜節(jié)律。PER2作為生物鐘核心基因的組成部分,在影響中樞和周?chē)窠?jīng)系統(tǒng)的晝夜節(jié)律中起主導(dǎo)作用[11],它參與調(diào)控糖脂代謝,其表達(dá)水平的降低,可導(dǎo)致血糖水平的升高及脂肪合成的增加[12-15]。在本研究中,PER2在MAFLD組中表達(dá)下調(diào),表明該生物鐘基因可能通過(guò)影響糖脂代謝,參與MAFLD的發(fā)生與發(fā)展。這與前人研究一致,晝夜節(jié)律可通過(guò)參與機(jī)體糖脂等營(yíng)養(yǎng)物質(zhì)的代謝來(lái)調(diào)節(jié)代謝平衡,影響疾病發(fā)展[16-18]。NFIL3在各種人體組織中廣泛表達(dá),通過(guò)參與晝夜節(jié)律來(lái)調(diào)節(jié)免疫細(xì)胞分化和能量代謝等過(guò)程[19-20]。相關(guān)研究表明晝夜節(jié)律與腸道微生物的相互作用參與MAFLD的發(fā)生[21-22]。Wang等[23]的研究發(fā)現(xiàn)微生物群可通過(guò)NFIL3控制晝夜節(jié)律脂質(zhì)代謝程序的表達(dá),并調(diào)節(jié)腸上皮細(xì)胞中的脂質(zhì)吸收進(jìn)而參與宿主代謝。因此NFIL3可能通過(guò)腸道菌群參與影響MAFLD。
根據(jù)富集分析結(jié)果,生物鐘差異基因還富集在Hippo信號(hào)、Hedgehog信號(hào)等通路。相關(guān)研究表明Hedgehog及Hippo信號(hào)通路參與肝癌的發(fā)生和發(fā)展[24-25]。Hedgehog信號(hào)通路在胚胎發(fā)育及調(diào)節(jié)多種細(xì)胞功能中起重要作用,可通過(guò)ERK通路及調(diào)控自噬等機(jī)制參與肝癌的發(fā)生與轉(zhuǎn)移[24,26]。而Hippo信號(hào)通路對(duì)于肝臟生長(zhǎng)發(fā)育起到交通樞紐作用[27],可以抑制肝細(xì)胞生長(zhǎng)、誘導(dǎo)細(xì)胞凋亡、控制肝臟大小及抑制肝臟腫瘤形成。這也支持了生物鐘相關(guān)基因還可能促進(jìn)MAFLD向肝癌的發(fā)生與發(fā)展。
本研究通過(guò)使用GEO數(shù)據(jù)庫(kù)并結(jié)合機(jī)器學(xué)習(xí)和生物信息學(xué)方法來(lái)探究生物鐘相關(guān)基因在MAFLD中的作用。但還具有一定的局限性,該研究完全基于GEO數(shù)據(jù)庫(kù)中的數(shù)據(jù),后續(xù)還需進(jìn)一步通過(guò)動(dòng)物實(shí)驗(yàn)或人體標(biāo)本進(jìn)行研究分析。
綜上所述,本研究通過(guò)檢索GEO數(shù)據(jù)庫(kù)中MAFLD相關(guān)數(shù)據(jù)集并進(jìn)行生物信息學(xué)分析,提示生物鐘相關(guān)基因可能通過(guò)調(diào)節(jié)人體晝夜節(jié)律和相關(guān)代謝通路參與MAFLD的發(fā)生發(fā)展,為繼續(xù)深入研究MAFLD的發(fā)生機(jī)制提供了研究思路及潛在的生物診斷標(biāo)志物。