過冬冬 孫芬 賀軒昂 羊東曄 黃來強
(1. 清華大學深圳國際研究生院,深圳 518055;2. 香港大學深圳醫院消化及肝臟科,深圳 518053;3. 清華大學化學系,北京 100084)
在過去的幾十年里人們對疾病的研究已逐步聚焦于分子水平的改變。自從1975年英國科學家Sanger發明第一代基因測序[1]以來,基因測序已發展成人們探索細胞遺傳物質變化和疾病發展的有利工具。21世紀初期,人們宣布了人類基因組計劃[2]完成,這成為探索人類遺傳物質的一個重要里程碑,而后人們發現器官水平的測序不能完全揭示機體變化的完整歷程和潛在原因。2009年,Tang等[3]首次在Nature Methods雜志上發表從單個細胞水平上的轉錄組測序文章,自此打開了單細胞測序的大門。傳統的“塊樣”大面積測序的方法得到的結果可能是由于多個細胞“平均”后的宏觀結果,掩蓋了單個細胞之間存在的差異,致使人們在研究相關疾病的時候往往聚焦在“面”上,而單細胞測序技術的出現使得人們能夠看到具體的“點”。
肝臟作為人體中心免疫器官、血流豐富器官和再生能力超強的器官,具有復雜的細胞組成與分化程度不同的細胞階段。近年來研究表明,肝臟疾病的發生很大程度上是肝實質細胞自身遺傳物質、所處的微環境與外來影響因子(如病毒)共同作用的結果[4-5]。然而有關肝臟疾病的透徹認識與精準治療卻十分有限,原因之一在于傳統疾病分析方法往往不夠精準且具有一定局限性。單細胞測序技術的出現對揭示肝臟疾病內在發生機制有重要意義,它使得人們能夠從分子水平了解肝臟功能和肝臟有關疾病的生理與病理意義。早期診斷、精準治療已成為肝臟疾病治療的終極目標。本文簡要介紹單細胞測序技術在肝臟疾病中的應用發展,期望能為詮釋肝臟疾病的發病機制、解析疾病發生的細胞互作網絡提供參考。
與傳統的測序方法不同,單細胞測序大體由3個步驟組成:單細胞制備與捕獲、單細胞文庫構建與測序及數據處理分析。
高質量的樣本是單細胞研究的關鍵所在。準確的測序結果與細胞的狀態密不可分,有研究表明在不同的溫度下細胞內的基因表達水平不盡相同,有時相差高達上千倍[6]。待測組織先經過機械剪切成小塊再經酶消化使細胞相互分離。根據樣本選擇使用不同的酶配方,以肝組織為例,可選用終濃度為0.16 mg/mL膠原蛋白酶IV在37℃消化10 min;或用40 μg/mL的Liberase Blendzyme3消 化5-8 min。消化后的懸液要經過濾網篩以除去較大的組織團塊和細胞碎片,然后將細胞重懸在含有胎牛血清(Fetal bovine serum,FBS)的培養基中,并及時進行單細胞捕獲以防細胞沉降聚集或發生死亡[7],因為聚集的細胞會使得單細胞捕獲過程中發生非單一細胞測序,死亡的細胞會由于自身組學發生改變造成測序結果的偏差。
現在手工分選細胞方法已不再使用,較為常見的單細胞捕獲方法為熒光激活細胞分選(Fluorescentactivated cell sorting,FACS)和微流控(Microfluidics)技術。FACS利用熒光標記細胞表面標志物將目的細胞分選至微量滴定板中,其效率高、捕獲準且可去除可能對測序產生影響的受損細胞和死亡細胞[8]。但FACS由于快速的流體分選過程會對細胞造成一定的損傷,所以為保證所得的數據量需要擴大起始分選量,然而這對某些稀少組織來說并不容易實現。而微流控技術[9]是依賴集成的微流控電路捕獲含細胞的液滴至納米孔中,可以同時處理上千個細胞,大大減少了試劑和材料的使用,在控制了成本的同時也保證了效率。激光捕獲顯微切割法(Laser capture microdissection,LCM)[10]不需要事先制備細胞懸液而是利用激光對組織進行切割,其特點是可以從空間上反映出每個細胞所處的位置但是對細胞損傷較大,一般在特定情況下才會選用。
1.2.1 單細胞基因組測序 細胞內極少的DNA含量不能達到直接測序需求,所以在進行單細胞基因組測序之前需先進行全基因組擴增(Whole genome amplification,WGA)。其中基于PCR擴增技術的有:簡并寡核苷酸PCR(Degenerate oligonucleotide primed-polymerase chain reaction,DOP-PCR)與擴增前引物延伸PCR(Primer extension preamplification-PCR,PEP-PCR)[11]。這兩種方法都是在Taq聚合酶的作用下通過引物結合、延伸然后退火的過程執行擴增行為。因為在擴增時,即便是小的擴增條件改變(如引物、Taq聚合酶濃度或退火溫度等)也會因指數級擴增造成結果出現巨大差異,以致基因組的某些區域擴增過度而另一些區域擴增不足,產生較大的擴增后偏倚[12]。因此基于PCR擴增的測序技術有很大的基因組覆蓋差異,其范圍可達到10%-90%之廣[12-13],如單核測序(Single-nucleus sequencing,SNS)基因組覆蓋廣度只有約10%,而多次退火循環擴增技術(Multiple annealing and looping-based amplification cycles,MALBAC)[12,14]利用特異引物實現僅擴增原始基因組的效果,使得基因組覆蓋廣度達到90%以上,從而減少因為DNA被循環擴增而產生的擴增偏倚。多重置換擴增(Multiple displacement amplification,MDA)[15]利用高保真聚合酶在恒溫下進行鏈置換合成,由于該聚合酶具有DNA鏈3'-5'校正作用,所以相比于上述PCR型擴增技術大約可將保真度提高一千倍。現在單細胞基因組擴增還可采用PicoPLEX[16]擴增技術,它具有相比于MALBAC更短的細胞裂解時間,重復性更高,對細胞拷貝數變異(Copy number variations,CNV)更加敏感等優勢,因此逐漸受到人們青睞。擴增后的基因組在傳統二代測序的基礎上進行測序分析。
1.2.2 單細胞轉錄組測序 單細胞轉錄組的測序信息能直觀地反映出細胞間基因表達差異。現有的單細胞轉錄組測序過程都是利用含有poly-T的寡核苷酸來捕獲含有poly-A尾部的RNA分子,之后轉錄成穩定的cDNA分子。現為了方便后續建庫[17],用十幾個堿基組成的特殊barcodes對同一個細胞的轉錄本進行標記,使得在之后的細胞池中可以準確區分每一個細胞的單細胞信息,避免不同細胞信息混合在一起難以區分彼此的情況,如STRT-seq、CEL-seq便采用此種方法。特殊分子標記(Unique Molecular Identifier,UMI)的引入可以在很大程度上糾正擴增造成的結果偏倚和降低背景噪音,如CELseq2、Drop-seq則是應用UMI特殊標記的建庫方法[18]。得到cDNA后再通過體外轉錄技術(In vitrotranscription,IVT)進行擴增以滿足后續測序要求。測序過程可根據目的和條件選擇不同的測序手段,一般來說有兩種轉錄本的測序方法:全長測序和3'或5'端測序。全長測序能夠完整的表達轉錄組序列信息并能識別出基因變異以及轉錄部分的基因改變,如單核苷酸變異和融合轉錄等。對于3'或5'端50-100 bp信息已經能滿足實驗的要求,考慮到成本和全長轉錄的實際價值,末端測序的方法則會大幅降低成本。
1.2.3 單細胞表觀遺傳學測序 近年來,表觀遺傳學的研究已成為人們從分子水平上了解細胞行為的重要生物學分支。表觀修飾為人們理解由基因組和轉錄組控制的細胞行為之外的行為提供了途徑。DNA甲基化在表觀遺傳中起著重要作用,而哺乳動物中5-胞嘧啶甲基化(5mC)則在DNA甲基化中占主導地位,因此利用單細胞測序技術測定DNA甲基化程度十分必要。當前亞硫酸氫鹽測序的原理是利用亞硫酸氫鈉處理DNA后將未修飾的胞嘧啶轉化為尿嘧啶,但不影響5mC[19]。基于還原替代亞硫酸氫鹽測序(Reduced representation bisulfite sequencing,RRBS)和全基因組重亞硫酸鹽處理后的接頭和引物擴增(Post-bisulfite adaptor tagging,PBAT)測序策略,建立了單細胞DNA甲基化組譜分析方法,避免了DNA丟失,確保下一代基因測序(Next generation sequencing,NGS)中覆蓋整個基因組。亞硫酸氫鹽處理后的DNA再經過PCR擴增,至滿足后續測序要求再測序。如已普及的ATAC-seq技術[20],通過識別開放染色質并引入引物在染色質開放區域進行高通量測序達到對單細胞表觀遺傳修飾進行測序的目的,這是一種集細胞捕獲、文庫建立與測序一體的技術,大大簡化了測序的過程。
1.2.4 單細胞多組學測序 對于某些單細胞樣本獲取并不容易,并且在制備單細胞懸液的過程中不可避免地造成細胞損失,這使得期望利用某一樣本進行復雜的多組學分析變得異常困難。然而對多組學的平行測序是幫助我們全面綜合分析細胞行為的重要一步。現已有多個課題組開發了兩組學甚至多組學同時測序的方法,如由Dey等[21]報道的DRseq技術,在裂解單細胞后同時擴增細胞內的基因組與轉錄組,然后將裂解物分成兩個部分,分別用于基因組測序和轉錄組測序。該課題組利用DR-seq分別對小鼠胚胎干細胞系(E14)和乳腺癌細胞系(SK-BR-3)進行了測序發現,細胞到細胞之間基因的變化程度與拷貝數變異呈負相關趨勢,表明拷貝數變異可能驅動個體細胞的基因表達。但這個方法存在不能完全隔離開DNA和RNA的問題,無法避免相互干擾的風險。另一種基因組與轉錄組同時測序的G&T-seq技術由Macaulay等[16]報道,該課題組利用G&T-seq技術對已經基因組測序的乳腺癌細胞和B淋巴母細胞系再次測序發現,B淋巴母細胞中存在11號染色體三體的細胞亞群。同時對分裂期的小鼠胚胎細胞和誘導多能干細胞進行測序,明確了細胞分裂中染色體的錯配與染色體表達量的關系,表明該測序方法可獲得的信息遠遠超過之前的測序方法。隨著技術的不斷成熟,單細胞三組學測序(scTrio-seq)也逐漸為人們所用,它是將細胞裂解液的上清液進行轉錄組測序,而對裂解物沉淀進行基因組和DNA甲基化測序的方法,Hou等[22]利用其對25個來源于人肝細胞癌組織的單細胞進行基因組、甲基化組和轉錄組同時測序,跟據CNVs,DNA甲基化和單個細胞轉錄組確定了肝細胞癌的兩個細胞亞群,揭開了每個細胞亞群之間存在的異質性差異。另外,Bian等[23]在結直腸腫瘤病人原發瘤、淋巴結和遠處轉移瘤的多部位取樣,運用優化的單細胞多組測序方法(scTrio-seq2),進一步了解結直腸腫瘤的內部異質性。因此多組學同時測序的方法能為人們提供更加全面綜合的視野。
單細胞測序后的原始數據需要經過一系列步驟轉換為可讀的基因表達矩陣。在生成FASTQ讀數后要通過質量控制步驟,篩選掉不符合要求的數據然后用barcodes進行復讀,再由計算機對映射讀數進行量化,以創建一個表達矩陣[24]。標準化的原始數據處理流程和計算機處理所用的數據處理包都可在公開數據庫下載。通過對數據標準化處理[25],以去除非生物技術效應相關的高水平的噪音和差異性,包括在樣品制備過程中由于隨機RNA丟失、偏倚擴增和文庫測序不完整而導致的非準確情形。其他不穩定性也可能來自于對加工單元(如板或陣列)、時間點、設備和其他來源的批量影響。因此,數據標準化成為單細胞數據分析的重要步驟。
單細胞的數據分析要根據自己的實驗要求設定相應參數。以scRNA-seq為例,主要是對測試樣本進行異質性分析,評估新的細胞類型或分析細胞發育過程中發生的基因變化。通過已知的特定基因對細胞進行分群,而后常見的可視化分析是降維處理并把各個群的細胞投影到二維或者三維坐標空間中去。普遍被人們采用的數據處理方法是主成分分析(Principal components analysis,PCA)和t-分布隨機鄰域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法。盡管種群標記時允許監督聚類,但在大多數情況下,無假設的非監督聚類是首選的[26]。不同實驗間的測試數據已經被上傳至公開數據庫,允許科研人員免費訪問。
單細胞測序現已應用于肝臟疾病研究中,并已取得一定成果。現有研究主要集中在對肝組織中所含有的各類細胞進行分群探索,期望揭示各細胞間的相互聯系。在肝病方面,肝癌和肝硬化則是人們探索的重點,通過單細胞測序技術對疾病的起因、發展和治療奠定理論基礎和提供治療依據。
肝臟內含有豐富細胞群、細胞亞群、并且各群細胞之間相互作用,共同構建平衡的肝內環境,細胞的異質性和強大再生能力是其主要特點。在探索肝內異質性方面,Aizarani等[27]通過對9個人的近10000個細胞進行了單細胞RNA測序,構建了一幅人類肝臟圖譜。該課題組基于mCEL-seq2技術對肝臟中所有細胞類型進行確定,并發現一種具有祖細胞特征的EPCAM+TROP2int細胞群,它對肝臟內平衡的維持,肝再生和疾病發生發展十分關鍵。這次測序結果幫助人們尋找到此前從未發現的內皮細胞亞群,并對找到正常肝臟和癌變肝臟之間的變化起到重要作用。這個肝臟全細胞群圖譜的描繪,有助于人們從宏觀逐步走向微觀了解肝臟。同時,新發現的細胞群也表明,以往分析組織病變的方法可能忽略了某些數量稀少的細胞群,因為這些細胞被其他數量龐大的細胞所掩蓋,而這些少數細胞很可能是決定組織正常或病變的執牛耳者。肝臟作為人體免疫過程中的重要器官,也需要揭示其所包含的免疫細胞特征。MacParland等[28]首次利用單細胞測序確定了肝細胞內獨特的巨噬細胞群并明確了其功能通路。而此前由于肝內巨噬細胞的分離難度和復雜的個體基因導致人們對其知之甚少。作者發現了兩類不同的CD68+巨噬細胞群,其中表達豐富的LYZ,CSTA,CD74的一群被定義為肝內的一種炎性巨噬細胞,然而以前僅憑借細胞表面標志物區分調節性巨噬細胞或炎性巨噬細胞的方法并不能準確區分同種標志物下的不同亞群細胞。對肝內免疫細胞群的精確劃分將有助于人們構建肝內免疫系統圖譜,幫助人們更為深刻的認識正常與異常肝臟之間的差異。
單細胞測序技術除了幫助人們識別不同的細胞群,還可以幫助了解各類細胞在發育過程中的變化,評估微環境與組織生長發育關系。肝臟作為在發育成熟過程中生理功能變化的一個典型代表器官,已經發現在發育中出現造血功能的改變,而其內在的原因并不清楚。因此,Popescu等[29]通過對大約140000個肝臟和74000個皮膚、腎臟和卵黃囊細胞的單細胞轉錄組分析,確定了人類血液和免疫細胞在發育過程中的全部功能。并從造血干細胞/多能祖細胞(Haematopoietic stem cells and multipotent progenitors,HSC/MPPs)中推斷出分化軌跡,以及評估了組織微環境對血液和免疫細胞發育的影響。實驗證實,在妊娠期間胎兒肝臟的造血成分發生了變化,不再以紅細胞為主,而是伴有造血干細胞和多能干細胞平行分化。胎齡對HSC/MPPs分化潛能的調節提示這可能是在妊娠第一和第二階段調節胎兒肝臟造血功能輸出的一種額外的功能機制。而機體也是處于不斷變化過程中的,揭示各個器官以及血液細胞發育時的動態信息對了解和實時監測人體動態變化十分關鍵,同時也對解密肝臟造血機制和勾畫兒科肝臟、血液與免疫疾病的關系藍圖起重要作用。
肝硬化是肝臟疾病中致死率較高的一類疾病,其主要特征是肝臟的大范圍纖維化。目前,人們對肝纖維化的治療并無十分有效的手段,對其背后的機理也缺乏深入的理解。然而近期一篇發表在Nature上的單細胞測序工作[30]幫助人們了解肝纖維化背后的細胞互作情況。Ramachandran等[30]通過對超過100000個人類細胞進行scRNA-seq后發現一個與疤痕形成有關的TREM2+CD9+巨噬細胞亞群,這是一類在肝纖維化過程中顯著促進纖維化的細胞亞群。同時定義了一種在纖維化微環境下才存在的ACKR1+和PLVAP+內皮細胞,研究表明它能夠擴大肝纖維化的面積并促進白細胞遷移。另外,該文章還揭示了細胞背后的促纖維化信號通路,如TNFRSF12A,PDGFR和NOTCH信號。據此我們可以深入了解到參與肝纖維化細胞和背后的分子機理,為尋找合適的治療靶點提供參考。以上兩篇文獻表明,肝臟內巨噬細胞與多種生理狀態相關,是一個不可忽略的細胞群體。Krenkel等[31]和Dobie等[32]兩個課題組的工作表明肝纖維化還與肝星狀細胞有關。前者單細胞轉錄組測序結果表明,在肝損傷之后,肝星狀細胞向膠原分泌型肌成纖維細胞轉分化會促進肝纖維化過程。數據顯示了肝星狀細胞和肌成纖維細胞的異質性,表明肝纖維化中存在功能相關的亞群。而Dobie課題組發現中心靜脈相關的肝星狀細胞(Central vein-associated HSCs,CaHSCs)作為膠原生成細胞是肝小葉中心纖維化的主要控制因素,并且鑒定出LPAR1是其治療靶點,為肝纖維化的治療提供了新方向。肝纖維化的研究已經因單細胞測序技術而加快了腳步,但是內在機制和治療靶點的尋找仍需要不斷深入。
肝癌是全球第六大癌癥,也是導致癌癥死亡的第二大原因,僅中國就占新發病例和死亡病例的一半以上。在中國所有的癌癥中,肝癌是存活率最低的腫瘤之一,5年相對生存率僅為10.1%[33]。為揭示免疫細胞在肝細胞癌中的動態變化,Zhang等[34]用商業成熟的SMART-seq2和10× Genomics Chromium3技術對肝癌患者身體多個部位的細胞進行單細胞測序,通過描繪不同組織中細胞的動態變化構建出更加廣泛的細胞聯系。他們發現不同組織的免疫細胞組成差別巨大,來自于患者腹水的細胞有很強的組織特異性,并通過生物學分析得出存在巨噬細胞從腫瘤遷移到腹水的過程。除此之外,與患者不良預后有關的基因SLC40A1和GPNMB也在肝臟腫瘤相關巨噬細胞中顯著表達,基因敲除驗證表明這兩個基因與腫瘤內炎癥反應息息相關。這是人們首次對人體不同組織之間細胞狀態關聯性探究。人體是一個有機的整體,割裂某一部分必不能觀察到全貌,因此這也為研究腫瘤發生時對整體產生的影響提供了范例。值得注意的是,肝臟作為一個功能復雜的器官,其組成成分的復雜造成了發生腫瘤病變時肝臟內并非只有肝細胞癌的發生。Xue等[35]利用單細胞基因組和轉錄組測序手段分析鑒別了133例肝癌合并肝內膽管癌(Combined hepatocellular and intrahepatic cholangiocarcinomac,HCC-ICC)患者的組織樣本發現,包括分離、合并和混合亞型。將cHCC-ICC與肝細胞癌、肝內膽管癌進行綜合比較發現,合并型和混合型cHCC-ICCs是不同的亞型,具有不同的臨床和分子特征,并從分析數據中得出可以Nestin可作為cHCC-ICCs生物標志物的結論,為臨床上治療cHCC-ICCs提供了潛在靶點。近年來腫瘤干細胞愈發受到人們關注,作為腫瘤頑固且難以治愈的罪魁禍首,人們期望對腫瘤干細胞加以分析,以找到精確有效的腫瘤干細胞靶點。Zheng等[36]通過對腫瘤干細胞轉錄組的分析發現肝腫瘤干細胞在肝內是獨特的存在,其異質性高于普通肝癌細胞。研究表明不同標志物的肝癌干細胞可能受到不同的腫瘤驅動因子驅動,同時單細胞水平的肝癌干細胞具有表型、功能和轉錄組異質性。不同的腫瘤干細胞可能給腫瘤帶來不同的異質性,這就解釋肝癌治療效果因個體而異的原因。這個工作為研究腫瘤細胞亞群和腫瘤發生發展提供了獨特的視角,提示對腫瘤的治療應該由普遍化走向個體化,找到適合每一個人的精準治療方法才是腫瘤治療的未來之路。
自從單細胞測序技術面世以來,已逐漸揭開多種疾病的神秘面紗,尤其在胚胎發育和腫瘤機制及治療領域有著廣闊的應用前景。目前在其腫瘤領域已有很多優秀的工作,如人們利用單細胞測序技術深入了解肺癌細胞和結直腸癌微環境特征[37-38]、乳腺癌細胞微環境的免疫細胞表型[39]、頭頸部鱗狀細胞癌[40]、腎癌細胞特征[41]及卵巢癌[42]等。此外,單細胞測序技術在其他疾病上的應用也體現出巨大的價值,如對腦細胞圖譜的繪制幫助人們理解神經系統疾病的發生原因以及奧爾默茲海默癥相關的疾病線索[43-44],高分辨率小腸上皮細胞表達圖譜的繪制為腸道如何防止病原體入侵提供了線索[45]以及通過分析細胞組成和基因表達動態變化剖析了糖尿病的發生與發展[46]。但是目前單細胞測序技術還有待進一步提升,如單細胞懸液的制備。由于某些樣本十分稀少且難以獲得,細胞懸液制備過程中操作復雜、條件苛刻,稍有不慎會造成樣本的細胞死亡率過高,或被污染致使在后期數據處理過程中達不到質控要求,造成數據失真或損失。再者由于單個細胞的DNA含量極少,需要擴增至可測序的數量,盡管人們在各個階段都采取措施(如采用高保真酶、特殊引物、數據處理標準化等),但全基因組擴增產生的擴增偏倚仍難以避免,且較為微弱的拷貝數變異仍然可能在背景噪音中掩蓋。這就不單單需要單細胞測序技術的創新發展,也需要輔助測序手段,如捕獲、擴增技術的共同進步。另外,現有的單細胞測序技術是針對含有poly-A尾的mRNA,對于其他可能有重要功能卻沒有該特點的microRNA,lncRNA等尚未建立完善的測序手段,這可能是單細胞測序技術未來需要克服的困難之一。
現有文獻表明肝臟是個龐雜的細胞群體,多種肝疾病(如肝硬化、肝癌等)發生發展也是細胞與細胞、細胞與微環境共同作用的結果。雖然已有相關工作[28,34]表明肝臟中的免疫細胞之間聯系和功能復雜,但更有意義的是進一步描繪其在疾病發展全過程的動態變化。利用單細胞測序技術對肝臟中的免疫細胞進行詳細的分群也能幫人們進一步了解肝臟疾病的發病機制。當下成熟的單細胞測序在數據處理上多用t-SNE降維方法將細胞群投影到二維空間中,但實際上這會導致細胞的某個方向上的空間信息的丟失,因此將細胞一一映射到三維空間是單細胞測序未來需要完善的。保存完整的空間信息對分析很多器官細胞的動態變化至關重要,近期Yu等[47]通過分析來自13位中國人的神經膠質瘤表達圖譜,生成了膠質瘤的時空景觀,揭示了膠質瘤不同子區域之間的侵襲模式,這是單細胞測序在腫瘤空間信息方面的又一次探索,雖然已有部分科研人員對肝臟細胞的空間信息作出了初步嘗試[48-49],但仍然不夠深入,也許對肝內多種細胞群的空間解析會帶來更加有趣的結果。