





摘 要:單細(xì)胞轉(zhuǎn)錄組測序(scRNA-seq,single cell RNA sequencing)技術(shù)為單個(gè)細(xì)胞高通量、高分辨率的深入研究提供了機(jī)會(huì),為在單細(xì)胞層面研究細(xì)胞功能及其背后的基因調(diào)控機(jī)制提供了重要技術(shù)手段。然而這項(xiàng)技術(shù)也帶來新的挑戰(zhàn),單細(xì)胞數(shù)據(jù)具有規(guī)模大、噪聲高、異構(gòu)性強(qiáng)等特點(diǎn),特別是高比例的數(shù)據(jù)缺失(dropout)嚴(yán)重影響了下游分析的可靠性,甚至掩蓋了基因與基因間的重要關(guān)系。這里提出一種基于負(fù)二項(xiàng)分布的分治插補(bǔ)策略ND-Impute(Negative binomial distribution based Divide and conquer strategy for imputation)對scRNA-seq數(shù)據(jù)進(jìn)行處理,該方法假設(shè)scRNA-seq數(shù)據(jù)符合負(fù)二項(xiàng)分布,利用包含特定損失函數(shù)的自動(dòng)編碼器獲取數(shù)據(jù)的特異性參數(shù),并使用分治策略估計(jì)潛在的基因表達(dá)值。通過聚類效果、相關(guān)性和誤差分析等比較,表明該方法可以有效地恢復(fù)缺失數(shù)據(jù),提高了后續(xù)研究分析的準(zhǔn)確性。
關(guān)鍵詞:單細(xì)胞轉(zhuǎn)錄組測序;數(shù)據(jù)缺失;插補(bǔ)策略;聚類分析
中圖分類號(hào):O211.9 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-414X(2023)01-0014-07
0 "引言
自然界中的生物是復(fù)雜且多樣的,對生物學(xué)表征的研究,離不開對細(xì)胞的深入分析,無論是單細(xì)胞生物還是多細(xì)胞生物,單個(gè)細(xì)胞之間的差異都會(huì)產(chǎn)生不可估量的影響。隨著細(xì)胞分離技術(shù)以及高通量測序技術(shù)的發(fā)展,bulk RNA-seq技術(shù)逐漸被scRNA-seq技術(shù)所取代,scRNA-seq技術(shù)的出現(xiàn)為單個(gè)細(xì)胞的高吞吐量和高分辨率轉(zhuǎn)錄組分析提供了新途徑[1-2]。自2009年首個(gè)scRNA-seq技術(shù)發(fā)布以來,scRNA-seq被越來越廣泛地應(yīng)用于基礎(chǔ)科學(xué)研究中,這項(xiàng)技術(shù)尤其在腫瘤學(xué)[3]、遺傳病學(xué)[4]、免疫學(xué)[5]等生物醫(yī)學(xué)研究中發(fā)揮了重要作用。單細(xì)……