王雷 王穎 李春香 李剛 穆偉斌*
(1.齊齊哈爾醫(yī)學(xué)院 黑龍江省齊齊哈爾市 161006 2.常熟理工學(xué)院 江蘇省常熟市 215500)
癌癥是全世界首要死因,是一種發(fā)病率高,死亡率高,嚴(yán)重危害人類(lèi)健康的無(wú)形殺手,它不僅給患者帶來(lái)身體上的病痛,還給家庭帶來(lái)沉重的負(fù)擔(dān)。我國(guó)截止到2020 年有大約451 萬(wàn)癌癥病例和304 萬(wàn)人因癌癥死亡。隨著生命科學(xué)技術(shù)的不斷發(fā)展,從基因水平了解癌細(xì)胞的發(fā)病機(jī)理越來(lái)越受到重視,并且許多大規(guī)模癌癥工程獲得了海量數(shù)據(jù),隨著后基因時(shí)代的到來(lái)和分子生物學(xué)的發(fā)展,研究人員發(fā)現(xiàn),基因結(jié)構(gòu)的差異、基因功能的改變和基因產(chǎn)物的異常表達(dá)與腫瘤的發(fā)生、發(fā)展密切相關(guān),進(jìn)而把癌基因、抑癌基因以及其產(chǎn)物也列為腫瘤標(biāo)志物,而關(guān)鍵基因?yàn)榘┌Y預(yù)防、診斷和治療生物標(biāo)志物提供關(guān)鍵信息。為推進(jìn)癌細(xì)胞精確醫(yī)療,快速識(shí)別癌癥關(guān)鍵基因,本研究基于此從癌癥基因組的大量基因中挖掘癌細(xì)胞的關(guān)鍵基因展開(kāi)研究。
本研究所用的mRNA 表達(dá)譜芯片數(shù)據(jù)取自美國(guó)國(guó)立生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI) 的基因表達(dá)數(shù)據(jù)庫(kù)(Gene Expression Omnibus, GEO)。分別為GSE54236 和GSE25097 的癌細(xì)胞mRNA 表達(dá)譜芯片數(shù)據(jù)。其中GSE54236 共有161 個(gè)包括癌細(xì)胞組織樣本和相鄰的非惡性組織樣本,其中GSE25097共有50 個(gè)包括癌細(xì)胞組織樣本和相鄰的非惡性組織樣本。下載國(guó)際腫瘤基因組協(xié)作組數(shù)據(jù)庫(kù)(the International Cancer Genome Consortium, ICGC)的癌細(xì)胞突變組數(shù)據(jù),檢索關(guān)鍵詞為“Liver Hepatocellular carcinoma - TCGA, US”,共有105 個(gè)突變數(shù)據(jù)樣本,包括了患者所有的突變數(shù)據(jù)信息。
1.2.1 表達(dá)譜數(shù)據(jù)處理……p>