999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主成分分析的基因芯片數(shù)據(jù)研究

2023-10-16 08:46:26
黑龍江科學(xué) 2023年18期
關(guān)鍵詞:關(guān)鍵差異分析

孫 鑫

(泰州學(xué)院數(shù)理學(xué)院,江蘇 泰州 225300)

0 引言

白血病是血液系統(tǒng)常見的惡性腫瘤,以血液與骨髓中成熟白細(xì)胞及其前體不受控制的惡性增殖為特征[1]。白血病是最常見的癌癥,而急性髓細(xì)胞白血病(AML)是一種嚴(yán)重危害人類健康的惡性血液系統(tǒng)疾病,在兒童急性白血病中的發(fā)生率占15%~30%[2]。近年來,我國AML發(fā)病率逐漸增高[3-4],給家庭及社會(huì)造成了嚴(yán)重的負(fù)擔(dān)[5]。隨著大量基因序列數(shù)據(jù)的出現(xiàn),基因芯片技術(shù)成為基因序列數(shù)據(jù)研究的重點(diǎn)?;蛐酒诩膊☆A(yù)測、太空探索、藥物開發(fā)、食品安全、個(gè)體化治療、農(nóng)業(yè)生物等領(lǐng)域都有一定的應(yīng)用。目前,醫(yī)生主要根據(jù)臨床經(jīng)驗(yàn)進(jìn)行診斷,精確度不高,如果將基因芯片技術(shù)應(yīng)用于檢查中,能夠快速判斷疾病的原因及類型,針對(duì)性地制定科學(xué)合理的治療方案。白血病對(duì)人類健康威脅較大,對(duì)AML患者進(jìn)行基因芯片分析將顯著提高診斷的準(zhǔn)確性,有利于疾病治療。但基因芯片包含大量的數(shù)據(jù),難以直接分析原始數(shù)據(jù),故對(duì)基因芯片數(shù)據(jù)的降維至關(guān)重要,其便于人們快捷地從基因芯片大數(shù)據(jù)中提取關(guān)鍵信息。

1 數(shù)據(jù)來源

基因芯片數(shù)據(jù)可以看作是一個(gè)N×M的矩陣:

其中,M為樣本個(gè)數(shù),N為基因個(gè)數(shù)(一般情況下N?M);行向量Xi=(xi1,xi2,…,xiM)表示基因i在M個(gè)樣本下的表達(dá)水平;列向量Xj=(x1j,x2j,…,xNj)T為在第j個(gè)樣本中每個(gè)基因的表達(dá)水平;元素xij為基因i在第j個(gè)樣本中的表達(dá)水平?;谠摶虮頂?shù)據(jù)矩陣進(jìn)行分析,從國家生物技術(shù)信息中的GEO基因數(shù)據(jù)庫獲取數(shù)據(jù),選取AML的原始數(shù)據(jù)集。表1為該數(shù)據(jù)集的樣本類型及基因個(gè)數(shù)。AML的數(shù)據(jù)集包含兩種類型的樣本,即突變型(mutated)與野生型(wide-type),共78個(gè)。其中突變型樣本量為57,野生型樣本量為21,每個(gè)樣本包含13 515個(gè)基因,故將該數(shù)據(jù)集視為一個(gè)13 515×78的基因芯片數(shù)據(jù)矩陣。

表1 AML數(shù)據(jù)集的樣本類型與基因數(shù)Tab.1 Sample type and gene number of AML dataset

2 差異表達(dá)分析

AML的原始數(shù)據(jù)集包含探針信息,故對(duì)該數(shù)據(jù)進(jìn)行預(yù)處理,獲取基因表達(dá)譜數(shù)據(jù),并將其對(duì)數(shù)化處理。對(duì)處理后的數(shù)據(jù)進(jìn)行差異表達(dá)分析,從而篩選表達(dá)顯著的基因。差異基因是指一個(gè)基因在不同環(huán)境壓力條件下呈現(xiàn)顯著差異表達(dá)的基因。基因差異表達(dá)分析可以篩選出差異表達(dá)顯著的基因,倍數(shù)法是最簡單的差異分析方法。一般令FC=xs/xd,其中xs為實(shí)驗(yàn)條件的基因表達(dá)值,xd為對(duì)照條件的基因表達(dá)值,如果某基因的FC值小于0.5或大于2,則說明該基因差異表達(dá)顯著。

計(jì)算AML基因芯片原始數(shù)據(jù)中每個(gè)基因的FC值及其差異顯著性檢驗(yàn)的P值,P值越小說明基因表達(dá)差異越顯著。繪制火山圖用以反映總體基因的差異表達(dá)情況。如圖1所示,火山圖的橫坐標(biāo)是log2(FC),縱坐標(biāo)是-lgP,圖中每點(diǎn)表示每個(gè)基因。平行于Y軸有兩條虛線,分別為X=1與X=-1,X=-1左側(cè)的點(diǎn)表示FC<0.5的基因,X=1右側(cè)的點(diǎn)表示FC>2的基因。平行于X軸的虛線是Y=1.3(-lg0.05),Y=1.3上方的點(diǎn)表示p值小于0.05的基因,故將圖中綠色與紅色部分的基因標(biāo)記為差異表達(dá)顯著的基因。

圖1 火山圖Fig.1 Volcano plot

AML基因芯片數(shù)據(jù)中包含較多差異表達(dá)顯著的基因,篩選后對(duì)這部分基因進(jìn)一步分析。為了嚴(yán)格篩選基因,設(shè)定FC值大于1.5或小于2/3,設(shè)定P<0.05、P<0.01、P<0.001 三組顯著性檢驗(yàn)水平,分別篩選基因數(shù)據(jù)集,三組數(shù)據(jù)集包含的基因個(gè)數(shù)如表2所示。

表2 三組數(shù)據(jù)集中的基因個(gè)數(shù)Tab.2 Number of genes in 3 datasets

3 主成分分析

對(duì)基因芯片數(shù)據(jù)進(jìn)行降維處理,有一些基因承擔(dān)相同的功能,可以用綜合性指標(biāo)來描述相似性。主成分分析是一種常用的降維方法,對(duì)篩選出來的三組基因數(shù)據(jù)集分別進(jìn)行主成分分析,觀測其結(jié)果。

探討P<0.05數(shù)據(jù)集的主成分分析結(jié)果。根據(jù)表3,前3個(gè)主成分的累計(jì)方差貢獻(xiàn)率為80.18%,達(dá)到80%的門檻,而越往后每個(gè)主成分的方差貢獻(xiàn)率逐漸下降,無限接近0,增長率也逐漸平穩(wěn),故選取前3個(gè)主成分代表原有的78個(gè)樣品點(diǎn)。

表3 P<0.05數(shù)據(jù)集的主成分方差貢獻(xiàn)率Tab.3 Principal component variance contribution rate of P<0.05 dataset

3個(gè)主成分的表達(dá)式為:F1=0.12X1+0.12X2+0.11X3+0.11X4+…+0.11X78,F2=0.03X1+0.06X2-0.03X3-0.001X4+…+0.15X78,F3=0.15X1+0.15X2+0.12X3+0.25X4+…-0.08X78。

觀察3個(gè)主成分的表達(dá)式可以發(fā)現(xiàn),F1的系數(shù)在0.11左右波動(dòng),相對(duì)平穩(wěn),說明該主成分的基因表達(dá)水平波動(dòng)較平穩(wěn),說明F1可視為基因表達(dá)水平的平均狀態(tài),故對(duì)F1不做具體研究。F2的系數(shù)變化較大,且時(shí)正時(shí)負(fù),波動(dòng)范圍較廣,說明F2中基因表達(dá)差異顯著。計(jì)算第二主成分的得分并排序,選取前20名及后20名的基因,對(duì)篩選出的基因功能再做深入研究,從而達(dá)到降維目的。F3與F2一樣,波動(dòng)水平也不平穩(wěn),也可能表示某種基因表達(dá)模式。同樣選取前20名及后20名的基因,研究這些基因功能對(duì)AML的影響。

表4為P<0.05數(shù)據(jù)集中F2得分前20名與后20名的基因,將這些基因視為影響AML的關(guān)鍵基因。

表4 P<0.05數(shù)據(jù)集的第二主成分關(guān)鍵基因Tab.4 Second principal component key gene of P<0.05 dataset

表5為P<0.05數(shù)據(jù)集中F3得分前20名與后20名的基因。觀察表4、表5發(fā)現(xiàn),HOXA9、VCAN等基因重復(fù)出現(xiàn),說明這些基因差異表達(dá)更為顯著,在AML中具有一定的作用。

表5 P<0.05數(shù)據(jù)集的第三主成分關(guān)鍵基因Tab.5 Third principal component key gene of P<0.05 dataset

對(duì)P<0.01與P<0.001的數(shù)據(jù)集同樣進(jìn)行主成分分析,篩選關(guān)鍵基因,結(jié)果發(fā)現(xiàn),HOXA9基因在這兩個(gè)數(shù)據(jù)集中都差異表達(dá)顯著。根據(jù)3組數(shù)據(jù)集的主成分得分排名結(jié)果發(fā)現(xiàn),HOXA9基因高頻出現(xiàn),說明HOXA9差異表達(dá)十分顯著,其在AML中起著至關(guān)重要的作用。相關(guān)研究證實(shí),HOXA9基因在造血干細(xì)胞的擴(kuò)增中發(fā)揮著關(guān)鍵作用,是調(diào)控胚胎干細(xì)胞向造血細(xì)胞轉(zhuǎn)化的關(guān)鍵分子,該基因在急性髓細(xì)胞白血病中發(fā)生失調(diào)[6],故該基因功能異??赡軙?huì)導(dǎo)致AML的發(fā)生。

4 結(jié)論

運(yùn)用差異表達(dá)分析篩選差異表達(dá)顯著的基因,將數(shù)據(jù)分成3組數(shù)據(jù)集,利用主成分分析提取第二、三主成分得分排名前20名及后20 名的基因作為關(guān)鍵基因。結(jié)果顯示,HOXA9基因均高頻出現(xiàn),說明HOXA9基因差異表達(dá)顯著,是影響AML的關(guān)鍵基因,在AML中發(fā)揮著重要的作用?;蛐酒夹g(shù)應(yīng)用廣泛,但基因芯片包含的數(shù)據(jù)量巨大,目前的主要任務(wù)是尋找研究基因大數(shù)據(jù)的方法。主成分分析可用于提取基因芯片數(shù)據(jù)中的關(guān)鍵基因,但也有不足之處。篩選基因時(shí),基因數(shù)目的確定沒有具體標(biāo)準(zhǔn),可能會(huì)對(duì)后續(xù)研究造成影響,要么增加后續(xù)工作量,要么忽略某些關(guān)鍵基因。需進(jìn)一步探討更快速有效的基因芯片數(shù)據(jù)降維方法。

猜你喜歡
關(guān)鍵差異分析
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
高考考好是關(guān)鍵
隱蔽失效適航要求符合性驗(yàn)證分析
找句子差異
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
生物為什么會(huì)有差異?
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
M1型、M2型巨噬細(xì)胞及腫瘤相關(guān)巨噬細(xì)胞中miR-146a表達(dá)的差異
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
生意無大小,關(guān)鍵是怎么做?
中國商人(2013年1期)2013-12-04 08:52:52
主站蜘蛛池模板: 国产午夜在线观看视频| 亚洲熟女中文字幕男人总站 | 老色鬼欧美精品| 中国一级特黄大片在线观看| 久久久久国色AV免费观看性色| 99尹人香蕉国产免费天天拍| 欧美一级99在线观看国产| 成人亚洲国产| 天堂av高清一区二区三区| 亚洲天堂网2014| 午夜精品久久久久久久无码软件| 五月婷婷综合网| 中文成人无码国产亚洲| 国产夜色视频| 99偷拍视频精品一区二区| 国产一级做美女做受视频| www.国产福利| 这里只有精品在线| 精品小视频在线观看| 亚洲av无码久久无遮挡| 青青草国产精品久久久久| av在线5g无码天天| 2018日日摸夜夜添狠狠躁| 国产精彩视频在线观看| 亚洲日韩Av中文字幕无码| 国产乱人免费视频| 欧美视频在线不卡| 亚洲精品福利网站| www.av男人.com| 伊人91视频| 色国产视频| 一级毛片在线播放免费| 无码一区二区波多野结衣播放搜索| 国产精品永久久久久| 成人午夜福利视频| 国模视频一区二区| V一区无码内射国产| 四虎成人在线视频| 成人av手机在线观看| JIZZ亚洲国产| 在线a网站| 91小视频在线观看| 亚洲综合极品香蕉久久网| 久草视频中文| 精品剧情v国产在线观看| 欧美一级高清免费a| 找国产毛片看| 日韩国产亚洲一区二区在线观看| 香蕉99国内自产自拍视频| 精品国产福利在线| 亚洲精品波多野结衣| 五月激情综合网| 在线免费无码视频| 国产麻豆精品在线观看| 国产成人av一区二区三区| 在线精品亚洲一区二区古装| 久久a级片| 91久久偷偷做嫩草影院免费看| 狼友av永久网站免费观看| 黄色成年视频| 久久99热66这里只有精品一| 一本色道久久88亚洲综合| 国产中文一区a级毛片视频| 亚洲第一页在线观看| 日韩A∨精品日韩精品无码| 亚洲日本中文字幕乱码中文| www精品久久| 少妇被粗大的猛烈进出免费视频| 色婷婷综合在线| 91亚洲精品第一| 亚洲综合亚洲国产尤物| 91精品国产福利| 国产视频大全| 国产一区二区三区在线精品专区| 国产情侣一区二区三区| 亚洲国产成人麻豆精品| 国产亚洲精品资源在线26u| 国产不卡一级毛片视频| 无码精品一区二区久久久| 精品欧美视频| 欧美自慰一级看片免费| 97久久免费视频|