999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息熵的腫瘤樣本純度估算研究?

2021-11-08 06:19:26王麗華
計算機與數(shù)字工程 2021年10期
關(guān)鍵詞:利用信息方法

王麗華

(中國石油大學(xué)(華東)計算機科學(xué)與技術(shù)學(xué)院 青島 266580)

1 引言

隨著高通量技術(shù)的發(fā)展和各基因組學(xué)和表觀遺傳學(xué)數(shù)據(jù)的出現(xiàn),為研究腫瘤致病模式及解釋腫瘤發(fā)病機制提供了可能。腫瘤研究中一個重要問題是臨床獲得的腫瘤樣本總是混有正常細胞[1],我們稱為“腫瘤純度”,即腫瘤樣本中腫瘤細胞所占比例。準確評估腫瘤純度有利于腫瘤樣本的準確鑒別分析,降低腫瘤基因分型、復(fù)發(fā)風(fēng)險及療效預(yù)測的分析偏差[2~4]。傳統(tǒng)的腫瘤純度估算方法基本上是由病理研究者通過圖像分析獲得,以及后來出現(xiàn)基于細胞分類的技術(shù),這些方法耗人力且成本高,不適合用來大規(guī)模推廣。巧合的是,腫瘤細胞和正常細胞之間存在著顯著的遺傳和表觀遺傳差異,因此利用現(xiàn)有的高通量數(shù)據(jù)來估計腫瘤純度是可行的。

目前,已有很多方法利用基因表達、拷貝數(shù)變異和單核苷酸多態(tài)性作為預(yù)測因子來估計腫瘤純度[5~12],但很少是基于DNA甲基化。異常的DNA甲基化模式和腫瘤的發(fā)生密切相關(guān),幾乎在所有的癌癥中都存在,并且發(fā)生在癌癥的早期,有望成為癌癥早期診斷的理想標志物。ABSOLUTE[5]利用拷貝數(shù)變異數(shù)據(jù)結(jié)合最大似然估計方法直接計算腫瘤樣本的純度;ESTIMATE[13]利用基質(zhì)、免疫細胞的基因表達譜結(jié)合經(jīng)驗累計分布函數(shù)來估計腫瘤純度;MethylPurify[6]利用DNA甲基化測序數(shù)據(jù)識別差異位點結(jié)合EM算法來評估腫瘤純度;Infinium?Purify[8,12]利用秩和檢驗識別DNA甲基化差異位點并結(jié)合高斯核密度函數(shù)計算腫瘤純度。不難發(fā)現(xiàn),目前利用甲基化數(shù)據(jù)評估腫瘤純度的方法多是基于信息位點的選擇。選擇信息位點是指在腫瘤樣本和正常樣本中甲基化程度出現(xiàn)差異的CpG位點,差異越顯著越有可能被識別為信息位點。盡管目前根據(jù)腫瘤和正常組織甲基化水平差異確定差異甲基化位點的方法已經(jīng)得到了很好的研究,但不同的信息位點選擇方法對腫瘤純度的估計結(jié)果不盡相同,選擇與腫瘤相關(guān)的差異甲基化位點作為信息位點顯得尤為重要。與此同時,DNA甲基化數(shù)據(jù)相對于測序數(shù)據(jù)[14~15]來說是穩(wěn)定且容易獲得的,測序數(shù)據(jù)昂貴且應(yīng)用范圍有限,而突變數(shù)據(jù)則有樣本不穩(wěn)定的風(fēng)險。近年來,利用DNA甲基化數(shù)據(jù)估計腫瘤純度的方法開始出現(xiàn),但仍然很少。

腫瘤純度估算方法側(cè)重于腫瘤間異質(zhì)性[16],同一種腫瘤類型的樣本識別一組差異基因或CpG位點,忽視了腫瘤生長空間的異質(zhì)性,即樣本特異性。本文基于DNA甲基化數(shù)據(jù),利用樣本位點的“信息熵”識別具有樣本特異性的差異甲基化位點,并進行樣本的腫瘤純度評估工作。

2 數(shù)據(jù)來源與處理

本文使用了來自UCSC數(shù)據(jù)庫[17~18]的肝癌LI?HC(Liver Hepatocellular Carcinoma)的DNA甲基化樣本數(shù)據(jù)進行實驗。

為了提高分類預(yù)測的準確性、有效性和可伸縮性,需要對下載到的數(shù)據(jù)進行預(yù)處理:數(shù)據(jù)清理和數(shù)據(jù)過濾。選擇DNA甲基化數(shù)據(jù)中的具有癌旁樣本的腫瘤樣本數(shù)據(jù);為了消除和減小數(shù)據(jù)噪聲,我們對其中的缺失值進行了刪除或填補處理。去除質(zhì)量較差的CpG位點,過濾掉X、Y染色體上、SNP相關(guān)的CpG位點。

3 識別特異性信息位點

為了確定甲基化位點的顯著差異,基于位點的“信息熵”來識別腫瘤樣本的特異性信息位點。對于CpG位點i來說,其正常樣本信息熵INi定義如下:

“超甲基化”定義如下:

式中,βji表示正常樣本j的CpG位點i的β-νalue,ki為用戶定義的閾值。同理,“低甲基化”定義為

本文基于信息熵識別腫瘤樣本的信息位點,IEi越小,說明對于CpG位點i在正常樣本中信息熵越小,甲基化程度表現(xiàn)越穩(wěn)定。對于CpG位點i,其腫瘤信息熵ITi定義如下:

加入腫瘤樣本后帶來的信息量可以表示為

選擇信息量增幅大的前s個CpG位點作為信息位點。為了評估選出的信息位點的顯著差異性,即識別出的信息位點是個小概率事件。換句話說,信息位點的差異性不是隨機的。當然,每個信息位點的p值可以根據(jù)公式進行計算,以保證信息位點選擇的概率極小。根據(jù)王等[19]在全局零假設(shè)的前提下,信息位點的具體p值計算公式可以表示為

式中,D f為每次選擇的信息位點的數(shù)量,m為置換檢驗重復(fù)的次數(shù),Di為信息位點i的原始排名,~Di為信息位點i在置換檢驗中的排名,函數(shù)rank是用來計算信息位點的原始排名比置換檢驗中排名靠前的次數(shù)。當信息位點的pi

根據(jù)信息位點的β值估計腫瘤純度,測定方法源于鄭等人[12]。首先,確定腫瘤樣本信息位點的甲基化程度,判定依據(jù)是正常樣本每個CpG位點的平均β值。如果腫瘤樣本中信息CpG位點的β值高于正常樣本中相應(yīng)的β值,則該CpG位點為高甲基化;如果β值低于正常樣本,則該CpG位點為低甲基化。其次,轉(zhuǎn)換腫瘤樣本信息位點的β值。轉(zhuǎn)換的規(guī)則是,如果CpG位點是超甲基化,則β值保持不變;如果該CpG位點是低甲基化,則β值轉(zhuǎn)換為1-β。最后,利用高斯核密度估計方法對轉(zhuǎn)換后的信息位點的β值進行估計。

4 最佳信息位點數(shù)目選取

本文采用皮爾森相關(guān)系數(shù)R(Pearson correla?tion coefficient)來度量不同數(shù)量信息差異甲基化位點的選擇對腫瘤純度的估算結(jié)果的影響。同時為了研究信息位點的顯著差異性,將腫瘤純度結(jié)果與數(shù)據(jù)集中隨機選擇的多組“信息位點”估算的結(jié)果進行比較。

圖1表示的是選擇不同數(shù)量的信息位點和隨機位點的情況下,純度估計值的相關(guān)系數(shù)R,這里計算的相關(guān)系數(shù)是與InfiniumPurify方法相比的。圖1的橫坐標表示選擇不同數(shù)量的CpG位點,縱坐標表示本文方法估算出的結(jié)果與InfiniumPurify的相關(guān)性。圖1中虛線表示的是利用本文方法選出的信息位點進行估計的,實線表示利用隨機選擇位點進行估計的相關(guān)性。從圖1中可以看出,利用本文方法選出的信息位點估算出的腫瘤純度結(jié)果與InfiniumPurify方法的相關(guān)性更高,這也表明本文方法選出的信息位點更具有顯著差異性。同時,利用信息位點估算腫瘤純度的曲線趨勢,在信息位點數(shù)目未達到1000之前,相關(guān)性不斷增加,選擇的信息位點數(shù)目達到1000后相關(guān)性基本不再增加,后續(xù)基本保持穩(wěn)定,因此我們后續(xù)實驗過程中,信息位點的數(shù)目選擇為1000。與此同時,利用隨機位點估算腫瘤純度的相關(guān)性隨著位點選擇數(shù)目的增加呈現(xiàn)出增長的趨勢,但仍舊低于利用信息位點估計的相關(guān)性。我們后續(xù)隨機選擇20000個CpG位點,相關(guān)性會呈現(xiàn)出略微下降的趨勢,這是由于選擇的位點數(shù)目越多,冗余信息也越多。

圖1 選擇不同數(shù)量CpG位點的相關(guān)性

5 實驗結(jié)果及分析

本文得到的腫瘤純度估算結(jié)果與InfiniumPuri?fy、ESTIMATE、CPE方法比較的散點圖分別如圖2(a)、(b)、(c)所示。圖中的橫坐標表示的都為本文方法估算出的腫瘤純度值,縱坐標分別表示Infini?umPurify、ESTIMATE、CPE方法估計出的腫瘤純度值。圖中的斜線表示相關(guān)性近似程度的趨勢線。圖中的R標識兩種方法皮爾森相關(guān)系數(shù),p是指p值,表示的是顯著性水平。

圖2 與InfiniumPurify、ESTIMATE、CPE方法腫瘤純度比較散點圖

通過圖2可以看出,本文方法估算出的腫瘤純度值與現(xiàn)有的其他方法具有較高的一致性。圖2(a)中與InfiniumPurify方法相關(guān)性最高,為0.81,最低為與CPE方法的相關(guān)性,為0.54。圖2(c)中的CPE方法的結(jié)果是取ABSOLUTE、ESTIMATE、HE染色和LUMP方法腫瘤純度結(jié)果的中值獲得的,而ABSOLUTE方法沒有對應(yīng)的腫瘤樣本純度值。與CPE方法的相關(guān)性略低一些,這不排除是因為我們實驗所用的樣本數(shù)略少的原因,腫瘤純度的差異容易影響相關(guān)性的高低。將方法應(yīng)用于更多的腫瘤樣本,這也是后續(xù)要繼續(xù)研究的方面。

6 結(jié)語

本文使用UCSC數(shù)據(jù)庫中肝癌的DNA甲基化數(shù)據(jù),篩選出其中的疾病樣本及其配對的正常樣本數(shù)據(jù),基于CpG位點的“信息熵”識別出腫瘤樣本的特異性信息位點,根據(jù)高斯核密度估計方法,利用甲基化信息位點的顯著差異性估算腫瘤樣本的純度。實驗結(jié)果表明本文能夠準確地估算出腫瘤純度,與現(xiàn)有的其他方法具有高度一致性,且估算出的腫瘤純度結(jié)果考慮了樣本特異性,更具生物學(xué)意義,且DNA甲基化數(shù)據(jù)相較于突變數(shù)據(jù)、拷貝數(shù)變異數(shù)據(jù)更具有穩(wěn)定性,為研究腫瘤樣本提供了不同方面的解釋。

猜你喜歡
利用信息方法
利用min{a,b}的積分表示解決一類絕對值不等式
利用一半進行移多補少
利用數(shù)的分解來思考
Roommate is necessary when far away from home
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产大全韩国亚洲一区二区三区| 香蕉精品在线| 91久久国产热精品免费| 国产成人综合亚洲网址| 玖玖免费视频在线观看| 日韩精品一区二区三区免费在线观看| 亚洲黄色成人| 在线播放国产99re| 免费国产高清视频| 午夜小视频在线| 中文字幕在线永久在线视频2020| 国产一区二区色淫影院| 国产91特黄特色A级毛片| 在线观看精品国产入口| 亚洲综合久久一本伊一区| 国产99热| 伊人久久婷婷| 五月婷婷精品| 国产靠逼视频| 国产亚洲精品精品精品| 人妻精品久久久无码区色视| 国产一区在线观看无码| 免费看美女毛片| 成人另类稀缺在线观看| 农村乱人伦一区二区| 久久99国产精品成人欧美| 精品日韩亚洲欧美高清a| 在线日本国产成人免费的| 亚洲欧美另类专区| 亚洲AV无码一区二区三区牲色| 麻豆精品在线| 亚洲男人的天堂久久香蕉| 日韩最新中文字幕| www亚洲天堂| 色成人亚洲| 激情六月丁香婷婷| 亚洲va视频| 国产永久在线视频| 91区国产福利在线观看午夜| 久久久精品无码一二三区| 黄网站欧美内射| 国产96在线 | 国产精品思思热在线| 亚洲日本中文字幕天堂网| 午夜毛片福利| 久夜色精品国产噜噜| 日本三区视频| 老司机久久99久久精品播放| 国产福利在线免费观看| 成人毛片在线播放| www中文字幕在线观看| 无码精品一区二区久久久| 欧美日韩v| 日本一区二区三区精品视频| 91www在线观看| 久久成人国产精品免费软件| 四虎影视库国产精品一区| 免费一看一级毛片| 亚洲综合日韩精品| 亚洲天堂网在线观看视频| 国产18页| 欧美日韩精品一区二区视频| 女高中生自慰污污网站| 女人18毛片久久| 中文字幕 91| 欧美日韩在线第一页| 青青青亚洲精品国产| 午夜激情婷婷| 色综合中文字幕| 又大又硬又爽免费视频| 天天综合网亚洲网站| 久久精品人妻中文视频| 成人欧美日韩| 国产玖玖玖精品视频| 亚洲熟妇AV日韩熟妇在线| 青青草原国产| 又黄又爽视频好爽视频| 一级毛片免费观看不卡视频| 国产永久免费视频m3u8| 538精品在线观看| jizz在线观看| 亚洲色成人www在线观看|