潘可 覃亞倫



關鍵詞:驅動通路;泛癌;基因集;調和平均數;粒子群優化;元啟發式
中圖分類號:TP301 文獻標識碼:A
文章編號:1009-3044(2023)20-0023-05
0引言
癌癥是一種復雜的疾病,其發病機制涉及分子水平上的多種因素。因此,從分子層面深入認識癌癥的發生發展過程,對于提高癌癥的診斷、治療和藥物設計等方面的水平具有重要的意義。隨著深度測序技術的飛速發展,科研人員開展了癌癥基因組圖譜計劃[1]、國際腫瘤基因組協作組[2]等大型癌癥基因組計劃,獲得了海量的癌癥數據。如何利用這些數據來有效地識別出促進癌癥發展的驅動基因,已成為生物信息學中至關重要的挑戰之一。早期的研究主要致力于識別單個驅動基因[3-4],然而由于癌癥基因組具有突變異質性[3-5],這類方法的識別效果并不理想。進一步的研究發現,癌癥發生的標靶信號與信號通路的調控是由多個驅動基因共同作用的結果,驅動通路中任何一個驅動基因發生突變均會導致通路失調,從而引發癌癥[6]。因此,在通路水平上分析突變,識別靶向同一通路的基因集合,對于揭示異質性模式和理解癌癥形成更具有生物學意義[7]。驅動通路識別問題可從單癌和泛癌兩個層面來研究[8-11],論文主要關注泛癌驅動通路識別問題。
識別不同癌癥之間的公共驅動通路是揭開癌癥奧秘的重要問題之一,也是研制靶向多種癌癥的藥物的關鍵所在。近年來,這一問題已取得一定的研究進展。2017年,Zhang等人[11]提出了ComMDP和SpeMDP兩種數學規劃模型,分別用于從頭識別不同癌癥的共同及特有驅動基因集。2021年,Wu[12]等人基于人類蛋白質相互作用網絡和泛癌體細胞突變數據,提出了一種新的驅動模塊識別方法ECSWalk,以解決突變基因異質性問題,提高驅動模塊檢測的準確性。同年,Wu[13]等人對R種癌癥的公共驅動模塊識別問題進行研究,提出了一種癌癥公共驅動模塊識別模型,并設計求解該模型的識別方法IDM-SPS。上述方法中,大多數使用了基因相互作用網絡、蛋白質相互作用網絡或已知通路信息等先驗知識[12-13],由于目前先驗知識仍然很不完整[8],使用先驗知識來識別可能會阻礙發現新的突變基因組合。ComMDP算法利用驅動通路的高覆蓋和高互斥特性,首先嘗試從頭識別方法來探測多種癌癥間的公共驅動通路,獲得了若干具有生物學意義的驅動通路[11]。它將用于單一癌癥的最大權重子矩陣問題[9]擴展到多種癌癥問題求解,即試圖找到一個使每種癌癥對應的權重和最大化的基因集。然而,由于不同癌癥的樣本數量差異很大,絕對權重值可能反映了完全相反的突變狀況,同時權重累加和最大不能確保各權重都最大。針對這個問題,論文提出了一種基于相對權重值和調和平均數的新模型CDP(common drive path?way),并設計求解該模型的粒子群優化算法P-CDP。實驗結果表明,識別準確度主要受到模型的影響,基于模型CDP的識別方法能夠獲得較基于ComMDP方法更高的識別準確度;提出的粒子群優化算法在求解大規模問題時仍具有較好的性能;與ComMDP方法相比,論文提出的識別方法能夠識別出被ComMDP方法遺漏且具有生物學意義的驅動通路。
1 符號定義及問題模型
3.2 CB 數據集
在表2中,基于COADREAD和BLCA樣本,針對參數k 設置了8組實驗(3 ≤ k ≤ 10) 。表中字母C和P 分別表示算法ComMDP和P-CDP,后續表均以此方式表示。
如表2所示,P-CDP方法識別的基因集W?函數值較ComMDP方法識別的基因集W?函數值要大。P-CDP 方法共識別12個基因TP53, HCN1, APC, IFNA6, RB1, POLB, CTNNB1, HRAS, TGFBR2, CHD1, MAP3K1,C10orf71( 加粗基因表示僅被P-CDP方法識別),其中4個基因未被ComMDP方法所識別。ComMDP算法識別的基因涉及6 個信號通路:viral carcinogenesis 通路[17] (HRAS, RB1, CCND1), PI3K-Akt signaling pathway 通路[18] (IFNA6, HRAS, EPHA2, CCND1), thyroid hormonesignaling pathway通路[19] (HRAS, CTNNB1, CCND1), sig?naling pathways regulating pluripotency of stem cells 通路 [20] (APC, HRAS, CTNNB1), FoxO signaling pathway通路[21] (HRAS, CCND1, TGFBR2) 和hippo signaling path?way通路[22] (TGFBR2, APC, CTNNB1, CCND1)。P-CDP 方法能夠識別出富集在前3 個通路的新基因:viralcarcinogenesis [17] (TP53, HRAS, RB1, POLB),PI3K-Aktsignaling pathway 通路[18] (TP53, IFNA6, HRAS), thyroidhormone signaling pathway通路[19] (TP53, HRAS, CTNNB1),且其識別的基因還富集在一個重要的致癌通路MAPK signaling pathway[23] (TP53, HRAS, TGFBR2,MAP3K1)。由于P 值均小于0.0001,因此在不同k 取值下識別的基因集均具有統計顯著性。
3.3 CBB數據集
將BRCA 樣本整合至CB 數據集構建CBB 數據集,針對k 的不同取值識別公共驅動基因集。識別結果如表3所示,與ComMDP方法獲得的基因集相比,P-CDP方法獲得的基因集仍然均具有較大的W?函數值。P-CDP 方法總共識別12 個基因TP53, GATA3, CDH1, MTAP, MAP3K1, HCN1, SDK1, MAGEL2, PIK3R1, DBIL5P, BRCA2, MLL2,其中5 個基因未被ComMDP方法所識別。ComMDP方法識的基因涉及5 個重要的信號通路:apoptosis通路 [24] (TP53, PIK3CA),PI3K-Akt signaling pathway 通路[18] (TP53, PIK3CA,TNXB), neurotrophin signaling pathway 通路[25] (TP53,PIK3CA, MAP3K1), bacterial invasion of epithelial cells 通路[26] (PIK3CA, CDH1) 和 MAPK signaling pathway通路[23] (TP53, MAP3K1, NF1)。P-CDP方法能夠識別富集在前4 個信號通路上的新基因:apoptosis 通路 [24](TP53, PIK3R1), PI3K-Akt signaling pathway 通路[18](TP53, PIK3R1), neurotrophin signaling pathway 通路[25](TP53, PIK3R1, MAP3K1), bacterial invasion of epithe?lial cells 通路[26] (PIK3R1, CDH1)。由于P 值均小于0.0001,因此在不同k 取值下識別的基因集均具有統計顯著性。
基于上述實驗,P-CDP方法共識別出11個Com?MDP 方法未識別的基因:POLB, MTAP, SDK1, PIK3R1, DBIL5P, MLL2, CHKB, GPS2, NFE2L2, CABLES1 和ATM。其中4 個基因(POLB,PIK3R1, CHKB, ATM) 參與了8個重要通路,5個基因(MTAP,MLL2,GPS2, NFE2L2, CABLES1) 已被證實與多種癌癥的發病相關。例如,甲基硫代腺苷磷酸化酶MTAP是一種經常被p16編碼的基因,在不同類型的腫瘤中,MTAP 缺失與腫瘤侵襲性增加和預后不良有關;賴氨酸甲基轉移酶KMT2D(也稱為MLL2) 是最常見的突變基因之一,其突變可能會通過擾動控制B細胞激活通路的抑癌基因的表達來促進惡性增生;GPS2 參與增殖、凋亡、DNA修復等許多生理和病理過程,在脂肪肉瘤中起著抑癌作用;NFE2L2 也稱為NRF2,是常見的抑癌基因之一,NRF2的激活會加快癌細胞的增殖和生長;CABLES1 是新型垂體腫瘤易感基因,參與腎上腺垂體負反饋細胞周期調節。
4 結論
識別跨多種類型癌癥的公共驅動通路是一項極其重要的任務。論文對這一問題進行了深入研究,并取得了兩項重要成果:首先,提出了一種改進的數學模型,能夠從頭開始識別多種癌癥類型之間的公共驅動基因集。該模型采用相對權重值代替絕對權重值,避免了大樣本量癌癥對權重值的決定作用,并引入調和平均數,使各矩陣平均權重值較高且差距較小。其次,通過引入一種短粒子編碼方式,提出了一種求解該模型的粒子群優化算法 P-CDP。
利用模擬數據和真實的生物數據對提出的粒子群優化算法進行了實驗測試。結果表明,該算法在求解大規模問題時仍具有較好的性能。論文對比分析了ComMDP和P-CDP兩種方法的識別性能,實驗結果表明,P-CDP方法能夠識別出未被ComMDP方法識別的重要基因。首先,對于ComMDP方法識別的基因所富集的生物通路,算法P-CDP可以識別出富集于這些通路中的新基因;其次,算法P-CDP識別的基因還富集于其他重要的癌癥相關生物通路;最后,算法PCDP能夠識別出在癌癥形成和發展中起至關重要作用的基因。
綜上所述,實驗結果表明,P-CDP能夠成功地識別出ComMDP所忽略的一些具有重要生物學意義的驅動通路。因此,它有可能成為一種有效的補充工具,幫助我們更好地識別癌癥通路。