黃悅 王婷 胡益祥 張紅偉
摘 要:為實現肺癌的早發現、早預防、早治療,從而降低肺癌的發病概率,提高發病后的治愈效果,文章從生物醫學文獻數據庫(PubMed)收集已知的肺癌致病基因位點并建立肺癌樣本數據庫,將已建立的肺癌數據庫與樣本DNA進行序列比對,根據比對結果,判斷樣本人群是否攜帶肺癌的致病基因,然后依據美國卡內基梅隆大學的關于肺癌治療數據庫,提供預防及治療意見。
關鍵詞:肺癌;數據庫;DNA序列比對;早期發現;預防
肺部惡性腫瘤是一種多發的、嚴重的癌癥,其死亡率在全世界癌癥中居首位,肺癌高死亡率主要是因為癌癥發現時候已經是晚期[1],因此,如何對肺癌的早期發現、干預以及治療成為現代醫學熱切關注的問題。癌癥的常規療法包括外科手術、化學治療和放射治療。化學治療也被稱為藥物治療,在癌癥治療中一直發揮著重要作用,但是其結果卻受到其劑量依賴性毒性的影響,目前藥物治療的效果已經進入平臺期。而隨著對肺癌發病機制等認識日益深化,目前研究已發現一些基因與肺癌相關,包括EGFR,TP53,AKT1,DDR2,FGFR1,KRAS,PTEN等其他基因[2-8],許多針對靶基因的研究已進入臨床實驗階段。基因治療作為一種高效、特異性、靶向性強的治療方法,越來越受到廣大醫學者的重視[9]。針對肺癌的發生、發展和轉移等各個階段以及治療靶位的不同,現代基因療法可以概括為以下幾種類型:阻礙原癌基因過量表達治療、補償抑癌基因表達治療、抗血管生成基因治療、自殺基因治療和免疫基因治療[10]。另外,癌癥致病基因的早發現、早干預、早治療也是降低肺癌發病率、提高治療效果的關鍵。序列比對作為癌癥致病基因的早發現、早干預及基因治療中的關鍵步驟,以其精確的算法和高準確率正成為肺癌基因治療中的研究熱點。本研究將增大導致肺癌發生風險率的基因數據存入數據庫中,將樣本人群的測序基因同數據庫中的致病基因進行比對。根據比對結果分析是否存在患病風險,并設計相應的基因治療方案,從而實現肺癌的早發現、早干預、早治療,進而達到降低發病概率、提高治愈效果的目的。
1 材料與方法
1.1 資料和數據
從生物醫學文獻數據庫PubMed中收集文獻找出肺癌致病基因位點。從高通量基因表達譜數據庫(Gene Expression Database,GEO)中下載患者肺癌和癌旁組織樣本。每個樣本的數據大小約為15~20 GB。本項目篩選出69組癌與癌旁組織測序數據,該批樣本中男性患者共計39名,女性患者共計30名,各年齡段患者均有涉及。
1.2 方法
1.2.1 找出肺癌致病基因位點,創建肺癌DNA樣本數據庫
在高通量基因表達譜數據庫(GEO)中檢索微陣列原始數據,通過R軟件對原始微陣列數據進行標準化。利用GEO2R軟件篩選差異表達基因,并進行聚類分析。利用STRING構建由差異表達基因所翻譯的蛋白質之間的相互作用(Protein-Protein Interaction,PPI)網絡。通過Cytoscape選取具有關鍵蛋白的網絡模塊并確定樞紐蛋白,找出肺癌致病基因位點。利用MySQL創建肺癌DNA樣本數據庫,將找出的致病基因位點存入數據庫。
1.2.2 DNA序列比對技術
DNA序列比對是根據一個給定的計分函數計算得到兩個或多個堿基序列的最優比對,即對兩個或多個堿基(在核酸中是A,T(或U),C,G,在蛋白質中是氨基酸殘基的單字母表示)序列通過匹配相對應的堿基或插入“—”來顯示插入或刪除,進行相似度分析,從而得到序列之間的最大相似性排列[11]。通過序列比對,找出序列之間的相似性,發現與結構相聯系的保守序列片段,以及檢測新測定序列與數據庫中已知結構和功能的序列之間的相似性關系,從而以足夠的可信度確定新序列的結構和功能信息。研究中將已建立的肺癌數據庫與樣本DNA序列進行比對,獲得序列在基因組上的位置信息以及相應的比對結果。
1.2.3 根據比對結果提供預防及治療意見
使用美國卡內基梅隆大學的關于肺癌治療數據庫,將細胞類型、病人存活時間、狀態、患者生活質量評分、治療起始時間、年齡的數據作為輸入因子,將要預測的肺癌治療手段作為輸出因子,在分析與肺癌有關的各屬性的統計數值之后,對其中與產量有著密切關系的屬性加以著重考慮,與DNA序列比對結果進行比較,給出最佳的治療建議。技術路線如圖1所示。
2 結果
首先將已建立的肺癌樣本數據庫與用戶DNA序列進行比對,獲得序列在基因組上的位置信息以及相應的比對結果。利用C#實現序列算法將用戶序列數據回帖至樣本數據庫中以獲得序列在基因組上的準確位置。再通過聚類分析,識別錯配位點并進行多重校正算法檢驗,識別出癌與癌旁組織中的特異性位點,降低識別結果中的假陽性,為后續分析提供良好基礎。
將樣本人群的測序基因同數據庫中的致病基因進行序列比對,比對的結果反映了在多大程度上序列之間的相似性關系以及它們的生物學特征,指明序列間的保守區域和不同之處,為進一步研究它們在結構、功能的聯系提供了重要的參考依據。最后根據比對結果分析是否存在患病風險,并設計相應的基因治療方案,從而實現肺癌的早發現、早干預、早治療,進而達到降低發病概率、提高治愈效果的目的。
3 討論
本研究根據篩選出的肺癌致病基因位點建立數據庫,通過DNA序列比對算法,將樣本DNA序列和數據庫內的致病基因進行比對,檢測樣本人群是否攜帶肺癌的致病基因,實現肺癌的早發現、早預防、早治療,從而降低發病概率,提高治愈效果。
深入分析DNA序列比對與癌癥發現及預防的關系,著重從創建肺癌DNA樣本數據庫、DNA序列比對技術、分析比對結果并提供意見這3個方面進行研究。在分析肺癌基因位點并研究多序列比對技術的基礎上,提出了基于DNA序列比對的肺癌早期發現及預防方案,并采用C#程序設計語言和數據庫技術建立了框架和平臺,實現了樣本數據的集成、存儲、管理與利用,保證了各個系統之間數據可共享交換,為序列比對及治療建議提供了數據支撐,為樣本數據的集成應用奠定了基礎。
使用PubMed數據庫作為查找工具。PubMed是一個免費搜尋引擎,它提供生物醫學方面的論文搜尋以及摘要,數據庫來源為MEDLINE,核心主題為醫學。MySQL是本項目所使用的一個關系型數據庫管理系統,用來寫入包含致病基因的DNA序列,關系數據庫將數據保存在不同的表中,而不是將所有數據放在一個大倉庫內,這樣就增加了速度并提高了靈活性。MySQL目前屬于Oracle旗下產品,是最流行的關系型數據庫管理系統之一,是最好的關系數據庫管理系統(Relational Database Management System,RDBMS)應用軟件。使用C#作為實現DNA序列比對算法的主要工具,用于算法開發、數據可視化、數據分析以及數值計算的高級技術計算語言和交互式環境。
隨著生物信息學的迅速發展,國內外學者對該領域的關注度持續增高,產生了許多基于基因序列比對的算法研究。基因序列比對是生物信息學最基本、最重要的操作,是進行基因識別、信息分析、結構預測等問題的前提。本項目采用借用DNA序列比對算法對生物序列進行相似性比較,從而判斷出用戶DNA序列與肺癌樣本數據庫中序列的一致性程度。并根據設定的閾值,結合肺癌治療數據庫提供治療建議。
[參考文獻]
[1]SIEGEL R L,MILLER K D,JEMAL A.Cancer statistics[J].Ca A Cancer Journal for Clinicians,2014(1):5-29.
[2]CABANERO M,SANGHA R,SHEFFIELD B S,et al.Management of EGFR-mutated non–small-cell lung cancer: practical implications from a clinical and pathology perspective[J].Current Oncology,2017(24):111-119.
[3]LABBE C,CABANERO M,KORPANTY G J,et al.Prognostic and predictive effects of TP53 co-mutation in patients with EGFR-mutated non–small cell lung cancer(NSCLC)[J].Lung Cancer,2017(111):23-29.
[4]RAO G,PIEROBON M,KIM I K,et al.Inhibition of AKT1 signaling promotes invasion and metastasis of non-small cell lung cancer cells with K-RAS or EGFR mutations[J].Scientific Reports,2017(1):7066.
[5]FATHI Z,MOUSAVI S A J,ROUDI R,et al.Distribution of KRAS,DDR2,and TP53 gene mutations in lung cancer: An analysis of Iranian patients[J].PLoS One,2018(7):633.
[6]MALCHERS F,ERCANOGLU M,SCH?TTE D,et al.Mechanisms of primary drug resistance in FGFR1-amplified lung cancer[J].Clinical Cancer Research,2017(18):5527-5536.
[7]VANDERLAAN P A,RANGACHARI D,MOCKUS S M,et al.Mutations in TP53,PIK3CA,PTEN and other genes in EGFR mutated lung cancers: correlation with clinical outcomes[J].Lung Cancer,2017(106):17-21.
[8]PROS E,LANTUEJOUL S,SANCHEZ-VERDE L,et al.Determining the profiles and parameters for gene amplification testing of growth factor receptors in lung cancer[J].International Journal of Cancer,2013(4):898-907.
[9]HANNA E,R?MUZAT C,AUQUIER P,et al.Gene therapies development: slow progress and promising prospect[J].Journal of Market Access & Health Policy,2017(1):1265293.
[10]PRABHA S,SHARMA B,LABHASETWAR V.Inhibition of tumor angiogenesis and growth by nanoparticle-mediated p53 gene therapy in mice[J].Cancer Gene Therapy,2012(8):530-537.
[11]謝少榮,王東紅,羅均,等.基于生物信息學中雙DNA序列比對算法的圖像立體匹配及其實現[J].光學精密工程,2007(1):106-111.
Abstract:In order to achieve early detection, early prevention and early treatment of lung cancer, thereby reducing the incidence of lung cancer and improving the healing effect after onset, the article collected known lung cancer pathogenic gene loci and established lung cancer samples from the PubMed database. The database compares the established lung cancer database with the sample DNA, and judges whether the sample population carries the disease-causing gene of lung cancer according to the comparison result, and then provides prevention and treatment advice according to the database of lung cancer treatment of Carnegie Mellon University.
Key words:lung cancer; database; DNA sequence alignment; early detection; prevention